V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
gydi
V2EX  ›  分享创造

分享一个用于增强 RAG 应用的模块 — Web Scraper

  •  
  •   gydi ·
    zzzgydi · 14 天前 · 1151 次点击

    最近自己在做一个 RAG 应用,感兴趣的朋友可以尝试一下,https://www.zbyai.com

    其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容,这个内容需要处理一下对 LLM 友好一点( Token 少一点),所以我选择处理成 Markdown 。

    所以就有了这么一个项目: https://github.com/zzzgydi/webscraper

    原理比较简单:使用无头浏览器或者直接 GET 请求,然后用 Readability.js 进行优化,然后 html 转 markdown 。然后每个请求默认 5 秒超时。

    使用:u 后面加对应的 url 链接即可。

    curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper
    

    也可以用 POST 请求:

    curl -X POST -H "Content-Type: application/json" \
         -d '{"url_list":["https://github.com/zzzgydi/webscraper"]}' \
         https://scraper.zbyai.com/v1/scrape
    

    可以用 demo 看看效果: https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper ,也可以自行 docker 部署。

    8 条回复    2024-04-15 20:05:40 +08:00
    lchynn
        1
    lchynn  
       14 天前
    楼主这服务好像可以代替穷人版免费科学上网 :P
    gydi
        2
    gydi  
    OP
       14 天前
    @lchynn 实际上好像不太行,现在谁上网只能看字呢
    lchynn
        3
    lchynn  
       14 天前
    @gydi 代替需要科学上网的 rss 的啊,新闻网站或者 blog
    lchynn
        4
    lchynn  
       14 天前
    另外这个原站和最近热门的秘塔 AI 和 perplexity 对比下,好像搜索来自的信源有些差别?
    gydi
        6
    gydi  
    OP
       14 天前
    @chensitong https://scraper.zbyai.com/?u=https://next.api.aliyun.com/document/Ecs/2014-05-26/DescribeInstances&headless=false

    你看这个就有结果了,只不过还得需要 headless (狗头,现在设置的超时时间偏短
    gydi
        7
    gydi  
    OP
       14 天前
    @chensitong 测了一下,大概要 10 多秒才能有结果
    gydi
        8
    gydi  
    OP
       14 天前
    @lchynn #4 你是说 zbyai.com 这个吗,现在我的用搜索是自建的 searXNG
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4447 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:51 · PVG 17:51 · LAX 02:51 · JFK 05:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.