最近使用 kimi 这个 AI，有个疑问，它是如何获取网页内容的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 380 天前的主题，其中的信息可能已经有所发展或是发生改变。

kimi 总结网页内容的能力很好用，但使用过程中发现，无论是否是服务端渲染的页面、静态生成的页面或请求接口拿详情的动态页面，kimi 都能获取并总结网页内容。

按我的理解，静态页面或服务端渲染的页面 kimi 直接解析 html 就行，但动态页面应该是要具体分析相关接口响应的内容才能解析的。

像 kimi 这种给任意 url ，实时分析网页内容，大家有什么大致的实现思路吗？

kimi

网页内容

动态页面

20 条回复 • 2024-04-25 21:30:05 +08:00

NerbraskaGuy

2024-04-10 21:53:56 +08:00

我想到的一个测试方法是找个页面里面只有图片，看他能不能提炼图片上的文案

BeautifulSoup

2024-04-10 22:01:30 +08:00

背后就是搜索引擎的 bot ，谷歌能拿到的东西，他都能拿到。所以这一套东西加上大模型，叫做检索增强 RAG

webszy

2024-04-11 00:43:13 +08:00

爬虫呗，像我最常用的就是 puppeteer 。当人这些公司会有更牛逼的人写

foolishcrab

2024-04-11 01:46:38 +08:00 via iPhone

headless browser
搜搜看看就懂了

yqcode

2024-04-11 02:46:42 +08:00

估计是无头浏览器用于去获取网页内容，但是用户量一多，无头浏览器也占资源，不清楚有没有更优解的，否则就是叠业务机器，而大模型的能力就不需要内容去整理得多规范，只需要按照读文本总结那样去做处理？当然用户量多要考虑的优化细节就不少了，如何用尽可能少的提示词去得出尽可能准确的答案，也是一个研究的大方向。。。

noahlias

2024-04-11 07:59:38 +08:00

官方描述的是第三方抓取网页等
```
是否开放类似 Kimi 智能助手中的搜索接口？

目前并没有开放搜索的计划，API 用户可以使用例如 Apify 、Crawlbase 或者 ArchiveBox 等第三方解决方案。
```
但是之前看同类型 elmo.chat 介绍类似的技术方案的时候 html parser 用的是阅读模式
( https://github.com/mozilla/readability)

详情可以看这个技术方案介绍
https://x.com/yadong_xie/status/1774672630194520283

SayHelloHi

2024-04-11 08:43:52 +08:00

可以看看这个项目

https://github.com/searxng/searxng

https://docs.searxng.org/dev/search_api.html#search-api

noahlias

2024-04-11 08:48:15 +08:00

@SayHelloHi 这个不一样好吗这个是用 metasearch +webarchive 来获取搜索信息的它等同于搜索引擎
而且需要你部署一个服务也不是实时的而且它只获取了网站的 snippet 和 bing/google 这些搜索引擎 API 返回的结果差不多然而你要获取网站的大纲和详细信息一定是要用到 html parser 的

dbak

2024-04-11 09:22:05 +08:00

我相同的问题问了 kimi 和 chat-gpt 给出了一样的答案这是为鼠么呢

GGMM

2024-04-11 09:34:46 +08:00

https://www.deeplearning.ai/the-batch/issue-243/

这篇博客简单介绍了 LLM 如何访问网页，以及总结信息，也就是二楼说的 RAG 技术。用原本搜索引擎拿到的结果作为上下文给 LLM 使用，降低模型胡言乱语的程度。

hnliuzesen

2024-04-11 10:04:06 +08:00

无头浏览器？不过也不是所有网页都能获取内容的，我遇见过提示说无法访问我提供的网页的。

fredweili

2024-04-11 10:18:13 +08:00

都有 SerpApi 这种成熟工具了，langchain 也有提供

nedqqcc

2024-04-11 11:13:29 +08:00

@yqcode headless browser 直接长期开着当服务端，url 进 mq ，然后 browser worker 从 mq 取 url 爬就完事了人，scrapy 扩展项目不少这种

encro

2024-04-11 13:50:34 +08:00

@webszy 说不定和你一样呢，puppeteer 不就谷歌吗

AoEiuV020JP

2024-04-11 15:30:36 +08:00

感觉并没有真的解析动态网页，我问个 flutter 版本它死活回答不对，直接给链接就告诉我没有列出版本号，

binaryify

2024-04-11 19:37:50 +08:00

@AoEiuV020JP 会解析的,之前用 it 之家最新的文章丢过去,分析出来的和那篇文章是对的上的,就几分钟前发布的文章

spicynotes

2024-04-11 22:27:32 +08:00

@dbak 100%一样吗？能转发看下？

allentown0406

2024-04-12 14:38:05 +08:00

headless browser

noahlias

2024-04-14 11:55:48 +08:00

@AoEiuV020JP 我看了一下因为阅读模式确实他的确没有解析出来一些结果

这让我确信它确实用到了一些 html 的 parser
但是当你用一个插件（ https://chromewebstore.google.com/detail/kimi-copilot-%E7%BD%91%E9%A1%B5%E6%80%BB%E7%BB%93%E5%8A%A9%E6%89%8B/icmdpfpmbfijfllafmfogmdabhijlehn)
结果效果相当好

但是当你深入问一些详细信息的时候说明 parser 还是不够好因为它是读取 html 进去的一些表格信息并没有正确排列

另一个 elmo.chat 它应该是利用了生成的 html 但是详细信息也是没识别到在乱说

pth1040080742

2024-04-25 21:30:05 +08:00

我最近也写了一个 kimi 小助手的浏览器插件，里面也实现了网页总结的功能。

https://www.v2ex.com/t/1034877#reply9

可以简单说下网页总结的实现思路：
1. 当页面渲染完成后，将 html 提取出来（指定区域），然后去标签，取出人类可阅读的文字再喂 kimi 进行总结
2. 如果是视频网页，则通过技术手段获取字幕，再喂给 kimi