V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  coderhxl  ›  全部回复第 2 页 / 共 4 页
回复总数  75
1  2  3  4  
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@bubble21 这是个很不错的点子,现在暂不支持,后续会考虑加上哦
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@CAze 原理差不多是这样,但是如果仅仅是告诉 AI 要拿哪些数据,效果可能还不是很好
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@terranboy 不太能理解你这个问题
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@terranboy URL 就是根啊,没了根用哪种方式都没用
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@zhangfeiwudi AI 辅助爬虫,算是让 AI 筛选数据
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@terranboy 依赖于固定的规则或模式来抓取网页数据的爬虫不也是这样,而且一旦网站进行更新,改变了原有的类名、标签或结构,传统爬虫就会因为无法识别新的元素而失效,导致数据抓取失败或错误。AI 辅助爬虫能够智能地分析和理解网页内容,从而更准确地定位并提取所需信息。通过自然语言处理等技术,它们能够理解网页的语义信息,从而更精确地定位所需数据,即使网站进行了更新,AI 辅助爬虫也能继续有效地抓取数据。当然成本也很高
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@kevin1452 目前咱们是将 HTML 交给 AI 通过自然语言提取数据,结合 AI 技术的爬虫能够更好地应对网站更新后类名或结构改变的问题。像代理,设备指纹 x-crawl 也有,只是并非这篇文章的主题就没有写,https://coder-hxl.github.io/x-crawl/cn/guide/#features 可以瞧瞧这里
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@CAze 好办法,可以讲解一下思路不
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@ashuai 这样既能体验 AI 的便捷,又消耗不那么大
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@ashuai 也可以这么做,第一次爬取的时候缓存路径,后面让传统爬虫用缓存路径的,如果错误就调用 AI 重新获取路径再缓存。
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@GeekGao 哈哈,毕竟自己动手还是挺麻烦的
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@1018ji 我都要,传统爬虫 + AI ,毕竟将整个 Body 传进去还是消耗很大的
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@MapleEve 示例中用的也是 传统爬虫 + AI ,毕竟将整个 Body 传进去还是消耗很大的
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@clemente 文章太长也没办法,要不咱看看前言和总结部分的内容,也感谢您的评论哈
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
感谢各位大佬的评论和提供的建议!
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@luozic 对的,x-crawl 也有很多功能能稳定爬取到数据,像重试,代理,设备指纹... 可以瞧瞧这里 https://coder-hxl.github.io/x-crawl/cn/guide/#features
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@barat puppeteer 用于模仿人类的行为,当然也可以用其他的获取页面内容
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@hahahaii 但是还是要考虑生成的函数如何应对通用爬虫的场景
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@triangle111 对的,所以最好两者结合起来用,可以先获取 Body ,然后对 Body 内的一些元素进行删除,特别是 script 和 svg 这两个的内容,内容越多消耗的资源也就越多,而且还没啥用。这样就能以最小的代价利用 AI 爬取数据。
244 天前
回复了 coderhxl 创建的主题 推广 传统爬虫 还是 AI 辅助爬虫?该怎么选?
@ayang23 好方法,只是解析函数是如何应对通用爬虫的场景
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   843 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 21:07 · PVG 05:07 · LAX 13:07 · JFK 16:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.