学习爬虫， XPath、beautifulsoup、正则表达式推荐学哪一个？

最近在学爬虫。发现最关键的就是定位 HTML 中的目标内容并将其抓取赋值给变量再进行分类存储。我发现 XPath 、beautifulsoup 、正则表达式都可以完成 HTML 目标内容的定位和抓取（正则表达式主要是定位内容）。那么哪一个技术学习成本最低，兼容性最好（兼容性主要指在各种特殊 HTML 网页中都可以准确定位目标内容）。我目前初步学习，感觉正则表达式学习成本最高。希望听高手推荐一下。推荐的同时希望给出详细的推荐理由。多谢了！

HTML

xpath

兼容性

定位

17 replies

wgit

Aug 27, 2023

不是应该先学 js 逆向吗
学完逆向应该就不会考虑现在这个问题了

Rang666

Aug 27, 2023 via iPhone

只是会用这几个玩意的水平的话一天不都能搞定了？

runningman

Aug 27, 2023

都可以学学，每个用的地方不同，解决的问题也不同。

daisyfloor

Aug 27, 2023

我主要是用 beautifulsoup ，正则也得会一些处理一些特殊情况。

joApioVVx4M4X6Rf

Aug 27, 2023

学 parsel 吧，到时候学 scrapy 就省得学解析库了

kice

Aug 27, 2023 via Android

按照标题来说的话，要问怎么选择 HTML 里面的元素？

学习成本最低的算是 CSS selector ，看上去你误以为是 beautiful soup 了（只能这样猜测）。

其次是正则表达式，最后再是 XPath 。

兼容性的话，最高应该是 XPath ，虽然绝大部分情况用 CSS selector 就能解决。

但是在特殊情况下，正则表达式是绝大部分语言

如果使用正则表达式需要自己处理 HTML 里面的 escape characters ，

kice

Aug 27, 2023 via Android

@kice 手机卡了，然后不知道为什么就提交了。。。

但是，正则表达式是绝大部分语言都能用，目前主流语言标准库都自带。其他两种方法都需要解析整个 HTML 文档，理论上还有性能问题。

如果使用正则表达式需要自己处理 HTML 里面的 escape characters ，不过处理也不难。

XySy0h7mNA9Bv5NW

Aug 27, 2023

xpath, 熟悉之后写起来又快又舒服

administrations

Aug 28, 2023

xpath 配合相应插件辅助提取目标用着爽歪歪

fbichijing

Aug 28, 2023

权做抛砖引玉。
lxml -> xpath 选择器
beautifulsoup -> CSS 选择器
解析的话一般来说是这两种选择一种，解析规范的 html 大多数情况下多数使用这两种选择器而不是正则。一些特殊情况和字符串处理则使用正则。印象中 lxml 底层是使用 C ，而 beautifulsoup 是 python 实现，似乎是 lxml 效率更高一些。两者选择自己喜欢擅长的那种就可以了。
爬虫的难度如楼上所说，是如何获取到网页源码和参数构造，反而解析和入库是比较简单的步骤了。

huruwo

Aug 28, 2023

爬虫要学的是逆向风控指纹滑块

Maerd

Aug 29, 2023

xpath 和正则是都要学的，bs 可以不学

huzhikuizainali

Aug 29, 2023

@huruwo 现在的云打码平台不能解决滑块对齐问题么？

huruwo

Aug 29, 2023

@huzhikuizainali 打码平台勉强可以针对特定类型，后面还有账号问题。风控限制问题，设备问题，ip 代理问题，签名算法问题，

Luzaiv7

Sep 11, 2023

@huzhikuizainali 做到最后还是要自己搞滑块的，而且逆向风控账号这些才是学起来最麻烦的，你把 xp 和正则简单学学能用就行了，现在大部分都是 json 的数据

huzhikuizainali

Sep 13, 2023

@huruwo 有什么书籍推荐么？主要内容是针对反爬的。

huruwo

Sep 14, 2023

@huzhikuizainali 书本都是落后的，应对不了最新的对抗。js 基础打好就行，再就是进圈子找人学习最新的对抗方法。