想解放人力.浏览器插件是否可以代替爬虫?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 468 天前的主题，其中的信息可能已经有所发展或是发生改变。

老婆是做数据分析的,每天就是用 pandas 处理各种原始 excel.但是 excel 来自于第三方服务的管理后台(xx 商家版),需要用指定账号登录上去下载.

数据处理过程已经很自动化了.现在就是这个原始 excel 下载蛮烦人的,每天都要做. 想解决这个问题,打通全流程.

最开始想的是爬虫,毕竟 python 做起来也方便.我用 postman 尝试了下,各种加密头,还得从登陆流程开始分析,没做过这方面,还是有点难度.

我本职是前端开发,最近再看浏览器插件,感觉这东西能做的也挺多的,似乎也可以实现点击按钮下载文件的功能,而且直接绕过了第三方的接口安全校验,要是能调起本地 python 就更好了...

对此产生了一个想法:是否大部分需要爬虫的地方都可以用对应的浏览器插件来代替呢?

10 条回复 • 2024-08-30 18:32:14 +08:00

weixind

2024-08-30 15:58:13 +08:00

起个 playwright 爬就完事了。

Y25tIGxpdmlk

2024-08-30 15:58:57 +08:00

python 我记得不是有模拟浏览器的库吗，类似 selenium 之类的。

py 虽然不用，但是我知道这类轮子已经有很多人找好了。当然你说的直接写插件也可以

BruceXu

2024-08-30 16:00:08 +08:00

@weixind #1 卧槽老哥.我发现新大陆了.这东西很有意思啊..

19cm

2024-08-30 17:13:41 +08:00

直接写个油猴脚本模拟点击下载不就行了

hrdom

2024-08-30 17:28:45 +08:00

总之就是不大批量爬的话不要逆向 js ，而是模拟个浏览器环境

wangee

2024-08-30 17:31:01 +08:00

你都用浏览器插件了，不如用浏览器自动化工具。我倒不推荐 playright ，简单的数据抓取可以用这个：

https://github.com/g1879/DrissionPage

wutongshuxia

2024-08-30 17:44:59 +08:00

wutongshuxia

2024-08-30 17:46:35 +08:00

@wutongshuxia 之前写的一个自动化框架，只要配一下 json 就行

NoOneNoBody

2024-08-30 17:54:24 +08:00

上周用油猴自动爬了 2w+页面，用无头总是被 cloudfare 拦截，懒得研究 cookies ，干脆开油猴上，反正也不多

kamal

2024-08-30 18:32:14 +08:00

可以试试影刀