最近在研究爬虫,发现多个网站都有 js 翻页的内容,实在不想一个个配模板用 xpath 来解析.想请教各位大神有没有好的思路.
1
ferrum 2015-11-08 23:02:33 +08:00 via iPhone
JS 翻页一般也是发送 post 请求的,看看包的内容,然后模拟。
|
4
eoo 2015-11-09 01:24:12 +08:00 via Android
无非就是用了无刷新翻页而已 ,抓包就能看到 GET 的参数 。
|
5
ysjdx OP |
6
breeswish 2015-11-09 08:19:45 +08:00
百度对于 ajax 翻页的当然是抓不到了 ╮(╯▽╰)╭
|
8
oott123 2015-11-09 09:59:59 +08:00 via Android
通用的? CasperJS 行么
|
9
Arrowing 2015-11-09 10:29:06 +08:00
用 phantomjs 咯, casperjs 也是基于 phantomjs 开发的
后台的 webkit ,满足你的要求 |
10
tonyVex 2015-11-09 11:45:32 +08:00
有些网站的数据都是 ajax 生成出来,那样的怎么处理?找到请求入口,模拟提交?
|
12
w3hacker 2015-11-09 14:35:06 +08:00
既然是 ajax 的 就有路径 你可以直接通过这个路径获取到数据吧 不过不行 只能用 phantomjs 、 caperjs 了 也很简单
|
13
Light3 2015-11-09 21:59:24 +08:00
ajax 会有提交然后返回参数 你可以看看那个能抓到不
|