1
shellex 2012-12-20 15:15:16 +08:00 1
我之前写了一个东西也遇到这个问题,很多东西是js生成的。考虑到js的执行还依赖页面环境,折腾这些好麻烦。
我想要一个糙快猛的方法,于是考察了 http://seleniumhq.org/ 这种东西,不过觉得还是麻烦,我的最终解决方案是写了一个浏览器插件,然后让浏览器解决js生成页面的问题。当然,代价是运行这样的程序需要一个图形环境。。。 我倒是希望有一个不依赖图形环境的库,给一个url,过一会儿,糙快猛地把解析好的页面递过来。 |
2
shellex 2012-12-20 15:16:24 +08:00
补充一下,stackoverflow上的回答应该是正道,只不过实现起来麻烦...
|
4
binux 2012-12-20 15:19:25 +08:00 3
@shellex 所以你需要的是 code.google.com/p/phantomjs/
|
5
clowwindy 2012-12-20 15:23:56 +08:00
用过 pyqt,selenium,jsdom。它们都太耗 CPU 了,解析少量的网页还可以,上百万的话就无力了。如果你做的不是通用爬虫,而是垂直爬虫,最好手工分析页面,找到 json 地址,提取结构化数据。
|
10
workaholic 2013-03-21 15:11:38 +08:00 1
可以看看我的站 专注爬虫技术研究 v2sk.com
|
11
zxmqwer 2015-03-04 21:49:35 +08:00
@workaholic 这个网址打不开了啊 有个问题想请教下您。
|