写爬虫时遇到的问题有关js

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4355 天前的主题，其中的信息可能已经有所发展或是发生改变。

使用python的urllib2但是页面中的链接是通过js生成的，所以获取不到，应该如何做呢？
看到类似问题：http://stackoverflow.com/questions/4720342/python-processing-javascript-with-urllib2

urllib2

Python

11 条回复 • 2015-03-04 21:49:35 +08:00

shellex

2012-12-20 15:15:16 +08:00

我之前写了一个东西也遇到这个问题，很多东西是js生成的。考虑到js的执行还依赖页面环境，折腾这些好麻烦。

我想要一个糙快猛的方法，于是考察了 http://seleniumhq.org/ 这种东西，不过觉得还是麻烦，我的最终解决方案是写了一个浏览器插件，然后让浏览器解决js生成页面的问题。当然，代价是运行这样的程序需要一个图形环境。。。

我倒是希望有一个不依赖图形环境的库，给一个url，过一会儿，糙快猛地把解析好的页面递过来。

shellex

2012-12-20 15:16:24 +08:00

补充一下，stackoverflow上的回答应该是正道，只不过实现起来麻烦...