1
appleandbanana 2016-04-06 14:14:09 +08:00
我最近也在弄 scrapy+phantomjs 诶,楼主留个联系方式啊,咱一起研究研究~
|
2
chinvo 2016-04-06 14:21:12 +08:00
如果 phantomjs 没提供异步方法的话,一个来自 php 的思路:
用 phantomjs 封装个 web api 或者 unix socks 什么的,爬虫的 parse 里面去调用,不等待返回。 |
3
Yc1992 OP @appleandbanana 如果没有特别的限制,建议你用 scrapyjs ,比 phantomjs 好用得多,加上一个中间件,渲染效果很好。
|
4
cxh116 2016-04-06 14:25:33 +08:00
|
6
appleandbanana 2016-04-06 14:26:52 +08:00
@Yc1992 那我看看去,谢啦~
|
10
davidzhang 2016-04-06 15:07:54 +08:00
目前偶的已经上线了,并且在运行了,就是网络流量会很大
|
11
Yc1992 OP @davidzhang 使用 splash 服务的 scrapy 爬虫吗?
|
13
cxh116 2016-04-06 16:04:16 +08:00
@Yc1992 splash 不一定要 docker .你觉得不麻烦, 手动安装到 linux 系统也可以. docker 只是为了省事,不用手动编译安装.
http://splash.readthedocs.org/en/latest/install.html#ubuntu-14-04-manual-way |
16
WildCat 2016-04-06 16:09:20 +08:00
最近上了 node 用 nightmare ,基于 electron 的,楼主可以试试这个如何。我觉得性能不错。就是任务调度你得自己写了
|
17
knightdf 2016-04-06 16:58:21 +08:00
因为 phantomjs 本来就很慢,然后你这个可以直接用 phantomjs 来写一个下载器中间件
|
20
ffwalle 2016-04-07 00:39:14 +08:00
python GIL 单线程,不管你怎么搞,它就是单线程。
本身做爬虫就不应该用那些什么 scrapy 一类的框架,应该因地制宜结合实际情况,自己做结构。 如果真的特别关心性能,应该考虑用 java 一类的能真正充分利用 cpu 的来做。 不过,总体来讲,更多的,应该考虑带宽,以及防屏蔽机制。 |