麻烦帮我看看下面的代码,我这里在最后会报错,不知什么原因.
gevent.hub.LoopExit: ('This operation would block forever', <Hub at 0x2f62af8 select default pending=0 ref=0>)
还有我这段代码有什么问题吗?有哪些地方可以优化,求赐教.
我是新手,代码可能比较 low,求"教做人".
谢谢. (还请jiandan同学放过....我就是学习下)
# -*- coding:utf-8 -*-
import gevent
import gevent.queue
import requests
from lxml import etree
url_queue = gevent.queue.JoinableQueue(100)
headers = {
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
}
def spider():
while True:
url = url_queue.get()
if url is None:
url_queue.task_done()
break
try:
html = requests.get(url, headers=headers, timeout=1).content
selector = etree.HTML(html)
title = selector.xpath('//a[@href="%s"]/text()' % url)[0]
print(title)
except Exception as e:
print(e)
if __name__ == '__main__':
urls = [
'http://jandan.net/2016/09/22/migrants-choice.html',
'http://jandan.net/2016/09/22/farting-really-good.html',
'http://jandan.net/2016/09/22/special-cleaner.html',
'http://jandan.net/2016/09/22/hand-mobile-phone.html',
'http://jandan.net/2016/09/22/beer-you-order.html',
'http://jandan.net/2016/09/22/pigeons-can-read.html',
'http://jandan.net/2016/09/22/snake-inter-species.html',
'http://jandan.net/2016/09/21/north-koreas-internet-2.html',
'http://jandan.net/2016/09/21/mona-lisa-overrated.html',
'http://jandan.net/2016/09/21/antikythera-ancient-skeleton.html',
'http://jandan.net/2016/09/21/mentality-fish.html',
'http://jandan.net/2016/09/21/things-smuggled-space.html',
'http://jandan.net/2016/09/21/water-bear.html',
'http://jandan.net/2016/09/21/oldest-fishing-hooks.html',
'http://jandan.net/2016/09/21/b-21-raider.html',
'http://jandan.net/2016/09/21/paper-cuts-hurt.html',
'http://jandan.net/2016/09/21/cat-ecological-disaster.html',
'http://jandan.net/2016/09/21/pluto-owns-heart.html',
'http://jandan.net/2016/09/21/a-teenage-girl.html',
'http://jandan.net/2016/09/21/light-drive-men.html',
'http://jandan.net/2016/09/21/ai-analyses-mammograms.html',
'http://jandan.net/2016/09/21/burnt-cheese.html',
'http://jandan.net/2016/09/21/black-hole-spaghetti.html',
'http://jandan.net/2016/09/21/womens-pubic-hair.html'
]
for url in urls:
url_queue.put(url)
threads = []
for i in range(1, 3):
threads.append(gevent.spawn(spider))
gevent.joinall(threads)
上面判断queue为空应该改成
if url_queue.empty():
url_queue.task_done()
break
url = url_queue.get()
这样就不报错了
但是我还是不知道这样使用协程gevent是否正确?
怎么感觉对IO阻塞没有起到任何作用呢?
1
Sylv 2016-09-22 15:35:03 +08:00 via iPhone
哈,邀请煎蛋网首席技术官 colt 前来围观 @kungfuchicken
|
2
JianBingXia OP @Sylv 666
|
3
sylecn 2016-09-22 15:46:17 +08:00
看到好几个问题:
1. 为什么要自己写 Queue ,不用 gevent.pool? 2. 为什么用了 reqeusts 但是没有做 monkey patching ?这样引入 gevent 的好处全没了。 3. spider() 的 while 循环,队列和 gevent thread 的使用,这里是一团糟。 如果只是为了功能,建议全部用 gevent.pool 重写。如果想自己学着用 blocking queue ,需要先继续学习,然后重写。可以多看看别人的代码。学习内容不需要局限在 python 和 gevent. 多线程的东西都是相通的。 |
4
JianBingXia OP @sylecn 十分感谢,我这就去"补课"
|
5
qwer1234asdf 2016-09-22 17:09:52 +08:00 via iPhone
@sylecn 如楼主代码所示,即使没打猴子布丁也不能说没有了一点 gevent 的作用了吧,打上了,只是将 python 里的很多调用改成了携程方式而已……不知道我的理解对不对
|
6
qwer1234asdf 2016-09-22 17:15:50 +08:00 via iPhone
@sylecn 另外,文档也声明猴子布丁是 evil 的,我目前也在一个爬虫中用到了 gevent ,遇到了两个问题:其一,我的爬虫运行时会有插入数据库的操作,打上布丁后,一直报数据库连接池益处的错误,这个倒是通过增大连接池解决了。另一个问题是,爬虫跑着的时候,会莫名其妙的报段错误,没打布丁前,从未出现过这个问题……
|
7
qwer1234asdf 2016-09-22 17:25:31 +08:00 via iPhone
@sylecn 最后,我以为,楼主这种方式,携程的粒度比较大……我也是类似的方式,不过没有用到 queue 之类的……爬到了数据直接入库和存盘
|
8
kungfuchicken 2016-09-22 18:06:55 +08:00 2
已经关注,反爬虫系统规则跟着楼主更新....
|
9
sylecn 2016-09-22 18:20:38 +08:00
>> 即使没打猴子布丁也不能说没有了一点 gevent 的作用了吧,打上了,只是将 python 里的很多调用改成了携程方式而已……不知道我的理解对不对
@qwer1234asdf 这个程序主要的阻塞就是在 requests.get(),这里没有做 monkey patching 等同于整个程序是同步的。你可以把正确实现的版本,使用 monkey patching 和不使用,执行时间做一个对比。取决于你的网络状况和使用的 gevent 线程数,使用 monkey patching 的版本应该快好几倍。 在 gevent, tornado 这种基于 coroutine 的异步机制下,只要一个严重耗时的地方阻塞,其它地方不阻塞就失去意义了,因为所有代码都是在一个 OS 级别的 thread 来执行的。 >> 文档也声明猴子布丁是 evil 的 以及你的数据库问题 gevent 不是万能的。测试其它软件库和 gevent 的兼容性是软件作者的责任。如果同时使用 gevent 和数据库,就要用支持 gevent 的数据库连接资源池。这些在 gevent 文档或者示范代码里面有。 >> 最后,我以为,楼主这种方式,携程的粒度比较大 这个我就不回复了,如果要讨论颗粒度,你先把正确代码摆出来再讨论比较好。 |
10
lennyh 2016-09-22 18:44:49 +08:00
为什么要用 gevent ? Python 3.5 的 async/awati 不是很好用吗……
|
11
qwer1234asdf 2016-09-22 20:54:45 +08:00 via iPhone
@sylecn mark 一下
|
12
JianBingXia OP @kungfuchicken :-) 看我的眼神= =
|