求教:初学 python,写了一个搜集豆瓣图书评价信息的爬虫, 但是运行时间过长. - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3988 天前的主题，其中的信息可能已经有所发展或是发生改变。

主要是里面的一个正则表达式在处理文本的时候用很长时间,导致程序几乎不可用.
turple_list = re.findall(r'href="(http://book.douban.com/subject/\d+?/)"\s+?title="(.+?)".+?"rating_nums">(.+?)<.+?class="pl">.+?(\d+?)人评价)',text,re.DOTALL)

有没有什么办法改进呢?

求指教.

源代码:https://github.com/nexusfool/project_code/blob/master/s_book.py

16 条回复 • 2015-04-01 13:33:25 +08:00

1

ljcarsenal

2015 年 3 月 11 日

1

用标签筛选器会不会快点。。

2

cxshun

2015 年 3 月 11 日

1

正则表达式会慢很多，既然是HTML，建议用xpath。

3

JoeShu

2015 年 3 月 11 日

1. 用scrapy
2. 用requests+beautifulsoup+multiprocess

4

joddeapple

OP

2015 年 3 月 11 日

@cxshun
@ljcarsenal
这两种东西都是第一次听到,谢谢

5

joddeapple

OP

2015 年 3 月 11 日

@JoeShu 我去看看,谢谢

6

egrcc

2015 年 3 月 11 日

确定是正则表达式的问题？正则的速度应该不慢才对

7

chevalier

2015 年 3 月 11 日

用scrapy自带的xpath试试，也很快

8

ericls

2015 年 3 月 11 日

如果想学习
建议asyncio + 各种选择器

9

icedx

2015 年 3 月 11 日

Python 的正则能用?

10

binux

2015 年 3 月 12 日

3

你的问题出在 .+? 和 re.DOTALL 上

.+? 全字符匹配，导致匹配栈太深
re.DOTALL 导致文字过长

一般情况下，正则是比建树要快的，但是你正则写得太烂也没有办法

11

icedx

2015 年 3 月 12 日

1

本来是想写个完整版的
但是看到虫子菊楼上回了... 唉...
身为弱渣的我...

一半将就看吧
https://gist.github.com/anonymous/9cc4e94afb244f335fee

12

hiddenman

2015 年 3 月 12 日

豆瓣是学习爬数据的天堂。。

13

StrayBugs

2015 年 3 月 12 日

大致看了一下，主要应该不是正则的问题，而是你把所有的结果都合并成一条 string 了。页与页都是独立的，你用 list 放每个页面，再分别匹配就好啦。

14

zhcheng

2015 年 3 月 12 日

我不会。最近在学Python 。
下面是收藏的一个来自知乎 [关于Python 实现爬虫] 的回答，有提到性能优化。希望有所帮助

http://www.zhihu.com/question/20899988/answer/24923424

15

joddeapple

OP

2015 年 3 月 15 日

谢谢大家的帮助.

16

ming2281

2015 年 4 月 1 日

一般爬虫运行得比较慢的话,我基本转向threading和multiprocessing

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 4723 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 40ms · UTC 06:14 · PVG 14:14 · LAX 22:14 · JFK 01:14
♥ Do have faith in what you're doing.