V2EX › saximi 的所有回复 › 第 5 页 / 共 11 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 11

❮

❯

2017-09-22 21:19:29 +08:00

回复了 saximi 创建的主题 › Python › 请推荐关于 Scrapy 包用法的中文版学习资料

@toono 非常感谢您的耐心答复！关于您的爬虫代码，还有两个问题请教：

1、douban.py 中构造下一页网址的语句如下

next_page = response.xpath('//span[@class="next"]/a/@href').extract_first()

next_page_url = self.start_urls[0] + next_page

从豆瓣首页来看，第一条语句运行后的结果是 next_page = 'https://www.douban.com/group/explore?start=30'

因为 start_urls = ['https://www.douban.com/group/explore'] ，所以 self.start_urls[0]就是 'https://www.douban.com/group/explore'

所以第二条语句运行即为 next_page_url = 'https://www.douban.com/group/explore' + 'https://www.douban.com/group/explore?start=30'

这明显就不是合法的 URL 了，请问我这个看法是否正确呢？谢谢

2、pipelines.py 中的 ImagesDownloadPipeline 类，没有实现 process_item()方法，这个类实际上是不会起作用的吧？

pipelines.py 中 MongoDBPipeline 类的 process_item()方法并没有 return item，是不是这个类也不会起作用？

2017-09-21 22:32:36 +08:00

回复了 saximi 创建的主题 › Python › 看了 scrapy 官方说明文档，遇到几个问题恳请大家指点

@PythonAnswer 我用的 scrapy 是最新的，但是看的文档是 http://scrapy-chs.readthedocs.io/zh_CN/latest/ 这个网址的 0.25 中文版本，因为英文不好，所以只好看中文版本。
那张 png 的图我看了，我知道中间件是按照右侧带的序号作为顺序来执行的，但是我不知道反正都是下载器中间件，为何要强调靠近引擎还是靠近下载器，这毕竟和执行顺序无关，做这个强调有什么意义么？

2017-09-21 22:25:33 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@toono 您代码中的 DoubanCookieChangeMiddleware 类用于动态改变 cookie。但是在 douban.py 程序中并没有输入用户和密码的登录动作，为什么会有 cookie ？

2017-09-21 20:33:00 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@fiht 不知为何，我点击“显示 Gist 代码”没有任何显示，直接把网址复制到浏览器也打不开，看不到代码呢

2017-09-21 20:10:38 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@toono douban.py 这个代码是否是写得比较早，从现在的页面来看，下面的语句中 class 为 topic-content 的标签是不存在的？

item['body'] = response.xpath('//div[@class="topic-content"]')

2017-09-21 19:48:39 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@toono 在您的爬虫代码中 from_crawler()方法里有这个语句

crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

请问哪里可以找到对 signals.connect() 这个函数的详细用法说明？谢谢！

2017-09-21 19:24:07 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@toono

我学习了您上传的爬虫代码，有一些问题想请您指点。万分感谢了！
1、middlewares.py 中 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都是下载中间件，为何前者定义中声明了__init__方法，但后者却没有？

2、middlewares.py 中 MyAgentMiddleware 的__init__方法为什么要这个参数：user_agent=''

3、我看了 scrapy 0.25 的官方说明文档，里面提到：“ process_request() 必须返回其中之一: 返回 None、返回一个 Response 对象、返回一个 Request 对象或 raise IgnoreRequest ”
但是您的 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都没有 return 语句，这是为何？

4、既然 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都没有返回，这两个类中的 process_request()是否会依序先后被调用，如果会的话，把两个类合并为一个类，在一个类中实现所有的方法是否更合理？

5、pipelines.py 中有的类实现了 open_spider()这个方法，而只有当 spider 被开启时，这个方法被调用。请问 spider 的开启和关闭是在哪里设置的？

2017-09-21 19:04:36 +08:00

回复了 saximi 创建的主题 › Python › 请推荐关于 Scrapy 包用法的中文版学习资料

@toono

```
我学习了您上传的爬虫代码，有一些问题想请您指点。万分感谢了！
1、middlewares.py 中 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都是下载中间件，为何前者定义中声明了__init__方法，但后者却没有？

2、middlewares.py 中 MyAgentMiddleware 的__init__方法为什么要这个参数：user_agent=''

3、我看了 scrapy 0.25 的官方说明文档，里面提到：“ process_request() 必须返回其中之一: 返回 None、返回一个 Response 对象、返回一个 Request 对象或 raise IgnoreRequest ”
但是您的 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都没有 return 语句，这是为何？

4、既然 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都没有返回，这两个类中的 process_request()是否会依序先后被调用，如果会的话，把两个类合并为一个类，在一个类中实现所有的方法是否更合理？

5、pipelines.py 中有的类实现了 open_spider()这个方法，而只有当 spider 被开启时，这个方法被调用。请问 spider 的开启和关闭是在哪里设置的？

```

2017-09-21 00:06:39 +08:00

回复了 saximi 创建的主题 › 程序员 › 请问如何用 git 工具下载 github 上的单个目录

@codeyung git remote add origin [email protected]:test/a.git 对于这个写法不是很明白，有具体的例子么？

2017-09-20 23:57:05 +08:00

回复了 saximi 创建的主题 › 程序员 › 请问如何用 git 工具下载 github 上的单个目录

@KeepPro 实际上，我这么运行会报错。
```
$ git remote add -f origin https : //github.com/geekan
fatal: remote origin already exists.
```

2017-09-20 23:55:28 +08:00

回复了 saximi 创建的主题 › 程序员 › 请问如何用 git 工具下载 github 上的单个目录

@KeepPro url 正常填是怎么填？以我的例子而言，是否就是填 https://github.com/geekan

2017-09-20 22:59:31 +08:00

回复了 saximi 创建的主题 › Python › 关于 Request 和 webdriver 的问题请教

@punderson 谢谢，因为我需要设置请求头，所以每次访问我都不得不用 request （ webdriver 应该没有设置请求头的功能吧？），但是同时我又希望使用 webdriver 的功能来访问页面，这种需求是不是就导致我不得不对于每个页面都要用 request 和 webdriver 分别加载了？

2017-09-20 22:39:23 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@fiht
@dsg001
@stcasshern
@hcnhcn012 @keenwon 感谢各位的指点，提供的资料我要仔细看看，顿首拜！

2017-09-20 21:18:11 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@stcasshern 第一条是说每次爬取从一个列表中选择其中一个 UA，而不是每次都固定用同一个 UA。
看过 scrapy 的说明文档，感觉内容比较庞杂，希望能结合具体完整的例子来学习爬虫，而且希望这个代码例子能实现我列出的这些功能。

2017-09-19 22:13:06 +08:00

回复了 saximi 创建的主题 › Python › 请问哪里有 WINDOWS 下可用的 Tesseract 包下载

@zgbgx1 谢谢！

2017-09-19 22:12:57 +08:00

回复了 saximi 创建的主题 › Python › 请问哪里有 WINDOWS 下可用的 Tesseract 包下载

@lzhr 感谢！