V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  saximi  ›  全部回复第 5 页 / 共 11 页
回复总数  201
1  2  3  4  5  6  7  8  9  10 ... 11  
2017-09-22 21:19:29 +08:00
回复了 saximi 创建的主题 Python 请推荐关于 Scrapy 包用法的中文版学习资料
@toono 非常感谢您的耐心答复!关于您的爬虫代码,还有两个问题请教:

1、douban.py 中构造下一页网址的语句如下

next_page = response.xpath('//span[@class="next"]/a/@href').extract_first()

next_page_url = self.start_urls[0] + next_page

从豆瓣首页来看,第一条语句运行后的结果是 next_page = 'https://www.douban.com/group/explore?start=30'

因为 start_urls = ['https://www.douban.com/group/explore'] ,所以 self.start_urls[0]就是 'https://www.douban.com/group/explore'

所以第二条语句运行即为 next_page_url = 'https://www.douban.com/group/explore' + 'https://www.douban.com/group/explore?start=30'

这明显就不是合法的 URL 了,请问我这个看法是否正确呢?谢谢


2、pipelines.py 中的 ImagesDownloadPipeline 类,没有实现 process_item()方法,这个类实际上是不会起作用的吧?

pipelines.py 中 MongoDBPipeline 类的 process_item()方法并没有 return item,是不是这个类也不会起作用?
2017-09-21 22:32:36 +08:00
回复了 saximi 创建的主题 Python 看了 scrapy 官方说明文档,遇到几个问题恳请大家指点
@PythonAnswer 我用的 scrapy 是最新的,但是看的文档是 http://scrapy-chs.readthedocs.io/zh_CN/latest/ 这个网址的 0.25 中文版本,因为英文不好,所以只好看中文版本。
那张 png 的图我看了,我知道中间件是按照右侧带的序号作为顺序来执行的,但是我不知道反正都是下载器中间件,为何要强调靠近引擎还是靠近下载器,这毕竟和执行顺序无关,做这个强调有什么意义么?
2017-09-21 22:25:33 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@toono 您代码中的 DoubanCookieChangeMiddleware 类用于动态改变 cookie。但是在 douban.py 程序中并没有输入用户和密码的登录动作,为什么会有 cookie ?
2017-09-21 20:33:00 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@fiht 不知为何,我点击“显示 Gist 代码”没有任何显示,直接把网址复制到浏览器也打不开,看不到代码呢
2017-09-21 20:10:38 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@toono douban.py 这个代码是否是写得比较早,从现在的页面来看,下面的语句中 class 为 topic-content 的标签是不存在的?

item['body'] = response.xpath('//div[@class="topic-content"]')
2017-09-21 19:48:39 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@toono 在您的爬虫代码中 from_crawler()方法里有这个语句

crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

请问哪里可以找到对 signals.connect() 这个函数的详细用法说明?谢谢!
2017-09-21 19:24:07 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@toono

我学习了您上传的爬虫代码,有一些问题想请您指点。万分感谢了!
1、middlewares.py 中 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都是下载中间件,为何前者定义中声明了__init__方法,但后者却没有?

2、middlewares.py 中 MyAgentMiddleware 的__init__方法为什么要这个参数:user_agent=''

3、我看了 scrapy 0.25 的官方说明文档,里面提到:“ process_request() 必须返回其中之一: 返回 None、返回一个 Response 对象、返回一个 Request 对象或 raise IgnoreRequest ”
但是您的 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都没有 return 语句,这是为何?

4、既然 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都没有返回,这两个类中的 process_request()是否会依序先后被调用,如果会的话,把两个类合并为一个类,在一个类中实现所有的方法是否更合理?

5、pipelines.py 中有的类实现了 open_spider()这个方法,而只有当 spider 被开启时,这个方法被调用。请问 spider 的开启和关闭是在哪里设置的?
2017-09-21 19:04:36 +08:00
回复了 saximi 创建的主题 Python 请推荐关于 Scrapy 包用法的中文版学习资料
@toono

```
我学习了您上传的爬虫代码,有一些问题想请您指点。万分感谢了!
1、middlewares.py 中 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都是下载中间件,为何前者定义中声明了__init__方法,但后者却没有?

2、middlewares.py 中 MyAgentMiddleware 的__init__方法为什么要这个参数:user_agent=''

3、我看了 scrapy 0.25 的官方说明文档,里面提到:“ process_request() 必须返回其中之一: 返回 None、返回一个 Response 对象、返回一个 Request 对象或 raise IgnoreRequest ”
但是您的 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都没有 return 语句,这是为何?

4、既然 MyAgentMiddleware 和 DoubanCookieChangeMiddleware 都没有返回,这两个类中的 process_request()是否会依序先后被调用,如果会的话,把两个类合并为一个类,在一个类中实现所有的方法是否更合理?

5、pipelines.py 中有的类实现了 open_spider()这个方法,而只有当 spider 被开启时,这个方法被调用。请问 spider 的开启和关闭是在哪里设置的?

```
2017-09-21 00:06:39 +08:00
回复了 saximi 创建的主题 程序员 请问如何用 git 工具下载 github 上的单个目录
@codeyung git remote add origin [email protected]:test/a.git 对于这个写法不是很明白,有具体的例子么?
2017-09-20 23:57:05 +08:00
回复了 saximi 创建的主题 程序员 请问如何用 git 工具下载 github 上的单个目录
@KeepPro 实际上,我这么运行会报错。
```
$ git remote add -f origin https : //github.com/geekan
fatal: remote origin already exists.
```
2017-09-20 23:55:28 +08:00
回复了 saximi 创建的主题 程序员 请问如何用 git 工具下载 github 上的单个目录
@KeepPro url 正常填是怎么填?以我的例子而言,是否就是填 https://github.com/geekan
2017-09-20 22:59:31 +08:00
回复了 saximi 创建的主题 Python 关于 Request 和 webdriver 的问题请教
@punderson 谢谢,因为我需要设置请求头,所以每次访问我都不得不用 request ( webdriver 应该没有设置请求头的功能吧?) ,但是同时我又希望使用 webdriver 的功能来访问页面,这种需求是不是就导致我不得不对于每个页面都要用 request 和 webdriver 分别加载了?
2017-09-20 22:39:23 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@fiht
@dsg001
@stcasshern
@hcnhcn012 @keenwon 感谢各位的指点,提供的资料我要仔细看看,顿首拜!
2017-09-20 21:18:11 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@stcasshern 第一条是说每次爬取从一个列表中选择其中一个 UA,而不是每次都固定用同一个 UA。
看过 scrapy 的说明文档,感觉内容比较庞杂,希望能结合具体完整的例子来学习爬虫,而且希望这个代码例子能实现我列出的这些功能。
2017-09-19 22:13:06 +08:00
回复了 saximi 创建的主题 Python 请问哪里有 WINDOWS 下可用的 Tesseract 包下载
@zgbgx1 谢谢!
2017-09-19 22:12:57 +08:00
回复了 saximi 创建的主题 Python 请问哪里有 WINDOWS 下可用的 Tesseract 包下载
@lzhr 感谢!
2017-09-18 22:13:03 +08:00
回复了 saximi 创建的主题 Python 请问哪里有 WINDOWS 下可用的 Tesseract 包下载
@lzhr https://github.com/tesseract-ocr/tesseract 我在这个页面上看不出哪个是 WINDOWS 下的安装介质。直接点击“ Clone or download ”下载下来的文件夹中也没有 WINDOWS 下的安装介质,是不是我下错链接?
2017-09-16 22:20:10 +08:00
回复了 saximi 创建的主题 Python 想学习 jieba 包的使用,哪里可下载相关的离线文档
@beyoung 谢谢,才知道有 newspaper3k 这个包,请问这个包和 jieba 在功能上有什么明显区别呢?乍一看说明,好像功能上有很大重叠?
2017-09-15 23:34:00 +08:00
回复了 saximi 创建的主题 Python 请问有人爬取过 Domino 数据库的么?
@EricInBj 有这样的教程么?
2017-09-15 23:33:43 +08:00
回复了 saximi 创建的主题 Python 请问有人爬取过 Domino 数据库的么?
@sorry 7.5 版本的
1  2  3  4  5  6  7  8  9  10 ... 11  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   961 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 20:12 · PVG 04:12 · LAX 12:12 · JFK 15:12
Developed with CodeLauncher
♥ Do have faith in what you're doing.