V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wisefree  ›  全部回复第 10 页 / 共 16 页
回复总数  308
1 ... 2  3  4  5  6  7  8  9  10  11 ... 16  
2017-04-04 15:00:23 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@cpygui 这个看文章的反馈和大家的建议吧。只讲最实用的部分,同样不讲基础。比如进程和线程的区别,这个不会在文章中出现。

近期不会更新这两大部分,我要去找工作了,还有很多运营和机器学习的知识要学。。。
2017-04-04 14:54:58 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@prasanta 这个还真没思路。可能只有花钱买吧
2017-04-04 10:10:58 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@Or2 你到网站 A 搜索一下,观察搜索的网址构造的具体形式,然后构造网址(以公司为变量)进行请求
2017-04-03 22:11:39 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@xiaoke0718 学习运营知识,我想成为一名运营者,,,我真的不厉害,只不过喜欢挖坑。你也是学 Python ?
2017-04-03 17:42:08 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@xiaoke0718 学习经历故事?这个还真没有。。。我是学石油专业的,想转行而学习 Python ,学习 Python 时间还较短。等我入门时间长了,可能会分享自己学习经历吧,:)
2017-04-03 14:48:30 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@Or2 这个过程挺清晰, 你在写代码的过程中,遇到的具体问题是什么?
2017-04-03 12:49:58 +08:00
回复了 cyrbuzz 创建的主题 Python requests 多线程与无法访问的 url 问题。
@xiaoyu233 这个是正解,在 requests 设置 timeout
2017-04-03 12:15:14 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@falcon05 嗯,欢迎投稿哈
2017-04-03 12:14:46 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@Or2 呃,不好意思,我没有理解你的问题,~_~
2017-04-03 10:31:58 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
补充一下,当然有要有刷新代理池中代理的代码,而且一般代理极易失效
2017-04-03 07:53:40 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
代理池构建的思路是:
1. 正则匹配出代理 ip ,有些免费网页很规则,用 beautifulsoup 就行

2. 检查是否为高匿代理,为了加快检查速度,采取多进程

3. 加上高匿代理,进行爬虫

所以,正则是基础,多进程也很重要(多线程也行)

大家可以根据这些知识点,进行自学,如果学好了,欢迎投稿,:)

我的文章不会更新这么快,因为我想写点不一样的东西,符合我的行文特点,:)

(当然主要是因为,我要写毕业论文....还有....找工作...)
2017-04-03 07:46:45 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@UnisandK 这个很难做到,文章不能大跃进啊(摊手
2017-04-02 22:44:16 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@dsg001
@demonchang
嗯,这个等我慢慢跳坑
欢迎投稿
2017-04-02 17:39:13 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@jimmy66 好的,我会根据反馈情况不断修正文章的更新进度
2017-04-02 17:38:37 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@zjhui 等我写完正则。。。或者可以投稿把正则这个坎绕过去
2017-04-02 17:38:31 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@Merlini 嗯,等我写完正则。。。或者可以投稿把正则这个坎绕过去
2017-04-02 15:28:58 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@WildCat 正则写完就写代理池。当然还要看正则这篇文章的反馈情况,:)
2017-04-02 15:06:33 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@AkiseAru 差不多的,有 Python 基础就可以看,刚刚发布了第二篇, https://www.v2ex.com/t/352150
2017-04-02 15:06:01 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@onelove 哈哈,赶紧写了第二篇, https://www.v2ex.com/t/352150
2017-04-02 08:16:23 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@wellhome 好问题!
爬取网页多的情况下,并不知道会出现什么样的异常,除非对网站十分熟悉。那么换一种思路,按绝大多数的正常网页来编写爬虫程序,其余的用 try except 处理。

最后对极少数的异常网页,做特殊处理。

这是我的思路,欢迎交流

(如果楼主愿意写些爬虫文章,欢迎投稿哈)
1 ... 2  3  4  5  6  7  8  9  10  11 ... 16  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2313 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 12:23 · PVG 20:23 · LAX 05:23 · JFK 08:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.