V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
wisefree
V2EX  ›  Python

第二篇爬虫文章来了,只不过是前传

  •  
  •   wisefree · 2017-04-02 15:05:28 +08:00 · 3733 次点击
    这是一个创建于 2783 天前的主题,其中的信息可能已经有所发展或是发生改变。

    第一篇: https://www.v2ex.com/t/351900

    第二篇: http://www.jianshu.com/p/b3bc88ffb251 爬虫中的正则表达式( re )—前传

    这篇文章只是一个开头,希望通过这篇文章收集大家的建议

    1. 大家认为好的资料( github 上的,自己写的,你认为写的比较好的博客....都行)

    我可以把推荐的资料放在文末的参考资料中或者直接写在正文中,当然会推荐者署名

    1. 大家对这篇文章的建议,应该怎么写比较好,欢迎大家提建议

    2. 欢迎投稿,;)

    第 1 条附言  ·  2017-04-02 20:03:43 +08:00
    我会做好正则表达式文章的更新,才会去做多进程和代理池等的更新。一个人更新文章不太简单,而且想写点和别人不一样的东西。(之前没有想这么多,自己挖了一个坑,当然我会填的,~_~)
    第 2 条附言  ·  2017-04-06 13:56:15 +08:00
    谢谢大家关注,最近爬虫的更新会放缓,我要开始学习运营和机器学习相关知识了,还要开始找工作。
    具体说明见: http://www.jianshu.com/p/07f0d5a44f64

    (学习爬虫,只为了得到数据,我可不想玩转爬虫,我喜欢分析数据。希望大家多多推荐机器学习和运营的资料,先谢啦)
    第 3 条附言  ·  2017-04-10 11:31:11 +08:00
    更新了爬虫正则表达式一文
    http://www.jianshu.com/p/b3bc88ffb251
    第 4 条附言  ·  2017-05-01 16:51:27 +08:00
    selenium 简单使用,beautifulsoup 始终 beautiful: http://www.jianshu.com/p/677eaa462b47


    为了这篇文章服务:简书在 Twitter、豆瓣、微博上的活动(持续更新): http://www.jianshu.com/p/8794dd040397
    第 5 条附言  ·  2017-05-21 17:51:04 +08:00
    由于简书不支持目录,latex 语法,今天用 github + hexo + next 主题建了一个网站,以后所有的技术文章都会在这个网站写作

    网址:zhouww.com

    当然访问 duohappy.github.io 也行的
    第 6 条附言  ·  2017-09-15 18:58:06 +08:00
    20 条回复    2017-04-06 22:37:02 +08:00
    WildCat
        1
    WildCat  
       2017-04-02 15:23:27 +08:00   ❤️ 1
    期待代理池的文章!
    wisefree
        2
    wisefree  
    OP
       2017-04-02 15:28:58 +08:00   ❤️ 1
    @WildCat 正则写完就写代理池。当然还要看正则这篇文章的反馈情况,:)
    Merlini
        3
    Merlini  
       2017-04-02 15:51:26 +08:00 via Android
    期待并发和代理池
    zjhui
        4
    zjhui  
       2017-04-02 16:00:32 +08:00 via iPhone
    同期待代理池
    jimmy66
        5
    jimmy66  
       2017-04-02 16:02:45 +08:00 via iPhone
    期待代理池+1
    wisefree
        6
    wisefree  
    OP
       2017-04-02 17:38:31 +08:00
    @Merlini 嗯,等我写完正则。。。或者可以投稿把正则这个坎绕过去
    wisefree
        7
    wisefree  
    OP
       2017-04-02 17:38:37 +08:00
    @zjhui 等我写完正则。。。或者可以投稿把正则这个坎绕过去
    wisefree
        8
    wisefree  
    OP
       2017-04-02 17:39:13 +08:00
    @jimmy66 好的,我会根据反馈情况不断修正文章的更新进度
    dsg001
        9
    dsg001  
       2017-04-02 19:54:34 +08:00
    期待代理池+1
    demonchang
        10
    demonchang  
       2017-04-02 20:07:50 +08:00 via iPhone
    代理池等待中
    wisefree
        11
    wisefree  
    OP
       2017-04-02 22:44:16 +08:00 via Android
    @dsg001
    @demonchang
    嗯,这个等我慢慢跳坑
    欢迎投稿
    UnisandK
        12
    UnisandK  
       2017-04-02 22:47:20 +08:00
    看大家期望这么高你要不先把代理池写了(逃
    wisefree
        13
    wisefree  
    OP
       2017-04-03 07:46:45 +08:00
    @UnisandK 这个很难做到,文章不能大跃进啊(摊手
    wisefree
        14
    wisefree  
    OP
       2017-04-03 07:53:40 +08:00
    代理池构建的思路是:
    1. 正则匹配出代理 ip ,有些免费网页很规则,用 beautifulsoup 就行

    2. 检查是否为高匿代理,为了加快检查速度,采取多进程

    3. 加上高匿代理,进行爬虫

    所以,正则是基础,多进程也很重要(多线程也行)

    大家可以根据这些知识点,进行自学,如果学好了,欢迎投稿,:)

    我的文章不会更新这么快,因为我想写点不一样的东西,符合我的行文特点,:)

    (当然主要是因为,我要写毕业论文....还有....找工作...)
    wisefree
        15
    wisefree  
    OP
       2017-04-03 10:31:58 +08:00
    补充一下,当然有要有刷新代理池中代理的代码,而且一般代理极易失效
    prasanta
        16
    prasanta  
       2017-04-04 13:29:13 +08:00
    如何高效获取一手 ip 代理,而不是从别人网站上爬,题主有思路么
    wisefree
        17
    wisefree  
    OP
       2017-04-04 14:54:58 +08:00
    @prasanta 这个还真没思路。可能只有花钱买吧
    saxon
        18
    saxon  
       2017-04-04 15:11:41 +08:00   ❤️ 1
    最好详细讲解一下 并发原理...
    pycon2015 上讲的就不错
    不然新人看了 还是一头雾水
    wisefree
        19
    wisefree  
    OP
       2017-04-04 15:57:10 +08:00
    @saxon 谢谢建议。文章中不涉及基础原理,只讲实战部分。主要原因是原理部分我真的讲不好。

    如果有并发原理的好文章,欢迎投稿,:)
    yxisen
        20
    yxisen  
       2017-04-06 22:37:02 +08:00 via Android
    期待数据入库 0.0
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3157 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 00:04 · PVG 08:04 · LAX 16:04 · JFK 19:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.