V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
sjmcefc2
V2EX  ›  Python

爬虫练手项目推荐一个?

  •  
  •   sjmcefc2 · 2018-05-16 02:41:05 +08:00 · 4235 次点击
    这是一个创建于 2414 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想学习爬虫,能不能推荐一个小项目并说一下思路? 比如爬随便一家公司的财务报表?

    19 条回复    2018-07-02 22:21:17 +08:00
    prasanta
        1
    prasanta  
       2018-05-16 08:30:20 +08:00 via Android
    中国商标局网的所有商标数据
    nulIptr
        2
    nulIptr  
       2018-05-16 09:47:25 +08:00
    所有主流直播网站的直播间(斗鱼熊猫虎牙战旗啥的)。。。然后搞出一个类似于导航网站的东西展示数据。。。
    colincat
        3
    colincat  
       2018-05-16 11:29:06 +08:00
    @prasanta 直接让他进阶高级吗?
    colincat
        4
    colincat  
       2018-05-16 11:29:40 +08:00
    LZ,推荐你新闻类网站吧,基本没什么难度,挺好
    chesterzzy
        5
    chesterzzy  
       2018-05-16 11:34:03 +08:00
    爬虫这个东西,只要是公开的、合法的数据,都可以爬来练手,当然,要注意节制

    关键还是解析页面和存储数据

    实在不行,爬图呗,相信许多大兄弟都是从这一步开始爬虫的(是的我也是)
    samding123
        6
    samding123  
       2018-05-16 11:49:59 +08:00
    opengps
        7
    opengps  
       2018-05-16 13:23:43 +08:00
    注意爬大站,别爬小站,小站本来资源有限,爬虫来了直接系统挂了,小心被站长发现揪出来吊打
    sjmcefc2
        8
    sjmcefc2  
    OP
       2018-05-16 15:11:41 +08:00
    @colincat 觉得直接上有意义的比较好,当然难道可能比较大
    sjmcefc2
        9
    sjmcefc2  
    OP
       2018-05-16 15:12:44 +08:00
    @chesterzzy 有没有国外的可以爬的?
    sjmcefc2
        10
    sjmcefc2  
    OP
       2018-05-16 15:22:22 +08:00
    @nulIptr 现在比较苦恼怎么把知识变成💰
    colincat
        11
    colincat  
       2018-05-16 15:32:28 +08:00
    @sjmcefc2 这样吧,给你出个题,抓知乎或者微信
    chesterzzy
        12
    chesterzzy  
       2018-05-16 17:03:49 +08:00
    @sjmcefc2 国外的网络不稳定,有的甚至要上代理。

    还是有点不理解楼主的意思,是想要一步到位搞个大工程?还是先随便练练手?

    要是随便练练手的话,随便搞个新闻聚合啊,降价提醒啊,论文爬取啊,壁纸爬取啊,妹子图爬取啊什么的都可以啊。

    要想搞个大工程,那考虑的东西就多了。cookie 啊,登录啊,验证码啊,ip 代理啊,反爬虫策略啊,分布式啊等等。

    好了我牛逼吹完了。。。
    sjmcefc2
        13
    sjmcefc2  
    OP
       2018-05-16 19:07:18 +08:00
    @chesterzzy 能具体说说有哪些国外的可以爬吗?金融相关的有吗
    sjmcefc2
        14
    sjmcefc2  
    OP
       2018-05-16 19:12:26 +08:00
    @colincat 这个题目。。。具体爬哪方面呢?微信确实资源很多啊,可是都是加了好友才能怕下来吧
    sjmcefc2
        15
    sjmcefc2  
    OP
       2018-05-16 19:44:21 +08:00
    @chesterzzy 怎么节制?如果用 selenium 貌似不用节制吧,速度和人工差不多
    whoami9894
        16
    whoami9894  
       2018-05-16 21:17:15 +08:00 via Android
    难道标准的练手项目不是煎蛋吗
    981764793
        17
    981764793  
       2018-05-17 20:42:21 +08:00 via Android
    练手的话可以看看逼乎,比如爬个关注关系网,爬一下某个钓鱼问题下的所有图片,以及所有回答者的回答或提问下的回答的图
    yy461530593
        18
    yy461530593  
       2018-05-18 09:18:40 +08:00
    @sjmcefc2 国外的电商网站: https://www.endclothing.com/ ,爬商品列表跟商品详情试试
    xiaoke0718
        19
    xiaoke0718  
       2018-07-02 22:21:17 +08:00 via iPhone
    @opengps 你这句话确实?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1605 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 16:46 · PVG 00:46 · LAX 08:46 · JFK 11:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.