V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
AnyISalIn
V2EX  ›  Python

用 Python 3 写了个基于 selenium 的知乎关键词爬虫,可以爬钓鱼贴图片(各种爆照! 你懂得。。。)

  •  4
     
  •   AnyISalIn ·
    anyisalin · 2017-04-02 14:50:14 +08:00 · 7423 次点击
    这是一个创建于 2792 天前的主题,其中的信息可能已经有所发展或是发生改变。

    demo

    地址在这里 zhihu_fun Github,求 star !!!!

    。。。嗯,其实也可以爬其他方面的东西,但是目前只支持抓图片,其实这不是我的本意,我是想抓技术方面的东西的,但是我同事想要看这个,所以我就先抓这些图片了。。。Python 菜鸟一枚,代码写的很烂,还望各位大神多多指教

    为什么要用 Selenium ?

    新版知乎部分页面用 React 重写了,必须得加载 JS ,很多加载啥的都需要点击,所以我就用到了 Selenium

    为什么不用知乎 API ?

    单纯的想写一个爬虫而已

    第 1 条附言  ·  2017-04-04 19:26:58 +08:00
    还差一个就 100 star 了。。
    33 条回复    2017-04-15 22:35:23 +08:00
    ProjectSky
        1
    ProjectSky  
       2017-04-02 15:30:18 +08:00
    一百次点击,无人回复,干的漂亮。
    jimmy66
        2
    jimmy66  
       2017-04-02 16:11:19 +08:00 via iPhone
    厉害了
    AltairT
        3
    AltairT  
       2017-04-02 16:19:04 +08:00
    营养跟不上啊...农村人还是在 B 乎上 Block 这些话题吧
    Hello1995
        4
    Hello1995  
       2017-04-02 16:39:20 +08:00 via Android
    提醒:_b 去掉试试😏
    AnyISalIn
        5
    AnyISalIn  
    OP
       2017-04-02 17:21:56 +08:00
    @Hello1995 哇,去掉了,发现更大的世界
    fy
        6
    fy  
       2017-04-02 18:24:08 +08:00
    楼主 66666
    Aspx
        7
    Aspx  
       2017-04-02 19:45:01 +08:00
    star 已送
    phithon
        8
    phithon  
       2017-04-02 19:51:14 +08:00
    这必须赞一波
    guyskk
        9
    guyskk  
       2017-04-02 21:06:36 +08:00
    已 star ,过了不到一个小时开始非常慢了,难道是把知乎扒光了?
    akira
        10
    akira  
       2017-04-02 21:07:55 +08:00
    按照关键字搜帖子的时候,发现很多帖子里面的图片都是无关的。 好奇怎么过滤的
    zhihaofans
        11
    zhihaofans  
       2017-04-02 21:09:37 +08:00   ❤️ 1
    让我想起了知乎上这个收藏 https://www.zhihu.com/collection/60771406 (大胸妹子 - 收藏夹 - 知乎)
    AnyISalIn
        12
    AnyISalIn  
    OP
       2017-04-02 22:04:04 +08:00
    @guyskk 你配置文件中的 url_generate_time 设置为多少,默认为 30s ,意味着爬问题只爬 30s, 剩下的就是怕回答中的图片,我爬了 20 多 g 了,设置为 None 就可以一直爬下去。。
    AnyISalIn
        13
    AnyISalIn  
    OP
       2017-04-02 22:04:59 +08:00
    @akira 这个的话,我并没有做,但是可以经爬下来之后做图像识别啥的,嗯,比较高端
    falcon05
        14
    falcon05  
       2017-04-02 22:25:48 +08:00 via iPhone
    很好,收藏了
    guyskk
        15
    guyskk  
       2017-04-02 23:02:24 +08:00
    @AnyISalIn #12 设置都是默认值
    AnyISalIn
        16
    AnyISalIn  
    OP
       2017-04-02 23:12:31 +08:00   ❤️ 1
    @guyskk 嗯,你设置 url_generate_time 为 None 就能一直爬了,我已经爬了 22G 了。。。
    Kalv8n
        17
    Kalv8n  
       2017-04-03 08:10:45 +08:00 via Android
    估计能扒到 nfsw 这类管理员来不及删的东西
    bsidb
        18
    bsidb  
       2017-04-03 09:19:40 +08:00
    @AnyISalIn 可以搞个深度 CNN 分类器啦(雾)
    AnyISalIn
        19
    AnyISalIn  
    OP
       2017-04-03 10:16:49 +08:00
    @bsidb 感觉太高端了。。。
    jyf
        20
    jyf  
       2017-04-03 11:22:55 +08:00
    知乎不做 ip 限次?
    AnyISalIn
        21
    AnyISalIn  
    OP
       2017-04-03 11:32:54 +08:00
    @jyf 好像没有。。。
    lonelygo
        22
    lonelygo  
       2017-04-03 13:07:19 +08:00
    已 S&F
    Vinceeeent
        23
    Vinceeeent  
       2017-04-03 13:33:41 +08:00 via Android
    先 mark ,回去 star
    coltguo
        24
    coltguo  
       2017-04-03 16:30:47 +08:00
    哎家里穷,不要发这样的照片
    huage
        25
    huage  
       2017-04-03 18:36:46 +08:00
    实践出真知!
    snoopygao
        26
    snoopygao  
       2017-04-03 20:53:10 +08:00
    专门抓大腿的
    AnyISalIn
        27
    AnyISalIn  
    OP
       2017-04-03 20:56:53 +08:00
    @snoopygao 也可以抓其他东西啊,嘿嘿
    jccg90
        28
    jccg90  
       2017-04-04 00:35:05 +08:00
    @akira 再配合某云服务的图片鉴黄 api ,就完美了。。。
    c4fun
        29
    c4fun  
       2017-04-04 00:43:58 +08:00
    很好,已经 star
    airbasic
        30
    airbasic  
       2017-04-04 02:16:42 +08:00
    道友想法很不错啊 我也在微博爬呢-。-
    https://github.com/airbasic/weibo_album_spider
    cpygui
        31
    cpygui  
       2017-04-04 14:21:24 +08:00
    改改我去爬 tumblr :)
    wellhome
        32
    wellhome  
       2017-04-06 15:51:24 +08:00 via iPhone
    支持楼主
    mingyun
        33
    mingyun  
       2017-04-15 22:35:23 +08:00
    感谢楼主,妹子到手了
    @zhihaofans 感谢,哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1413 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:29 · PVG 01:29 · LAX 09:29 · JFK 12:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.