V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
onecode
V2EX  ›  Python

技术渣,谁给写个爬虫,感谢

  •  
  •   onecode · 2019-05-21 16:34:24 +08:00 · 17155 次点击
    这是一个创建于 2005 天前的主题,其中的信息可能已经有所发展或是发生改变。
    137 条回复    2019-06-19 17:22:49 +08:00
    1  2  
    niknik
        1
    niknik  
       2019-05-21 16:40:54 +08:00
    怎么说
    jtwor
        2
    jtwor  
       2019-05-21 16:42:14 +08:00
    https://www.cnblogs.com/fnng/p/3576154.html 看这个 我记得虫师还有个 Selenium 教程
    tabris17
        3
    tabris17  
       2019-05-21 16:43:11 +08:00   ❤️ 45
    如果谢谢有用的话,还要印钞厂干嘛
    alw
        4
    alw  
       2019-05-21 16:45:39 +08:00
    本人懒,谁给钱让我赖活着,感谢。
    (要爬什么不说,给什么回报不说,就只想别人帮忙,还得去问你:请问你需要解决什么问题?)
    onecode
        5
    onecode  
    OP
       2019-05-21 16:46:54 +08:00   ❤️ 3
    没人写,我自己写了啊
    wqzjk393
        6
    wqzjk393  
       2019-05-21 16:49:37 +08:00
    贴个 csdn 的。。我记得之前学异步协程时候拿来测试过,直接复制下来就能跑。。。( https://blog.csdn.net/ns2250225/article/details/78448955
    Abbeyok
        7
    Abbeyok  
       2019-05-21 16:49:46 +08:00 via Android
    不报个价,谁给你写
    AFuture
        8
    AFuture  
       2019-05-21 16:49:51 +08:00 via iPhone
    看到 5 楼的回复....楼主你倒是自己写啊
    aaa5838769
        9
    aaa5838769  
       2019-05-21 16:50:11 +08:00   ❤️ 1
    自己写吧,用不到太多的技术难点吧。
    onecode
        10
    onecode  
    OP
       2019-05-21 16:52:23 +08:00
    @AFuture 上班不能写,下班回去写,公司监控访问的网址
    vinew
        11
    vinew  
       2019-05-21 16:59:32 +08:00 via iPhone
    响应数据看着像 json,可以考虑用 shell 爬,然后用 jq 命令处理 json
    Immortal
        12
    Immortal  
       2019-05-21 17:00:54 +08:00   ❤️ 30
    看到 5l 有点想笑
    "你们不赶紧抢着写,要被我自己写了!"
    cuebyte
        13
    cuebyte  
       2019-05-21 17:01:09 +08:00
    我來幫你寫
    onecode
        14
    onecode  
    OP
       2019-05-21 17:01:56 +08:00   ❤️ 11
    为啥你们就不访问 url 看一下呢,伤心
    gjf
        15
    gjf  
       2019-05-21 17:04:42 +08:00 via Android
    这也简单了吧?
    lithiumii
        16
    lithiumii  
       2019-05-21 17:05:44 +08:00
    最近流行以爬虫的名义开车?
    Eytoyes
        17
    Eytoyes  
       2019-05-21 17:14:46 +08:00
    我怀疑你在开车,但我好像有证据
    cyssxt
        18
    cyssxt  
       2019-05-21 17:22:11 +08:00 via iPhone
    技术车
    ctro15547
        19
    ctro15547  
       2019-05-21 17:22:32 +08:00
    不用怀疑 我感觉你就是在开车 已经保留证据
    ttimasdf
        20
    ttimasdf  
       2019-05-21 17:22:37 +08:00
    NSFW.
    exceloo
        21
    exceloo  
       2019-05-21 17:24:21 +08:00
    艹,NSFW,能不开车吗?
    onecode
        22
    onecode  
    OP
       2019-05-21 17:24:43 +08:00
    简单的 uwp 程序已经写好,微软不给我上架,老是被拒,难过
    zdnyp
        23
    zdnyp  
       2019-05-21 17:25:19 +08:00
    铐起来
    zgcwkj
        24
    zgcwkj  
       2019-05-21 17:31:07 +08:00
    lepig
        25
    lepig  
       2019-05-21 17:34:26 +08:00
    @zgcwkj 我只想求结果。不想要源码 哈哈哈
    opengps
        26
    opengps  
       2019-05-21 17:34:40 +08:00
    妹子图?似乎是在开车。。。
    ben1024
        27
    ben1024  
       2019-05-21 17:34:52 +08:00
    开车?
    tikazyq
        28
    tikazyq  
       2019-05-21 17:36:07 +08:00
    请关注爬虫平台 Crawlab

    Github: tikazyq/crawlab
    1024MB
        29
    1024MB  
       2019-05-21 17:36:38 +08:00 via Android
    感谢楼主。
    registerrr
        30
    registerrr  
       2019-05-21 17:37:14 +08:00
    opengps
        31
    opengps  
       2019-05-21 17:38:00 +08:00
    ben1024
        32
    ben1024  
       2019-05-21 17:38:26 +08:00
    ```
    <?php
    $jsons = file_get_contents('http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20');
    $json_arr = json_decode($jsons, true);
    foreach ($json_arr as $value) {
    file_put_contents($value['id'].'.jpg', file_get_contents($value['thumb_src']));
    }
    ```
    baicheng10
        33
    baicheng10  
       2019-05-21 17:39:55 +08:00   ❤️ 1
    还好吧,点开看了一个,标题看着像车,假车那种。
    MARK 一下,后面看搜集一点,说不定能用上呢。
    ben1024
        34
    ben1024  
       2019-05-21 17:44:58 +08:00
    zgcwkj
        35
    zgcwkj  
       2019-05-21 17:49:23 +08:00
    @lepig 额,就是结果,win 程序,不用 python 环境的那种
    wq2016
        36
    wq2016  
       2019-05-21 17:54:07 +08:00
    重新学也就 20 分钟,还跑来发个帖
    whitehack
        37
    whitehack  
       2019-05-21 17:54:37 +08:00
    开车吗?。。。。那我开个飞机吧 https://737max.tk
    deepdark
        38
    deepdark  
       2019-05-21 17:56:54 +08:00 via Android   ❤️ 1
    我怀疑你在开车,而且我有证据
    zhtttyecho
        39
    zhtttyecho  
       2019-05-21 17:57:56 +08:00
    偷偷收藏一下,应该没人发现吧
    sheeta
        40
    sheeta  
       2019-05-21 18:00:40 +08:00
    我怀疑你在开车,证据已经保存下来了
    foxyier
        41
    foxyier  
       2019-05-21 18:00:43 +08:00
    刚从旁边的车下来, 怎么稀里糊涂又上了另一辆
    brust
        42
    brust  
       2019-05-21 18:01:34 +08:00
    CEBBCAT
        43
    CEBBCAT  
       2019-05-21 18:06:32 +08:00 via Android
    V2 转型煎蛋,下一帖就是 XX 女装
    HFX3389
        44
    HFX3389  
       2019-05-21 18:08:05 +08:00
    你好骚啊!
    R18
        45
    R18  
       2019-05-21 18:08:55 +08:00 via Android
    兄弟你的口味真独特
    996icu
        46
    996icu  
       2019-05-21 18:10:44 +08:00
    我怀疑你在开车
    miniwade514
        47
    miniwade514  
       2019-05-21 18:13:47 +08:00
    楼主搞好了能否贴个 github 地址,纯学习
    Norie
        48
    Norie  
       2019-05-21 18:59:38 +08:00 via Android
    实锤开车
    yearliny
        49
    yearliny  
       2019-05-21 19:00:49 +08:00
    这么良好的格式要什么爬虫,PowerShell 就搞定了。
    ```powershell
    $json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get | ConvertFrom-Json
    $wc = New-Object System.Net.WebClient
    foreach ($i in $json) {
    $wc.DownloadFile($i.thumb_src, $json[0].thumb_src.LastIndexOf("/") + 1)
    }
    ```
    TMaize
        50
    TMaize  
       2019-05-21 19:10:00 +08:00 via Android
    之前爬过,我有全站的数据😂
    jsnjfz
        51
    jsnjfz  
       2019-05-21 19:14:36 +08:00
    meizitu 的爬虫在 github 上搜下应该有
    dabaibai
        52
    dabaibai  
       2019-05-21 19:16:33 +08:00
    你头像 能快速写出爬虫啊..
    golang 真香
    ddzy
        53
    ddzy  
       2019-05-21 19:17:00 +08:00
    都误会楼主了, 慢点, 晕车
    renmu123
        54
    renmu123  
       2019-05-21 19:23:32 +08:00 via Android
    我网盘还有这网站 10g 的资源
    a55455
        55
    a55455  
       2019-05-21 19:24:24 +08:00
    orz
    YAHIKO0
        56
    YAHIKO0  
       2019-05-21 19:30:32 +08:00
    妹子图不是早就没有了吗
    javen73
        57
    javen73  
       2019-05-21 19:30:48 +08:00
    ???我怀疑你再开车,但我没有证据
    luckyjack
        58
    luckyjack  
       2019-05-21 19:31:11 +08:00
    花式开车
    RLinux
        59
    RLinux  
       2019-05-21 19:32:55 +08:00
    这个都这么多人回复 为啥我的没人理的~~~
    baiducom
        60
    baiducom  
       2019-05-21 19:32:57 +08:00 via Android
    咳咳咳 好吧ヽ(  ̄д ̄;)ノ
    Constellation39
        61
    Constellation39  
       2019-05-21 19:42:12 +08:00
    疑车有据
    0x4F5DA2
        62
    0x4F5DA2  
       2019-05-21 19:47:42 +08:00
    我怀疑你在搞黄色,我好像也有证据
    iwishing
        63
    iwishing  
       2019-05-21 20:03:55 +08:00
    @yearliny
    改了一下你的
    $json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get -UseBasicParsing| ConvertFrom-Json
    $wc = New-Object System.Net.WebClient
    foreach ($i in $json) {
    $output = split-path -Leaf $i.thumb_src
    $wc.DownloadFile($i.thumb_src,$output)
    }
    keith1126
        64
    keith1126  
       2019-05-21 20:08:34 +08:00
    你这个是假车,我这有辆真车: https://paste.ubuntu.com/p/2nxbtRtqFX/

    用法自寻(逃
    Atukey
        65
    Atukey  
       2019-05-21 20:11:44 +08:00
    极速车
    Shiyq
        66
    Shiyq  
       2019-05-21 20:19:20 +08:00   ❤️ 2
    没意思(我好了)
    claysec
        67
    claysec  
       2019-05-21 20:27:45 +08:00 via iPhone
    空手套白狼?(滑稽)
    zzh1224
        68
    zzh1224  
       2019-05-21 20:31:24 +08:00
    你的开车技术真的一流
    bld2018
        69
    bld2018  
       2019-05-21 21:08:14 +08:00
    不是有成品发布过吗?
    canwex
        70
    canwex  
       2019-05-21 21:41:57 +08:00
    import requests
    import json

    url = 'https://adr.meizitu.net/wp-json/wp/v2/posts?page={}&per_page={}'
    per_page = 100
    page = 52

    print('##### spider start #####')
    while True:
    page += 1
    json_data = requests.get(url.format(page, per_page))
    data = json.loads(json_data.text)

    if not isinstance(data, list):
    print('##### spider end #####')
    break

    for item in data:
    thumb_src = item['thumb_src']
    title = item['title'] + '.jpg'
    print('[+] downloading {} ...'.format(title))
    meizi = requests.get(thumb_src)
    if meizi.status_code == 200:
    with open(title, 'wb') as f:
    f.write(meizi.content)
    fuchunliu
        71
    fuchunliu  
       2019-05-21 21:58:17 +08:00 via Android
    @keith1126 拿来就可以开,不用加油嘛😏
    zzzzzzzzzp
        72
    zzzzzzzzzp  
       2019-05-21 22:21:52 +08:00
    [{"id":181372,"title":"辣妹温心怡情趣内衣 SM 诱惑 丰胸美臀身材热辣销魂","img_num":46,"thumb_src":"https:\/\/i2.meizitu.net\/2019\/04\/23a25.jpg","thumb_src_min":"https:\/\/i2.meizitu.net\/thumbs\/2019\/05\/181372_23a25_236.jpg"},{"id":180743,"title":"大胸女神恩一雪白玉兔诱人呈现 手捧巨乳再掀性感狂潮".....
    wpzero
        73
    wpzero  
       2019-05-21 22:34:04 +08:00 via iPhone
    😄
    calebx
        74
    calebx  
       2019-05-21 22:34:46 +08:00
    早说吗!
    tt0411
        75
    tt0411  
       2019-05-21 22:47:56 +08:00
    要啥爬虫, 一行命令的事情

    curl -s http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20 | jq -r '.[] | .thumb_src' | xargs -IX curl -s -O X
    azh7138m
        76
    azh7138m  
       2019-05-21 22:52:49 +08:00 via Android
    @niknik 好人一生平安?(
    harvies
        77
    harvies  
       2019-05-21 23:34:03 +08:00
    import json
    import os

    import requests

    if __name__ == '__main__':
    flag = True
    page = 1
    while flag:
    print("page:" + str(page))
    list_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/posts?page=" + str(page) + "&per_page=20")
    content = list_html.content
    json_loads = json.loads(content)
    if isinstance(json_loads, list):
    print(json_loads)
    for list_item in json_loads:
    id_ = list_item['id']
    title = list_item['title']
    print(title)
    detail_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/i?id=" + str(id_))
    detail_json = json.loads(detail_html.content)
    print(detail_json)
    str_content_ = detail_json['content']
    content__split = str_content_.split(',')
    print('downloading ' + str(content__split))
    for detail_item in content__split:
    print(detail_item)
    rfind = detail_item.rfind('/')
    file_name = detail_item[rfind + 1:len(detail_item)]
    folder_path = "./images/" + title + '/'
    if not os.path.exists(folder_path):
    os.makedirs(folder_path)
    requests_get = requests.get(detail_item)
    with open(folder_path + file_name, "wb") as f:
    f.write(requests_get.content)
    else:
    code_ = json_loads['code']
    if code_ != 'rest_post_invalid_page_number':
    print(code_)
    else:
    print(code_ + " exit")
    flag = False
    page += 1
    lrigi
        78
    lrigi  
       2019-05-21 23:37:20 +08:00 via iPhone
    @tt0411 ios 捷径也可以的
    xiaobai987
        79
    xiaobai987  
       2019-05-21 23:40:01 +08:00
    图片地址都好爬 关键是 怎么样把地址全部快速爬下来 网站反爬很坑爹
    A1321A
        80
    A1321A  
       2019-05-22 00:00:25 +08:00
    车个屁,你们这也配叫车?笑出前列腺液....https://github.com/94se/94se---/wiki
    linvaux
        81
    linvaux  
       2019-05-22 00:23:08 +08:00 via Android
    果然特么十个爬虫九个都是妹子图
    qinghon
        82
    qinghon  
       2019-05-22 00:28:41 +08:00 via Android
    #80
    is or contains sexually obscene content
    举报了
    ningfeng
        83
    ningfeng  
       2019-05-22 00:31:33 +08:00 via Android
    确实不能算车,meizitu 连点都不漏,婴儿车吗?
    jsnjfz
        84
    jsnjfz  
       2019-05-22 00:39:58 +08:00
    A1321A
        85
    A1321A  
       2019-05-22 01:19:38 +08:00
    @qinghon 你认真的?
    lonelygo
        86
    lonelygo  
       2019-05-22 01:26:05 +08:00
    从疑车无据到真车,你们城里人真会玩。
    EscYezi
        87
    EscYezi  
       2019-05-22 01:28:22 +08:00 via iPhone
    meizitu 这个网站我爬过🌚不过是直接解析网页里的图片链接,似乎没有做任何反爬的措施🌚
    BBCCBB
        88
    BBCCBB  
       2019-05-22 08:14:45 +08:00
    我怀疑你在开车,但我又没有证据..

    再者说了, 你怎么穿着品如的衣服???
    Pi7bo1
        89
    Pi7bo1  
       2019-05-22 08:40:03 +08:00
    诸君各显神通啊
    tony2lord
        90
    tony2lord  
       2019-05-22 08:40:09 +08:00
    我怀疑你在开车,但是。。。我好了
    usingnamespace
        91
    usingnamespace  
       2019-05-22 08:43:41 +08:00 via iPhone
    @onecode 有什么访问的 爬虫入门爬的网站
    codebear01
        92
    codebear01  
       2019-05-22 08:43:54 +08:00
    看到 meizitu 我就知道一定不简单
    TimFire
        93
    TimFire  
       2019-05-22 08:48:40 +08:00
    不是怀疑在开车,是肯定在开车,特么我点开后直接被公司的上网行为管控给屏蔽了,我要举报楼主
    坏笑:)
    mozutaba
        94
    mozutaba  
       2019-05-22 08:50:54 +08:00
    @whitehack 大老,有源码吗
    Variazioni
        95
    Variazioni  
       2019-05-22 09:02:06 +08:00
    我怀疑你在开车。。而且我有证据。。\u8fa3\u59b9\u6e29\u5fc3\u6021\u60c5\u8da3\u5185\u8863SM\u8bf1\u60d1\u4e30\u80f8\u7f8e\u81c0\u8eab\u6750\u70ed\u8fa3\u9500\u9b42
    likaka
        96
    likaka  
       2019-05-22 09:16:08 +08:00
    放我下车
    wildcat007
        97
    wildcat007  
       2019-05-22 09:41:49 +08:00
    本来以为是··
    结果居然是··

    我怀疑你在开车,而且楼上很多人都有证据了!!!
    dfjslkjdf
        98
    dfjslkjdf  
       2019-05-22 10:21:36 +08:00
    lz 好人,lz 一生平安?
    aaronhua
        99
    aaronhua  
       2019-05-22 10:26:13 +08:00
    开车。。。倒不如直接点开看呢。
    thisisusername
        100
    thisisusername  
       2019-05-22 10:38:19 +08:00
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2783 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 12:41 · PVG 20:41 · LAX 04:41 · JFK 07:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.