V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
okface
V2EX  ›  Python

抓取淘宝的商品信息需要大量的淘宝账号吗?

  •  
  •   okface · 2019-01-26 18:25:17 +08:00 · 6785 次点击
    这是一个创建于 2146 天前的主题,其中的信息可能已经有所发展或是发生改变。
    账号会很容易被封吗?如果是的话从哪里购买大批小号?
    26 条回复    2019-01-27 16:28:26 +08:00
    iiduce
        1
    iiduce  
       2019-01-26 18:27:07 +08:00   ❤️ 1
    哪有这么麻烦。淘宝开放平台申请 api 即可。
    okface
        2
    okface  
    OP
       2019-01-26 18:42:15 +08:00
    @iiduce 这个 api 肯定是有限制的吧,现在难道都不需要抓取了?
    okface
        3
    okface  
    OP
       2019-01-26 18:48:17 +08:00
    @iiduce 好吧我看了一下收费不便宜啊~
    Veigar
        4
    Veigar  
       2019-01-26 18:59:49 +08:00 via iPhone   ❤️ 1
    技术圈很多人不知道的一个事实是,以中国现行的法律标准,几乎所有爬虫工程师全都违法…
    Vegetable
        5
    Vegetable  
       2019-01-26 19:04:26 +08:00 via iPhone
    @Veigar 我怎么认为所有的爬虫工程师都知道自己做的事不合法呢…
    ioven
        6
    ioven  
       2019-01-26 19:23:57 +08:00   ❤️ 1
    小区搭建一个无密码的高强度 wifi,然后嗅探 cookies,然后。。。

    据说某大佬就是这种操作
    levon
        7
    levon  
       2019-01-26 19:32:24 +08:00 via iPhone
    浪费时间
    zr8657
        8
    zr8657  
       2019-01-26 19:39:50 +08:00
    @ioven 感觉挺厉害,淘宝的 cookie 又多又杂。

    如果不需要商品销量和库存的话还是挺简单,只有商品列表要登录,详情不需要登录,不过最近好像评论接口需要登录了。
    kimown
        9
    kimown  
       2019-01-26 19:52:54 +08:00 via Android
    @Veigar
    请问是哪条法律?
    flyz
        10
    flyz  
       2019-01-26 20:00:00 +08:00 via Android
    @kimown 非法入侵计算机信息系统罪。
    这个口袋可以装很多。
    lhx2008
        11
    lhx2008  
       2019-01-26 20:13:07 +08:00
    @ioven HTTPS 嗅探不到吧
    farverfull
        12
    farverfull  
       2019-01-26 20:40:42 +08:00   ❤️ 1
    https 不是要在手机上装证书才行么?
    @ioven
    rekulas
        13
    rekulas  
       2019-01-26 20:52:24 +08:00
    @flyz 这吹的就有点过了,除非是想搞某个人会安排这个罪名,按法律来的话正常的爬虫应该是合法的,毕竟网站都把数据放到公网上了,法律对公共场所隐私是缺乏保护的
    wuchujie
        14
    wuchujie  
       2019-01-26 22:52:18 +08:00
    @farverfull https 嗅探。。自建 WiFi 自建 dns 服务器
    tiaod
        15
    tiaod  
       2019-01-26 22:54:06 +08:00
    @rekulas 但是只要网站有反爬技术,哪怕最简单最弱智的那种,你写个爬虫用技术手段绕过了,就是非法入侵计算机信息系统罪
    kernel
        16
    kernel  
       2019-01-26 22:55:46 +08:00
    @wuchujie 自建啥也做不到,除非能侵入对方电脑装个证书
    Kagari
        17
    Kagari  
       2019-01-26 23:37:16 +08:00
    @rekulas 你别改 UA 啊
    molvqingtai
        18
    molvqingtai  
       2019-01-27 02:03:52 +08:00 via Android
    @rekulas 只要没遵守 Robots 协议就算
    AslanFong
        19
    AslanFong  
       2019-01-27 08:09:34 +08:00
    前公司广告平台做过淘宝商品详情的爬虫,需要商家自己填写淘宝的商品 ID,然后我们再特定的爬。没爬过商品列表,感觉这个业务不符合实际。
    ioven
        20
    ioven  
       2019-01-27 08:10:06 +08:00
    @lhx2008
    @farverfull
    貌似中间使用一些灰产技术,没细研究
    okface
        21
    okface  
    OP
       2019-01-27 11:19:11 +08:00
    @AslanFong 我们是根据关键词搜索
    ooleslie
        22
    ooleslie  
       2019-01-27 12:47:21 +08:00   ❤️ 1
    @Veigar 按照中国法律,中国就没啥不犯法的。。不开发票,就是偷税漏税,满大街等着抓
    czwstc
        23
    czwstc  
       2019-01-27 14:04:12 +08:00 via iPhone
    czwstc
        24
    czwstc  
       2019-01-27 14:05:15 +08:00 via iPhone
    @rekulas 《刑法》第 285 条,非法获取计算机信息系统数据罪。 判例参考今日头条诉上海晟品
    mozutaba
        25
    mozutaba  
       2019-01-27 15:33:20 +08:00
    @kimown 就是这点恐怖,什么都能套非法获取计算机信息,但又不知道明细法规。
    百度什么都抓,屁事没有。但百度被爬虫抓,一告一个准。
    rekulas
        26
    rekulas  
       2019-01-27 16:28:26 +08:00
    @tiaod @Kagari @molvqingtai @czwstc
    好吧 我承认你们是对的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5040 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 07:46 · PVG 15:46 · LAX 23:46 · JFK 02:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.