V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
keisuu
V2EX  ›  Python

Python 爬虫实践之:简书用户画像

  •  
  •   keisuu · 2017-06-13 13:39:23 +08:00 · 7437 次点击
    这是一个创建于 2714 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近用 Python 写了一个简书用户的爬虫,单机耗时 30 小时抓取了简书 30 万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这 30 万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性

    http://mp.weixin.qq.com/s/N_nomh6aHYIUS1FRFC067Q

    15 条回复    2017-06-20 07:13:47 +08:00
    gaoyadianta
        1
    gaoyadianta  
       2017-06-13 14:16:37 +08:00
    玩 python 多久了,看着还挺有意思的嘛
    kokdemo
        2
    kokdemo  
       2017-06-13 14:43:29 +08:00
    这个应该算是用户统计,还谈不上画像。

    但是能爬了这么多数据也挺有意思的……
    xiaoyu9527
        3
    xiaoyu9527  
       2017-06-13 15:03:05 +08:00
    我现在想抓微博的网红和模特和 COSER 然后抓他们发的套图。 你们有没有思路?
    xiaoyu9527
        4
    xiaoyu9527  
       2017-06-13 15:03:25 +08:00
    然后做一个瀑布流网站。
    xiaoyu9527
        5
    xiaoyu9527  
       2017-06-13 15:13:42 +08:00
    @keisuu 有没有思路
    lzjun
        6
    lzjun  
       2017-06-13 15:31:26 +08:00
    有点意思
    keisuu
        7
    keisuu  
    OP
       2017-06-13 15:32:10 +08:00
    @gaoyadianta 努力成长的菜鸟一枚
    keisuu
        8
    keisuu  
    OP
       2017-06-13 15:33:42 +08:00
    @xiaoyu9527 第一步获取数据( github 有开源的微博爬虫),第二步用 web 框架( django、flask )搭建一个网站将抓的数据展示出来。
    xiaoyu9527
        9
    xiaoyu9527  
       2017-06-13 16:58:04 +08:00
    @keisuu 就是没有思路怎么整理数据(如何知道他是女模特或者 COSER )
    haoba
        10
    haoba  
       2017-06-13 18:05:09 +08:00
    @xiaoyu9527 只抓指定的几个人的 feed,或者关联的就再抓上他关注的人的 feed。然后拉回本地分析一下图。
    zzljzeng
        11
    zzljzeng  
       2017-06-13 18:10:19 +08:00 via iPhone
    好 6666
    l32606
        12
    l32606  
       2017-06-14 03:24:30 +08:00 via Android
    画图用的是什么?
    xiaoyu9527
        13
    xiaoyu9527  
       2017-06-14 10:10:36 +08:00
    @haoba 我目前的思路也是先抓 1 人再抓剩下的人。这种思路。
    longchisihai
        14
    longchisihai  
       2017-06-14 17:15:44 +08:00
    同问怎么画图的
    bget
        15
    bget  
       2017-06-20 07:13:47 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2595 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 10:45 · PVG 18:45 · LAX 02:45 · JFK 05:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.