如何爬取一个人所有的微博？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3004 天前的主题，其中的信息可能已经有所发展或是发生改变。

在只知道用户名的情况下，抓取这个用户名下的所有的微博

名下

微博

用户

所有

14 条回复 • 2016-09-13 21:53:18 +08:00

Hello1995

2016-09-05 22:42:31 +08:00 via iPhone

可以换个思路，去爬微博档案， 233

herozzm

2016-09-05 22:55:41 +08:00 via Android

注册用户关注他，让爬虫模拟登录后爬起来

UnisandK

2016-09-05 23:14:40 +08:00

记得是不是翻不到那么后面，接口也有限制

ooh

2016-09-05 23:44:21 +08:00

如果只是一个人的话 lz 可以看看我以前的笔记 [点我]( http://blog.jjyy.me/2015/10/11/weibo-text-analysis/)，自己改一下应该很快

登陆已经坏了，现在都带验证码了， cookiejar 你得先在浏览器里面登陆获取到 weibo.cn 域下面的 cookie ，只需要 SCF SUB 这俩个就可以了

![](

)

我自己跑了一下，目前几百页还没触发限制条件

![](

)

slysly759

2016-09-06 12:04:28 +08:00 via Android

我原来写过，只需呀 UID 就行了，然后可以爬取全部微博， text 和图片是分开放的

macwhirr

2016-09-06 17:19:24 +08:00

很简单。

Qiangyuan

2016-09-07 21:14:08 +08:00

@ooh 看不懂，验证码怎么弄？

Qiangyuan

2016-09-07 21:18:24 +08:00

@slysly759 可以分享出来吗？

Qiangyuan

2016-09-07 21:19:05 +08:00

@macwhirr 请教如何做？表示不懂

Qiangyuan

2016-09-07 21:20:03 +08:00

@ooh
root@johnnyding-Inspiron-3437:/home/johnnyding/文档 /2017-interview/test# python test.py
Traceback (most recent call last):
File "test.py", line 19, in <module>
main()
File "test.py", line 13, in main
data = w.get_info(url)
File "/home/johnnyding/文档 /2017-interview/test/weibo.py", line 102, in get_info
data['page'] = int(soup.find('input', {'name': 'mp'}).get('value'))
AttributeError: 'NoneType' object has no attribute 'get'
这个错是什么？

ooh

2016-09-07 23:30:46 +08:00

@Qiangyuan 这个错就是因为没登陆成功，你是在没登陆情况访问的那个页面，快速解决方法我上面已经给出了，你先在浏览器里面登陆，拿到 weibo.cn 域下面的 cookie ，然后手动写入到 cookiejar 文件里面，只要 SCF SUB 这两个就可以

macwhirr

2016-09-08 14:53:25 +08:00

@Qiangyuan 接口

slysly759

2016-09-13 09:58:50 +08:00

@Qiangyuan 哈哈可以啊~
https://github.com/songluyi/slylearnpython
在里面有，记得把 cookie 换掉一个 cookie 一般持续 20 分钟的样子你用 weibo.cn 的获取登陆页 cookie 就行，如果好用麻烦点个赞蛤~写的通俗易懂

Qiangyuan

2016-09-13 21:53:18 +08:00

@slysly759 谢谢！