V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
airqj
V2EX  ›  程序员

抓了点知乎用户数据,打算分享给各位兄弟

  •  
  •   airqj · 2016-09-16 20:02:51 +08:00 · 7085 次点击
    这是一个创建于 2771 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大概 5W 个知乎用户的 500 条动态
    不知道放在什么地方合适呢?不想放百度网盘,自己的 vps 流量硬盘也不够。。。。
    另外 把这些数据公开会不会被知乎喝茶?

    49 条回复    2016-09-24 14:44:10 +08:00
    abelyao
        1
    abelyao  
       2016-09-16 20:04:43 +08:00 via iPhone
    放 LeanCloud 吧,每月有 100 万次免费的数据接口调用,或者全部转为静态数据后存储在 又拍云 七牛。
    a87150
        2
    a87150  
       2016-09-16 20:09:30 +08:00
    有什么用?
    ooh
        3
    ooh  
       2016-09-16 20:09:41 +08:00
    知乎网管正在拨打东北黑社会小哥电话 ing 🤣
    airqj
        4
    airqj  
    OP
       2016-09-16 20:13:34 +08:00
    @a87150 兄弟 我把计算机话题下的所有子话题的最佳回答者的动态都给抓下来了
    有没有用就看你自己了
    用户推荐什么的
    airqj
        5
    airqj  
    OP
       2016-09-16 20:17:35 +08:00
    @abelyao 多谢兄弟 我试一下
    URgoy
        6
    URgoy  
       2016-09-16 20:17:43 +08:00 via Android
    不知道。
    youmualone
        7
    youmualone  
       2016-09-16 20:50:47 +08:00   ❤️ 1
    Disallow: /login
    Disallow: /logout
    Disallow: /resetpassword
    Disallow: /terms
    Disallow: /search
    Disallow: /notifications
    Disallow: /settings
    Disallow: /inbox
    Disallow: /admin_inbox
    Disallow: /*?guide*
    Disallow: /people/*-*-*-*
    lslqtz
        8
    lslqtz  
       2016-09-16 21:07:57 +08:00
    我想想哈。。
    大小多大?
    rhen
        9
    rhen  
       2016-09-16 21:15:12 +08:00 via Android
    支持,不过 5w..根本看不完
    airqj
        10
    airqj  
    OP
       2016-09-16 21:15:47 +08:00
    @lslqtz 处理一下估计有 2G 左右
    恢复成真正的数据十几个 G
    airqj
        11
    airqj  
    OP
       2016-09-16 21:16:41 +08:00
    @rhen 这不是用来看的
    用来做机器学习用户推荐之类的
    lll9p
        12
    lll9p  
       2016-09-16 21:24:10 +08:00
    抓情感类或者别的很喜欢讲故事的话题更好哈,用 RNN 训练之后输出一些上知乎看看得多少赞
    lslqtz
        13
    lslqtz  
       2016-09-16 21:25:22 +08:00
    @airqj lzma 压缩神器试试看
    lslqtz
        14
    lslqtz  
       2016-09-16 21:31:05 +08:00
    我找到了,你可以试试看 daocloud 。
    没找到说限制带宽和流量的,但是我找到了存储空间是需要 1x 的容量,默认搞定后是有 2x 的容量,搞微信还有 3x 。
    其中 1x 可以开个 docker , 1x 可以开 10g 的存储空间,就是注意优化和经常登录,这玩意容易休眠,也容易内存爆掉挂掉。
    如果怕内存挂掉可以去搞微信,再来个 1x 加内存。
    建议用 lzma 压缩,否则上传速度感人。
    http://233.dog/f_40127258.png
    http://233.dog/f_29750671.png
    http://233.dog/f_48875122.png
    zhouzb889
        15
    zhouzb889  
       2016-09-16 21:33:41 +08:00
    忘了乌云和世纪佳缘的故事了吗?
    airqj
        16
    airqj  
    OP
       2016-09-16 21:42:25 +08:00
    @lll9p 原本是打算把爬虫放到 github 上有兴趣的人把数据爬了就 PR 一下
    不过目前看来不太合适
    airqj
        17
    airqj  
    OP
       2016-09-16 21:43:14 +08:00
    @zhouzb889 我这东西又不是用来盈利的
    再者爬虫爬下来的 应该不会有什么事吧?
    airqj
        18
    airqj  
    OP
       2016-09-16 21:43:52 +08:00
    @lslqtz 多谢兄弟
    明天试试
    lslqtz
        19
    lslqtz  
       2016-09-16 21:48:04 +08:00
    @airqj 如果分卷的话你可以用 oschina ,速度飞快,上传限制 1G ,分卷用 999M 就好。
    http://osu.acgvideo.cn/songs/Chuunibyou-1.mp3
    viko16
        20
    viko16  
       2016-09-16 21:48:11 +08:00 via Android
    @lslqtz 图床域名好赞
    lslqtz
        21
    lslqtz  
       2016-09-16 21:55:16 +08:00   ❤️ 2
    @viko16 http://myloli.club ,去用吧。
    顺便吐槽一下,上次写代码测试,因为用客户端删表麻烦,脑抽直接把数据库清空了,备份不太及时,结果大部分的记录炸了没法管理 2333 。
    7sDream
        22
    7sDream  
       2016-09-16 22:11:15 +08:00   ❤️ 1
    https://zhuanlan.zhihu.com/p/20828854

    很早之前抓了 300w 知乎活跃用户的基础数据……至今不知道往哪放……
    airqj
        23
    airqj  
    OP
       2016-09-16 22:37:31 +08:00
    @7sDream 爬数据用的是兄弟你的爬虫 哈哈
    wizardforcel
        24
    wizardforcel  
       2016-09-16 22:38:57 +08:00 via Android
    有小黄文么😂😂😂
    7sDream
        25
    7sDream  
       2016-09-16 22:42:36 +08:00
    @airqj

    这 TM 就尴尬了 23333 。

    不过自己的项目有人用感觉还是挺好的哈,虽然我项目的定位并不是爬虫……尴尬。
    ovear
        26
    ovear  
       2016-09-16 22:46:38 +08:00
    mega 盘挺不错的啊。。
    abelyao
        27
    abelyao  
       2016-09-17 00:14:39 +08:00   ❤️ 1
    @7sDream 有意思,分享给了很多非互联网行业的朋友,很直观的表现了 “数据分析” 的应用和价值
    7sDream
        28
    7sDream  
       2016-09-17 00:41:29 +08:00
    @abelyao 谢谢支持~~
    jiaots
        29
    jiaots  
       2016-09-17 01:33:41 +08:00
    @7sDream @airqj 哥们 我想抓点特定网站的数据,能不能加我 QQ 858 82 70 900
    andyfan
        30
    andyfan  
       2016-09-17 02:03:02 +08:00 via Android
    马克等地址
    ryd994
        31
    ryd994  
       2016-09-17 05:55:47 +08:00 via Android
    楼主你放吧,我服务器不限流量给你转好了
    主要问题是………预计会很慢
    megadrive 也可以
    ryd994
        32
    ryd994  
       2016-09-17 05:56:14 +08:00 via Android
    也可以考虑 BT ,人多点立刻就快了
    prefere
        33
    prefere  
       2016-09-17 06:15:25 +08:00
    挂自己服务器上,用迅雷下载一次。然后删掉自己服务器上的内容。
    别人想下的时候直接用迅雷下就可以了,
    以前看别人这么搞过,不知道现在还能不能用。
    hard2reg
        34
    hard2reg  
       2016-09-17 09:45:36 +08:00
    @prefere 然后就被举报了
    shiji
        35
    shiji  
       2016-09-17 09:48:37 +08:00
    我 Linode 还剩 8T 流量,需要帮忙么?
    airqj
        36
    airqj  
    OP
       2016-09-17 10:18:33 +08:00
    @ryd994
    @prefere
    @shiji
    主要是怕被请去喝茶
    Ouyangan
        37
    Ouyangan  
       2016-09-17 10:22:28 +08:00
    上次爬了三十万....一直扔硬盘
    shiji
        38
    shiji  
       2016-09-17 10:23:23 +08:00 via Android
    @airqj 实在不行遮盖住部分用户名,这样基本没啥毛病
    prefere
        39
    prefere  
       2016-09-17 10:34:30 +08:00
    要不你看看能不能塞谷歌网盘里
    ixinshang
        40
    ixinshang  
       2016-09-17 11:49:08 +08:00 via Android
    里面的段子不错
    timestamp
        41
    timestamp  
       2016-09-17 11:59:21 +08:00
    chenxx
        42
    chenxx  
       2016-09-17 12:54:37 +08:00
    @airqj 能提供下爬虫吗,我想学习一下
    airqj
        43
    airqj  
    OP
       2016-09-17 14:02:53 +08:00 via Android
    @chenxx 可以去看看 7sDream 大大的爬虫
    chenxx
        44
    chenxx  
       2016-09-17 14:23:14 +08:00
    @airqj 在哪,我现在碰到的问题是伪装浏览器没成功,不知道是不是 headers 没写对
    airqj
        45
    airqj  
    OP
       2016-09-17 14:50:55 +08:00 via Android
    @chenxx 兄弟找代码不是应该上 github 吗………
    lll9p
        46
    lll9p  
       2016-09-17 17:52:31 +08:00
    哦哦对,可以放 Btsync 啊~
    @airqj
    chuhemiao
        47
    chuhemiao  
       2016-09-17 19:39:25 +08:00
    abelyao
        48
    abelyao  
       2016-09-17 21:27:46 +08:00
    @jiaots 想抓啥?
    googlefans
        49
    googlefans  
       2016-09-24 14:44:10 +08:00
    怎么抓的? zhihu 没防抓措施?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1341 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 23:40 · PVG 07:40 · LAX 16:40 · JFK 19:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.