V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lycos
V2EX  ›  问与答

rss 订阅 v2 抓取的内容为什么不全?

  •  
  •   lycos · 2016-01-15 08:44:52 +08:00 · 1765 次点击
    这是一个创建于 3236 天前的主题,其中的信息可能已经有所发展或是发生改变。

    是 v2 做了限制还是什么原因呢?求解,如何能抓取到 v2 的每个发帖?

    10 条回复    2020-03-05 13:45:12 +08:00
    dubuqingfeng
        1
    dubuqingfeng  
       2016-01-15 10:15:26 +08:00
    有些是需要登录以后才能看到的帖子、
    lycos
        2
    lycos  
    OP
       2016-01-15 10:17:31 +08:00
    @dubuqingfeng 恩恩 是的 我就是在登录后看到的帖子 然后我发现我的 rss 中没有抓过来。。
    还有如何按照时间序列查看发的帖子列表呢?
    Hello1995
        3
    Hello1995  
       2016-01-15 10:27:08 +08:00 via Android
    /index.xml 相当于 /changes ,按最新的回复排序,不受你的 block 规则影响。部分主题需要登录才有权限查看,部分主题需要注册满 1000 天才有权限查看。
    dubuqingfeng
        4
    dubuqingfeng  
       2016-01-15 10:37:02 +08:00   ❤️ 1
    lycos
        5
    lycos  
    OP
       2016-01-15 10:40:41 +08:00
    @Hello1995 恩 有没有权限看这个无所谓 现在的问题是 抓都抓不过来
    yeyeye
        6
    yeyeye  
       2016-01-15 13:49:09 +08:00
    直接用 RSS 获取最新的主题 ID , V2EX 是按数字顺序存储的,有些抓不到的是因为你权限不够(要满 1000 天注册时间,状态会是 301 或者 302 ),有些是广告帖或者不和谐的帖删除了。(如果是被删除了就是 404 状态)

    除了这个,你还有什么问题?什么叫“抓都抓不过来”?
    lycos
        7
    lycos  
    OP
       2016-01-15 16:31:30 +08:00
    @yeyeye rss 订阅 还分权限?
    lycos
        8
    lycos  
    OP
       2016-01-15 16:38:57 +08:00
    @yeyeye 我是订阅的这个 http://v2ex.com/index.xml 你说的那个获取最新主题的 怎么弄?
    mfaner
        9
    mfaner  
       2016-01-17 17:48:00 +08:00
    /feed/tab/all.xml 这个里面有特殊节点,全不全不清楚,我用的阅读器这个没人订阅所以更新频率慢反而不如 /index.xml
    lxk11153
        10
    lxk11153  
       2020-03-05 13:45:12 +08:00
    latest.json index.xml read.xml
    - 二手交易 调查 Chamber 等
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2658 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 05:10 · PVG 13:10 · LAX 21:10 · JFK 00:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.