V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hackingwu
V2EX  ›  程序员

有什么办法吧一个网站上的文章都爬取下来吗?

  •  
  •   hackingwu ·
    hackingwu · 2021-07-13 16:24:37 +08:00 · 1903 次点击
    这是一个创建于 446 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想把一个网站上的文章爬取下来,有没有办法可以自动触发 chrome 插件(简悦),他可以重新排版,保存的日记中。但是怎么批量的去做这件事情呢?大家有什么 idea ?

    2G
        1
    2G  
       2021-07-13 16:30:44 +08:00
    用 selenium ?然后加载的时候把 chrome 插件 load 进去,再用 xpath 操作?
    hackingwu
        2
    hackingwu  
    OP
       2021-07-13 16:48:42 +08:00
    @2G 我们可以去触发插件的按钮吗
    oneisall8955
        3
    oneisall8955  
       2021-07-13 17:09:10 +08:00
    爬虫爬得好
    ingdawn
        4
    ingdawn  
       2021-07-13 17:10:06 +08:00
    坐牢坐到老
    seamonster
        5
    seamonster  
       2021-07-13 17:10:47 +08:00
    真刑啊,日子越来越有判头了
    zelentre
        6
    zelentre  
       2021-07-13 17:18:55 +08:00
    很刑.
    HankLu
        7
    HankLu  
       2021-07-13 17:22:47 +08:00
    很简单
    ztcaoll222
        8
    ztcaoll222  
       2021-07-13 17:25:18 +08:00
    先这样
    HashV2
        9
    HashV2  
       2021-07-13 17:28:29 +08:00
    再这样
    tojike
        10
    tojike  
       2021-07-13 17:29:39 +08:00
    进去进得早
    yunyuyuan
        11
    yunyuyuan  
       2021-07-13 17:32:09 +08:00
    然后再这样
    nepiedg
        12
    nepiedg  
       2021-07-13 17:35:32 +08:00
    最后在这样
    jingcoco
        13
    jingcoco  
       2021-07-13 18:40:44 +08:00
    有个 网联网记忆的 工具,初衷是解决有些网站过了几年下线了 没法看的问题。
    kasusa
        14
    kasusa  
       2021-07-13 22:48:29 +08:00
    python 写,selenium 库,模拟点击按钮,用 xpath 定位下一篇按钮,刷新再来。
    就这么个流程吧。
    不过我感觉网上还是垃圾信息多。都爬下来有什么用呢?
    caicaiwoshishui
        15
    caicaiwoshishui  
       2021-07-13 23:20:38 +08:00 via iPhone
    楼上队形笑死我
    2G
        16
    2G  
       2021-07-14 02:47:02 +08:00
    @hackingwu 可以的,用 js dom 就可以,xpath 估计也可以。
    solopython
        17
    solopython  
       2021-07-14 09:47:57 +08:00
    试试 Newspaper3k
    muzuiget
        18
    muzuiget  
       2021-07-14 13:33:39 +08:00
    写个浏览器扩展就可以了,专事专办。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2076 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 12:11 · PVG 20:11 · LAX 05:11 · JFK 08:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.