V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
AndyAO
V2EX  ›  程序员

wget 是阅读软件项目文档的好帮手

  •  4
     
  •   AndyAO · 27 天前 · 3145 次点击

    例如,想全面搜索.coverage,如果用谷歌的话,实际上效果并不好,只要带点符号就会出问题,更不用说使用正则或者布尔表达式搜索。

    最好的办法就是将这些文档全部下载到本地,本来以为这会很麻烦,没想到 wget 自带这个功能,例如下载poetry的文档,用wget -r -np -nc -k -c 'http://python-poetry.org/docs'

    对于很多没有自带 pdf 文档下载服务的项目很有用。

    第 1 条附言  ·  27 天前
    由于下载完成之后还需要进行转换,所以如果没有完全下载完,那么你会发现网页中的样式和图片好像都有些问题不过不用担心,全部完成之后这些问题都会解决。
    11 条回复    2021-09-22 01:02:10 +08:00
    yuhangch
        1
    yuhangch   27 天前
    谢谢分享,内网机真挺需要的
    thetbw
        2
    thetbw   26 天前
    浏览器上 ctrl+s 保存网页这种?
    AndyAO
        3
    AndyAO   26 天前
    (⊙o⊙)…
    thetbw 这位老兄看来是将俺当做傻子了,自己试试不就知道了
    delectate
        4
    delectate   26 天前
    楼主的方法,具有特异性,也就是说只有纯文本且易被 wget 爬取的网站才能这样操作。

    如果网站目录很深,或者很庞大,或者有很多图,本地要爆炸,不如写个爬虫爬下来存数据库。
    sleeepyy
        5
    sleeepyy   26 天前
    @delectate 楼主限定的 “阅读软件项目文档” 的场景,应该来说问题还是不大的
    stephCurry
        6
    stephCurry   26 天前
    直接 `wget -r 'url'` 不行吗?
    youxiachai
        7
    youxiachai   26 天前
    wget 不是有镜像下载功能吗。。
    kkocdko
        8
    kkocdko   26 天前
    @delectate 确实,这种爬取方式对很多网站,特别是花里胡哨的前端框架文档都不适用。
    我习惯于从 GitHub 上直接获取 Docs 文档,比如这样: https://github.com/vuejs/docs-next-zh-cn/tree/gh-pages
    kkocdko
        9
    kkocdko   26 天前
    @kkocdko 直链: https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/master.zip
    这样就能直接下载构建好的文档了。不过这显然也不是通用的方案。。。
    learningman
        10
    learningman   26 天前 via Android
    @kkocdko 你下 master 还得 npm 编译吧。。。
    kkocdko
        11
    kkocdko   26 天前
    @learningman 诶,这似乎是 GitHub 的 Bug ?切换分支后下载按钮依然是 master 的链接?
    更正: https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/gh-pages.zip
    关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2936 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:30 · PVG 12:30 · LAX 21:30 · JFK 00:30
    ♥ Do have faith in what you're doing.