wget 是阅读软件项目文档的好帮手

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 1704 days ago, the information mentioned may be changed or developed.

例如，想全面搜索.coverage，如果用谷歌的话，实际上效果并不好，只要带点符号就会出问题，更不用说使用正则或者布尔表达式搜索。

最好的办法就是将这些文档全部下载到本地，本来以为这会很麻烦，没想到 wget 自带这个功能，例如下载poetry的文档，用wget -r -np -nc -k -c 'http://python-poetry.org/docs'。

对于很多没有自带 pdf 文档下载服务的项目很有用。

Supplement 1 · Sep 21, 2021

由于下载完成之后还需要进行转换，所以如果没有完全下载完，那么你会发现网页中的样式和图片好像都有些问题不过不用担心，全部完成之后这些问题都会解决。

11 replies • 2021-09-22 01:02:10 +08:00

yuhangch

Sep 21, 2021

谢谢分享，内网机真挺需要的

thetbw

Sep 21, 2021

浏览器上 ctrl+s 保存网页这种？

AndyAO

Sep 21, 2021

(⊙o⊙)…
thetbw 这位老兄看来是将俺当做傻子了，自己试试不就知道了

delectate

Sep 21, 2021

楼主的方法，具有特异性，也就是说只有纯文本且易被 wget 爬取的网站才能这样操作。

如果网站目录很深，或者很庞大，或者有很多图，本地要爆炸，不如写个爬虫爬下来存数据库。

sleeepyy

Sep 21, 2021

@delectate 楼主限定的 “阅读软件项目文档” 的场景，应该来说问题还是不大的

stephCurry

Sep 21, 2021

直接 `wget -r 'url'` 不行吗？

youxiachai

Sep 21, 2021

wget 不是有镜像下载功能吗。。

kkocdko

Sep 21, 2021

@delectate 确实，这种爬取方式对很多网站，特别是花里胡哨的前端框架文档都不适用。
我习惯于从 GitHub 上直接获取 Docs 文档，比如这样： https://github.com/vuejs/docs-next-zh-cn/tree/gh-pages

kkocdko

Sep 21, 2021

@kkocdko 直链： https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/master.zip
这样就能直接下载构建好的文档了。不过这显然也不是通用的方案。。。

learningman

Sep 21, 2021 via Android

@kkocdko 你下 master 还得 npm 编译吧。。。

kkocdko

Sep 22, 2021

@learningman 诶，这似乎是 GitHub 的 Bug ？切换分支后下载按钮依然是 master 的链接？
更正： https://github.com/vuejs/docs-next-zh-cn/archive/refs/heads/gh-pages.zip