Random Tech Thoughts

The title above is not random

Wget

Download all content under a directory of some URL:

wget -r -p -E -k -nH -np --cut-dirs=1 -P <output dir> URL

Meaning of each option (too lazy to translate one back to English):

  • -r 递归获取
  • -p —page-requisites 下载正确显示页面需要的文件,如 CSS,图片等
  • -E —html-extension 将 cgi 脚本之类的文件转换成 html 文件以便本地阅读
  • -k —convert-links 转换链接以适合本地阅读
  • -nH 不把主机名放在下载的目录名中
  • -nd 把所有下载的文件都放在一个目录下(我更愿意保留服务器上的目录结构,不然一个目录下会有太多文件)
  • —cut-dirs= 保留服务器上目录结构,但是截去几层目录。主机名域名后面的第一个目录为第一层,如果 n = 0,则保留服务器上完整的目录结构
  • -I : 获取指定目录下的文件,列表用逗号分隔。用 -np 来限制只获取子目录更为简单吧。
  • -X : 不要获取的目录
  • -np —no-parent: 不要获取父目录中内容
  • -P —directory-prefix 下载到指定目录