Leo Code

主页 > 服务器 > wget命令下载整站,并忽略robots.txt文件

wget命令下载整站,并忽略robots.txt文件

看到某些网站的页面很漂亮,想下载下来分析源码,或者借鉴前端风格,linux下有一个很好用的命令wget,可以整站下载。

在网上找到几个参数:

-r  递归
-p,  --page-requisites(页面必需元素)
-np, --no-parent(不追溯至父级)
-k  将下载的HTML页面中的链接转换为相对链接即本地链接

例如,要下载一个 http://www.xxx.com/test/  下的所有页面可以使用命令:

# wget -r http://www.xxx.com/test/

可是有的时候网站的根目录有 robots.txt 文件约束,所以,可能根本下载不完全,但是为了达到目的,可以使用另外一个参数:

-e robots=off
# wget -r -e robots=off http://www.xxx.com/test/

OK,搞定,这样一来就可以整站下载了。