网站抓取对于做前端模版的人来说是很好用的,一般来说使用wget就已经足够使用。
wget本身没有图形界面,所以要进入终端进行操作
wget -m -e robots=off -k -E "http://www.csroad.cn" 可以将全站下载以本地的当前工作目录,生成可访问、完整的镜像。
解释:
-m //镜像,就是整站抓取
-e robots=off //忽略robots协议,强制、流氓抓取
-k //将绝对URL链接转换为本地相对URL
-E //将所有text/html文档以.html扩展名保存
2.通过HTTrack:克隆一个网站页面到本地
安装:
centos :yum install httrack
ubuntu:apt-get install httrack 使用起来也比较简单:
直接一条命令执行:
httrack "http://www.csroad.cn" -O /home/backup/myweb/ "+.linux.csroad.cn/" -v
注释:
"+.linux.csroad.cn/" 表示以 ".linux.csroad.cn/" 开头的所有页面,当然这里也可以直接是 "+http://linux.csroad.cn"