Oct 06

具体命令:

wget -mkp -e robots=off -U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" "http://www.example.com/"

含义:
-m, –mirror, 表示命令用于镜像, 设置一些递归参数什么的.
-k, –convert-links, 转换网页中的链接. 如果没用这个参数, 链接还是指向源网站的.
-p, –page-requisites, 把正确显示网页所需的图片, 样式表单什么的一并保存下来.
-e robots=off, 忽略robots.txt, 有些网站使用robots.txt禁止抓取.
-U “Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6” , –user-agent, 把自己为装成浏览器. 有些网站只允许浏览器访问.

上述命令适合抓取静态网页,更详细的命令请参照wget手册。

转自:http://v2ex.com/t/40484

Leave a Reply