fbpx
维基百科

HTTrack

HTTrack是一个自由开源网络爬虫以及离线浏览器。它的作者是泽维尔·罗奇(Xavier Roche),在GNU通用公共授權條款GPL)下发布。

HTTrack
開發者Xavier Roche[1]
目前版本
  • 3.49.2 (2017年5月20日;穩定版本)[2]
  • 3.49.4 (2023年1月14日)[3]
源代码库
  • github.com/xroche/httrack
编程语言C语言
操作系统Microsoft Windows, Mac OS X, GNU/LinuxFreeBSD
类型离线浏览网络爬虫
许可协议GNU通用公共授權條款
网站www.httrack.com

使用者可以通过HTTrack把互联网上的网站页面下载到本地计算机上。在默认设置下,HTTrack对网站页面的下载结果是按照原始站点相对链接的结构来组织的。用网页浏览器打开这个被下载下来的网站(也称作镜像)的页面,就可以离线浏览了。

HTTrack也能对已经镜像过的站点进行更新。或者是对中断了的工作断点续传。可以通过选项和过滤器(include/exclude)配置HTTrack的方方面面。它还整合有帮助系统。它有一个基本的命令行版本和两个GUI(为Windows设计的WinHTTrack和为Unix-like系统设计的WebHTTrack);命令行版本可以和Shell脚本(Shell script)以及cron联用。

HTTrack使用网络爬虫下载网站。对于有robots.txt的网站,如果不在程序运行时取消限制,默认设置下的程序不会把网站完全镜像。HTTrack能跟随基本的JavaScript,或者AppletFlash中的链接,但是对于复杂的链接(使用函数和表达式创建的链接)或者服务器端的Image Map英语Image Map则无能为力。

安装与使用

在许多Unix-like系统下,只需要用包管理工具安装httrack即可。例如Debian使用

sudo aptitude install httrack

一个使用例子:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

它的意思是:以http://www.all.net/ 为起始URL,输出到/tmp/www.all.net文件夹,范围是www.all.net域名下的所有文件,并显示所有错误信息(verbose)。更详细的信息请看官网上的Users Guide[5]

参见

脚注

  1. ^ Credits: Greetings & authors. [2012-10-26]. (原始内容于2020-04-29). 
  2. ^ https://www.httrack.com/page/1/en/index.html; 作品或名稱的語言: 英語.
  3. ^ Release 3.49.4. 2023年1月14日 [2023年2月11日]. 
  4. ^ 存档副本. [2012-10-26]. (原始内容于2012-10-25). 
  5. ^ Httrack Users Guide. [2012-10-26]. (原始内容于2012-10-26). 

外部链接

  • 官方网站

httrack, 是一个自由, 开源的网络爬虫以及离线浏览器, 它的作者是泽维尔, 罗奇, xavier, roche, 在gnu通用公共授權條款, 下发布, 開發者xavier, roche, 目前版本3, 2017年5月20日, 穩定版本, 2023年1月14日, 源代码库github, xroche, httrack编程语言c语言操作系统microsoft, windows, linux和freebsd类型离线浏览, 网络爬虫许可协议gnu通用公共授權條款网站www, httrack, com使用者可以通过把. HTTrack是一个自由 开源的网络爬虫以及离线浏览器 它的作者是泽维尔 罗奇 Xavier Roche 在GNU通用公共授權條款 GPL 下发布 HTTrack開發者Xavier Roche 1 目前版本3 49 2 2017年5月20日 穩定版本 2 3 49 4 2023年1月14日 3 源代码库github wbr com wbr xroche wbr httrack编程语言C语言操作系统Microsoft Windows Mac OS X GNU Linux和FreeBSD类型离线浏览 网络爬虫许可协议GNU通用公共授權條款网站www wbr httrack wbr com使用者可以通过HTTrack把互联网上的网站页面下载到本地计算机上 在默认设置下 HTTrack对网站页面的下载结果是按照原始站点相对链接的结构来组织的 用网页浏览器打开这个被下载下来的网站 也称作镜像 的页面 就可以离线浏览了 HTTrack也能对已经镜像过的站点进行更新 或者是对中断了的工作断点续传 可以通过选项和过滤器 include exclude 配置HTTrack的方方面面 它还整合有帮助系统 它有一个基本的命令行版本和两个GUI 为Windows设计的WinHTTrack和为Unix like系统设计的WebHTTrack 命令行版本可以和Shell脚本 Shell script 以及cron联用 HTTrack使用网络爬虫下载网站 对于有robots txt的网站 如果不在程序运行时取消限制 默认设置下的程序不会把网站完全镜像 HTTrack能跟随基本的JavaScript 或者Applet Flash中的链接 但是对于复杂的链接 使用函数和表达式创建的链接 或者服务器端的Image Map 英语 Image Map 则无能为力 目录 1 安装与使用 2 参见 3 脚注 4 外部链接安装与使用 编辑在许多Unix like系统下 只需要用包管理工具安装httrack即可 例如Debian使用 sudo aptitude install httrack 一个使用例子 httrack http www all net O tmp www all net all net v 它的意思是 以http www all net 为起始URL 输出到 tmp www all net文件夹 范围是www all net域名下的所有文件 并显示所有错误信息 verbose 更详细的信息请看官网上的Users Guide 5 参见 编辑 自由软件主题 robots txt 离线浏览 扒站脚注 编辑 Credits Greetings amp authors 2012 10 26 原始内容存档于2020 04 29 https www httrack com page 1 en index html 作品或名稱的語言 英語 Release 3 49 4 2023年1月14日 2023年2月11日 存档副本 2012 10 26 原始内容存档于2012 10 25 Httrack Users Guide 2012 10 26 原始内容存档于2012 10 26 外部链接 编辑官方网站 取自 https zh wikipedia org w index php title HTTrack amp oldid 71978782, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。