帮酷LOGO
  • 显示原文与译文双语对照的内容
文章标签:网站  MACH  mac  WEB  
Download any website from the Wayback Machine.

  • 源代码名称:wayback-machine-downloader
  • 源代码网址:http://www.github.com/hartator/wayback-machine-downloader
  • wayback-machine-downloader源代码文档
  • wayback-machine-downloader源代码下载
  • Git URL:
    git://www.github.com/hartator/wayback-machine-downloader.git
  • Git Clone代码到本地:
    git clone http://www.github.com/hartator/wayback-machine-downloader
  • Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/hartator/wayback-machine-downloader
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
  • 返回机下载程序

    Gem VersionBuild Status

    从互联网档案返回机下载整个网站。

    安装

    如果你还没有安装 ruby,你需要在系统(> = 1.9.2 ) 上安装它。 然后运行:

    gem install wayback_machine_downloader

    如果你遇到权限错误,你可能不得不在这个命令前面添加 sudo

    基本用法

    使用要检索为参数( 。比如,http://example.com )的网站的基本url运行 wayback_machine_downloader:

    wayback_machine_downloader http://example.com

    工作原理

    它将把返回机器上的每个文件的最后一个版本下载到 ./websites/example.com/ 。 它还将创建一个目录结构并自动创建 index.html 页面以与Apache和 Nginx 无缝工作。 下载的所有文件都是原始文件,而不是返回机器。 这样,url和链接结构就与前面一样。

    高级用法

    Usage: wayback_machine_downloader http://example.com
    Download an entire website from the Wayback Machine.
    Optional options:
     -d, --directory PATH Directory to save the downloaded files into
     Default is./websites/plus the domain name
     -s, --all-timestamps Download all snapshots/timestamps for a given website
     -f, --from TIMESTAMP Only files on or after timestamp supplied (ie. 20060716231334)
     -t, --to TIMESTAMP Only files on or before timestamp supplied (ie. 20100916231334)
     -e, --exact-url Download only the url provied and not the full site
     -o, --only ONLY_FILTER Restrict downloading to urls that match this filter
     (use//notation for the filter to be treated as a regex)
     -x, --exclude EXCLUDE_FILTER Skip downloading of urls that match this filter
     (use//notation for the filter to be treated as a regex)
     -a, --all Expand downloading to error files (40x and 50x) and redirections (30x)
     -c, --concurrency NUMBER Number of multiple files to dowload at a time
     Default is one file at a time (ie. 20)
     -p, --maximum-snapshot NUMBER Maximum snapshot pages to consider (Default is 100)
     Count an average of 150,000 snapshots per page
     -l, --list Only list file urls in a JSON format with the archived timestamps, won't download anything

    指定保存文件的目录

    -d, --directory PATH

    可选。默认情况下,返回机器下载程序将下载文件到 ./websites/,后面跟网站的域名。 你可能希望使用这里选项将文件保存在特定目录中。

    例如:

    wayback_machine_downloader http://example.com --directory downloaded-backup/

    所有时间戳

    -s, --all-timestamps 

    可选这里选项将下载给定网站的所有时间戳/快照。 它将使用每个快照的timepstamp作为目录。

    例如:

    wayback_machine_downloader http://example.com --all-timestamps 
    Will download:
     websites/example.com/20060715085250/index.html
     websites/example.com/20051120005053/index.html
     websites/example.com/20060111095815/img/logo.png
    . . .

    时间戳

    -f, --from TIMESTAMP

    可选你可能希望为你的备份提供一个从时间戳到网站特定版本的时间戳。 可以以找到时间戳 inside 。常规of机网站( 。比如,http://web.archive.org/web/20060716231334/http://example.com )的url 。 你还可以使用年( 2006 ),年+ 月( 200607 ),等等 可以结合到时间戳中。 返回机下载器随后只获取指定时间戳上或者之后的文件版本。

    例如:

    wayback_machine_downloader http://example.com --from 20060716231334

    时间戳

    -t, --to TIMESTAMP

    可选。你可以能需要提供一个of时间戳来将备份锁定到网站的specifc版本。 可以以找到时间戳 inside 。常规of机网站( 。比如,http://web.archive.org/web/20100916231334/http://example.com )的url 。 你还可以以使用年份( 2010 ),年份+ 月( 201009 ),等等 可以以用于从时间戳组合。 返回机下载器随后只获取指定时间戳上或者之前的文件版本。

    例如:

    wayback_machine_downloader http://example.com --to 20100916231334

    确切的Url

    -e, --exact-url 

    如果你只想检索与提供的url匹配的文件,则可以使用这里标志。 它将避免下载任何其他内容。

    例如如果只想下载 example.com:的html主页文件

    wayback_machine_downloader http://example.com --exact-url 

    仅URL过滤器

     -o, --only ONLY_FILTER

    可以选择检索特定类型( 比如,. pdf,. jpg,. wrd. 。) 或者位于特定目录中的文件。 为这里,你可以以使用字符串或者 正规表达式 ( 使用'/regex/'表示法) 提供 --only 标志,以限制哪些文件下载器下载。

    例如如果你只想下载文件 inside 一个特定的my_directory:

    wayback_machine_downloader http://example.com --only my_directory

    或者,如果你想下载没有其他任何内容的图像:

    wayback_machine_downloader http://example.com --only"/.(gif|jpg|jpeg)$/i"

    排除URL过滤器

     -x, --exclude EXCLUDE_FILTER

    可以选择检索不属于特定类型的文件或者不在特定目录下的文件。 为这里,你可以以使用字符串或者 正规表达式 ( 使用'/regex/'表示法) 提供 --exclude 标志,以限制哪些文件下载器下载。

    例如如果你想避免下载文件 inside my_directory:

    wayback_machine_downloader http://example.com --exclude my_directory

    或者,如果你想下载除图像之外的所有内容:

    wayback_machine_downloader http://example.com --exclude"/.(gif|jpg|jpeg)$/i"

    扩展下载到所有文件类型

     -a, --all

    可选。默认情况下,返回机器下载程序将自身限制为响应 200个确定代码的文件。 你也可以使用( 40x 和 50x 代码) 或者重定向文件( 30x 代码),如果你还需要错误文件,你可以使用 --all 或者 -a 标志,并在 200文件下载器addition下载。 它还将保留默认删除的空文件。

    例如:

    wayback_machine_downloader http://example.com --all

    只列出不下载的文件

     -l, --list

    它将只显示要下载的文件的快照时间戳和 url 。 输出格式为 JSON 。 它不会下载任何内容它对于调试或者连接到其他应用程序很有用。

    例如:

    wayback_machine_downloader http://example.com --list

    要考虑的最大快照页数

    -p, --snapshot-pages NUMBER 

    可选。指定要考虑的最大快照页数。 计算每个页面的平均 150,000个快照数。 100是默认的最大快照页数,对于大多数网站来说应该足够了。 如果你想下载一个非常大的网站,请使用更大的数字。

    例如:

    wayback_machine_downloader http://example.com --snapshot-pages 300 

    一次下载多个文件

    -c, --concurrency NUMBER 

    可选。指定要同时下载的多个文件的数目。 允许显著加快网站下载速度。 默认情况下,每次下载一个文件。

    例如:

    wayback_machine_downloader http://example.com --concurrency 20

    使用 Docker 图像

    作为替代安装方式,我们有 Docker 映像 ! 以这种方式检索 wayback-machine-downloader Docker 映像:

    docker pull hartator/wayback-machine-downloader

    然后,你应该能够使用 Docker 图像下载网站。 例如:

    docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com

    欢迎捐赠只需通过GitHub提交请求请求。

    要运行测试:

    bundle install
    bundle exec rake test


    文章标签:WEB  mac  网站  MACH  

    Copyright © 2011 HelpLib All rights reserved.    知识分享协议 京ICP备05059198号-3  |  如果智培  |  酷兔英语