捕获和转换Web的工具

如何下载网站及其所有内容?

网站

在某些情况下,重要的是下载整个网站,而不仅仅是完成的结果。 但是HTML网页,CSS,脚本和图像等资源。

这可能是因为您想要备份代码,但由于某种原因而无法再访问原始源代码。 或者,您可能想要详细记录网站如何随着时间变化。

幸运的是,GrabzIt的Web Scraper可以通过爬网网站上的所有网页来实现这一目标。 然后,在每个网页上,抓取工具都会下载HTML以及页面上引用的所有资源。

创建Scrape以下载整个网站

为了使下载网站尽可能容易,GrabzIt提供了一个抓取模板。

开始 加载此模板.

然后输入 目标网址,然后会自动检查该URL是否有错误以及是否进行了任何必要的更改。 保持 自动开始抓取 复选框被打勾,您的抓取工具将自动开始。

自定义刮板

如果要更改模板,请取消选中 自动开始抓取 复选框。 一种更改是按规定的时间表运行抓取,例如,创建网站的常规副本。 在 时间表刮 标签,只需点击 重复刮擦 复选框,然后选择要重复抓取的频率。 然后点击 更新 开始抓取。

使用您下载的网站

刮擦完成后,您将获得一个ZIP文件。 接下来解压缩ZIP文件,位于文件目录中的所有下载的网页和网站资源都将位于其中。 目录的根目录中还将有一个特殊的HTML页面,称为data.html。 在网络浏览器中打开此文件,您将找到一个包含三列的HTML表:

  • 资源URL-这是Web搜寻器在其上找到资源的URL。 因此,例如:http://www.example.com/logo.jog
  • 资源类型-这是已下载资源的类型。 有四种类型的资源。
    • 网页
    • 图片
    • 外部资源-从链接标签下载的任何资源
    • 脚本
  • 新文件名-资源已使用的新文件名 saved下。 请注意,“此列”还包含指向文件的链接,这使检查所有下载的资源变得更加容易。

此文件旨在帮助您将新文件名映射到它们的旧位置。 这是必需的,因为URL可能太大而无法直接存储在文件路径中,因此无法将URL直接映射到文件结构。

也可能会有很多排列,特别是当网页可以通过更改各种查询来表示很多不同的内容时 string 参数! 因此,我们将网站以平面结构存储在文件夹中,并为您提供data.html文件以将这些文件映射到原始结构。

当然,因此,您无法打开下载的HTML页面并希望看到您在网络上看到的网页。 为此,您需要重写图像,脚本和CSS资源等的路径,以便HTML文件可以在本地文件结构中找到它们。

ZIP文件的根目录中将包含的另一个文件称为Website.csv。 它包含与data.html文件完全相同的信息。 但是,如果您想以编程方式阅读和处理网站下载内容(包括使用从URL到文件的映射以重新创建下载的网站),则包括在其中。