捕获和转换Web的工具

如何下载网站及其所有内容?

官方网站

在某些情况下,重要的是下载整个网站,而不仅仅是完成的结果。 但是HTML网页,CSS,脚本和图像等资源。

这可能是因为您想要备份代码,但由于某种原因而无法再访问原始源代码。 或者,您可能想要详细记录网站如何随着时间变化。

幸运的是,GrabzIt的Web Scraper可以通过爬网网站上的所有网页来实现这一目标。 然后,在每个网页上,抓取工具都会下载HTML以及页面上引用的所有资源。

创建Scrape以下载整个网站

为了使下载网站尽可能容易,GrabzIt提供了一个抓取模板。 只需点击这个 模板链接 以开始浏览网页。

单击后,便会创建您的剪贴簿。 接下来,前往 目标网站 标签,然后输入要下载的网站的网址 目标网址 文本框。 然后点击 分配目标 然后等待一两秒钟。

跳过 刮刮说明 导出选项 标签并直接转到 时间表刮 标签。 然后可以单击 提交 开始抓取。 但是,如果您希望将抓取文件设置为定期运行,例如创建网站的常规备份。 然后只需点击 重复刮擦 复选框,然后选择您希望剪贴簿重复的频率。

使用您下载的网站

刮擦完成后,您将获得一个ZIP文件。 接下来解压缩ZIP文件,位于文件目录中的所有下载的网页和网站资源都将位于其中。 目录的根目录中还将有一个特殊的HTML页面,称为data.html。 在网络浏览器中打开此文件,您将找到一个包含三列的HTML表:

  • 资源URL-这是Web搜寻器在其上找到资源的URL。 因此,例如:http://www.example.com/logo.jog
  • 资源类型-这是已下载资源的类型。 有四种类型的资源。
    • 网页
    • 图片
    • 外部资源-从链接标签下载的任何资源
    • 脚本
  • 新文件名-资源已使用的新文件名 saved下。 请注意,“此列”还包含指向文件的链接,这使检查所有下载的资源变得更加容易。

此文件旨在帮助您将新文件名映射到它们的旧位置。 这是必需的,因为URL可能太大而无法直接存储在文件路径中,因此无法将URL直接映射到文件结构。

也可能会有很多排列,特别是当网页可以通过更改各种查询来表示很多不同的内容时 string 参数! 因此,我们将网站以平面结构存储在文件夹中,并为您提供data.html文件以将这些文件映射到原始结构。

当然,因此,您无法打开下载的HTML页面并希望看到您在网络上看到的网页。 为此,您需要重写图像,脚本和CSS资源等的路径,以便HTML文件可以在本地文件结构中找到它们。

ZIP文件的根目录中将包含的另一个文件称为Website.csv。 它包含与data.html文件完全相同的信息。 但是,如果您想以编程方式阅读和处理网站下载内容(包括使用从URL到文件的映射以重新创建下载的网站),则包括在其中。