捕获和转换Web的工具

如何抓取产品列表和详细信息页面

在网站上,通常会有一个搜索页面,其中包含一个项目列表,每个项目都有一个摘要说明,并带有指向详细页面的链接,该页面包含有关该项目的深入信息。

由于这种结构经常使用,因此经常需要从搜索页面中刮取有关每个项目的某些信息,而从详细信息页面中刮取其余的信息。 本文将提供有关如何抓取此类信息的指导。

首先输入您要抓取的产品列表页面的URL。 然后从产品列表页面中选择要选择的信息。 确保选择所有数据示例。

然后在抓取说明页面上,单击 添加抓取指令.

首先要注意的是,我们的抓取器的工作原理与浏览器完全相同,因此,如果存在Cookie安全通知或其他内联弹出窗口阻止您单击页面,则必须指示抓取器在弹出窗口关闭之前其余的刮操作都可以完成。 这些弹出窗口中的大多数仅需要单击一次,因此您可以告诉GrabzIt进行相同的操作。 为此,请使用 点击元素 操作,然后单击所需的HTML元素以关闭弹出窗口。 然后单击“仅一次”选项,然后 Save 和下一步。

接下来选择 提取数据 操作,然后选择要提取的数据。 因此,如果要选择项目的标题,请从搜索结果列表中选择。 确保已选中该列表中的每个标题。

我们的向导会尝试自动识别数据集,并可能选择比您想要的信息更多的信息。 如果发生这种情况,只需再次单击您不想选择的项目,它们将不再包含在内。 这告诉我们的网页刮板要提取什么。

现在,选择要提取的数据项的属性。 例如“文本”,然后单击“下一步”。 在下一个屏幕上为其命名。 请注意,这里您希望所有数据都使用默认模板。 这是因为您希望在没有特殊模板的情况下提取数据。

一旦选择了所有要从产品搜索页面中提取的项目数据。 在产品详细信息页面上选择所有链接以获取更多信息。 例如,这可能是图像。 然后点击 点击元素 行动。 将模板设置为“详细”,然后将其延迟五秒钟,然后单击“下一步”。 当询问您是否要从新页面提取数据时,请选择“是”。 现在,像以前一样选择要提取的数据。 但是这一次,指定它必须在“详细信息”模板下执行。

添加另一条抓取指令,然后返回主页。 这次从分页链接中选择下一个按钮。 当。。。的时候 点击动作 出现选项框,请选择 下一页按钮 选项。 这样,抓取工具便知道此按钮实际上是一个分页按钮,并将对所有结果进行分页。 请确保您最后有此刮擦说明。 如果不是最后一个抓取指令,则可以将其拖到最后。

然后转到计划标签,然后单击创建以开始抓取。 您可以在“管理废料”页面上实时查看刮料的进度,方法是单击刮料的行图标,然后单击查看器图标。