捕获和转换Web的工具

从网站中提取链接

这个例子也可以作为 模板.

一个常见的任务是从网站中提取链接,特别是HTML链接。 幸运的是,使用时很容易 网页抓取工具。 首先,使用常规详细信息(例如,刮擦的起始页和其他任何选项)创建一个新的刮擦。

然后去看看 刮刮说明 选项卡并单击 网页按钮 按钮。 这将进入 Page 关键词 into刮刮说明,将打开一个下拉列表。 选择 getTagAttributes 从列表中。 接下来添加 'href' 作为第一个参数,它告诉Web Scraper提取href属性,然后键入逗号。

接下来点击 筛选按钮 这使您可以告诉Web Scraper从中提取href属性的元素。 在过滤器窗口中,确保类型设置为“网页”,限制为“标签名称”和“等于”。 然后输入 a 在文本框中,然后单击添加按钮,然后单击插入过滤器按钮。 通过在行尾添加分号来完成该指令。

您应该会看到如下所示的内容。

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

上面的代码将从网页中提取所有链接URL,但是我们现在需要 save 这些链接的网址。 为此,我们将该命令减去分号包装在 Data.save 命令。 为此,请转到该行的开头,然后选择 数据按钮 按钮。 然后在下拉菜单中选择 save,然后转到该行的末尾并添加一个逗号。 然后添加您想要调用数据集的内容,例如“我的网站”,然后添加另一个逗号,然后添加另一个参数来描述列(例如“链接”),然后使用 ) 在分号之前。

您现在应该具有以下刮刮说明。

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

现在,如果您运行抓取工具,您将从网站中提取所有链接。 这将创建一个名为“我的网站”的表,其列名为“链接”,然后可以将其导出 into许多不同的格式,例如XML,CSV或电子表格。 也可以通过使用“抓取指示”工具栏中的向导按钮来完成本教程。