一个常见的任务是从网站下载图像, 网页抓取工具 这很容易。 首先,使用常规详细信息(例如,刮擦的起始页和其他任何选项)创建一个新的刮擦。
然后去看看 刮刮说明 选项卡并单击 按钮。 这将进入
Page
关键词 into刮刮说明,将打开一个下拉列表。 选择 getTagAttributes
从列表中。 接下来添加 'src'
作为第一个参数,它告诉Web Scraper提取src属性,然后键入一个逗号。
接下来点击 这使您可以告诉Web Scraper从哪些元素中提取src属性。 在过滤器窗口中,确保类型设置为“网页”,限制为“标签名称”和“等于”。 然后输入
img
在文本框中,然后单击添加按钮,然后单击插入过滤器按钮。 通过在行尾添加分号来完成该指令。
您应该会看到如下所示的内容。
Page.getTagAttributes('src', {"tag":{"equals":"img"}});
上面的代码将从网页中提取所有图像URL,但是现在我们需要使用这些图像URL来 save 这些图像作为文件。 为此,我们将该命令减去分号包装在 Data.saveFile
命令。 为此,请转到该行的开头,然后选择 按钮。 然后在下拉菜单中选择
saveFile
,然后转到该行的末尾并添加一个 )
在分号之前。
您现在应该具有以下刮刮说明。
Data.saveFile(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));
现在,如果您运行抓取工具,您将从网站上提取所有图像。 通过使用“抓取指示”工具栏中的向导按钮也可以实现本教程的大部分内容。