网页抓取工具 提供了几种特殊的实用程序方法,使从网站提取电子邮件地址变得容易。 以下示例从网页获取所有HTML内容,然后将其传递给 Utility.Text.extractAddresses
保存地址之前查找所有有效电子邮件地址的方法 intoa数据集,然后将其发送给用户。
或者,可以使用来提取第一个匹配的电子邮件地址 Utility.Text.extractAddress
方法。
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
PDF文件也可以刮 用于电子邮件地址的方式类似于在上面抓取网页的方式。 正如您在以下示例中看到的那样,除了 PDF.getText()
方法代替 Page.getHtml()
方法。
Data.save(Utility.Text.extractAddresses(PDF.getText()));
Grabz它有能力 从图像中提取文本 这意味着也可以利用此功能从图像中提取电子邮件地址。 下面的示例从网页上的所有图像中提取所有电子邮件地址。
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
虽然下面的抓取说明会从PDF文档中的图像中提取所有电子邮件地址。
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));