捕获和转换Web的工具

从网站抓取电子邮件地址

以下两个示例是同一示例的一部分 模板.

网页抓取工具 提供了几种特殊的实用程序方法,使从网站提取电子邮件地址变得容易。 以下示例从网页获取所有HTML内容,然后将其传递给 Utility.Text.extractAddresses 保存地址之前查找所有有效电子邮件地址的方法 intoa数据集,然后将其发送给用户。

或者,可以使用来提取第一个匹配的电子邮件地址 Utility.Text.extractAddress 方法。

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

从PDF文档中删除电子邮件地址

PDF文件也可以刮 用于电子邮件地址的方式类似于在上面抓取网页的方式。 正如您在以下示例中看到的那样,除了 PDF.getText() 方法代替 Page.getHtml() 方法。

Data.save(Utility.Text.extractAddresses(PDF.getText()));

从图片中抓取电子邮件地址

Grabz它有能力 从图像中提取文本 这意味着也可以利用此功能从图像中提取电子邮件地址。 下面的示例从网页上的所有图像中提取所有电子邮件地址。

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

虽然下面的抓取说明会从PDF文档中的图像中提取所有电子邮件地址。

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));