捕获和转换Web的工具

从图像中提取文本

重要的文本信息通常可以存储在图像中。 然而 网页抓取工具 提供使用光学字符识别自动提取此信息的功能。 虽然这是一种人工的形式 int高明的结果并不总是完美的。

要从图像中提取文本,您应该使用 Utility.Image.extractText 方法如下图所示。

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));

这些示例都从网页获取所有图像URL,然后将URL传递给extractText方法,该方法尝试从每个图像中提取文本数据,然后将所有匹配项作为数组传回。 strings.

如果图像中的文本使用其他语言,则需要使用两个字母(ISO 639-1)格式指定正确的语言代码,如下所示。

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}), 'fr');