从PDF文档的内容中抓取数据并不像从HTML文档中那样灵活,但是使用方法仍然可以通过多种方法来实现。 网页抓取工具。 首先抓取您使用的PDF内容 PDF
功能而不是 Page
功能,但其他功能通常以相同的方式工作。
PDF文档的过滤器比HTML文档的过滤器简单得多,首先,您必须指定要提取的内容类型:链接,图像或文本。
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
对于链接和图像,您可以通过指定其位置来限制返回的图像或链接。
PDF.getValue({"type":"image","position":"2"});
获取文档中的第二张图像。 对于文本,图像和链接,您可以通过指定页码进一步限制返回的数据。
PDF.getValue({"type":"image","position":"2","page":"5"});
这将从第五页返回第二张图像。 文本带有行号的附加选项,但是文本不支持位置。
PDF.getValue({"type":"text","page":"5","line":"10"});
这将从第五页获取第十行文本。 除了这些过滤器选项差异之外,从PDF文档中抓取数据的工作方式与 从HTML文档中抓取数据,但是由于无法完全确定使用PDF过滤器提取的内容,因此可能需要指定一个 模式 从文本中提取正确的信息。