捕获和转换Web的工具

GrabzIt的Web Scraper API,数据即服务!

通过GrabzIt的Web Scraper API,我们可以为您的应用程序提供作为网络服务的抓取数据,使您能够 int找回剪贴信息 into您的应用程序。 的 int数据整理 into您的应用程序是通过回调处理程序实现的,该回调处理程序是可公开访问的URL上的脚本或应用程序,用于处理从 网页抓取工具。 完整的文件按顺序发布到此回调处理程序中,因此,例如,它可以从一系列图像开始,然后以 JSON 文件,然后可以使用客户端库中的帮助程序方法轻松解析JSON文件中的数据。 此API还使您的应用程序可以自动控制刮擦的开始和停止时间,以及请求重新发送结果。

首先开始 刮擦 然后选择 回调网址选项 从“导出选项”选项卡中,然后输入回调处理程序的URL,例如 http://www.example.com/handler/

如果您的回调处理程序有任何问题,请从“抓取选项”选项卡中选择“调试”模式。 这将输出由回调处理程序返回的响应 into日志。

回调处理程序

要在回调处理程序中处理抓取的数据,请在“导出”选项卡上选择JSON或XML选项,因为这会以易于被任何面向对象的语言读取的格式返回数据。

对于不是JSON或XML数据的数据,您的处理选项受到限制,因为该数据不是很容易机读,因此最好的选择是 save 文件到磁盘还是数据库中。

为了帮助 integration过程GrabzIt提供以下用于以下语言的scraper API。 但是,由于我们的代码是开源的,可以在 GitHub上 您没有理由不能使用此处未列出的一种编程语言,也可以要求我们 为您创建一个图书馆。 如果您愿意,为什么不与世界分享呢?

ASP.NET Scraper API PHP Scraper API Python Scraper API

虽然回调处理程序是紧密联系的最佳方法 int使用您的应用程序对GrabzIt的Web刮板进行管理,您还可以 int通过Amazon S3,Dropbox,FTP和WebDav进行评估。