捕获和转换Web的工具

2019的大型Web刮板改进

08 2019三月

除了重新设计和大量错误修复之外,我们还对 GrabzIt 的网络抓取工具进行了大幅改进,其中包括:

  • 支持提取CSS样式中包含的内容
  • 您现在可以选择执行抓取的国家/地区。 目前的选择是美国或英国。
  • 您现在可以选择是否遵守 robots.txt 规则。 默认情况下,会进行刮擦。
  • 相对数据现在可以自动关联在一起,当您拥有针对某些 HTML 元素而不是其他 HTML 元素存在的数据时,这非常有用。 通过将这些项目关联在一起,这些值将根据结果数据集中的正确数据项目显示。
  • 创建数据集时,不同的列可以属于不同的模板,这意味着某些列可以从一种类型的页面填充,而其他列可以从不同类型的页面填充。 其中一个示例是产品列表页面和产品详细信息页面。 这将允许您从列表页面获取广泛的详细信息,然后从产品详细信息页面获取详细信息。
  • 改进数据集生成器的另一种方法是允许将操作(例如包含、小于等)的效果应用于所有或某些列。
  • 现在有几个 新命令 可从抓取向导中获取。
    • 删除 - 您现在可以删除元素,这在某些情况下非常有用,可以阻止多次读取相同的元素。
    • 滚动 – 网络抓取工具现在可以滚动支持它的 HTML 元素。
    • 悬停 - 此命令将鼠标悬停在指定元素上方,这对于显示信息很有用。
    • 分页 – 这是单击操作的一项新功能,允许在选定的分页链接上自动执行分页。 这意味着,即使抓取器点击了分页数据中的某个位置,作为抓取的一部分,它也会找到返回当前分页页面以继续抓取的方式。
  • Grabz 最好的部分是 网页刮板 是你每个月都可以免费使用它。 那么,您还在等什么,尝试一下吧,请将您的任何反馈反馈给我们,我们很乐意使我们的网站成为最好的在线网络抓取工具!

查看最新的博客文章