捕获和转换Web的工具

2019的大型Web刮板改进

周五,三月8,2019的

除了重新设计和大量错误修复外,我们还对GrabzIt的网络抓取工具进行了重大改进,其中包括:

  • 支持提取CSS样式中包含的内容
  • 现在,您可以选择从中执行抓取的国家/地区。 目前的选择是美国或英国。
  • 现在,您可以选择是否遵守robots.txt规则。 默认情况下,抓取会这样做。
  • 相对数据现在可以自动关联在一起,当您具有针对某些HTML元素(而非其他HTML元素)呈现的数据时,这将非常有用。 通过将这些项目关联在一起,这些值将针对结果数据集中正确的数据项目出现。
  • 创建数据集时,不同的列可以属于不同的模板,这意味着可以从一种类型的页面填充某些列,而从不同类型的页面填充其他列。 这样的一个示例是产品列表页面和产品详细信息页面。 这样一来,您可以从列表页面获取详细信息,然后从产品详细信息页面获取详细信息。
  • 改进数据集构建器的另一种方法是允许将操作的效果(例如包含,小于等)应用于所有或某些列。
  • 现在有几个 新命令 可从抓取向导中获得。
    • 删除–您现在可以删除元素,这在某些情况下可用于阻止多次读取同一元素。
    • 滚动-网络抓取工具现在可以滚动支持它的HTML元素。
    • 悬停–此命令会将鼠标悬停在指定元素上方,这对于显示信息很有用。
    • 分页–这是“点击”操作的新功能,它允许在选定的分页链接上自动执行分页。 这意味着即使刮板在分页数据中的某处单击,作为刮板的一部分,它也会找到返回到当前分页页面的方式,以继续进行刮板。
  • 关于Grabz的最好的部分是 网页刮板 就是您可以每月免费使用它。 所以,您还等什么呢,请给我们任何您想使我们成为最好的在线网络抓取工具的反馈!

查看最新的博客文章