捕获和转换Web的工具

GrabzIt的Web Scraper是否尊重robots.txt文件?

我们的网络抓取工具必须遵守网站 robots.txt 文件中的规则。 造成这种情况的主要原因之一,除了友善之外,还在于不遵循 robots.txt 文件的网络抓取工具可能会发现自己被蜜罐服务列入黑名单。

这些服务使用 robots.txt 告诉网络抓取工具不要访问从网站链接到的特定文件。 如果网络抓取工具仍然访问该文件,则该网络抓取工具的 IP 地址将被列入黑名单,以防止网络抓取工具将来访问该网站。