捕获和转换Web的工具

GrabzIt的Web Scraper是否尊重robots.txt文件?

我们的网络抓取工具必须遵守网站robots.txt文件中的规则。 造成这种情况的主要原因之一(不是很好),是不遵循robots.txt文件的网络抓取工具会发现自己被蜜罐服务列入了黑名单。

这些服务使用robots.txt告诉网络抓取工具不要访问从网站链接到的某个文件。 如果Web搜寻器仍然访问文件,则Web搜寻器的IP地址被列入黑名单,以防止Web搜寻器将来访问该网站。