捕获和转换Web的工具
GrabzIt的在线社区

新手需要帮助(最初发布在错误的区域)

询问有关如何使用GrabzIt的屏幕截图工具的问题。

你好社区,

请原谅我的无知。我是一个业务人员,而不是一个技术人员。我相信它会在我的问题中脱颖而出。

是否可以在网页抓取工具中使用更强大的选择和控制参数,例如 URL 模式(最关键)和屏幕截图工具的跟随行控制设置。我想要的只是抓取基本 URL 和来自该 URL 的扩展域,并限制抓取的深度。我的目标只是从某些领域集中获取新闻文章。我宁愿只将文本作为输出,但我可以接受以 docx 形式提供的图像。屏幕截图工具的输出非常适合我的基本要求,但选择和控制功能太有限。我必须知道所有子域和文章名称才能使用该工具的标准输入,这是不现实的。

我认为刮刀会很棒,所以我开始使用它,但后来我很快发现该工具的定价和限制非常大!根据这种成本结构对我来说使用它是不可行的。

请注意,我有一位编写 python 的编码员,她正在使用 API,但她对这个工具并不了解,而且我们在就我的期望进行清楚地沟通时遇到了挑战,所以我担心她的工作正在朝着一个方向发展对我来说不是最佳的。具体来说,我告诉她我希望拥有与网络抓取工具相同的输入控件,但屏幕截图工具除外。但我认为她不理解或欣赏我的问题。是否可以使用 API 来利用强大的选择标准,而无需为 webscrapter 支付疯狂的高价

任何指导将不胜感激。

先感谢您!!!
1年2024月XNUMX日匿名提问

1年2024月XNUMX日匿名提问

嗨,

没问题,我会尽力回答你的问题。

一般来说,网络抓取仅限于网站或 URL 模式,否则由于内容的性质 internet 跟踪链接将导致网络抓取永远不会结束。

屏幕截图工具会按计划或在网页发生更改时对指定 URL 进行一次屏幕截图。如果您有要捕获的 URL 列表,则可以导入该列表 into 截图工具。

通过 API,您可以使用自己的逻辑来触发屏幕截图。因此,对于您正在做的事情,我认为您需要某种自定义网络抓取工具,它会触发 API。 

希望这可以帮助。

GrabzIt 支持人员于 1 年 2024 月 XNUMX 日回复