捕获和转换Web的工具

如何从非结构化文本中自动提取结构化信息?

普通书面文本可能包含很多不容易提取的信息。 例如,一句话可能是关于公司的评论,但是您如何知道它是好是坏?

普通的网页抓取工具将无法提取此信息。 但是GrabzIt可以使用其内置的自然语言处理功能。 如下例所示,页面文本将被分析并返回以下值之一:非常负面,负面,中立,正面和非常正面。

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

虽然 网页抓取工具 可以从文本中提取更多信息,包括语言检测,位置名称,人员名称和组织名称。 其示例如下所示。

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

您无需自己编写任何这些刮取指令,因为当您在我们的刮取向导中选择一个适用的HTML元素时,它们会自动出现。