普通书面文本可能包含很多不容易提取的信息。 例如,一句话可能是关于公司的评论,但是您如何知道它是好是坏?
普通的网页抓取工具将无法提取此信息。 但是GrabzIt可以使用其内置的自然语言处理功能。 如下例所示,页面文本将被分析并返回以下值之一:非常负面,负面,中立,正面和非常正面。
Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');
尽管 网页抓取工具 可以从文本中提取更多信息,包括语言检测,位置名称,人员名称和组织名称。 其示例如下所示。
//Language Detection Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language'); //Identify Geographic Locations Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations'); //Identify People's Names Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names'); //Identify Organizations Names Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');
您无需自己编写任何这些刮取指令,因为当您在我们的刮取向导中选择一个适用的HTML元素时,它们会自动出现。