- array-必需,要应用更改的列的数组。
Criteria.descending(值)以降序返回值。
Criteria.equals(针,值)仅返回针数组中等于指定值的项目。
- 针头-必需,要过滤的阵列。
- value-必填项,必须等于。
Criteria.extract(数组,模式)返回数组中所有根据指定模式修剪的匹配项。
- array-必需,要修剪的数组匹配。
- pattern-必填,pattern定义了如何修剪返回文本的所需部分。 要修剪的值由模式中的{{VALUE}}指示。
例如,从“我的年龄是33”中减少年龄。 模式“我的年龄是{{VALUE}}”。 将被使用。
Criteria.greaterThan(针,值)返回needles数组中唯一大于指定值的项目。
- 针头-必需,要过滤的阵列。
- value-必填项,必须大于。
Criteria.keep(针,干草堆)保留在干草堆数组中找到的所有匹配项后,返回needles数组。
- 针头-必需,要过滤的阵列。
- 干草堆-必需,用于保持针的阵列。
Criteria.lessThan(针,值)返回指针数组中唯一小于指定值的项目。
- 针头-必需,要过滤的阵列。
- value-必填项,必须小于。
Criteria.limit(值,限制)返回前n个值,其中n是极限变量。
- 值-必需,传递您要限制的数组。
- 限制-必需,要从数组返回的值的数量。
Criteria.notEquals(针,值)返回needles数组中唯一不等于指定值的项。
- 针头-必需,要过滤的阵列。
- 值-必需,值项必须不等于。
Criteria.remove(针,干草堆)删除在干草堆数组中找到的所有匹配项后,返回needles数组。
- 针头-必需,要过滤的阵列。
- 干草堆-必需,用于除去针的阵列。
Criteria.repeat(array)重复数组中的项目,直到匹配最长列的长度。
Criteria.unique(针)仅返回针数组中的唯一值。
Data.countFilesDownloaded()计算下载的文件总数。
Data.log(消息)将消息写到抓取日志。
Data.pad(padValue,dataSet)通过将空单元格附加到列的末尾来填充数据集中存在的所有列,直到特定数据集中的所有列具有相同数量的单元格为止。
- padValue- 可选,用于填充单元格的值。 如果未指定,则使用空值。
- 数据集- 可选,要填充的数据集。
Data.readColumn(dataSet,column)从指定的数据集中读取指定列的列。
- 数据集- 可选,从中读取值的数据集。
- 栏- 可选,即数据集中要从中读取值的列。
数据。save(值s,dataSet,列)Save指定的数据集和列的任何一个或多个值。
- 值-必需,传递您希望的任何值或值数组 save.
- 数据集- 可选,数据集到 save 价值 into.
- 栏- 可选,数据集中的列 save 价值 into.
数据。saveDOCXScreenshot(htmlOrUrls,选项,数据集,列)拍摄HTML,URL或URL的DOCX屏幕截图,并选择在指定的数据集和列中放置指向文件的链接。
- url-必填,传递您想要获取DOCX屏幕截图的任何url或一组url。
- 选项- 可选,屏幕截图选项。
- 数据集- 可选,数据集到 save DOCX屏幕截图链接 into.
- 栏- 可选,数据集中的列 save DOCX屏幕截图链接 into.
数据。saveImageScreenshot(htmlOrUrls,选项,数据集,列)拍摄HTML,URL或URL的图像屏幕快照,并选择在指定的数据集和列中放置指向文件的链接。
- url-必填,传递您希望获取其图像截图的任何url或一组url。
- 选项- 可选,屏幕截图选项。
- 数据集- 可选,数据集到 save 图片截图链接 into.
- 栏- 可选,数据集中的列 save 图片截图链接 into.
数据。savePDFScreenshot(htmlOrUrls,选项,数据集,列)拍摄HTML,URL或URL的PDF屏幕截图,并选择在指定的数据集和列中放置指向文件的链接。
- 网址-必填,传递您希望获取其PDF屏幕截图的任何网址或网址数组。
- 选项- 可选,屏幕截图选项。
- 数据集- 可选,数据集到 save PDF屏幕截图链接 into.
- 栏- 可选,数据集中的列 save PDF屏幕截图链接 into.
数据。saveTableScreenshot(htmlOrUrls,选项,数据集,列)截取HTML,URL或URL的表格屏幕截图,并选择在指定的数据集和列中放置指向文件的链接。
- url-必需,传递您希望获取表格屏幕快照的任何url或一组url。
- 选项- 可选,屏幕截图选项。
- 数据集- 可选,数据集到 save 表格截图链接 into.
- 栏- 可选,数据集中的列 save 表格截图链接 into.
数据。save文件(网址s,文件名,数据集,列)Save将任何一个或多个URL作为文件,并可以选择将指向文件的链接放在指定的数据集和列中。
- url-必填,传递您希望打开的任何URL或URL数组 intoa文件。
- 文档名称 - 可选,传递您希望使用的任何文件名,而不是生成的文件名。
- dataSet-可选,数据集 save 文件链接 into.
- 栏- 可选,数据集中的列 save 文件链接 into.
数据。saveTo文件(数据,文件名,数据集,列)Save将任何数据或数据项作为文件,并有选择地将指向文件的链接放在指定的数据集和列中。
- 数据-必需,传递您希望的任何数据或数据数组 save 在文件中。
- 文档名称 - 可选,传递您希望使用的任何文件名,而不是生成的文件名。
- dataSet-可选,数据集 save 文件链接 into.
- 栏- 可选,数据集中的列 save 文件链接 into.
数据。save唯一(值s,dataSet,列)Save指定的数据集和列的任何唯一值或多个值。 同一数据集和列中的重复值将被忽略。
- 值-必需,传递您希望的任何值或值数组 save.
- 数据集- 可选,数据集到 save 价值 into.
- 栏- 可选,数据集中的列 save 价值 into.
数据。saveUniqueFile(网址s,文件名,数据集,列)Save将任何一个或多个URL作为文件,并可以选择将指向文件的链接放在指定的数据集和列中。 此方法只会 save 指定的数据集和列的唯一值,或者如果整个刮板都没有数据集和列的唯一URL。
- url-必填,传递您希望打开的任何URL或URL数组 intoa文件。
- 文档名称 - 可选,传递您希望使用的任何文件名,而不是生成的文件名。
- 数据集- 可选,数据集到 save 文件链接 into.
- 栏- 可选,数据集中的列 save 文件链接 into.
数据。saveVideoAnimation(videoUrls,选项,数据集,列)转换一个或多个在线视频 into动画GIF,并且可以选择在指定的数据集和列中放置指向文件的链接。
- videoUrl-必需,传递要转换的任何视频网址或网址数组 into动画GIF。
- 选项- 可选,动画选项。
- 数据集- 可选,数据集到 save 动画链接 into.
- 栏- 可选,数据集中的列 save 动画链接 into.
Global.get(名称)得到一个 saved变量值。
Global.set(名称,值s,坚持下去)Save刮取页面之间的任何值或多个值。
- name-必填,变量名 save.
- 值-必填,变量值为 save.
- 持久-可选,如果为true,则变量将在两次刮擦之间保留。
Navigation.addTemplate(URLs,模板)将一个或多个URL定义为属于指定模板。 这允许将抓取指令限制为仅在某些URL上执行。
- url-必需,传递您希望为其定义模板的任何url或一组url。
- 模板-必填。
Navigation.clearCookies()删除当前抓取的所有cookie。
Navigation.navigate(过滤器,模板)单击一个或多个HTML元素。
- filter-必需的过滤器,用于标识要单击的HTML元素。
- template-导航到所选HTML元素时要分配的模板。
Navigation.goTo(URL)立即转到指定的URL。
Navigation.hover(过滤器)将鼠标悬停在一个或多个HTML元素上。
- filter-必需的过滤器,用于标识要悬停在哪个HTML元素上的过滤器。
Navigation.isTemplate(模板)如果当前页面属于指定模板,则返回true。
- template-必填,用于检查页面是否属于的模板。
Navigation.paginate(过滤器,秒)通过指定的元素分页。
- filter-必需的过滤器,用于标识要分页的HTML元素。
- seconds-必需,是分页结果之间的秒数。
Navigation.remove(过滤器)删除一个或多个HTML元素。
- filter-必需的过滤器,用于标识要删除的HTML元素。
Navigation.scroll(过滤器)滚动选定的元素或整个网页。
- filter-可选,用于标识要滚动的元素的过滤器,如果未提供,将滚动整个网页。
Navigation.select(值s,过滤器)在选择元素中选择一个或多个有效值。
- 值-必需,一个或多个要选择的值。
- filter-必需,用于标识要选择哪个选择元素的过滤器。
Navigation.stopScraping(中止)立即停止刮擦。
- 中止-可选,如果为true,则停止更多处理,并且不导出或传输任何结果。
导航类型(文本s,过滤器)输入文字 intoa元素。
- 文本-必填,要键入的一项或多项文本。
- filter-必需,用于标识要键入哪个元素的过滤器 into.
Navigation.wait(秒)等待几秒钟,然后继续。 使用此单击,选择和键入命令时,此功能最为有用。
Page.contains(查找,属性,过滤器)如果Page包含要查找的文本,则返回true。
- find-必需,要查找的文本。
- attribute-可选,要搜索的属性。
- filter-可选,用于标识要搜索的元素的过滤器。
Page.exists(过滤器)如果Page包含与搜索过滤器匹配的元素,则返回true。
- filter-必需,用于标识要搜索的元素的过滤器。
Page.getAuthor()如果指定了页面作者,则获取页面作者。
Page.getDescription()如果指定了页面描述,则获取页面描述。
Page.getFavIconUrl()获取页面的FavIcon URL。
Page.getHtml()获取原始页面HTML。
Page.getKeywords()获取要抓取的页面的关键字。
Page.getLastModified()从页面元数据或响应标头中获取网页的最后修改时间。
Page.getPageNumber()获取正在抓取的当前URL的页码。
Page.getPreviousUrl(index)获取前一个URL,-1表示最后一个URL,而数字越小则表明哪个URL越早。
- index-可选,要返回的上一页的索引。 默认为-1。
Page.getTagAttribute(属性,过滤器)返回匹配的属性值。
- attribute-必需,要搜索的属性。
- filter-可选,用于标识要搜索的元素的过滤器。
Page.getTagAttributes(属性,过滤器,链接到)返回匹配的CSS值。
- attribute-必需,要搜索的CSS属性。
- filter-可选,用于标识要搜索的元素的过滤器。
- linkedTo-可选,由应链接到的列组成,以便相对值保持在一起。
Page.getTagCSSAttribute(属性,过滤器)返回匹配的CSS值。
- attribute-必需,要搜索的CSS属性。
- filter-可选,用于标识要搜索的元素的过滤器。
Page.getTagCSSAttributes(属性,过滤器,链接到)返回匹配的属性值。
- attribute-必需,要搜索的属性。
- filter-可选,用于标识要搜索的元素的过滤器。
- linkedTo-可选,由应链接到的列组成,以便相对值保持在一起。
Page.getTagValue(filter)返回匹配的元素值。
- filter-可选,用于标识要搜索的元素的过滤器。
Page.getTagValues(filter,linkedTo)返回匹配的元素值。
- filter-可选,用于标识要搜索的元素的过滤器。
- linkedTo-可选,由应链接到的列组成,以便相对值保持在一起。
Page.getText()从页面获取可见的文本。
Page.getTitle()获取页面标题。
Page.getUrl()获取页面的URL。
Page.getValueXPath(xpath)返回与提供的XPATH匹配的值。
- xpath-必需,用于匹配元素值或属性的XPATH。
Page.getValuesXPath(xpath)返回与提供的XPATH匹配的值。
- xpath-必需,用于匹配元素值或属性的XPATH。
Page.valid()如果当前正在抓取的URL是有效的网页,则返回true。
Utility.Array.clean(值s)返回values数组中的所有非null和空值。
Utility.Array.contains(值s)如果针位于干草堆数组中,则返回true。
- 针-必需,传递任何值或值数组以查找。
- 干草堆-必需,用于搜索一个或多个针的数组。
Utility.Array.merge(array1,array2)合并两个数组 into用第二个数组中的值替换空或空值。 两个数组的大小必须相等。
- array1-必需,传递要合并的值数组。
- array2-必需,传递要合并的值数组。
Utility.Array.unique(值s)从values数组返回唯一值。
Utility.Text.extractAddress(文本)提取指定text参数内的第一个电子邮件地址。
Utility.Text.extractAddresses(文本)从指定的text参数中提取所有电子邮件地址。
Utility.Text.extractLocation(文本,语言)自动从指定的text参数中提取第一个位置。
- text-必填,用于从中提取位置的文本。
- language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。
Utility.Text.extractLocations(文本,语言)自动从指定的text参数中提取位置。
- 文本-必需,用于从中提取位置的文本。
- language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。
Utility.Text.extractLanguageName(文本)自动从text参数中提取指定的语言。
Utility.Text.extractLanguageCode(文本)自动从text参数中提取指定的语言。
Utility.Text.extractName(文本,语言)自动从指定的text参数中提取名字。
- text-必需,用于从中提取名称的文本。
- language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。
Utility.Text.extractNames(文本,语言)自动从指定的text参数中提取名称。
- text-必需,用于从中提取名称的文本。
- language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。
Utility.Text.extractOrganization(文本,语言)自动从指定的text参数中提取第一个组织。
- text-必填,用于从中提取组织的文本。
- language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。
Utility.Text.extractOrganizations(文本,语言)自动从指定的text参数中提取组织。
- 文本-必填,用于从中提取组织的文本。
- language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。
Utility.Text.extractSentiment(文本)自动从指定的text参数中提取情感。
Utility.Image.extractText(网址s, 语言)尝试使用光学字符识别从任何指定的图像中提取文本。
- url-必需,传递要从中提取文本的图像的任何URL或URL数组。
- language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。
Utility.URL.addQueryString参数(urls, 核心价值)添加查询string 任何URL的参数。
- url-必需,传递要添加查询的任何URL或URL数组 string 参数为。
- key-必需,要添加的参数的键。
- value-必需,要添加的参数的值。
Utility.URL.getQueryString参数(urls,键)获取查询的值string 来自任何一个或多个URL的参数。
- url-必需,传递您希望读取查询的任何URL或URL数组string 参数来自。
- key-必需,要读取的参数的键。
Utility.URL.removeQueryString参数(urls,键)删除查询string 来自任何一个或多个URL的参数。
- url-必需,传递您希望删除查询的任何URL或URL数组string 参数来自。
- key-必需,要删除的参数的键。
Utility.URL.exists(URLs)通过调用每个URL来检查URL是否确实存在。
- url-必需,传递您要检查的任何URL或URL数组。