捕获和转换Web的工具

Web Scraper文档

这是我们通过网络刮板提供的特殊刮板指示方法的概述。

Criteria.apply(数组)

从提供的阵列中删除与该条件中通过先前操作删除的项目位于相同位置的所有项目。

  • array-必需,将更改应用到的数组。

Criteria.ascending(值)

以升序返回值。

  • 值-必需,传递您希望以升序排序的数组。

Criteria.contains(针,值)

仅返回needles数组中包含指定值的项目。

  • 针头-必需,要过滤的阵列。
  • 值-必填,必须包含值项。

Criteria.create(数组)

创建一个新条件,准备对新阵列执行操作。

  • array-必需,要应用更改的列的数组。

  • Criteria.descending(值)

    以降序返回值。

    • 值-必需,传递您希望以降序排序的数组。

    Criteria.equals(针,值)

    仅返回针数组中等于指定值的项目。

    • 针头-必需,要过滤的阵列。
    • value-必填项,必须等于。

    Criteria.extract(数组,模式)

    返回数组中所有根据指定模式修剪的匹配项。

    • array-必需,要修剪的数组匹配。
    • pattern-必填,pattern定义了如何修剪返回文本的所需部分。 要修剪的值由模式中的{{VALUE}}指示。
      例如,从“我的年龄是33”中减少年龄。 模式“我的年龄是{{VALUE}}”。 将被使用。

    Criteria.greaterThan(针,值)

    返回needles数组中唯一大于指定值的项目。

    • 针头-必需,要过滤的阵列。
    • value-必填项,必须大于。

    Criteria.keep(针,干草堆)

    保留在干草堆数组中找到的所有匹配项后,返回needles数组。

    • 针头-必需,要过滤的阵列。
    • 干草堆-必需,用于保持针的阵列。

    Criteria.lessThan(针,值)

    返回指针数组中唯一小于指定值的项目。

    • 针头-必需,要过滤的阵列。
    • value-必填项,必须小于。

    Criteria.limit(值,限制)

    返回前n个值,其中n是极限变量。

    • 值-必需,传递您要限制的数组。
    • 限制-必需,要从数组返回的值的数量。

    Criteria.notEquals(针,值)

    返回needles数组中唯一不等于指定值的项。

    • 针头-必需,要过滤的阵列。
    • 值-必需,值项必须不等于。

    Criteria.remove(针,干草堆)

    删除在干草堆数组中找到的所有匹配项后,返回needles数组。

    • 针头-必需,要过滤的阵列。
    • 干草堆-必需,用于除去针的阵列。

    Criteria.repeat(array)

    重复数组中的项目,直到匹配最长列的长度。

    • array-必需,要重复的数组。

    Criteria.unique(针)

    仅返回针数组中的唯一值。

    • 针头-必需,传递您要从中删除所有重复值的数组。

    Data.countFilesDownloaded()

    计算下载的文件总数。


    Data.log(消息)

    将消息写到抓取日志。

    • message-必填,写入日志的消息。

    Data.pad(padValue,dataSet)

    通过将空单元格附加到列的末尾来填充数据集中存在的所有列,直到特定数据集中的所有列具有相同数量的单元格为止。

    • padValue- 可选,用于填充单元格的值。 如果未指定,则使用空值。
    • 数据集- 可选,要填充的数据集。

    Data.readColumn(dataSet,column)

    从指定的数据集中读取指定列的列。

    • 数据集- 可选,从中读取值的数据集。
    • 栏- 可选,即数据集中要从中读取值的列。

    数据。save(值s,dataSet,列)

    Save指定的数据集和列的任何一个或多个值。

    • 值-必需,传递您希望的任何值或值数组 save.
    • 数据集- 可选,数据集到 save 价值 into.
    • 栏- 可选,数据集中的列 save 价值 into.

    数据。saveDOCXScreenshot(htmlOrUrls,选项,数据集,列)

    拍摄HTML,URL或URL的DOCX屏幕截图,并选择在指定的数据集和列中放置指向文件的链接。

    • url-必填,传递您想要获取DOCX屏幕截图的任何url或一组url。
    • 选项- 可选,屏幕截图选项。
    • 数据集- 可选,数据集到 save DOCX屏幕截图链接 into.
    • 栏- 可选,数据集中的列 save DOCX屏幕截图链接 into.

    数据。saveImageScreenshot(htmlOrUrls,选项,数据集,列)

    拍摄HTML,URL或URL的图像屏幕快照,并选择在指定的数据集和列中放置指向文件的链接。

    • url-必填,传递您希望获取其图像截图的任何url或一组url。
    • 选项- 可选,屏幕截图选项。
    • 数据集- 可选,数据集到 save 图片截图链接 into.
    • 栏- 可选,数据集中的列 save 图片截图链接 into.

    数据。savePDFScreenshot(htmlOrUrls,选项,数据集,列)

    拍摄HTML,URL或URL的PDF屏幕截图,并选择在指定的数据集和列中放置指向文件的链接。

    • 网址-必填,传递您希望获取其PDF屏幕截图的任何网址或网址数组。
    • 选项- 可选,屏幕截图选项。
    • 数据集- 可选,数据集到 save PDF屏幕截图链接 into.
    • 栏- 可选,数据集中的列 save PDF屏幕截图链接 into.

    数据。saveTableScreenshot(htmlOrUrls,选项,数据集,列)

    截取HTML,URL或URL的表格屏幕截图,并选择在指定的数据集和列中放置指向文件的链接。

    • url-必需,传递您希望获取表格屏幕快照的任何url或一组url。
    • 选项- 可选,屏幕截图选项。
    • 数据集- 可选,数据集到 save 表格截图链接 into.
    • 栏- 可选,数据集中的列 save 表格截图链接 into.

    数据。save文件(网址s,文件名,数据集,列)

    Save将任何一个或多个URL作为文件,并可以选择将指向文件的链接放在指定的数据集和列中。

    • url-必填,传递您希望打开的任何URL或URL数组 intoa文件。
    • 文档名称 - 可选,传递您希望使用的任何文件名,而不是生成的文件名。
    • dataSet-可选,数据集 save 文件链接 into.
    • 栏- 可选,数据集中的列 save 文件链接 into.

    数据。saveToFile(数据,文件名,数据集,列)

    Save将任何数据或数据项作为文件,并有选择地将指向文件的链接放在指定的数据集和列中。

    • 数据-必需,传递您希望的任何数据或数据数组 save 在文件中。
    • 文档名称 - 可选,传递您希望使用的任何文件名,而不是生成的文件名。
    • dataSet-可选,数据集 save 文件链接 into.
    • 栏- 可选,数据集中的列 save 文件链接 into.

    数据。save唯一(值s,dataSet,列)

    Save指定的数据集和列的任何唯一值或多个值。 同一数据集和列中的重复值将被忽略。

    • 值-必需,传递您希望的任何值或值数组 save.
    • 数据集- 可选,数据集到 save 价值 into.
    • 栏- 可选,数据集中的列 save 价值 into.

    数据。saveUniqueFile(网址s,文件名,数据集,列)

    Save将任何一个或多个URL作为文件,并可以选择将指向文件的链接放在指定的数据集和列中。 此方法只会 save 指定的数据集和列的唯一值,或者如果整个刮板都没有数据集和列的唯一URL。

    • url-必填,传递您希望打开的任何URL或URL数组 intoa文件。
    • 文档名称 - 可选,传递您希望使用的任何文件名,而不是生成的文件名。
    • 数据集- 可选,数据集到 save 文件链接 into.
    • 栏- 可选,数据集中的列 save 文件链接 into.

    数据。saveVideoAnimation(videoUrls,选项,数据集,列)

    转换一个或多个在线视频 into动画GIF,并且可以选择在指定的数据集和列中放置指向文件的链接。

    • videoUrl-必需,传递要转换的任何视频网址或网址数组 into动画GIF。
    • 选项- 可选,动画选项。
    • 数据集- 可选,数据集到 save 动画链接 into.
    • 栏- 可选,数据集中的列 save 动画链接 into.

    Global.get(名称)

    得到一个 saved变量值。

    • name-必需,要返回的变量的名称。

    Global.set(名称,值s,坚持下去)

    Save刮取页面之间的任何值或多个值。

    • name-必填,变量名 save.
    • 值-必填,变量值为 save.
    • 持久-可选,如果为true,则变量将在两次刮擦之间保留。

    Navigation.addTemplate(URLs,模板)

    将一个或多个URL定义为属于指定模板。 这允许将抓取指令限制为仅在某些URL上执行。

    • url-必需,传递您希望为其定义模板的任何url或一组url。
    • 模板-必填。

    Navigation.clearCookies()

    删除当前抓取的所有cookie。


    Navigation.navigate(过滤器,模板)

    单击一个或多个HTML元素。

    • filter-必需的过滤器,用于标识要单击的HTML元素。
    • template-导航到所选HTML元素时要分配的模板。

    Navigation.goTo(URL)

    立即转到指定的URL。

    • url-必填,用于浏览的URL。

    Navigation.hover(过滤器)

    将鼠标悬停在一个或多个HTML元素上。

    • filter-必需的过滤器,用于标识要悬停在哪个HTML元素上的过滤器。

    Navigation.isTemplate(模板)

    如果当前页面属于指定模板,则返回true。

    • template-必填,用于检查页面是否属于的模板。

    Navigation.paginate(过滤器,秒)

    通过指定的元素分页。

    • filter-必需的过滤器,用于标识要分页的HTML元素。
    • seconds-必需,是分页结果之间的秒数。

    Navigation.remove(过滤器)

    删除一个或多个HTML元素。

    • filter-必需的过滤器,用于标识要删除的HTML元素。

    Navigation.scroll(过滤器)

    滚动选定的元素或整个网页。

    • filter-可选,用于标识要滚动的元素的过滤器,如果未提供,将滚动整个网页。

    Navigation.select(值s,过滤器)

    在选择元素中选择一个或多个有效值。

    • 值-必需,一个或多个要选择的值。
    • filter-必需,用于标识要选择哪个选择元素的过滤器。

    Navigation.stopScraping(中止)

    立即停止刮擦。

    • 中止-可选,如果为true,则停止更多处理,并且不导出或传输任何结果。

    导航类型(文本s,过滤器)

    输入文字 intoa元素。

    • 文本-​​必填,要键入的一项或多项文本。
    • filter-必需,用于标识要键入哪个元素的过滤器 into.

    Navigation.wait(秒)

    等待几秒钟,然后继续。 使用此单击,选择和键入命令时,此功能最为有用。

    • seconds-必需,等待的秒数。

    Page.contains(查找,属性,过滤器)

    如果Page包含要查找的文本,则返回true。

    • find-必需,要查找的文本。
    • attribute-可选,要搜索的属性。
    • filter-可选,用于标识要搜索的元素的过滤器。

    Page.exists(过滤器)

    如果Page包含与搜索过滤器匹配的元素,则返回true。

    • filter-必需,用于标识要搜索的元素的过滤器。

    Page.getAuthor()

    如果指定了页面作者,则获取页面作者。


    Page.getDescription()

    如果指定了页面描述,则获取页面描述。


    Page.getFavIconUrl()

    获取页面的FavIcon URL。


    Page.getHtml()

    获取原始页面HTML。


    Page.getKeywords()

    获取要抓取的页面的关键字。


    Page.getLastModified()

    从页面元数据或响应标头中获取网页的最后修改时间。


    Page.getPageNumber()

    获取正在抓取的当前URL的页码。


    Page.getPreviousUrl(index)

    获取前一个URL,-1表示最后一个URL,而数字越小则表明哪个URL越早。

    • index-可选,要返回的上一页的索引。 默认为-1。

    Page.getTagAttribute(属性,过滤器)

    返回匹配的属性值。

    • attribute-必需,要搜索的属性。
    • filter-可选,用于标识要搜索的元素的过滤器。

    Page.getTagAttributes(属性,过滤器,链接到)

    返回匹配的CSS值。

    • attribute-必需,要搜索的CSS属性。
    • filter-可选,用于标识要搜索的元素的过滤器。
    • linkedTo-可选,由应链接到的列组成,以便相对值保持在一起。

    Page.getTagCSSAttribute(属性,过滤器)

    返回匹配的CSS值。

    • attribute-必需,要搜索的CSS属性。
    • filter-可选,用于标识要搜索的元素的过滤器。

    Page.getTagCSSAttributes(属性,过滤器,链接到)

    返回匹配的属性值。

    • attribute-必需,要搜索的属性。
    • filter-可选,用于标识要搜索的元素的过滤器。
    • linkedTo-可选,由应链接到的列组成,以便相对值保持在一起。

    Page.getTagValue(filter)

    返回匹配的元素值。

    • filter-可选,用于标识要搜索的元素的过滤器。

    Page.getTagValues(filter,linkedTo)

    返回匹配的元素值。

    • filter-可选,用于标识要搜索的元素的过滤器。
    • linkedTo-可选,由应链接到的列组成,以便相对值保持在一起。

    Page.getText()

    从页面获取可见的文本。


    Page.getTitle()

    获取页面标题。


    Page.getUrl()

    获取页面的URL。


    Page.getValueXPath(xpath)

    返回与提供的XPATH匹配的值。

    • xpath-必需,用于匹配元素值或属性的XPATH。

    Page.getValuesXPath(xpath)

    返回与提供的XPATH匹配的值。

    • xpath-必需,用于匹配元素值或属性的XPATH。

    Page.valid()

    如果当前正在抓取的URL是有效的网页,则返回true。


    Utility.Array.clean(值s)

    返回values数组中的所有非null和空值。

    • values-必需,传递任何要清除的值数组。

    Utility.Array.contains(值s)

    如果针位于干草堆数组中,则返回true。

    • 针-必需,传递任何值或值数组以查找。
    • 干草堆-必需,用于搜索一个或多个针的数组。

    Utility.Array.merge(array1,array2)

    合并两个数组 into用第二个数组中的值替换空或空值。 两个数组的大小必须相等。

    • array1-必需,传递要合并的值数组。
    • array2-必需,传递要合并的值数组。

    Utility.Array.unique(值s)

    从values数组返回唯一值。

    • values-必需,传递任何值数组以使其唯一。

    Utility.Text.extractAddress(文本)

    提取指定text参数内的第一个电子邮件地址。

    • 文本-​​必填,用于从中提取电子邮件地址的文本。

    Utility.Text.extractAddresses(文本)

    从指定的text参数中提取所有电子邮件地址。

    • 文本-​​必填,用于提取所有电子邮件地址的文本。

    Utility.Text.extractLocation(文本,语言)

    自动从指定的text参数中提取第一个位置。

    • text-必填,用于从中提取位置的文本。
    • language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。

    Utility.Text.extractLocations(文本,语言)

    自动从指定的text参数中提取位置。

    • 文本-​​必需,用于从中提取位置的文本。
    • language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。

    Utility.Text.extractLanguageName(文本)

    自动从text参数中提取指定的语言。

    • text-必需的文本,用于从中提取语言。

    Utility.Text.extractLanguageCode(文本)

    自动从text参数中提取指定的语言。

    • text-必需的文本,用于从中提取语言。

    Utility.Text.extractName(文本,语言)

    自动从指定的text参数中提取名字。

    • text-必需,用于从中提取名称的文本。
    • language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。

    Utility.Text.extractNames(文本,语言)

    自动从指定的text参数中提取名称。

    • text-必需,用于从中提取名称的文本。
    • language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。

    Utility.Text.extractOrganization(文本,语言)

    自动从指定的text参数中提取第一个组织。

    • text-必填,用于从中提取组织的文本。
    • language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。

    Utility.Text.extractOrganizations(文本,语言)

    自动从指定的text参数中提取组织。

    • 文本-​​必填,用于从中提取组织的文本。
    • language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。 使用“自动”来尝试自动检测文本语言。

    Utility.Text.extractSentiment(文本)

    自动从指定的text参数中提取情感。

    • text-必需,用于从中提取情感的文本。

    Utility.Image.extractText(网址s, 语言)

    尝试使用光学字符识别从任何指定的图像中提取文本。

    • url-必需,传递要从中提取文本的图像的任何URL或URL数组。
    • language-语言(可选),以两个字母ISO 639-1格式提取的文本语言。 默认为“ en”。

    Utility.URL.addQueryString参数(urls, 核心价值)

    添加查询string 任何URL的参数。

    • url-必需,传递要添加查询的任何URL或URL数组 string 参数为。
    • key-必需,要添加的参数的键。
    • value-必需,要添加的参数的值。

    Utility.URL.getQueryString参数(urls,键)

    获取查询的值string 来自任何一个或多个URL的参数。

    • url-必需,传递您希望读取查询的任何URL或URL数组string 参数来自。
    • key-必需,要读取的参数的键。

    Utility.URL.removeQueryString参数(urls,键)

    删除查询string 来自任何一个或多个URL的参数。

    • url-必需,传递您希望删除查询的任何URL或URL数组string 参数来自。
    • key-必需,要删除的参数的键。

    Utility.URL.exists(URLs)

    通过调用每个URL来检查URL是否确实存在。

    • url-必需,传递您要检查的任何URL或URL数组。