捕获和转换Web的工具
GrabzIt的在线社区

用户代理未设置为“grabzit”?

提出与GrabzIt的Web抓取工具有关的问题。 例如如何使用网络抓取工具和API从网页,图像或PDF文档中提取数据。

嗨,

我们需要将 Grabzit 识别为引用者或用户代理。 但我在日志中没有看到任何引用,并且用户代理设置为普通浏览器,并且没有“grabzit” 

所以我用 php $_SERVER 的输出制作了一个 pdf 

array (
'USER' => 'dk',
'HOME' => '***',
'HTTP_ACCEPT_LANGUAGE' => '*,en;q=0.5',
'HTTP_ACCEPT_ENCODING' => 'gzip, deflate',
'HTTP_ACCEPT' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'HTTP_USER_AGENT' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4104.0 Safari/537.36',
'HTTP_UPGRADE_INSECURE_REQUESTS' => '1',
'HTTP_SEC_FETCH_USER' => '?1',
'HTTP_SEC_FETCH_SITE' => 'same-origin',
'HTTP_SEC_FETCH_MODE' => 'navigate',
'HTTP_CONNECTION' => 'keep-alive',
'HTTP_HOST' => '*****',
'SCRIPT_FILENAME' => '******',
'REDIRECT_STATUS' => '200',
'SERVER_NAME' => '****',
'SERVER_PORT' => '443',
'SERVER_ADDR' => '****',
'REMOTE_PORT' => '52588',
'REMOTE_ADDR' => '195.206.181.230',
'SERVER_SOFTWARE' => 'nginx/1.17.9',
'GATEWAY_INTERFACE' => 'CGI/1.1',
'HTTPS' => 'on',
'REQUEST_SCHEME' => 'https',
'SERVER_PROTOCOL' => 'HTTP/1.1',
'DOCUMENT_ROOT' => '****',
'DOCUMENT_URI' => '/****.php',
'REQUEST_URI' => '/****.php',
'SCRIPT_NAME' => '/****.php',
'CONTENT_LENGTH' => '',
'CONTENT_TYPE' => '',
'REQUEST_METHOD' => 'GET',
'QUERY_STRING' => '****',
'PHP_ADMIN_VALUE' => '****',
'DOMAINNAME' => '****',
'FCGI_ROLE' => 'RESPONDER',
'PHP_SELF' => '/****.php',
'REQUEST_TIME_FLOAT' => 1587134704.587993,
'REQUEST_TIME' => 1587134704,
)

我的PHP代码是:

$oGrabz = new GrabzItClient($gr['apikey'],$gr['apisecret']);
$oGrabz->URLToPDF($url);
$oGrabz->SaveTo('test.pdf');

我还需要做其他事情吗?

提前感谢, 

莉迪亚
莱茵石66

Royston于17年2020月XNUMX日提问

是的,GrabzIt 看起来就像一个普通的浏览器。 这是为了避免被阻止。 如果您想检测您的请求,您可以随时传递 URL 参数。 就像 https://www.example.com/?grabzit=true

GrabzIt 支持于 22 年 2020 月 XNUMX 日回复