sogou spider

  sogou spider是搜狗搜索引擎的一个自动程序。它的作用是访问互联网上的网页,存储到本地数据库中,并从中发现新的链接,走访互联网,使用户能在搜狗搜索引擎中搜索到您网站的网页。

Q. sogou spider 访问我的网站过快怎么办?

sogou spider 对于同一个 IP 地址的服务器主机,只建立一个连接,抓取间隔速度控制在几秒一次。一个网页被收录后,最快也要过几天以后才会去更新。如果持续不断地抓取您的网站,请注意您的网站上的网页是否每次访问都产生新的链接。如果您认为 sogou spider 对于您的网站抓取过快,请与我们联系,最好能提供访问日志中 sogou spider 访问的部分。点此投诉spider抓取过快

Q. sogou spider 喜欢收录什么样的页面?

1. 内容优良而独特的页面,如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被 sogou spider 收录。

2. 链接层次较浅的页面,过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。

3. 如果是动态网页,请控制一下参数的数量和URL的长度。搜狗更偏好收录静态网页。

4. 重定向次数越多的页面,越有可能被 sogou spider 丢弃。

Q. sogou spider 如何反应我网站上页面的更新?

sogou spider 根据网页的重要性和历史变化情况来动态调整更新时间,更新已经抓取过的页面。

Q. 如何 sogou spider 不抓我的网站?

sogou spider 支持 robots 协议,您可以在网站的根目录放置 robots.txt。

robots.txt 的规则请参阅 http://www.robotstxt.org/。

但是新更新的 robots.txt 可能得过几个星期才能体现出效果来。

需要注意的是,被您禁止 sogou spider 收录的网页将不能在搜狗搜索引擎上检索到。

不想让搜狗搜索抓取,可以选择robots.txt协议禁止。

User-agent: sogou spider

Disallow: /

如果还是禁止不了,可以选择nginx规则禁止访问,如下:

if ($http_user_agent ~* "sogou") {

 return 403;

}

补充纠错
上一蜘蛛: 360Spider
下一蜘蛛: Yisouspider