Yisouspider

神马蜘蛛是神马上网,自动抓取网页的程序。蜘蛛抓取网页并建立索引,以便用户可以通过搜索引擎在互联网上搜索资源。

神马Spider的网站访问频率

神马会根据网站的规模、服务能力、页面质量、更新速度等因素来决定访问网站的频率。通常神马蜘蛛这种质量高、页面更新快的网站,访问频率相对较高,这样才能保证高质量、时效性的呈现给用户。

神马Spider是否会造成带宽负担

神马蜘蛛有规范的抓取流程,也会考虑网站的忙闲时间来抓取,所以不会给网站造成带宽负担。如果您发现名为Yisouspider的用户代理的抓取严重影响网站的正常访问,您可以将该时间段的访问日志信息反馈给zhanzhangpingtai@service.alibaba.com,神马校友会将给您发送分析结论。


神马Spider的user-agent及ip地址

用户代理是http协议的一个属性,代表终端的身份。神马蜘蛛的用户代理是Yisouspider,由于历史原因这个用户代理名称会继续使用。



神马spider如何发现新网页

神马蜘蛛发现新网页的方法有很多。最典型的方式就是对找到的网页中的超链接关系进行分析,选择url并爬取,从而不断扩展,爬取尽可能多的有价值的网页。另外,神马会从dns服务商那里获取新网站的域名,可以及时抢到新网站。



关于robots协议

Robots.txt是搜索引擎访问网站时首先访问的文件,以此来决定允许或禁止抓取哪些网页。神马搜索符合互联网机器人协议。如果想完全禁止神马的访问或者部分目录,可以通过robots.txt文件设置内容,限制神马蜘蛛的访问权限。

不想让神马搜索抓取,可以选择robots.txt协议禁止。

User-agent: Yisouspider

Disallow: /

如果还是禁止不了,可以选择nginx规则禁止访问,如下:

if ($http_user_agent ~* "Yisouspider") {

 return 403;

}


补充纠错
上一蜘蛛: sogou spider
下一蜘蛛: Yahoo Slurp