BUbiNG

BUbiNG是一个开源的网络爬虫系统,由意大利Pisa大学的研究团队开发。它是专门为大规模抓取和索引互联网内容而设计的,具有高效性能和可扩展性。

BUbiNG的特点包括多线程抓取、分布式架构、针对大规模数据集的优化等。它可以用于构建搜索引擎、数据挖掘项目、信息检索系统等应用,能够快速而有效地抓取互联网上的大量信息。

不过对于国内网站来说不会带来什么流量,可以选择robots.txt协议禁止。

User-agent: BUbiNG

Disallow: /

如果还是禁止不了,可以选择nginx规则禁止访问,如下:

if ($http_user_agent ~* "BUbiNG") {

 return 403;

}

补充纠错
上一蜘蛛: VenusCrawler
下一蜘蛛: GrapeshotCrawler