heritrix

Heritrix是一个开源的网络爬虫,主要用于在互联网上抓取和归档网页内容。它是由Internet Archive(互联网档案馆)开发的,旨在帮助机构和个人建立自己的网络内容归档。

Heritrix的设计目标是支持大规模的、可持续的网页抓取,并且具有高度的可配置性和灵活性。它使用模块化的架构和可扩展的插件系统,可以根据用户的需求进行定制和扩展。

Heritrix被广泛应用于数字图书馆、档案馆、新闻机构等领域,用于创建和维护大规模的网络内容归档,以便长期保存和检索互联网上的信息资源。

不过对于国内网站来说不会带来什么流量,可以选择robots.txt协议禁止。

User-agent: heritrix

Disallow: /

如果还是禁止不了,可以选择nginx规则禁止访问,如下:

if ($http_user_agent ~* "heritrix") {

 return 403;

}

补充纠错
上一蜘蛛: YouBot
下一蜘蛛: EtaoSpider