robots.txt文件生成工具-跟哈工具

Robots.txt文件生成工具

在线robots.txt文件生成工具，可以帮助站长快速生成标准的robots.txt文件，支持一键导出，直接传到网站根目录即可。

小经验：强烈建议每个站根目录都放置一个robots.txt的文件，可以直接留空，但一定要放，避免因程序问题导致/robots.txt返回其他错误响应内容造成不可预知的结果，如搜索引擎不收录等。

Robots协议（爬虫协议）是国际互联网界通行的道德规范，一般是在一个web站点的根目录下写的robots.txt文件，用来告知搜索引擎哪些页面能被抓取，哪些页面不能被抓取，可以屏蔽一些网站中比较大的文件，如：图片，音乐，视频等，节省服务器带宽；可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容；设置网站地图连接，方便引导蜘蛛爬取页面。

robots.txt基本用法

User-agent

User-agent是用来匹配爬虫的，每个爬虫都会有一个名字，如果你有安装awstats统计工具，你就能查看到爬虫的名字，比如百度的爬虫叫BaiDuSpider，Google的爬虫叫Googlebot，*表示所有爬虫。

Disallow

Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

Allow

Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

Sitemap

Sitemap用来指定sitemap的位置。

Crawl-delay

Crawl-delay用来告诉爬虫两次访问的间隔，单位是秒。爬虫如果爬得很勤，对动态网站来说，压力有点大，可能会导致服务器负载增高，用户访问变慢。

还可以使用通配符

*：匹配任意多个字符

$：表示URL的结尾

Robots.txt举例

不管是Disallow，Allow还是Sitemap，每行只能写一条规则。

拦截部分文件或目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /aaa.html

允许爬虫访问所有的目录，有两种写法

User-agent: *

Disallow:

User-agent: *

Allow: /

通配符的使用，拦截.gif文件

User-agent: *

Disallow: /*.gif$

拦截带有?的文件

User-agent: *

Disallow: /*?

Sitemap例子

Sitemap: https://www.36jxs.com/too/sitemap.xml

分享链接

你可能感兴趣的工具

Robots.txt文件生成工具

补充纠错