Typecho 主题插件站
每一个作品都值得被记录

typecho博客怎么写Robots.txt

分类:建站知识/ 人气指数:557/ 发布日期:2024-03-18/ 最后更新于:2024-03-18

什么是Robots协议(robots.txt)?

Robots协议(又称为爬虫协议或机器人协议)是一项国际互联网行业的道德规范,全称为“网络爬虫排除标准”(Robots Exclusion Protocol)。

Robots文件是网站与搜索引擎爬虫进行沟通的关键渠道。通过robots.txt文件,网站可以告诉搜索引擎哪些页面可以被抓取,哪些页面不应该被抓取。其核心目的在于保护网站的数据和敏感信息,确保用户的个人信息和隐私不受侵犯。虽然robots.txt不是强制性的命令,但搜索引擎通常会自觉遵守其规定。

robots.txt如何奏效呢?

Robots.txt的生效原理是,当搜索引擎的爬虫访问网站时,首先会检查网站根目录下是否存在robots.txt文件。

如果存在,爬虫将根据该文件的内容确定抓取范围;如果不存在,则默认访问并抓取所有页面。

此外,如果服务器上不存在robots.txt文件,搜索蜘蛛会生成一个404错误日志,增加服务器的负担,因此为网站添加robots.txt文件十分重要。

值得注意的是,百度等搜索引擎也会严格遵守robots.txt的相关规定。在编写robots.txt时,需要注意目录的大小写,百度会精确匹配robots文件中指定的目录和不希望被抓取的目录,否则robots协议将无法生效。

robots.txt的基本语法包括: 

  • User-agent:描述搜索引擎爬虫的名称,可以使用通配符"*"表示全部搜索引擎。 

  • Disallow:描述不希望被访问的URL组。 

  • Allow:描述希望被访问的URL组。 

  • Sitemap:指示蜘蛛去爬取网站的sitemap文件。 

 为了编写一个规范的robots.txt文件,我们应该确保: 

  • 要求所有搜索引擎遵循该协议; 

  • 禁止蜘蛛抓取后台地址和Typecho的安装路径; 

  • 指引蜘蛛去抓取网站的Sitemap。 

 因此,一个合理的robots.txt文件可能如下所示: 

User-agent: *
Allow: /*.html$
Allow: /usr
Allow: /*.png$
Allow: /*.jpg$
Allow: /*.jepg$
Allow: /*.gif$
Allow: /*.bmp$
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /config.inc.php
Disallow: /install.php
Sitemap: [替换为你自己的sitemap地址]


需要注意的是,Typecho默认不包含robots.txt文件,因此需要自行创建,并确保文件名全部小写。

另外,将Sitemap替换为网站实际的Sitemap路径,通常位于网站的根目录下。这样做可以保护网站隐私,同时指导搜索引擎正确地抓取网站信息,提高网站收录的效率。

如何辨别自己网站是否配置了robots.txt呢?

第一种方法:访问网址 http(s):你的域名/robots.txt即可

例如:https://www.TypechoFree.com/robots.txt