找回密码
 立即注册

网站robots.txt文件是什么?

Mr.HOU 发表于 2021-5-13 15:52:49 | 显示全部楼层 |阅读模式
对于刚入门的SEO优化人员,也许听说过robots.txt文件。那么robots.txt文件协议是什么呢?当蜘蛛访问网站时,首先会去访问网站根目录下的robots.txt文件,会按照这个文件中指定的robots协议不去抓取网站中的部分内容。简单概括的话,robots文件就是控制搜索引擎的蜘蛛抓取网站内容的协议。下面,客绪方网络robots.txt文件具体来和大家聊聊。

SEO

SEO
1.robots.txt文件的路径
robots,txt文件固定是在网站根目录下,就是网站域名的下一级,文件名称就是robots.txt,如:http://www.it0470.cn/ sitemap.xml
2.robots.txt文件网站必须要有
也许会有SEO优化人员会说,网站内容就是想让蜘蛛随意抓取,所以服务器放不放robots.txt文件都无所谓。其实这种说法是不对的,因为robost.txt文件会影响到服务器的设置方面,如果robots.txt文件不存在,服务器会返回200状态码及一些错误信息,而不是404状态码,这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。其次,就算允许搜索引擎蜘蛛随意抓取,也应该创建一个空的robots.txt文件,放在网站根目录下。
3.robots.txt文件的基本格式
robots文件由记录组成,记录之间以空行分开,记录格式如下:<域>:<可选空格><域值><可选空格>
空格可以在域值两边可加可不加,可以简单记为:<域>:<域值>
robots.txt文件最简单样式为:
User-agent: *
Disallow: /
不过此robots.txt文件不建议使用,因为这个是禁止所有搜索引擎抓取任何内容。
允许所有搜索引擎抓取任何内容的robots.txt为:
User-agent: *
Disallow:
4.robots.txt文件的编写方法
4.1.User-agent
指定下面的规则适用于哪个蜘蛛,通配符星号*代表所有搜索引擎。
以下规则适用于所有搜索引擎:User-agent: *
只适用于百度:User-agent: Baiduspider
4.2.Disallow
告诉蜘蛛不要去抓取某些文件或目录,写法:每禁止一个抓取一个文件或目录,都必须另起一行,同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。
例如禁止抓取temp和a目录,禁止抓取b目录下的11.html和22.html。
Disallow: /temp/
Disallow: /a/
Disallow: /b/11.html
Disallow: /b/22.html
切勿写为Disallow: /temp/ /a/
4.3.Allow
告诉蜘蛛应该抓取某些文件或目录,由于不指定则是允许抓取,故Allow必须和Disallow一起用。
如禁止抓取目录a下的文件,在允许抓取b目录下的文件,而b目录在目录a下。
Disallow: /a/
Allow: /a/b/
4.4.$
通配符$,匹配URL结果的字符。
如禁止抓取.jpg格式的图片:
Disallow: .jpg$
如允许抓取所有.htm文件:
Allow: .htm$
4.5.*
通配符*,匹配任意字符。
4.6.Sitemap
告诉搜索引擎网站sitemaps的位置,是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放在网站根目录(如鸿雁科技网络的sitemap位置,http://www.it0470.cn/ sitemap.xml)。
Sitemap: http://www.it0470.cn/ sitemap.xml
robots是禁止抓取的,还有一种方式为禁止索引,noindex meta robots标签。
4.7.禁止索引
noindex meta robots标签是页面<head></head>中间的meta标签的一种,用于告诉搜索引擎禁止索引本页内容,因而也就不会出现在搜索引擎的结果页面中了。
格式如下:
<meta name=”robots” content=”noindex”,nofollow>
意思为禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。
百度仅支持nofollow和noarchive。Google、必应都支持下面标签。
noindex:不要索引本页面。
nofollow:不要跟踪本页面上的链接。
nosnippet:不要在搜索结果中显示摘要文字。
noarchive:告诉搜索引擎不要显示快照。
noodp:不要使用开放目录中的标题和描述。
最后一个要介绍的就是<a>标签上的rel=”nofollow”,最初这个标签的创造是为了告诉搜索引擎,这个链接非站长自主编辑,不要传递权重。后来,慢慢就变成了控制网站权重流动的一种方式。

THE END

除本站原创文章外其他内容由会员自行上传,我们不对其内容的准确性、真实性及合法性负责。

任何单位或个人认为作品内容可能涉嫌侵犯其合法权益的,可及时联系我们,我们将会尽快处理。

标注“原创”标识的内容版权归本站所有,转载时请注明出处。

本页网址: http://it0470.cn/thread-46-1-1.html

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

售前咨询

微信联系我,扫一扫

售后服务

鸿雁科技售后客服