18818788520 欢迎来到【暴风雨网络】益阳网站SEO电玩城捕注册送金币3公司

您的位置:暴风雨网站建设首页 > 益阳网站电玩城捕注册送金币3 > SEO常见问题 > robots协议文件的写法与语法说明

robots协议文件的写法与语法说明

admin 11-09 25 次

一些网站上有很重要的内容不想被用户搜索到,就必须不让搜索引擎抓取到。而不想被搜索引擎抓取这时候就要用到robots协议。也就是说,当搜索引擎蜘蛛访问一个网站时,先看网站根目下有无robots.txt文件,如果有,就会按照文件中的规定访问,如果不存在,则会沿着链接抓取网站里所有页面。所以当我们网站上有些资料性的文件、培训内容、网站后台文件不想被百度抓取到。那就把不想被抓取的内容写到roborts.txt规则里去。

robots协议文件的写法与语法说明

Robots.txt协议

Robots协议,也称为爬虫协议、机器人协议等。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。就好比当你时入一家酒店时,有些房间上面显示“欢迎进入”有些显示“休息中请勿打扰”等字样。告诉你,哪个房间能进去,哪个不能进。robots.txt写的协议也就是这种意思。

常见搜索引擎robots名字

百度蜘蛛:baiduSpider

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

360蜘蛛:360Spider

SOSO蜘蛛:Sosospider

有道蜘蛛:YoudaoBot

搜狗蜘蛛:Sogou News Spider

MSN蜘蛛:msnbot

必应蜘蛛:bingbot

一搜蜘蛛:YisouSpider

Alexa蜘蛛:ia_archiver

即刻蜘蛛:JikeSpider

robots协议文件的写法

User-agent:*

*是一个通配符,表示所有的搜索引擎种类

Disallow:/admin/

这表示禁止搜索引擎爬寻admin目录下的内容

Disallow:*?*

这表示禁止搜索引擎爬寻包含?的网页

Robots协议语法属性解释

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符。

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录。

Disallow: /dshseo/*.htm 禁止访问/dshseo/目录下的所有以".htm"为后缀的。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址。

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。

Disallow:/dshseo/abc.html 禁止爬取dshseo文件夹下面的adc.html文件。

Allow: /dshseo/ 这里定义是允许爬寻dshseo目录下面的目录。

Allow: /dshseo 这里定义是允许爬寻dshseo的整个目录。

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片。

Sitemap: /sitemap.html 告诉爬虫这个页面是网站地图。

Robots.txt使用上应注意的一些问题

1、每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。

2、如果后台和前台在一个域名下,不希望爬虫抓取后台程序的,可以在Robots.txt明确不让爬虫抓取的目录。但这会不会被某些恶意分子一下子就能够知道后台目录呢?

暴风雨益阳网站电玩城捕注册送金币3公司声明,网站部分文章来源于网络,如发现内容存在版权问题,烦请联系我们,我们将及时删除。谢谢!

相关文章阅读

    最新文章