织梦CMS - 轻松建站从此开始!

红色建站_网站网页制作设计

当前位置: 首页 > SEO技术 >

如何写一个合理的robots.txt文件

时间:2021-01-10 09:40来源:xiaoboy.cn 作者:小男孩伪原创 点击:
robots.txt文件的写法User-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录Disallow: /require/   这里定义是禁止爬寻req

如何编写robots.txt文件


用户代理:*此处的所有*代表

搜索引擎

类型,*是一个

通配符


不允许:/admin/此处的定义是禁止对管理目录下的目录进行爬网


不允许:/require/此处的定义是禁止对所需目录下的目录进行爬网


不允许:/require/此处的定义是禁止对所需目录下的目录进行爬网


不允许:/ABC此处的定义是禁止对整个ABC目录进行爬网


不允许:/cgi-bin/*。htm禁止访问所有带后缀“.”的网址(包括子目录)。在/cgi-bin/目录中。


不允许:/*?*禁止访问所有网站

动态页面


不允许:。jpg$禁止抓取所有网页。

Jpg格式

的图片


不允许:禁止在adc.html的文件夹下抓取所有文件


用户代理:*此处的所有*代表

搜索引擎

类型,*是一个

通配符


允许:/cgi-bin/这里的定义是允许爬行

Cgi-bin目录

以下目录


允许:/tmp这里的定义是允许对tmp的整个目录进行爬网


允许:。htm$只有带后缀的网址”。htm "被允许访问。


允许:。gif$允许抓取网页和gif格式的图片



在这个例子中,网站有三个目录对

搜索引擎

的访问受到限制,即搜索引擎不会访问这三个目录。


需要注意的是,每个目录必须单独声明,不能写成“不允许:/cgi-bin/ /tmp/”。


用户代理后的*有一个特殊的含义,代表“任何机器人”。因此,诸如“不允许:/tmp/*”或“不允许*”之类的记录。gif "不能出现在此文件中。


用户代理:*


不允许:/cgi-bin/


不允许:/tmp/


不允许:/~joe/


机器人特殊参数:


允许Googlebot:


如果要阻止除Googlebot之外的所有导航器访问您的网页,可以使用以下语法:


用户代理:


不允许:/


用户代理:Googlebot


不允许:


谷歌机器人遵循指向自身的路线,而不是指向所有的漫游者。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
发布者资料
天涯 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2010-04-07 14:04 最后登录:2010-04-07 14:04
栏目列表
推荐内容