用户代理:*这里*代表所有种类的搜索引擎,并且*是通配符 不允许:/admin/此处的定义是禁止对管理目录下的目录进行爬网 不允许:/require/此处的定义是禁止对所需目录下的目录进行爬网 不允许:/ABC此处的定义是禁止对整个ABC目录进行爬网 不允许:/cgi-bin/*。htm禁止访问所有带后缀“.”的网址(包括子目录)。在/cgi-bin/目录中。 不允许:/*?*禁止访问网站中的所有动态页面 不允许:。禁止抓取所有图片。网页上的jpg格式 不允许:禁止在adc.html的文件夹下抓取所有文件 用户代理:*这里*代表所有种类的搜索引擎,并且*是通配符 允许:/cgi-bin/这里的定义是允许抓取cgi-bin目录下的目录 允许:/tmp这里的定义是允许对tmp的整个目录进行爬网 允许:。htm$只有带后缀的网址”。htm "被允许访问。 允许:。gif$允许抓取网页和gif格式的图片。robots.txt文件使用示例 (责任编辑:admin) |