怎么写机器人.txt文件
用户代理:*其中*表示所有类型的搜索引擎,*是通配符
Disallow:/admin/在这里被定义为禁止爬网管理目录下的目录
不允许:/require/此处的定义是禁止对require目录下的目录进行爬网
不允许:此处定义了/require/以禁止对require目录下的目录进行爬网
不允许:/ABC在这里定义是为了禁止对ABC的整个目录进行爬网
不允许:/cgi-bin/*.htm禁止访问/cgi-bin/目录中后缀为“.htm”的所有URL(包括子目录)。
不允许:/*?*不允许访问网站中的所有动态页面
不允许:.jpg$禁止对web上所有.jpg格式的图片进行爬网
不允许:/ab/adc.html文件禁止爬网到所有文件adc.html文件在ab文件夹下
用户代理:*其中*表示所有类型的搜索引擎,*是通配符
Allow:/cgi-bin/这里的定义是允许对cgi-bin目录下的目录进行爬网
Allow:/tmp在这里被定义为允许对tmp的整个目录进行爬网
允许:.htm$只允许访问后缀为“.htm”的URL。
允许:.gif$允许对网页和gif格式的图片进行爬网
在这个例子中,网站有三个目录限制了对搜索引擎的访问,也就是说,搜索引擎不会访问这三个目录。
需要注意的是,每个目录必须单独声明,而不是“Disallow:/cgi-bin//tmp/”。
*after User agent:具有特殊含义,它代表“anyrobot”,因此该文件中不能有“Disallow:/tmp/*”或“Disallow:*.gif”等记录。
用户代理:*
不允许:/cgi-bin/
不允许:/tmp/
不允许:/~乔/
机器人特殊参数:
允许Googlebot:
如果要阻止除Googlebot之外的所有bot访问您的网页,可以使用以下语法:
用户代理:
不允许:/
用户代理:Googlebot
不允许:
Googlebot遵循指向自身的线条,而不是指向所有机器人的线条。