用户代理:*这里*代表所有类型的搜索引擎,*是通配符
Disallow:/admin/在这里被定义为禁止爬网管理目录下的目录
不允许:此处定义了/require/以禁止对require目录下的目录进行爬网
不允许:/ABC在这里定义是为了禁止对ABC的整个目录进行爬网
不允许:/cgi-bin/*.htm禁止访问/cgi-bin/目录中后缀为“.htm”的所有URL(包括子目录)。
不允许:/*?*不允许访问网站中的所有动态页面
不允许:.jpg$禁止对web上所有.jpg格式的图片进行爬网
不允许:/ab/adc.html文件禁止爬网到所有文件adc.html文件在ab文件夹下
用户代理:*这里*代表所有类型的搜索引擎,*是通配符
Allow:/cgi-bin/这里的定义是允许对cgi-bin目录下的目录进行爬网
Allow:/tmp在这里被定义为允许对tmp的整个目录进行爬网
允许:.htm$只允许访问后缀为“.htm”的URL。
允许:.gif$允许对网页和gif格式的图片进行爬网机器人.txt文件使用示例