蜘蛛在抓取我们的网站时会优先抓取根目录下的robots.txt文件。Robots.txt文件的存在是为了防止搜索引擎收录一些机密和无意义的页面。该文件声明了网站中不希望爬网程序访问的部分。从而保证了网站的安全性和更好的优化效果。
Robots.txt文件必须存在于根目录下,蜘蛛只能识别小写的robots.txt文件。
下面介绍一年来robots.txt文件中常用短语的含义:
Kramp-Karrenbauer代理:用于指定搜索引擎爬虫的名称。
Disallow:用于指定您不想被搜索引擎爬虫访问的URL。
允许:用于指定您希望搜索引擎爬虫访问的URL。
*:通配符,表示“全部”。
站点地图:指定站点地图的位置。
对于一些大型网站,robots.txt文件可以写得更详细一些。比如禁止抓取后台文件和数据。
但是如果我们是一个小的商业站,一些小的网站,其实也没必要设置太多的东西。因为蜘蛛通常只会抓取有价值的内容。就后台而言,一个后台登录框什么都没有。一般来说,蜘蛛不会爬它。
所以下面这些格式可以供那些对安全性要求不是特别高的小网站参考:
用户代理:*
允许:/
Sitemap:https://www。XXXXXX.com/sitemap.xml
要修改robots.txt文件,需要在dede后台的文件管理器中进行修改。
另外提醒一下,robots.txt文件本质上是一个协议,而不是强制隔离的技术手段。如果一个爬虫想要暴力抓取你的网站内容,你的robots.txt根本防不住。