织梦网站优化robots.txt如何书写

时间:2013-05-12 16:13:48 发布者:博百优小A 本站编辑:化粪池疏通


  近段时间因为接触皮辚别邦织梦程序比较多,也做了几个织梦站点的优化,所以目前对这个开源cms比较了解。今天不说其靓脘堤窳他的,就dedecms关于robots书写给大家详细介绍下。当然也不局限于织梦,方法可以运用到任何网站。

  织梦默认安装目录是存在robots的,所以我们只要稍微修改下,就可进一步完善了。

  • 了解robots先从百度开始:

  下面是百度的robots:http://baidu.com/robots.txt

  User-agent: Baiduspider (蜘蛛类型:Baiduspider为百度蜘蛛 只对百度蜘蛛有效)

  Disallow: /baidu (限定蜘蛛不能爬取的目录,也可以是页面)

  User-agent: * (这里就是代表所有蜘蛛的一个限定)

  Disallow: /shifen/

  Disallow: /homepage/

  Disallow: /cpro

  从以上的百度robots简单了解到,robots.txt能够屏蔽蜘蛛访问特定的目录,方法就是 Disallow: /目录名。改方法是屏蔽此目录包含子目录的所有文件,当然如果子目录不屏蔽,我们可以使用Disallow: /目录名/

  ,我们发现robots.txt一个简单的/ 所起到的作用却截然不同,所以在我们书写robots.txt的时候一定不能大意,写完后要反复检查或者交站长工具检测。下面介绍几种特殊写法,用于不同情况:

  • ①屏蔽动态页面:Disallow: /*?* Robots检测解释:禁止所有引擎抓取网站所有动态页面

  这个应该很容易理解,/*?* 表示网站任何带?的url链接,我们知道这种链接一般就是动态页面,鉴于网站静态化处理过的网站完全可以通过屏蔽动态页面来避免出现重复页面,当然如果是数据库驱动的网站,而没有做静态或伪静态处理的网站,就不必要做此特殊处理了。

  • ②屏蔽特殊后缀的文件 例如:Disallow: /*.php$ Robots检测解释:禁止所有引擎抓取网站后缀为并且包含。php的文件 $代表以什么后缀结束,介绍符号。我们可以通过此方法来屏蔽css文件甚至js文件,当然目前我们不是很清楚蜘蛛对于js爬取情况,有朋友做过类似测试的或者查看过日志文件朋友可以分享下。

  • ③屏蔽某个目录,但是不想让别人知道 例如:Disallow: /scl*k Robots检测解释:禁止所有引擎抓取网站前缀为scl并且包含k的目录(包含子目录) 我们通过工具的解释,很清楚的明白了这种情况的意思。一般这种是我们屏蔽网站后台采用的比较多的方法,避免蜘蛛在爬取网站后台上耗费太多精力,当然如果让大家知道后台目录也无妨的朋友,可以采用上面介绍到的通用方法。

  • ④Sitemap地址: 例如 Sitemap: http://www.xxx.com/sitemap.html 做网站优化的朋友都知道sitemap就是我们网站的地图,我们通过工具或者网站后台生成sitemap,一方面是手动提交给搜索引擎,那么通过robots我们可以轻松的通知到蜘蛛。

  对比目前优化案例,robots主要功能都可以通过以上方法实现。当然百度、谷歌官方也有相关资料供大家参考。以上全属个人经历,欢迎交流学习!



Copyright ©2016 uygoogle.com化粪池疏通 本站所有内容源自互联网,有事请联系站长邮箱:abc998666@126.com百度sitemap 好搜sitemap 搜狗sitemap 神马sitemap googlesitemap