找回密码
 注册会员

扫一扫,访问微社区

QQ登录

只需一步,快速开始

立即体验天翼云服务器(质量靠谱V3.6版本中需要设置的地方汇总点此领幸运券买阿里云优惠多
查看: 1225|回复: 0

如何巧妙利用robots文件加强主要页面的权重

[复制链接]
缘粉
缘粉  发表于 2012-3-22 11:37:49 |阅读模式
 Robots文件是搜索引擎访问网站时第一个要读取的文件,它告诉搜索程序服务器上哪些内容可以抓取,哪些不用抓取。
  目前网站的robots文件里面的抓取规则已经日趋完善,比如禁止了网页中图片的抓取,禁止蜘蛛抓取一些会员隐私(个人简历)页面、一些无用页面(之前的推广页面)、样式表文件等,但是仍然有部分页面并不需要蜘蛛程序的抓取,这部分页面只是面向用户的,搜索引擎抓取了并没有什么意义,瓜分了页面的权重。
  一、网站的404页面
  每个网站都存在一些错误页面,404页面的存在就是为了当用户访问了错误页面的时候能够将用户引导到正确的页面上,防止网站流量的流失。而一个页面较多的网站肯定存在很多的错误页面,这就导致存在很多相似的404页面,例如http://www.daochengrc.com/404.htmlhttp://www.yongjiangrc.com/404.html
  如下图所示:
  


  


  所以,一旦404页面太多,而还让搜索引擎去收录,就会导致网站把权重分给这些404页面,所以应该屏蔽404页面。
  添加规则:Disallow:/404.html
  二、网站部分导航页面
  网站底部的一些导航页面,如“市场合作”“网站声明”“付费方式”等都是针对客户的页面,几乎没有用户通过搜索引擎上搜索这些页面并到达网站,而且这些导航页面是全站显示的,所有的内容页面都存在,同样的也要分散这些页面的权重。
  这部分页面都是位于同一目录/main下,该目录下除保留部分页面需蜘蛛进行抓取外,其他页面可以都禁止,保留页面为:“关于我们”(main/aboutus.asp),友情链接(main/friendlink.asp)。此外“资费标准”“付费方式”页面位于企业会员中心页面,这些页面也没有必要对搜索引擎开放。
  添加规则:
  Allow:/main/aboutus*
  Allow:/main/friendlink*
  Allow:/main/recruitmeeting*
  Allow:/main/investigation*
  Disallow:/main/
  Disallow:/company/companyapplymember*
  将现有规则中最后一条删除:disallow: /main/refuse*
  将新添加的两条“Allow”规则放到disallow命令的前面。
  通过一些对搜索引擎抓取意义不大的页面,将首页和一些内容页面的权重更加集中。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

QQ|Archiver|手机版|小黑屋|嘉缘软件官网 ( 沪ICP备12042403号-2 )

GMT+8, 2025-4-13 08:20 , Processed in 0.081642 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表