找回密码
 注册会员

扫一扫,访问微社区

QQ登录

只需一步,快速开始

立即体验天翼云服务器(质量靠谱V3.6版本中需要设置的地方汇总点此领幸运券买阿里云优惠多
查看: 740|回复: 0

搜索引擎工作三大步

[复制链接]

5

主题

63

回帖

0

积分

正式会员

积分
0
发表于 2013-2-18 10:24:31 | 显示全部楼层 |阅读模式

1.

从互联网上抓取网页  利用能够从互联网上自动收集网页的爬虫系统程序

(

或者称为机器人程序

)

,自动访问互联网,沿着任何网页中的所有

URL

爬到其它网页,重复这一过程,并把爬过的所有网页收集回来。  


2.

建立索引数据库  由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息

(

包括网页所在

URL,

编码类型,页面内容包含的所有关键词,关键词位置,生成时间,大小,与其它网页的链接关系等

)

,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度

(

或重要性

)

,然后用这些相关信息建立网页索引数据库。  


3.

在索引数据库搜索排序  当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对于该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页而内容摘要等内容组织起来返回给用户。  由于

Web

信息会频繁更新,例如,新闻网页通常每天就要更新,有的网页更新周期可能是一周或几个月,这种频繁更新,会导致数据库内信息的过时。因此,需要更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。 
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

QQ|Archiver|手机版|小黑屋|嘉缘软件官网 ( 沪ICP备12042403号-2 )

GMT+8, 2025-8-27 03:19 , Processed in 0.077341 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表