搜索引擎工作三大步
1.
从互联网上抓取网页 利用能够从互联网上自动收集网页的爬虫系统程序
(
或者称为机器人程序
)
,自动访问互联网,沿着任何网页中的所有
URL
爬到其它网页,重复这一过程,并把爬过的所有网页收集回来。
2.
建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息
(
包括网页所在
URL,
编码类型,页面内容包含的所有关键词,关键词位置,生成时间,大小,与其它网页的链接关系等
)
,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度
(
或重要性
)
,然后用这些相关信息建立网页索引数据库。
3.
在索引数据库搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对于该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页而内容摘要等内容组织起来返回给用户。 由于
Web
信息会频繁更新,例如,新闻网页通常每天就要更新,有的网页更新周期可能是一周或几个月,这种频繁更新,会导致数据库内信息的过时。因此,需要更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
页:
[1]