搜索引擎抓取重要网页的五大策略
通过对海量的网页特征分析,搜索引擎认为重要的网页有如下的基本特征,虽然不一定完全准确,但是大多数时候确实是这样的:
1) 网页被其他的网页链接的特点,如果被链接的次数多或者被重要的网页所链接,则是很重要的网页;
2) 某网页的父网页被链接的次数多或者被重要的网页所链接,比如一个网页是一个网站的内页,但是其首页被链接的次数多,而首页也链接了这个网页,则说明这个网页也比较重要;
3) 网页的内容被转载传播的广。
4) 网页的目录深度小,易于用户浏览到。 这里定义“URL 目录深度”为:网页 URL 中除去域名部分的目录层次。需要说明的是,URL 目录深度小的网页并非总是重要的,目录深度大的网页也并非全不重要,有些学术论文的网页 URL 就有很长的目录深度。多数重要度高的网页会同时具有上述 4 个特征。
5)优先收集网站首页,并赋予首页高的权重值。网站数目远小于网页数,并且重要的网页也必然是从这些网站首页链接过去的,因此搜集工作应当优先获得尽可能多的网站首页。
更多精彩推荐:http://www.021google.cn/