搜索引擎无法跟上

日期:2017-12-04 20:05:57 作者:薛垩 阅读:

据一项新的研究显示,万维网上的信息量超过了搜索引擎索引它的能力网上有大约8亿个公开可用的页面,但即使是最好的搜索引擎也只有大​​约16%的页面两年前,最好的引擎索引了网络上3.2亿页的三分之一(本周,1997年6月28日,第12页)新泽西州普林斯顿的NEC研究所的Steve Lawrence和C. Lee Giles通过对所有可能的互联网地址进行抽样来了解他们对网络规模的估计,看看哪些实际代表服务器,然后对服务器进行抽样以查看信息量是可用的他们发现了280万台服务器,每台服务器平均有289个公共可用页面但当他们向11个最受欢迎的搜索引擎提交测试查询时,他们发现绝大多数页面都没有出现如果你进行元搜索,向尽可能多的不同搜索引擎提交相同的查询,新闻会好一些它们共同覆盖了大约43%的网络还有更多的坏消息 - 即使搜索引擎确实出现了新页面,也可能需要数月才能完成新页面上升到它在搜索引擎上显示的时间之间的平均时间是六个月,两人报告(Nature,vol 400,p 105)有些人希望使用元标记的新Web语言显示每个页面包含哪种信息,这将使索引更容易然而,研究人员发现,只有34%的页面使用已经可用的简单元标记,这使得许多人不太可能使用更复杂的语言对科学家来说,好消息是网上只有大约6%的资料是科学的研究人员说,由于这只有大约480万页,