|
新年新气象,元月1日,搜狗3.0上线,号称收录了100亿网页。虽然笔者不知道搜狗的辈分是怎么分的,怎么就直接3.0了?但是笔者对100亿这个数字着实有点眩晕。
CNNIC关于2006年的互联网报告还没有出来,但是笔者参考了《2005年中国互联网络信息资源数量调查报告》,截止到2005年12月31日,中国的网页数量为24.0亿。
我们大胆地假设在2006年中国互联网放了个大卫星,网页数量翻番,那么也只有48亿,每个页面抓上两回,也不够搜狗的100亿呀。
中文搜索引擎之间,互相攀比网页数量之风,大约源于3-4年前,当时百度搜索(大概叫2.0版)上线,宣称网页数量超过10亿,已经超过Google.自此,网页的存货多少,就成为搜索引擎的重要家底。
网页索引数量,搜索结果相关度,搜索速度以及分词技术并称为评价一个搜索引擎好坏的关键技术指标。然而对于一般用户来说,最关心的是能否在第一页的前几条结果中找到他想要的。
其实,在有一定的数量和及时更新量之后,绝对数量是最不重要的指标。笔者在用百度的时候,每个页面100个结果,但笔者就从没翻到过第6页。
面对各搜索引擎在0.01秒之内,给网民反馈出来的上百万个结果,大多数人对庞大的结果数字是茫然的。
所以才会有网友揭秘说,某搜索引擎的反馈结果虚高,根本就没那么多结果,该公司选择那些结果相对多的词,自动给反馈数字加了个零。
笔者做了个实验,以一部比较热门的电视剧《越狱》为关键词,0.001秒后,说是查到了2593万个结果,但是笔者翻到第100页后,搜狗告诉笔者,1000个以后的结果被忽略了?!
笔者很是困惑,你既然只给出1000个结果,那么你说什么有2593万个结果云云,岂不是很搞笑。看来搜狗还算厚道,要是笔者自己开的搜索引擎,别管你搜什么词,我一概声称我找到了100亿个结果!那一串零,看起来多精神!
100亿还是80亿对用户来说也只是一个数字,这个数字与可以给用户带来什么好处之间没有必然的联系。做人要厚道,这已经不是那个少数服从多数的年代了。 |