周永德/文
搜索引擎发展这么多年,也很难界定是第几代了。各人各家都有不同的年代说法,说来说去,代代也乱了。不足重。
对于动态中的新技术,谁也很难有研究其历史的坐标,更没有预测未来的理论体系。毕竟搜索是最纯粹的互联网服务,可以说是互联网的产物。取之于网,用之于网,不会死亡。之前也写过搜索的一些文章,都是从用户的角度浅谈。
前几天看到一个标题,说什么下一代搜索是直接提供答案,不知怎么回事,我都竟然没有点开看(还不如换个说法,问答网站将推翻搜索网站,正如Google取代了雅虎门户)。不过,现在是谈论这个问题的时候。依稀记得,中国市场,自奇虎从社区论坛搜索开始挑战失败后,鲜有多少搜索产品问世了。不过,现在从行业角度说,也还是几个点而已。
点一:
下一代搜索,根本不再是Google PageRank算法一统江湖的搜索
众所周知,PageRank是Google创始人从学术论文引用惯例中得到启发,进而在Web上成功试验的内容权重排序规则,即搜索界的行业术语“算法”。这套算法规则简洁、实用、严谨。理念是,如同任何一页论文,都有可能被引用,任何一个Web网页,都有可能被链接,于是,整个网页世界,呈现一幅去中心点的“蜘蛛网”结构,只要你足够好,大家都会公平的关联你(即使N度间接链接也能被跟踪算入),即使你多么渺小,你都不至于被网络世界遗忘。
—— 拥有这样的思想和技术,如同拥有真理。但我认为Google的算法体系,从来就不是公开的PageRank这么简单。在Blog出现之前,自觉链接内容上家网页的网页占整个网页量的比重是多少?从我们十几年点击网页的经验看,真不多。这个比重,估计中国最低。这个国家,是否有产权版权这些上升到法律层面的意识先不说,谁愿意自己网站让人看起来都是复制粘贴的内容?尊重别人的劳动成果这个层面,套用Google的说法,那需要5000年的耐心。
在这种文化差异下(明明是差距),如果百度照搬PageRank的算法,估计早就没戏了。百度是怎么做的,李彦宏东施效颦,整出自信心定律什么的,那都是浮云。从技术角度说,可以通过统计相同内容的不同网页的发布时间先后;网页内容被转载后,第一出处被注明(而非链接)的次数等细节判断。但这远远不够。有两招,其中一招竞价排序百度玩的最好。另外一招,就是利用网民的点击流和搜索习惯,来建
搜索引擎发展这么多年,也很难界定是第几代了。各人各家都有不同的年代说法,说来说去,代代也乱了。不足重。
对于动态中的新技术,谁也很难有研究其历史的坐标,更没有预测未来的理论体系。毕竟搜索是最纯粹的互联网服务,可以说是互联网的产物。取之于网,用之于网,不会死亡。之前也写过搜索的一些文章,都是从用户的角度浅谈。
前几天看到一个标题,说什么下一代搜索是直接提供答案,不知怎么回事,我都竟然没有点开看(还不如换个说法,问答网站将推翻搜索网站,正如Google取代了雅虎门户)。不过,现在是谈论这个问题的时候。依稀记得,中国市场,自奇虎从社区论坛搜索开始挑战失败后,鲜有多少搜索产品问世了。不过,现在从行业角度说,也还是几个点而已。
点一:
下一代搜索,根本不再是Google PageRank算法一统江湖的搜索
众所周知,PageRank是Google创始人从学术论文引用惯例中得到启发,进而在Web上成功试验的内容权重排序规则,即搜索界的行业术语“算法”。这套算法规则简洁、实用、严谨。理念是,如同任何一页论文,都有可能被引用,任何一个Web网页,都有可能被链接,于是,整个网页世界,呈现一幅去中心点的“蜘蛛网”结构,只要你足够好,大家都会公平的关联你(即使N度间接链接也能被跟踪算入),即使你多么渺小,你都不至于被网络世界遗忘。
—— 拥有这样的思想和技术,如同拥有真理。但我认为Google的算法体系,从来就不是公开的PageRank这么简单。在Blog出现之前,自觉链接内容上家网页的网页占整个网页量的比重是多少?从我们十几年点击网页的经验看,真不多。这个比重,估计中国最低。这个国家,是否有产权版权这些上升到法律层面的意识先不说,谁愿意自己网站让人看起来都是复制粘贴的内容?尊重别人的劳动成果这个层面,套用Google的说法,那需要5000年的耐心。
在这种文化差异下(明明是差距),如果百度照搬PageRank的算法,估计早就没戏了。百度是怎么做的,李彦宏东施效颦,整出自信心定律什么的,那都是浮云。从技术角度说,可以通过统计相同内容的不同网页的发布时间先后;网页内容被转载后,第一出处被注明(而非链接)的次数等细节判断。但这远远不够。有两招,其中一招竞价排序百度玩的最好。另外一招,就是利用网民的点击流和搜索习惯,来建
