一份关于搜索引擎机器人的研究报告
作者:virushuo 发表于 2006-05-09 03:05 最后更新于 2006-05-09 03:05
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
http://blog.devep.net/virushuo/2006/05/09/post_20.html
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
http://blog.devep.net/virushuo/2006/05/09/post_20.html
如果有人作一个包含2,147,483,647个页面的网站,目的是用来做搜索引擎的机器人行为研究,你是不是觉得他疯了?
1年前,真的有人这么做了。大家现在差不多忘了这档子事,这哥们又冒出来了,这次还带来了一份报告,他还真把这事情作成了: http://drunkmenworkhere.org/219。
既然作成了,就值得看看了。我以前曾经说过,抓取这事情不是那么简单的,如何能按最合适的频率抓取数据,也是一个很好的数学模型。国内的百度,搜狗之类,显然这个就没作好。
要是能搞个中文的机器人分析,肯定很有趣。百度那样的疯狂死抓法,作出来的图样会不会有一种变态的美呢?
Tags:



