搜狐vs百度
版权声明:按照by-nc-sa的cc协议可转载,拒绝采用“独家” 授权媒介(含网站和平面媒体)转载、引用、链接,除非获得本人许可。转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
http://blog.devep.net/virushuo/2007/06/19/sohu_vs_baidu.html
看sohu blog和sina blog互相搬家来搬家去的,真够无聊的。因为在safari里面,根本看不到首页,所以我一直很烦sohu blog。我猜想着这么糟糕的页面,搜索引擎的收录情况肯定不怎么好。于是在百度中,用site:blog.sohu.com 来看收录情况,竟然只有惊人的2条结果。而google里面倒是正常,有3,520,000个结果。
看到这里,估计有人会说,百度又耍流氓了,封了搜狐。不过按说百度一向只欺负小站,对大站热情的很,怎么会动sohu呢?有点意思。
结果就发现了下面的好玩事情:
huo-jus-ibook-g4:~/curl -A 'Baiduspider+(+http://www.baidu.com/search/spider.htm)' http://charles.blog.sohu.com/50657777.html | more
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 215 0 215 0 0 1284 0 --:--:-- --:--:-- --:--:-- 0
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<HTML><HEAD>
<TITLE>302 Found</TITLE>
</HEAD><BODY>
<H1>Found</H1>
The document has moved <A HREF="http://zt.blog.sohu.com/error.shtml">here</A>.<P>
</BODY></HTML>
这个命令的可以让我的访问请求伪装成百度蜘蛛,测试结果是,对sohu blog的访问被302转向到了一个出错页面。无法获得页面内容。
而,如果胡乱写个别的user-agent就一切正常。
用通俗的话说,就是sohu blog封杀了百度。
我觉得sohu真牛。看来为了搜狗下的功夫还是不小的。
不过这对sohu blog的用户似乎不太公平吧?怎么能就随便剥夺用户的权利呢?今天这个被搜索引擎收录的权利不算太成问题,那么明天会损失什么呢?反正,我是不想用这样搞笑的公司的产品的。