搜狐vs百度
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
http://blog.devep.net/virushuo/2007/06/19/sohu_vs_baidu.html
看sohu blog和sina blog互相搬家来搬家去的,真够无聊的。因为在safari里面,根本看不到首页,所以我一直很烦sohu blog。我猜想着这么糟糕的页面,搜索引擎的收录情况肯定不怎么好。于是在百度中,用site:blog.sohu.com 来看收录情况,竟然只有惊人的2条结果。而google里面倒是正常,有3,520,000个结果。
看到这里,估计有人会说,百度又耍流氓了,封了搜狐。不过按说百度一向只欺负小站,对大站热情的很,怎么会动sohu呢?有点意思。
结果就发现了下面的好玩事情:
huo-jus-ibook-g4:~/curl -A 'Baiduspider+(+http://www.baidu.com/search/spider.htm)' http://charles.blog.sohu.com/50657777.html | more
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 215 0 215 0 0 1284 0 --:--:-- --:--:-- --:--:-- 0
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<HTML><HEAD>
<TITLE>302 Found</TITLE>
</HEAD><BODY>
<H1>Found</H1>
The document has moved <A HREF="http://zt.blog.sohu.com/error.shtml">here</A>.<P>
</BODY></HTML>
这个命令的可以让我的访问请求伪装成百度蜘蛛,测试结果是,对sohu blog的访问被302转向到了一个出错页面。无法获得页面内容。
而,如果胡乱写个别的user-agent就一切正常。
用通俗的话说,就是sohu blog封杀了百度。
我觉得sohu真牛。看来为了搜狗下的功夫还是不小的。
不过这对sohu blog的用户似乎不太公平吧?怎么能就随便剥夺用户的权利呢?今天这个被搜索引擎收录的权利不算太成问题,那么明天会损失什么呢?反正,我是不想用这样搞笑的公司的产品的。




Comments
真低能,甘搞笑
Posted by: rows | June 19, 2007 11:21 AM
有一种可能性:百度spider的抓取频率过高,以至于搜狐不堪重负,索性封掉。
Posted by: zhengyun | June 20, 2007 4:21 PM
“百度spider的抓取频率过高,以至于搜狐不堪重负,索性封掉”
这个可能性太小了吧,就sohu那鸟流量,也能不堪重负?
除非技术实在差,国内说是用freeBSD的公司都很差。
Posted by: zicjin | June 20, 2007 11:02 PM
“用FreeBSD的公司都很差”给个来源?
应该是用IIS的服务器比BSD差吧。
Posted by: 量子公民 | June 21, 2007 4:08 PM
大家都需要博弈嘛
Posted by: socrates | June 21, 2007 4:29 PM
哈哈,还会有这种事发生阿
Posted by: go2act | August 6, 2007 6:44 PM
一直都不很喜欢sohu
佩服这位大人,呵呵。
Posted by: Felix021 | August 23, 2007 2:44 AM