« August 2006 | Main | October 2006 »

September 30, 2006

易道公司的zola故事与互联网信仰

“我们信仰互联网”刘韧的这句话,我非常喜欢。是的,我们没背景,没势力,没什么可以信仰的东西,互联网虽然兴于军方,起于高校,但是却难得的带有真正的草根气,互联网就像一个人,虽然他有这样那样的毛病,这样那样的被误度,但是他仍然是我们最好的朋友。

zola这个blog非常有趣,他讲了在著名的景观设计公司易道的一些往事,讲了同事Donia对他的诽谤和暗害。(顺便说一句,其实这种算计别人的方式真是随处可见)。事情本身并不出奇,有趣的是zola的做法,虽然他提到了很欣赏瑞贝卡群发邮件的方式,但是他毕竟没这么做。他现在用的办法是--“我相信,以后总有EDAW的同事搜索EDAW看到此文,算是我的马后炮吧。Donia可以滥用CC公器,我却没有滥用CC这个公器,我只是用BLOG这个私器来说个事实而已,骂我就骂我吧。”

是的,我们都是小人物,除了互联网,也没什么可以利用的。zola应该也是个互联网的人,所以他用这种办法处理这件已经比较旧的事情。我不知道结果会如何,但是我觉得,如果将来大家搜索易道的话,这件事情能排在比较靠前的位置,那么就能让大家都知道EDAW的中国公司,有个老员工,用这么低劣的手段来欺负一个还没转正的小伙子。这可确实是件有趣的事情。这种玩法,比群发邮件有趣的多。

我想帮他一把,所以我写了这篇blog。我也没做什么,只是讨论一个叫做zola的,曾经在EDAW工作过的家伙的事情。为什么我觉得应该帮他一下,只是因为我觉得他信仰互联网,恰好我也信仰。

September 25, 2006

google发布bigtable论文

8个人开发了2年半,现在bigtable的神秘面纱终于揭开了。google发布了一篇相当详细的论文“Bigtable: A Distributed Storage System for Structured Data ”(pdf版本)

这篇论文内容空前详细,包括bigtable的目的,数据模型,一些实例api调用的代码,性能参数,还有和其他相关产品的比较。

如标题所述 ,bigtable是一个用来存储结构数据的分布式存储系统。与平时常用的数据库不同,bigtable并非一个支持sql语言的关系数据库,而是map方式的,列导向的数据库(一列数据连续存储)。bigtable为读进行了优化,对数据库的读取访问远远大于写入是互联网服务的重要特点。bigtable的时间特性也颇为引人注目,bigtable中数据都带有timestamp字段,可以保存不同时间的多个版本。

论文中提到,google已经有6个服务已经运行于bigtable上了。分别是:Google Analytics,Google Earth,Personalized Search,Google Finance, Orkut,Writely。这里面我觉得最值得注意的是Writely和Analytics,这两个都是google收购来的服务,通过一段时间的改造,已经重组了其架构,使他们成为可以承担海量负荷的大型服务。这似乎也标志了google对于Writely的重视。

特别值得注意的是,这6个服务都是恰好带有明显时间特性的服务,借助bigtable的时间特性,可谓如虎添翼。最近Google Earth也增加了时间的标签。将来,bigtable必将用于更多的地方,事实上,时间标签对于web服务是相当重要的特征,但由于数据量太大,保存困难,限制了很多应用的发展,bigtable应用于wiki或是archive.org之类的服务的时候,必将势如破竹。

以前我们分析过,google通过收购和内部创业等方式获得新型服务,然后通过强大的基础技术改造这些服务,使其成为高可用性,高负荷高稳定性的服务。这或许就是google未来的发展方向。google通过一系列的包装,使分布式数据库这样复杂的东西可以被简单的api调用,这无疑将大大提高google内部各小组的开发能力。

ps:感谢youfeng及时提供这个消息。

September 24, 2006

对“社区发展状况调查报告”的肯定和质疑

首先要肯定一下这个报告,大规模的对最有"中国特色"的论坛生态进行调查,以往没有人作过。这种深入的数据分析比评选访问量最大的论坛有价值多了。

这份报告我最关心论坛的盈利情况。报告中显示,广告是社区盈利的主要方式,而在靠广告盈利的网站中,超过一半是通过google adsense进行的。这似乎也告诉了我们,google adsense并没有传说中的那样容易被封掉账号,只是被封的人叫的比较响而已。至于曾经被人们以为是中小网站收入主要来源的无线业务,只占了非常非常小的比例。 如果这个报告数据确实,那么,我们以往认为的“sp的萎缩会造成网站冬天”的这个结论可能不是那么可靠。

然后是质疑。

这次报告收集了站长样本2488个,网民样本12219个。这个采样数字明显偏低。我用自己写的爬虫程序,在google获得了使用discuz的域名不同的论坛地址,大概有27万多个。注意这仅仅是使用discuz的 且被gogole收录的,还不包括动网,phpwind和自己开发的其他论坛。报告中也表明了大部分用户使用或是曾经使用过discuz论坛。

这令我怀疑,这次调查的抽样情况是否平均?是否因投放媒体或是问卷设计等方式,造成了只有某一类典型用户参加了调查?

不过,无论如何,这份数据仍然是有相当的参考价值的,有兴趣不妨一读。

September 21, 2006

youos距离webos有多远

首发于 TV的Google观察Blog

youos自称是一个新的平台,也就是webos。

几个月以前,tinytool在讨论webos的时候遭到了众人围殴,看到了youos,我还是想鼓足勇气,讨论一下看看。

youos完全在浏览器中提供了了看起来很象操作系统的东西。于是有人大骂,这算什么东西,只不过是个花架子。然而,真的就是一堆无用的花哨代码吗?看问题不能这么简单,让我们来看看表象下面的东西。

youos并非一个封闭架构,而是一个众多开发者参与的项目,除了youos的基础系统,上面,大部分“应用程序”都是由爱好者开发提供的。这样也就造成了很多看上去没什么意义的程序出现。比如说youos 浏览器(浏览器中的浏览器?)这听起来像一个笑话。但是,一个开放的体系就是这样的,未必有用,但是有人就喜欢。创意也往往就是这么产生的。

为了从大量的程序中挑选出来真正有用的,youos采用积分的方式来让好用的程序排在前面,或是直接放在桌面里面。

youos提供了一些api(包装了一些js的代码),一些接口(可以用来挂接倒系统中),一些共享的数据结构(数据可以方便的在个系统中交互),甚至提供了一套IDE来辅助开发。

这些资源和开发方式,非常类似于普通操作系统的运转方式,操作系统厂商提供基础平台,提供api和接口,提供开发工具,然后开发者开发,并用自己开发的产品盈利。

当然,youos在一个浏览器页面中模仿桌面应用,这并不是什么好主意。比如我切换程序的时候,往往会利用本地系统的功能,而不是在youos的界面上点来点去。

youos值得借鉴的是他的模式,虽然实现出来的产品仍然是个玩具。我理想中的webos,应该是本地系统与web程序充分结合的产物。我们说webos,并不是说本地系统可以仍掉不用了,而是要将数据和应用保存在服务器端。youos可以方便的和其他用户“共享音乐”,这也是数据保存在服务器的优势。

以目前的互联网发展程度,用户已经主观的意识到了,数据保存在服务器(或是说保存在网络上)具有很大优势。youos介绍自己的优点时候说:做些工作,然后退出,等你换一台机器,登录,一切都跟刚才一样,就好像你从来没离开过,这是多么令人欣喜的体验。

在这个webos的概念中,是数据为王,应用为王的。如果数据能够自由的在个应用之间流动,那就能提供更多更好的服务。比起真正自由流动的数据,现在的所谓web 2.0网站提供的那一点点api算得了什么呢?在youos上,我们至少看到数据呈现了在应用之间自由流动的趋势。youos的“Why develop on YouOS?”中说道了Powerful Shared Data Structures。

youos的模式有很多创新,这让他变成了一个很有趣的试验,尽管这个试验距离真正的应用,还有不小的距离。纵观业界,能够拥有将这种试验变成真正应用的能力的,大概也只有google了。google所掌握的技术,正是最好的基础。如果google能提供基础技术,让开发者自由加入,同时令应用和数据自由的交换和流动,这个传说中的webos大概就成型了。

比如说,

google开放了搜索技术,开放了gfs和bigtable用来做存储,开放了account用做通行证。我们看到,其实google也在朝这个方向行进,比如,google maps就提供了足够好的api,并且有很多不错的应用建立与这个基础上。只是目前开放到这个程度的资源还不够多。类似的,mapreduce之类大量基础技术,还仅仅以公布论文的方式进行讨论(这一步其实也远远走在了其他公司前面)。

事实上,google已经收购了类似blogger.com,writely.com之类优秀的资源,并开始尝试在一个框架下整合。(昨天收到writely发来的mail: you'll need to use your Google Account password when signing in, not your Writely password 账号整合是不是第一步?)

联想到google公司内部,自由创意和自由开发的模式,似乎也可以认为,google已经开放了足够多的技术接口,只不过,这种开放还仅仅停留在公司内部。尚不能被广大开发者所自由应用,这是未来的希望,也是目前的遗憾。或许,这也是未来google帝国真的要做的事情。

前几天大家讨论过的p2p海量存储问题,其实也与此有关。这样看来,未来真是很有趣的。

September 18, 2006

每个人都需要个版本服务器-也谈p2p海量存储

首发于TV的Google观察Blog


从我知道cvs那个东西开始,我就喜欢死这个东西了。只要你敢用,他比任何的备份工具都好。什么都能装,保证能同步,还能回溯到历史某一点。我大半文件都是用这个存的。其实解决同步问题,只要你给自己建一个cvs/svn的服务器,就都ok了。


说起来这个,是看到美人她爹tinyfool一干人等正讨论p2p的存储问题。


从tiny的叙述中,我们可以看到,他对存储的最大需求是“备份和同步”,没错,这正是存储服务的主流。如果仅仅是共享一些mp3,照片之类,随便找个p2p软件就能作到了(emule就很好)。用这种存储服务的意义并不太大。


这就回到了标题所说,每个人都需要个版本服务器。假设基础文件所有人都有,只保存更新信息,那么所需要存储的容量立刻就大规模下降了。如果采用这种方式的话,我们需要的就不是一个类似社区的服务,而是一个类似email的工具类服务了。这里面,p2p的作用是进一步提高稳定性和降低成本。allmydata提供的10:1的服务就很好 (提供10M硬盘空间给别人用,自己得到1M虚拟存储空间)这种交换模式,和过去的区别是“你帮助别人存储的文件 ”对于你自己是否有用。emule方式共享mp3或是电影,是对你本人有用的,而allmydata的方式,则对你自己未必有用。emule是p2p的方式共享文件,而allmydata是共享空间。换个通俗的话来说,也就是,你并不知道别人在你共享出来的空间上放了什么,也基本上不可能去使用这些文件。

在这样的模式下,可以用这种10:1的方式达到大量冗余,多点存放的方式。如果再配合一些地理信息和统计学方法,就可以计算出来对于“你”所在的网络情况,谁的硬盘最适合存在你的资料,配合中央服务器,就更稳定了。这样一个基本的网络框架就算出来了。

综上所述,我得到2个结论:

1 这种存储不同于emule共享,文件本身对存储者不完全有意义。(有一些有意义,但大部分人可能没意义)
2 文件更新信息比文件本身更容易被频繁的读取。这些更新信息将是这个网络负担得主要流量。

最后说说我的希望:

google有足够的技术可以完成这个,无论是中央存储,还是同步工具,或是探测哪些机器适合保存你的资料(数据统计和挖掘技术)都是他的强项。

September 15, 2006

blog就得天天写

我写了很多年blog了,其中有几次较长的中断。最近这个月是一次。前年忙着搬家也中断过一次。这次说起来是因为工作忙,但其实,事实上,忙这个词永远就是个借口。一旦停下来不写,就再也懒得写了。

写blog还是不错的,现在回头看2003年的[空间被封,暂时无法访问],就发现,很多事情已经不记得了,需要去看blog才能想起来。文字的纪录是最有意义的。

2003年写blog最多的那些人,现在差不多都没什么动静了。可见要坚持一件事有多难。

其实blog这东西,只要写,就有意义,对自己有意义,对别人也有意义。哪怕通篇只有一句话有用,那也是有用。就算全没用,至少还提供了别人阅读的乐趣。

当然,最关键一个前提,是,你得持续的写。

September 14, 2006

讲讲donews通行证诞生的故事

其实donews通行证真是一个酝酿了太久太久的东西了。

早在2005年4月,刘老大就在blog里面提到了这事情:“Donews很快很上耶鲁大学开源的passport系统,我们力争不犯同样的错误。”


真正的构思比这还早。这里面提到了耶鲁大学的passport系统,已经是刘老大提出构想找了韩磊,韩磊让我去了解情况,做系统选型之后的结果了。


yale cas系统有很多问题,性能一般,没有和数据库接口,没有单点退出等等等,所有开源系统都这样,有一堆缺陷,但是也有很多好处。我花了些时间,改了一个版本出来,不过没有用在donews而是在05年10月份左右用于了365kit。也就是现在的sso.365kit.com。然后就是donews并入千橡,passport的事情也就暂时放下了。


随后又增加了my/free/inout等一堆服务,统一账号成了很迫切的事情。于是在我到donews工作之后,又重新开始这个项目。这次是千橡互联网基础事业部基于cas系统改造的一套方案。性能好,稳定性也不错。接口协议完全不变,是比较好的版本。在这个基础上, login.donews.com诞生了。这活不容易干,各历史时期开发的系统,操作系统,语言,版本都不太一样,幸好所有的历史上所有参与开发的程序员都大力协助,总算过了这关。

donews passport和通常passport的统一账号方式不同。我们希望保留所有用户习惯,所以就用了绑定账号的方式,同样为了让过去的donews用户名字不被抢注,我们采用了注册或从老账号激活的方式。用blog/my/365key/home的非中文账号都可直接作为通行证名字激活。

至于好不好用,就看用户反馈了。现在仍然是测试期,我们还在等待意见,继续修改。

September 13, 2006

世界没有尽头

朱辉龙在疑问,强大如google或微软,是否成了互联网的中心和黑洞,会不会阻碍商业和创新。


如果把互联网算作从TCP/IP开始,我们可以回头看看那个年代的互联网形势。 1969年,美国国防部委托开发了ARPANET的4个节点,分别>是加州大学洛杉矶分校,斯坦福研究院,加州大学圣巴巴拉分校,Utah大学。事实上,TCP/IP协议是分布式的,但互联网本身从来都是有明确中心的。1969年,这些高校就是中心。后来,netspace曾经是中心,aol曾经是中心,yahoo曾经是中心,与其说谁成为中心,不如说,信息聚集到哪里,哪里就是中心。


看看历史,就可以发现,所有时代都曾经有过以个看似能够扼杀一些的敌人,比如 曾经的IBM,曾经的苹果,曾经的AT&T,曾经的罗马帝国。然而,事实上,所有巨人都有回落成常人的那一天。除了随着他们成长的越来越大,自身的损耗也增加之外,社会制度也不允许出现那样的庞然大物,所以AT&T被分拆,微软被欧盟罚款。


曾经也有人疑问,我们是否真的可以制造出哥斯拉怪兽那么大的机械怪物,答案是,就算能造出来,大地也无法承受他的重量,地球上的能量也不够负担他的运动。


世界没有尽头,有关巨人,中心,黑洞这种事情也确实不用担心,你看,google也做rss reader,但是做的多么的差啊。没有一个巨人是万能的,而创新,更不是他们的专利。

September 12, 2006

烦透了域名劫持,用opendns

如果你也被北京网通的域名劫持流氓行为困扰,那就来用opendns吧。

我从blog.cathayan.org看到的,赶快设置上用了一下,果然好了。

其实只不过是设置2个dns地址:
208.67.222.222
208.67.220.220

但是opendns网站上,有各种系统,各种路由器的设置方法,图文并茂,很贴心。对普通用户,应该也能应付自如吧。

电信级流氓。nnd。

September 1, 2006

关于那次三环爆走

8月19日我们走三环,这是关于那天走三环最清晰和精确的文字了。感谢蜻蜓点水一路上的纪录。她比我们负担都重,清醒的写字纪录下每一段路,很不容易。

n多人说走三环是一件没意义的事情。这话没错,但是,为什么要做什么事情都有意义呢?为什么要那么功利呢?
三环这事情,我挺遗憾,最后差了几公里,竟然退出了。当然这也是我一贯的逃避困难的性格。太麻烦的事情,太烦心的事情,我就不做了。损失点所谓的利益,我并不当回事。这10年,损失的利益多了去了。当别人偷了我们创业成功的公司卖了1000万的时候,我也没疯掉,也没上门寻仇。这有什么大不了的?

所以,比起所谓的成功和利益,我看重的可能更是很多人看不中的所谓没意义的事情。这没意义的事情,才是最珍贵的。所以,我打算重新走一次三环。这次,要买一双好点的鞋,这双100块钱,穿了3年多的鞋该退休了,这次该不会磨脚了吧?

有人愿意一起走嘛?

about me:
me.jpg
CC License. Some rights reserved.
署名·非商业用途·保持一致
本站之所有未作特别说明的内容均使用 创作共用协议.
POWERED_BY_MT_3.2