« blog就得天天写 | Main | youos距离webos有多远 »

每个人都需要个版本服务器-也谈p2p海量存储

作者:virushuo 发表于 2006-09-18 17:09 最后更新于 2006-09-21 17:09
版权声明:按照by-nc-sa的cc协议可转载,拒绝采用“独家” 授权媒介(含网站和平面媒体)转载、引用、链接,除非获得本人许可。转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。


首发于TV的Google观察Blog


从我知道cvs那个东西开始,我就喜欢死这个东西了。只要你敢用,他比任何的备份工具都好。什么都能装,保证能同步,还能回溯到历史某一点。我大半文件都是用这个存的。其实解决同步问题,只要你给自己建一个cvs/svn的服务器,就都ok了。


说起来这个,是看到美人她爹tinyfool一干人等正讨论p2p的存储问题。


从tiny的叙述中,我们可以看到,他对存储的最大需求是“备份和同步”,没错,这正是存储服务的主流。如果仅仅是共享一些mp3,照片之类,随便找个p2p软件就能作到了(emule就很好)。用这种存储服务的意义并不太大。


这就回到了标题所说,每个人都需要个版本服务器。假设基础文件所有人都有,只保存更新信息,那么所需要存储的容量立刻就大规模下降了。如果采用这种方式的话,我们需要的就不是一个类似社区的服务,而是一个类似email的工具类服务了。这里面,p2p的作用是进一步提高稳定性和降低成本。allmydata提供的10:1的服务就很好 (提供10M硬盘空间给别人用,自己得到1M虚拟存储空间)这种交换模式,和过去的区别是“你帮助别人存储的文件 ”对于你自己是否有用。emule方式共享mp3或是电影,是对你本人有用的,而allmydata的方式,则对你自己未必有用。emule是p2p的方式共享文件,而allmydata是共享空间。换个通俗的话来说,也就是,你并不知道别人在你共享出来的空间上放了什么,也基本上不可能去使用这些文件。

在这样的模式下,可以用这种10:1的方式达到大量冗余,多点存放的方式。如果再配合一些地理信息和统计学方法,就可以计算出来对于“你”所在的网络情况,谁的硬盘最适合存在你的资料,配合中央服务器,就更稳定了。这样一个基本的网络框架就算出来了。

综上所述,我得到2个结论:

1 这种存储不同于emule共享,文件本身对存储者不完全有意义。(有一些有意义,但大部分人可能没意义)
2 文件更新信息比文件本身更容易被频繁的读取。这些更新信息将是这个网络负担得主要流量。

最后说说我的希望:

google有足够的技术可以完成这个,无论是中央存储,还是同步工具,或是探测哪些机器适合保存你的资料(数据统计和挖掘技术)都是他的强项。

相关文章:
blog comments powered by Disqus
CC License. Some rights reserved.
署名·非商业用途·保持一致
本站之所有未作特别说明的内容均使用 创作共用协议.
POWERED_BY_MT_3.2