IBM建成史上最大磁盘阵列

该系统可以高精度虚拟现实世界现象,或者,存储240亿首MP3歌曲。

IBM加利福尼亚Almaden研究中心的研究人员建造了一个规模上十倍于旧记录的数据库。这个120Petabyte的“硬盘”——相当于1.2亿G——由20万个普通硬盘组成。这个巨大的数据容器将可以容纳大约一兆文件,同时可以为更加强大的模拟系统提供空间,例如天气建模。

120Petabyte的硬盘空间能够装下240亿首5兆大小的MP3文件。IBM Almaden研究中心的数据存储组为一客户的超级计算机开发,用于模拟现实世界。但项目的负责人,IBM存储研究总监Bruce
Hillsberg认为这项新技术也可以用于普通商业计算。“120Petabyte今天看上去很疯狂,但几年后也许所有的云计算都是这个体量,”Hillsberg说道。仅仅是跟踪文件的名称、类别等属性就用掉了2个Petabyte。
高性能计算专家,IDC研究副总裁Steve Conway认为,IBM的数据库比过去的存储系统大了许多。120Petabyte很轻松就摘得存储量的桂冠,此前最大的存储系统也不过才15Petabyte。能够从大存储量中获益的高性能计算问题包括天气预报、石油工业的地震数据处理、蛋白质或者基因组的分子研究等。
IBM的工程师为这个超大的数据库开发了一系列新的软硬件技术。高效率的集成成千上万颗硬盘是挑战之一。通常硬盘都是用水平抽盒安装在高大的机架中,IBM的研究人员必须设计出大得多的机架来装载更多硬盘,节省空间。硬盘的冷却方式也是通过水冷,而不是普通的风冷。

在如此大规模的硬盘阵列中,硬盘的损坏问题则是另外一个挑战。IBM使用了在多块硬盘中的进行数据镜像备份的传统技术,但在此基础上进行了新的优化,这是的超级计算机在发生硬盘损坏的时候依然能够全速运行。

当单独的硬盘损坏,系统会从其他硬盘向备份硬盘重写数据,当周围有更多的硬盘损坏时,这个进程会加速,以避免出现数据的永久丢失。Hillsberg认为这项技术能保证系统100万年不丢失数据,不损失性能!
新的系统也从IBM为加快超级计算机存取数据而开发的GPFS文件系统中获益。GPFS将文件分散到不同硬盘,这意味着文件的多个部分能够同时进行读写。GPFS还能够让大型系统跟踪海量文件而无需费力地扫描每一个文件。上个月IBM用GPFS为100亿个文件建立目录只耗时43分钟,其送打破了过去的速度记录:10亿文件耗时3小时。

针对GPFS和硬盘恢复的软件升级也至关重要,Hilsgerg认为,为了系统的实用,软件的效率需要大幅提高。与激增的存储需求和高稳定性相比,硬盘的提升有限,软件必须补上这个缺口。

IDC的Conway认为更快的访问海量数据存储系统正在成为高性能计算的关键——尽管今天人们还是习惯于用处理速度来为高性能计算机排定座次。但是大硬盘正变得越来越重要——模拟规模越来越大,而且很多问题的解决都是采用迭代方法,模拟上千次后比对结果。高性能计算中的“checkpointing”指的就是工作进度中不断存储任务快照,提高成功率。这些技术趋势在高性能计算界引发了数据爆炸。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

传媒领域资深人士,IT行业净坛使者。 联系邮箱:zhanglin@ctocio.com

X