存档技术简化数据存储

  • A+
所属分类:邮箱安全

    传统的存档技术——光存储和磁盘可满足企业过去在价位和耐用性方面的要求,但不能满足如今企业对性能的需求。许多厂商转而寄希望于四项技术: 便携式硬驱、超高密度的光介质、全息存储和超高密度的盒式磁带。每种技术都随带新的存档软件,并各有其优缺点。

这也许是好莱坞电影中的场景: 一个骨瘦如柴、满脸丘疹的年轻人一下子成了亿万富翁。这不是讲述比尔·盖茨如何发迹的故事,而是在讲存档技术。在《健康保险可携性及责任性法案》、《萨班斯-奥克斯利法案》及其他众多法规出台之前,这项技术一度被许多公司所忽视。那些即使已经在使用存档技术的企业也只是把最重要的数据放在磁带或者光驱动器上,然后把它们放到异地保管起来,只有发生灾难才会想起。

如今,许多企业在重新考虑这项备受冷落的技术。存档技术不仅有助于遵从法规,而且有助于公司的日常业务。企业发现了这些庞大的数据仓库所具有的价值。它们为公司提供了交易、项目和订单方面的历史记录,可用于预测公司的发展前景。

存档技术简化数据存储
表1 存储技术比较(点击小图看大图)

但如今的设计师们也面临这个难题: 他们不仅要设计具有成本效益的存档方案来保存多年的数据,还要确保数据检索起来速度快、时间短。传统的存档技术光存储和磁盘可满足企业在价位和耐用性方面的要求,但不具备满足如今需求的性能。许多厂商寄希望于四项技术: 便携式硬驱、超高密度的光介质、全息存储和超高密度的盒式磁带。每种技术都随带新的存档软件,各有其优缺点。只有对这些技术有了全面认识,IT设计师才能为明天的存档架构做出合理选择。

存档基本知识

存档技术早就存在了,但一直到2002年7月才备受关注。当时美国政府通过了《萨班斯-奥克斯利法案》。《萨班斯-奥克斯利法案》的其中一项条款要求公开上市的公司保护与财务有关的任何文档,其中包括电子邮件和IM以及结构化和非结构化的内容。未遵守条款的公司将受到刑事处罚。新的经验法则就是,文档必须采用防止被人篡改的格式保存五年。

《萨班斯-奥克斯利法案》使企业的主管人员认识到了存档的重要性。长期以来,医疗服务提供商就在保存医疗记录; 建筑和工程公司需要保存设计图和工程规范; 石油、天然气和采矿公司要保存地质数据; 金融机构要保存客户的财务记录。其他众多垂直市场进行存档也是为了某种用途。

存档技术简化数据存储
表2 存档技术的影响评估(点击小图看大图)

但在《萨班斯-奥克斯利法案》出台之前,存档还是限于小圈子的一种应用,对每个垂直市场来说有着特殊含义。《萨班斯-奥克斯利法案》让所有企业认识到,存档不仅仅适用于这些特殊应用领域,而是适用于每个人。这些庞大的信息保存着公司的历史记录——也就是公司的命根子。

比如说,电子邮件存档不仅仅满足法规遵从要求,它还记录了合同谈判、订单接收、形式发票传递及交易达成方面的数据。针对电子邮件的存档要求已经扩大到了要求记录IM、甚至记录与客户间的电话通话内容。

存档的作用已经非常明显,以至一些企业走向了极端,什么数据都存档,不管它们是多么不重要。用一家厂商的话来说,一些公司部署的存档存储设备就是“写入一次、从不读取”(WORN)。

因而,企业必须在处理存档数据方面加强规范,一方面是为了确保自己遵从有关记录保存的法律,另一方面是为了确保保存公司业务所需的长期信息,还有一方面是为了确保自己没有保存过多信息、以便降低存档成本。

嬗变中的存档技术

数据存档通常离不开原本无法擦除的存储设备上,比如基于磁光技术的一写多读(WORM)磁盘以及可利用硬件或者软件加以保护避免被覆盖的盒式磁带。磁带和磁光盘库在满足法律和长期可靠性方面效果非常理想。这两种技术的生产厂商声称,数据无法被擦除(WORM几乎可以这么说),它们至少可以保存50年之久。

但WORM和磁带速度很慢。许多厂商通过把使用最频繁的文件重新转移到硬盘缓冲区来解决速度问题。不过,这种解决办法只适用于符合90/10法则的存档: 也就是说,10%的存档却在90%的时间内使用。

这种法则并不适用于现在的存档: 绝大部分数据需要频繁读取。于是,IT人员开发了分层架构,让具有不同功能的存储介质满足特定应用的要求。这不再只是保护存储数据的问题,还要认真综合考虑高速的第一层存储、中档的第二层存储及低速的第三层存储。IT服务公司SunGard产品管理主管Lenny Monsour说,让长延迟的存储设备来保存像客户关系管理(CRM)这样的应用会带来严重后果。

如今出现的一些新技术将让这种三层设计架构显得平坦化。在过去的几年,日益增加的数据密度促使硬驱每千兆字节的成本降低到了磁带介质的水平。再加上磁光驱动器无法跟上硬驱的数据密度,这已导致存档存储领域出现了一个新的重大趋势——基于硬驱的RAID系统取代磁带和磁光盘库。这类系统有许多甚至可以模仿它们所取代的磁带库。Copan System公司的Revolution 220T和Sepaton公司的S2100虚拟磁带库系统就是其中两个例子。

与此同时,存档管理软件在如何组织存档及如何在不同类型的存储硬件之间迁移文件方面也变得更智能化。再也不必只用时间和日期戳(time-and-date stamp)对文件进行分类。如果用户回到存档中寻找文件,他们可能会在某个日期范围内寻找文件,不过更有可能根据内容来寻找文件。根据标题栏来查找电子邮件存档文档就是个典型的例子。

因而,有必要根据内容而不是年限对数据进行存档。根据内容组织文件就如同把有着共同关键字或短语、或者有着相同标题栏(譬如针对电子邮件)的文件联系起来这么简单。也可以使用其他类型的元数据把文件联系起来,譬如作者姓名或者生成文件的那个部门。

设备和刀片服务器

EMC公司的Centera是最先结合磁盘和基于内容的存档来保存审计追踪、保护数据被覆盖的设备之一。每当文件被写到Centera设备上,就会为该文件生成独特的散列码(hash code)。一旦文件写入,Centera软件就会防止删除及改动文件,除非存储政策另有规定。如果文件被改动,就会为经过改动的文件生成另一个散列码,该文件作为另一个版本加以保存。最近开发出来的Centera Compliance Edition根本不允许删除或者改动文件。

Centera还可以防止重复数据被保存,从而节省了存储空间、减少了存档成本。每当文件被送到Centera设备,该文件的散列码就会与已经保存的文件进行比较。如果两个散列码匹配,那么Centera设备就知道这两个文件相同,因而丢弃重复文件。这样一来,Centera很适用于重复文件可能数量激增的电子邮件存档。

基于磁盘的另一种设备: IBM公司的DR550则使用事件驱动存档技术,即文件基于事件、而不是单单基于时间,从一个存储层转移到另一个存储层。存档管理员可以根据诸多事件,在活动和非活动存储设备之间转移文件,比如诉讼判决、病人死亡或者开始合同谈判等事件。因为这类事件不会在任何的特定时间发生,所以与每项活动相关的所有文档都应当保存在一起。基于内容的存档不但简化了相关文档的存档,还提高了存档速度。

Centera只能使用磁盘,而DR550还能充分利用IBM的其他存储资产如线性磁带开放技术(LTO)来创建更加全面的存档环境,这种环境具有多层存档存储和磁带备份。用户在设置DR550时,可以选择把它镜像到第二个基于磁盘的DR550上、使用磁带库进行备份,或者结合使用IBM提供的其他任何存储技术。

除了EMC和IBM的解决方案,另一个选择就是Kazeon公司的信息服务器(IS)1200。与Centera和DR550一样,IS 1200也是存档设备。不同之处在于,它不是包含软硬件的独立系统。IS 1200而是一款刀片服务器,它运行的存档软件可以连接到现有的存储基础设施。它能获取外面的非结构化数据,并加以存档,同时剔除重复文件。

新的存储技术

不过,硬驱并不是存档存储的理想方案。虽然硬驱成本接近可移动介质的成本,但耗电和散热需求所带来的日常费用却会使总体拥有成本(TCO)高出许多。硬驱的实际价格有所不同,不过在估算时要考虑到这一点: 每只硬驱大约耗电15瓦,所以一年来耗电130千瓦时。另一个不足就是,硬驱没有基于硬件的任何机制来保护数据被覆盖。最后一点是,硬驱会用坏。

如今开发的一些新的存储技术则有望克服这些限制因素。专有的格式包括艾美加公司的最新可移动硬驱,每盒磁带最多可以保存35GB的未压缩数据。该公司坚持声称其REV盒式磁带存档性能出众,又因为基于2.5英寸的硬驱技术,所以能够与其他存储解决方案相媲美。

从存档角度来看更引人注目的是高密度的120mm光存储格式——蓝光和HD-DVD。这些技术将具有记录功能,而且数据密度在50GB到60GB之间。完全有理由期望这些高密度光存储格式具有与当前的CD和DVD技术同样的耐用性。另一方面,它们也有同样的限制因素,因为它们是为流式传送串行数据如电影和音乐而设计的,只不过针对电脑数据的随机读取作了改进。与CD一样,它们也使用单一旋转轨道,而不是同心圆轨道,这会延长随机读取时间。更让人担心的是可记录版本的蓝光和HD-DVD,它们使用与CD-R同样种类的染料。随着时间的推移,这种染料会渐渐褪色; 如果在强烈的日光照射下还会被擦除,因而这项技术不太适用于存档。

Plasmon公司已宣布了超密度光存储(UDO)光盘库和驱动器。UDO是5.25英寸格式的磁盘,密封在盒式磁带里面,占用面积与较旧的磁光格式一样。每张磁盘的初始存储容量为30GB。与磁光不同的是,UDO完全采用光技术,使用波长较短的蓝色激光来获得更高的存储密度。它也是真正的WORM,因而符合数据存储方面的一些政府法规。

最奇特的莫过于全息处通用光盘(HVD)。一张120mm的HDVD磁盘其数据密度将超过1TB,这有望取代整个RAID子系统。HVD的缺点就是,它仍是一个科研项目。现有的驱动器和介质都只是试验型的,等到这项技术准备好随时投入使用(如果真有那么一天的话),其他存储技术到时完全有可能已走在它前头。

灵活选择存储技术

对存储设计师们来说,利益因素是,由于存储虚拟化、软件WORM以及传统磁介质数据密度越来越高,再也不必仅仅为了存档存储而使用用途单一的独特技术。硬驱可用于主存储器和辅助存储器。磁带可用于存档和备份。如果设计师对部署光存储设备果真有兴趣,只需要计算TCO,就这么简单。如果他们想进行决策,只要计算初始采购价加上特定时间段(比如五年)的日常费用。

设计存档解决方案时最好结合考虑整个存储基础设施。据弗雷斯特研究公司首席分析师Robert Markham声称: “存储是个完整的生态系统。每个部分都不能孤立地来考虑。”Markham主张把整个系统作为一个单位来设计,包括保存最重要的数据库的高速存储设备,以及速度最慢的异地存档设备。如今的生态系统比以往更加基于软件。

不过,设计师没必要为了获得集成的存储环境而牺牲灵活性。与存储设备结合使用的存储虚拟化技术让设计师可以轻松随意地把存储系统换进换出。设计师只要安装最新的存储设备、由软件来迁移存档文件,就可以换掉原有的存储设备。如果嫌当前使用的存档设备容量不够,IT人员只要添加另一个设备,软件就会自动调整。