容错技术

容错技术【容错技术】容错技术是容忍并防範局部错误的决策方法 。是提高决策可靠性的重要方法之一 。所谓容忍错误,就是认识到错误是客观存在的,不可避免的,因此,要把主要的精力放在防範错误的对策上 。其主要内容有:(1)诊断技术,即在最短的时间内,也就是在错误还不致于造成重大损失之前,就发现并排除错误 。(2)错误防範技术和错误影响弱化技术 。(3)冗余技术,即用功能相近的若干决策方案或措施来代替单一方案,在原方案有效时,其余方案从表面上看是多余的,然而一旦原方案失效时,这些“多余”的方案就可自动依次接替原方案而维持决策实施的正常进行 。
基本介绍中文名:容错技术
外文名:Fault Tolerant)
定义:利用冗余硬体交叉检测操作结果
核心设备:伺服器
容错技术概况容错FT(Fault Tolerant)技术一般利用冗余硬体交叉检测操作结果 。随着处理器速度的加快和价格的下跌而越来越多地转移到软体中 。未来容错技术将完全在软体环境下完成,那时它和高可用性技术之间的差别也就随之消失了 。区域网路的核心设备是伺服器 。用户不断从档案伺服器中大量存取数据,档案伺服器集中管理系统共享资源 。但是如果档案伺服器或档案伺服器的硬碟出现故障,数据就会丢失,所以,我们在这里讲解的容错技术是针对伺服器、伺服器硬碟和供电系统的 。双重档案分配表和目录表技术硬碟上的档案分配表和目录表存放着档案在硬碟上的位置和档案大小等信息,如果它们出现故障,数据就会丢失或误存到其他档案中 。通过提供两份同样的档案分配表和目录表,把它们存放在不同的位置,一旦某份出现故障,系统将做出提示,从而达到容错的目的 。快速磁碟检修技术这种方法是在把数据写入硬碟后,马上从硬碟中把刚写入的数据读出来与记忆体中的原始数据进行比较 。如果出现错误,则利用在硬碟内开设的一个被称为“热定位重定区”的区,将硬碟坏区记录下来,并将已确定的在坏区中的数据用原始数据写入热定位重定区上 。磁碟镜像技术磁碟镜像是在同一存储通道上装有成对的两个磁碟驱动器,分别驱动原盘和副盘,两个盘串列交替工作,当原盘发生故障时,副盘仍旧正常工作,从而保证了数据的正确性 。双工磁碟技术它是在网路系统上建立起两套同样的且同步工作的档案伺服器,如果其中一个出现故障,另一个将立即自动投入系统,接替发生故障的档案伺服器的全部工作 。网路作业系统具有完备的事务跟蹤系统这是针对资料库和多用户软体的需要而设计的,用以保证资料库和多用户套用软体在全部处理工作还没有结束时或工作站或伺服器发生突然损坏的情况下,能够保持数据的一致 。其工作方式是:对指定的事务(操作)要幺一次完成,要幺什幺操作也不进行 。UPS监控系统UPS监控系统用于监控网路设备的供电系统,以防止供电系统电压波动或中断 。在工作中,我们选取的容错技术应根据实际情况而定(如资金,规模等) 。容错技术历史上世纪80年代,第一代容错技术就开始进入商用领域 。美国Stratus(容错公司)在Stratus独特的硬体级容错技术及VOS专有作业系统环境下,採用了Motorola M68000处理器 。1993年,英特尔 I860处理器在Stratus的硬体级容错体系结构中成功套用,在软体环境方面,还能满足业界对开放性要求的Unix作业系统FTX,即AT&T UNIX SVR4 。1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA-RISC对称多处理技术 。进入21世纪以来,製造、中小企业、能源、交通等领域对伺服器,特别是中低端IA伺服器的需求激增,过去仅仅可以套用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战 。另一方面,企业越来越依赖信息系统来完成关键业务的套用,同时他们不可能配备更多的专业人员来进行专职维护 。双机热备、集群伺服器遇到难题 。如今:NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标準作业系统环境的容错伺服器 。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99.999%,这种实时保护技术来源于STRATUS连续处理技术(Fundamentals of Continuous Pro-cessing Design),它包括:LOCKSTEP 技术LOCKSTEP技术使用相同的、冗余的硬体组件在同一时间内处理相同的指令 。LOCKSTEP技术可以保持多个CPU、记忆体精确的同步,在正确的相同时钟周期内执行相同的指令 。该技术保证能够发现任何错误,即使短暂的错误,系统也能在不间断处理和不损失数据的情况下恢复正常运行 。安全故障(FAILSAFE)软体FAILSAFE 软体和LOCKSTEP技术运行一样,可防止很多软体错误和储运耗损 。该软体在Windows 2000/2003环境下採用热插拔、记忆体镜像、负载均衡、多点终止失效、多通道I/O等方式,大大增强了系统连续运行的稳定性 。FAILSAFE可以管理和诊断特徵捕获,分析和通报伺服器的软体问题,从而允许个人在软体发生错误之前去纠正错误 。FAILSAFE软体的下列功能增强了NEC Express5800/ft系统在Windows环境中的可靠性:保护短暂的硬体故障;通过增强的驱动程式预防软体失效;软体问题的捕获、分析及修正;记忆体数据的连续性维持;丰富的纠错功能可以解决各种不同的错误 。为了避免物理撞击等意外故障,安全故障软体还提供了自动重启功能,能够将宕机前CPU与记忆体数据即时保存下来,最大限度地避免数据的意外丢失 。激活服务(ACTIVE SERVICE )当然,假如容错伺服器的硬体发生永久性故障,儘管系统能够正常运行,也必须及时更换硬体才能维持容错的冗余架构 。容错伺服器都配备了简易直观的图形界面来管理监测工具,(如NECExpress5800/ft提供了ESMPRO 管理软体),能够对伺服器中硬体运行及故障状态进行适时监控 。发展趋势容错技术的套用已经开始从过去的证券、电信等领域进入基础行业,如製造、能源、物流、交通及有着"7×24"不间断运营需求的中小商业团体和政府 。NEC为迎合网际网路的高速增长,为容错伺服器引入了最新的稳定、安全、可升级、功能强大的Linux版本 。容错的未来将会向更高的可用性、更卓越的可维护性发展 。调查显示,越来越多的用户开始注重TCO(总拥有成本)而不是初期购买价格,更多的企业决定逐步放弃採用双机热备的方式来维护複杂的集群伺服器,转而将目光瞄向具有容错技术的平台或容错伺服器平台 。在中国市场,NEC 公司与神州数码的合作在一定程度上弥补了容错伺服器在中国市场服务拓展领域的短板 。这将引发国内各领域的容错技术与套用的井喷式发展 。