智能故障诊断，开启数据中心运维“下半场”

2023-01-10 19:33:56来源： 网络整理

基本面支撑军工爆发，企业订单增多回款变好，查看>>

　　从云计算第一次被提出至今已经过去了15年，随着云计算市场的不断扩张，数据中心服务器的规模也随之快速增长。成长的烦恼之于大规模数据中心是运维。一边是海量设备、高度复杂运维环境的现实，另一边是提供高质量的IT服务，提升效率并降低成本的诉求，运维团队面临巨大挑战。而对于数据中心面临的挑战，势必要在事前就制定各类风险的应对策略。

　　数据中心成长的烦恼：

　　规模与运维难度齐增

　　全面数字化催生了更多的数据处理需求，大数据中心作为承载海量数据(603138,股吧)存储和处理能力的运算中心，其建设规模和质量将直接决定数据服务能力，可以说，大型数据中心的能力决定了数字经济发展的速度与高度。

　　这也就不难理解，为什么在全球范围内出现数字基础设施兴建热潮。据Gartner数据统计，2020年全球云计算市场快速增长，增速超过40%，中国云计算市场也持续两位数增长，市场增长动能逐渐从泛互联网向产业化快速渗透，增长持续加速。

　　随着数据中心服务器规模的快速增长，大规模数据中心运维超过数十万台服务器成为常态。只要数据中心在运营，就无法避免出现故障。而依靠传统运维已无法满足海量设备的监控及运维管理需求。

　　腾讯云星星海实验室研发副总监刘超

　　“以往服务器出了故障，需要L1、L2、L3维护的过程，耗时非常长。” 腾讯云星星海实验室研发副总监刘超说。目前，腾讯云线网运行超百万以上的服务器，腾讯云在全球27个地理区域内运营着67个可用区，部署在全球各地的服务器数量超过100万台，超过1300个加速节点，带宽储备达100T，“作为云服务商，我们希望故障可以智能预警和诊断，而不是再去靠人工去收集分析海量数据，更好保障业务的连续稳定。”刘超补充道。

　　腾讯云与浪潮联合发布数据中心服务器智能故障诊断技术白皮书——《数据中心服务器智能故障诊断TIFDS（Tencent & Inspur Fault Diagnosis System）系统技术白皮书》显示，大规模数据中心服务器运维存在四大痛点：

　　机器故障后，重要的日志信息不全，无法自动准确进行故障部件定位；

　　服务器出现问题后主要基于人工分析和经验判断结果，自动化与智能化程度不高，故障诊断效能较低；

　　?人工经验分析依赖大量运维人力投入并导致较长的运维时间(MTTR)，影响业务快速恢复，成本高时效性差；

　　?由于诊断结果的明确化率低，以及人工判断的介入，引起二次故障维修比例较高，从而导致额外数据迁移成本和业务影响。

　　腾讯云服务器保有量高速增长，“肩扛手挑”的运维方式无法满足需求，刘超表示，“这远远不是效率高与低的问题，而是能与不能的问题，整个数据中心的运维必须要走向智能化。“

　　“七分运维”，有AI的“下半场”

　　“三分建设、七分运维”，业界在大规模数据中心运维方面的探索正在进入“下半场”。7月27日，在由OCP社区主办、浪潮承办的第三届OCP China Day期间，腾讯云与浪潮联合研发的TIFDS数据中心服务器故障智能诊断系统架构首次亮相。

　　TIFDS故障诊断系统是服务器健康监管技术及故障预警诊断技术的总称，旨在实现运维工作任务由人工离线分析向自动智能在线识别的方向发展，建立一套以带外BMC为中心的自动化故障诊断系统。

　　该系统依托腾讯超过100万台服务器的维护数据，深度定制了服务器事件日志，通过AI技术对服务器运营数据进行实时的分析，从而实现了对CPU，内存、硬盘，PCIe等部件的故障监控，失效预测，自动化预警，将服务器故障诊断自动明确化率提升至95%以上。

　　TIFDS方案架构

　　宕机类故障诊断

　　TIFDS可以覆盖由于IERR(Internal Error)和非IERR造成的系统宕机故障，并精准地定位出故障部件，如CPU，内存，主板，PCIe外插卡，存储等设备。服务器运行过程中一旦发生异常，TIFDS系统会立刻响应并准确诊断出故障的部件，将故障问题原因、故障部件具体位置、部件型号信息、维修建议等信息及时上报至运维管理系统。运维管理系统可自动生成维修工单，运维人员根据维修建议，需要更换部件信息，快捷更换故障部件或者依据TIFDS指导排除故障，迅速使机器恢复健康状态。传统的以小时计算维修时间级别压缩至分钟级别。极大提升运维效率，实现云业务快速恢复。

　　非宕机类故障诊断

　　TIFDS系统通过BMC实时监控服务器系统上遍布各处的电压、电流、温度传感器信息，实时监控电源、风扇、以及各部件的工作状态和工作负荷情况;根据可在线更新的告警阈值、预警阈值和故障判定规则，可实现对服务器中存在风险的位置进行故障预警、故障告警或故障判定，并时刻上报智能运维系统。

　　故障预警与隔离

　　TIFDS可以对服务器内所有部件进行全生命周期的寿命和运行状态进行跟踪，通过机器学习的算法对高风险的部件提前进行预警，降低服务器在高负荷运行状态下的突然失效。另外对已发生故障的部件，TIFDS可以按部件类别做出相应的隔离措施处理，避免单一非必要部件故障影响整机系统的运行。

　　“TIFDS架构是腾讯云和浪潮深度合作的结果。”刘超说，“底层代码主要由浪潮去开发；模型校验的过程、数据的输入，以及后面整个优化的过程又是双方共同开发。”

　　浪潮信息腾讯大客户部副主任倪旭华

　　正如浪潮信息(000977,股吧)腾讯大客户部副主任倪旭华所说：“这是一次突破了传统甲乙方关系的、战略合作伙伴间的合作。”

　　从封闭到开放，

　　智能故障诊断的诗和远方

　　奇点大学创始人彼得·戴曼迪斯在他的那本《未来呼啸而来》里归纳了的九大指数型技术，“人工智能”位列其中，并且指出，“当某些独立加速发展的技术与其他独立加速发展的技术融合时”，将带来巨大的变革力量，由此重塑行业。

　　比如，药物开发的速度之所以正在不断加快，不仅是因为生物技术正在以指数级的速度发展，还因为人工智能、量子计算和其他几个指数级加速发展的技术也在向这个领域靠拢，以及跨领域间的通力协作。

　　数据中心领域，也是如此。开放计算正成为当前乃至未来数据中心的创新主力，通过全球化协作的创新模式，能耗、高速网络通信、智能运维及循环利用，无论老问题，还是新需求，这些影响数据中心基础设施可持续发展的重大问题正在被解决。

　　今年是OCP成立10周年，在过去的十年里，开放计算作为全新产业协作模式，推动了5G、AI、边缘等创新技术的快速落地，为数据中心的绿色发展和高效价值挖掘做出巨大贡献。

　　融合和稳定，是数据中心业务运转的基础。浪潮与腾讯云的这次合作，是数据中心从规格定制迈向需求定制的重要一步，为行业带来了一些数据中心运维的革新思路和视角。

　　谈及双方的合作，倪旭华把浪潮比喻为——从开药店的，变成开医院的了。“规格的定制是客户已经很清楚他要什么了，我们帮他实现。这相当于你去药店买药，你说要什么，药店告诉你有或者没有。但是需求定制变成了我以医院的方式，跟客户一起针对他的现象、需求去诊断他出了什么问题，然后再有针对性地提出‘诊疗方案’。”

　　除了在深度上有了明显的变化，在广度方面，合作也给浪潮带来了更大的拓展空间，让浪潮从更多聚焦在服务器、存储这类硬件产品与交付，逐渐转向故障诊断系统的软硬结合，甚至是一体化解决方案。

　　作为OCP核心成员，浪潮和腾讯云正在携手践行开放的理念。此次发布的白皮书为大规模数据中心运维系统提供了完备的架构参考，是腾讯云与浪潮基于JDM合作模式的又一创新成果，对提升数据中心运维效率和云计算稳定性来说具有重要的借鉴意义。除此之外，双方深度合作的诸如加速模块开发、硬件设计标准的放开也都已经列上议事日程，等到SPEC完备后就会贡献给OCP社区。

　　如今，每一个计算生态中的小小进程，放到未来，都是推动大生态巨变的关键元素。

本文首发于微信公众号：略懂的小咖。文章内容属作者个人观点，不代表和讯网立场。投资者据此操作，风险请自担。