• 新闻中心

        新闻中心  >  再获认可!!!AIOps 轻松提高桌面云运维效率
        再获认可!!!!AIOps 轻松提高桌面云运维效率
        背景图 2022-12-12 11:38:06

        11月16日,,,,OFweek第七届人工智能产业大会暨行业年度颁奖典礼在深圳举办。。。拓客猫软件AIOps技术凭借在人工智能领域的实力和优势,,,获得维科杯 · OFweek 2022 人工智能行业“技术突破奖”。。。。当天,,拓客猫软件高级研发技术专家易佳受邀出席大会,,发表《桌面云场景下的AIOps技术实践》的演讲,,,介绍了桌面云运维遇到的挑战,,,以及如何利用AIOps简化桌面云运维等内容。。。。



        桌面云运维面临诸多挑战 

        近年来,,,桌面云为数字化办公提供了有力支撑。。。。与此同时,,,,桌面云也容易面临第三方软件兼容性、、、、蓝屏、、、木马、、、、应用卡慢、、、、响应延迟等问题,,,这些问题的背后暴露出来的可能是私有云资源不足、、、、硬件故障难以定位、、网络故障等深层次问题。。。。

        为此,,,拓客猫软件提出了AIOps 智能运维一体化技术方案。。该方案通过采集桌面云的日志、、、链路和指标数据,,执行故障预测、、、异常检测、、关联推理等算法,,为用户提供智能分析服务。。。


        “AIOps的数据采集引擎基于Golang实现了插件化探针,,,,支持采集Windows、、、Linux、、Docker等多类指标数据,,,,可以跨平台、、、、多应用地进行动态采集,,,,也支持Prometheus协议和导出,,,,在数据采集上实现了高效和可扩展。。”易佳补充。。。。


        历经三次迭代,,打造更优运维体验

        易佳介绍,,,,随着用户诉求和用户体量的的不断变化,,,,拓客猫软件AIOps数据模型与AI框架演进了三个版本。。。。


        第一个版本适用于小规模用户,,,是一套轻量级监控分析系统,,,支持时序数据、、、告警数据、、、、统计分析和容器化部署,,也支持主机、、虚拟机数据采集做简单AI分析,,,但是DB/存储与业务耦合严重,,算法效果难保障,,,难以支撑大规模虚拟机接入。。。


        第二个版本是轻量级AIOps引擎,,,,支持OpenAPI和数据统一调度,,,,引入缓存机制,,,,实现了存算分离。。。。但OpenAPI、、Requests Handler和Prometheus容易遇到瓶颈,,,,导致体验欠佳。。。。

        从第三个版本开始,,,,拓客猫软件打造了全栈的AIOps引擎。。。。在该版本中,,,面对数据上报的性能瓶颈问题,,抽象数据接口,,,实现Requests Handler负载均衡;其次是设计了投递分级,,,内存磁盘双对列的模式,,,,为低优先级数据设立单独通路,,可以优先保障高优先级数据入库;同时,,,设计了多级分表,,,,优化了数据结构,,这样可以保留横向扩展能力。。。


        另外,,,为了平衡实时性与准确度,,减少重复数据,,,,AIOps可以按采集指标区分不同采集周期,,例如设定10s采集一次CPU,,,20s采集一次memory;服务器型号、、、、磁盘大小等静态数据尽量只采集一次。。。


        最后,,,,针对多维异构数据进行了冷热分层处理,,冷数据存档供AI离线分析和模型训练,,,热数据实时监控和展示。。


        在AI算法方面,,,易佳介绍,,“桌面云AIOps算法包括基于bagging策略的分段线性回归算法、、、、基于网格搜索的缩扩容模型、、基于资源约束算法和贪心策略的虚拟机新增模型、、基于时间序列特征提取和随机森林的闲置资源识别模型等”,,基于这些算法,,最终形成了包含AIOps算法、、AI调度决策、、、、OpenAPI、、、、数据管理、、、服务化等功能在内的AIOps基础结构。。。。


        AIOps 实践与落地效果

        易佳表示,,,AIOps可以快速识别出卡慢故障等异常问题。。通过引入50多个规则、、、、采集800多个维度数据,,,实现20多个机器学习算法,,,诊断出30+核心卡慢场景。。。。AIOps的监测分析能力已经能够全方位地支撑大盘、、、、集群、、、、主机、、虚拟机、、、、网络、、、、存储、、、应用软件全栈监控与分析。。。

        在算法效果上,,,桌面云卡慢/故障异常检测准确率达到87%。。。。实施卡慢缓解建议后,,约有47%的问题能够得到明显缓解,,,,AIOps的智能诊断能力,,可以覆盖桌面云65%的已知资源卡慢问题。。

        易佳最后总结,,,AIOps未来会增加更多的反馈和模型的自更新机制,,,实现多业务场景的覆盖。。同时,,,,基于业务画像和运维知识图谱,,,实现精细化故障诊断,,,打造让用户满意的产品体验。。。。

        站点地图