返回栏目
首页人工智能 • 正文

关于AIOps的6个误解和解释

发布时间:  来源:河洛网

什么是ai操作系统? IT领导需要了解公众对AIOps的误解。 特别是,需要理解AIOps方法为什么满足或不满足目标的说明。

关于AIOps的6个误解和解释

你觉得DevOps很难理解吗? 可以先知道AIOps。 调查机构Gartner公司5年前首次创造了这个术语,但AIOps的含义现在是“ 基于算法的it运维” 转换为“ 人工智能运维” 。 使用通用算法支持IT运营团队的想法并不那么新奇。 有人说AIOps想赶上人工智能宣传和炒作的浪潮,维和监控工具制造商也可能想增加人工智能的成分。 如果要求10个人来定义AIOps,可能会得到10个不同的定义。 这就像很少有人会就云计算的定义达成一致一样。

DevOps研究所的研究负责人Eveline Oehrlich对此表示: “ 通过AIOps解决方案,IT运营和其他团队可以更好地分析未来的数据量和类别,从而改进关键流程、任务和决策。 使用这些工具,可以自动、快速地接收大量数据。 机器学习用于分析数据,提供可预测或警告发现的问题。 这些新发现的知识可以用于自动化和决策。 ”

IT领导必须了解并解释组织领导、同事、合作伙伴和客户对AIOps的常见误解。 以下是各种AIOps方法满足或不满足业务目标的原因。

关于AIOps的真相:详细讨论它是什么、能做什么、推动当前AIOps发展势头的因素以及IT团队所看到的收益。 例如,如果您的组织已经使用了容器或Kubernetes,您可能会喜欢自动驱动群集,但现在可以立即运行AIOps。

1.ai操作系统不是产品。 如果您想在组织中部署AIOps,请购买AIOps产品,并在一年内完成部署。 向运营堆栈添加另一个产品,增加复杂性,如何处理更多复杂性?

首先,考虑当前AIOps产品提供的常见功能,仔细查看当前的工具集,然后评估漏洞所在的位置。

基线:用于度量和其他基于时间序列的数据。 根本原因分析:连接和深入多个信息源。 异常检测:预测未来,警告偏差。 相关性:例如,指标和票证之间的相关性。 模拟:假设场景。 可以看出,AIOps不是独立的产品,而是一种功能。 在某些功能中,只需要将所有工具相互连接“ 因为可以生成,专用工具的功能不够强大魔法” 。 这就像单个神经元不能构成大脑一样。

2 .在使用ai之前,用Ops俗语说“ 在学习跑步之前需要学习走路。 ” 以往的监视措施没有问题,但需要在系统环境中追加指标、日志、观察性。 因此,首要任务是简化其运营。 如果警报过多,则需要确定最重要的警报。 如果没有从关键应用程序获得指标,则开始实施指标。 开始定义组织必须满足的服务水平指标( SLI )和某些服务水平目标( SLO )。

与此同时,发现监视设定的盲点,提高工作的可视性和运营能力。 如果发生故障后,手动设定警报阈值也不起作用了,现在是使用新工具的时候了。

因为了解极限总是改善的第一步,所以AIOps之旅从收集和了解数据开始。 如果人工智能研究者进入新的领域,首先要做的就是探索性数据分析( EDA )。 这包括对列名、值和语义场景等数据特性的理解。

同样,AIOps的第一步是使组织能够方便地收集和访问所有运营数据并将其可视化。 这不仅意味着现在的数据,也意味着历史数据。

只有这样,才能开始下一次旅行,寻找新的信号和见解,投入到自动化的行动中。

3. AIOps是文化的变化,正如DevOps运动以相关文化的变化而闻名,也有人将AIOps视为运营中的文化变化。 DevOps将开发和运营团队两种文化思想结合起来,创造了以速度和实验为特征的新文化。 现在,DevOps的专家当然被认为同时使用开发者和运营工具集中的工具。 可以看到,统一的基础架构、应用程序开发团队等提供了执行代码的服务级别指标( SLI )。

现在,可以将数据科学家的角色添加到程序集中,并且可以获得AIOps。 换言之,通过使用探索性数据分析( EDA )等方法和Jupyter Notebooks等工具提高组织的良好运营能力,更多的IT专业人员可以进入AIOps领域。

人工智能/机器学习的社区实际上也是如此,偏离了导入模式的运营。 如果数据科学家变得像人工智能工程师,接受和理解DevOps的优点和挑战会怎么样? 并且随着时间的推移,人们将注意力集中在IT领域的问题上:有趣的是,采用人工智能技术在识别猫的相关图像方面可能比人类强,但在识别坏硬盘方面仍然存在挑战。

4 .由于整合是首要事项,如果AIOps不是产品,会在哪里发生? 当发现数据集之间存在某种关联或多次中断时,AIOps希望自动运行特定的运行或指导解决中断问题的方法。

还有这个“ 魔法” 在工具之间的结构中发生。 零售价格小的连接层(如聊天机器人)可以向用户提供相关系统的链接,从而更容易从指标控制板跳转到调试控制台。

但是,如果不是因果关系,即使使用AIOps工具发现两组指标之间的相关性,也需要验证它,决定将来是否对其采取行动。 或者依赖关系有助于确定中断的原因。

一切都是为了更好地理解和管理设置的复杂性,并将自动化的帮助程序和操作集成在一起。

5 .使用开源软件是开源软件的重要作用。 开源产品使组织能够在任何级别读取代码并了解他们在做什么。 将其转换为运营领域,使用户能够在软件堆栈的各层发布指标、跟踪数据并理解其含义。 新一代数据中心基于Kubernetes,Kubernetes使用大量微服务和API驱动的软件部署流程。 现在,监视API调用非常简单。 本质上,可视性意味着可以随时在细节层面上检查景观。 使用某些数据科学工具可视化数据并指导浏览有助于分析根本原因和排除故障。

现在,组织可以使用相同的示例部署和管理自己的应用程序,并将其容器化,然后重新使用监视堆栈来查看和观察应用程序堆栈。

由于使用了相同的工具,因此可以轻松地将平台与应用程序中的指标相关联。 Prometheus已成为该领域中的实际监控标准,其本身由API驱动。 类似的项目(如Loki和Jaeger )有助于日志和跟踪。

然后,组织可以使用Kubernetes本地数据科学平台(如Open Data Hub和Kubeflow )收集和分析所有数据。

对IT团队的好处是减少摩擦,实现深度整合。 其标准是通过开源工具实施的。

6 .数据重要的组织可能没有足够的数据。 但是,如上所述,这些数据必须是干净、容易理解的。 因此,组织可以收集自己的数据池,训练自己的人工智能模型。 事实上,所有的业务AIOps工具都没有内置预训练的智能,所以必须这样做。

但是,如果可以用公共数据培训公共模型,并将其用作培训自己模型的标准,该怎么办? 没有人是从头开始,而是寻求更多的帮助。 数据库应用程序很可能为典型的工作负载和模式提供自己的模型。 然后,将学习内容迁移到特定的设置以满足组织的特定需求。 这是开始,根据自己的需要进行区分。

例如,在公共云项目中,平台和工作负载在社区中运行,而诸如度量、日志和票证等运营数据在开源许可下发布。 这是为了让数据科学家建立开放和免费的模型。

开始采用AIOps的方法采用DevOps工作方式的IT领导者知道,改变习惯需要持续的实践。 对于采用AIOps思路的IT团队也是如此。 可以从通俗易懂的问题开始,经过开发AIOps功能的进化周期,努力实现更多的人工智能辅助、人工智能增强,最后实现人工智能自动化的IT运营。

文化的变化需要组织的支持者、赞助者和榜样。 与其陷入人工智能的宣传和炒作中,不如先采用,了解基本原理,解决问题。 革命创新都是从小事开始的。 人们将来可能会惊讶于思想开放的工程师、运用专家、先进的平台和运用栈能够完成的工作。

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com