为什么企业 IT 运营出现问题——以及 AgenticOps 如何解决
Source: VentureBeat
AI 代理正在打破传统的 IT 运维模型,导致复杂性增加、数据孤岛以及碎片化的工作流。 DJ Sampath,思科 AI 软件与平台高级副总裁,认为 AgenticOps 是解决方案:一种全新的运营范式,人类与 AI 实时协作,以提升效率、增强安全性,并实现创新的技术应用。
在最近接受 VentureBeat 采访时,Sampath 阐述了当前企业 IT 管理为何根本性地出现崩溃,以及为何 AgenticOps 不仅有用,更是未来 IT 运维的必需。
传统 IT 运维的临界点
核心问题是碎片化,Sampath 说。
“很多时候在这些企业内部,数据分散在多个不同的孤岛中。运维人员要介入并开始排查问题时,必须浏览许多不同的仪表盘、使用许多不同的产品,这导致他们在找出根本原因之前,需要花费大量时间去弄清楚各个信息所在的位置。”
这种挑战即将急剧加剧。随着 AI 代理在企业中变得无处不在,复杂性将呈指数级增长。
“每个人至少会拥有 10 个或更多的代理,代表他们执行各种任务。考虑到代理的加入,这个问题将会是现在的十倍,甚至百倍之多。”
AgenticOps的三大核心原则
-
统一跨孤岛的数据访问
- 平台必须整合不同的数据源:网络数据、安全数据、应用数据和基础设施数据。
- “把所有这些东西整合在一起将非常重要,这样您部署来代表您工作的代理才能在整个系统中无缝连接各个点,” Sampath 说。
-
多人协作优先设计
- AgenticOps 必须从根本上实现协作,使 IT 运维、安全运维、网络运维团队——以及代理——能够无缝协同工作。
- “当您把 IT 运维人员、SecOps 人员、NetOps 人员聚在一起时,您可以比在孤岛中相互复制粘贴要快得多地排查和调试问题。这是人类和代理在同步环境中共同工作,” 他解释道。
-
专用 AI 模型
- 虽然通用 AI 模型在广泛任务上表现出色,但专门的运维需要针对特定领域训练的模型。
- “当您开始进入细分领域时,这些模型必须理解非常具体的内容,例如网络配置或您关心的线程模型,并能够对其进行推理,这就变得非常重要,” 他表示。
Cisco 在企业堆栈中如何实现 AgenticOps
Cisco 的方法将遥测、智能和协作统一到一个连贯的平台。
-
Cisco AI Canvas – 一个运营工作空间,用生成式 UI 和统一的协作体验取代多个仪表盘。
- 操作员可以使用自然语言将任务委派给代理(拉取遥测、关联信号、验证假设、执行更改),同时保持人工在环的控制。
-
Deep Network Model – 一个专为目的构建的 AI 模型,基于超过 40 年运营数据进行训练,包括:
- CCIE 专业知识
- 生产遥测
- Cisco 的技术支持中心(TAC)知识
- 客户体验(CX)洞察
该模型提供领域特定的智能,是通用模型无法匹配的。
-
平台覆盖 – 跨校园、分支、云和边缘环境,允许代理以机器速度在整个生态系统中消费遥测数据,包括 Meraki、ThousandEyes 和 Splunk。
- 通过在 Cisco 产品中实现 MCP 服务器,代理能够标准化访问工具和数据,无需自定义集成工作。
如何碎片化的报告数据削弱 IT 故障排除
传统的 IT 故障排除方式是提交工单,并在多个系统之间拼凑碎片化的信息。
“人们会截屏。有时会写在便利贴上,” Sampath 说。“所有这些信息都散落在完全不同的渠道里,导致很难把它们收集在一起。”
Cisco AI Canvas 通过为团队提供一个共享的实时工作空间来解决这个问题——上下文不再分散在聊天、工单和屏幕共享中。团队可以:
- 实时协作
- 即时升级
- 在代理生成的图表和图形旁边贡献上下文(截图、笔记)
当 AI 代理加入这些协作会话时,系统会持续学习:
“机器不断从这些人机交互中学习。当同样的问题再次出现时,你的响应会更快,因为机器可以协助你。”
这形成了一个良性循环的持续改进:代理可以建议复用先前成功的方案,允许更多工作交接,并在系统加速未来响应的同时压缩调试时间。
安全作为 AI 加速器
历史上,安全被视为采用乃至创新的障碍。但有了正确的防护措施,组织可以自信地大规模部署 AI——甚至加速其发展。
“员工已经体验到像 ChatGPT 这样的工具带来的生产力提升,并希望在他们的 [organization] 中拥有类似的能力,”Sampath 指出。
通过将安全控制直接嵌入 AgenticOps 工作流,Cisco 确保 AI‑驱动的自动化保持安全、合规且值得信赖,将安全从障碍转变为 AI 采纳的催化剂。
企业环境
当组织能够检测个人身份信息,防止提示注入攻击,并保持适当的数据治理时,他们可以以根本不同的方式在企业内部解锁并释放 AI 采用。
跨域 AgenticOps 所需的身份层
跨域数据访问是 AgenticOps 实施中最复杂的挑战之一。思科的战略收购——尤其是 Splunk——使公司能够通过统一传统上相互独立的系统中的数据来应对这一挑战。
但仅仅将数据聚合在一起只是解决方案的一半;谁可以访问哪些数据变得至关重要。
思科正将其 Duo 平台从多因素认证(multi‑factor authentication)扩展为一个全面的身份提供者(identity provider),从一开始就在平台中内置了强大的身份和访问管理(identity and access management),而不是事后补加。
“我们正在将身份作为这些代理能够从不同数据源获取数据的核心支柱进行投入,并始终考虑正确的授权,” Sampath 解释道。
“这个代理应该访问这种类型的数据吗?你是否应该将这些类型的数据关联起来,以便解决问题?”
人类在环路中,但在更高层次
随着 AI 代理变得更加自主,人类的角色将会演变,而不是消失。
“我们始终会有人类在环路中,”Sampath 说。“你会看到的是所执行任务的复杂性会大大增加。”
示例 – 编码:
- 如今,编码可以完全由代理完成。
- 人类的角色已经从手动编码(甚至是 Tab 完成)转变为 让代理一次性生成代码,然后 在将其合并到代码库之前验证其是否满足需求。
这种模式将在 IT 运维中重复出现:
- 人类专注于更高层次的决策。
- 代理负责执行。
- 回滚功能确保在需要时可以撤销自主操作。
为什么等待 AI “趋于稳定” 是错误的做法
对于 CIO 和 CTO 来说,信息很明确:不要等待。
“很多人都处于这种观望的状态,”Sampath 说。“他们在等 AI 稳定下来后才做出一些决定。我认为这种想法是错误的。与合适的人群、合适的供应商合作,能够让你前进得更快,而不是站在围栏上,试图弄清楚什么是对的,什么是错的。”
赞助文章是由为该帖子付费或与 VentureBeat 有业务关系的公司制作的内容,且始终有明确标记。如需更多信息,请联系 sales@venturebeat.com。