AIOps

一、AIOps 的第一性原理

1. 运维问题的本质

所有运维问题,本质上都可以归结为三个核心问题:

  1. **系统状态是否偏离稳态**(异常发现)
  2. **偏离由什么因素导致**(根因定位)
  3. **应该采取什么行动恢复或优化系统**(决策与执行)

AIOps 的价值不在于“使用了 AI 算法”,而在于:

通过数据驱动的方式,构建“感知 → 认知 → 决策 → 行动 → 反馈”的闭环系统,将原本依赖人工经验的运维活动,转化为可建模、可自动化、可治理的系统能力。


二、AIOps 的统一系统模型

1. 闭环架构抽象

可观测数据   ↓状态建模   ↓异常识别   ↓根因分析   ↓决策生成   ↓行动执行   ↓反馈学习

这一闭环构成了 AIOps 的最小完备系统。


2. 能力分层模型

层级能力定位核心问题
感知层可观测性系统发生了什么
认知层状态与因果建模为什么会这样
决策层策略与行动建议应该怎么做
执行层自动化操作如何快速执行
治理层人机协同与风险控制是否可信、可控

三、故障发现:从阈值判断到状态识别

1. 问题本质

故障发现的本质,是判断系统状态是否偏离其正常运行分布。

难点不在于“是否有指标”,而在于:


2. 方法论抽象

方法族适用问题思想本质
周期性分析是否存在稳定节律正常即规律
统计边界是否越界稳态分布
异常检测是否偏离群体少数即异常
相似度判断是否与历史一致模式相似性

3. 算法示例(实现层)

算法是可替换的,状态建模思想是稳定的


4. 多指标联合判断

当系统状态由多个指标共同决定时,单指标告警不再成立。

本质做法是:

通过多信号融合,对“系统状态”进行分类或概率判断。

实现方式包括:


四、问题定位:从相关性到因果性

1. 问题本质

问题定位的本质,是在多维系统中找到“变化的主导因子”。


2. 多维归因分析(相关性层)

方法适用场景核心思想
AttributorKPI 波动分析惊喜度与解释力
Divisia贡献拆解总量分解
HotSpot拓扑场景Ripple Effect

这些方法解决的是:

“哪些维度最可能与问题相关”


3. 因果推断(因果层)

在复杂调用链中,仅靠相关性无法定位根因。

方法解决问题
倾向得分匹配消除选择偏差
双重差分干预效果评估
工具变量隐变量干扰

因果推断的引入,标志着 AIOps 从“经验驱动”迈向“科学决策”。


4. 重复问题识别

通过历史故障特征建模,实现:

已知问题的快速复用与自动化处置

本质是:


五、容量预测:从经验预估到模型驱动

1. 问题本质

容量问题的本质,是在不确定性下进行资源配置决策。


2. 流量预测(时间维度)

预测的不是“精确值”,而是:

未来状态的概率区间


3. 资源画像(结构维度)

通过回归模型建立:

流量 → 资源消耗的映射关系

这是容量规划的基础模型。


4. 资源分配(决策维度)

资源分配本质是一个优化问题:

可采用:


六、变更管理:从人工检查到智能守护

1. 问题本质

变更是系统不稳定性的主要来源。

AIOps 的目标不是“避免变更”,而是:

降低变更的不确定性风险。


2. 核心能力抽象

能力作用
自动指标检查降低人工成本
对照分析识别异常波动
依赖影响分析防止级联故障
统计显著性检测量化风险

七、智能决策:人机协同的关键一环

1. 决策的本质

智能决策不是“替代人”,而是“增强人”。


2. 决策模式分级

级别说明
L1决策建议(人工执行)
L2半自动执行(人工确认)
L3全自动闭环

3. 治理与可信性

任何自动化决策都必须具备:

否则,AIOps 将成为系统性风险来源。


八、总结:AIOps 的长期价值

真正成熟的 AIOps,关注的是:

关联内容(自动生成)