2026年03月08日 1

SPC控制图实战：OOC报警了怎么处理？制程工程师必看

Q: 1.2 控制限 vs 规格限

这是新手最容易混淆的概念：

Q: 二、Western Electric规则：OOC不只是"超线"

很多工程师认为OOC就是数据点超出控制限（UCL/LCL），其实这只是8条判定规则中的一条。完整的Western Electric规则如下：

Q: 三、OOC来了：标准化分析流程

收到OOC报警后，很多工程师的第一反应是"是不是误报"然后关掉。正确的做法是按照系统化的流程来排查：

Q: Step 1：确认报警有效性（5分钟内完成） 检查量测数据是否有效：量测设备是否在标定周期内？是否有量测异常标记？ 检查是否为已知变更：是否刚做完PM？是否切换了新Recipe？是否更换了耗材？ 如果是已知变更导致的OOC，走变更管理流程（更新控制限或重新计算基线） Step 2：判断异常模式（15分钟内完成）

根据触发的规则类型和控制图的形态，判断异常属于哪种模式：

SPC控制图OOC报警实战处理：Western Electric 8条规则详解、突变/漂移/周期/混合异常模式分类、四步标准化分析流程及常见操作陷阱。

SPC（Statistical Process Control，统计过程控制）是半导体制造中最基础也最重要的质量管理工具。然而在实际产线上，很多工程师对SPC的理解停留在”看看图、处理报警”的层面——OOC（Out of Control）报警一响，打开系统看一眼，判断不了原因就做个标记关掉。这样做不仅浪费了SPC的预警价值，还可能让潜在的制程漂移演变成批量报废。本文系统梳理SPC控制图的实战用法，重点讲清楚：报警了到底该怎么分析和处理。

一、SPC控制图基础：不只是一条线

1.1 常用控制图类型

在半导体制造中，最常用的控制图有以下几种：

Xbar-R图 / Xbar-S图：监控连续数据的均值和变异（如膜厚、CD值）。R图用于小样本（n<10），S图用于大样本
X-mR图（个值-移动极差图）：当每个子组只有一个观测值时使用，半导体中很常见（如每片晶圆一个量测值）
P图/NP图：监控不合格品率（如缺陷晶圆比例）
C图/U图：监控单位缺陷数（如每片晶圆的颗粒数）
EWMA图/CUSUM图：对小幅漂移更敏感，适合监控需要高精度控制的关键参数

1.2 控制限 vs 规格限

这是新手最容易混淆的概念：

控制限（UCL/LCL）：基于过程数据统计计算得出（通常是均值 +/- 3 sigma），反映过程的自然变异范围
规格限（USL/LSL）：由产品设计或客户要求决定，是产品合格与否的判定标准

一个制程可以是”在规格内”但”失控”的——比如均值持续向一个方向漂移，虽然还没超出规格限，但控制图已经报警。SPC的价值恰恰在于：在问题变成不良品之前就发出预警。

二、Western Electric规则：OOC不只是”超线”

很多工程师认为OOC就是数据点超出控制限（UCL/LCL），其实这只是8条判定规则中的一条。完整的Western Electric规则如下：

规则1：1个点超出3 sigma控制限——最明显的异常信号
规则2：连续9个点在中心线同一侧——均值已经发生偏移
规则3：连续6个点持续递增或递减——存在趋势性漂移
规则4：连续14个点交替上下波动——可能存在两个交替的系统误差源
规则5：3个点中有2个在2 sigma之外（同一侧）——变异增大的早期信号
规则6：5个点中有4个在1 sigma之外（同一侧）——均值偏移的早期信号
规则7：连续15个点在1 sigma之内——看似”太好”，实际可能是量测系统分辨率不足或数据造假
规则8：连续8个点在1 sigma之外（两侧）——变异过大，可能存在混合分布

实操建议：不需要同时启用全部8条规则。对于关键参数（如CD、膜厚、掺杂浓度），建议至少启用规则1、2、3、5。对于一般参数，启用规则1和2即可。规则启用太多会导致误报率上升，反而削弱工程师对报警的信任度。

三、OOC来了：标准化分析流程

收到OOC报警后，很多工程师的第一反应是”是不是误报”然后关掉。正确的做法是按照系统化的流程来排查：

Step 1：确认报警有效性（5分钟内完成）

检查量测数据是否有效：量测设备是否在标定周期内？是否有量测异常标记？
检查是否为已知变更：是否刚做完PM？是否切换了新Recipe？是否更换了耗材？
如果是已知变更导致的OOC，走变更管理流程（更新控制限或重新计算基线）

Step 2：判断异常模式（15分钟内完成）

根据触发的规则类型和控制图的形态，判断异常属于哪种模式：

突变（Shift）：某个时间点后，数据整体上移或下移。常见原因：设备部件更换、耗材批次变化、环境温湿度变化
漂移（Drift/Trend）：数据逐渐向一个方向变化。常见原因：耗材损耗（如靶材消耗）、腔体沉积物累积、加热器老化
周期性波动（Cycle）：数据呈周期性变化。常见原因：环境温度日夜变化、供气系统压力波动、冷却水温度周期
变异增大（Increased Variation）：数据散布变大但均值不变。常见原因：夹具松动、温控精度下降、气体流量控制器漂移
混合模式（Mixture）：数据呈双峰分布。常见原因：不同Chamber/不同Slot的系统性差异

Step 3：追溯根因（1-4小时）

时间线分析：以OOC发生的时间点为基准，前推排查最近的变更事件（PM、Recipe变更、耗材更换、设施异常）
横向对比：同一设备的其他参数是否也异常？同类设备（如同一制程的另一台机器）是否正常？
FDC数据钻取：调取异常时间段的设备Trace Data，查看具体哪个制程参数发生了变化
5-Why分析：对初步原因持续追问”为什么”，直到找到可以采取行动的根因

Step 4：纠正措施与效果验证

实施纠正措施后，持续监控至少20-30个数据点，确认过程恢复稳定
如果措施无效，升级处理：召集跨部门会议，启动8D分析
记录完整的分析过程和结论，积累知识库（这一步很多团队会省略，但长远价值巨大）

四、常见陷阱：这些错误做法你可能正在犯

频繁调整控制限：每次OOC后就重新计算控制限来”消除报警”，这是自欺欺人。控制限应在过程稳定时计算，只有在确认过程有合理变更后才更新
过度反应：对每个OOC都做设备调整。如果是普通变异（common cause），过度调整反而会增加变异（即”过调”或tampering）
忽略非OOC的趋势：控制图上的早期模式（如规则3的连续趋势）如果被忽视，等到触发规则1时可能已经造成不良
SPC和FDC各自为政：SPC只看量测结果，FDC只看设备参数，二者不关联分析。最佳实践是OOC报警后立即自动拉取对应时间段的FDC数据

五、让SPC真正发挥预警价值

上面讲的分析流程在实际操作中有一个核心矛盾：产线上OOC报警量大，工程师精力有限。一条成熟产线可能每天产生几十上百个OOC报警，工程师根本无法逐一做深入分析。结果就是大量报警被简单处理或忽略，SPC变成了”看了也白看”的形式主义工具。

这正是NeuroBox E3200在SPC场景上的价值。E3200不是简单地替代传统SPC软件画控制图，而是在SPC之上叠加了AI异常模式识别能力：

自动分类异常模式：OOC报警后，E3200自动识别当前异常属于突变、漂移、周期还是混合模式，并关联历史上同类模式的根因记录，直接推荐排查方向
跨参数关联分析：自动将SPC报警与FDC设备数据关联，定位是哪个制程参数异常导致了量测偏移
报警优先级排序：基于异常严重度和产品风险等级，对报警智能排序，帮助工程师把精力集中在真正重要的问题上
实时推理，50ms响应：部署在产线边缘侧，不依赖外部网络，数据不出厂

把SPC从”报警工具”升级为”诊断工具”，让工程师从疲于应付报警的状态中解放出来，专注于真正的工程改善。

了解更多：https://ai-mst.com

预约演示：访问官网填写表单，或直接联系我们的技术团队，获取SPC+AI异常诊断的现场演示。