2026年03月08日 1

FDC报警了怎么办？从人工排查到AI自动诊断的完整指南

上面的方法在实践中确实有效，但有一个根本性的瓶颈：人的速度跟不上数据的速度。

FDC报警后的完整排查流程：从阈值越限、趋势漂移到波形异常的分类诊断方法论，以及如何用AI实现50ms级自动故障检测与根因推荐。

凌晨三点，手机弹出一条FDC报警——某台CVD设备的腔体压力超出控制上限。值班工程师赶到现场，翻看Trace Data、调参数、换部件，折腾两小时才恢复生产。如果你做过设备或工艺，这个场景一定不陌生。

FDC（Fault Detection and Classification，故障检测与分类）是晶圆厂保障良率的核心手段，但大多数团队的FDC系统还停留在”报警靠阈值，分析靠人”的阶段。本文将系统梳理FDC报警后的完整排查流程，帮你建立一套可复用的诊断方法论。

拿到一条报警，第一步不是急着去看设备，而是判断报警类型。FDC报警大致可以分为以下四类：

阈值越限（Limit Violation）：某个参数瞬间超出了上下限。比如RF功率设定500W，实际跳到了520W。这是最常见、也最容易误报的类型。
趋势漂移（Trend Drift）：参数没有越限，但在缓慢偏移。比如腔体温度每天升高0.2°C，一周后就超标了。这类报警最危险，因为往往在你注意到之前就已经影响了良率。
波形异常（Trace Anomaly）：参数的时间曲线形状发生了变化。比如刻蚀过程中，终点检测信号的峰值位置偏移了。这类报警需要对Trace Data做pattern matching才能捕捉。
关联异常（Correlation Anomaly）：单个参数看起来正常，但参数之间的关系变了。比如流量和压力的比值突然变化，说明管路可能有堵塞。

实际工作中，很多FDC系统只覆盖了第一类（阈值越限），这就是为什么经常出现”报警时良率已经掉了”的情况。

确认报警类型后，下一步是分析参数漂移。这里给一套实操步骤：

拉取时间窗口数据：

不要只看报警那一瞬间的数据。至少往前拉72小时（3天）的Trace Data，观察参数的变化趋势。如果你用的是EAP系统，直接导出CSV做分析即可。
做统计过程控制（SPC）分析：

对关键参数做X-bar/R chart或EWMA chart。重点关注以下几个信号：
- 连续7个点在中心线同侧（Western Electric Rule 2）
- 连续6个点递增或递减（Rule 3）
- 连续14个点交替上下波动（Rule 4）
这些信号往往比单纯的越限更早提示问题。
多参数关联分析：

把温度、压力、流量、功率等参数的Trace Data叠在一起看。很多时候，单个参数的漂移是另一个参数变化的结果。比如Chamber压力升高，可能是排气阀门老化导致的——这时候你应该去看阀门开度的Trace而不是反复调压力。
对比Golden Run：

把当前Trace和标准工艺的Golden Run叠加对比。重点看：波形的起始时间是否一致、峰值大小是否一致、稳定段的噪声是否增大。任何肉眼可见的差异都值得深挖。

分析完数据，接下来就是定位根因。这里推荐用”5-Why + 鱼骨图”的组合方法：

第一步：列出所有可能原因

用鱼骨图从6个维度展开：

第二步：用排除法缩小范围

几个实用的排除技巧：

第三步：验证假设

找到最可能的原因后，用短循环实验验证。比如怀疑是MFC漂移，可以做一组流量校准测试；怀疑是RF匹配问题，可以跑一组空腔的等离子体点燃测试。验证时记得控制变量，一次只改一个因素。

上面讲的是单次排查方法，但一个成熟的团队还需要把这套方法固化成流程：

上面的方法在实践中确实有效，但有一个根本性的瓶颈：人的速度跟不上数据的速度。

一台设备每秒产生几百个参数点，一条产线几十台设备同时运行。靠人去看Trace、做SPC、做关联分析，分析一个报警就要几十分钟甚至几小时。而在这段时间里，可能已经跑了几十片有问题的wafer。

这正是我们开发NeuroBox E3200的出发点。它是一台部署在设备侧的边缘AI计算盒，直接采集设备的实时数据流，用训练好的AI模型做在线推理：

如果你正在为FDC报警处理效率发愁，或者想把团队的诊断经验沉淀成AI模型，欢迎了解NeuroBox E3200的详细方案。

了解更多：https://ai-mst.com

预约产品演示，请访问官网联系我们，或直接拨打400电话与技术团队沟通。