虚拟量测VM实操:从数据采集到模型上线全流程
虚拟量测VM从数据采集到模型上线的完整流程:数据对齐、Trace Data特征工程、PLS/XGBoost/LSTM模型选择、在线部署与模型监控实操要点。
核心结论
虚拟量测(VM)通过建立制程参数与量测结果的数学模型,实现每片晶圆实时质量预测,解决物理量测设备昂贵、耗时长、抹检率低的瘷痛。完整的VM系统包含数据层(FDC采集+MES标签)、模型层(特征工程+ML算法)、应用层(实时预测+R2R/SPC对接)三层架构。数据对齐是最容易被低估的环节,建议优先使用Trace Data而非Summary Data以捕捉更丰富的工艺信息。
在半导体制造中,量测是确保晶圆质量的关键环节。但物理量测设备昂贵、耗时长,且受限于抽检率,大量晶圆在制程完成后处于”盲区”。虚拟量测(Virtual Metrology, VM)通过建立制程参数与量测结果之间的数学模型,实现每片晶圆的实时质量预测。本文将完整拆解VM从数据准备到模型上线的全流程,帮你在产线中真正落地。
一、VM的核心原理:用制程数据”推算”量测结果
VM的基本逻辑并不复杂:制程设备在加工每片晶圆时会产生大量传感器数据(温度、压力、气体流量、RF功率等),这些过程变量与最终的量测结果(如薄膜厚度、CD尺寸、刻蚀深度)之间存在物理关联。VM就是用机器学习模型来捕捉这种关联。
一个典型的VM系统包含三个层次:
- 数据层:从设备FDC(Fault Detection and Classification)系统采集制程Trace Data,同时从MES/量测系统获取量测值作为标签
- 模型层:利用特征工程和机器学习算法,建立制程参数到量测结果的映射模型
- 应用层:将模型部署在产线上,对每片晶圆实时预测,输出VM值供R2R控制或SPC监控使用
二、第一步:数据采集与对齐——最容易被低估的环节
数据质量决定VM模型的上限。很多团队在模型算法上下了大功夫,结果败在数据对齐上。
2.1 制程数据采集
需要从设备端采集的数据通常包括:
- Summary Data:每片晶圆加工完成后的统计值(均值、标准差、最大最小值),通常20-50个参数
- Trace Data:制程过程中按时间序列记录的传感器数据,采样率通常为1-10Hz,一片晶圆可能产生数千个数据点
建议优先使用Trace Data。Summary Data虽然简单,但丢失了过程信息。比如一个CVD制程的温度均值相同,但温度曲线的overshooting差异可能直接影响膜厚均匀性。
2.2 数据对齐(Data Alignment)
这是VM项目中最常踩的坑。你需要确保:
- 晶圆级对齐:制程数据的Wafer ID必须与量测数据的Wafer ID严格匹配。注意不同系统间ID格式可能不同(如前导零问题)
- 时间对齐:如果使用Trace Data,需要对不同晶圆的时间序列做对齐。常用方法是DTW(Dynamic Time Warping)或基于Step的分段对齐
- 剔除异常批次:PM后的首批晶圆、设备故障期间的数据、量测设备标定期间的数据都应标记或剔除
2.3 实操建议
准备至少3-6个月的历史数据,覆盖不同Recipe、不同Lot、不同PM周期。数据量太少会导致模型泛化能力差。一般来说,有效样本量至少需要500-1000片晶圆。
三、第二步:特征工程——从原始数据到模型输入
特征工程是VM模型性能的核心差异化因素。
3.1 Trace Data特征提取
对于每个传感器的时间序列,常用的特征提取方法:
- 统计特征:均值、标准差、偏度、峰度、最大值、最小值、范围
- 分段特征:将Trace按制程Step分段(如升温段、恒温段、降温段),对每段分别提取统计特征
- 频域特征:对Trace做FFT,提取主频、能量分布等特征,适合捕捉周期性波动
- 时序特征:上升斜率、稳定时间、overshooting幅度等具有物理意义的特征
3.2 特征筛选
提取完特征后,通常会有数百甚至上千个特征。必须做降维:
- 方差过滤:去掉方差为零或极小的特征(常量特征无信息量)
- 相关性过滤:计算特征与目标量测值的Pearson/Spearman相关系数,保留相关性较高的
- 共线性处理:对高度相关的特征组(相关系数>0.95),只保留一个代表性特征
- 模型嵌入式选择:用Lasso回归或随机森林的Feature Importance做进一步筛选
最终输入模型的特征数量建议控制在20-80个,太少信息不足,太多容易过拟合。
四、第三步:模型选择与训练——没有银弹
4.1 常用模型对比
线性回归(PLS/Ridge):
- 优点:可解释性强、训练快、不易过拟合
- 缺点:无法捕捉非线性关系
- 适用:制程参数与量测值近似线性关系的场景,如CVD膜厚与沉积时间
集成学习(Random Forest/XGBoost):
- 优点:能处理非线性、对异常值鲁棒、特征重要性可解释
- 缺点:在高维稀疏数据上可能不如线性模型
- 适用:大多数VM场景的首选,尤其是多步制程组合预测
深度学习(LSTM/CNN):
- 优点:可以直接输入Trace Data,自动学习时序特征
- 缺点:需要更多数据、训练时间长、黑盒
- 适用:Trace Data信息丰富且样本量大(>5000)的场景
4.2 训练实操要点
- 数据划分:按时间顺序划分训练集和测试集(不要随机划分),因为制程存在漂移
- 评估指标:MAPE(平均绝对百分比误差)< 1-3%为优秀,< 5%为可用
- 交叉验证:建议用Time-Series Split而非K-Fold
- 模型更新策略:制定Retrain触发条件——PM后必须Retrain,漂移检测触发Retrain
五、第四步:在线部署——模型好只是起点
VM模型从离线验证到产线部署,还有几个关键问题需要解决:
5.1 推理延迟
产线对VM结果的延迟要求通常在秒级。如果用于R2R控制,延迟要求更严格(需要在下一片晶圆进腔前输出结果)。因此:
- 模型推理应部署在边缘侧(设备端或Fab内服务器),而非远端云服务器
- 复杂深度学习模型可能需要做模型压缩或蒸馏
5.2 模型监控
上线后必须持续监控模型健康度:
- 输入数据监控:检测输入特征是否超出训练数据的分布范围
- 预测置信度:为每个VM预测值提供置信区间,低置信度结果应触发告警
- 实际量测对比:定期将VM预测值与实际量测值对比,监控模型精度漂移
5.3 双轨运行
上线初期建议VM与实际量测并行运行2-4周,验证模型稳定性后再逐步减少物理量测频率。
六、实际落地中的痛点:集成复杂、迭代缓慢
上面讲的流程看似清晰,但在实际产线上落地时,工程师往往面对这些现实问题:数据对齐需要对接3-5个不同系统;特征工程需要反复试验;模型训练环境和产线部署环境不一致;PM后的模型更新需要人工干预。一套VM从PoC到上线,通常需要3-6个月。
NeuroBox E3200正是针对这些痛点设计的。它内置了完整的VM Pipeline——从SECS/GEM数据采集、自动特征提取、模型训练到边缘推理部署,全流程打通。工程师不需要自己搭建数据管道,只需在可视化界面上配置数据源和目标量测值,系统会自动完成特征工程和模型选择。更关键的是,E3200部署在设备端,推理延迟控制在50ms以内,完全满足R2R控制的实时性要求。PM后的模型自动Retrain、漂移检测告警等功能也都是开箱即用。
如果你的团队正在推进VM项目,或者已经有VM原型但苦于工程化落地,不妨了解一下NeuroBox E3200能帮你省多少时间。
了解更多:https://ai-mst.com
预约演示:访问官网填写表单,或直接联系我们的技术团队,获取针对您产线场景的定制化方案。