虚拟量测(VM):让晶圆厂从4%抽检到100%全检的AI方案
核心结论
虚拟量测(VM)能让晶圆厂量测覆盖率从4%提升到100%,利用设备OES、RF功率等50-200个传感器通道,在工艺结束后50ms内预测每片晶圆的关键尺寸,R²>0.95,MAPE<3%。迈烁集芯NeuroBox E3200通过SECS/GEM直连设备边缘部署,10-15片数据即可完成迁移学习建模,异常发现时间从小时级缩短至秒级,数据不出厂。
周一早上的噩梦:192片晶圆去哪了?
周一早上8点,你打开SPC系统,发现周五晚上跑的Lot终于出了抽检结果。
200片晶圆,按4%抽样量了8片。其中3片CD偏了3nm,超出规格上限。
问题来了:剩下的192片,有多少已经超标了?
你不知道。没有人知道。因为它们根本没被量测过。
这不是假设场景。在全球绝大多数晶圆厂里,这是每天都在发生的事。量测设备是Fab最大的产能瓶颈——一台OCD量测机台售价$200-500万美元,每个工艺模块需要3-5台,交期6-12个月。即便如此,当前主流的抽样率仍然只有每25片量1片,覆盖率仅4%。
换句话说,96%的晶圆在”裸奔”。问题发生在这些未量测的晶圆上时,最快也要2-4小时后才能通过下一次抽样间接发现。在先进制程下,2小时意味着又跑了几十片,损失可能已经扩大到整个Lot。
传统方案为什么解决不了这个问题?
方案一:SPC抽样监控
SPC是每个Fab的基本功。X-bar chart、R chart、WECO规则——这些能帮你抓到趋势性漂移。但SPC的致命缺陷是:它基于抽样。一片一片地看均值和极差,能发现”整体在偏”,但抓不到个片级的突发异常。一片晶圆因为颗粒缺陷导致局部CD异常,如果它恰好没被抽到,SPC就是瞎的。
方案二:提高抽样比例
把抽样率从4%提到25%甚至50%?可以。但量测设备的吞吐量是固定的。一台OCD每小时量15-20片,你把抽样率提5倍,要么多买4台量测机($800-2000万美元),要么让晶圆在量测站排队等——产能直接掉30%。对于一个月产能5万片的12英寸厂,30%的产能损失意味着每月少出1.5万片,按ASP $3000/片算,月损失$4500万。
方案三:买更多量测设备
这是最”直接”的方案,也是最贵的。每台$200-500万,交期6-12个月。更现实的问题是:洁净室面积是有限的。每多一台量测设备,就少一台工艺设备的空间。你买量测设备是为了保良率,但因此减少的产能可能比良率损失还大。
核心矛盾
传统思路下,质量和产能是一个不可能三角:覆盖率、成本、产能——你最多只能优化两个。这个矛盾在28nm以下制程尤为突出,因为工艺窗口越来越窄,对量测覆盖的要求越来越高,但量测设备的能力并没有同比例提升。
虚拟量测:用AI实现100%全检
基本原理
虚拟量测(Virtual Metrology, VM)的核心思路非常直接:不用量测设备,用设备本身的传感器数据来预测晶圆质量。
每台工艺设备在运行时,都会产生大量过程数据(Trace Data)。以刻蚀机为例:
- OES(光学发射光谱):数百个波长通道,每100ms采样一次
- RF功率:正向功率、反射功率,实时波形
- 腔体压力:多点压力传感器
- 气体流量:多路MFC实时读数
- 温度:卡盘温度、腔壁温度、冷却水温度
- ESC电压/电流:静电吸盘状态
一次典型的刻蚀工艺,涉及50-200个传感器通道,每个通道几百到几千个数据点。这些数据蕴含了丰富的工艺状态信息——如果RF反射功率异常升高,很可能意味着等离子体不稳定,进而导致CD偏移。
VM模型就是学习这种映射关系:传感器数据 → 晶圆质量(CD、膜厚、刻蚀深度等)。
工作流程
VM的工作流程极其简洁:
- 工艺结束 → 设备通过SECS/GEM发出工艺结束事件
- 数据采集 → 系统自动抓取本次Run的全部Trace Data
- 特征提取 → 对原始波形做统计特征(均值、标准差、斜率、峰值等)
- 模型预测 → VM引擎在50ms内输出预测的量测值
- 判定与响应 → 如果预测值超标,立即触发Hold Lot、报警或R2R补偿
整个过程从工艺结束到预测完成,不超过1秒。而传统实际量测需要等排队+量测+数据回传,通常是2-4小时。
模型演进
VM模型经历了三代演进:
| 代际 | 方法 | 典型R² | 局限 |
|---|---|---|---|
| 第一代 | PLS/线性回归 | 0.80-0.88 | 无法建模非线性关系 |
| 第二代 | 随机森林/XGBoost | 0.90-0.95 | 需要大量标注数据 |
| 第三代 | 物理信息深度学习(PINN) | 0.95-0.99 | 部署复杂度较高 |
当前工业界的主流是第二代到第三代的过渡期。关键性能指标:
- R² > 0.95:预测值和实际量测值的相关性
- MAPE < 3%:平均绝对百分比误差
- 延迟 < 50ms:从数据输入到预测输出
达到这三个指标,VM的预测就足以替代实际量测做过程控制决策。
效果对比
| 指标 | 传统抽检 | 虚拟量测 |
|---|---|---|
| 量测覆盖率 | 4% | 100% |
| 异常发现时间 | 2-4小时 | <1秒 |
| 额外设备投资 | $200-500万/台 | $0(纯软件) |
| 产能影响 | 提高抽样→产能降30% | 零影响 |
| 工艺变更适应 | 重新做DOE | 迁移学习,10-15片 |
NeuroBox E3200:从概念到落地的VM方案
VM的原理不难,难的是工程落地。传感器数据怎么实时采集?模型怎么持续更新?预测结果怎么闭环到设备控制?数据安全怎么保证?
迈烁集芯的NeuroBox E3200就是为解决这些问题而设计的。
边缘部署,SECS/GEM直连
E3200是一台边缘计算设备,物理部署在设备旁边,通过SECS/GEM协议直接连接工艺设备。不需要改设备软件,不需要经过MES中转,不需要IT部门开防火墙。插上网线,配好通信参数,10分钟内完成设备对接。
自动Trace Data采集
每次Run开始,E3200自动监听设备事件,实时采集所有传感器通道的Trace Data。数据直接存储在边缘节点本地——数据不出厂。这对于对数据安全极度敏感的半导体客户来说,是一个硬性需求。
VM引擎:50ms预测
工艺结束后,E3200的VM引擎自动完成特征提取和模型推理。从数据输入到输出预测值,延迟<50ms。预测结果可以直接推送给R2R模块,形成”量测→预测→补偿”的秒级闭环。
传统流程是:跑完工艺 → 排队等量测 → 量测完出数据 → 人工判断 → 手动调参 → 下一批才生效。整个周期4-8小时。E3200把这个周期压缩到秒级。
迁移学习:10-15片建模
换Recipe是Fab的日常。传统VM需要每个Recipe从头建模,收集几百片数据,周期1-2个月。E3200的迁移学习引擎可以基于已有Recipe的模型知识,只需10-15片新Recipe的数据就能完成模型适配,精度达到R² > 0.93。这意味着新产品导入时,VM模型可以在1-2天内就绑定上去,而不是等到量产稳定后再做。
落地成果
- 量测覆盖:4% → 100%
- 异常发现延迟:小时级 → 秒级
- 模型部署周期:从2个月缩短到2天
- 数据安全:全部边缘计算,数据不出厂
VM不是终点,而是起点
很多人把VM当作一个独立的功能模块来看。但在实际生产中,VM的真正价值在于它是整个AI闭环控制系统的基础设施。
没有VM,R2R就是半盲的——它只能基于4%的抽样数据来计算补偿量,每次调整都要等几个小时才能验证效果。有了VM,R2R变成了实时的:每片晶圆都有预测量测值,每次调整都能在下一片就看到反馈。
没有VM,FDC(故障检测与分类)只能做设备级的异常检测。有了VM,FDC可以做到晶圆级的质量预判——不是”这台设备可能出了问题”,而是”这片晶圆的CD预计偏了2.1nm,建议Hold”。
这也是为什么我们建议客户从VM起步。它不改工艺,不影响产能,部署风险最低,但它打通了从设备数据到质量预测的关键通路,为后续的R2R、FDC、调度优化铺好了数据基础。
下一步
如果你想了解自己产线的量测覆盖现状,可以先用我们的免费Cpk在线计算器跑一下数据,看看当前抽样率下你的过程能力指数是多少。
如果你已经意识到4%的覆盖率不够用了,想看看VM在你的工艺上能做到什么精度——预约一次VM演示,我们可以用你的脱敏数据做一次离线验证,给你一个真实的R²和MAPE基线。
不需要签合同,不需要装设备。30分钟的线上演示,你就能判断VM对你的产线有没有价值。