2026年04月01日

虚拟量测(VM):让晶圆厂从4%抽检到100%全检的AI方案

核心结论

虚拟量测(VM)能让晶圆厂量测覆盖率从4%提升到100%,利用设备OES、RF功率等50-200个传感器通道,在工艺结束后50ms内预测每片晶圆的关键尺寸,R²>0.95,MAPE<3%。迈烁集芯NeuroBox E3200通过SECS/GEM直连设备边缘部署,10-15片数据即可完成迁移学习建模,异常发现时间从小时级缩短至秒级,数据不出厂。

周一早上的噩梦:192片晶圆去哪了?

周一早上8点,你打开SPC系统,发现周五晚上跑的Lot终于出了抽检结果。

200片晶圆,按4%抽样量了8片。其中3片CD偏了3nm,超出规格上限。

问题来了:剩下的192片,有多少已经超标了?

你不知道。没有人知道。因为它们根本没被量测过。

这不是假设场景。在全球绝大多数晶圆厂里,这是每天都在发生的事。量测设备是Fab最大的产能瓶颈——一台OCD量测机台售价$200-500万美元,每个工艺模块需要3-5台,交期6-12个月。即便如此,当前主流的抽样率仍然只有每25片量1片,覆盖率仅4%

换句话说,96%的晶圆在”裸奔”。问题发生在这些未量测的晶圆上时,最快也要2-4小时后才能通过下一次抽样间接发现。在先进制程下,2小时意味着又跑了几十片,损失可能已经扩大到整个Lot。

传统方案为什么解决不了这个问题?

方案一:SPC抽样监控

SPC是每个Fab的基本功。X-bar chart、R chart、WECO规则——这些能帮你抓到趋势性漂移。但SPC的致命缺陷是:它基于抽样。一片一片地看均值和极差,能发现”整体在偏”,但抓不到个片级的突发异常。一片晶圆因为颗粒缺陷导致局部CD异常,如果它恰好没被抽到,SPC就是瞎的。

方案二:提高抽样比例

把抽样率从4%提到25%甚至50%?可以。但量测设备的吞吐量是固定的。一台OCD每小时量15-20片,你把抽样率提5倍,要么多买4台量测机($800-2000万美元),要么让晶圆在量测站排队等——产能直接掉30%。对于一个月产能5万片的12英寸厂,30%的产能损失意味着每月少出1.5万片,按ASP $3000/片算,月损失$4500万

方案三:买更多量测设备

这是最”直接”的方案,也是最贵的。每台$200-500万,交期6-12个月。更现实的问题是:洁净室面积是有限的。每多一台量测设备,就少一台工艺设备的空间。你买量测设备是为了保良率,但因此减少的产能可能比良率损失还大。

核心矛盾

传统思路下,质量和产能是一个不可能三角:覆盖率、成本、产能——你最多只能优化两个。这个矛盾在28nm以下制程尤为突出,因为工艺窗口越来越窄,对量测覆盖的要求越来越高,但量测设备的能力并没有同比例提升。

虚拟量测:用AI实现100%全检

基本原理

虚拟量测(Virtual Metrology, VM)的核心思路非常直接:不用量测设备,用设备本身的传感器数据来预测晶圆质量

每台工艺设备在运行时,都会产生大量过程数据(Trace Data)。以刻蚀机为例:

  • OES(光学发射光谱):数百个波长通道,每100ms采样一次
  • RF功率:正向功率、反射功率,实时波形
  • 腔体压力:多点压力传感器
  • 气体流量:多路MFC实时读数
  • 温度:卡盘温度、腔壁温度、冷却水温度
  • ESC电压/电流:静电吸盘状态

一次典型的刻蚀工艺,涉及50-200个传感器通道,每个通道几百到几千个数据点。这些数据蕴含了丰富的工艺状态信息——如果RF反射功率异常升高,很可能意味着等离子体不稳定,进而导致CD偏移。

VM模型就是学习这种映射关系:传感器数据 → 晶圆质量(CD、膜厚、刻蚀深度等)

工作流程

VM的工作流程极其简洁:

  1. 工艺结束 → 设备通过SECS/GEM发出工艺结束事件
  2. 数据采集 → 系统自动抓取本次Run的全部Trace Data
  3. 特征提取 → 对原始波形做统计特征(均值、标准差、斜率、峰值等)
  4. 模型预测 → VM引擎在50ms内输出预测的量测值
  5. 判定与响应 → 如果预测值超标,立即触发Hold Lot、报警或R2R补偿

整个过程从工艺结束到预测完成,不超过1秒。而传统实际量测需要等排队+量测+数据回传,通常是2-4小时

模型演进

VM模型经历了三代演进:

代际 方法 典型R² 局限
第一代 PLS/线性回归 0.80-0.88 无法建模非线性关系
第二代 随机森林/XGBoost 0.90-0.95 需要大量标注数据
第三代 物理信息深度学习(PINN) 0.95-0.99 部署复杂度较高

当前工业界的主流是第二代到第三代的过渡期。关键性能指标:

  • R² > 0.95:预测值和实际量测值的相关性
  • MAPE < 3%:平均绝对百分比误差
  • 延迟 < 50ms:从数据输入到预测输出

达到这三个指标,VM的预测就足以替代实际量测做过程控制决策。

效果对比

指标 传统抽检 虚拟量测
量测覆盖率 4% 100%
异常发现时间 2-4小时 <1秒
额外设备投资 $200-500万/台 $0(纯软件)
产能影响 提高抽样→产能降30% 零影响
工艺变更适应 重新做DOE 迁移学习,10-15片

NeuroBox E3200:从概念到落地的VM方案

VM的原理不难,难的是工程落地。传感器数据怎么实时采集?模型怎么持续更新?预测结果怎么闭环到设备控制?数据安全怎么保证?

迈烁集芯的NeuroBox E3200就是为解决这些问题而设计的。

边缘部署,SECS/GEM直连

E3200是一台边缘计算设备,物理部署在设备旁边,通过SECS/GEM协议直接连接工艺设备。不需要改设备软件,不需要经过MES中转,不需要IT部门开防火墙。插上网线,配好通信参数,10分钟内完成设备对接。

自动Trace Data采集

每次Run开始,E3200自动监听设备事件,实时采集所有传感器通道的Trace Data。数据直接存储在边缘节点本地——数据不出厂。这对于对数据安全极度敏感的半导体客户来说,是一个硬性需求。

VM引擎:50ms预测

工艺结束后,E3200的VM引擎自动完成特征提取和模型推理。从数据输入到输出预测值,延迟<50ms。预测结果可以直接推送给R2R模块,形成”量测→预测→补偿”的秒级闭环

传统流程是:跑完工艺 → 排队等量测 → 量测完出数据 → 人工判断 → 手动调参 → 下一批才生效。整个周期4-8小时。E3200把这个周期压缩到秒级

迁移学习:10-15片建模

换Recipe是Fab的日常。传统VM需要每个Recipe从头建模,收集几百片数据,周期1-2个月。E3200的迁移学习引擎可以基于已有Recipe的模型知识,只需10-15片新Recipe的数据就能完成模型适配,精度达到R² > 0.93。这意味着新产品导入时,VM模型可以在1-2天内就绑定上去,而不是等到量产稳定后再做。

落地成果

  • 量测覆盖:4% → 100%
  • 异常发现延迟:小时级 → 秒级
  • 模型部署周期:从2个月缩短到2天
  • 数据安全:全部边缘计算,数据不出厂

VM不是终点,而是起点

很多人把VM当作一个独立的功能模块来看。但在实际生产中,VM的真正价值在于它是整个AI闭环控制系统的基础设施

没有VM,R2R就是半盲的——它只能基于4%的抽样数据来计算补偿量,每次调整都要等几个小时才能验证效果。有了VM,R2R变成了实时的:每片晶圆都有预测量测值,每次调整都能在下一片就看到反馈。

没有VM,FDC(故障检测与分类)只能做设备级的异常检测。有了VM,FDC可以做到晶圆级的质量预判——不是”这台设备可能出了问题”,而是”这片晶圆的CD预计偏了2.1nm,建议Hold”。

这也是为什么我们建议客户从VM起步。它不改工艺,不影响产能,部署风险最低,但它打通了从设备数据到质量预测的关键通路,为后续的R2R、FDC、调度优化铺好了数据基础。

下一步

如果你想了解自己产线的量测覆盖现状,可以先用我们的免费Cpk在线计算器跑一下数据,看看当前抽样率下你的过程能力指数是多少。

如果你已经意识到4%的覆盖率不够用了,想看看VM在你的工艺上能做到什么精度——预约一次VM演示,我们可以用你的脱敏数据做一次离线验证,给你一个真实的R²和MAPE基线。

不需要签合同,不需要装设备。30分钟的线上演示,你就能判断VM对你的产线有没有价值。

集芯
迈烁集芯技术团队
由迈烁集芯(上海)科技有限公司工程团队撰写。团队成员包括半导体制程工程师、AI/ML研究员和设备自动化专家,在中国、新加坡、台湾及美国的晶圆厂拥有超过50年的累计行业经验。
开始体验
NeuroBox E3200

实时AI过程控制,亚50ms延迟,VM/R2R/FDC全覆盖。

💬 在线客服 📅 预约演示 📞 021-58717229 contact@ai-mst.com
📱 微信扫码
企业微信客服

扫码添加客服