2026年04月01日

虚拟量测（VM）：让晶圆厂从4%抽检到100%全检的AI方案

Q: 周一早上的噩梦：192片晶圆去哪了？

周一早上8点，你打开SPC系统，发现周五晚上跑的Lot终于出了抽检结果。

核心结论

虚拟量测（VM）能让晶圆厂量测覆盖率从4%提升到100%，利用设备OES、RF功率等50-200个传感器通道，在工艺结束后50ms内预测每片晶圆的关键尺寸，R²>0.95，MAPE<3%。迈烁集芯NeuroBox E3200通过SECS/GEM直连设备边缘部署，10-15片数据即可完成迁移学习建模，异常发现时间从小时级缩短至秒级，数据不出厂。

周一早上的噩梦：192片晶圆去哪了？

周一早上8点，你打开SPC系统，发现周五晚上跑的Lot终于出了抽检结果。

200片晶圆，按4%抽样量了8片。其中3片CD偏了3nm，超出规格上限。

问题来了：剩下的192片，有多少已经超标了？

你不知道。没有人知道。因为它们根本没被量测过。

这不是假设场景。在全球绝大多数晶圆厂里，这是每天都在发生的事。量测设备是Fab最大的产能瓶颈——一台OCD量测机台售价$200-500万美元，每个工艺模块需要3-5台，交期6-12个月。即便如此，当前主流的抽样率仍然只有每25片量1片，覆盖率仅4%。

换句话说，96%的晶圆在”裸奔”。问题发生在这些未量测的晶圆上时，最快也要2-4小时后才能通过下一次抽样间接发现。在先进制程下，2小时意味着又跑了几十片，损失可能已经扩大到整个Lot。

传统方案为什么解决不了这个问题？

方案一：SPC抽样监控

SPC是每个Fab的基本功。X-bar chart、R chart、WECO规则——这些能帮你抓到趋势性漂移。但SPC的致命缺陷是：它基于抽样。一片一片地看均值和极差，能发现”整体在偏”，但抓不到个片级的突发异常。一片晶圆因为颗粒缺陷导致局部CD异常，如果它恰好没被抽到，SPC就是瞎的。

方案二：提高抽样比例

把抽样率从4%提到25%甚至50%？可以。但量测设备的吞吐量是固定的。一台OCD每小时量15-20片，你把抽样率提5倍，要么多买4台量测机（$800-2000万美元），要么让晶圆在量测站排队等——产能直接掉30%。对于一个月产能5万片的12英寸厂，30%的产能损失意味着每月少出1.5万片，按ASP $3000/片算，月损失$4500万。

方案三：买更多量测设备

这是最”直接”的方案，也是最贵的。每台$200-500万，交期6-12个月。更现实的问题是：洁净室面积是有限的。每多一台量测设备，就少一台工艺设备的空间。你买量测设备是为了保良率，但因此减少的产能可能比良率损失还大。

核心矛盾

传统思路下，质量和产能是一个不可能三角：覆盖率、成本、产能——你最多只能优化两个。这个矛盾在28nm以下制程尤为突出，因为工艺窗口越来越窄，对量测覆盖的要求越来越高，但量测设备的能力并没有同比例提升。

虚拟量测：用AI实现100%全检

基本原理

虚拟量测（Virtual Metrology, VM）的核心思路非常直接：不用量测设备，用设备本身的传感器数据来预测晶圆质量。

每台工艺设备在运行时，都会产生大量过程数据（Trace Data）。以刻蚀机为例：

OES（光学发射光谱）：数百个波长通道，每100ms采样一次
RF功率：正向功率、反射功率，实时波形
腔体压力：多点压力传感器
气体流量：多路MFC实时读数
温度：卡盘温度、腔壁温度、冷却水温度
ESC电压/电流：静电吸盘状态

一次典型的刻蚀工艺，涉及50-200个传感器通道，每个通道几百到几千个数据点。这些数据蕴含了丰富的工艺状态信息——如果RF反射功率异常升高，很可能意味着等离子体不稳定，进而导致CD偏移。

VM模型就是学习这种映射关系：传感器数据 → 晶圆质量（CD、膜厚、刻蚀深度等）。

工作流程

VM的工作流程极其简洁：

工艺结束 → 设备通过SECS/GEM发出工艺结束事件
数据采集 → 系统自动抓取本次Run的全部Trace Data
特征提取 → 对原始波形做统计特征（均值、标准差、斜率、峰值等）
模型预测 → VM引擎在50ms内输出预测的量测值
判定与响应 → 如果预测值超标，立即触发Hold Lot、报警或R2R补偿

整个过程从工艺结束到预测完成，不超过1秒。而传统实际量测需要等排队+量测+数据回传，通常是2-4小时。

模型演进

VM模型经历了三代演进：

代际	方法	典型R²	局限
第一代	PLS/线性回归	0.80-0.88	无法建模非线性关系
第二代	随机森林/XGBoost	0.90-0.95	需要大量标注数据
第三代	物理信息深度学习（PINN）	0.95-0.99	部署复杂度较高

当前工业界的主流是第二代到第三代的过渡期。关键性能指标：

R² > 0.95：预测值和实际量测值的相关性
MAPE < 3%：平均绝对百分比误差
延迟 < 50ms：从数据输入到预测输出

达到这三个指标，VM的预测就足以替代实际量测做过程控制决策。

效果对比

指标	传统抽检	虚拟量测
量测覆盖率	4%	100%
异常发现时间	2-4小时	<1秒
额外设备投资	$200-500万/台	$0（纯软件）
产能影响	提高抽样→产能降30%	零影响
工艺变更适应	重新做DOE	迁移学习，10-15片

NeuroBox E3200：从概念到落地的VM方案

VM的原理不难，难的是工程落地。传感器数据怎么实时采集？模型怎么持续更新？预测结果怎么闭环到设备控制？数据安全怎么保证？

迈烁集芯的NeuroBox E3200就是为解决这些问题而设计的。

边缘部署，SECS/GEM直连

E3200是一台边缘计算设备，物理部署在设备旁边，通过SECS/GEM协议直接连接工艺设备。不需要改设备软件，不需要经过MES中转，不需要IT部门开防火墙。插上网线，配好通信参数，10分钟内完成设备对接。

自动Trace Data采集

每次Run开始，E3200自动监听设备事件，实时采集所有传感器通道的Trace Data。数据直接存储在边缘节点本地——数据不出厂。这对于对数据安全极度敏感的半导体客户来说，是一个硬性需求。

VM引擎：50ms预测

工艺结束后，E3200的VM引擎自动完成特征提取和模型推理。从数据输入到输出预测值，延迟<50ms。预测结果可以直接推送给R2R模块，形成”量测→预测→补偿”的秒级闭环。

传统流程是：跑完工艺 → 排队等量测 → 量测完出数据 → 人工判断 → 手动调参 → 下一批才生效。整个周期4-8小时。E3200把这个周期压缩到秒级。

迁移学习：10-15片建模

换Recipe是Fab的日常。传统VM需要每个Recipe从头建模，收集几百片数据，周期1-2个月。E3200的迁移学习引擎可以基于已有Recipe的模型知识，只需10-15片新Recipe的数据就能完成模型适配，精度达到R² > 0.93。这意味着新产品导入时，VM模型可以在1-2天内就绑定上去，而不是等到量产稳定后再做。

落地成果

量测覆盖：4% → 100%
异常发现延迟：小时级 → 秒级
模型部署周期：从2个月缩短到2天
数据安全：全部边缘计算，数据不出厂

VM不是终点，而是起点

很多人把VM当作一个独立的功能模块来看。但在实际生产中，VM的真正价值在于它是整个AI闭环控制系统的基础设施。

没有VM，R2R就是半盲的——它只能基于4%的抽样数据来计算补偿量，每次调整都要等几个小时才能验证效果。有了VM，R2R变成了实时的：每片晶圆都有预测量测值，每次调整都能在下一片就看到反馈。

没有VM，FDC（故障检测与分类）只能做设备级的异常检测。有了VM，FDC可以做到晶圆级的质量预判——不是”这台设备可能出了问题”，而是”这片晶圆的CD预计偏了2.1nm，建议Hold”。

这也是为什么我们建议客户从VM起步。它不改工艺，不影响产能，部署风险最低，但它打通了从设备数据到质量预测的关键通路，为后续的R2R、FDC、调度优化铺好了数据基础。

下一步

如果你想了解自己产线的量测覆盖现状，可以先用我们的免费Cpk在线计算器跑一下数据，看看当前抽样率下你的过程能力指数是多少。

如果你已经意识到4%的覆盖率不够用了，想看看VM在你的工艺上能做到什么精度——预约一次VM演示，我们可以用你的脱敏数据做一次离线验证，给你一个真实的R²和MAPE基线。

不需要签合同，不需要装设备。30分钟的线上演示，你就能判断VM对你的产线有没有价值。

集芯

迈烁集芯技术团队

由迈烁集芯（上海）科技有限公司工程团队撰写。团队成员包括半导体制程工程师、AI/ML研究员和设备自动化专家，在中国、新加坡、台湾及美国的晶圆厂拥有超过50年的累计行业经验。

开始体验

NeuroBox E3200

实时AI过程控制，亚50ms延迟，VM/R2R/FDC全覆盖。

了解产线智能方案联系我们延迟<50ms