MES与EAP系统架构:半导体工厂的神经系统
做过半导体厂自动化的人都知道,一座fab能不能跑起来,靠的不是某一台设备有多先进,而是整套系统能不能把几百台设备、上千个lot、几万条recipe串在一起协调运转。我在这个行当干了这些年,见过不少fab从手动到半自动再到全自动的过程,也踩过不少MES和EAP集成的坑。今天就聊聊半导体工厂的”神经系统”——MES和EAP这两层到底在做什么,它们之间的关系是怎样的,以及AI应该插在哪个位置。
一、半导体工厂的系统层次:从ERP到设备控制器
先说大框架。半导体工厂的信息化系统大体分四层,从上到下分别是ERP、MES、EAP、设备控制器。很多人搞不清这几层的边界,尤其是MES和EAP这两层,经常被混为一谈。
ERP层是最上面的,管的是订单、物料、财务这些企业级的东西。说白了,ERP告诉工厂”这个月要出多少片wafer、用什么料、交给谁”,但它完全不关心某台AMAT的CVD腔体当前温度是多少。
MES层是制造执行系统,这是fab的核心中枢。它管的是”这片wafer现在该去哪台机台、跑什么recipe、做完了记到哪里”。你可以把MES理解成工厂的大脑——它做决策、发指令、记历史。
EAP层是设备自动化程序,在MES和设备之间当翻译官。MES说”把lot A派到CVD-03跑recipe XYZ”,EAP负责把这句话翻译成设备能听懂的SECS/GEM消息,发给设备控制器去执行。设备跑完了产生的数据,也是EAP采集上来,喂给MES和数据库。
设备控制器是最底层,就是设备自带的软件系统。每家设备厂商都有自己的控制软件,TEL的、Lam的、AMAT的,各不相同。EAP要做的就是屏蔽这些差异,给MES提供一个统一的接口。
这四层的关系,我喜欢用一个比方:ERP是老板,MES是车间主任,EAP是班组长,设备控制器是操作工。老板下任务,车间主任排计划,班组长盯执行,操作工干活。少了哪一层都转不起来。
二、MES核心功能:WIP、派工、Recipe和Lot History
MES要干的事情非常多,但最核心的无非四件:
第一是WIP tracking(在制品追踪)。一座300mm fab里同时跑着几千个lot,每个lot在哪个工站、什么状态、下一步去哪里,MES必须实时掌握。我之前参与的一个项目,fab里有1200多个lot在线,任何时候你在MES上查一个lot ID,几秒钟之内就能告诉你它在哪台机台上、当前step是什么、等了多久。这个能力看起来简单,但背后的数据模型和实时性要求是很高的。
第二是dispatching(派工调度)。哪个lot优先?哪台机台空闲?哪条route能最快完成?MES的dispatcher模块要综合考虑优先级、设备状态、工艺约束、cycle time目标等等因素来做决策。在实际的fab里,dispatch规则可以非常复杂,有时候是先到先服务,有时候是优先紧急lot,有时候还要考虑”这台机台刚做完A产品,切换到B产品要做qualification,能不能先接着派A产品”。这些逻辑全在MES的调度引擎里。
第三是recipe management(配方管理)。半导体制造的每一步工艺都由recipe定义——蚀刻多少纳米、沉积什么薄膜、温度压力气体流量各是多少。一个成熟fab里可能有上万条recipe。哪个产品的第几步该用哪条recipe,recipe的版本控制,recipe参数的golden copy管理,这些都是MES的职责。你绝对不想看到有人在设备上手动改了一个参数没记录,然后一批wafer全报废的情况——我见过。
第四是lot history(批次履历)。每个lot从进厂到出厂,经过了哪些设备、跑了哪些recipe、每一步的工艺参数是什么、量测结果怎么样,全部记在lot history里。这个东西在出了问题的时候非常关键。比如某批wafer的良率突然掉了5个百分点,你要追溯问题,就得靠lot history一步步去查:是哪个step出了问题?用的哪台机台?那台机台那天的PM是否正常?同一时间段跑的其他lot有没有类似问题?这种traceability是半导体制造质量管控的命脉。
三、EAP的角色:设备和MES之间的桥梁
说完MES,来说EAP。很多人对EAP的理解就是”跟设备通信的软件”,这没错但太简单了。EAP的全称是Equipment Automation Program,直译叫”设备自动化程序”,但它做的事情远不止通信。
你可以这么理解:MES是决策层,它决定”做什么”;EAP是执行层,它负责”怎么做”。MES下了一条指令说”在PVD-07上对lot B执行step 5″,EAP拿到这条指令后要做一连串的事情:先检查PVD-07当前状态是否正常、确认recipe是否已经下发到设备、验证lot B的前一步是否已经完成、把recipe参数跟golden copy核对一遍、然后才通过SECS/GEM协议把启动指令发给设备。设备跑的过程中,EAP还要实时采集工艺数据(温度、压力、功率、气体流量等),采完存到数据库里。跑完了,EAP再把完工信号报回MES。
一台设备对应一个EAP实例,一座fab有三五百台设备,就要跑三五百个EAP进程。这个规模是很可观的,所以EAP的稳定性和资源占用也是工程上的一个大问题。
四、EAP的关键能力
具体来说,EAP有几个核心能力:
SECS/GEM通信。这是EAP的基本功。SECS(SEMI Equipment Communications Standard)和GEM(Generic Equipment Model)是半导体设备通信的行业标准。几乎所有主流设备都支持SECS/GEM接口,EAP通过这个协议跟设备交换消息。说起来简单,但实际做过的人都知道,每家设备厂商对SECS/GEM的实现细节差异很大,同一个消息不同设备的解析方式可能完全不同。EAP工程师有大量的时间花在”对接设备”这件事上——说好听叫协议集成,说难听就是一台一台地调。
Recipe下发与校验。EAP负责把MES指定的recipe下发到设备上,同时要做参数校验。如果MES说”用recipe ABC”,EAP会把recipe ABC的参数跟数据库里的golden copy比对,如果有不一致就报警、拦截,不让设备开跑。这叫recipe body verification,是防止误操作的重要关卡。
数据采集。设备跑的时候会产生大量的过程数据——trace data。比如一个蚀刻step可能每100毫秒采一次RF功率、腔体压力、气体流量,一个step下来就是几十万个数据点。EAP要把这些数据实时收上来,存到时序数据库或者文件系统里。这些数据后面给FDC(故障检测与分类)和VM(虚拟量测)用。
Interlock(联锁)。这是EAP最重要的安全功能。Interlock的意思是”在某些条件不满足时,禁止设备执行操作”。比如前一步量测数据超标了,EAP就不让这个lot继续跑下一步;或者设备刚做完PM还没跑qualification wafer,EAP就不让生产lot进去。Interlock是fab里防止批量报废的最后一道防线,我见过因为interlock配置有漏洞导致几十万美元损失的案例——这种教训你只需要一次就够了。
五、AI在哪一层?
这是很多人关心的问题。现在半导体行业都在谈AI,但AI到底跑在系统架构的哪一层?
答案是:大部分AI模型跑在EAP层或者独立的APC(Advanced Process Control)服务器上。
为什么不放在MES层?因为MES是事务型系统,讲究的是高可用和强一致性,不适合跑计算密集型的推理任务。而且AI模型需要的输入数据——设备trace data、传感器数据、前馈量测数据——这些最先到达的地方就是EAP层,在EAP这里做推理延迟最低。
典型的AI应用场景:VM(虚拟量测)模型用trace data预测wafer的量测结果,省掉实际量测的时间;FDC模型实时监控设备状态,发现异常提前报警;R2R(Run-to-Run)控制模型根据前一批wafer的结果,自动调整下一批的recipe参数。这些模型的推理都需要在秒级甚至毫秒级完成,所以必须部署在靠近设备的位置。
六、数据流:从设备到AI再回到设备
把整条数据链路画出来是这样的:
设备 –> EAP –> 数据库 –> AI模型 –> 控制指令 –> EAP –> 设备
以R2R控制为例:设备跑完一个lot,EAP采集trace data存到数据库;量测设备对wafer做完量测,结果也存到数据库;AI模型从数据库读取trace data和量测结果,计算出下一个lot的recipe调整量;调整指令通过MES下发到EAP;EAP修改设备上的recipe参数;下一个lot按新参数开跑。整个链路从量测结果出来到recipe更新完成,在成熟的系统里可以控制在两三分钟以内。
这里有个关键问题:AI模型跑在哪里?如果跑在远端的云服务器上,网络延迟和数据传输就是瓶颈;如果跑在fab本地的服务器上,又有算力和运维的问题。这就是为什么”边缘AI”在半导体制造领域越来越受关注——把AI推理放在离设备最近的地方,既保证低延迟,又不增加MES和EAP的负担。
七、国内外主流MES/EAP产品对比
全球范围来看,MES和EAP市场长期被几家厂商主导。
MES方面,IBM的SiView(后来被Applied Materials收购的一部分)和Camstar(现在属于西门子)在大厂里用得比较多。国内fab早些年基本都是买国外的MES,这几年国产替代的趋势下,赛美特(Critical Manufacturing是它的技术来源)等国内厂商在快速追赶。赛美特的cmNavigo在国内几家新建fab里已经落地了,功能完整度和稳定性在逐步提升。
EAP方面,Cimetrix是绕不开的名字。它的CIMConnect和EquipmentConnect产品几乎是EAP领域的行业标准,全球大量fab在用。Brooks(现在叫Azenta)的FabWorks也有不少客户。国内的话,也有一些团队在做EAP产品,但坦率说和Cimetrix比还有差距,主要是在设备协议对接的经验积累上——毕竟Cimetrix对接过的设备型号远远多于国内厂商。
还有一个趋势值得关注:EAP和APC的边界在模糊化。传统上EAP只做通信和基础自动化,APC做高级控制;但现在越来越多的方案把APC的功能下沉到EAP层,甚至直接在EAP里跑轻量级的AI模型。这个趋势的背后逻辑是减少系统间的数据流转延迟。
八、集芯NeuroBox与EAP的协同
我们集芯在做NeuroBox E3200的时候,一开始讨论过一个问题:是做一个全新的EAP去替换现有的,还是做一个EAP的”智能扩展”?最后选了后者。
原因很现实:fab里已经跑着的EAP,经过了长期的设备对接和验证,贸然替换风险太大。客户不会因为你的AI功能好就把整个EAP换掉。所以NeuroBox E3200的定位是作为边缘AI box,部署在EAP旁边,通过标准接口从EAP获取设备数据,在本地完成AI推理(VM预测、FDC检测、R2R计算),然后把控制指令回传给EAP去执行。
这种架构有几个好处:第一,不侵入现有的MES和EAP系统,部署风险低;第二,AI推理在边缘完成,延迟低到毫秒级;第三,数据不出厂,满足半导体企业对数据安全的要求。实际项目中,我们发现客户最关心的往往不是模型精度能到多少(其实大部分场景下精度差异不大),而是”你这个东西接进来会不会影响我现有的系统稳定性”。E3200的非侵入式架构很好地回应了这个顾虑。
从数据流的角度看,E3200就是在”设备->EAP->数据库”这条链路上加了一个分支:EAP采集到的trace data同时推一份到E3200,E3200跑完模型后把结果写回数据库或者直接推给EAP。对现有链路的侵入是最小的。
说到底,MES和EAP是半导体工厂自动化的基石,它们已经成熟运行了几十年。AI不是要替换它们,而是要跟它们协同。理解了这套系统架构,才能找到AI真正能发挥价值的位置,而不是空谈”AI颠覆制造业”。