上一期我聊到一个判断:AI 芯片的竞争,正在从单颗芯片里的算力单元,扩展到工艺、封装、互连、验证、EDA 和系统工程。

这一期,我想沿着这个判断继续往下拆一个更具体的问题:既然现在大模型已经能写 Verilog、SystemVerilog,为什么我们还不能说“AI 已经能交付芯片”?

这个问题最近特别值得讲。因为过去两周,几篇和芯片 AI Agent、SVA、EDA 验证相关的新论文密集出现:Phoenix-bench 讨论软件 Agent 能不能迁移到真实硬件工程,Trace2Skill 讨论芯片 AI Agent 如何利用 verifier feedback 进化能力,AssertLLM2 和 SpecAlign 则把注意力放到 SystemVerilog Assertion 的生成、语义对齐和验证评价上。再叠加 Synopsys 在 5 月 28 日 SAFE Forum 2026 上提到的 production-ready AI-powered EDA flow,可以看到一个很清晰的方向:

AI4EDA 的主战场,正在从“能不能生成代码”,转向“能不能接入真实工具链,完成验证、定位、修复和回归”。

图 1:从“会写 Verilog”到“能交付芯片”,中间隔着需求、TestBench、Assertion、仿真、日志、波形、修复和回归。图源:IC Coder 原创信息图

一、先把话说清楚:Verilog 不是普通软件代码

很多非硬件背景的读者第一次看 Verilog,会把它理解成一种“硬件版编程语言”。这个理解有一半对,也有一半容易误导。

软件代码通常描述的是一串指令怎么执行。比如一个函数先判断条件,再进入循环,再返回结果。调试的时候,我们可以看调用栈、变量值、异常信息,很多 bug 会沿着函数调用链传播。

但 Verilog 描述的不是“程序一步步执行”,而是一堆硬件结构如何在时钟边沿同时变化。一个寄存器什么时候更新,一个 FIFO 什么时候满,一个 valid 信号和 ready 信号在哪个周期同时成立,一个复位信号到底是同步还是异步,这些都不是普通文本逻辑能完全覆盖的。

所以,AI 写出一段 Verilog,只能说明它完成了第一步:生成了一个看起来像硬件设计的草稿。

真正的芯片研发问题,不是“有没有代码”,而是代码能不能在真实约束下被证明是对的。

这里有三个层级,容易被混在一起:

语法正确:代码能不能被编译器或仿真器接受。

行为正确:在关键场景下,信号时序和协议行为是否符合预期。

工程可交付:在足够覆盖的 TestBench、Assertion、仿真、形式验证、综合实现和回归测试下,设计能否稳定通过。

AI 写 Verilog 往往解决的是第一层,最多触碰第二层;但芯片交付真正依赖的是第三层。

这也是我一直不赞同把 AI4EDA 简化成“AI 写 RTL”的原因。RTL 生成是入口,不是终点。验证闭环才是生产力。

二、最近论文的共同信号:评价标准正在从“生成”转向“验证”

5 月 26 日,AssertLLM2 出现在 arXiv 上。这篇论文关注的是 LLM 生成 SystemVerilog Assertions,也就是 SVA。

SVA 可以通俗理解成硬件世界里的“行为契约”。如果 RTL 是“硬件怎么做”,SVA 就是在告诉验证工具:“在某种条件下,这些信号必须满足什么关系。”

例如,一个握手协议里,如果 valid 拉高,那么在某些周期内 ready 应该如何响应;一个 FIFO 如果已经 full,就不能继续写入;一个复位释放后,状态机应该回到合法状态。这些规则写成 assertion 之后,仿真和形式验证工具就可以帮工程师检查设计有没有违背规则。

图 2:AssertLLM2 把 SVA 生成放进 bug-prevention、bug-hunting、formal verification、coverage 和 bug kill ratio 的评价框架中。图源:AssertLLM2,arXiv:2605.27472,2026-05-26

AssertLLM2 的重要性在于,它没有只问“LLM 能不能写 assertion”,而是继续追问:

这个 assertion 语法是否正确?

它能否在 golden RTL 上被证明?

它覆盖到了哪些关键逻辑?

它能不能抓住注入到 buggy RTL 里的真实错误?

它的 bug kill ratio 到底怎么样?

这就比“生成一段看起来像 SVA 的文本”更接近工程真实世界。

硬件验证里最危险的不是 AI 完全不会写,而是它写出一段“看起来对、实际上抓不住 bug”的规则。

同样在 5 月底,SpecAlign 这篇论文也把问题推进了一步。它关注的是 SVA 和自然语言规格之间的语义对齐。

这件事很关键。因为很多时候,AI 生成的 assertion 语法没错,甚至形式验证也能跑,但它不一定真正表达了规格里的设计意图。它可能引入了规格里没有说清楚的假设,也可能把时序条件理解错。

图 3:SpecAlign 通过 property alignment loop 和 SVA alignment loop,检查生成的断言是否与设计规格语义一致。图源:SpecAlign,arXiv:2605.25181,2026-05

这给 AI4EDA 一个很重要的提醒:验证不是只看工具是否跑过,还要看验证目标是否真的对应设计意图。

如果 TestBench 写偏了,AI 会在错误目标上优化;如果 Assertion 语义偏了,AI 可能会给工程师一种“已经验证过”的错觉。芯片研发里,这种错觉非常危险。

三、为什么软件 Agent 不能直接搬到硬件工程里

5 月 13 日,Phoenix-bench 发布。它问了一个很直接的问题:软件工程里的 Agentic AI,能不能迁移到真实硬件工程?

这篇论文的设计很有代表性。它不是让模型在孤立题目里写一个小模块,而是构建了 511 个经过验证的 Verilator 实例,来自 114 个 GitHub 硬件仓库,并配套真实 issue、开发者 patch、fail-to-pass / pass-to-pass testbench 和 Docker 固定的 EDA 环境。

换句话说,它测试的不是“模型会不会写一段题目答案”,而是“Agent 能不能像工程师一样在仓库里定位问题、修改 RTL、跑 EDA 验证、让测试从 fail 变成 pass”。

图 4:Phoenix-bench 要求 Agent 在真实 Verilog/SystemVerilog 仓库中处理 issue,并通过 Docker 化 EDA fail-to-pass / pass-to-pass 测试。图源:Phoenix-bench,arXiv:2605.15226,2026-05-13

结果很有意思,也很冷静。

Phoenix-bench 发现,同一个 Agent 从 SWE-bench Verified 迁移到硬件工程任务时,表现会明显下降。论文里提到,某些 Agent 会从软件任务上的较高表现,掉到硬件任务的 30% 多 resolved rate。更重要的是,硬件任务的失败不是简单“模型不够聪明”,而是任务结构不同。

软件 bug 很多时候沿着函数调用、异常栈、数据结构传播;硬件 bug 则经常沿着信号流、层级实例、时钟、复位、端口位宽、协议时序和 testbench 反馈传播。

所以芯片 AI Agent 不能只做“代码编辑器里的自动补全”。它必须知道:

这个信号从哪个模块来,又流向哪个模块;

这个端口位宽为什么不匹配;

这个状态机为什么在某个周期跳错;

这个 testbench 为什么失败;

这个波形里哪一个周期开始偏离预期;

这个修复是否破坏了其他原本通过的测试。

对芯片 AI Agent 来说,知道“改哪个文件”远远不够;它必须知道 bug 在哪个信号、哪个周期、哪个层级、哪个验证目标上暴露出来。

Phoenix-bench 里最值得关注的一个结果,是 testbench feedback 的作用。

图 5:Phoenix-bench 中,一轮 testbench feedback 对三个交互式 Agent 的 resolved rate 都带来显著提升。图源:Phoenix-bench,arXiv:2605.15226,2026-05-13

论文显示,只告诉 Agent 文件级定位帮助很有限;但给它一轮 testbench log feedback,resolved rate 会有大幅提升。这个结果非常符合工程直觉。

因为在硬件工程里,log 不是附属信息,waveform 也不是“排版好看的调试图”。它们就是工程师判断设计对错的证据链。

没有日志和波形,AI 就像蒙着眼睛改 RTL。

四、Trace2Skill 给出的方向:让 AI 从失败轨迹里学习

如果说 Phoenix-bench 告诉我们“芯片 AI Agent 难在哪里”,那么 5 月 20 日提交的 Trace2Skill 则给出了一个有意思的方向:让 Agent 从执行轨迹和验证反馈里进化自己的技能。

Trace2Skill 面向的是 Complex Verilog Design Problems。论文指出,复杂 Verilog 问题之所以难,是因为 Agent 需要在大仓库里定位和 verifier 相关的 RTL、testbench、include path、build dependency,然后做精确修改,还要从稀疏的 hidden verifier 失败中恢复。

这句话翻译成工程语言就是:真正难的不是写一段模块,而是在一个真实工程里找到“为什么没过”,并把它修到能过。

图 6:Trace2Skill 用 rollout、metrics、oracle lessons、mutation 和 runtime feedback 形成技能演化闭环。图源:Trace2Skill,arXiv:2605.21810,2026-05-20

Trace2Skill 的思路不是简单多采样,也不是重新训练一个 RTL 专用模型,而是把 Agent 的“技能描述”当成可以演化的策略。它会从一次次 rollout 里挖掘成功模式和失败模式,转成更密集的诊断和 lesson,再通过 oracle、mutator、selector 形成下一轮技能。

更通俗地说,它像一个工程师 debug 后写下来的经验卡片:

哪些路径应该先看;

哪些 testbench 失败最关键;

哪些 include 或 build dependency 容易漏;

哪些修复看起来通过局部仿真,但会被 hidden verifier 打回来;

哪些失败模式下,不应该继续沿着错误方向改。

论文在 8 个 hard tasks 上做了对比。seed CVDP agent 原本是 0 通过;加入 dense verifier feedback 和 Trace2Skill 后,最强配置解决了 6/8 个 hard tasks,pass rate 达到 33.6%。

这个数字不是在说“问题已经解决了”,而是在说明一个方向:芯片 AI Agent 的能力提升,不只来自更大的模型,也来自更好的验证反馈、更好的轨迹记录、更好的工程知识沉淀。

五、产业界也在往 production-ready flow 走

这条研究线并不是孤立的。5 月 28 日,Synopsys 在 SAFE Forum 2026 上发布与 Samsung Foundry 的最新合作进展,里面提到 production-ready AI-powered digital and analog flows、DTCO、signoff、AI-assisted ATPG、3DIC Compiler 和 silicon-based test。

我关注的不是新闻稿里的“AI”两个字,而是它和哪些词放在一起:production-ready、PPA、signoff、DFT、ATPG、multi-die、silicon feedback。

这些词背后的意思很清楚:产业界真正关心的是 AI 能不能进入生产流程,而不是只做一个漂亮 demo。

AI4EDA 的真正门槛,不是让模型写出一段像样的代码,而是让 AI 进入可验证、可回归、可追溯、可交付的工程流程。

这也是为什么我认为 AI4EDA 接下来会从“生成式工具”变成“工程智能体”。一个合格的芯片 AI Agent,至少要接住五个接口:

这五个接口连起来,才是我理解的“AI4EDA 工程闭环”。

六、对企业和高校团队的实际启发

如果你是企业里的 FPGA 或数字 IC 团队,我建议不要只问供应商:“你们的模型能不能写 Verilog?”

更应该问:

它能不能接入我的仿真环境?

能不能读懂已有项目结构和模块层级?

能不能根据 testbench 失败日志定位问题?

能不能看 VCD 波形,解释某个信号为什么偏离预期?

能不能生成 assertion,并说明这个 assertion 对应规格里的哪条意图?

能不能在修复后自动回归,确认没有破坏原本通过的测试?

能不能私有化部署,保护代码、规格和项目知识?

如果你是高校、科研院所或课程团队,我也建议把 AI4EDA 教学从“让学生用 AI 写模块”升级到“让学生理解验证闭环”。

因为未来真正有价值的硬件工程师,不是只会让 AI 写代码的人,而是能判断 AI 生成结果是否可靠、能设计验证目标、能读懂波形和报告、能把工程问题闭环的人。

AI 会降低写代码的门槛,但会提高工程判断的价值。

七、我的判断:第二阶段的 AI4EDA,拼的是闭环能力

把最近这些论文和产业动态放在一起,我的判断很明确:

AI 写 Verilog 会越来越容易,但 AI 交付芯片不会因为“会写”就自动发生。真正决定 AI4EDA 价值的,是验证闭环能力。

这一轮 AI4EDA 的演进,大概会经历三个阶段:

代码生成阶段:AI 能写 RTL、脚本、TestBench 片段,提升单点效率。

工具链协同阶段:AI 能调用仿真器、综合工具、形式验证、日志分析和回归流程。

工程闭环阶段:AI 能基于证据定位问题、提出修复、重新验证,并把经验沉淀成团队知识。

第一阶段解决“写得快”,第二阶段解决“跑得起来”,第三阶段才开始解决“交付得稳”。

这也是 IC Coder 持续关注 FPGA 和数字 IC 前端研发闭环的原因。需求拆解、Spec、RTL、TestBench、Assertion、仿真、波形、日志、debug、修复、回归和知识沉淀,这些听起来没有“AI 一键造芯片”那么刺激,但它们才是真实工程里每天都要面对的问题。

最后,用一句话总结这一期:

AI4EDA 的核心不是让 AI 替工程师“写完芯片”,而是让 AI 和工程师一起,把设计、验证、调试和回归连成可交付的闭环。

下一期,我想继续沿着这条线,把 TestBench、Assertion 和波形分析单独拆开讲一讲:为什么它们会成为芯片 AI Agent 的验证证据链。

后续也会继续更新 AI4FPGA、Physical AI 与 FPGA、国产工具链适配、企业私有化部署、EDA 报告理解和芯片研发智能体落地案例。关注这个公众号,我们一起把 AI4EDA 从概念聊到工程落地。

参考来源

Trace2Skill,2026-05-20,arXiv:2605.21810,Trace2Skill: Verifier-Guided Skill Evolution for Long-Context EDA Agents:https://arxiv.org/abs/2605.21810

Phoenix-bench,2026-05-13,arXiv:2605.15226,Is Agentic AI Ready for Real-World Hardware Engineering? A Deep Dive with Phoenix-bench:https://arxiv.org/abs/2605.15226

AssertLLM2,2026-05-26,arXiv:2605.27472,AssertLLM2: A Comprehensive LLM Benchmark for Assertion Generation from Design Specifications:https://arxiv.org/abs/2605.27472

SpecAlign,2026-05,arXiv:2605.25181,SpecAlign: A Semantic Alignment Framework for SystemVerilog Assertion Generation:https://arxiv.org/abs/2605.25181

Synopsys,2026-05-28,Synopsys Advances Power and Performance for AI and Multi-Die Designs on Latest Samsung Foundry Processes at SAFE Forum 2026:https://news.synopsys.com/2026-05-28-Synopsys-Advances-Power-and-Performance-for-AI-and-Multi-Die-Designs-on-Latest-Samsung-Foundry-Processes-at-SAFE-Forum-2026