买到一块芯片,并不等于拿到了它标称的全部算力。模型真正跑起来时,还要经过模型、框架、编译器、算子和工具链的层层适配。任何一层没有配合好,纸面参数都很难变成业务里的实际吞吐。
这并不是国产芯片独有的问题。放到更大的背景里看,它是智能时代的一个系统性矛盾。智能本身正在成为新的生产力,对计算的需求一路高涨,而硬件靠制程和堆芯片来提性能,成本越来越高,也越来越贴近物理极限。随着算力的增长追不上需求,计算效率能不能再上一个台阶,就成了整个计算产业绕不开的命题,用软件把已经造出来的硬件用得更充分,是其中最现实的一条路。
用软件释放算力这件事,往远看不只关乎 AI 计算,科学计算、工业仿真、金融建模这些计算密集的领域都需要同样的能力。而当下这件事最迫切的地方,是国产芯片这一端。生态起步较晚、技术路线又多,从理论算力到有效算力之间的那条软件链,往往比硬件参数本身更难补齐。
深圳公司智子芯元过去两个月围绕这件事连续完成两轮融资,规模近亿元,最新一轮天使+轮融资由鼎峰科创(武岳峰创投)、英诺科创基金、首程资本领投,老股东同创伟业等超额追投。它做的事可以叫AI for Computing,具体来说是用 AI 优化 AI 计算本身,让能掌控计算系统的智能体接手原本依赖工程师的适配和调优,把芯片的理论性能变成稳定可用的有效算力。
1
算力堵在软件这头
让一个模型在一块芯片上又跑得起来、又跑得快,要克服从软件到硬件各层级的复杂挑战。应用和模型大多原生在英伟达的 CUDA 生态里,需要做额外迁移适配;不同框架适配于不同的使用场景,各类框架对不同模型和硬件的支持参差不齐;再往下,算子的实现能在多大程度上贴合硬件特性,直接决定了芯片的算力能释放几成;更底下,不同芯片在指令、内存和并行架构上的差异,让统一适配变得困难。任何一层没打通,理论性能就卡在那里下不来。
算子常被单拎出来说,因为它直观、问题集中。但难的是模型、框架、算子、编译器到硬件这一整条链的协同,牵一发动全身,而能同时吃透这几层的工程师极少,一个复杂任务调下来动辄数周。
英伟达的优势不只来自 GPU,近二十年里,英伟达把编译器、算子库、开发工具和框架支持连成了一套成熟的软件生态,开发者的代码和经验都建立在它之上。即便在这套生态里,随着软件与硬件的加速更迭,各路开发者也仍在踊跃进行算法创新、框架优化和算子开发,让计算芯片能够在使用场景释放出极限性能,是整个 AI 计算栈长期的核心目标。国产芯片面对的,除了硬件本身的竞争,还有软件生态侧的巨大挑战,起步晚、路线多,节奏被推得更急。
2
让智能体追求极限性能
通用编程智能体首先解决的,是怎样把需求变成可运行的代码。智子芯元对付的是更加系统的问题,如何在计算系统的复杂度中找到需求实现的卡点,并且在功能都正确的成千上万种需求实现里,如何挑出在某块芯片的某个实战场景中跑得最快的那一个。功能对只是及格线,性能差异藏在巨大的组合空间里,靠人一点点试,既慢又碰运气。打个比方,通用编程助手更像辅助驾驶,需要人提出想法和把控流程,智子芯元想做得更接近自动驾驶,让智能体自主完成搜索、验证和迭代,把人解放出来。
办法是把优化变成一道能求解的数学题。大模型负责理解任务、给出候选方案,运筹优化负责在硬件的硬约束里搜最优的参数和调度,每个方案最终都要放到真实芯片上编译、运行、做性能分析,代码对不对、快不快,由实测结果说了算,再据此修正下一轮。
智子芯元团队的理念是让智能体接管九成以上的工作,从识别硬件、配置环境,到编码、调试、调优、出测试报告,整条流程自己跑完,人只留在设定目标和最后验收这两头。按他的说法,产品是按半年后更强的大模型来设计的,提前给它留出更大的自主空间。
运筹优化是这套办法的数学根基。运筹学研究的就是在大量硬约束下求最优解,过去几十年被用来排航班、优化供应链、规划运输路线。芯片上的优化是同一类问题,分块多大、循环怎么排、数据在内存层级间怎么搬,本质上都是带有多重约束的最优化问题。把它和大模型的生成能力搭在一起,再将计算任务建模为算法空间,在精度和效率的约束下融合搜索新结构,进行算法自动发现。这构成了智子芯元技术路线的核心“大模型 + 运筹优化 + 算法自动发现”,智子芯元依托这个技术路线了构建国内首个能掌握计算系统的智能体——KernelCAT。
3
一块芯片上的完整调优
先看一个贯穿全链的例子。KernelCAT 给 Deepseek OCR 2 模型做昇腾迁移,准备阶段 5 分钟自动定位迁移问题,自动配置环境,形成迁移方案;执行阶段从框架适配、算子优化到硬件在环验证一路打通,据智子芯元与华为联合发布的数据,38 分钟跑通,4 小时完成基于 Vllm 框架的高性能适配,让该模型第一次成功运行在昇腾的硬件上。类似的,KernelCAT 已有多个成果已合并进了华为昇腾的官方库。
把 DeepSeek、GLM、Qwen 这些主流模型迁移至新的芯片,并优化至拥有出色的开箱性能,这是原本以月计的人工投入,而 KernelCAT 已经把这类任务加速至 2-3 天甚至几个小时,并在多家国产芯片上完成验证。
放到公开测试集上来看,差距更直观。在评估 AI 自动生成算子能力的经典榜单 KernelBench 上,KernelCAT 取得了 SOTA 成绩——正确率 100%、平均加速比 211.9%、几何平均加速比 288.5%,三项核心指标均为榜首。
在面向昇腾算子的 CANN-Bench 上,据智子芯元的数据,KernelCAT 跑的 53 个任务里只有 1 个报错,同等条件下最顶尖的几个通用大模型分别报错 6 个、13 个和 42 个。
KernelCAT 并非针对单一榜单做专项优化,而是凭借通用的底层能力自然地跨多个主流 benchmark 取得领先表现。
在算子生成之外,它也开始参与算法层面的探索。DeepMind 的AlphaTensor 和 FunSearch 走过类似方向,用AI搜索新的算法结构,智子芯元面对的约束更贴近工程现实,一个方案要同时满足显存、带宽、并行和精度,还得在真实芯片上跑得更快。一个例子是,开发 GELU 算子时它先用了硬件内置的数学函数,发现在极端数值下精度不达标,没等人提示,就自己改用手写的多项式逼近,反复测到精度过关。
这些案例覆盖了模型迁移、底层优化和算法搜索,智子芯元希望把它们纳入同一套可稳定运行并且迭代进化的系统。
4
谁会为有效算力买单
放到行业里,关注算力优化的不止智子芯元一家。集群服务商、模型服务商、云厂商等已经在 token 经济的浪潮下大显身手,它们通常是在芯片已经能用的前提上,将单点连成集群提供稳定的算力调度服务。智子芯元则押在 AI 智能体加运筹优化上,想要打造一把能够更好更智能地挖掘算力金矿的铲子,让 AI 来优化 AI 计算。
它要服务的,是一连串把理论算力变成有效算力的需求,这笔账落到不同客户身上,逻辑各不相同。对芯片厂,更优的软件加速生态,更好的模型适配和工具支持直接意味着吸引开发者和拿下订单。对云厂和算力运营商,服务器运行所产生的有效算力越高,意味着直接省钱省电。对已经买下国产设备的政企客户,这笔账更直接,原来跑不动的模型跑起来了,原来排队的任务能实时响应,省下的不只是钱,也让一批原本做不了的业务落了地。
眼下国产芯片替代是最直接的需求,再往后,等计算加速成为更多行业的标配,市场边界也会随之扩大。高价值产业最终都会被“计算”重构,谁能持续提升计算效率,谁就能释放新的科学、工业和智能化生产力。智子芯元想做的,是智能计算时代中的一家软件计算加速的基础设施公司。
5
研究即产品
最近,创投圈热议起一类被叫作 Neo Lab 的公司。它们既不像传统的大学实验室或大厂研究院,也不像先找一个成熟市场再做产品的创业公司。它们做的,是把前沿研究、工程实现和商业化压进同一个组织,从一个还没被验证的技术方向起步,自己把“不可能”推到“可能”、再推到“有价值”。它们盯的是一个足够大的技术范式,而不急着先交出一个短期产品,研究密度本身就是竞争力。
智子芯元的画像正落在这里。运筹、大模型和高性能计算这几样本属不同领域的能力,被压进同一支队伍,对着“AI for Computing”这一个问题往下钻,再加上运筹优化领域的罗智泉院士做顾问,这种研究密度本身就更接近一个研究型组织。它要解的,是一个没有现成答案的问题——怎么用 AI 把芯片里没释放的算力抠出来,方法和路径都还得自己摸索。
研究怎么做,产品就怎么长。创始人丁添长期从事人工智能、优化算法与计算系统交叉方向研究,从大模型的训练优化,一路做到让 AI 自动发现适配硬件的算子,创造出一个能掌控计算系统的 AI 智能体来解决计算加速问题,几乎是创始人研究路径的必然结果。研究范式即产品范式,这是智子芯元的一大特点。
这种“研究直接变产品”并非孤例。FlashAttention 当年也是一篇算法论文,不动一块芯片,纯靠重排注意力的算法把现有 GPU 的有效算力榨了出来,很快被几乎所有大模型用上,研究和产品之间几乎没有距离。
在计算智能化的时代中,AI for Computing 这条路也得一边研究,一边把方法本身发明出来,工程交付型或产品导向型的团队,很难从零蹚出这条路。这也能解释,为什么做计算加速需要一支像智子芯元这样的团队。
这些年,算力的竞争几乎都押在芯片本身,谁制程更先进、谁的卡更多。但软件不再只是硬件的配套,它本身正在成为算力的一部分,智子芯元押的,正是芯片之上这层长期被低估的软件。卡已经买到了,能不能真正释放智能时代的底层生产力,越来越要看谁能把这层软件做厚。
本文来自微信公众号“硅星人Pro”
作者:周一笑


