对话清华系明星AI创企，性价比终将推进芯片国产代替

发布时间：2025-04-26　点此：561次

编者按：

北京时间4月16日，据彭博社报导，英伟达周二在监管文件中表明，美国政府已于周一告知公司，H20芯片未来在出口至我国时需求“无限期”请求许可证。

英伟达因而预警称，公司将在本财年榜首季度计入大约55亿美元的费用，这些费用与H20系列芯片相关的“库存、收购许诺及相关准备金”有关。

正如英伟达所言，进一步收紧出口约束只会强化我国脱节美国技能依靠的决计，并将削弱美国企业的竞争力。

现在，美国政府给英伟达的心脏刺入了一把尖刀，更是给国产芯片生态开展送了一个助攻。

本年3月，凤凰网科技与专心做AI智能算力根底体系软件的公司清程极智进行了一场对话，这正是一家专心于推进国产芯片开展的公司，其最近开源的赤兔，能够协助国产芯片更好跑满血版DeepSeek。

在五道口的清华科技园，很简略偶遇清华系的人工智能公司，但今日，这儿最繁忙的身影不再专归于基座大模型六小龙，更为显眼的是坐落中间层的AIinfra（根底设施）公司。

清程极智便是这样一家企业，2023年末，清华大学核算机系里的一伙人兴办了清程极智，清华大学核算机系长聘教授翟季冬出任首席科学家，翟教授从前带领清华超算团队夺得过十几个世界冠军，清程极智的核心成员也多来自于清华核算机系高功能核算研究所，CEO汤雄超便是如此。

他们是国内罕见的有过十万台服务器超大规模国产算力集群运用和调优经历的团队。而大规模集群的练习和推理，是算力开展进程中最杂乱的一种状况。

建立仅一年，清程极智就拿到了两轮出资，其间包含北京市人工智能工业出资基金与中科创星。中科创星曾表明，国内AI Infra商场在编译器和并行练习推理体系等核心技能软件方面尤为空缺，而清程极智是国内罕见的彻底把握全栈研制才干的团队。

本年初，DeepSeek的爆火，为AIinfra添了一把柴。更早就预判到推理侧需求的清程极智直接迎来了事务上的迸发。

汤雄超告知凤凰网科技，清程极智的新增需求简直都来自于推理侧。“咱们之前是有推理算力需求快速增加这样的一些判别，可是没幻想到它来得这么快，这么汹涌”。

跟着整个大模型算力需求的趋势从练习侧转向推理侧，相应的硬件供应对立也逐步凸显。“DeepSeek也在某种程度上拉大了国产算力与英伟达的距离”。

汤雄超以为，DeepSeek经过算法的立异突破了大规模硬件的瓶颈，这能够很好的处理其时国内算力缺乏的困顿，给AI企业供给一个立异的样本。

但一同，DeepSeek的技能立异首要环绕英伟达H卡的架构，DeepSeek模型选用的FP8数据格式与英伟达H系列卡深度绑定，未来或许还会支撑更新的FP4等，但现在大多数国产芯片尚无法原生支撑FP8, “从这个层面看，硬件层面产品的代际距离拉大了”。怎么发挥Infra层的效果，经过软硬协同，将优异的国产大模型和国产硬件更好的协同起来，以及把商场上的搁置算力更好的用起来，是清程极智一向在考虑的。

抱着这样的主意，本年初，清程极智与清华一同开源了大模型推理引擎“赤兔”，经过赤兔的布置，大部分英伟达老卡旧卡及国产芯片都可支撑DeepSeek满血版，与此一同在首期开源的版别中，比照世界干流开源推理引擎，在算力削减一半的根底上，速度还能翻番。

赤兔的呈现关于国产算力而言是一股强壮的驱动力，特别针对国产算力在支撑DeepSeek方面是重要的催化剂，于当下而言更是恰逢其时。

一些比方已在证明。上一年，算力概念炽热时期，就有声响以为，商场上部分国产算力是归于空置状况。但DeepSeek的炽热激活了国产算力商场。据汤雄超调查，他发现DeepSeek走红之后，此前不少搁置的算力现已作业起来。

赤兔的呈现，更是对国产算力的严重利好。短期来看，它完成了DeepSeek FP8 精度模型在存量GPU 上的无损且高效布置。长时间来看，赤兔的开源是国产大模型、国产算力和国产引擎闭环构成中的必要一环。

在这个特其他时期，凤凰网科技《浪潮》与清程极智CEO汤雄超进行了一场对话，聊了聊他关于DeepSeek爆火之后，国产生态改变的考虑，以下是对话全文，经修改发布：

谈推理侧需求的迸发：搁置的算力都用起来了

凤凰网科技：你们最近一两个月在忙着做什么？

汤雄超：改变首要在事务精力的调整上。咱们是做AI智能算力根底体系软件的，事务精力的投入力度显着也是跟商场上算力需求的改变是相匹配的。上一年其实大部分的算力需求是来自于预练习这一侧，包含十分多的像英伟达、不同厂商的国产卡，千卡集群、万卡集群、异构集群上做预练习，优化他们的练习功能，加速降本。

上一年咱们也有在做推理的一些作业，咱们和燧原科技一同做的高吞吐推理一体机拿了不少奖项，在多模态方面，咱们上一年是跟生数科技联合优化，关于图片生成有挨近5倍的提速。可是相对来说，上一年推理侧的算力需求相关于预练习侧来说是比较小的，本年DeepSeek走红之后，咱们感觉到的最大的一个改变，便是推理算力的占比有一个十分大的进步。

凤凰网科技：大概是一个什么样的份额改变？

汤雄超：现在咱们新增的事务基本上都来自于推理侧。其实咱们之前是有这样的一些判别，可是咱们没有幻想到它来得这么快，这么汹涌。上一年末的时分，OpenAI的o1发布了之后，其实咱们也都能感觉到推理算力的占比一定是会进步的，可是其时的话，OpenAI仍是遥遥领先。开源的话其实之前一向也首要以Llama和千问这种传统的大模型为主，可是DeepSeek R1的呈现的确很冷艳，咱们也看到跟着而来整个推理算力，包含推理方面的需求都变得十分多。

凤凰网科技：我记住你上一年其实就说过，布置一体机或许仍是应该专心于推理侧。

汤雄超：其完成在回过头来看，咱们现在正在做的便是最初的判别，比方最初判别推理算力将有大规模迸发，随之带来的大模型私有化布置需求等也是咱们正在繁忙的事。并且咱们也看到，现在推理跟练习有一些趋同的当地在于咱们都会逐步构成对集群算力有需求的状况。曾经推理商场更多是单独的涣散需求现在也需求一个集群。可是的确从所需求的芯片才干来说，练习侧对核算才干或许要求仍是更高一些

凤凰网科技：推理算力需求的迸发也随之带来了国产算力的迸发吗？

汤雄超：两个方面来说，一方面跟着大模型私有化布置需求的添加，咱们会看到一些曾经的搁置算力的确正在被消化。

但另一方面咱们也能够看到DeepSeek拉大了国产算力和英伟达的距离。有一种声响是以为DeepSeek的呈现是缩小了国产算力和英伟达之间的距离，我以为这种说法也没错，由于在超大规模预练习集群的场景下，国产算力和英伟达的距离十分大，体系稳定性、可用性、芯片出货量等等都是问题；现在DeepSeek破除了对超大规模预练习集群的依靠，让更多的算力需求转向推理侧，相当于降低了运用国产算力代替计划的难度。

可是咱们单纯从推理侧来说的话，其实DeepSeek的呈现愈加拉大了国产算力跟英伟达的距离。尽管咱们也看到DeepSeek开源了十分多的东西，但他们的一些技能立异更多是跟英伟达

H卡架构的卡绑定的，许多优化无法直接复制到国产算力上。

DeepSeek满血版别身是FP8原生练习的，但现在简直全部的国产卡都不支撑FP8的核算，假如要布置DeepSeek满血版，需求把FP8转换成其它数据格式，这样有时会导致显存占用大，用起来十分卡，有时会使模型精度受损，推理的效果不尽人意，那这样的话咱们用国产卡的志愿又没有那么高了，一同未来英伟达会支撑FP4等新的数据类型，现在的距离在未来有或许进一步加大，从这个视点上来说，DeepSeek的呈现让这个距离显得愈加显着。

咱们前段时间开源了赤兔，由于咱们觉得DeepSeek简直是一个咱们在开源社区能拿到的最好的模型，可是它跟十分难取得的硬件是深度绑定的，咱们运用现有的硬件条件把它充分运用起来仍是有很高的门槛，因而咱们开源了赤兔推理引擎，让商场上的英伟达的大部分老卡旧卡以及国产芯片，支撑FP8核算模型的推理，一同又做了一些优化助力核算功率的进步，使得不仅用的起来，还比原本廉价，速度也更快。

谈赤兔开源：给国产芯片送助攻

凤凰网科技：赤兔的开源对职业来说价值不小，你们其时为什么直接挑选了开源？

汤雄超：咱们自身是一个商业公司，可是咱们觉得开源赤兔推理引擎或许开源这件事自身跟咱们取得商业上的收益并不是抵触的。榜首咱们觉得赤兔的技能计划的确十分的有价值，是能够给整个国产AI职业的生态带来正向影响的，咱们也十分乐意和咱们能够同享这样一个技能的前进，从其他一个方面，从商业上的视点来考虑的话，咱们的价值必定是多维的？说个最简略的比方，尽管赤兔是开源的，可是需求根据赤兔进行布置，需求运维，而咱们自身是最懂赤兔的。

更长时间的视点上来说，比方都是支撑原生FP8的推理练习，但实践上咱们也能够供给不同功能水平的算子的完成，能够经过软硬协同更广泛的进步国产AI芯片的功能。可是从更实质的视点来说，咱们在创建之初便是期望能够促进国产生态的开展，咱们也信任算力国产化是大趋势，所以我觉得像这种比较有意义的作业，仍是比较乐意开源出来，让咱们一同来共享idea。

凤凰网科技：你方才说原本咱们糟蹋的算力现已被用起来了，能不能举个比方？

汤雄超：咱们了解到的是，有许多库存的国产算力，或许原本囤在一些算力中心里边，但在春节后陆陆续续的全都跑起来了。之前有许多的算力是不太好用起来的，乃至就处于一个关机的状况，本年的确咱们想租，他们说现已租完了，没有了。

凤凰网科技：之前传闻许多大厂原本都有自己开发的卡，可是自己的大模型也没有用自己的卡，为什么没用起来？

汤雄超：也不能说彻底没有用起来，或许便是相对用的份额没有那么的高，由于我觉得首要仍是英伟达的卡规划的水平，所能取得的全球最先进的产能，以及多年以来坚持的生态上的优势，使得事务部门在有挑选的状况下，仍是会倾向于用比较简略易用的、性价比高的英伟达的卡。

凤凰网科技：所以这或许对国产算力的开展也是个阻止。

汤雄超：我对国产芯片长时间开展之后的性价比优势是比较有决心的。由于从长时间的视点来看，从过往的经历来看，我觉得国产的东西在性价比上面卷赢国外没有什么大的问题，但必定是需求有一个开展的进程。

凤凰网科技：本年对国产算力，会有一个比较显着的曲线改变吗？

汤雄超：我觉得受太多要素的影响，我很难去评价什么时分会产生一个改变。首要国内的芯片规划水平必定是在继续的开展，包含咱们合作了这么多家芯片公司，也感觉到咱们新一代的芯片都会比老一代的有一个十分大的进步。

但我觉得或许会有许多偶尔要素在里边。其他在软件生态上的话，我觉得也是看咱们生态共建的水平怎么样，这自身也是咱们把赤兔开源出来，期望咱们一同来做的作业。

凤凰网科技：你们现在觉得哪些国产芯片的体现比较好？

汤雄超：假如咱们看的话，上一年也有一些国产芯片公司，现已开端走IPO的流程了，这些其实就相对来说，是比较老练的，现已迭代了好几个版别。芯片职业的话，尽管咱们在做规划的时分都会考虑到许多，但的确有许多问题是要在运用中，在社区里边才会有反应的，就包含咱们在2010 年左右的时分，清华实验室这边就在搞英伟达CUDA的这些东西，其实那个时分也感觉各种问题。由于之前咱们都是在英特尔 X86 上面做，英特尔的东西现已很老练了，一做CUDA就发现适配性欠好，自己也不习惯，一度感觉也没那么好用。可是过了几年之后，比及 2015 年的时分再想在CUDA上面去找一些它的缺点就比较困难了。到现在的话实践相对来说CUDA生态也都变成一个很老练的生态，所以我觉得这些其实都是要有一个开展的进程。

谈AI创企的开展：大模型跑起来仅仅榜首步，还有许多问题没处理

凤凰网科技：你们在建立之初“助力国产化”“大规模集群练习”等标签让人形象深化，现在公司开展了一年多，你以为这些代表你们的标签有改变吗？

汤雄超：咱们之所以给他人留下了这个形象，仅仅说咱们的技能专长和既往的项目经历，在国产化方面堆集是十分深的，特别是在大规模集群的练习方面。咱们其时建立公司的时分，其实首要考虑到咱们自身的团队基因或许说布景，咱们有十分强的并行核算方面的，以及像这种芯片架构适配方面的优势。由于咱们过去做高功能核算，10年前就遇到过今日芯片职业的问题，今日AI范畴产生的全部，咱们都十分了解。可是经过一些软硬件的协同规划，做一些比较好的软件完成的话，仍是能够把国产算力充分发挥起来的。自身假如从性价比的视点去看，咱们会发现这种国外最先进的算力，是有高溢价的，假如真的乐意在软件上面去做一些作业的话，其实终究国产的算力计划未必就不如国外的。

AI的开展必定对算力的需求是越来越大的，首要，模型越来越大，AI的浸透率也会越来越高，其他从长时间来看的话，或许会更多的转向一个自主可控的国产算力趋势。两个清晰的大方向下，咱们觉得做这样的一个公司，便是十分正确的作业。

凤凰网科技：你觉得大模型的数据或许会越来越大，但现在各家或许现已不再去故意卷参数了，乃至是不做预练习了？

汤雄超：咱们现在看到的是说预练习的玩家或许会进一步的削减。便是或许有一些实力特别强的，仍是会坚持去做预练习，关于更多玩家来说，他或许觉得我自己做预练习，不如等着这些寡头来推出新的开源模型，像前段时间DeepSeek又发了V3的更新版，阿里的千问，其实更新都挺快的，所以关于许多参与者来说，自己做预练习或许就不如等一下这些技能寡头再给咱们发一个新的福利。

凤凰网科技：所以六小龙或许得换条路走？

汤雄超：我觉得关于更多新玩家来说，假如是做这种根据揭露数据集的预练习的话，一个是贵，一个是感觉还不如等大厂发，其他一个视点上，关于一些做垂域大模型的公司来说，他能够深化到不同职业里边去，针对这些职业私有数据去做微调，做这种后练习。这块也比较有商场，由于咱们的确看到通用大模型也不是全知全能的，必定也需求取得一些职业的特有常识，才干够在垂类里边有更好的体现。

凤凰网科技：你们现在做哪些类型的需求多一些？

汤雄超：其实都会有，咱们现在更倾向于做这种本地化布置的事务，由于我刚刚说推理事务，其实你能够简略分红，云上的MaaS和线下本地化布置。本地化布置的话，显着咱们一说就觉得像政企必定会有许多这种强的数据安全的合规需求。其实也有许多咱们所谓的这种私企或许民营企业，其实他们也会有比较强的数据安全的要求，比方说金融职业或许法令职业。

咱们觉得DeepSeek对咱们有一个启蒙的效果，让咱们意识到用大模型是大势所趋了。或许说之前我觉得大模型更多是c端的在玩，现在便是强调了私有化布置，咱们都会自问我的企业是不是真的要把大模型用起来了，所以现在不管是咨询的仍是实在迫切需求布置的，真的还挺多的。

凤凰网科技：您说到清程更倾向于做这种本地化布置的事务，现在商场上对MaaS也有一些不同的声响，您怎么看待MaaS？

汤雄超：首要关于MaaS的需求是实在存在的，咱们都是有一致的，就包含我自己也会调API来做一些开发，由于的确调云上API比自己布置要略微简略。

可是咱们评论比较多的是，有人用产品，可是你做产品也要有本钱，那在商业上是不是盈余的？我觉得其实要素会十分的多，比方说算力的本钱，产品的调用量，包含客户付费的这种志愿等等，我觉得这些平常都比较杂乱，并且这几个要素自身不是固定不变的。

咱们也有MaaS，也有一些客户，他或许在私有化布置的时分，便是不想买硬件。假如我先租的话，先云上布置的话，先试试东西是不是真的有用，然后之后再说，我觉得许多东西的存在价值必定是多维的。

所以我是觉得MaaS能不能盈余的话，其实或许会要用开展的眼光去看待，并不能混为一谈。首要算力本钱是不是会继续的下降？由于依照曾经咱们所熟知的这种摩尔定律来说，其实算力本钱便是会逐年下降的。第二点是模型的才干，或许说相同尺度的模型能供给的才干是不是能够继续的增加？我现在需求671B的模型，供给了一个体现，是不是过两年之后我只需100B的模型就能够了？其他便是客户付费的志愿，现在假如是单纯的谈天，我必定不乐意付许多钱，可是假如他未来帮我承接了许多很有价值的事务，那或许我付费的才干就进步了，比方现在收费标准是100万token16块钱，未来假如是高价值事务的话，能够进步价格啊。

凤凰网科技：现在本地化布置这块事务，清程的研制压力会在哪些方面？

汤雄超：首要仍是看咱们寻求一个什么样的方针，由于自身咱们是想向业界供给愈加灵敏的算力底座，包含支撑不同架构的算力芯片。除了英伟达的这种旗舰的显卡之外，也会支撑一些老一点的类型，或许是一些国产GPU卡。由于有许多企业其实它也是先从低门槛的下手开端，会渐渐的扩展，所以咱们会期望说算力底座是有弹性可弹性的，你一开端不太好说直接批一个200万的预算来买东西，而是买一个比方说几万、十几万的这种小的机器，上面或许就插了一两张卡，比及有预算的时分，就补到8卡的一台机器。

其实这两点也是咱们前段时间跟清华联合发布开源赤兔引擎时说到的，咱们会专心于做灵敏的布置计划跟多元化的算力底座的支撑，可是要支撑这两个特性的话，的确会给研制带来一些额定的量。

凤凰网科技：比方说哪些额定的作业量？

汤雄超：假如我只针对英伟达的H20来做，那我就只做一款芯片，但假如说我要支撑更多的底层算力芯片的话，我需求考虑不同芯片的特性。从其他一个视点来说，尽管这么做短期内会难一些，可是咱们仍是会往这个方向去。这一方面仍是刚刚说到，咱们从公司建立之初，就觉得长时间的国产化趋势是比较清晰的。从其他一个视点来说，咱们的AI职业必定不或许一向受制于人，你现在觉得H卡好用，可是明日就传来说H20也要禁售，然后就一波提价，当然后来也没有禁售（编者注：本次对话产生于3月中下旬）。对咱们来说就相当于算力底座是不可靠的，必定不是一个好消息。为了能够满意这种不同芯片架构的适配，其实咱们也有一些这种自动化的代码生成的手法来加速这样一个研制的进程，就包含其实上一年咱们一向在揭露场合说，咱们首要是三块产品，一块是大规模的练习体系，一块是高功能推理引擎，还有一个便是智能编译器，能够去做一些自动化的高功能代码生成，这样就能够削减一些算子开发的人力，加速咱们的研制进程。

不过即便加速了也仍是会有一些额定的压力，可是咱们觉得作业是值得做的，就包含咱们前段时间开源赤兔，在英伟达平台上或许仅仅一件如虎添翼的作业，可是对国产算力来说，它便是本钱降一半的一个十分有价值的作业。所以咱们研制团队做完了之后，的确也比较有成就感，咱们其实也都挺高兴的。

凤凰网科技：你们现在人才方面的压力会比较大吗？

汤雄超：压力挺大的，咱们的技能门槛的确比较高。但咱们公司仍是坚持严选状况，除了技能上的才干，更多垂青人才对咱们团队文明的认同。

凤凰网科技：你们现在更需求哪些方面的人才？

汤雄超：由于咱们会继续的去做好推理引擎，AI体系层面的人才是咱们一向重视的。其他由于 AI 使用落地的速度或许会加速，所以了解上层详细场景的处理计划的同学，咱们最近也聊的比较多。大模型跑起来自身仅仅 AI 使用的榜首步，一个根底的谈天窗口，它能处理一些问题，可是也有许多问题它不太好处理。最典型的，简直全部的企业都想要一个常识库，都想要有一个智能问答机器人，那其实不是说有一个 API就完毕了，我仍是要去做一些作业。或许是经过微调的方法，或许经过一些其他方法，才干满意千行百业的实践需求。

本文源自：凤凰网科技

告发/反应