欢迎访问(中国)网站首页网站

南京经济技术开发区管理委员

当前位置:首页 > 工作动态

对话「后摩智能」吴强:以存算一体为矛,击穿端边大模型芯片“最后一公里”
责任编辑:(中国)网站首页  发布时间:2025-08-19 15:00  阅读次数:显示稿件总访问量

WAIC 2025(世界人工智能大会)期间,专业科技创投媒体36氪对南京经开区企业后摩智能创始人兼CEO吴强进行专访,在接近两个小时的访谈里,吴强介绍了后摩智能的发展历程、分享了如何完成从科学家到创业者的惊险一跃、讲述了对AI热潮下端侧芯片和存算一体技术机遇的独到见解。

只要你逛了前不久举办的WAIC 2025(世界人工智能大会)的H1馆,就会发现今年中国算力领域最炙热的,非这两项莫属——“超节点”和端侧AI芯片。

这足以印证,AI大模型轰轰烈烈发展至今,算力呈现两极发展的趋势。一方面是,大模型训练已经成为刚需,云端算力还需要持续扩展,“超节点”支撑了国产云端算力持续向上求索,WAIC上华为和多家云端AI芯片公司都展示了让人震撼的计算“超节点”;另一方面,当AI持续落地千行百业,尤其当Deepseek爆火,大大降低了生成式AI的计算需求,带动大模型推理应用落地,特别是在端边侧应用的火热。WAIC上多家公司展示了小巧玲珑的端侧AI芯片及其相关智能硬件。

可以说,未来生成式AI计算将是云端计算和端边计算的完美组合。后摩智能CEO吴强判断,未来生成式AI推理计算,90%左右的数据处理都将在端侧和边侧进行,只有10%左右的复杂推理任务需要走向云端。只有这样,才能真正让AI普及,走进千家万户,无处不在。


在过去2年,云端的机会,让英伟达的市值翻了6倍,公司价值突破了四万亿美金,成为这波AI的最大受益者。而端边侧的蓝海市场,大幕缓缓拉开,未来端边侧的市场也正在孕育着“下一个英伟达”的机会。甚至,端边侧会比云端市场更大,能容纳更多玩家。

后摩智能,便是其中可圈可点的一家。后摩智能创始人兼CEO吴强,研究背景深耕于高能效比芯片及分布式计算,最早在英特尔、AMDFacebook工作过,后来又回国加入地平线,4年多前,他开启芯片创业,创办了后摩智能。他们如今的战略很清晰,希望以存算一体为矛,直穿端边大模型计算的最后一公里。

不过,为什么选择以存算一体作为核心技术,切入端侧芯片?存算一体能给AI计算带来什么?如许多人所感知,经典的冯诺依曼架构的“内存墙”和“功耗墙”问题已经越来越严重,尤其随着大模型的参数量还在持续扩大,动辄百亿千亿,数据搬运耗能大有超过计算本身的趋势。对此,曾有行业人士笑称,“未来AI的尽头,是能源”。而存算一体正是一种釜底抽薪的办法,直接在存储单元里把矩阵乘加操作,消灭掉数据搬运这个流程。

WAIC 2025前夕,后摩智能便发布了基于存算一体的端侧芯片产品“后摩漫界?M50芯片”。据吴强介绍,M50最大的特点是,通过自研的存算一体技术实现了计算架构上的创新突破——比如,运用了全新一代的底层存算IP,使得能效比和面效比都大大提升。另外,在AI处理器架构层面,M50使用了自研的新一代“天璇架构”IPU,让浮点模型在存算一体架构中得以直接运行,提升应用效率。同时,为了降低客户的使用门槛,M50还配备了新一代编译器工具链“后摩大道”,让其简单易用,支持主流深度学习框架,让客户无感无痛地做芯片的适配迁移。在种种技术创新的加持下,M50的产品性能也很突出,它实现了160 TOPS@INT8100 TFLOPS@bFP16的物理算力,搭配最大48GB内存与153.6GB/s的超高带宽,而典型功耗仅10W,相当于手机快充的功率。这一性能指标意味着,平板/PC、智能语音设备、机器人等智能移动终端无需依赖云端,即可高效运行7B70B参数的本地大模型。

吴强表示,端边侧AI的特点是分散且极致。因此,对于端边大模型的场景使能者,M50系列还采用原方案+AI的模式,适配X86ARM等主流处理器架构,满足多元化边端需求。在产品明确后,后摩智能的商业化也在快速铺开。吴强表示,目前他们已经有了多个标杆性的意向客户,包括联想的AI PC产品、讯飞听见的智能语音设备、以及中国移动的5G+AI落地。


【打印此页】 【关闭窗口】