
2月12日音信,智谱发布新一代大模子GLM-5之后,立即通知,在旗舰级AI训推一体全功能GPU MTT S5000上完成了Day-0全进程适配与考据,第一时候提供支撑。
MTT S5000是摩尔线程专为大模子检修、推理及高性能计算野心的全功能GPU智算卡,基于第四代MUSA架构“平湖”,原生适配PyTorch、Megatron-LM、vLLM、SGLang等主流框架。
它早在2024年就还是低调推出,可是具体造型、参数、性能一直莫得对外公开,止境巧妙。
此次在通知适配GLM-5的同期,摩尔线程初次公布了MTT S5000的部分参数和性能,止境惊喜!
据悉,MTT S5000单卡配备多达80GB显存,显存带宽高达1.6TB/s,对比上代MTT S4000分辩擢升了67%、113%,多卡间的互联带宽也有784GB/s。
它完好支撑从FP8到FP64的全精度计算,何况是国内最早原生支撑FP8精度的检修GPU之一,树立了硬件级FP8 Tensor Core加快单位。
FP8比拟BF16/FP16可将数据位宽减半、显存带宽压力缩短50%、表面计算详尽量翻倍,并全面支撑DeepSeek、Qwen等架构,检修性能可擢升30%以上。
MTT S5000的单卡FP8 AI算力最高可达1000 TFLOPS,初次达到PFLOPS级别,也便是每秒1千万亿次计算。
比拟之下,MTT S4000的算力为INT8 256 TOPS、BF16 128 TFLOPS、FP32/64 32/64 TFLOPS。
据业内东说念主士称,MTT S5000实测性能不错对标NVIDIA H100,尤其是在多模态大模子微调任务中,部分性能更是卓越H100,以致启动接近最新的Blackwell架构。
2026年1月,开云体育智源商议院基于MTT S5000千卡集群,完成了前沿具身大脑模子RoboBrain 2.5(数千亿参数)的端到端检修与对皆考据,MTT S5000进展出了与H100集群极高的扫尾一致性,练升天值(loss)互异仅为0.62%,合座检修效力以致达成小幅卓越。
另据互联网厂商的场景实测,MTT S5000在典型端到端推理及检修任务中,性能不错达到NVIDIA H20的2.5倍独揽。
当今,基于MTT S5000的夸娥万卡集群还是落地,浮点运算才气达到10Flops(每秒1千亿亿次计算),在Dense闹热模子检修中MFU达到60%,在MoE巨匠模子中保管在40%独揽,有用检修时候占比高出90%,检修线性彭胀效力达95%。
基于原生FP8才气,它能完好复现顶尖大模子的检修进程,Flash Attention算力哄骗率高出95%,多项要道地点均达到外洋主活水平。
值得一提的是,MTT S5000在集群通讯层面摄取始创的ACE时候,将复杂通讯任务从计算中枢卸载,大幅擢升模子算力哄骗率(MFU)。
实测露馅,MTT S5000从64卡彭胀至1024卡,系统的线性彭胀效力保握在90%以上,检修速率随算力增多确切同步倍增。
MTT S5000在推理场景相通进展优异,比如在2025年12月,摩尔线程聚首硅基流动基于MTT S5000完成了对DeepSeek-V3 671B满血版的深度适配与性能测试。
实测单卡Prefill详尽高出4000 tokens/s,Decode详尽高出1000 tokens/s,刷新了国产GPU的推理记载。