Member standard
Member expire
Member points 0
还没有账号? 立即注册
已有账号? 立即登录
9.84K
粉丝
475
文章
7.15万
总浏览
5
平均评分
AI领域资深专家
OpenAI在最新的开源模型gpt-oss上采用的MXFP4数据类型,直接让推理成本暴降75%!更惊人的是,MXFP4在把内存占用降为同规模BF16模型的四分之一的同时,还把生成token的速度提升了整整4倍。换句话说,这一操作直接把1200亿参数的大模型塞进80GB显存的显卡,哪怕是只有16GB显存的显卡也能跑200亿参数的版本。(注:显存容量通常会大于Checkpoint Size)
henry 发自 凹非寺量子位 | 公众号 QbitAIOpenAI在最新的开源模型gpt-oss上采用的MXFP4数据类型,直接让推理成本暴降75%!更惊人的是,MXFP4在把内存占用降为同规模BF16模型的四分之一的同时,还把生成token的速度提升了整整4倍。换句话说,这一操作直接把1200亿参数的大模型塞进80GB显存的显卡,哪怕是只有16GB显存的显卡也能跑200亿参数的版本。(注:显存