趋势洞察 6 months ago 134 Views 11 Comments

Minimax“五连发”都包含哪些内容?有何影响?一篇文章为你全面解读

人人都是产品经理

Published 1210 Articles

五天五款新品,MiniMax上演“技术爆炸”:百万字上下文推理模型、全球性价比最高的视频生成、零门槛AI制片、靠谱Agent与任意音色合成齐发。作者亲测后直言,这可能是下一个“DeepSeek时刻”。

6月17日-23日,MiniMax 稀宇科技一连五天发布了五项产品。一时间,网络上各类消息四起。当然,毫不意外地又有一批喊“颠覆”、“变天”的博眼球内容混杂在其中。

坦率说,“宣传为虚,上手为实”,是否有真正上手使用,在实际应用场景是否如宣传般好用,这并不是短时间内可以得出结论的(多年的产品经理生涯告诉我,“体验”不等于“使用”)。

因此,这段时间以来,我刻意地将使用场景切换到Minimax的相关产品当中。经过一段时间的使用,也算是有些心得与思考。

接下来,我将按照发布内容,进行一一梳理和解读(由于官方有关于这5天更新内容的详细介绍,因此我将不再重复)。

Day 1/5: MiniMax-M1,全球首个开源大规模混合架构的推理模型

打头阵的M1推理模型,从测评结果来看,与OpenAI-o3、Gemini-2.5 Pro、Deepseek-R1-0528等公认的Top级模型的表现是齐平的。

从我这些天的日常体验来看,与我常用的Deepseek-R1-0528相比,体感上的确没有明显的差别。这个“没有明显的差别”,是指既没有感觉到弱在哪,也没有感觉到强在哪。甚至我敢打赌,如果对结果进行盲测,绝大部分人应该都分辨不出二者的差别。

但M1的差异化其实不在于能力,而是源自其“混合架构”的两点,其一是“支持目前业内最高的100万上下文的输入”,其二是“以业内最低的价格在官网提供API”。以下是Minimax的官方文章对这两点的表述。

这主要得益于我们独创的以闪电注意力机制为主的混合架构,从而在计算长的上下文输入以及深度推理的时候显著高效。例如,在用8万Token深度推理的时候,只需要使用DeepSeek R1约30%的算力。这个特性使得我们在训练和推理的时候都有很大的算力效率优势。

因为相对高效的训练和推理算力使用,我们在 MiniMax APP 和 Web 上都保持不限量免费使用,并以业内最低的价格在官网提供API。

这就是Minimax标题所宣称的“全球首个开源大规模混合架构的推理模型”。当然,我认知里的“首个混合架构”应该是腾讯的混元大模型(号称“业内首个超大规模混合Mamba推理模型”)。

不过这些名头归属的争论,咱们作为使用者并不太需要关注。我这里更想点出的,是我发现各大模型在“卷能力”的同时,也开始卷其他的差异化特性。像之前腾讯的混元T1大模型,就是通过混合Mamba架构提升了运行速度。

而Minimax则是从上下文长度和运行成本上拉开差距(没想到之前以“高效的算力利用”著称的Deepseek,不到半年就成了对比中的“高成本”产品)。

Day 2/5:Hailuo 02,打破全球视频模型效果成本纪录

视频领域我关注不算多,因此对于MiniMax本次更新,我更多地参考了多方的意见。总的来说,我认为“数字生命卡兹克”的测评和总结比较值得一看。

大体来讲,本次Hailuo 02最为惊艳的地方就是,它可能是目前全球唯一一个可以生成体操、杂技表演等复杂人体动作的模型。这一点从官方的演示视频和最近在网上火热的“动物奥运会”视频就可以看出。

同样让人惊艳的还有价格,从下图可以看到,同样的成本,Hailuo 02无论是在768p和1080p的生成,性价比都是最高的。同时Hailuo 02优秀的指令遵循特性,我们知道,视频生成领域有着“抽卡机制”的存在。二者相结合,可以说,Hailuo 02是目前生成视频使用者的首选模型了。

Day 3/5:MiniMax Agent,最大的智慧是“靠谱”

这应该是国内继Manus、扣子空间之后,第三个具有影响力的AI Agent产品了。官方对其的表述是,“MiniMax Agent,一个能完成长程(Long Horizon)复杂任务的通用智能体,也就是能多步规划出专家级解决方案、能灵活拆解任务需求、并能执行多个子任务从而交付最终结果”。

从能力来看,编程、多模态、MCP扩展,这些AI Agent该有的,MiniMax Agent都具备。那么标题所说的“靠谱”从何而来呢?按照官方的说法,就是它“能够模拟用户操作做非常全面的测试,不交付有bug的网页”。

关于这一点,我在介绍扣子空间时就提到,“对于复杂的任务,扣子空间的稳定性还有待提升”。因此,MiniMax说“最大的智慧是‘靠谱’”,这一点我很是认同。当然,在“靠谱”这个层面,是需要来自各类场景的使用来验证的,我们姑且把它作为一个长期观察项,期待更多使用者的验证吧。

Day 4/5:Hailuo Video Agent,Vibe Videoing 零门槛,成片直出

标题中的“Vibe Videoing”,是指通过AI技术实现“言出法随”的视频生成方式。对于Hailuo Video Agent,可以简单理解为“视频模板 + AI生成”,即我们选择视频模板,再输入视频主题的文字或图片,AI就可以将二者进行结合,通过调用各类视频制作工具,从构思到视频生成到后期配音直接完成,直接向用户交付成品级别的视频。关于这一点,MiniMax官方有更详细的描述。

  • 抛弃传统工作流+节点的工具模式,通过LLM语言模型的工具调用能力,创新性地支持用户在自然语言描述中构建完整视频;
  • 打造视频构思、资料收集、分镜制作、剪辑、配音等视频制作全流程工具集,并通过Agent模型在不同阶段实现自动调用。为了提高短片创作的质量,我们遴选了所有视频创作需要的最佳工具集;
  • Agent思维链可视化,用户实时查看Agent创作流程,为自定义编辑功能提供可视窗口与操作空间。

我自己曾经试过全程用AI来生成一首歌曲及其MV。但过程中的所有工具都需要我自己来调用,最后在拼接画面加特效的步骤还是得靠人工操作剪映来完成。应该说视频视频的AI Agent产品的出现,是很让人惊喜的。但对比起来,MiniMax说他们将分三个阶段打造Hailuo Video Agent,这一点更加让人期待。

  • 第一阶段,提供专业视频创意Agent模版,用户只需根据提示输入文字或图片,即可一键生成高质量创意短片;
  • 第二阶段,半自定义视频Agent,让用户能够在视频生成的任一环节进行自由编辑;
  • 第三阶段,实现完全形态的端到端视频Agent。

MiniMax说,接下来的这个夏天,我们计划陆续把第二阶段的Agent创作工具开放给大家。我们也可以期待,在它的推动下,业界能够做到“更轻松转化创意,让视频创意和生成更加普惠”。

Day 5/5:Voice Design,万般声韵,因你而生

最后一个是“声音生成”领域的模型Speech 02,它最为亮眼之处,就是支持基于用户通过自然语言描述,包括音频质量、发声方式、情感基调以及人物画像,来生成用户心中所想的音色。关于这一点,我们可以直接感受一下用它的模型生成的介绍文本的朗读。

通过Voice Design的方式生成声音,主要解决语音合成领域的两个挑战:

  • 第一个挑战是,音色库所提供的系统音色质量虽高,但往往侧重于通用场景,难以精准匹配用户各个细分场景下的多样需求;
  • 第二个挑战是,复刻音色虽然可实现“所听即所得”,但为了达到满意的效果,用户需要花大量的时间准备高质量输入素材,同时存在潜在的版权风险,用户想要获得所需要的音色仍存在一定门槛。

理论上,Speech 02就是一个“任意语言 + 任意音色”的“声音生成”模型。再结合近期AI Agent的迅猛发展,我们完全可以憧憬,在今年就会看到直接由AI全自动全流程生成的,符合书中各个角色设定的“有声书”。甚至,我可以肯定,类似的产品已经在研发中,或者是在本人还没注意到的地方诞生了。

不算总结的总结

我在去年曾经体验过一段时间的“海螺AI”(那会儿的Chat还叫“海螺”,现在这个品牌已经是视频专属了),坦率说并没有任何让我留下深刻印象之处。

之后的日子里,时而也有听说Hailuo 01、Speech 01的一些报道,但也谈不上惊艳。而这两周前的“五连发”,从文本生成、视频生成、Agent再到声音生成,可以说覆盖了我们日常应用的各个领域,一下子就全面开花,而且表现优秀,就这么不讲道理地大跨步向前迈进。

Minimax在介绍中说,M1推理模型能够支持100万上下文的输入,而《三体》三部曲一共才86万字。思及此处,不禁让我想起大刘在《三体》中所提到的“技术爆炸”。

或者说,这,会不会是又一次“Deepseek时刻”呢?且让我们继续保持关注吧。

作者:产品经理崇生,公众号:崇生的黑板报

本文由作者原创投稿/授权发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

人人都是产品经理

人人都是产品经理

1210 Articles 189770 Views 58654 Fans

Comment (11)

User avatar

Minimax“五连发”的解读,真有意思!

User avatar

这也太疯狂了,我需要一杯茶冷静一下!

User avatar

这也太有意思,感觉自己成了一个哲学家!

User avatar

这种想法,我支持!

User avatar

感觉我的大脑在欢呼,这才是真正的深度解读!

User avatar

这也太有意思了吧,下次也试试!

User avatar

感觉世界观崩塌了,但又觉得好玩,这才是真理!

User avatar

搞什么啊,这简直是把我的认知彻底颠覆了!

User avatar

感觉时间都慢了,这‘五连发’简直是脑洞大开的!

User avatar

啧啧啧,这才是真正的艺术,我感觉自己都开始加速思考了!

睡觉动画