什么是MiniMax
MiniMax是由上海稀宇科技于2021年12月创立的全球领先多模态通用人工智能公司,总部位于上海,由前商汤科技高管闫俊杰领衔创办,获腾讯、阿里巴巴、米哈游等巨头投资,2025年投后估值已超40亿美元。其核心定位是“以开源生态驱动的全栈式AGI解决方案提供商”,以“与所有人共创智能”为使命,致力于通过自研多模态大模型打破技术壁垒,让AI能力渗透到个人创作、企业服务、开发者生态等多元场景。
与其他 AI 企业相比,MiniMax 的核心优势体现在 **“多模态深度融合 + 超长上下文 + 高性价比开源生态”** 三大维度:
多模态能力覆盖文本、语音、图像、视频、音乐全场景,旗下 Speech-2.5 语音模型曾登顶国际评测榜,Hailuo-02 视频模型可实现 “首尾帧指令生成复杂动态画面”;
自研模型支持业内顶尖的超长上下文处理,MiniMax-01 系列模型可处理 400 万 token 输入(约 300 万字),M1 模型支持 100 万 token 输入与 8 万 token 输出,远超同类开源模型;
以开源模式降低使用门槛,M1 模型作为 “全球首个开源大规模混合架构推理模型”,推理算力仅为同类模型的 30%,API 价格仅为行业平均水平的 1/3,兼顾性能与成本优势。
截至 2025 年,MiniMax 的模型与产品已服务全球 200 多个国家及地区的 1.57 亿个人用户,以及 90 多个国家的 5 万家企业与开发者。
MiniMax的核心功能
MiniMax依托全栈自研的模型矩阵,构建了覆盖内容生成、企业服务、开发者工具的完整功能体系,核心能力包括:
- 全模态内容生成引擎支持文本、语音、图像、视频、音乐的端到端生成与融合创作:- 视频生成:通过Hailuo-02模型,仅需首尾帧+文本指令即可生成高动态画面(如“生成‘机器人组装芯片’的10秒视频,首帧为零件散落,尾帧为成品”),支持复杂物理动态模拟;- 语音交互:Speech-2.5模型支持多语种合成与高精度音色克隆,可生成超长有声书(单段支持10小时以上音频),复刻相似度达95%以上;- 音乐创作:Music-1.5模型可按风格(古典/电子/流行)生成多乐器编曲,支持“文本描述转音乐”(如“生成充满未来感的游戏战斗背景音乐,包含鼓点与合成器”);- 图文联动:输入文本指令即可生成高清图像(如“赛博朋克风格的上海外滩夜景,雨天反光效果”),支持图像二次编辑(如“将人物服装改为蓝色”)。
- 超长文本深度处理基于M1与01系列模型的超大上下文窗口,提供“全文档解析+深度推理”服务:- 百万级文档处理:一次性解析100万字的学术专著、企业年报或法律合同,自动提取核心观点(如“梳理2024年财报中营收下滑的3个关键原因及数据支撑”);- 长程内容创作:续写长篇小说、剧本或技术文档(如“续写《三体》后续文明冲突剧情,保持刘慈欣叙事风格”),支持8万token连续输出,无需分段衔接;- 跨文档对比:同时上传多份文件(如3份竞品分析报告),自动生成差异对比表(如“对比三家企业的技术路线与市场策略异同”)。
- 企业级智能Agent构建通过Assistants API提供可定制的智能体服务,支持工具调用与团队协作:- 多工具集成:Agent可自动调用Web搜索、代码解释器、知识库检索功能,完成复杂任务(如“分析2025年新能源汽车销量数据,生成可视化图表并撰写分析报告”);- 专属知识库:企业上传内部文档(如产品手册、会议纪要)后,Agent可即时响应员工查询(如“解释新款手机的摄像头技术参数”),支持权限分级管理;- 工作流自动化:对接企业OA系统,自动生成会议纪要、分配待办任务(如“提取研发会议中的3项核心决议,分配给对应负责人并设置截止日期”)。
- 开发者友好型开放生态提供低门槛的API与工具链,支持多场景集成与二次开发:- 多模态能力调用:通过MCP协议(多模态内容平台),一键调用文本、语音、视频生成能力,兼容Claude Desktop、Cursor等主流客户端;- 开源模型部署:M1、01系列模型开源提供权重,支持vLLM、Transformer等框架部署,开发者可基于此微调行业专用模型(如医疗影像分析模型);- Agent交易市场:上线全球首个可交易Agent Remix Marketplace,开发者可分享自制Agent(如“电商客服Agent”“代码调试Agent”),形成生态闭环。
- 合规与安全保障全面落实AI内容治理要求,全平台上线AI生成内容标识功能,确保信息透明;企业级服务采用TLS 1.3加密传输与AES-256存储加密,支持数据本地化部署,符合GDPR、《生成式AI服务管理暂行办法》等国内外法规。
如何使用MiniMax
MiniMax支持个人用户、企业客户与开发者的多场景访问,操作流程简洁灵活:
- 选择访问渠道
- 个人用户端:- 网页端:登录MiniMax官网(www.minimaxi.com),直接体验文本生成、图像创作等基础功能;- 原生APP:下载“海螺AI”“星野”等应用,侧重视频生成、语音互动等娱乐创作场景。
- 企业与开发者端:- 开放平台:访问platform.minimaxi.com,申请API Key调用多模态能力;- 私有化部署:联系商务团队定制方案,将模型部署在企业自有服务器,保障敏感数据安全;- 第三方集成:在Notion、Slack中安装MiniMax插件,或通过MCP协议对接自有产品。
- 注册与登录
- 个人用户:国内用户支持手机号快捷注册,国际用户可通过Google账号登录,新用户赠送15元免费额度(约可生成10万字文本或50分钟语音);
- 企业用户:提交营业执照等资质后开通企业账号,可创建子账号并分配权限(如“给市场部开放图像生成权限,研发部开放代码工具权限”);
- 开发者:注册开放平台账号后,在“个人中心-接口密钥”页面创建API Key,保存后即可调用接口,支持国内(api.minimax.chat)与国际(api.minimaxi.com)双节点访问。
- 开始使用
- 个人创作场景:在网页端输入指令(如“生成‘猫咪在太空舱睡觉’的插画,水彩风格”),点击“生成”即可获取结果;如需语音合成,上传文本后选择音色(系统音色或克隆音色),生成后可直接下载音频;
- 企业办公场景:管理员在开放平台上传产品手册,员工在对话界面提问(如“新款笔记本的电池续航时间”),Agent会基于知识库精准回复;开启“会议纪要模式”,上传会议录音即可自动生成结构化纪要;
- 开发者集成场景:使用Python SDK调用API,例如输入代码“调用Speech-2.5模型生成有声书”,设置文本内容与音色参数,运行后即可获取音频文件URL或本地存储路径。
- 付费与套餐
- 按量计费:文本生成0.8-2.4元/百万token(输入)、8-24元/百万token(输出),视频生成按积分计费(1积分≈1.2元,高级包15000元含8330积分);
- 企业套餐:视频进阶包30000元(节约15%)、企业包40000元(节约20%),均支持所有视频模型调用,企业包额外享有无限RPM(每分钟请求数)与新模型优先体验权;
- 发票申请:按实际消耗金额开票,通过官网表单提交申请,1-3个工作日内出具电子发票。
MiniMax使用教程
教程1:多模态有声小说创作(文本+语音生成)
- 明确需求:打开MiniMax网页端,输入指令“续写《斗破苍穹》剧情:萧炎获得远古传承后返回斗气大陆,遭遇新强敌,约1000字,保持原著热血风格”;
- 生成文本:点击“发送”,M1模型约30秒生成续写内容,可直接编辑修改(如调整战斗场景细节);
- 语音合成:点击文本下方“转语音”,选择“少年热血”音色,设置语速1.2倍,点击“生成”;
- 导出成品:生成完成后,点击“下载音频”获取MP3文件,可搭配封面图制作成有声书片段。
教程 2:超长企业年报分析(100 万字文档解析)
- 准备文档:将PDF格式的2024年企业年报(约100万字)保存到本地;
- 上传解析:在MiniMax开放平台点击“上传文件”,选择年报并等待上传完成,输入指令“从年报中提取‘营收构成’‘研发投入’‘海外市场占比’三大维度数据,生成结构化表格并标注对应页码”;
- 深度追问:获取表格后,继续提问“对比2023年与2024年的研发投入增长率,分析增长原因”,M1模型会基于百万上下文窗口精准定位差异数据并给出解读;
- 导出结果:点击“下载”获取Excel表格与分析报告,直接用于管理层汇报。
教程 3:企业智能客服 Agent 搭建(开发者场景)
- 创建Agent:登录开放平台,调用Assistants API,设置参数“instructions: 电商客服,解答手机产品问题”“model: abab6.5s-chat”“tools: Retrieval”,生成Agent ID;
- 上传知识库:通过API上传新款手机的产品手册(PDF格式),关联至该Agent;
- 测试交互:向Agent发送问题“这款手机支持5G吗?电池容量多少?”,Agent会自动检索知识库并回复:“支持双模5G,电池容量为5000mAh,支持66W快充”;
- 集成上线:将Agent通过MCP协议对接企业微信客服系统,实现用户咨询自动响应,支持实时监控对话数据。
MiniMax常见问题
Q1:个人用户免费额度用完后如何付费?A1:个人用户可在“账户中心”提交实名认证后直接充值,支持微信、支付宝支付;按实际用量后付费,文本输入最低0.8元/百万token,语音生成按套餐积分计费,新用户首次充值满100元赠20元额度。
Q2:MiniMax 的开源模型与闭源模型有何区别?A2:开源模型(M1、01 系列)提供权重文件,支持本地化部署与二次微调,适合开发者与科研机构;闭源模型(Hailuo-02、Speech-2.5)仅通过 API 提供服务,性能更强(如视频生成精度更高),适合企业商用场景。两者均支持超长上下文处理,但开源模型无 API 调用限制,闭源模型有 RPM(每分钟请求数)限制。
Q3:音色克隆服务如何申请?A3:目前音色克隆仅对企业客户开放,个人用户暂不支持。企业可在官网填写合作咨询表单,标注 “音色克隆” 需求,商务团队会 1-3 个工作日内联系,提供定制化方案(需提供 5-10 分钟清晰语音样本)。
Q4:MiniMax 与其他 AI 工具(如 Claude、MidJourney)的核心差异是什么?A4:MiniMax 的核心优势是 **“多模态全栈覆盖 + 开源性价比”**—— 同时支持文本、语音、视频、音乐生成,而 Claude 侧重长文本与企业合规,MidJourney 仅专注图像;其开源模型算力效率是同类产品的 3 倍,API 价格仅为 1/3,更适合开发者生态构建。
Q5:企业使用时如何保障数据安全?A5:企业用户可选择私有化部署,数据存储在自有服务器;API 调用采用加密传输,所有数据不用于模型训练;支持权限分级管理,管理员可限制子账号的文件访问与功能使用权限,且可随时删除历史数据。
Q6:模型生成的内容有版权吗?A6:个人非商用场景下,生成内容版权归用户所有;企业商用需确保内容不侵犯第三方知识产权,MiniMax 提供 AI 生成内容标识工具,可自动为生成的文本、图像添加溯源标识,降低合规风险。