MiniMax

什么是MiniMax

MiniMax是由上海稀宇科技于2021年12月创立的全球领先多模态通用人工智能公司，总部位于上海，由前商汤科技高管闫俊杰领衔创办，获腾讯、阿里巴巴、米哈游等巨头投资，2025年投后估值已超40亿美元。其核心定位是“以开源生态驱动的全栈式AGI解决方案提供商”，以“与所有人共创智能”为使命，致力于通过自研多模态大模型打破技术壁垒，让AI能力渗透到个人创作、企业服务、开发者生态等多元场景。
与其他 AI 企业相比，MiniMax 的核心优势体现在 **“多模态深度融合 + 超长上下文 + 高性价比开源生态”** 三大维度：
多模态能力覆盖文本、语音、图像、视频、音乐全场景，旗下 Speech-2.5 语音模型曾登顶国际评测榜，Hailuo-02 视频模型可实现 “首尾帧指令生成复杂动态画面”；
自研模型支持业内顶尖的超长上下文处理，MiniMax-01 系列模型可处理 400 万 token 输入（约 300 万字），M1 模型支持 100 万 token 输入与 8 万 token 输出，远超同类开源模型；
以开源模式降低使用门槛，M1 模型作为 “全球首个开源大规模混合架构推理模型”，推理算力仅为同类模型的 30%，API 价格仅为行业平均水平的 1/3，兼顾性能与成本优势。
截至 2025 年，MiniMax 的模型与产品已服务全球 200 多个国家及地区的 1.57 亿个人用户，以及 90 多个国家的 5 万家企业与开发者。

MiniMax的核心功能

MiniMax依托全栈自研的模型矩阵，构建了覆盖内容生成、企业服务、开发者工具的完整功能体系，核心能力包括：

全模态内容生成引擎支持文本、语音、图像、视频、音乐的端到端生成与融合创作：- 视频生成：通过Hailuo-02模型，仅需首尾帧+文本指令即可生成高动态画面（如“生成‘机器人组装芯片’的10秒视频，首帧为零件散落，尾帧为成品”），支持复杂物理动态模拟；- 语音交互：Speech-2.5模型支持多语种合成与高精度音色克隆，可生成超长有声书（单段支持10小时以上音频），复刻相似度达95%以上；- 音乐创作：Music-1.5模型可按风格（古典/电子/流行）生成多乐器编曲，支持“文本描述转音乐”（如“生成充满未来感的游戏战斗背景音乐，包含鼓点与合成器”）；- 图文联动：输入文本指令即可生成高清图像（如“赛博朋克风格的上海外滩夜景，雨天反光效果”），支持图像二次编辑（如“将人物服装改为蓝色”）。
超长文本深度处理基于M1与01系列模型的超大上下文窗口，提供“全文档解析+深度推理”服务：- 百万级文档处理：一次性解析100万字的学术专著、企业年报或法律合同，自动提取核心观点（如“梳理2024年财报中营收下滑的3个关键原因及数据支撑”）；- 长程内容创作：续写长篇小说、剧本或技术文档（如“续写《三体》后续文明冲突剧情，保持刘慈欣叙事风格”），支持8万token连续输出，无需分段衔接；- 跨文档对比：同时上传多份文件（如3份竞品分析报告），自动生成差异对比表（如“对比三家企业的技术路线与市场策略异同”）。
企业级智能Agent构建通过Assistants API提供可定制的智能体服务，支持工具调用与团队协作：- 多工具集成：Agent可自动调用Web搜索、代码解释器、知识库检索功能，完成复杂任务（如“分析2025年新能源汽车销量数据，生成可视化图表并撰写分析报告”）；- 专属知识库：企业上传内部文档（如产品手册、会议纪要）后，Agent可即时响应员工查询（如“解释新款手机的摄像头技术参数”），支持权限分级管理；- 工作流自动化：对接企业OA系统，自动生成会议纪要、分配待办任务（如“提取研发会议中的3项核心决议，分配给对应负责人并设置截止日期”）。
开发者友好型开放生态提供低门槛的API与工具链，支持多场景集成与二次开发：- 多模态能力调用：通过MCP协议（多模态内容平台），一键调用文本、语音、视频生成能力，兼容Claude Desktop、Cursor等主流客户端；- 开源模型部署：M1、01系列模型开源提供权重，支持vLLM、Transformer等框架部署，开发者可基于此微调行业专用模型（如医疗影像分析模型）；- Agent交易市场：上线全球首个可交易Agent Remix Marketplace，开发者可分享自制Agent（如“电商客服Agent”“代码调试Agent”），形成生态闭环。
合规与安全保障全面落实AI内容治理要求，全平台上线AI生成内容标识功能，确保信息透明；企业级服务采用TLS 1.3加密传输与AES-256存储加密，支持数据本地化部署，符合GDPR、《生成式AI服务管理暂行办法》等国内外法规。

如何使用MiniMax

MiniMax支持个人用户、企业客户与开发者的多场景访问，操作流程简洁灵活：

选择访问渠道
- 个人用户端：- 网页端：登录MiniMax官网（www.minimaxi.com），直接体验文本生成、图像创作等基础功能；- 原生APP：下载“海螺AI”“星野”等应用，侧重视频生成、语音互动等娱乐创作场景。
- 企业与开发者端：- 开放平台：访问platform.minimaxi.com，申请API Key调用多模态能力；- 私有化部署：联系商务团队定制方案，将模型部署在企业自有服务器，保障敏感数据安全；- 第三方集成：在Notion、Slack中安装MiniMax插件，或通过MCP协议对接自有产品。
注册与登录
- 个人用户：国内用户支持手机号快捷注册，国际用户可通过Google账号登录，新用户赠送15元免费额度（约可生成10万字文本或50分钟语音）；
- 企业用户：提交营业执照等资质后开通企业账号，可创建子账号并分配权限（如“给市场部开放图像生成权限，研发部开放代码工具权限”）；
- 开发者：注册开放平台账号后，在“个人中心-接口密钥”页面创建API Key，保存后即可调用接口，支持国内（api.minimax.chat）与国际（api.minimaxi.com）双节点访问。
开始使用
- 个人创作场景：在网页端输入指令（如“生成‘猫咪在太空舱睡觉’的插画，水彩风格”），点击“生成”即可获取结果；如需语音合成，上传文本后选择音色（系统音色或克隆音色），生成后可直接下载音频；
- 企业办公场景：管理员在开放平台上传产品手册，员工在对话界面提问（如“新款笔记本的电池续航时间”），Agent会基于知识库精准回复；开启“会议纪要模式”，上传会议录音即可自动生成结构化纪要；
- 开发者集成场景：使用Python SDK调用API，例如输入代码“调用Speech-2.5模型生成有声书”，设置文本内容与音色参数，运行后即可获取音频文件URL或本地存储路径。
付费与套餐
- 按量计费：文本生成0.8-2.4元/百万token（输入）、8-24元/百万token（输出），视频生成按积分计费（1积分≈1.2元，高级包15000元含8330积分）；
- 企业套餐：视频进阶包30000元（节约15%）、企业包40000元（节约20%），均支持所有视频模型调用，企业包额外享有无限RPM（每分钟请求数）与新模型优先体验权；
- 发票申请：按实际消耗金额开票，通过官网表单提交申请，1-3个工作日内出具电子发票。

MiniMax使用教程

教程1：多模态有声小说创作（文本+语音生成）

明确需求：打开MiniMax网页端，输入指令“续写《斗破苍穹》剧情：萧炎获得远古传承后返回斗气大陆，遭遇新强敌，约1000字，保持原著热血风格”；
生成文本：点击“发送”，M1模型约30秒生成续写内容，可直接编辑修改（如调整战斗场景细节）；
语音合成：点击文本下方“转语音”，选择“少年热血”音色，设置语速1.2倍，点击“生成”；
导出成品：生成完成后，点击“下载音频”获取MP3文件，可搭配封面图制作成有声书片段。

教程 2：超长企业年报分析（100 万字文档解析）

准备文档：将PDF格式的2024年企业年报（约100万字）保存到本地；
上传解析：在MiniMax开放平台点击“上传文件”，选择年报并等待上传完成，输入指令“从年报中提取‘营收构成’‘研发投入’‘海外市场占比’三大维度数据，生成结构化表格并标注对应页码”；
深度追问：获取表格后，继续提问“对比2023年与2024年的研发投入增长率，分析增长原因”，M1模型会基于百万上下文窗口精准定位差异数据并给出解读；
导出结果：点击“下载”获取Excel表格与分析报告，直接用于管理层汇报。

教程 3：企业智能客服 Agent 搭建（开发者场景）

创建Agent：登录开放平台，调用Assistants API，设置参数“instructions: 电商客服，解答手机产品问题”“model: abab6.5s-chat”“tools: Retrieval”，生成Agent ID；
上传知识库：通过API上传新款手机的产品手册（PDF格式），关联至该Agent；
测试交互：向Agent发送问题“这款手机支持5G吗？电池容量多少？”，Agent会自动检索知识库并回复：“支持双模5G，电池容量为5000mAh，支持66W快充”；
集成上线：将Agent通过MCP协议对接企业微信客服系统，实现用户咨询自动响应，支持实时监控对话数据。

MiniMax常见问题

Q1：个人用户免费额度用完后如何付费？
A1：个人用户可在“账户中心”提交实名认证后直接充值，支持微信、支付宝支付；按实际用量后付费，文本输入最低0.8元/百万token，语音生成按套餐积分计费，新用户首次充值满100元赠20元额度。
Q2：MiniMax 的开源模型与闭源模型有何区别？
A2：开源模型（M1、01 系列）提供权重文件，支持本地化部署与二次微调，适合开发者与科研机构；闭源模型（Hailuo-02、Speech-2.5）仅通过 API 提供服务，性能更强（如视频生成精度更高），适合企业商用场景。两者均支持超长上下文处理，但开源模型无 API 调用限制，闭源模型有 RPM（每分钟请求数）限制。
Q3：音色克隆服务如何申请？
A3：目前音色克隆仅对企业客户开放，个人用户暂不支持。企业可在官网填写合作咨询表单，标注 “音色克隆” 需求，商务团队会 1-3 个工作日内联系，提供定制化方案（需提供 5-10 分钟清晰语音样本）。
Q4：MiniMax 与其他 AI 工具（如 Claude、MidJourney）的核心差异是什么？
A4：MiniMax 的核心优势是 **“多模态全栈覆盖 + 开源性价比”**—— 同时支持文本、语音、视频、音乐生成，而 Claude 侧重长文本与企业合规，MidJourney 仅专注图像；其开源模型算力效率是同类产品的 3 倍，API 价格仅为 1/3，更适合开发者生态构建。
Q5：企业使用时如何保障数据安全？
A5：企业用户可选择私有化部署，数据存储在自有服务器；API 调用采用加密传输，所有数据不用于模型训练；支持权限分级管理，管理员可限制子账号的文件访问与功能使用权限，且可随时删除历史数据。
Q6：模型生成的内容有版权吗？
A6：个人非商用场景下，生成内容版权归用户所有；企业商用需确保内容不侵犯第三方知识产权，MiniMax 提供 AI 生成内容标识工具，可自动为生成的文本、图像添加溯源标识，降低合规风险。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...