ViMax 是港大开源的多智能体视频生成框架,一句话就能把创意变成完整视频。支持小说改编、剧本创作、自定义客串多种模式,自动处理分镜设计、角色一致性和场景衔接,输出电影级长视频内容。内置 RAG 长剧本引擎和 MLLM 一致性校验,MIT 协议免费商用,Python 3.12 + uv 环境管理。
🎤 引言
你有没有被 AI 视频生成的种种难题折磨过?
几秒钟的片段根本不够用、角色走到一半突然换了张脸、镜头切换毫无逻辑可言……这些问题几乎把所有 AI 视频工具都卡在了"玩具"层面。
今天要安利的这个项目,来自香港大学研究团队,叫做 ViMax。它不是一个普通的视频生成工具,而是一套多智能体视频创作流水线——从你输入的一句话创意开始,自动完成剧本生成、分镜设计、角色追踪、图像一致性校验,最后输出完整的多镜头视频。
说白了,它把导演、编剧、制片人的活儿都包圆了。 🚀
⭐ 核心功能
ViMax 提供了四种主要的视频生成模式,基本上覆盖了从灵感到成片的全流程:
🌟 创意到视频(Idea2Video)
只需要描述一个场景或故事,ViMax 会自动理解你的意图,生成完整的剧本、分镜和镜头列表。比如输入"如果猫和狗是最好的朋友,当它们遇到一只新猫会发生什么",它就能自动生成一部小短片。
🎨 小说到视频(Novel2Video)
将完整的小说智能压缩并转化为分集视频内容。系统基于 RAG 技术分析长文本,自动切分为多场景剧本,实现角色追踪和逐场景视觉化改编。想象一下把《三体》扔进去,它自动给你生成一集一集的科幻动画。
⚙️ 剧本到视频(Script2Video)
自由创作任意剧本——从个人故事到史诗冒险。你甚至可以直接输入专业的剧本格式(EXT. SCHOOL GYM - DAY 之类),ViMax 会按照你的剧本一个镜头一个镜头地生成视频。
🤳 智能客串(AutoCameo)
上传你自己的照片,就能把自己融入任意创意剧本、电影级镜头和互动剧情中。系统会保持你的外观一致性,让你在视频里自然地出现和互动。
📥 安装使用
ViMax 使用 uv 作为环境管理工具,要求 Python 3.12。安装非常简单:
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync配置 API
在使用之前,需要在 configs/ 目录下配置文件,填入三个必需的 API Key:聊天模型、图片生成器和视频生成器。
以 configs/idea2video.yaml 为例:
chat_model:
init_args:
model: google/gemini-2.5-flash-lite-preview-09-2025
model_provider: openai
api_key: <YOUR_API_KEY>
base_url: https://openrouter.ai/api/v1
image_generator:
class_path: tools.ImageGeneratorNanobananaGoogleAPI
init_args:
api_key: <YOUR_API_KEY>
video_generator:
class_path: tools.VideoGeneratorVeoGoogleAPI
init_args:
api_key: <YOUR_API_KEY>
working_dir: .working_dir/idea2video快速开始
修改 main_idea2video.py 中的创意描述:
idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"然后运行:
python main_idea2video.py对于剧本模式,使用 main_script2video.py 并在 configs/script2video.yaml 中配置相同的 API。
🔍 对比同类方案
| 能力 | ViMax | 普通AI视频工具 |
|---|---|---|
| 输入形式 | 创意/小说/剧本/照片 | 只能是图片或文字 |
| 角色一致性 | 多智能体追踪 + MLLM 校验 | 单次生成,无法跨镜头追踪 |
| 视频时长 | 自动生成长剧本,多镜头 | 仅几秒 |
| 分镜设计 | 自动生成电影级分镜 | 无 |
| 声音同步 | 支持音画同步 | 仅视觉 |
和 Runway、Pika 这些只能生成几秒的工具相比,ViMax 的定位更像是完整的视频创作助手,而不是一个视频生成器。
⚠️ 注意事项
- 需要付费 API:ViMax 本身免费,但它调用的图像生成器(如 Google Imagen)和视频生成器(如 Veo)需要自备 API Key。
- 硬件要求:视频生成对 GPU 要求较高,建议有 NVIDIA GPU 支持的环境。
- 中文文档:README 有中文版本,但部分配置示例是英文的,需要注意。
- 视频时长限制:虽然支持多镜头生成,但单个视频的总时长仍然受限于底层视频模型的生成长度。
✅ 总结
ViMax 最大的亮点是把"AI 生成视频"这件事从点按钮的玩具,提升到了真正的创作工具层面。它用多智能体的方式解决了角色一致性、分镜设计、场景连贯性这些传统 AI 视频的硬伤。
适合人群:独立创作者、自媒体博主、小说作者想让文字可视化的人。
不适合:追求即开即用、不想配置 API 的用户。
GitHub 5.4k Stars,MIT 协议可以免费商用,感兴趣的话可以先跑个 Demo 试试水。