ViMax 是港大开源的多智能体视频生成框架,一句话就能把创意变成完整视频。支持小说改编、剧本创作、自定义客串多种模式,自动处理分镜设计、角色一致性和场景衔接,输出电影级长视频内容。内置 RAG 长剧本引擎和 MLLM 一致性校验,MIT 协议免费商用,Python 3.12 + uv 环境管理。

🎤 引言

你有没有被 AI 视频生成的种种难题折磨过?

几秒钟的片段根本不够用、角色走到一半突然换了张脸、镜头切换毫无逻辑可言……这些问题几乎把所有 AI 视频工具都卡在了"玩具"层面。

今天要安利的这个项目,来自香港大学研究团队,叫做 ViMax。它不是一个普通的视频生成工具,而是一套多智能体视频创作流水线——从你输入的一句话创意开始,自动完成剧本生成、分镜设计、角色追踪、图像一致性校验,最后输出完整的多镜头视频。

说白了,它把导演、编剧、制片人的活儿都包圆了。 🚀


⭐ 核心功能

ViMax 提供了四种主要的视频生成模式,基本上覆盖了从灵感到成片的全流程:

🌟 创意到视频(Idea2Video)

只需要描述一个场景或故事,ViMax 会自动理解你的意图,生成完整的剧本、分镜和镜头列表。比如输入"如果猫和狗是最好的朋友,当它们遇到一只新猫会发生什么",它就能自动生成一部小短片。

🎨 小说到视频(Novel2Video)

将完整的小说智能压缩并转化为分集视频内容。系统基于 RAG 技术分析长文本,自动切分为多场景剧本,实现角色追踪和逐场景视觉化改编。想象一下把《三体》扔进去,它自动给你生成一集一集的科幻动画。

⚙️ 剧本到视频(Script2Video)

自由创作任意剧本——从个人故事到史诗冒险。你甚至可以直接输入专业的剧本格式(EXT. SCHOOL GYM - DAY 之类),ViMax 会按照你的剧本一个镜头一个镜头地生成视频。

🤳 智能客串(AutoCameo)

上传你自己的照片,就能把自己融入任意创意剧本、电影级镜头和互动剧情中。系统会保持你的外观一致性,让你在视频里自然地出现和互动。


📥 安装使用

ViMax 使用 uv 作为环境管理工具,要求 Python 3.12。安装非常简单:

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync

配置 API

在使用之前,需要在 configs/ 目录下配置文件,填入三个必需的 API Key:聊天模型、图片生成器和视频生成器。

configs/idea2video.yaml 为例:

chat_model:
  init_args:
    model: google/gemini-2.5-flash-lite-preview-09-2025
    model_provider: openai
    api_key: <YOUR_API_KEY>
    base_url: https://openrouter.ai/api/v1

image_generator:
  class_path: tools.ImageGeneratorNanobananaGoogleAPI
  init_args:
    api_key: <YOUR_API_KEY>

video_generator:
  class_path: tools.VideoGeneratorVeoGoogleAPI
  init_args:
    api_key: <YOUR_API_KEY>

working_dir: .working_dir/idea2video

快速开始

修改 main_idea2video.py 中的创意描述:

idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"

然后运行:

python main_idea2video.py

对于剧本模式,使用 main_script2video.py 并在 configs/script2video.yaml 中配置相同的 API。


🔍 对比同类方案

能力ViMax普通AI视频工具
输入形式创意/小说/剧本/照片只能是图片或文字
角色一致性多智能体追踪 + MLLM 校验单次生成,无法跨镜头追踪
视频时长自动生成长剧本,多镜头仅几秒
分镜设计自动生成电影级分镜
声音同步支持音画同步仅视觉

和 Runway、Pika 这些只能生成几秒的工具相比,ViMax 的定位更像是完整的视频创作助手,而不是一个视频生成器。


⚠️ 注意事项

  1. 需要付费 API:ViMax 本身免费,但它调用的图像生成器(如 Google Imagen)和视频生成器(如 Veo)需要自备 API Key。
  2. 硬件要求:视频生成对 GPU 要求较高,建议有 NVIDIA GPU 支持的环境。
  3. 中文文档:README 有中文版本,但部分配置示例是英文的,需要注意。
  4. 视频时长限制:虽然支持多镜头生成,但单个视频的总时长仍然受限于底层视频模型的生成长度。

✅ 总结

ViMax 最大的亮点是把"AI 生成视频"这件事从点按钮的玩具,提升到了真正的创作工具层面。它用多智能体的方式解决了角色一致性、分镜设计、场景连贯性这些传统 AI 视频的硬伤。

适合人群:独立创作者、自媒体博主、小说作者想让文字可视化的人。

不适合:追求即开即用、不想配置 API 的用户。

GitHub 5.4k Stars,MIT 协议可以免费商用,感兴趣的话可以先跑个 Demo 试试水。

项目地址https://github.com/HKUDS/ViMax