🎬 ViMax：港大开源AI视频生成神器创意到视频一键搞定多智能体协作

ViMax 是港大开源的多智能体视频生成框架，一句话就能把创意变成完整视频。支持小说改编、剧本创作、自定义客串多种模式，自动处理分镜设计、角色一致性和场景衔接，输出电影级长视频内容。内置 RAG 长剧本引擎和 MLLM 一致性校验，MIT 协议免费商用，Python 3.12 + uv 环境管理。

🎤 引言

你有没有被 AI 视频生成的种种难题折磨过？

几秒钟的片段根本不够用、角色走到一半突然换了张脸、镜头切换毫无逻辑可言……这些问题几乎把所有 AI 视频工具都卡在了"玩具"层面。

今天要安利的这个项目，来自香港大学研究团队，叫做 ViMax。它不是一个普通的视频生成工具，而是一套多智能体视频创作流水线——从你输入的一句话创意开始，自动完成剧本生成、分镜设计、角色追踪、图像一致性校验，最后输出完整的多镜头视频。

说白了，它把导演、编剧、制片人的活儿都包圆了。 🚀

⭐ 核心功能

ViMax 提供了四种主要的视频生成模式，基本上覆盖了从灵感到成片的全流程：

🌟 创意到视频（Idea2Video）

只需要描述一个场景或故事，ViMax 会自动理解你的意图，生成完整的剧本、分镜和镜头列表。比如输入"如果猫和狗是最好的朋友，当它们遇到一只新猫会发生什么"，它就能自动生成一部小短片。

🎨 小说到视频（Novel2Video）

将完整的小说智能压缩并转化为分集视频内容。系统基于 RAG 技术分析长文本，自动切分为多场景剧本，实现角色追踪和逐场景视觉化改编。想象一下把《三体》扔进去，它自动给你生成一集一集的科幻动画。

⚙️ 剧本到视频（Script2Video）

自由创作任意剧本——从个人故事到史诗冒险。你甚至可以直接输入专业的剧本格式（EXT. SCHOOL GYM - DAY 之类），ViMax 会按照你的剧本一个镜头一个镜头地生成视频。

🤳 智能客串（AutoCameo）

上传你自己的照片，就能把自己融入任意创意剧本、电影级镜头和互动剧情中。系统会保持你的外观一致性，让你在视频里自然地出现和互动。

📥 安装使用

ViMax 使用 uv 作为环境管理工具，要求 Python 3.12。安装非常简单：

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync

配置 API

在使用之前，需要在 configs/ 目录下配置文件，填入三个必需的 API Key：聊天模型、图片生成器和视频生成器。

以 configs/idea2video.yaml 为例：

chat_model:
  init_args:
    model: google/gemini-2.5-flash-lite-preview-09-2025
    model_provider: openai
    api_key: <YOUR_API_KEY>
    base_url: https://openrouter.ai/api/v1

image_generator:
  class_path: tools.ImageGeneratorNanobananaGoogleAPI
  init_args:
    api_key: <YOUR_API_KEY>

video_generator:
  class_path: tools.VideoGeneratorVeoGoogleAPI
  init_args:
    api_key: <YOUR_API_KEY>

working_dir: .working_dir/idea2video

快速开始

修改 main_idea2video.py 中的创意描述：

idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"

然后运行：

python main_idea2video.py

对于剧本模式，使用 main_script2video.py 并在 configs/script2video.yaml 中配置相同的 API。

🔍 对比同类方案

能力	ViMax	普通AI视频工具
输入形式	创意/小说/剧本/照片	只能是图片或文字
角色一致性	多智能体追踪 + MLLM 校验	单次生成，无法跨镜头追踪
视频时长	自动生成长剧本，多镜头	仅几秒
分镜设计	自动生成电影级分镜	无
声音同步	支持音画同步	仅视觉

和 Runway、Pika 这些只能生成几秒的工具相比，ViMax 的定位更像是完整的视频创作助手，而不是一个视频生成器。

⚠️ 注意事项

需要付费 API：ViMax 本身免费，但它调用的图像生成器（如 Google Imagen）和视频生成器（如 Veo）需要自备 API Key。
硬件要求：视频生成对 GPU 要求较高，建议有 NVIDIA GPU 支持的环境。
中文文档：README 有中文版本，但部分配置示例是英文的，需要注意。
视频时长限制：虽然支持多镜头生成，但单个视频的总时长仍然受限于底层视频模型的生成长度。

✅ 总结

ViMax 最大的亮点是把"AI 生成视频"这件事从点按钮的玩具，提升到了真正的创作工具层面。它用多智能体的方式解决了角色一致性、分镜设计、场景连贯性这些传统 AI 视频的硬伤。

适合人群：独立创作者、自媒体博主、小说作者想让文字可视化的人。

不适合：追求即开即用、不想配置 API 的用户。

GitHub 5.4k Stars，MIT 协议可以免费商用，感兴趣的话可以先跑个 Demo 试试水。

项目地址：https://github.com/HKUDS/ViMax