Sana 是英伟达开源的高效图像视频生成框架,支持 4K 图片和 720p 视频合成。Linear DiT 架构带来 40 倍加速,8GB 显存即可运行。内置 SANA-Sprint 单步扩散、SANA-Video 等多个版本,已集成 diffusers/ComfyUI/SGLang 生态。
🎤 引言
做 AI 绘画的都知道,SDXL 生成一张图得多慢?Flux 跑起来显存吃得凶。但 Sana 就不一样了——同样是 1.6B 参数,它愣是比传统 DiT 快 40 倍,4K 图片 20 秒出,还能跑在 8GB 显存的卡上。
这背后是英伟达团队搞的 Linear DiT 架构,把 Attention 换成线性复杂度,直接省下一大截计算量。Sana 已经被 ICLR 2025/2026 连续收录为 Oral,顶会背书够硬。
⭐ 核心功能
Sana 不是单一模型,是一整套生成方案:
1. 图像生成(SANA)
- 最高 4096×4096 分辨率,1.6B 参数
- 4bit 量化版本仅需 8GB 显存
- 支持多语言(Emoji、中文、英文)
2. 单步扩散(SANA-Sprint)
- 一步生成图片,H100 上 0.1 秒出图
- RTX 4090 也只需要 0.3 秒
- 已集成到 diffusers
3. 视频生成(SANA-Video)
- 支持 720p、1 分钟视频
- 已登陆 ICLR-2026 Oral
- 配合 LTX-2 Refiner 可 upscale 到 2K
4. 世界模型(SANA-WM)
- 2.6B 参数,720p 6-DoF 相机控制
- 用于机器人仿真、 embodied AI
5. 强化学习后训练(Sol-RL)
- 支持 SANA、FLUX.1、SD3.5-L 的 RL 训练
- NVFP4 量化推理,BF16 训练
📥 安装使用
Sana 已经集成到主流工具,直接用就行:
Diffusers(最简单)
from diffusers import SanaPipeline
pipe = SanaPipeline.from_pretrained(
"Efficient-Large-Model/Sana_1600M_1024px_BF16"
)
image = pipe("a cute cat").images[0]
image.save("output.png")SGLang(高性能服务)
pip install sglang
python -m sglang.launch_server --model-path Efficient-Large-Model/Sana_1600M_1024px_BF16ComfyUI
直接安装 ComfyUI_ExtraModels,有 Sana 专属节点。
本地部署
git clone https://github.com/NVlabs/Sana
cd Sana
pip install -e .显存不够?用 4bit 量化版本,8GB 显存就能跑 4K 图。
🎯 适用场景
- 设计师:需要快速出 4K 概念图,Sana 比 SDXL 快得多
- AI 视频创作者:SANA-Video 做短片,ICLR-2026 Oral 加持
- 研究者:Sol-RL 做 RL 后训练,代码全开源
- 开发者:SGLang 部署推理服务,OpenAI 兼容 API
- 硬件有限的玩家:8GB 显存跑 4K,门槛低很多
🔍 对比/替代方案
| 方案 | 参数量 | 速度 | 显存需求 | 生态 |
|---|---|---|---|---|
| Sana | 1.6B | 40×加速 | 8GB (4bit) | diffusers/SGLang/ComfyUI |
| SDXL | 3.5B | 基准 | 12GB | 成熟 |
| Flux | 12B | 慢 | 24GB | ComfyUI |
| Playground | 2.5B | 中等 | 16GB | 独立 |
Sana 的优势在于速度和生态,跟 SGLang/diffusers/ComfyUI 都打通,不用担心踩坑。
⚠️ 注意事项
- 显存不够选 4bit:官方推荐 8GB 显存用 4bit 量化版本
- 视频生成需要好卡:SANA-Video 推荐 3090 或 H100
- Windows 支持有限:主要在 Linux 测试,Windows 可能需要 WSL
- 视频时长限制:SANA-Video 最长 1 分钟,更长要用 LongSANA
- 模型权重较大:HuggingFace 下载可能需要代理
✅ 总结
Sana 是英伟达出品的高效图像视频生成框架,Linear DiT 架构带来了实打实的速度提升。4K 图片 20 秒出、8GB 显存跑起来、顶会 Oral 论文加持,这些都让 Sana 成为值得关注的开源项目。
优点:
- ✅ 速度快(40× 加速)
- ✅ 显存需求低(8GB 即可)
- ✅ 生态完整(diffusers/ComfyUI/SGLang)
- ✅ 视频+图片双修
缺点:
- ❌ Windows 支持一般
- ❌ 视频最长 1 分钟
- ❌ 社区还在成长
总体来说,如果你想要一个高效、易用、还不用堆硬件的 AI 生成工具,Sana 值得试试。
项目地址:https://github.com/NVlabs/Sana