Sana 是英伟达开源的高效图像视频生成框架,支持 4K 图片和 720p 视频合成。Linear DiT 架构带来 40 倍加速,8GB 显存即可运行。内置 SANA-Sprint 单步扩散、SANA-Video 等多个版本,已集成 diffusers/ComfyUI/SGLang 生态。

🎤 引言

做 AI 绘画的都知道,SDXL 生成一张图得多慢?Flux 跑起来显存吃得凶。但 Sana 就不一样了——同样是 1.6B 参数,它愣是比传统 DiT 快 40 倍,4K 图片 20 秒出,还能跑在 8GB 显存的卡上。

这背后是英伟达团队搞的 Linear DiT 架构,把 Attention 换成线性复杂度,直接省下一大截计算量。Sana 已经被 ICLR 2025/2026 连续收录为 Oral,顶会背书够硬。


⭐ 核心功能

Sana 不是单一模型,是一整套生成方案:

1. 图像生成(SANA)

  • 最高 4096×4096 分辨率,1.6B 参数
  • 4bit 量化版本仅需 8GB 显存
  • 支持多语言(Emoji、中文、英文)

2. 单步扩散(SANA-Sprint)

  • 一步生成图片,H100 上 0.1 秒出图
  • RTX 4090 也只需要 0.3 秒
  • 已集成到 diffusers

3. 视频生成(SANA-Video)

  • 支持 720p、1 分钟视频
  • 已登陆 ICLR-2026 Oral
  • 配合 LTX-2 Refiner 可 upscale 到 2K

4. 世界模型(SANA-WM)

  • 2.6B 参数,720p 6-DoF 相机控制
  • 用于机器人仿真、 embodied AI

5. 强化学习后训练(Sol-RL)

  • 支持 SANA、FLUX.1、SD3.5-L 的 RL 训练
  • NVFP4 量化推理,BF16 训练

📥 安装使用

Sana 已经集成到主流工具,直接用就行:

Diffusers(最简单)

from diffusers import SanaPipeline

pipe = SanaPipeline.from_pretrained(
    "Efficient-Large-Model/Sana_1600M_1024px_BF16"
)
image = pipe("a cute cat").images[0]
image.save("output.png")

SGLang(高性能服务)

pip install sglang
python -m sglang.launch_server --model-path Efficient-Large-Model/Sana_1600M_1024px_BF16

ComfyUI
直接安装 ComfyUI_ExtraModels,有 Sana 专属节点。

本地部署

git clone https://github.com/NVlabs/Sana
cd Sana
pip install -e .

显存不够?用 4bit 量化版本,8GB 显存就能跑 4K 图。


🎯 适用场景

  • 设计师:需要快速出 4K 概念图,Sana 比 SDXL 快得多
  • AI 视频创作者:SANA-Video 做短片,ICLR-2026 Oral 加持
  • 研究者:Sol-RL 做 RL 后训练,代码全开源
  • 开发者:SGLang 部署推理服务,OpenAI 兼容 API
  • 硬件有限的玩家:8GB 显存跑 4K,门槛低很多

🔍 对比/替代方案

方案参数量速度显存需求生态
Sana1.6B40×加速8GB (4bit)diffusers/SGLang/ComfyUI
SDXL3.5B基准12GB成熟
Flux12B24GBComfyUI
Playground2.5B中等16GB独立

Sana 的优势在于速度和生态,跟 SGLang/diffusers/ComfyUI 都打通,不用担心踩坑。


⚠️ 注意事项

  1. 显存不够选 4bit:官方推荐 8GB 显存用 4bit 量化版本
  2. 视频生成需要好卡:SANA-Video 推荐 3090 或 H100
  3. Windows 支持有限:主要在 Linux 测试,Windows 可能需要 WSL
  4. 视频时长限制:SANA-Video 最长 1 分钟,更长要用 LongSANA
  5. 模型权重较大:HuggingFace 下载可能需要代理

✅ 总结

Sana 是英伟达出品的高效图像视频生成框架,Linear DiT 架构带来了实打实的速度提升。4K 图片 20 秒出、8GB 显存跑起来、顶会 Oral 论文加持,这些都让 Sana 成为值得关注的开源项目。

优点

  • ✅ 速度快(40× 加速)
  • ✅ 显存需求低(8GB 即可)
  • ✅ 生态完整(diffusers/ComfyUI/SGLang)
  • ✅ 视频+图片双修

缺点

  • ❌ Windows 支持一般
  • ❌ 视频最长 1 分钟
  • ❌ 社区还在成长

总体来说,如果你想要一个高效、易用、还不用堆硬件的 AI 生成工具,Sana 值得试试。
项目地址:https://github.com/NVlabs/Sana