🎬 Sana：英伟达高分辨率图像视频生成开源AI绘画利器 4K画质支持

Sana 是英伟达开源的高效图像视频生成框架，支持 4K 图片和 720p 视频合成。Linear DiT 架构带来 40 倍加速，8GB 显存即可运行。内置 SANA-Sprint 单步扩散、SANA-Video 等多个版本，已集成 diffusers/ComfyUI/SGLang 生态。

🎤 引言

做 AI 绘画的都知道，SDXL 生成一张图得多慢？Flux 跑起来显存吃得凶。但 Sana 就不一样了——同样是 1.6B 参数，它愣是比传统 DiT 快 40 倍，4K 图片 20 秒出，还能跑在 8GB 显存的卡上。

这背后是英伟达团队搞的 Linear DiT 架构，把 Attention 换成线性复杂度，直接省下一大截计算量。Sana 已经被 ICLR 2025/2026 连续收录为 Oral，顶会背书够硬。

⭐ 核心功能

Sana 不是单一模型，是一整套生成方案：

1. 图像生成（SANA）

最高 4096×4096 分辨率，1.6B 参数
4bit 量化版本仅需 8GB 显存
支持多语言（Emoji、中文、英文）

2. 单步扩散（SANA-Sprint）

一步生成图片，H100 上 0.1 秒出图
RTX 4090 也只需要 0.3 秒
已集成到 diffusers

3. 视频生成（SANA-Video）

支持 720p、1 分钟视频
已登陆 ICLR-2026 Oral
配合 LTX-2 Refiner 可 upscale 到 2K

4. 世界模型（SANA-WM）

2.6B 参数，720p 6-DoF 相机控制
用于机器人仿真、 embodied AI

5. 强化学习后训练（Sol-RL）

支持 SANA、FLUX.1、SD3.5-L 的 RL 训练
NVFP4 量化推理，BF16 训练

📥 安装使用

Sana 已经集成到主流工具，直接用就行：

Diffusers（最简单）

from diffusers import SanaPipeline

pipe = SanaPipeline.from_pretrained(
    "Efficient-Large-Model/Sana_1600M_1024px_BF16"
)
image = pipe("a cute cat").images[0]
image.save("output.png")

SGLang（高性能服务）

pip install sglang
python -m sglang.launch_server --model-path Efficient-Large-Model/Sana_1600M_1024px_BF16

ComfyUI
直接安装 ComfyUI_ExtraModels，有 Sana 专属节点。

本地部署

git clone https://github.com/NVlabs/Sana
cd Sana
pip install -e .

显存不够？用 4bit 量化版本，8GB 显存就能跑 4K 图。

🎯 适用场景

设计师：需要快速出 4K 概念图，Sana 比 SDXL 快得多
AI 视频创作者：SANA-Video 做短片，ICLR-2026 Oral 加持
研究者：Sol-RL 做 RL 后训练，代码全开源
开发者：SGLang 部署推理服务，OpenAI 兼容 API
硬件有限的玩家：8GB 显存跑 4K，门槛低很多

🔍 对比/替代方案

方案	参数量	速度	显存需求	生态
Sana	1.6B	40×加速	8GB (4bit)	diffusers/SGLang/ComfyUI
SDXL	3.5B	基准	12GB	成熟
Flux	12B	慢	24GB	ComfyUI
Playground	2.5B	中等	16GB	独立

Sana 的优势在于速度和生态，跟 SGLang/diffusers/ComfyUI 都打通，不用担心踩坑。

⚠️ 注意事项

显存不够选 4bit：官方推荐 8GB 显存用 4bit 量化版本
视频生成需要好卡：SANA-Video 推荐 3090 或 H100
Windows 支持有限：主要在 Linux 测试，Windows 可能需要 WSL
视频时长限制：SANA-Video 最长 1 分钟，更长要用 LongSANA
模型权重较大：HuggingFace 下载可能需要代理

✅ 总结

Sana 是英伟达出品的高效图像视频生成框架，Linear DiT 架构带来了实打实的速度提升。4K 图片 20 秒出、8GB 显存跑起来、顶会 Oral 论文加持，这些都让 Sana 成为值得关注的开源项目。

优点：

✅ 速度快（40× 加速）
✅ 显存需求低（8GB 即可）
✅ 生态完整（diffusers/ComfyUI/SGLang）
✅ 视频+图片双修

缺点：

❌ Windows 支持一般
❌ 视频最长 1 分钟
❌ 社区还在成长

总体来说，如果你想要一个高效、易用、还不用堆硬件的 AI 生成工具，Sana 值得试试。
项目地址：https://github.com/NVlabs/Sana