Custom_Nodes篇:ComfyUI-QwenVL反推节点

这个插件对于 ComfyUI 用户来说,实用性非常高,而且考虑到了不同的硬件配置需求

技术整合很到位:它直接把像 Qwen3-VL 这样领先的视觉语言模型带到了 ComfyUI 的节点式工作流中,让用户能以更直观的方式使用多模态能力,无论是图片分析还是未来的视频处理(根据介绍),都提供了强大的基础。它不仅追赶最新的 Qwen3-VL 模型,还保持对早期 Qwen2.5 的支持,这让拥有不同模型的用户都能受益。最值得称赞的是它加入了多种量化(4-bit/8-bit)和模型缓存的选项。这意味着开发者清晰地认识到 VRAM 是限制许多 AI 玩家的主要瓶颈,通过这些优化,可以让更多配置没那么“壕”的用户也能体验到高性能 VL 模型,这大大提升了它的普及潜力。

总体来看,这是一个强大、灵活且注重实用的节点集,为 ComfyUI 的多模态能力添加了重要的一块拼图。

节点官方介绍:

ComfyUI-QwenVL 自定义节点集成了 Qwen-VL 系列,包括最新的 Qwen3-VL 型号,以及 Qwen2.5-VL 和最新的 Qwen3-VL,从而实现了用于生成文本、图像理解和视频分析的高级多模态 AI。


开源地址:https://github.com/1038lab/ComfyUI-QwenVL

ComfyUI-QwenVL 自定义节点集成了阿里云强大的 Qwen-VL 系列视觉语言模型 (LVLM),包括最新的 Qwen3-VL 和 Qwen2.5-VL。该高级节点可在 ComfyUI 工作流程中实现无缝的多模态 AI 功能,从而高效地生成文本、理解图像和分析视频。

✨ 特点

  • 标准节点和高级节点:包含一个用于快速使用的简单 QwenVL 节点和一个可对生成进行精细控制的 QwenVL(高级)节点。
  • 预设和自定义提示:您可以从一系列便捷的预设提示中进行选择,也可以编写自己的提示以实现完全控制。
  • 多型号支持:轻松切换各种官方 Qwen-VL 型号。
  • 自动模型下载:模型会在首次使用时自动下载。
  • 智能量化:通过 4 位、8 位和 FP16 选项平衡 VRAM 和性能。
  • 硬件感知:自动检测 GPU 功能,防止与不兼容的型号(例如 FP8)发生错误。
  • 可复现生成:使用种子参数以获得一致的输出。
  • 内存管理:“保持模型加载”选项可将模型保留在 VRAM 中,以加快处理速度。
  • 图像和视频支持:接受单个图像和视频帧序列作为输入。
  • 强大的错误处理能力:针对硬件或内存问题提供清晰的错误消息。
  • 简洁的控制台输出:运行期间输出简洁明了的控制台日志。Flash -Attention v2 集成:可用时自动启用,以加快注意力层速度。Torch 编译优化:可选的 JIT 编译,use_torch_compile以提高吞吐量。 高级设备处理:自动检测 CUDA、Apple Silicon (MPS) 或 CPU;可手动覆盖。 动态内存强制执行:根据 VRAM 可用性自动调整量化级别。

🚀 安装

  1. 将此仓库克隆到您的 ComfyUI/custom_nodes 目录:cd ComfyUI/custom\_nodes git clone https://github.com/1038lab/ComfyUI-QwenVL.git
  2. 安装所需的依赖项:cd ComfyUI/custom_nodes/ComfyUI-QwenVL pip install -r requirements.txt
  3. 重启ComfyUI。

📥 下载模型

首次使用时,模型将自动下载。如果您希望手动下载,请将其放置在 ComfyUI/models/LLM/Qwen-VL/ 目录中。

模型关联
Qwen3-VL-2B-指令下载
Qwen3-VL-2B-思考下载
Qwen3-VL-2B-指令-FP8下载
Qwen3-VL-2B-思考-FP8下载
Qwen3-VL-4B-指令下载
Qwen3-VL-4B-思考下载
Qwen3-VL-4B-指令-FP8下载
Qwen3-VL-4B-思考-FP8下载
Qwen3-VL-8B-指令下载
Qwen3-VL-8B-思考下载
Qwen3-VL-8B-指令-FP8下载
Qwen3-VL-8B-思考-FP8下载
Qwen3-VL-32B-指令下载
Qwen3-VL-32B-思考下载
Qwen3-VL-32B-指令-FP8下载
Qwen3-VL-32B-思考-FP8下载
Qwen2.5-VL-3B-指令下载
Qwen2.5-VL-7B-指令下载

📖 用法

基本用法

  1. 从 🧪AILab/QwenVL 类别中添加“QwenVL”节点。
  2. 选择您要使用的模型名称。
  3. 将图像或视频(图像序列)源连接到节点。
  4. 您可以使用预设字段或自定义字段编写提示信息。
  5. 运行工作流程。

高级用法

如需更精细的控制,请使用“QwenVL(高级)”节点。该节点可让您访问详细的生成参数,例如温度、top_p、光束搜索和器件选择。

⚙️ 参数

范围描述默认范围节点
模型名称要使用的Qwen-VL模型。Qwen3-VL-4B-指令标准版和高级版
量化即时量化。对于预量化模型(例如 FP8),此操作将被忽略。8 位(平衡)4 位、8 位、无标准版和高级版
注意模式注意后端。auto如果可用,则尝试使用 Flash-Attn v2,否则回退到 SDPA。汽车自动、闪光灯_注意_2、SDPA标准版和高级版
使用 torch 编译启用torch.compile('reduce-overhead')以提高 CUDA 吞吐量(Torch 2.1+)。仅限高级用户
设备取消自动设备选择。汽车自动、CUDA、CPU仅限高级用户
预设提示针对常见任务的一系列预定义提示。请描述一下……任何文本标准版和高级版
自定义提示如果提供了预设提示,则覆盖该提示。任何文本标准版和高级版
最大令牌数要生成的新代币的最大数量。102464-2048标准版和高级版
保持模型加载将模型保存在显存中,以便后续运行速度更快。真的真/假标准版和高级版
种子可重复结果的种子。11 – 2^64-1标准版和高级版
温度控制随机性。数值越高,随机性越强。(当 num_beams 为 1 时使用)。0.60.1-1.0仅限高级用户
顶部_p细胞核采样阈值。(当 num_beams 为 1 时使用)。0.90.0-1.0仅限高级用户
光束数用于光束搜索的光束数量。大于 1 则禁用温度/top_p 采样。11-10仅限高级用户
重复惩罚不鼓励重复使用令牌。1.20.0-2.0仅限高级用户
帧数要从视频输入中采样的帧数。161-64仅限高级用户

💡 量化选项

模式精确内存使用情况速度质量推荐用于
无(FP16)16 位浮点数高的最快最好的高显存显卡(16GB+)
8 位(平衡)8位整数中等的快速地非常好均衡性能(8GB+)
4 位(对显存友好)4位整数低的慢点*好的低显存显卡(<8GB)

*关于 4 位速度的说明:4 位量化可以显著降低 VRAM 使用量,但由于实时反量化的计算开销,可能会导致某些系统的性能变慢。

🤔 设置技巧

环境推荐
模型选择对于大多数用户来说,Qwen3-VL-4B-Instruct 是一个很好的起点。如果您使用的是 40 系列 GPU,请尝试使用 -FP8 版本以获得更好的性能。
内存模式如果您计划多次运行该节点,请保持 keep_model_loaded 启用(True)以获得最佳性能。仅当其他节点的显存不足时才禁用它。
量子化首先使用默认的 8 位模式。如果显存充足(>16GB),请切换到“无”(FP16)模式以获得最佳速度和质量。如果显存不足,请使用 4 位模式。
表现首次使用特定量化方式加载模型时,速度可能会较慢。后续运行(启用 keep_model_loaded 参数)速度会快得多。

🧠 关于模型

该节点采用阿里云Qwen团队开发的Qwen-VL系列模型。这些强大的开源大型视觉语言模型(LVLM)旨在理解和处理视觉和文本信息,因此非常适合图像和视频详细描述等任务。