Alibaba's multimodal model family with vision-language capabilities. Used for image understanding, captioning, and combined text-image tasks.

Architecture

Multimodal Transformer

Prompting style

Natural language

Qwen