返回模型列表
Meta: Llama 3.2 11B Vision Instruct
meta-llama/llama-3.2-11b-vision-instructSep 25, 2024131.1K 上下文16.4K 最大输出$0.24/M in · $0.24/M out
描述
Llama 3.2 11B Vision 是一款参数量 110 亿的多模态模型,用于处理结合视觉与文本数据的任务。它在图像描述、视觉问答等任务上表现出色,能够衔接语言生成与视觉推理。该模型基于海量图文对数据进行预训练,可胜任复杂且高精度的图像分析。
视觉理解与语言处理的整合能力,使其适用于内容创作、AI 客服、科研等需要综合视觉-语言 AI 应用的行业。
使用该模型须遵守 Meta 可接受使用政策。
技术规格
供应商
meta-llama
上下文长度
131.1K
最大输出
16.4K
模态类型
输入textimage
输出text
定价
| 类型 | 价格 / 百万 Token |
|---|---|
| 输入 | $0.24 |
| 输出 | $0.24 |
快速开始
curl https://api.ominigate.ai/v1/chat/completions \
-H "Authorization: Bearer sk-omg-your-api-key" \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/llama-3.2-11b-vision-instruct",
"messages": [{"role": "user", "content": "Hello!"}]
}'