返回模型列表

Meta: Llama 3.2 11B Vision Instruct

meta-llama/llama-3.2-11b-vision-instruct
Sep 25, 2024131.1K 上下文16.4K 最大输出$0.24/M in · $0.24/M out

描述

Llama 3.2 11B Vision 是一款参数量 110 亿的多模态模型,用于处理结合视觉与文本数据的任务。它在图像描述、视觉问答等任务上表现出色,能够衔接语言生成与视觉推理。该模型基于海量图文对数据进行预训练,可胜任复杂且高精度的图像分析。

视觉理解与语言处理的整合能力,使其适用于内容创作、AI 客服、科研等需要综合视觉-语言 AI 应用的行业。

原始模型卡

使用该模型须遵守 Meta 可接受使用政策

技术规格

供应商
meta-llama
上下文长度
131.1K
最大输出
16.4K
模态类型
输入textimage
输出text

定价

类型价格 / 百万 Token
输入$0.24
输出$0.24

快速开始

curl https://api.ominigate.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-omg-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/llama-3.2-11b-vision-instruct",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'