Guide

视觉理解 — 图像与视频多模态分析

ClaudeYY 视觉理解功能指南,使用 GPT-4o、Claude、Gemini 等多模态模型分析图像和视频,支持 URL 和 Base64 输入

guidesImported5/12/2026

视觉理解 — 图像与视频多模态分析 | ClaudeYY Docs

视觉理解

ClaudeYY 支持多模态模型的视觉输入,可以分析图像、截图、文档和视频内容。

支持的模型

模型图像视频说明
openai/gpt-4o高质量图像分析
openai/gpt-4o-mini快速图像分析
anthropic/claude-sonnet-4.6强大的文档和代码理解
google/gemini-3.1-flash-lite-preview多模态全能
google/gemini-3.1-pro-preview最强多模态推理

图像分析

通过 URL 发送图像

cURL

Terminal

Terminal
curl https://claude.claudeyy.com/v1/chat/completions \
  -H "Authorization: Bearer $OFOX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "描述这张图片的内容"},
        {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
      ]
    }]
  }'

Python

vision_url.py

Terminal
from openai import OpenAI
 
client = OpenAI(
    base_url="https://claude.claudeyy.com/v1",
    api_key="<你的 CLAUDEYY_API_KEY>"
)
 
response = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "描述这张图片的内容"},
            {
                "type": "image_url",
                "image_url": {"url": "https://example.com/photo.jpg"}
            }
        ]
    }]
)
 
print(response.choices[0].message.content)

TypeScript

vision_url.ts

Terminal
const response = await client.chat.completions.create({
  model: 'openai/gpt-4o',
  messages: [{
    role: 'user',
    content: [
      { type: 'text', text: '描述这张图片的内容' },
      {
        type: 'image_url',
        image_url: { url: 'https://example.com/photo.jpg' }
      }
    ]
  }]
})

通过 Base64 发送图像

适用于本地文件或截图场景:

vision_base64.py

Terminal
import base64
 
# 读取本地图片
with open("screenshot.png", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")
 
response = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这个截图里显示了什么?"},
            {
                "type": "image_url",
                "image_url": {
                    "url": f"data:image/png;base64,{image_data}"
                }
            }
        ]
    }]
)

图像细节级别

通过 detail 参数控制分析精度:

说明适用场景
auto自动选择(默认)一般场景
low低精度,更快速简单分类、标签识别
high高精度,更详细文档 OCR、细节分析
Terminal
{
    "type": "image_url",
    "image_url": {
        "url": "https://example.com/document.jpg",
        "detail": "high"  # 高精度模式
    }
}

多图对比

可以在一个请求中发送多张图片:

Terminal
response = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "比较这两张图片的区别"},
            {"type": "image_url", "image_url": {"url": "https://example.com/before.jpg"}},
            {"type": "image_url", "image_url": {"url": "https://example.com/after.jpg"}}
        ]
    }]
)

Anthropic 协议的视觉输入

Terminal
import anthropic
 
client = anthropic.Anthropic(
    base_url="https://claude.claudeyy.com/anthropic",
    api_key="<你的 CLAUDEYY_API_KEY>"
)
 
message = client.messages.create(
    model="anthropic/claude-sonnet-4.6",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {
                    "type": "base64",
                    "media_type": "image/jpeg",
                    "data": image_data
                }
            },
            {"type": "text", "text": "描述这张图片"}
        ]
    }]
)

常见用例

  • 文档 OCR — 提取图片中的文字和表格
  • 代码截图分析 — 分析截图中的代码并提供修改建议
  • UI 审查 — 分析界面设计和布局
  • 图表解读 — 分析数据图表和可视化内容
  • 产品识别 — 识别图片中的物体和场景
API 文档指南