图搜图

根据输入图片搜索互联网中的视觉相似结果,并让模型基于搜索结果进行描述、推荐与推理

概述

图搜图依赖百炼侧的 image_search 工具。Ling.AI 不会自行执行以图搜图,而是把工具配置与多模态输入原样透传给上游。当前该能力仅支持通过 Responses API 调用

输入要求

请求体中的 input 必须包含图片内容,通常以 input_image 传入公网图片 URL;如需补充约束,也可同时传入 input_text 描述搜索目标、风格或用途。

适用场景

适合以图找同款、风格参考、视觉内容溯源、相似配图推荐等场景。模型会先触发 image_search,再基于返回的相似图片列表生成自然语言回复。

Responses API

/v1/responses 中,通过多模态 input 传入文本和图片,并在 tools 中声明 image_search 即可。

Python
from openai import OpenAI

client = OpenAI(
    base_url="https://api.vip.lingapi.ai/v1",
    api_key="sk-xxxxxxxx"
)

input_content = [
    {"type": "input_text", "text": "找与这张图相似风格的风景图"},
    {
        "type": "input_image",
        "image_url": "https://img.alicdn.com/imgextra/i4/O1CN01YbrnSS1qtmsAkw0Ud_!!6000000005554-2-tps-788-450.png"
    }
]

response = client.responses.create(
    model="qwen3.5-plus",
    input=[
        {
            "role": "user",
            "content": input_content
        }
    ],
    tools=[
        {"type": "image_search"}
    ]
)

print(response.output_text)

若需要查看工具执行细节,可遍历 response.output。图搜图工具的输出项类型通常为 image_search_call;如果上游返回工具统计,常见字段是 usage.x_tools.image_search.count

流式输出

图搜图处理时间通常长于普通文本请求,建议开启 stream=True。流式场景中,工具开始事件常见为 response.output_item.added,完成事件为 response.output_item.done,对应项类型通常是 image_search_call

返回结果

上游通常会把搜索到的相似图片列表编码到工具输出中,模型再根据这些结果生成总结、比较或推荐。若您需要自己展示图片列表,可以优先解析工具输出,再决定是否渲染模型的自然语言说明。

计费说明

  • 图片搜索结果会进入模型上下文,因此会增加输入 Token 成本。
  • 工具调用价格按系统内置官方默认值处理:每 1000 次 48 元
  • 当前工具计费链路已支持识别 image_search_call 并映射到 image_search 工具名称。