← AI 百科

多模态(Multimodal)

AI基础 · AI基础 / 多模态
一句话:AI 不只能处理文字,还能同时理解图片、语音、视频,多种信息类型混着输入输出。

它是什么

早期的AI大多只处理纯文字。多模态模型可以"看懂"图片(比如识别截图里的报错信息、分析产品图)、"听懂"语音,甚至理解视频内容,输出也可以不止是文字。现在主流大模型(如GPT-4o、Claude、Gemini)基本都支持图文混合输入。

适合干什么

  • 需要AI分析图片/截图(比如报错截图、产品图、设计稿)
  • 语音转文字、图文一起理解的场景
  • 扫描文档/表格图片直接提取内容

不适合干什么

  • 需要极高精度的专业图像识别场景(如医学影像诊断),通用多模态模型不能替代专用模型

普通人怎么用

遇到问题直接把截图丢给支持图片的AI(如把报错截图、界面截图发给Claude/ChatGPT),比打字描述半天更快更准。

进阶用户怎么用

多模态输入时,文字提示词要明确告诉AI"重点看图片的哪个部分",不要指望AI自己猜你想问什么;处理多张图时注意上下文顺序对理解结果的影响。

常见误区

  • 以为所有AI工具都支持图片输入,实际要看具体产品和套餐是否开放这个能力
  • 把多模态和"生成图片"搞混,多模态说的是理解/输入多种类型信息,不等于会画图

和相似工具的区别

  • 和 OCR 的区别:OCR专门是把图片里的文字提取出来,多模态是更广义的"理解图片内容",包括描述画面、判断情绪、看懂图表等,覆盖范围更大

入门步骤

  • 确认你用的AI工具/套餐支持图片输入
  • 直接拖拽或粘贴图片到对话框
  • 配合文字说明你想让AI关注图片的哪个部分