← AI 百科

多模态

AI基础 · AI基础 / 图片 / 语音 / 视频
一句话:AI 不只看文字

它是什么

多模态就是 AI 不只处理文字,还能理解图片、语音、视频、文件等内容。比如你发一张截图,它能看图说明问题;你上传 PDF,它能帮你总结重点。简单说,就是 AI 的"眼睛和耳朵"变多了。

适合干什么

  • 识别截图里的问题
  • 分析图片、表格、PDF
  • 把语音或视频内容整理成文字

不适合干什么

  • 不适合替代专业鉴定
  • 不适合处理模糊、遮挡严重或来源不明的材料

普通人怎么用

你可以直接把截图、图片、PDF 发给 AI,再问:这是什么问题?怎么处理?帮我总结重点。

进阶用户怎么用

可以把多模态能力接入工作流,例如图片识别、票据提取、合同检查、网页截图分析。

常见误区

  • 误以为 AI 看图就一定准确,实际上图片质量会严重影响结果
  • 误以为上传文件后 AI 会完整理解所有细节,长文件仍然可能遗漏

和相似工具的区别

  • 和纯文本模型不同:多模态模型可以看图片或文件
  • 和 OCR 不同:OCR 主要识别文字,多模态还可以理解图像含义

入门步骤

  • 上传清晰图片或文件
  • 说明你想让 AI 看什么重点
  • 让 AI 按清单输出结果