百 AI 实战百科

多模态

AI基础 · AI基础 / 图片 / 语音 / 视频

一句话：AI 不只看文字

它是什么

多模态就是 AI 不只处理文字，还能理解图片、语音、视频、文件等内容。比如你发一张截图，它能看图说明问题；你上传 PDF，它能帮你总结重点。简单说，就是 AI 的"眼睛和耳朵"变多了。

适合干什么

识别截图里的问题
分析图片、表格、PDF
把语音或视频内容整理成文字

不适合干什么

不适合替代专业鉴定
不适合处理模糊、遮挡严重或来源不明的材料

普通人怎么用

你可以直接把截图、图片、PDF 发给 AI，再问：这是什么问题？怎么处理？帮我总结重点。

进阶用户怎么用

可以把多模态能力接入工作流，例如图片识别、票据提取、合同检查、网页截图分析。

常见误区

误以为 AI 看图就一定准确，实际上图片质量会严重影响结果
误以为上传文件后 AI 会完整理解所有细节，长文件仍然可能遗漏

和相似工具的区别

和纯文本模型不同：多模态模型可以看图片或文件
和 OCR 不同：OCR 主要识别文字，多模态还可以理解图像含义

入门步骤

上传清晰图片或文件
说明你想让 AI 看什么重点
让 AI 按清单输出结果