← AI 百科

Langfuse:给 AI 应用加日志、监控和效果评估

Skills/工作流 · GitHub项目
一句话:Langfuse 是一个开源 LLM 工程平台,用来记录 AI 请求、Prompt、输出、成本、延迟和评分。它适合已经开始做 AI 客服、AI Agent、RAG 知识库、自动化流程的团队,用来排查为什么回答错、哪里花钱多、哪个 Prompt 效果好。

它是什么

很多团队做 AI 应用时只看到最终回答,看不到中间发生了什么。Langfuse 会记录每次调用的输入、模型、输出、耗时、费用、用户反馈和链路,方便调试和优化。

适合干什么

  • 监控 AI 客服为什么答错问题
  • 对比不同 Prompt 和模型的成本与效果
  • 记录 RAG 检索到了哪些文档,方便排查知识库问题
  • 给 AI 自动化流程增加调用日志和质量评分

不适合干什么

  • 不适合只偶尔用 ChatGPT 的个人用户,配置成本不值得
  • 日志里可能包含客户隐私,必须做脱敏、权限控制和数据保留策略
  • 不是替代模型的平台,它是监控和评估层

常见误区

    和相似工具的区别

    • 和普通日志系统比:Langfuse 更懂 LLM trace、Prompt、token、成本和评分。
    • 和 Helicone 比:Langfuse 更偏完整 LLM 应用观测和评估;Helicone 更偏 API 网关和调用监控。
    • 和手工 Excel 记录比:Langfuse 适合持续迭代;Excel 只适合早期少量测试。

    入门步骤