Langfuse を用いたプロンプト管理や出力評価の取り組み

1K Views

January 16, 26

スライド概要

LLMが本番で不安定なとき、何を見るべきか? 〜オブザーバビリティ×Langfuseの実運用事例〜(https://wake-career.connpass.com/event/377339/) 2025-1-16

profile-image

東京都内でエンジニアをしています

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Langfuseを用いたプロンプト管理と 出力評価:現状の取り組みと展望 LLMプロダクト本番運用安定化のヒントとコツ〜オブザーバビリティ・Langfuse活用事例から探る〜 2026.1.16 aki.ts@HedgehogPython

2.

Ueda Syoitu ハリネズミ・aki.ts KDDIアジャイル開発センター KDDI Agile Development Center Corporation ‹#›

3.

LLMOpsとは何か? KDDI Agile Development Center Corporation ‹#›

4.

LLMOpsとは何か LLMアプリケーション・AIエージェントの開発・運用・改善サイクルを継続的に回す ための運用体系であり、プロンプト管理や出力評価の自動化が基盤となる 多分良く なってるはず... LLMOpsしない場合 プロンプトをアプリケーションのリソースと 一緒にハードコーディングし 人間が実行結果を観察して改善されたと判断 したらデプロイする え? 何か手伝おうか? という作業を繰り返す 改善されないな このサービス 効率悪い上、改善効果の定量的な検証がない KDDI Agile Development Center Corporation ‹#›

5.

LLMOpsとは何か LLMアプリケーション・AIエージェントの開発・運用・改善サイクルを継続的に回す ための運用体系であり、プロンプト管理や出力評価の自動化が基盤となる プロンプトバージョンの管理 LLMOpsを導入した場合 プロンプトはアプリケーション から切り離され トレースデータ 実行結果 バージョン管理の対象となる 前のバージョンより0.1 上がりました! 今回の実行結果 0.8点ですね! 評価ワークフローにより実行結果 の評価が自動化され 評価ワークフロー 修正前後を比較できるため、改善を 数値で裏づけられる KDDI Agile Development Center Corporation ‹#›

6.

LLMOpsプラットフォーム クラウド統合型LLMOpsプラットフォーム 専用LLMOpsツール AgentCore(AWS) Langfuse Vertex AI(GCP) LangSmith Microsoft Foundry(Azure) VoltOps Console 専用LLMOpsツールの場合、欲しい機能 が先にリリースされることが多い KDDI Agile Development Center Corporation ‹#›

7.

Langfuseで実践するLLMOps KDDI Agile Development Center Corporation ‹#›

8.

Langfuseで実践するLLMOps LangfuseはLLMアプリのオブザーバビリティと評価を支えるためのプラットフォーム クラウド版・セルフホスティング版の両方に対応。 クレジットカード不要な 無料プランもある 主要なLLMフレー ムワークとシーム レスに統合できる KDDI Agile Development Center Corporation ‹#›

9.

Langfuseで実践するLLMOps-プロンプトマネージメント機能 プロンプトマネージメント機能では、Langfuse内でバージョン管理ができ、 各バージョンの差分確認やプロンプトラベルによる細かい管理が可能です。 SDK使って管理されているプロンプト をアプリからfetchして使用できます プロンプトキャッシュ、 プロンプトテンプレート構文 KDDI Agile Development Center Corporation ‹#›

10.

Langfuseで実践するLLMOps-トレース機能 トレース機能により、いつ、どのLLMアプリが、どの環境で、誰によって実行され、ど のような結果になったか、コストはいくらなのか、確認できます。 メタデータフィルターを含め、あらゆる粒度でトレースを絞り込める SDKを使用することで、トレースにプロンプ トバージョンのリンクを付与したり、人間か らのフィードバックを追加したりできる。 エクセルダウンロードも対応 KDDI Agile Development Center Corporation ‹#›

11.

Langfuseで実践するLLMOps-データセット機能 データセットは入力と期待される出力のペアで構成される。 トレースからデータセットへの変換、SDKを使用したデータセット作成の両対応 評価テストに使用され、モデル切り 替え後の性能検証に活用できる。 KDDI Agile Development Center Corporation ‹#›

12.

Langfuseで実践するLLMOps-LLM as a Judeg機能 Langfuseは、評価機能(LLM as a Judge)に3種類の評価ツールをサポートしている。 Langfuse、RAGAS組み込み評価ツール、およびカスタム評価ツールが利用可能。 正解率、忠実性、幻覚、毒性などの評価基 準は、組み込み評価ツールで測定可能。 KDDI Agile Development Center Corporation ‹#›

13.

Langfuseで実践するLLMOps-LLM as a Judeg機能 評価ツールを利用する際は、レビュー用モデルと評価対象(トレース・データセット) を選択し、評価用プロンプトのテンプレートにマッピングする必要があります。 評価モデルの選択 評価対象は新規、過去トレース またはデータセットから選べる トレースマッピングの際に プレビューも確認できる KDDI Agile Development Center Corporation ‹#›

14.

Langfuseで実践するLLMOps-LLM as a Judeg機能 設定完了後、評価ツールがアクティブ状態になり ターゲットのトレース・データセットに対して評価が実施される KDDI Agile Development Center Corporation ‹#›

15.

ここまではおさらい... ちゃんとした評価を行うのは複雑である KDDI Agile Development Center Corporation ‹#›

16.

AIエージェントの評価基準 AIエージェントの評価は、用途ごとに分けて細分化して考える必要がある コーディングエージェント 単体テストの用意 実装したコードテスト通るか? コード品質どうなのか? フレンドエージェント ユーザーエージェントを 用意して会話させる ターン数適切か? 会話のトーンは適切なのか? KDDI Agile Development Center Corporation ‹#›

17.

AIエージェントの評価基準 AIエージェントは人間の代理人なので、元々人間が行ったタスクのドメイン知識を把握 する必要がある。 業務ロジックが曖昧な場合、適切な評価を作ることもできない。 KDDI Agile Development Center Corporation ‹#›

18.

キミガタリとは? 物語作成・管理プラットフォーム 物語を作る上で色んな 便利機能が揃ってます KDDI Agile Development Center Corporation ‹#›

19.

キミガタリマンが作成機能 キミガタリでエピソードを作成していれば、それを一気にマンガ化できます。 OSS版 公開中 KDDI Agile Development Center Corporation ‹#›

20.

キミガタリマンが作成AIエージェントの課題 センスのないコマ割り 視線の送り方の失敗 KDDI Agile Development Center Corporation 参照の失敗 ‹#›

21.

Langfuseのマルチモーダリティ機能 Langfuseのマルチモーダリティ機能、テキスト、画像、音声、その他の添付ファイル対応 Images: .png, .jpg, .webp Audio files: .mpeg, .mp3, .wav Other attachments: .pdf, plain text タイプ付きのBase64 Data URIを送 るだけで、Langfuseが自動的に画像 としてトレースに追加してくれる。 KDDI Agile Development Center Corporation ‹#›

22.

キミガタリのLLMOps-マルチモーダリティ評価 トレース内容カスタマイズ 1.指示内容 2.参照データ 3.出力結果 KDDI Agile Development Center Corporation ‹#›

23.

キミガタリのLLMOps-マルチモーダリティ評価 マンが評価用のカスタマイズ評価ツールの作成 指示内容と画像データ を評価プロンプトに マッピングする KDDI Agile Development Center Corporation ‹#›

24.

キミガタリのLLMOps-マルチモーダリティ評価 マンが評価用のカスタマイズ評価ツール実行成功! gemini-3-pro-image-preview モデルのメディア解析オプション Langfrus上で有効化できないのが残念 KDDI Agile Development Center Corporation ‹#›

25.

これからのLLMOps、 特に評価はどうなります? KDDI Agile Development Center Corporation ‹#›

26.

これからのLLMOps 既存の評価ツール、スナップショット形式が多い中、 BloomがAnthropicから紹介された 記事によると、BloomはAnthropic社内で 使ってるAIエージェント評価フレームワーク https://www.anthropic.com/research/bloom KDDI Agile Development Center Corporation ‹#›

27.

これからのLLMOps Bloomの特性:テスト設計 + 実行 + 採点 ショッピング AIエージェント のトレース プロンプトインジェクション耐性 に対して評価してほしい 自動的にテストシナリオが作成され、レポートまで作成してくれた。 評価フローが組みにくい・データが少ない場合、Bloomが有効かもしれない。 KDDI Agile Development Center Corporation ‹#›

28.

社外秘X Be a Change Leader. アジャイルに力を与え 共に成長し続ける社会を創る