Langfuse を用いたプロンプト管理や出力評価の取り組み

4.1K Views

January 16, 26

#キミガタリ #langfuse #LLMOps #Langfuse #プロンプト管理 #出力評価 #AIエージェント

スライド概要

LLMが本番で不安定なとき、何を見るべきか？〜オブザーバビリティ×Langfuseの実運用事例〜(https://wake-career.connpass.com/event/377339/) 2025-1-16

Syoitu Den

@harinezumi

スライド一覧

東京都内でエンジニアをしています

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

やさしいClaude Skills入門

claude skills キミガタリ agent skills

Syoitu Den 101.7K

やさしいループエンジニアリング入門

mastra ループエンジニアリング loop

Syoitu Den 70.6K

Amazon Bedrock使って deep researchを実装する

Syoitu Den 52.4K

AIエージェントメモリの話

mastra agentcore aimemory

Syoitu Den 22.2K

プロダクトで利用するMCPのガードレール

mastra aws bedrock guardrails キミガタリ

Syoitu Den 18.2K

CDK使ったAmazon Bedrock Agent構築

Syoitu Den 15K

各ページのテキスト

Langfuseを用いたプロンプト管理と出力評価：現状の取り組みと展望 LLMプロダクト本番運用安定化のヒントとコツ〜オブザーバビリティ・Langfuse活用事例から探る〜 2026.1.16 aki.ts@HedgehogPython

Ueda Syoitu ハリネズミ・aki.ts KDDIアジャイル開発センター KDDI Agile Development Center Corporation ‹#›

LLMOpsとは何か？ KDDI Agile Development Center Corporation ‹#›

LLMOpsとは何か LLMアプリケーション・AIエージェントの開発・運用・改善サイクルを継続的に回すための運用体系であり、プロンプト管理や出力評価の自動化が基盤となる多分良くなってるはず... LLMOpsしない場合プロンプトをアプリケーションのリソースと一緒にハードコーディングし人間が実行結果を観察して改善されたと判断したらデプロイするえ？何か手伝おうか？という作業を繰り返す改善されないなこのサービス効率悪い上、改善効果の定量的な検証がない KDDI Agile Development Center Corporation ‹#›

LLMOpsとは何か LLMアプリケーション・AIエージェントの開発・運用・改善サイクルを継続的に回すための運用体系であり、プロンプト管理や出力評価の自動化が基盤となるプロンプトバージョンの管理 LLMOpsを導入した場合プロンプトはアプリケーションから切り離されトレースデータ実行結果バージョン管理の対象となる前のバージョンより0.1 上がりました! 今回の実行結果 0.8点ですね! 評価ワークフローにより実行結果の評価が自動化され評価ワークフロー修正前後を比較できるため、改善を数値で裏づけられる KDDI Agile Development Center Corporation ‹#›

LLMOpsプラットフォームクラウド統合型LLMOpsプラットフォーム専用LLMOpsツール AgentCore(AWS) Langfuse Vertex AI(GCP) LangSmith Microsoft Foundry(Azure) VoltOps Console 専用LLMOpsツールの場合、欲しい機能が先にリリースされることが多い KDDI Agile Development Center Corporation ‹#›

Langfuseで実践するLLMOps KDDI Agile Development Center Corporation ‹#›

Langfuseで実践するLLMOps LangfuseはLLMアプリのオブザーバビリティと評価を支えるためのプラットフォームクラウド版・セルフホスティング版の両方に対応。クレジットカード不要な無料プランもある主要なLLMフレームワークとシームレスに統合できる KDDI Agile Development Center Corporation ‹#›

Langfuseで実践するLLMOps-プロンプトマネージメント機能プロンプトマネージメント機能では、Langfuse内でバージョン管理ができ、各バージョンの差分確認やプロンプトラベルによる細かい管理が可能です。 SDK使って管理されているプロンプトをアプリからfetchして使用できますプロンプトキャッシュ、プロンプトテンプレート構文 KDDI Agile Development Center Corporation ‹#›

10.

Langfuseで実践するLLMOps-トレース機能トレース機能により、いつ、どのLLMアプリが、どの環境で、誰によって実行され、どのような結果になったか、コストはいくらなのか、確認できます。メタデータフィルターを含め、あらゆる粒度でトレースを絞り込める SDKを使用することで、トレースにプロンプトバージョンのリンクを付与したり、人間からのフィードバックを追加したりできる。エクセルダウンロードも対応 KDDI Agile Development Center Corporation ‹#›

11.

Langfuseで実践するLLMOps-データセット機能データセットは入力と期待される出力のペアで構成される。トレースからデータセットへの変換、SDKを使用したデータセット作成の両対応評価テストに使用され、モデル切り替え後の性能検証に活用できる。 KDDI Agile Development Center Corporation ‹#›

12.

Langfuseで実践するLLMOps-LLM as a Judeg機能 Langfuseは、評価機能(LLM as a Judge)に3種類の評価ツールをサポートしている。 Langfuse、RAGAS組み込み評価ツール、およびカスタム評価ツールが利用可能。正解率、忠実性、幻覚、毒性などの評価基準は、組み込み評価ツールで測定可能。 KDDI Agile Development Center Corporation ‹#›

13.

Langfuseで実践するLLMOps-LLM as a Judeg機能評価ツールを利用する際は、レビュー用モデルと評価対象(トレース・データセット) を選択し、評価用プロンプトのテンプレートにマッピングする必要があります。評価モデルの選択評価対象は新規、過去トレースまたはデータセットから選べるトレースマッピングの際にプレビューも確認できる KDDI Agile Development Center Corporation ‹#›

14.

Langfuseで実践するLLMOps-LLM as a Judeg機能設定完了後、評価ツールがアクティブ状態になりターゲットのトレース・データセットに対して評価が実施される KDDI Agile Development Center Corporation ‹#›

15.

ここまではおさらい... ちゃんとした評価を行うのは複雑である KDDI Agile Development Center Corporation ‹#›

16.

AIエージェントの評価基準 AIエージェントの評価は、用途ごとに分けて細分化して考える必要があるコーディングエージェント単体テストの用意実装したコードテスト通るか？コード品質どうなのか？フレンドエージェントユーザーエージェントを用意して会話させるターン数適切か？会話のトーンは適切なのか？ KDDI Agile Development Center Corporation ‹#›

17.

AIエージェントの評価基準 AIエージェントは人間の代理人なので、元々人間が行ったタスクのドメイン知識を把握する必要がある。業務ロジックが曖昧な場合、適切な評価を作ることもできない。 KDDI Agile Development Center Corporation ‹#›

18.

キミガタリとは? 物語作成・管理プラットフォーム物語を作る上で色んな便利機能が揃ってます KDDI Agile Development Center Corporation ‹#›

19.

キミガタリマンが作成機能キミガタリでエピソードを作成していれば、それを一気にマンガ化できます。 OSS版公開中 KDDI Agile Development Center Corporation ‹#›

20.

キミガタリマンが作成AIエージェントの課題センスのないコマ割り視線の送り方の失敗 KDDI Agile Development Center Corporation 参照の失敗 ‹#›

21.

Langfuseのマルチモーダリティ機能 Langfuseのマルチモーダリティ機能、テキスト、画像、音声、その他の添付ファイル対応 Images: .png, .jpg, .webp Audio files: .mpeg, .mp3, .wav Other attachments: .pdf, plain text タイプ付きのBase64 Data URIを送るだけで、Langfuseが自動的に画像としてトレースに追加してくれる。 KDDI Agile Development Center Corporation ‹#›

22.

キミガタリのLLMOps-マルチモーダリティ評価トレース内容カスタマイズ 1.指示内容 2.参照データ 3.出力結果 KDDI Agile Development Center Corporation ‹#›

23.

キミガタリのLLMOps-マルチモーダリティ評価マンが評価用のカスタマイズ評価ツールの作成指示内容と画像データを評価プロンプトにマッピングする KDDI Agile Development Center Corporation ‹#›

24.

キミガタリのLLMOps-マルチモーダリティ評価マンが評価用のカスタマイズ評価ツール実行成功! gemini-3-pro-image-preview モデルのメディア解析オプション Langfrus上で有効化できないのが残念 KDDI Agile Development Center Corporation ‹#›

25.

これからのLLMOps、特に評価はどうなります？ KDDI Agile Development Center Corporation ‹#›

26.

これからのLLMOps 既存の評価ツール、スナップショット形式が多い中、 BloomがAnthropicから紹介された記事によると、BloomはAnthropic社内で使ってるAIエージェント評価フレームワーク https://www.anthropic.com/research/bloom KDDI Agile Development Center Corporation ‹#›

https://www.anthropic.com/research/bloom

27.

これからのLLMOps Bloomの特性：テスト設計 + 実行 + 採点ショッピング AIエージェントのトレースプロンプトインジェクション耐性に対して評価してほしい自動的にテストシナリオが作成され、レポートまで作成してくれた。評価フローが組みにくい・データが少ない場合、Bloomが有効かもしれない。 KDDI Agile Development Center Corporation ‹#›

28.

社外秘X Be a Change Leader. アジャイルに力を与え共に成長し続ける社会を創る