[Observability Conference Tokyo 2025] LLMオブザーバビリティにおけるトレースの拡張（後半）

1.6K Views

October 27, 25

#tech

スライド概要

2025/10/27 に行われた Observability Conference Tokyo 2025 で利用した資料です。

Shuhei Kawamura

@shukawam

スライド一覧

Slides are just my own.

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

[CNDT2023] etcdとRaftアルゴリズム: Kubernetes Control Planeの信頼性の解剖

tech

Shuhei Kawamura 23.2K

[CNDW2024] 気まぐれLLMのふるまいを暴け！ - OpenLLMetryを通して見る世界 -

tech

Shuhei Kawamura 10.8K

[Oracle Developer Days 2025] 実践！Datadogで高める OCIのオブザーバビリティ

tech

Shuhei Kawamura 5.1K

[Langfuse Night #3] 開発/運用者にやさしいLLMアプリの基盤 - Langfuse & Kong Gateway -

tech

Shuhei Kawamura 1.3K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.6M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

各ページのテキスト

LLMオブザーバビリティにおけるトレースの拡張（後半） Shuhei Kawamura © Kong Inc.

自己紹介川村修平 / Shuhei Kawamura 所属: Kong 株式会社 - Senior Field Engineer 趣味: サウナ / ゴルフ / スノーボードひとこと: 筋トレ始めました @shukawam (X/Zenn) © Kong Inc.

Semantic Conventions for GenAI Systems © Kong Inc. 3

SemConv for GenAI Systems status: development OpenTelemetry配下で生成AIのシグナルに対するセマンティック規約を定義シグナル概要イベントモデルに送られた入力や応答を記録するものメトリクス生成AIに関するメトリクスを記録するもの（トークン、TTFT、など）モデル・スパン生成AIモデル or サービスへのクライアント呼び出しを記録するスパンエージェント・スパンエージェント関連の操作を記録するスパン特定サービス向けのセマンティック規約も一部定義がされていたりする（今日は対象外）： ● Azure AI Inference, OpenAI, Amazon Bedrock SemConv for GenAI Systemの設計が実装に反映されたりする： ● ● [Bug]: Incompatibilities with OpenTelemetry LLM semantics pending release feat(otel): map gen_ai.tool.call.arguments/result to input/output © Kong Inc.

改善のためにこういう要望を満たしたい © Kong Inc.

イベント https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-events/ イベント名概要 event.gen_ai.client.inference.operation.details モデルに送られた入力や応答を記録する属性名概要 gen_ai.operation.name 操作名 gen_ai.conversation.id 会話に付与する一意な ID gen_ai.request.temperature LLMの推論パラメータの一種（温度：出力のランダム性を制御） gen_ai.usage.input_tokens 入力トークン数 gen_ai.usage.output_tokens 出力トークン数イベントで利用される主な属性例 © Kong Inc.

https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-events/

メトリクス (1) https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/ クライアントとサーバのメトリクスに分類される ● クライアント：生成AIアプリケーション側 ● サーバ：LLMをホストするサーバ側メトリクス名概要 gen_ai.client.token.usage 利用トークン数 gen_ai.client.operation.duration クライアント操作の実行時間 gen_ai.server.request.duration LLMリクエストの実行時間（ TTLB[1]） gen_ai.server.time_per.output_token 単位時間あたりに出力したトークン数 gen_ai.server.time_to_ﬁrst_token 最初のトークン生成までに要した時間 [1] time-to-last-byte: 最後のバイト（トークン）が生成されるまでの時間 © Kong Inc.

https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/

メトリクス (2) https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/ 属性名概要 gen_ai.operation.name 操作名 gen_ai.provider.name モデルのプロバイダー名（ openai, gcp.gen_ai, …） gen_ai.request.model リクエストしたモデル名（ gpt-4） gen_ai.response.model レスポンスに使用されたモデル名（ gpt-4-0613） gen_ai.token_type トークンの種別（ input/output）メトリクスで利用される主な属性例 © Kong Inc.

https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/

モデル・スパン (1) https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/ セマンティック規約は、推論・埋め込み・ツールの実行で異なる属性名概要 gen_ai.operation.name 操作名 gen_ai.provider.name モデルのプロバイダー名（ openai, gcp.gen_ai, …） gen_ai.request.model リクエストしたモデル名（ gpt-4） gen_ai.response.model レスポンスに使用されたモデル名（ gpt-4-0613） gen_ai.output_type クライアントが要求したコンテンツの種別（ text, json, image）推論で利用される主な属性例 © Kong Inc.

https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/

10.

モデル・スパン (2) https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/ 属性名概要 gen_ai.operation.name 操作名 gen_ai.request.model リクエストしたモデル名（ gpt-4） gen_ai.request.encoding_formats 埋め込みで要求したエンコード形式（ base64, ﬂoat, binary） gen_ai.usage.input_tokens 入力トークン数埋め込みで利用される主な属性例 © Kong Inc.

https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/

11.

モデル・スパン (3) https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/ 属性名概要 gen_ai.operation.name 操作名 gen_ai.tool.call.id ツール呼び出しに割り当てられる ID gen_ai.tool.description ツールの詳細情報 gen_ai.tool.name ツールの名前 gen_ai.tool.type ツールの種別（ function, extension, datastore, …）ツール実行で利用される主な属性例 © Kong Inc.

https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-spans/

12.

エージェント・スパン https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-agent-spans/ 属性名概要 gen_ai.operation.name 操作名 gen_ai.provider.name モデルのプロバイダー名（ openai, gcp.gen_ai, …） gen_ai.agent.description エージェントの詳細情報 gen_ai.agent.id エージェントに割り当てられる ID gen_ai.agent.name エージェントの名前 gen_ai.request.model リクエストしたモデル名 gen_ai.system_instruction システムプロンプトエージェント呼び出しで利用される主な属性例 © Kong Inc.

https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-agent-spans/

13.

メトリクス (1) https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/ クライアントとサーバのメトリクスに分類される ● クライアント：生成AIアプリケーション側 ● サーバ：LLMをホストするサーバ側具体的な属性名を見ても面白くないので、概要もう少し深掘りして考えてみる gen_ai.client.token.usage 利用トークン数メトリクス名 gen_ai.client.operation.duration クライアント操作の実行時間 gen_ai.server.request.duration LLMリクエストの実行時間（ TTLB[1]） gen_ai.server.time_per.output_token 単位時間あたりに出力したトークン数 gen_ai.server.time_to_ﬁrst_token 最初のトークン生成までに要した時間 [1] time-to-last-byte: 最後のバイト（トークン）が生成されるまでの時間 © Kong Inc.

https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/

14.

15.

16.

プロンプトや出力の保存先についてスパンの属性派閥イベント派閥メリット ● 全体像を見たいケースが多く、その場合、スパンと一緒に表示ができた方が有効 ● 可視化ツールやクエリの処理が簡単メリット ● サイズ制限が属性に比べて大きい ● 構造化されている ● 検索の分離も可能で、拡張性も高いデメリット ● ベンダー側で属性にサイズ制限がある ● 構造化されていないため、mimeタイプのような定義が必要デメリット ● あまり計装ライブラリ側で実装が広まっていない議論の末、イベントに決まる！ [1] [1] https://github.com/open-telemetry/semantic-conventions/issues/2010 © Kong Inc.

https://github.com/open-telemetry/semantic-conventions/issues/2010

17.

プロンプトや出力の保存先についてスパンの属性派閥イベント派閥決まったが、、、実際はメリットメリット ●スパンの属性として使用されるケースが多かった全体像を見たいケースが多く、その場合、 ● サイズ制限が属性に比べて大きい ● スパンと一緒に表示ができた方が有効可視化ツールやクエリの処理が簡単 ● ● 構造化されている検索の分離も可能で、拡張性も高い設計と実装の分離が見られたので、デメリット ● あまり計装ライブラリ側で実装が広まっスパンの属性も利用する方向に軌道修正ていないデメリット ● ベンダー側で属性にサイズ制限がある ● 構造化されていないため、mimeタイプのような定義が必要議論の末、イベントに決まる！ [1] [1] https://github.com/open-telemetry/semantic-conventions/issues/2010 © Kong Inc.

https://github.com/open-telemetry/semantic-conventions/issues/2010

18.

19.

トークン数の取得についてコミュニティでの議論[1] ● メトリクスは、何か問題が発生しているか or 望ましくない方向に進んでいるかを検出するための手段 👉 傾向の把握が可能 ● スパンは問題の原因を詳細に分析し、修正するための手段 👉 単一リクエストレベルで詳細を確認可能適材適所の使い分けが大切 [1] https://cloud-native.slack.com/archives/C06KR7ARS3X/p1733435941499349 © Kong Inc.

20.

SemConv for Gen AI Systems で進む議論 ● ● MCP ( Model Context Protocol ) 関連 ○ SemConv側 / MCP側で Issue / PRが作成され議論中 ■ Semantic Conventions for Model Context Protocol ■ Include OpenTelemetry Trace identiﬁer as part of the MCP client -> server protocol Agent2Agent 関連 ○ 組み合わせる為のフレームワークを議論中 ■ Add MultiAgent Semantic Conventions ■ AI Agent framework Semantic Convention ○ 他のコミュニティにも声掛け中 ■ [Collaboration] AI Agent Framework Semantic Convention © Kong Inc.

21.

22.

23.

24.

まとめ ● ● ● 複雑なシステムの理解には分散トレーシングが有効 LLMアプリケーションの特性 ○ 複雑になりがち 👉 分散トレーシングが有効 ○ 固有の要件 👉 (従来の) Semantic Conventions だと表現の限界 Semantic Conventions for Generative AI ○ GenAI向けのSemantic Conventionsで、ステータスは開発中 ■ あくまで設計なので、実装は別 ○ 標準化の波 🌊 ■ 入出力やトークン数などの共通化が進む ■ MCPサーバーやAgent2Agentの共通化も期待！ © Kong Inc.

25.