評価が大事

148 Views

December 23, 25

#ai agent #LLM #評価 #GitHub Copilot #開発プロセス #正解データ

スライド概要

AIエージェント開発における評価の重要性について話したLT

Tsumiki

@tsu-miki

スライド一覧

Software Engineer

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

リーダブルコードLT

Tsumiki 617

F#でちょっとずつ返す

fsharp

Tsumiki 134

F# AsyncとTask

fsharp

Tsumiki >100

スピーダ事業 Product Teamの1週間を考察してみた。

agile

Tsumiki >100

メディアリニューアルした話

Tsumiki >100

svelte触ってみた

Tsumiki >100

各ページのテキスト

評価が大事

目次 1. Speeda Agent チームでやっていたこと 2. 学び① 評価が大事 3. 学び② 正解データが大事

Speeda Agent チームでやっていたこと

学び① 評価が大事 GitHub Copilotは、間違いなく LLMを使った最初の産業規模のアプリケーションです。先手を打つことの呪いは、（今では）誰もが知っていることを笑えるほどに無視してしまい、後から考えると、自分が下した選択の一部が愚かに見えてしまうことです。しかし、私たちが絶対的に正しかったことの 1つは、どのように始めたかでした。 GitHub Copilotのコードベースの最も古い部分は、プロキシやプロンプト、 UI、アプリケーションを IDE拡張機能として設定するボイラープレートではありません。私たちが最初に書いたコードは「評価」であり、そのおかげで、他のコードとともに非常に早く、成功裏に進むことができました。なぜなら、私たちが行ったすべての変更について、その変更が正しい方向への一歩、間違い、あるいは、あまり影響を与えなかった、よい試みだったのかを直接確認できたからです。

Agent 開発初期の状況 ● テスト書いてない ● 確認コストが大きい ● リグレッションに気付けない ● 安心感がない（個人的に）

LLM を使ったアプリケーションのテスト ● LLM の出力は確率 ● 評価項目の例 ○ 構造の正しさ、ソースとの整合性、意味的な一致（E2Eテスト, ユニットテスト的なものを作っていきたい）

評価手法 ● オフライン評価（デプロイ前） ○ 人間による評価 ○ 自動評価 ■ ROUGE, BERTScore, LLM-as-a-Judgeなど ● オンライン評価（デプロイ後） ○ ABテスト、Good/Bad など

評価を始めてどうだったか ● ROUGE, BERTScore, LLM-as-a-Judge ● まず始めるのが大事 ● 確認コスト減った ● 安心感があった（個人的に） ● とはいえ、課題はたくさんある

学び② 正解データが大事 ● 正解データがないと評価できない（当たり前） ● ゴールデンデータセットを用意せよ ○ プロンプトとそれに対応する正解回答

10.

道のり ● 正解データを作る ↓ ● 正解データに出力を近づける ↓ ● 出力を安定させる

11.

正解データを作ることを後手に回さない ● 正解データは動く前提で、意識的に作りにいく ● 作って貰える状況なら、早めに依頼する ● 無理なら、Biz側も巻き込んで早めに一緒に作る？