【DeNA QA Night #8】その検証、AIなら即日です

1.4K Views

March 30, 26

#AI #品質管理 #検証プロセス #属人化解消 #業務効率化

スライド概要

2026/03/13に開催されたイベント「DeNA QA Night #8」の登壇スライドとなります。
イベント概要：https://dena-qa-night.connpass.com/event/379547/
「DeNA QA Night #8」アーカイブ動画：https://youtu.be/nD6fCJmMZ0Y

DeNA_Tech

@DeNA_Tech

スライド一覧

DeNA が社会の技術向上に貢献するため、業務で得た知見を積極的に外部に発信する、DeNA 公式のアカウントです。DeNA エンジニアの登壇資料をお届けします。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

Roslynアナライザー_ Unityでの開発環境を改善するための静的解析の仕組みの構築

DeNA_Tech 81.9K

ディメンショナルモデルの実導入と実装について

DeNA_Tech 53.7K

Difyによる全社LLMプラットフォーム運用とv1アップデート

DeNA_Tech 48.7K

【DeNA TechCon 2025】 DeNAがマスタデータ管理にOyakataを使う理由

dena techcon 2025

DeNA_Tech 41.5K

GraphQLやるならDataloaderを使おう

DeNA_Tech 34.8K

【DeNA × AI Day】DeNAスポーツ事業戦略とベイスターズAI強化プロジェクト

dena ai day

DeNA_Tech 33.4K

各ページのテキスト

その検証、AIなら即日です諸冨弘樹 IT本部品質管理部ソーシャルQAグループ株式会社ディー・エヌ・エー © DeNA Co., Ltd. 1

こんな現場課題ありませんかリリース直前のバグ発覚テスト設計が「ベテランの勘」依存テスト終盤でクリティカルな不具合が見つか仕様の行間を読むテストや過去の障害観点がり、修正と再テスト（リグレッション）でリ経験者の頭の中にしかなく、品質が属人化しリース予定が大きく狂うている開発スピードに追いつかないテストの運用保守が負担アジャイル等で開発サイクルが高速化する仕様変更が頻発する中、膨大なテストケース中、テスト工数が削られ検証が形骸化していや自動化スクリプトのメンテナンスに追われく悪循環手が回らない © DeNA Co., Ltd. 2

私たちの場合リリース直前にNGで手戻り判断が「熟練者頼み」になっているリリース予定日を控えストア審査は一発合格低頻度の倫理観点やガイドライン解釈は経験したいのにリジェクト、修正・再検証で予定者の頭の中にしかなく、属人化が深刻が大幅に狂うスピードと品質のトレードオフ基準の更新と継承リリースサイクルを早めるほど検証が形骸化 Apple・Googleの規約や審査OK/NGラインのし、致命的なリスクを見落とす懸念知識のメンテナンス © DeNA Co., Ltd. 3

ガードレールの徹底 AI推進の絶対条件＝「他社IP・権利の保護」と「自社ブランドの守護」攻めと守りを両立する独自のAI利用ガイドラインに沿った強固なガバナンス・ツールの安全性社外AIツールの利用規約（学習利用の有無等）に合せて用途を使い分ける・インプットの保護 IPや個人情報を含むデータの取り扱いは厳格に運用し、基準をクリアしたものだけを利用・アウトプットの担保他社の権利を侵害しないか、「最終判断は必ず人間が行う」プロセスを組み込む © DeNA Co., Ltd. 4

即日完了するための工夫知識への投資サイクルを回す AI向けのデータ加工「AIへの丸投げ」はしない「前処理」に投資する公式ガイドラインやAIモデルの性能差を利用スプレッドシートやPDFをそのまま投げ込まするのではなく、約1600件の審査実例や約ず、AIがコンテキストを正確に把握できるよ 500件の市場炎上事例をベースに、「独自のうにGASを用いて、自動でMarkdown化するリスク基準」に変換してAIに学習させましたなどの工夫を徹底することで情報のコンテキストの解像度があがり、ハルシネーションが減りました © DeNA Co., Ltd. 6

即日完了するための工夫多段検証＋統合判定統合AI (フィルター処理) AIは量、人は質 1回では拾えないリスクを確実に捕捉するた「過検出」を許容し、人が最後は判断見逃しをゼロにするため、一次AIにはあえてめ、ハルシネーションと判断のブレを防ぐ大量のリスクを検知させて、後段のフィル Syncシステムを導入ターAIが精錬することで人の認知負荷を軽減 🚨 重大リスク検知: 1回でもSランクのリスクが出たら要確認 ⚠ 判断ゆらぎ検知: 低リスクでもAI間で事実認識が割れたら人 AI run 1 AI run 2 にアラート統合AI 有人判断 AI run 3 © DeNA Co., Ltd. 7

成果 AIと人の役割分担を明確に分業することで即日検証完了と業務の属人化から脱却を両立 © DeNA Co., Ltd. 指標 / 項目 Before (従来) After (AI導入後) 人が最終確認する検証項目全て数件(▲90%以上削減) 検証精度高い従来と同等検証完了のタイミング平均５営業日即日検証完了検証品質の一貫性属人的持続的 8

明日からできる３ステップ「完璧な準備」より「小さく始めてすぐ学ぶ」 AIの進化スピードは速いのでまず「やってみる」が大事暗黙知の棚卸小さなデータで統合判定のから始める AI検証を試すルールを決める熟練者の頭の中にある基準過去のバグ事例や審査NG どこまでAIに任せ、どこかや検証基準を言語化し、ま事例など、少量のデータをら人間が最終判断するか、ずはテキスト化する使ってAIの反応を見るガードレールを設定する © DeNA Co., Ltd. 9

10.

11.

当日頂いたご質問と回答① 参加者のご質問登壇者の回答形式知化にコストをかけたと言っていましたが、どういった情報をどのように形式化されたのでしょうか？主に「特にNGになった過去の審査事例」と「ベテランの頭の中にあった判断基準」を形式化しました。具体的には、「なぜこれはNGなのか」という理由を過去の事例から深掘りし、それをAIが理解しやすいようにマークダウン形式のルールやガイドラインとして言語化・構造化する作業にコストをかけています。 3回runになにか理由はありますか？ 5じゃなく2でもないいい塩梅みたいなものかと思いますが3回にした理由が知りたいです最大の理由は「コストと精度のバランス」です。回数を増やせば比例してAPIの利用コストや処理時間が膨らんでしまうため、実用性とすり合わせ結果精度のバランスが最も良かったのが私たちの場合「3回」でした。「自分たちの「得意」を言語化し、AIを育てる」とのことですが、自分たちの得意を言語化することが難しいこともあるかと思います。言語化をする際の課題点や工夫点などありましたら教えてください。まずは既存のデータでAIに判定させ、熟練者の判断と異なる結果が出た際に「なぜ人間はこれを見抜けたのか？」「AIには何の情報が足りなかったのか？」を分析します。この「ズレの分析とルールの追加」を泥臭くトライ＆エラーで繰り返すことで、自分たちの「得意」をAIへ与え育てました。 © DeNA Co., Ltd. 11

12.

当日頂いたご質問と回答② 参加者のご質問登壇者の回答属人化を減らせたと言う話がありましたが、暗黙知を明らかにして言語化する上で工夫したことはありますか？「人用の項目書」をそのままAIに渡すのではなく、「AI用の項目書」へと翻訳・再定義したことです。アプリ審査では約1300件の実例、倫理チェックでは500件の実例をベースに、人間が経験則でやっていた「こういう機能がある場合はここも見る」といった条件分岐を、AIが迷わないよう専用のプロンプト指示として明確に言語化し直しました。「AIに学習させた」とはコンテキストエンジニアリングではなく、モデル自体を改善したということでしょうか？いいえ。モデル自体の改善ではなく、コンテキストエンジニアリングで改善しました。検証観点（動画用、メタデータ用、倫理用など）に応じて「役割を細分化した複数のAI」を使い分けることで、汎用LLMから高い専門精度を引き出しています。ドキュメントに明記されない暗黙的な仕様はどうやって補完していますか？ POCフェーズでの「反復テスト」によって補完しました。同じサービスに対して何度も人間とAIの並行検証を回し、「人間ならここは指摘するのにAIはスルーした」という差分（暗黙の仕様）を徹底的に洗い出し、それをAI用項目書に追記していく泥臭いチューニングを繰り返しました。 © DeNA Co., Ltd. 12

13.

当日頂いたご質問と回答③ 参加者のご質問登壇者の回答一見問題ないワードでも全体の文脈を考慮したリスク検知は考えられていますか？はい、考慮しています。具体的には、プロンプト内で直接的な NG表現だけでなく、『間接的表現』『皮肉』などもリスクとして必ず拾うよう明示的に指示を出しています。そのため、単語自体は無害であっても、文章全体として特定の対象を貶めていたり、悪意を含む文脈になっていれば、AIがそれを解釈してアラートを上げます。倫理チェックで検出するキーワードは元々の自社DBですか？AI 独自の判断も含まれますか？ハイブリッドです。自社で過去に炎上した事例などをベースにした「独自のチェックリスト」をプロンプトで指定しつつ、AIが事前学習として持っている一般的な倫理観念に基づく独自のアラートも拾い上げるようにしています。ツールの精度に関するテストはどのように行われたのか教えていただきたいです。人間の熟練者とAIを並行して走らせる「ミラー検証」を実施しました。ミラー検証用の精度評価リストを用いて、AIの「見逃し率」と「過検出率」をスコア化し、人間と同等の網羅性が出せるまで、同じサービスで何度もテストと項目書の改訂を繰り返しました。 © DeNA Co., Ltd. 13

14.

当日頂いたご質問と回答④ 参加者のご質問登壇者の回答「精度」の定義を教えてください。テスト設計の精度100%とはどういう状態でしょうか？我々の定義する精度100%とは、「致命的な見逃しがゼロである状態」です。ノイズ（過検出）が発生しても構わないというスタンスで、人間が最終確認すべき危険箇所を100%網羅できている状態を目標としています。人間も完璧ではないのでは？今日の話は人間が完璧前提のように感じました。仰る通りです。人間は完璧ではありません。また熟練者であっても体調に検証精度が左右されることもあります。そのため、「Syncシステム」のような複数AIによる多段検証を入れています。人間の見落としやブレをAIの「網羅性」でカバーし、AIのハルシネーションを人間の「文脈理解」や「運用工夫」でカバーする。互いの不完全さを補い合う関係が、この運用の強みです。経験値の高いQAエンジニアの役割は「AIの確認作業」に変わるのでしょうか？人間の役割は「リスク環境の変化に応じた最終的なリスクの定義」と、「AIをより賢くするための項目書・プロンプトの育成」へと変わりました。 © DeNA Co., Ltd. 14

15.

当日頂いたご質問と回答⑤ 参加者のご質問登壇者の回答 QAで行うテストと開発で行うテストのレイヤー違いをどう教えていますか？ AIへの「役割定義」で明確に制御しています。「あなたはアプリストア審査の統括マネージャーです」「倫理・コンプライアンスの専門家です」といったペルソナと独自の判断軸を与え、複数判定の際に異なった役割を使い分けることで、精度の相互補完をしています。倫理チェックツールを使うのは開発チームですか？ QAですか？「QA」が使用しています。開発チームにツールを丸投げするのではなく、開発とは独立したQAが対応することで、品質の客観性を担保します。前提とするデータの継続的なアップデートはどのように行われていますか？自社でのアプリ審査リジェクト事例が発生した場合、お客様からのご意見でリスクの高いお声を頂いた時が基本です。また、日々の市場調査（他社事例やストア規則の改定、SNS・ニュースでの炎上事例）を行い、速やかにAIの参照資料へ反映・追加するフローを繰り返しています。 5日かかっていたものが即日対応になったことで、サービス全体で考えた場合の効果は？検証が即日で終わるため開発スピード全体が向上し、万が一改修が必要になっても再確認がスムーズに進むことが、事業側への最大の効果になっています。 © DeNA Co., Ltd. 15

16.