コード生成AI時代のテスト駆動開発

64.5K Views

September 28, 24

#生成ai #テスト駆動開発 #TDD #コード生成AI #AI #ソフトウェア開発

スライド概要

XP祭り2024での登壇資料です。
https://confengine.com/conferences/xp2024)

yonekubo / アーキテクトの教科書

@tyonekubo

スライド一覧

著書『アーキテクトの教科書価値を生むソフトウェアのアーキテクチャ構築』（翔泳社）

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ユニットテスト基礎講座

テスト

yonekubo / アーキテクトの教科書 457.9K

アーキテクチャを設計するといふこと 2025年版

アーキテクチャ

yonekubo / アーキテクトの教科書 222.7K

Architecture to Design より良い設計を目指して

アーキテクチャ

yonekubo / アーキテクトの教科書 193.8K

アーキテクチャを設計するといふこと

アーキテクチャ

yonekubo / アーキテクトの教科書 122K

コンポーネント設計って何だろう

設計アーキテクチャ

yonekubo / アーキテクトの教科書 93.3K

設計原則と普遍的な判断軸

設計

yonekubo / アーキテクトの教科書 70K

各ページのテキスト

生成AI時代のテスト駆動開発 XP祭り2024 Sep. 28, 2024 Takeshi Yonekubo

About Me • 米久保剛 (よねくぼたけし) • SIer勤務のアーキテクト • X: @tyonekubo • 『アーキテクトの教科書価値を生むソフトウェアのアーキテクチャ構築』

アジェンダ I. テスト駆動開発の現状と課題 II. コード生成AI概論 III. コード生成AIの実験 (1) IV. コード生成AIの実験 (2)

I. テスト駆動開発の現状と課題

TDDは死んだ？ • DHH氏の記事が話題となったのが10年前 • 日本においては、生死を問うほどTDDは普及していなかったし、現状も大きくは変わっていない • いまだに「テストファースト」と「TDD」が混同して使われがちなことや、有用性の評価以前にチャレンジに至らないことはもったいなく感じる https://dhh.dk/2014/tdd-is-dead-long-live-testing.html

https://dhh.dk/2014/tdd-is-dead-long-live-testing.html

テストファースト／テスト駆動開発の壁アウトサイドインのテスト駆動開発テスト駆動開発テストファーストテストコードを書く（本日は触れない） ← 第二の壁 ← 第一の壁サービス開発、プロダクト開発では一般的に普及テストコードを書かない ※必ずしも上のレベルに到達すべきという意図はなく、実践の難易度を表現した図

第一の壁：テストファーストテストを先に書かない／書けない理由： • 面倒くさい、早くプロダクションコードを書きたい • 振る舞いの単位を（事前に）識別できない

振る舞いの単位の識別 • 多くの場合、複数の小さなコンポーネントの協調によって振る舞いが提供される • 振る舞いの単位を事前に適切に識別できないと、テストコードを先に書くことは難しい DOC テストコード SUT DOC 振る舞い SUT (System Under Test) : テスト対象 DOC (Depended-on Component) : SUTが依存するもの DOC (Test double)

テストコードを後から書くデメリットプロダクションコードを書いた後にテストコードを書くのは、ある意味楽ではあるが、デメリットがある • テスト容易性が低くなる傾向 • エッジケース的な振る舞いに後から気づくことで、大きな手戻りが発生するリスク

10.

テストファースト • 大きな振る舞いを構成する小さな振る舞いの単位を識別し、コンポーネント分割を行う事前設計が必要 • 過度な設計、オーバーエンジニアリングのリスクは内在する振る舞いテストコード振る舞いテストコード

11.

第二の壁：テスト駆動開発やり方は極めてシンプル（Red – Green – Refactor）だが、実践するのはそう簡単ではない

12.

TDDの難しさ「シンプルなテストケースから始めて、Red-GreenRefactorのサイクルを繰り返し、少しずつ設計を進化させる」とは具体的にどうすれば良いのか？ • ステップバイステップで進めたからといって、良い設計が無から出現するわけではない

13.

仮説としての事前設計 • 解決すべき問題（＝振る舞いを実現する）に対して、仮説としてのラフな設計はある程度行う • 人間の認知の仕組み上、無の状態から始めるのは難しく、知識や過去の経験によって構築されたスキームやメンタルモデルにより、解決策の候補は想起される • ただしそれが、目の前にある具体的な（特殊な）問題に対する最適解である保証はない

14.

TDDの要点 • 大きくて複雑なタスクを、十分に小さくシンプルなサブタスクに分割することで、知識やパターンを正しく選択して適用できるようになる • リファクタリングによって、より良い選択に変更するチャンスがある • 仮説に固執せず、Just In Timeで柔軟な設計を行う

15.

例）アンクルボブのボウリングスコア集計 • 『アジャイルソフトウェア開発の奥義』の第6章「プログラミングエピソード」 • ボウリングのスコア集計アプリケーションをTDDで開発する例

16.

例）アンクルボブのボウリングスコア集計 TDDで生まれた設計は事前設計から大きく変わった。 “このscoreForFrame関数を見てごらんよ！これこそボウリングのルールをきわめて簡潔に記述した姿だよ！”

17.

TDDの習得方法 • ひたすら練習あるのみ • 「事前に想定していた仮の設計より、TDDの結果生まれた設計の方がシンプルですぐれていた」という成功体験を重ねると、TDDがデフォルトになる • TDDの呼吸を身に付ける

18.

II. コード生成AI概論

19.

コード生成AIは群雄割拠時代チャットサービスやAIコードエディタなどさまざまなサービス、ツールが登場し、しのぎを削る • v0 by Vercel • Claude Artifacts • Amazon Q • GitHub Copilot • Cursor etc..

20.

プログラマーは不要になる？

21.

思考実験：プログラマーが不要となった未来 • ソフトウェアは完全にブラックボックス化される • 仕様書やテストの大半をAIが生成し、人が最終チェック仕様書ユーザーエンジニア </ テスト > ソフトウェア（Black box)

22.

これが可能となるのは数世代先の AI（LLMではない、何か） ※LLM：大規模言語モデル（Large Language Model）

23.

当面は続くLLM時代 ⇒LLMの仕組み、能力、限界を把握し、LLMを最大限に活用

24.

LLMの（ざっくりとした）理解利用者としては、詳細なメカニズム（Attention機構や Transformer）に立ち入らず、要はLLMとはこんなものというメンタルモデルを構築しておけばOK https://poloclub.github.io/transformer-explainer/

https://poloclub.github.io/transformer-explainer/

25.

LLMのメンタルモデル • LLMは「大量学習データをもとに、与えられた文章の続きを確率的に予測し、もっともらしい文章を完成させるマシン」 • ランダム性を有しガチャ要素はあるが、指示の与え方（入力する文章）を工夫することで期待する回答を得る可能性を上げられる（＝プロンプトエンジニアリング）

26.

LLMとプログラミング • LLMの学習済みデータには、大量のソースコードや技術文書が含まれるため、LLMはプログラミングに関する知識を豊富に持っている • メジャーな言語やフレームワークの方が多くの知識を学習しているため、得意である • 設計や実装についても、特殊な問題よりも一般的な問題を解く方が得意である（特殊な問題には、より高度な推論能力が必要。OpenAI o1に期待？）

27.

実験 Claude 3.5 Sonnet に以下の推論問題を与える。

28.

結果：正しく推論

29.

コード生成AI • LLMの持つプログラミング能力を活用し、ユーザーのコーディング活動を支援することを目的としたAIシステム • 単にチャットで回答するだけでなく、自律的に行動するAIエージェントやそれを組み込んだAIエディタを使うことで開発生産性の向上が可能（GitHub Copilot や Cursor） • とくにCursorは開発者体験が格段に優れている

30.

III. コード生成AIの実験 (1)

31.

実験の趣旨 • 「コード生成AIでXXアプリが一発で作成できた！」 →ガチャを引き続ければそれなりのものは生成できる • 一方で、正規表現やらシンプルな関数などは、LLMの能力的にできて当たり前われわれの関心事は「複雑なプログラムを、プロダクション環境にデプロイ可能なレベルの品質で作ることが、コード生成AIによってどの程度できるのか」および「そのための具体的な手法、テクニック」 →ある程度複雑な題材で実験してみた具体例を紹介 ※以降の実験は全てCursor (Pro) + Claude 3.5 Sonnetを利用して行った

32.

題材(1) each関数 • Jestでパラメーター化テストの記述に利用する、 test.each関数を模した関数を作成する • JavaScriptのタグ付きテンプレートリテラルを利用

33.

試行1 テストファースト〜一発生成（NG） • テストスイートを示し、全てをパスするコードの実装を指示 • 数回ガチャを回したが、一発で正解を出すことはできなかった • 問題が複雑過ぎるために分解が必要と推測

34.

試行2 テスト駆動開発デモ動画

35.

考察 • 人間がテストコードを書き、AIがそれをパスする実装コードを書くピンポンプログラミングによるTDDはうまくいった • 一発で正解を導くことができなかった複雑な問題に対しても、分割して段階的に取り組むことで正解を導くことができた • 段階的に進めることで、AIが生成したコードの理解やレビューもしやすくなる（必要に応じてリファクタリングのステップも盛り込むことも可能）

36.

IV. コード生成AIの実験 (2)

37.

題材(2) コード行数カウンター • ディレクトリ配下のソースコードの行数をカウントするJavaScriptのCUIプログラムの生成 • 言語ごとにコード行数、コメント行数、空行数、トータル行数をカウントして表形式で結果を出力する

38.

プログラム仕様書 • 仕様書はマークダウン形式で記述し、AIにファイル参照させる

39.

Cursor Composer • 複数のファイルをまとめて生成したり、編集したりすることができる機能 • Beta版機能（Pro以上で有効化することで利用可能）

40.

試行1 一発生成 • 一発で動作するコードが生成される場合と、うまくいかない場合とがあった • 動作しない場合は修正を試みるよりやり直した方が早い（ガチャ）

41.

試行2 部品化＆テストコード生成 • 保守性、テスト容易性を考慮したプログラム分割と、テストコード生成を指示

42.

試行2 部品化＆テストコード生成 • プログラムは正しく動作したものの、テストコードは失敗する状態

43.

試行2 部品化＆テストコード生成 • Debug with AI機能で修正を試みるもうまくいかず • モックの多用によりテストコード読解が困難で、マニュアルでの修正も諦めた

44.

試行3 部品化＆テストコード改善 • テスト容易性に関する具体的な制約を追加 • 「テストコードでスタブやモックを多用しなくて済むように設計する」

45.

試行3 部品化＆テストコード改善 • プログラムは正しく動作し、テストも全てパス

46.

試行3 部品化＆テストコード改善試行2で生成されたコードとの比較： • 個々の関数内で設定ファイルを読み込むのではなく、読み込んだ設定内容をメイン関数から引数で渡すようになった • ディレクトリやファイルへのアクセスは、引き続きモックによる検証となっていた全体的には、コードの質はさほど改善されなかった。

47.

試行4 テストファースト • 段階的な実装を指示（個々の関数は空実装から開始）

48.

試行4 テストファースト • データの流れと処理を説明させるステップを追加 →具体例を、LLMに入力するコンテキストに含めることで精度を上げる狙い

49.

試行4 テストファースト • 個々の関数毎に、必要なテストケースを検討させ、実際にテストコードを生成させる

50.

試行4 テストファースト • テストコードをパスする関数の実装を指示する • この手順を、関数の数だけ繰り返す

51.

試行4 テストファースト • テストが失敗する場合もあるが、処理が小さく分割されておりコードの可読性も高いため、「Debug with AI」機能で比較的容易に修正できた

52.

試行4 テストファースト • 正しく動作するプログラムが完成し、テストケース数も増加した

53.

各試行の比較試行1 一発生成試行2 部品化＆テスト試行3 部品化＆テスト改試行4 テストファーストプロダクションコードの可読性低い普通普通普通テストケース数 N/A 3ケース 5ケース 23ケーステストコードの可読性 N/A 低い普通高い（モック未使用） ※可読性の判定は筆者の主観による ※実際のコードはGitHubリポジトリを参照 https://github.com/yonetty/xp-matsuri-gen-ai-tdd

https://github.com/yonetty/xp-matsuri-gen-ai-tdd

54.

考察 N=1ではあるが、実験結果から以下の仮説を持っており、体感としてはおそらく間違ってはいない • 複雑なプログラムを一発で生成させることはガチャ要素が大きい上、コードの品質も安定しないので避けた方がよい（使い捨てのスクリプトや、プロトタイプのような用途ならOK） • 処理を分割した上で、個々にテストファーストで進めた方が、テストコード、プロダクションコードともに内部品質は向上する

55.

まとめ

56.

①分割統治の有効性人間であれ生成AI（LLM）であれ、複雑な問題をシンプルで小さな問題に分割することで、一般解としての知識やパターン適用をしやすくなる。

57.

②生成AIエンジニアリング実務で生成AIを活用するならば、ガチャとならないようにLLMの特性を把握してエンジニアリングを行う。生成AIを用いる場合でも、テストファーストやテスト駆動開発の手法は有効。

58.

③副操縦士としての生成AI 開発するプログラムの複雑度やその他の特性に応じて、人間の介在度合いを制御する。現時点では、完全に生成AIに任せることは難しく、Copilot（副操縦士）の役割が妥当である。

59.

ご拝聴ありがとうございました fin