---
title: Pythonでできる 設計書レビュー PoC_2026_06_22
tags:  #python  
author: [smile_yukiko_it](https://image.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/VJPKMXWNE8.jpg?width=480
description: 2026/06/22時点
published: June 22, 26
canonical: https://image.docswell.com/s/smile_yukiko_it/KWRMJP-2026-06-22-144151
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/VJPKMXWNE8.jpg)

うさうさ研修工房 ／ AI設計書レビュー PoC
Pythonでできる
設計書レビュー PoC
生成AI × RAG による設計書レビュー支援 ―― 「できること」を査読済み論文で裏づける
RAG
Chain-of-Thought
Self-Consistency
LLM-as-a-Judge
RAGAS
出典は査読済み論文（国内・海外）のみ。実装ツール名は実装手段であり、論文の主張とは区別して記載しています。


# Page. 2

![Page Image](https://bcdn.docswell.com/page/2EVV9L8YEQ.jpg)

WHY NOW
なぜ設計書レビューをAIで支援するのか
レビュー品質の属人化
観点（網羅性・曖昧性・一貫性）がレビュアの経験に依存し、見落としが起
きやすい。
標準・規約との突合に工数
社内標準やIEEE系ガイドとの整合確認は手作業で、件数が増えるほど負荷が
増大。
研究が示す方向性
LLMは要求工学（RE）の各活動 ―― とり
わけ検証・妥当性確認 ―― に適用が進む。
一方で、出力の誤り抑制には「人＋ツール
」のハイブリッド運用が不可欠と指摘され
る。
トレーサビリティ確認が困難
上位要件→下位要件→設計のカバレッジ確認は目視中心で抜けが生じやすい
。
設計書レビュー PoC ― 背景
出典：Hou et al. 2024 (ACM TOSEM) ／ Khan et al.
2024 (LLM4RE SLR)
02


# Page. 3

![Page Image](https://bcdn.docswell.com/page/57GLZX5WEL.jpg)

OVERVIEW
PoCで「Pythonでできること」全体像
① 取込・分割
② 根拠検索 (RAG)
③ 観点レビュー
④ 評価・品質ゲート
設計書/標準を
チャンク化・索引化
社内標準・規約を
根拠付きで突合
網羅性・曖昧性・一貫性
を推論強化で点検
出力を自動採点し
合否を判定
基盤技法（査読済み）
RAG Lewis 2020 / NeurIPS
CoT Wei 2022 / NeurIPS
評価 LLM-as-a-Judge: Zheng 2023 / NeurIPS
設計書レビュー PoC ― 全体像
Self-Consistency Wang 2023 / ICLR
RAGAS Es 2024 / EACL
03


# Page. 4

![Page Image](https://bcdn.docswell.com/page/4EQYL8ZQJP.jpg)

CAPABILITY 01
① 根拠付きレビュー：標準・規約との突合（RAG）
何ができるか
•
社内標準・コーディング規約・IEEE系ガイドを外部知識として参照し、
設計書の記述を「根拠（出典箇所）付き」で照合。
•
モデルの内部知識だけに頼らず、根拠文書を検索して回答に紐づけるこ
とでハルシネーション（誤生成）リスクを低減。
•
「この記述は標準§4.2に違反」のように、指摘と典拠をセットで提示
―― レビュー所見の説明責任を担保。
設計書レビュー PoC ― できること①
査読済みの根拠
Lewis et al. (2020)
Retrieval-Augmented Generation for
Knowledge-Intensive NLP Tasks
NeurIPS 2020, 33, 9459–9474
外部知識を検索して生成に統合する枠組みを提示。
知識集約タスクで精度と事実性を改善することを示
した、RAGの基礎論文。
04


# Page. 5

![Page Image](https://bcdn.docswell.com/page/KJ4WD23Y71.jpg)

CAPABILITY 02
② 推論強化：論理の飛躍・矛盾を検出する
Chain-of-Thought
Self-Consistency
途中の推論ステップを明示させ、設計判断の根拠を段階的に
点検。複雑な整合確認で見落としを減らす。
複数の推論経路を生成し多数決で安定化。指摘のブレを抑え
、再現性の高いレビュー結論を得る。
Wei et al. (2022) NeurIPS 2022, 35, 24824–24837
Wang et al. (2023) ICLR 2023
PoCでの使い方： 観点別チェックのプロンプトにCoTを組み込み、重要観点はSelf-Consistencyで多数決 ―― 「速いが浅い」
を「説明できて安定」へ。
設計書レビュー PoC ― できること②
05


# Page. 6

![Page Image](https://bcdn.docswell.com/page/LE1YZM1N7G.jpg)

CAPABILITY 03
③ 観点別レビュー：4つの品質観点を自動点検
網羅性 (Completeness)
曖昧性・品質 (QA)
要件の抜け・記述漏れを検出。LLMによる完全性補助の有効性が報
告。
曖昧・非一貫な記述を品質保証観点で指摘。要求のQA支援を実証。
Luitel et al. 2024 (Requirements Eng. 29)
Lubos et al. 2024 (IEEE RE)
トレーサビリティ
意図の明確化
上位要件→下位要件のカバレッジ照合をレビュー支援。
例示付きプロンプトで要求抽出・明確化の質を改善（国内研究）。
Preda et al. 2024 (MSR)
Ren, Nakagawa &amp; Tsuchiya 2024 (COMPSAC)
設計書レビュー PoC ― できること③
06


# Page. 7

![Page Image](https://bcdn.docswell.com/page/GEWG939MJ2.jpg)

CAPABILITY 04
④ 出力品質の自動評価と品質ゲート
LLM-as-a-Judge
•
•
強いLLMを審査者とし、レビュー所見の妥当性を採点。人手
評価と高い一致が報告される。
位置・冗長・自己優遇などのバイアスと対策も整理されてお
り、運用設計の指針になる。
RAGAS
RAGパイプラインを正解ラベルなしで評価する枠組み。
・Faithfulness（根拠忠実性）
・Answer Relevance（回答適合性）
・Context Relevance（文脈適合性）
を自動算出 ―― 「根拠に忠実か」を定量ゲート化できる。
Zheng et al. (2023) ― NeurIPS 2023 (Datasets &amp; Benchmarks)
設計書レビュー PoC ― できること④
Es et al. (2024) ― EACL 2024 (System Demonstrations), 150–158
07


# Page. 8

![Page Image](https://bcdn.docswell.com/page/47ZL9V9MJ3.jpg)

IMPLEMENTATION
Pythonでの実装スタック（実装手段）
ご注意： 以下は実装を実現する手段であり、ライブラリ名そのものは査読論文の主張ではありません。論文の裏づけは前段の「技法」に対応します。
オーケストレーション
LangChain / LangGraph で取込→検索→レビュー→評価を連結。状態
遷移と人手レビュー（human-in-the-loop）を実装。
評価・回帰テスト
ragas（Python）でFaithfulness等を算出し、CIで品質ゲート化。プロ
ンプト変更の劣化を自動検知。
設計書レビュー PoC ― 実装スタック
検索・索引
埋め込み＋ベクタ検索で社内標準を索引化。チャンク設計と再ランクで
根拠の精度を確保。
運用・安全
APIキーはメモリ保持、出力は必ず典拠付き。オフライン検証用にロー
カルLLM構成も選択可。
08


# Page. 9

![Page Image](https://bcdn.docswell.com/page/YJ6WK5K5JV.jpg)

POC DESIGN
PoC評価設計：指標・スコープ・進め方
指摘一致率
Faithfulness
削減工数
人手レビューとの
所見一致を測定
RAGASで根拠
忠実性を定量化
1件あたりの
レビュー時間短縮
進め方（4ステップ）
1. 対象選定
代表的な設計書と
社内標準を1セット
設計書レビュー PoC ― 評価設計
2. 小規模実装
→
RAG＋観点レビュー
を最小構成で構築
3. 評価
→
指摘一致率・RAGAS
で定量・定性評価
4. 判断
→
本格導入の可否と
改善点を整理
09


# Page. 10

![Page Image](https://bcdn.docswell.com/page/GJ5MPYPGJ4.jpg)

RISKS &amp; GUARDRAILS
留意点：「嘘をつかない」ための設計原則
ハルシネーション
根拠なしの断定を排除。すべての指摘に典拠（標準§や行番号）を必須化し、RAGASの
Faithfulnessで監視。
評価バイアス
LLM-as-a-Judgeの位置・冗長・自己優遇バイアスに留意。審査プロンプトと対象を分
離し、人手で抜き取り検証。
人＋ツールの併用
最終判断は人が担う前提。研究も誤り抑制にはハイブリッド運用が必要と指摘。PoCは
「置換」でなく「支援」。
設計書レビュー PoC ― 留意点
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/9E296G6D7R.jpg)

REFERENCES
参考文献 ― すべて査読済み（国内・海外）
1
Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020, 33, 9459–9474.
2
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022, 35, 24824–24837.
3
Wang, X. et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.
4
Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023 (Datasets &amp; Benchmarks Track).
5
Es, S., James, J., Espinosa-Anke, L. &amp; Schockaert, S. (2024). RAGAs: Automated Evaluation of Retrieval Augmented Generation. EACL 2024
(System Demonstrations), 150–158. DOI: 10.18653/v1/2024.eacl-demo.16
6
Hou, X. et al. (2024). Large Language Models for Software Engineering: A Systematic Literature Review. ACM TOSEM, 33(8), Art. 220. DOI:
10.1145/3695988
7
Lubos, S. et al. (2024). Leveraging LLMs for the Quality Assurance of Software Requirements. IEEE RE 2024, 389–397.
8
Preda, A.-R., Mayr-Dorn, C., Mashkoor, A. &amp; Egyed, A. (2024). Supporting High-Level to Low-Level Requirements Coverage Reviewing with
LLMs. MSR 2024, 242–253.
9
Ren, S., Nakagawa, H. &amp; Tsuchiya, T. (2024). Combining Prompts with Examples to Enhance LLM-Based Requirement Elicitation. IEEE
COMPSAC 2024, 1376–1381. ［国内・大阪大学］
10
Luitel, D., Hassani, S. &amp; Sabetzadeh, M. (2024). Improving Requirements Completeness: Automated Assistance through Large Language
Models. Requirements Engineering, 29, 73–95.
査読を経ていない一般プレプリント等は本資料の出典に含めていません（「嘘をつかない」原則）。


# Page. 12

![Page Image](https://bcdn.docswell.com/page/D7Y49V9MEM.jpg)

SUMMARY
まとめ
根拠付きで指摘できる
RAGで標準・規約と突合し、典拠付きの所見を提示（Lewis 2020）。
論理を安定して点検
CoT＋Self-Consistencyで飛躍・矛盾を再現性高く検出（Wei 2022 / Wang 2023）。
品質を定量ゲート化
LLM-as-a-Judge＋RAGASで出力を自動採点（Zheng 2023 / Es 2024）。
人を支援する設計
要求工学での有効性と限界を踏まえ、人＋ツールで運用（Hou 2024 ほか）。
結論： Pythonで「根拠付き・観点別・定量評価」の設計書レビュー支援はPoC実現可能。出典は査読済み論文のみで裏づけ。