---
title: 論文図解_プロンプト工学_AIエージェント_ハーネス_1論文1ページ .pptx
tags: 
author: [smile_yukiko_it](https://image.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/GE8DGWLZED.jpg?width=480
description: 論文図解_プロンプト工学_AIエージェント_ハーネス_1論文1ページ .pptx by smile_yukiko_it
published: June 13, 26
canonical: https://image.docswell.com/s/smile_yukiko_it/5VJM9L-2026-06-13-121636
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/GE8DGWLZED.jpg)

プロンプト工学・AIエージェント・ハーネス
国内外の論文を「1論文1ページ図解」で読む
エンジニア向け ／ 成功・失敗つき ／ 査読・プレプリントを明示 ／ 各ページに出典URL
うさうさ先生 🐰🦺 面白きこともなき世を面白く
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
1 / 33


# Page. 2

![Page Image](https://bcdn.docswell.com/page/LELMGNL17R.jpg)

本デッキの読み方・前提（正直に）
•
ねらい：プロンプト工学／AIエージェント／ハーネスの主要論文を、1論文1ページの図解で素早く把握する。
•
凡例：［査読付き｜会議名］＝査読を経た論文／［プレプリント(arXiv)］＝査読前を含む。各ページに出典URL。
•
成功◎／失敗△：各論文が示した強みと、報告された限界・条件依存を併記（数値は実験設定に依存）。
•
国内：年次大会(NLP)の発表は基本「査読なし」。査読付き国内は学会誌『自然言語処理』、また日本発研究は国際
会議でも多数（後述）。
•
正直な注記：本デッキは“実在を確認できた約25本”の厳選版です。捏造を避けるため「査読済み100本」は作って
いません（拡張は追って可能）。
•
発表先・URLは作成時点(2026年6月)の確認に基づく。引用時は各一次情報をご確認ください。
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
2 / 33


# Page. 3

![Page Image](https://bcdn.docswell.com/page/4JMYQXM5JW.jpg)

プロンプト工学
推論を“構造化”して引き出す
掲載：本デッキ 10 本
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
3 / 33


# Page. 4

![Page Image](https://bcdn.docswell.com/page/PJR98NVZ79.jpg)

1
CoT｜Chain-of-Thought
プロンプト工学
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Wei et al., 2022 ／ NeurIPS 2022
査読付き ｜ NeurIPS 2022
海外
質問
中間推論ステップ
答え
◎ 成功・強み：算術・常識・記号推論で大幅向上
△ 限界・失敗：小規模モデルでは効果薄／推論が誤ると答も誤り
https://arxiv.org/abs/2201.11903
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
4 / 33


# Page. 5

![Page Image](https://bcdn.docswell.com/page/PEXQ8NZ1JX.jpg)

2
Zero-shot CoT
プロンプト工学
Large Language Models are Zero-Shot Reasoners
Kojima et al., 2022 ／ NeurIPS 2022
査読付き ｜ NeurIPS 2022
海外
質問
「順を追って考えよう」
答え
◎ 成功・強み：一文追加で0-shot推論が改善
△ 限界・失敗：タスク依存・万能ではない
https://arxiv.org/abs/2205.11916
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
5 / 33


# Page. 6

![Page Image](https://bcdn.docswell.com/page/3EK9KN8MED.jpg)

3
Self-Consistency
プロンプト工学
Self-Consistency Improves Chain of Thought Reasoning
Wang et al., 2022 ／ ICLR 2023
査読付き ｜ ICLR 2023
海外
複数の推論を生成
多数決
答え
◎ 成功・強み：CoTより精度向上（多数決で安定）
△ 限界・失敗：サンプル数だけ計算コスト増／全パス誤れば失敗
https://arxiv.org/abs/2203.11171
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
6 / 33


# Page. 7

![Page Image](https://bcdn.docswell.com/page/L73WZV2275.jpg)

4
Least-to-Most
プロンプト工学
Least-to-Most Prompting Enables Complex Reasoning
Zhou et al., 2022 ／ ICLR 2023
査読付き ｜ ICLR 2023
海外
小問に分解
易→難で順に解く
統合
◎ 成功・強み：難問への汎化（分解効果）
△ 限界・失敗：分解の質に依存
https://arxiv.org/abs/2205.10625
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
7 / 33


# Page. 8

![Page Image](https://bcdn.docswell.com/page/87DKR8Z6JG.jpg)

5
ToT｜Tree of Thoughts
プロンプト工学
Tree of Thoughts: Deliberate Problem Solving with LLMs
Yao et al., 2023 ／ NeurIPS 2023
査読付き ｜ NeurIPS 2023
海外
枝分かれ思考
評価・選択
バックトラック
◎ 成功・強み：探索＋後戻りで難問に強い
△ 限界・失敗：評価関数と計算コストが必要
https://arxiv.org/abs/2305.10601
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
8 / 33


# Page. 9

![Page Image](https://bcdn.docswell.com/page/VJPKW8YZE8.jpg)

6
GoT｜Graph of Thoughts
プロンプト工学
Graph of Thoughts: Solving Elaborate Problems with LLMs
Besta et al., 2023 ／ AAAI 2024
査読付き ｜ AAAI 2024
海外
思考をグラフ化
統合・再利用
答え
◎ 成功・強み：思考の再利用で効率・品質向上
△ 限界・失敗：構築の複雑さ
https://arxiv.org/abs/2308.09687
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
9 / 33


# Page. 10

![Page Image](https://bcdn.docswell.com/page/2EVV8NGMEQ.jpg)

7
APE｜自動プロンプト生成
プロンプト工学
Large Language Models Are Human-Level Prompt Engineers
Zhou et al., 2022 ／ ICLR 2023
査読付き ｜ ICLR 2023
海外
候補プロンプト生成
スコア評価
最良を選択
◎ 成功・強み：人手より良いプロンプトを自動発見
△ 限界・失敗：探索コスト・タスク依存
https://arxiv.org/abs/2211.01910
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
10 / 33


# Page. 11

![Page Image](https://bcdn.docswell.com/page/57GL5K8XEL.jpg)

8
PAL｜Program-Aided
プロンプト工学
PAL: Program-aided Language Models
Gao et al., 2022 ／ ICML 2023
査読付き ｜ ICML 2023
海外
問題
コードで表現
実行して答え
◎ 成功・強み：計算をコードに委譲し正確
△ 限界・失敗：コード実行環境が前提
https://arxiv.org/abs/2211.10435
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
11 / 33


# Page. 12

![Page Image](https://bcdn.docswell.com/page/4EQYZN95JP.jpg)

9
Generated Knowledge
プロンプト工学
Generated Knowledge Prompting for Commonsense Reasoning
Liu et al., 2022 ／ ACL 2022
査読付き ｜ ACL 2022
海外
知識を生成
プロンプトに付与
回答
◎ 成功・強み：常識補完で改善
△ 限界・失敗：生成知識の誤りリスク
https://arxiv.org/abs/2110.08387
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
12 / 33


# Page. 13

![Page Image](https://bcdn.docswell.com/page/KJ4W3GXV71.jpg)

10
RAG｜検索拡張生成
プロンプト工学
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Lewis et al., 2020 ／ NeurIPS 2020
査読付き ｜ NeurIPS 2020
海外
検索(retrieval)
文脈に付与
生成
◎ 成功・強み：外部知識で事実性向上・更新容易
△ 限界・失敗：検索品質に依存／無関係文脈で劣化
https://arxiv.org/abs/2005.11401
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
13 / 33


# Page. 14

![Page Image](https://bcdn.docswell.com/page/LE1Y1DN47G.jpg)

エージェント開発
モデルに“行動”と“内省”を与える
掲載：本デッキ 10 本
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
14 / 33


# Page. 15

![Page Image](https://bcdn.docswell.com/page/GEWG8Y4ZJ2.jpg)

1
ReAct
エージェント開発
ReAct: Synergizing Reasoning and Acting in Language Models
Yao et al., 2023 ／ ICLR 2023
査読付き ｜ ICLR 2023
海外
思考(Reason)
行動(Act)
観察→繰り返し
◎ 成功・強み：推論×行動で+34%/+10%、幻覚抑制
△ 限界・失敗：検索の質に弱い／文脈長の制約
https://arxiv.org/abs/2210.03629
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
15 / 33


# Page. 16

![Page Image](https://bcdn.docswell.com/page/47ZL8X2LJ3.jpg)

2
Reflexion
エージェント開発
Reflexion: Language Agents with Verbal Reinforcement Learning
Shinn et al., 2023 ／ NeurIPS 2023
査読付き ｜ NeurIPS 2023
海外
試行
言語で内省
記憶し再挑戦
◎ 成功・強み：言語的内省で再挑戦（重み更新不要）
△ 限界・失敗：良い内省の生成が難しい
https://arxiv.org/abs/2303.11366
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
16 / 33


# Page. 17

![Page Image](https://bcdn.docswell.com/page/YJ6WP4VMJV.jpg)

3
Toolformer
エージェント開発
Toolformer: Language Models Can Teach Themselves to Use Tools
Schick et al., 2023 ／ NeurIPS 2023
査読付き ｜ NeurIPS 2023
海外
API呼出を自己学習
必要時に呼ぶ
結果を利用
◎ 成功・強み：自己教師でツール利用を獲得
△ 限界・失敗：対象API設計に依存
https://arxiv.org/abs/2302.04761
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
17 / 33


# Page. 18

![Page Image](https://bcdn.docswell.com/page/GJ5MKQDQJ4.jpg)

4
Self-Refine
エージェント開発
Self-Refine: Iterative Refinement with Self-Feedback
Madaan et al., 2023 ／ NeurIPS 2023
査読付き ｜ NeurIPS 2023
海外
初回出力
自己フィードバック
改善
◎ 成功・強み：自己改善で品質向上（追加学習なし）
△ 限界・失敗：自己評価が甘いと改善しない
https://arxiv.org/abs/2303.17651
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
18 / 33


# Page. 19

![Page Image](https://bcdn.docswell.com/page/LE3WZVMZE5.jpg)

5
Generative Agents
エージェント開発
Generative Agents: Interactive Simulacra of Human Behavior
Park et al., 2023 ／ UIST 2023
査読付き ｜ UIST 2023
海外
記憶
計画・内省
行動(シミュ)
◎ 成功・強み：記憶・内省で人間らしい行動を再現
△ 限界・失敗：計算コスト・評価の難しさ
https://arxiv.org/abs/2304.03442
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
19 / 33


# Page. 20

![Page Image](https://bcdn.docswell.com/page/8EDKR8647G.jpg)

6
Voyager
エージェント開発
Voyager: An Open-Ended Embodied Agent with LLMs
Wang et al., 2023 ／ TMLR 2024
査読付き ｜ TMLR 2024
海外
自動カリキュラム
スキルライブラリ
反復改善
◎ 成功・強み：スキル蓄積で生涯学習的に探索
△ 限界・失敗：環境特化・一般化は限定
https://arxiv.org/abs/2305.16291
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
20 / 33


# Page. 21

![Page Image](https://bcdn.docswell.com/page/V7PKW8YVJ8.jpg)

7
MetaGPT
エージェント開発
MetaGPT: Meta Programming for Multi-Agent Collaborative Framework
Hong et al., 2023 ／ ICLR 2024 (Oral)
査読付き ｜ ICLR 2024
海外
役割分担(SOP)
成果物を受け渡し
協調開発
◎ 成功・強み：SOPで多エージェント協調、成果物の質向上
△ 限界・失敗：役割設計・コスト
https://arxiv.org/abs/2308.00352
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
21 / 33


# Page. 22

![Page Image](https://bcdn.docswell.com/page/2JVV8NGRJQ.jpg)

8
AutoGen
エージェント開発
AutoGen: Enabling Next-Gen LLM Apps via Multi-Agent Conversation
Wu et al., 2023 ／ COLM 2024
査読付き ｜ COLM 2024
海外
複数エージェント
会話で協調
タスク遂行
◎ 成功・強み：会話型多エージェントを柔軟に構築
△ 限界・失敗：制御・収束の難しさ
https://arxiv.org/abs/2308.08155
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
22 / 33


# Page. 23

![Page Image](https://bcdn.docswell.com/page/5EGL5K86JL.jpg)

9
SWE-bench
エージェント開発
SWE-bench: Can LMs Resolve Real-World GitHub Issues?
Jimenez et al., 2023 ／ ICLR 2024 (Oral)
査読付き ｜ ICLR 2024
海外
実Issue
パッチ生成
テストで判定
◎ 成功・強み：実GitHub課題で厳密に評価
△ 限界・失敗：当初は最高でも低成功率＝難しさを露呈
https://arxiv.org/abs/2310.06770
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
23 / 33


# Page. 24

![Page Image](https://bcdn.docswell.com/page/4JQYZN927P.jpg)

10
AgentBench
エージェント開発
AgentBench: Evaluating LLMs as Agents
Liu et al., 2023 ／ ICLR 2024
査読付き ｜ ICLR 2024
海外
多環境タスク
エージェント実行
能力を測定
◎ 成功・強み：多環境で能力を体系評価
△ 限界・失敗：ベンチと実運用の差
https://arxiv.org/abs/2308.03688
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
24 / 33


# Page. 25

![Page Image](https://bcdn.docswell.com/page/K74W3GXPE1.jpg)

ハーネス工学
モデルの“まわり”を設計する（足場・評価）
掲載：本デッキ 5 本
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
25 / 33


# Page. 26

![Page Image](https://bcdn.docswell.com/page/LJ1Y1DNXEG.jpg)

1
Modular Harness
ハーネス工学
General Modular Harness for LLM Agents in Multi-Turn Gaming
arXiv 2025 ／ プレプリント
プレプリント (arXiv)
海外
知覚
記憶
推論(着脱式)
◎ 成功・強み：無ハーネスより有意改善（paired t-test p&lt;0.05）
△ 限界・失敗：ゲーム環境での検証＝一般化は要検討
https://arxiv.org/abs/2507.11633
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
26 / 33


# Page. 27

![Page Image](https://bcdn.docswell.com/page/GJWG8Y4K72.jpg)

2
AgentBreeder
ハーネス工学
AgentBreeder: Mitigating AI Safety Risks of Multi-Agent Scaffolds
Rosser &amp; Foerster ／ プレプリント (Oxford/Meta)
プレプリント (arXiv)
海外
足場を進化探索
能力×安全で評価
改良
◎ 成功・強み：安全を平均+79.4%改善する足場を発見
△ 限界・失敗：同時に脆弱な足場も生成＝リスク
https://arxiv.org/abs/2502.00757
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
27 / 33


# Page. 28

![Page Image](https://bcdn.docswell.com/page/4EZL8X2N73.jpg)

3
SEC-bench
ハーネス工学
SEC-bench: Benchmarking LLM Agents on Software Security Tasks
arXiv 2025 ／ プレプリント
プレプリント (arXiv)
海外
CVE自動構築
エージェントが対応
検証
◎ 成功・強み：実CVEで自動評価基盤を構築
△ 限界・失敗：SOTAでもPoC≤18%・修正≤34%
https://arxiv.org/abs/2506.11791
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
28 / 33


# Page. 29

![Page Image](https://bcdn.docswell.com/page/Y76WP4V97V.jpg)

4
ClawsBench
ハーネス工学
ClawsBench: Capability and Safety of LLM Productivity Agents
arXiv 2026 ／ プレプリント
プレプリント (arXiv)
海外
模擬業務環境
行動を実行
安全/成功を採点
◎ 成功・強み：能力と安全を分離して計測
△ 限界・失敗：不安全行動が7〜33%＝安全課題
https://arxiv.org/abs/2604.05172
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
29 / 33


# Page. 30

![Page Image](https://bcdn.docswell.com/page/G75MKQDD74.jpg)

5
NL Agent Harnesses
ハーネス工学
Natural-Language Agent Harnesses
arXiv 2026 ／ プレプリント
プレプリント (arXiv)
海外
ハーネスを明示化
探索空間に
再結合・最適化
◎ 成功・強み：ハーネスを設計対象として体系化
△ 限界・失敗：プレプリント・実証はこれから
https://arxiv.org/abs/2603.25723
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
30 / 33


# Page. 31

![Page Image](https://bcdn.docswell.com/page/9J29WWMMER.jpg)

国内（日本）の状況 ― 正直な整理
•
年次大会（NLP, 言語処理学会）の発表は基本「査読なし」。最新研究は豊富だが“査
読済み論文”としては扱えない。
•
査読付きの国内ジャーナル＝『自然言語処理』(J-STAGE/jnlp)。ここに載るものは査
読済み。
•
日本発の研究の多くは、ACL/EMNLP/NeurIPS など国際査読会議で発表されている
（本デッキの海外論文にも日本所属の著者が含まれる）。
•
したがって「国内の査読済み論文」を量で揃えるのは難しく、本デッキは事実に即し
“海外査読論文＋プレプリント”を主軸にしています。
参考：自然言語処理(査読付き) https://www.jstage.jst.go.jp/browse/jnlp ／ 言語処理学会 https://www.anlp.jp/
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
31 / 33


# Page. 32

![Page Image](https://bcdn.docswell.com/page/DEY4LLXPJM.jpg)

横断まとめ：成功要因と限界
◎ うまくいく共通パターン
△ 共通する限界・失敗
•
構造化（分解・探索・グラフ）
•
推論誤りの伝播・自己評価の甘さ
•
外部接続（検索・ツール・コード）
•
計算コスト増（探索・多数決）
•
反復（内省・自己改善）
•
タスク・環境への依存
•
多角評価（自己整合・評価ハーネス）
•
安全でない行動（要ガードレール）
•
役割分担・SOP（多エージェント）
•
難タスクは依然低成功率／ベンチと実運用の差
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
32 / 33


# Page. 33

![Page Image](https://bcdn.docswell.com/page/VJNY441M78.jpg)

まとめ ＆ 免責
•
流れ：プロンプトで“引き出す”→エージェントで“行動・内省”→ハーネスで“環境を設計”
•
共通原則：構造化・外部接続・反復・多角評価・ガードレール＋人の確認
•
プロンプト/エージェントは査読論文が豊富、ハーネスは実務発＋プレプリントが中心
•
数値は実験条件に依存。発表先・URLは2026年6月時点。引用時は一次情報を確認
•
本デッキは“実在確認済みの約25本”の厳選版（捏造なし）。本数の拡張は追加調査で可能
面白きこともなき世を面白く 🐰🦺 ｜ うさうさ先生
プロンプト工学・AIエージェント・ハーネス ｜ 1論文1ページ図解（エンジニア向け）
33 / 33