---
title: ハーネスエンジニアリング_国内外論文_図解_出典URL付き_文系向け.pptx
tags: 
author: [smile_yukiko_it](https://image.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/V7PKW8DZJ8.jpg?width=480
description: ハーネスエンジニアリング_国内外論文_図解_出典URL付き_文系向け.pptx by smile_yukiko_it
published: June 13, 26
canonical: https://image.docswell.com/s/smile_yukiko_it/56NE9X-2026-06-13-120108
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/V7PKW8DZJ8.jpg)

ハーネスエンジニアリング
国内外の論文で読む — AIモデルより“まわり”の設計が効く
文系向け図解 ／ ページ毎に正式名＋出典URL付き ／ 実務・関連記事つき
うさうさ先生 🐰🦺 面白きこともなき世を面白く


# Page. 2

![Page Image](https://bcdn.docswell.com/page/2JVV8N1MJQ.jpg)

結論：いま“環境設計”が効く
ある実証実験の報告
AIを賢く“使う”より、AIが正し
く働ける“環境”を設計する
+1
点（モデルを変更）
+22
点（ハーネスを変更）
これがエンジニアの新しい役割になりつつある。
［実務・国内］ Hexabase（OpenAI実証として紹介）
https://www.hexabase.com/column/harness-engineering-complete-guide-ai-agent-3-elements-practical-steps
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
2 / 14


# Page. 3

![Page Image](https://bcdn.docswell.com/page/5EGL5K2XJL.jpg)

ハーネスとは？（モデル＋まわり全部）
ハーネス（まわり全部）
コンテキスト管理
ツール・行動
AIモデル
制御ループ
ひとことで言うと
•
ハーネス＝AIモデル“以外”の全部
•
入力を整え・道具を動かし・結果を返す土台
•
テスト/ルール/型/制御も含む
•
LLM=CPU、ハーネス=OS の関係に近い
評価・ガードレール
［実務・海外］ Anthropic / Hugging Face https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
［解説・国内］ CodeZine（OS比喩） https://codezine.jp/article/detail/23340
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
3 / 14


# Page. 4

![Page Image](https://bcdn.docswell.com/page/4JQYZNP57P.jpg)

文系向けのたとえ 🍜
AIモデル ＝ 天才だけど気まぐれ
な新人
放っておくと、すごい時も的外れな時もある。
ハーネス ＝ 店のマニュアル・段
取り・味見
ルール・道具・チェックを整えると、新人でも安定して良い
仕事ができる。
※このたとえは正確ではありません（入口の理解用）。あなた＝環境を整える店長です。
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
4 / 14


# Page. 5

![Page Image](https://bcdn.docswell.com/page/K74W3GYVE1.jpg)

基本原理：AIは“ループ”で動く
観察 → 思考 → 行動 → 結果を見てまた観察（考えながら手を動かす）
観察
（今の状況）
思考
（次の一手）
行動
（ツール実行）
結果を見て、また繰り返す
ReActはこの方式で成功率が大きく向上（ALFWorld +34% / WebShop +10%）、幻覚や誤りの連鎖も抑制。
［査読付き・海外］ ReAct (Yao et al., ICLR 2023) https://openreview.net/forum?id=WE_vluYUL-X
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
5 / 14


# Page. 6

![Page Image](https://bcdn.docswell.com/page/LJ1Y1D64EG.jpg)

ハーネスの主な部品（構成）
コンテキスト管理
ツール・行動
必要な情報“だけ”渡す
道具と“説明”の質
制御ループ＆制約
評価＆ガードレール
手順・逸脱を防ぐガード
自動テスト・評価AIで多角チェック
［プレプリント・海外］ Natural-Language Agent Harnesses https://arxiv.org/abs/2603.25723
［解説・国内］ Legalscape / aidd.jp https://tech.legalscape.co.jp/entry/ai-review-with-harness
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
6 / 14


# Page. 7

![Page Image](https://bcdn.docswell.com/page/GJWG8YWZ72.jpg)

なぜ効く？ 同じモデル・違うハーネス
同じ AI モデル
良いハーネス
弱いハーネス
低い成果
報告例（条件で変動）
SWE-bench 約5%→30%超
CORE-Bench 42%→78%
Terminal Bench 52.8→66.5
高い成果
［プレプリント・海外］ General Modular Harness (p&lt;0.05) https://arxiv.org/abs/2507.11633
［実務・海外］ MindStudio / MongoDB https://www.mindstudio.ai/blog/what-is-harness-engineering
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
7 / 14


# Page. 8

![Page Image](https://bcdn.docswell.com/page/4EZL8X5L73.jpg)

評価ハーネス：測れないものは直せない
評価ハーネス＝採点の仕組み
固定シナリオを流してスコアを記録
“ハーネス＋モデル”を測る
エージェント評価は両者の合わせ技
採点のバグに注意
良い動作でも採点ミスで低評価に
［実務・海外］ Anthropic「evals for AI agents」/ Hugging Face https://huggingface.co/blog/agent-glossary
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
8 / 14


# Page. 9

![Page Image](https://bcdn.docswell.com/page/Y76WP49M7V.jpg)

つまずき・リスク（安全面）
評価が無い／プロンプト頼みで脆い
壊れても気づけない・再現しない
“安全でない行動”が起きる
ある評価で不安全行動が7〜33%
難タスクはまだ低い
実CVEでPoC≤18%・修正≤34%
［プレプリント・海外］ ClawsBench / SEC-bench / AgentBreeder https://arxiv.org/abs/2604.05172
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
9 / 14


# Page. 10

![Page Image](https://bcdn.docswell.com/page/G75MKQNQ74.jpg)

実務での活かし方（文系でもできる）
ルールを言葉にする
仕事を小さく・明確に
規約・禁止事項・お手本をファイル化＝AIが従う土
台
曖昧な丸投げをやめ、手順と完了条件を決める
合格条件（評価）を先に決める
ログで直す・人の確認点を置く
何が“OK”かを定義＝評価のものさし
結果を見て改善。最終承認は人が担う
「AIが働きやすい環境を整える」のは、コードを書けなくても貢献できる仕事です。
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
10 / 14


# Page. 11

![Page Image](https://bcdn.docswell.com/page/9J29WP5WER.jpg)

国内外の文献マップ
海外：論文が中心
•
査読付き：ReAct（ICLR 2023）
•
プレプリント(arXiv)：Modular
Harness／AgentBreeder／SEC-bench／ClawsBen
ch 等
•
国内：解説が中心
•
@IT／CodeZine／サーバーワークス
•
Hexabase／Legalscape／aidd.jp
•
Speaker Deck 等の発表資料
実務：Anthropic／Hugging Face／MongoDB
※ 本調査では、国内の“査読付き論文”は確認できませんでした（用語が新しく実務発のため）。
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
11 / 14


# Page. 12

![Page Image](https://bcdn.docswell.com/page/DEY4L5K9JM.jpg)

主要論文：正式名＋URL（海外）
［査読付き］ ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023)
https://openreview.net/forum?id=WE_vluYUL-X
［プレプリント］ General Modular Harness for LLM Agents in Multi-Turn Gaming Environments
https://arxiv.org/abs/2507.11633
［プレプリント］ AgentBreeder: Mitigating AI Safety Risks of Multi-Agent Scaffolds (Oxford/Meta)
https://arxiv.org/abs/2502.00757
［プレプリント］ SEC-bench: Benchmarking LLM Agents on Real-World Software Security Tasks
https://arxiv.org/abs/2506.11791
［プレプリント］ ClawsBench: Capability and Safety of LLM Productivity Agents
https://arxiv.org/abs/2604.05172
［プレプリント］ Natural-Language Agent Harnesses
https://arxiv.org/abs/2603.25723
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
12 / 14


# Page. 13

![Page Image](https://bcdn.docswell.com/page/VJNY4NRD78.jpg)

関連記事（実務解説・国内）
［海外・実務］ Anthropic「Demystifying evals for AI agents」
https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
［海外・実務］ Hugging Face「Agent glossary」
https://huggingface.co/blog/agent-glossary
［海外・実務］ MongoDB「The Agent Harness」/ MindStudio「Harness Engineering」
https://www.mindstudio.ai/blog/what-is-harness-engineering
［国内・解説］ @IT(ITmedia)「『ハーネス』って結局、何？」
https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news016.html
［国内・解説］ CodeZine「エージェントハーネスの概要と設計・実装」
https://codezine.jp/article/detail/23340
［国内・解説］ サーバーワークス / Hexabase / Legalscape / aidd.jp / Speaker Deck(tame)
https://blog.serverworks.co.jp/harness-engineering-overview
ハーネスエンジニアリング ｜ 国内外論文・図解・出典URL付き
13 / 14


# Page. 14

![Page Image](https://bcdn.docswell.com/page/YE9PQRM8J3.jpg)

まとめ ＆ 注意
•
AIモデル＝賢い新人、ハーネス＝職場環境。まわり次第で成果は変わる
•
基本：情報を絞る・段取り・評価で多角チェック・人の確認点
•
用語は2026年に実務発で普及。研究は査読(ReAct)＋プレプリントが裏付け
•
数値は実験条件に依存。効果が小さいとする報告もある（ウソなく併記）
面白きこともなき世を面白く 🐰🦺 ｜ うさうさ先生


