---
title: 【講師版】AIハーネスエンジニアリング入門_文系向け_話者ノート付き
tags: 
author: [smile_yukiko_it](https://image.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/4JZL8XNLE3.jpg?width=480
description: 【講師版】AIハーネスエンジニアリング入門_文系向け_話者ノート付き by smile_yukiko_it
published: June 13, 26
canonical: https://image.docswell.com/s/smile_yukiko_it/KN79XD-2026-06-13-115207
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/4JZL8XNLE3.jpg)

【講師版・話者ノート付き】
AI ハーネスエンジニアリング 入門
AIモデルより、その“まわり”の設計が効く
文系にもわかる図解 ／ 国内外の文献にもとづいて
うさうさ先生 🐰🦺 面白きこともなき世を面白く


# Page. 2

![Page Image](https://bcdn.docswell.com/page/YE6WP48MEV.jpg)

結論：いま“環境設計”が効く
ある実証実験の報告
AIを賢く“使う”より、
AIが正しく働ける
“環境”を設計する
+1 点
モデルを変えたとき
+22 点
これがエンジニアの新しい役割になりつつある。
ハーネス（環境）を変えたとき
※ 実務系の実証報告（OpenAIの実験として国内記事が紹介）。条件で差は変わります。
AIハーネスエンジニアリング入門 ｜ 文系向け図解
2 / 15


# Page. 3

![Page Image](https://bcdn.docswell.com/page/GE5MKQ9QE4.jpg)

そもそも「ハーネス」とは？
AIエージェント ＝ モデル ＋ そのまわり全部（＝ハーネス／足場）
ハーネス（まわり全部）
コンテキスト管理
ツール・行動
AIモデル
制御ループ
ひとことで言うと
•
ハーネス＝AIモデル“以外”の全部
•
入力を整え・ツールを動かし・結果を返す土台
•
テスト/ルール/型チェック/制御も含む
•
CPUがLLM、OSがハーネス…の関係に近い
評価・ガードレール
出典：Anthropic／Hugging Face／@IT・CodeZine（解説）
AIハーネスエンジニアリング入門 ｜ 文系向け図解
3 / 15


# Page. 4

![Page Image](https://bcdn.docswell.com/page/9729WP2WJR.jpg)

文系向けのたとえ 🍜
AIモデル ＝ 天才だけど気まぐれ
な新人
放っておくと、すごい時もあれば的外れな時も。
ハーネス ＝ 店のマニュアル・段
取り・味見
ルール・道具・チェックを整えると、新人でも安定して
良い仕事ができる。
※このたとえは正確ではありません（入口の理解用）。あなた＝環境を整える店長です。
AIハーネスエンジニアリング入門 ｜ 文系向け図解
4 / 15


# Page. 5

![Page Image](https://bcdn.docswell.com/page/DJY4L5Y97M.jpg)

基本原理①：AIは“ループ”で動く
•
•
“考える”と“動く”を交互に回すと、思い込み（幻覚）や暴走が減る。
代表例 ReAct：この方式で課題の成功率が大きく向上（+34% / +10%）。
観察
（今の状況）
思考
（次の一手）
行動
（ツール実行）
結果を見て、また繰り返す
出典：ReAct（Yao et al., ICLR 2023・査読付き）
AIハーネスエンジニアリング入門 ｜ 文系向け図解
5 / 15


# Page. 6

![Page Image](https://bcdn.docswell.com/page/V7NY4NPDE8.jpg)

基本構成：ハーネスの主な部品
コンテキスト管理
ツール・行動
必要な情報“だけ”を渡す（渡しすぎない）
検索/実行などAIが使える道具と、その説明の
質
制御ループ＆アーキ制約
評価ハーネス＆ガードレール
手順・段取り・逸脱を防ぐガード
自動テスト・評価AIで“多角的に”チェック
出典：aidd.jp（4レイヤー）／serverworks・hexabase（3要素）／Legalscape（テスト・ルール等）
AIハーネスエンジニアリング入門 ｜ 文系向け図解
6 / 15


# Page. 7

![Page Image](https://bcdn.docswell.com/page/YJ9PQR3873.jpg)

なぜ効く？ 同じモデル・違うハーネス
同じ AI モデル
良いハーネス
弱いハーネス
低い成果
報告されている差の例
SWE-bench：約5%→30%超
CORE-Bench：42%→78%
Terminal Bench：52.8→66.5
高い成果
出典：MindStudio／MongoDB（CORE-Bench, LangChain報告）／General Modular Harness（arXiv, p&lt;0.05）
AIハーネスエンジニアリング入門 ｜ 文系向け図解
7 / 15


# Page. 8

![Page Image](https://bcdn.docswell.com/page/GJ8DGWMZJD.jpg)

評価ハーネス：測れないものは直せない
評価ハーネス＝採点の仕組み
固定シナリオを流してスコアを記録（学習ではなく計測）
“ハーネス＋モデル”をまとめて測る
エージェント評価は両者の合わせ技を測っている
採点のバグに注意
良い動作でも採点ミスで低評価になることがある
出典：Anthropic（evals）／Hugging Face（eval harness）
AIハーネスエンジニアリング入門 ｜ 文系向け図解
8 / 15


# Page. 9

![Page Image](https://bcdn.docswell.com/page/LJLMGN31ER.jpg)

うまくいく設計の原則
必要な情報だけ渡す
コンテキストを絞る（多すぎると逆に迷う）
道具と“説明”を整える
ツールの説明の質が成果を左右する
段取り（計画ループ）を入れる
モデル更新より効くことがある
評価・ガードレールで多角チェック
自動テスト＋評価AI＋人の確認
出典：Anthropic／MindStudio／Speaker Deck「AIエージェント時代のハーネスエンジニアリング」(国内)
AIハーネスエンジニアリング入門 ｜ 文系向け図解
9 / 15


# Page. 10

![Page Image](https://bcdn.docswell.com/page/47MYQXD57W.jpg)

つまずき・リスク（安全面）
評価が無い／プロンプト頼みで脆い
壊れても気づけない・再現しない
“安全でない行動”が起きる
ある検証で不安全行動が7〜33%（ClawsBench）
難タスクはまだ低い
実CVEでPoC≤18%・修正≤34%（SEC-bench）
過信は禁物（両論あり）
効果が誤差範囲という報告も（Scale AI・METR）
出典：ClawsBench／SEC-bench（arXiv）／AgentBreeder（多エージェント足場の安全リスク, Oxford/Meta）
AIハーネスエンジニアリング入門 ｜ 文系向け図解
10 / 15


# Page. 11

![Page Image](https://bcdn.docswell.com/page/P7R98N4ZE9.jpg)

文系でもできる：業務への活かし方
ルールを言葉にする
規約・禁止事項・お手本をファイルに書く＝AIが従う土台
仕事を小さく・明確に
曖昧な丸投げをやめ、手順と完了条件を決める
チェック観点を用意する
何が“OK”かを先に決める＝評価の物差し
ログを見て直す・人の確認点を置く
結果を見て改善。最終承認は人が担う
AIが働きやすい“環境づくり”は、コードを書けなくても貢献できる仕事です。
AIハーネスエンジニアリング入門 ｜ 文系向け図解
11 / 15


# Page. 12

![Page Image](https://bcdn.docswell.com/page/PJXQ8N217X.jpg)

まとめ ＆ 次の一歩
•
AIモデル＝賢い新人、ハーネス＝職場環境
•
同じモデルでも“まわり”次第で成果は大きく変わる
•
基本：情報を絞る・段取り・評価で多角チェック
•
次の一歩：身近な業務で「ルール＋完了条件」を1つ書く
面白きこともなき世を面白く 🐰🦺 ｜ うさうさ先生


# Page. 13

![Page Image](https://bcdn.docswell.com/page/3JK9KNMMJD.jpg)

出典（種類を明示）
【査読付き】
ReAct: Synergizing Reasoning and Acting in Language Models（Yao et al., ICLR 2023）
【プレプリント（arXiv・査読前を含む）】
General Modular Harness for LLM Agents (2507.11633)／AgentBreeder (2502.00757, Oxford・Meta)／SEC-bench (2506.11791)
／ClawsBench／Natural-Language Agent Harnesses (2603.25723)／関連サーベイ
【実務・技術解説（査読なし）】
Anthropic「Demystifying evals for AI agents」／Hugging Face「Agent glossary」／MongoDB／MindStudio
【国内・日本語解説】
@IT(ITmedia)／CodeZine／サーバーワークス／Hexabase／Legalscape／Speaker Deck(tame)
注：「ハーネスエンジニアリング」は2026年に実務発で広まった用語。研究面はエージェント足場・評価の査読論文/プレプリントが裏付け。数値は各出典の実
験条件に依存し、効果が小さいとする報告もあります（ウソなく併記）。
AIハーネスエンジニアリング入門 ｜ 文系向け図解
13 / 15


# Page. 14

![Page Image](https://bcdn.docswell.com/page/LE3WZVY2E5.jpg)

進行タイムテーブル（目安20分）
経過
分
内容
0:00
2
導入・結論（S1-2）
0:02
4
ハーネスとは・たとえ（S3-4）
0:06
5
基本原理・構成・なぜ効く（S5-7）
0:11
3
評価・成功の原則（S8-9）
0:14
3
失敗・リスク（S10）
0:17
2
業務活用・まとめ（S11-12）
0:19
1
出典・Q&amp;A（S13）
※ 文系向けは“数値の細部”より“なぜ環境設計が効くか”の腹落ちを優先。
AIハーネスエンジニアリング入門 ｜ 文系向け図解
14 / 15


# Page. 15

![Page Image](https://bcdn.docswell.com/page/8EDKR8567G.jpg)

想定Q&amp;A（講師カンペ）
Q. ハーネスとプロンプトの違いは？
“環境全体”。
A. プロンプトは指示文の一部。ハーネスは指示・ツール・制御・評価まで含む
Q. モデルが良ければ不要では？
の報告も。
A. 同じモデルでも環境で成果が大きく変わる。ただし効果は条件次第で誤差範囲
Q. 文系でも関われる？
る。
A. ルールの言語化・タスク明確化・合格条件づくり・ログ確認は非エンジニアの強みが活き
Q. 査読論文はどれ？
A. ReActはICLR2023の査読付き。多くはプレプリントや実務記事で、用語自体は実務発。
Q. 安全面のリスクは？
須。
A. 不安全な行動が一定割合で起きうる（ClawsBench 7-33%）。ガードレールと人の確認が必
AIハーネスエンジニアリング入門 ｜ 文系向け図解
15 / 15