【講師版】AIハーネスエンジニアリング入門_文系向け_話者ノート付き

>100 Views

June 13, 26

スライド概要

profile-image

何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

【講師版・話者ノート付き】 AI ハーネスエンジニアリング 入門 AIモデルより、その“まわり”の設計が効く 文系にもわかる図解 / 国内外の文献にもとづいて うさうさ先生 🐰🦺 面白きこともなき世を面白く

2.

結論:いま“環境設計”が効く ある実証実験の報告 AIを賢く“使う”より、 AIが正しく働ける “環境”を設計する +1 点 モデルを変えたとき +22 点 これがエンジニアの新しい役割になりつつある。 ハーネス(環境)を変えたとき ※ 実務系の実証報告(OpenAIの実験として国内記事が紹介)。条件で差は変わります。 AIハーネスエンジニアリング入門 | 文系向け図解 2 / 15

3.

そもそも「ハーネス」とは? AIエージェント = モデル + そのまわり全部(=ハーネス/足場) ハーネス(まわり全部) コンテキスト管理 ツール・行動 AIモデル 制御ループ ひとことで言うと • ハーネス=AIモデル“以外”の全部 • 入力を整え・ツールを動かし・結果を返す土台 • テスト/ルール/型チェック/制御も含む • CPUがLLM、OSがハーネス…の関係に近い 評価・ガードレール 出典:Anthropic/Hugging Face/@IT・CodeZine(解説) AIハーネスエンジニアリング入門 | 文系向け図解 3 / 15

4.

文系向けのたとえ 🍜 AIモデル = 天才だけど気まぐれ な新人 放っておくと、すごい時もあれば的外れな時も。 ハーネス = 店のマニュアル・段 取り・味見 ルール・道具・チェックを整えると、新人でも安定して 良い仕事ができる。 ※このたとえは正確ではありません(入口の理解用)。あなた=環境を整える店長です。 AIハーネスエンジニアリング入門 | 文系向け図解 4 / 15

5.

基本原理①:AIは“ループ”で動く • • “考える”と“動く”を交互に回すと、思い込み(幻覚)や暴走が減る。 代表例 ReAct:この方式で課題の成功率が大きく向上(+34% / +10%)。 観察 (今の状況) 思考 (次の一手) 行動 (ツール実行) 結果を見て、また繰り返す 出典:ReAct(Yao et al., ICLR 2023・査読付き) AIハーネスエンジニアリング入門 | 文系向け図解 5 / 15

6.

基本構成:ハーネスの主な部品 コンテキスト管理 ツール・行動 必要な情報“だけ”を渡す(渡しすぎない) 検索/実行などAIが使える道具と、その説明の 質 制御ループ&アーキ制約 評価ハーネス&ガードレール 手順・段取り・逸脱を防ぐガード 自動テスト・評価AIで“多角的に”チェック 出典:aidd.jp(4レイヤー)/serverworks・hexabase(3要素)/Legalscape(テスト・ルール等) AIハーネスエンジニアリング入門 | 文系向け図解 6 / 15

7.

なぜ効く? 同じモデル・違うハーネス 同じ AI モデル 良いハーネス 弱いハーネス 低い成果 報告されている差の例 SWE-bench:約5%→30%超 CORE-Bench:42%→78% Terminal Bench:52.8→66.5 高い成果 出典:MindStudio/MongoDB(CORE-Bench, LangChain報告)/General Modular Harness(arXiv, p<0.05) AIハーネスエンジニアリング入門 | 文系向け図解 7 / 15

8.

評価ハーネス:測れないものは直せない 評価ハーネス=採点の仕組み 固定シナリオを流してスコアを記録(学習ではなく計測) “ハーネス+モデル”をまとめて測る エージェント評価は両者の合わせ技を測っている 採点のバグに注意 良い動作でも採点ミスで低評価になることがある 出典:Anthropic(evals)/Hugging Face(eval harness) AIハーネスエンジニアリング入門 | 文系向け図解 8 / 15

9.

うまくいく設計の原則 必要な情報だけ渡す コンテキストを絞る(多すぎると逆に迷う) 道具と“説明”を整える ツールの説明の質が成果を左右する 段取り(計画ループ)を入れる モデル更新より効くことがある 評価・ガードレールで多角チェック 自動テスト+評価AI+人の確認 出典:Anthropic/MindStudio/Speaker Deck「AIエージェント時代のハーネスエンジニアリング」(国内) AIハーネスエンジニアリング入門 | 文系向け図解 9 / 15

10.

つまずき・リスク(安全面) 評価が無い/プロンプト頼みで脆い 壊れても気づけない・再現しない “安全でない行動”が起きる ある検証で不安全行動が7〜33%(ClawsBench) 難タスクはまだ低い 実CVEでPoC≤18%・修正≤34%(SEC-bench) 過信は禁物(両論あり) 効果が誤差範囲という報告も(Scale AI・METR) 出典:ClawsBench/SEC-bench(arXiv)/AgentBreeder(多エージェント足場の安全リスク, Oxford/Meta) AIハーネスエンジニアリング入門 | 文系向け図解 10 / 15

11.

文系でもできる:業務への活かし方 ルールを言葉にする 規約・禁止事項・お手本をファイルに書く=AIが従う土台 仕事を小さく・明確に 曖昧な丸投げをやめ、手順と完了条件を決める チェック観点を用意する 何が“OK”かを先に決める=評価の物差し ログを見て直す・人の確認点を置く 結果を見て改善。最終承認は人が担う AIが働きやすい“環境づくり”は、コードを書けなくても貢献できる仕事です。 AIハーネスエンジニアリング入門 | 文系向け図解 11 / 15

12.

まとめ & 次の一歩 • AIモデル=賢い新人、ハーネス=職場環境 • 同じモデルでも“まわり”次第で成果は大きく変わる • 基本:情報を絞る・段取り・評価で多角チェック • 次の一歩:身近な業務で「ルール+完了条件」を1つ書く 面白きこともなき世を面白く 🐰🦺 | うさうさ先生

13.

出典(種類を明示) 【査読付き】 ReAct: Synergizing Reasoning and Acting in Language Models(Yao et al., ICLR 2023) 【プレプリント(arXiv・査読前を含む)】 General Modular Harness for LLM Agents (2507.11633)/AgentBreeder (2502.00757, Oxford・Meta)/SEC-bench (2506.11791) /ClawsBench/Natural-Language Agent Harnesses (2603.25723)/関連サーベイ 【実務・技術解説(査読なし)】 Anthropic「Demystifying evals for AI agents」/Hugging Face「Agent glossary」/MongoDB/MindStudio 【国内・日本語解説】 @IT(ITmedia)/CodeZine/サーバーワークス/Hexabase/Legalscape/Speaker Deck(tame) 注:「ハーネスエンジニアリング」は2026年に実務発で広まった用語。研究面はエージェント足場・評価の査読論文/プレプリントが裏付け。数値は各出典の実 験条件に依存し、効果が小さいとする報告もあります(ウソなく併記)。 AIハーネスエンジニアリング入門 | 文系向け図解 13 / 15

14.

進行タイムテーブル(目安20分) 経過 分 内容 0:00 2 導入・結論(S1-2) 0:02 4 ハーネスとは・たとえ(S3-4) 0:06 5 基本原理・構成・なぜ効く(S5-7) 0:11 3 評価・成功の原則(S8-9) 0:14 3 失敗・リスク(S10) 0:17 2 業務活用・まとめ(S11-12) 0:19 1 出典・Q&A(S13) ※ 文系向けは“数値の細部”より“なぜ環境設計が効くか”の腹落ちを優先。 AIハーネスエンジニアリング入門 | 文系向け図解 14 / 15

15.

想定Q&A(講師カンペ) Q. ハーネスとプロンプトの違いは? “環境全体”。 A. プロンプトは指示文の一部。ハーネスは指示・ツール・制御・評価まで含む Q. モデルが良ければ不要では? の報告も。 A. 同じモデルでも環境で成果が大きく変わる。ただし効果は条件次第で誤差範囲 Q. 文系でも関われる? る。 A. ルールの言語化・タスク明確化・合格条件づくり・ログ確認は非エンジニアの強みが活き Q. 査読論文はどれ? A. ReActはICLR2023の査読付き。多くはプレプリントや実務記事で、用語自体は実務発。 Q. 安全面のリスクは? 須。 A. 不安全な行動が一定割合で起きうる(ClawsBench 7-33%)。ガードレールと人の確認が必 AIハーネスエンジニアリング入門 | 文系向け図解 15 / 15