ハーネスエンジニアリング_国内外論文_図解_出典URL付き_文系向け.pptx

>100 Views

June 13, 26

スライド概要

profile-image

何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

ハーネスエンジニアリング 国内外の論文で読む — AIモデルより“まわり”の設計が効く 文系向け図解 / ページ毎に正式名+出典URL付き / 実務・関連記事つき うさうさ先生 🐰🦺 面白きこともなき世を面白く

2.

結論:いま“環境設計”が効く ある実証実験の報告 AIを賢く“使う”より、AIが正し く働ける“環境”を設計する +1 点(モデルを変更) +22 点(ハーネスを変更) これがエンジニアの新しい役割になりつつある。 [実務・国内] Hexabase(OpenAI実証として紹介) https://www.hexabase.com/column/harness-engineering-complete-guide-ai-agent-3-elements-practical-steps ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 2 / 14

3.

ハーネスとは?(モデル+まわり全部) ハーネス(まわり全部) コンテキスト管理 ツール・行動 AIモデル 制御ループ ひとことで言うと • ハーネス=AIモデル“以外”の全部 • 入力を整え・道具を動かし・結果を返す土台 • テスト/ルール/型/制御も含む • LLM=CPU、ハーネス=OS の関係に近い 評価・ガードレール [実務・海外] Anthropic / Hugging Face https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents [解説・国内] CodeZine(OS比喩) https://codezine.jp/article/detail/23340 ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 3 / 14

4.

文系向けのたとえ 🍜 AIモデル = 天才だけど気まぐれ な新人 放っておくと、すごい時も的外れな時もある。 ハーネス = 店のマニュアル・段 取り・味見 ルール・道具・チェックを整えると、新人でも安定して良い 仕事ができる。 ※このたとえは正確ではありません(入口の理解用)。あなた=環境を整える店長です。 ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 4 / 14

5.

基本原理:AIは“ループ”で動く 観察 → 思考 → 行動 → 結果を見てまた観察(考えながら手を動かす) 観察 (今の状況) 思考 (次の一手) 行動 (ツール実行) 結果を見て、また繰り返す ReActはこの方式で成功率が大きく向上(ALFWorld +34% / WebShop +10%)、幻覚や誤りの連鎖も抑制。 [査読付き・海外] ReAct (Yao et al., ICLR 2023) https://openreview.net/forum?id=WE_vluYUL-X ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 5 / 14

6.

ハーネスの主な部品(構成) コンテキスト管理 ツール・行動 必要な情報“だけ”渡す 道具と“説明”の質 制御ループ&制約 評価&ガードレール 手順・逸脱を防ぐガード 自動テスト・評価AIで多角チェック [プレプリント・海外] Natural-Language Agent Harnesses https://arxiv.org/abs/2603.25723 [解説・国内] Legalscape / aidd.jp https://tech.legalscape.co.jp/entry/ai-review-with-harness ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 6 / 14

7.

なぜ効く? 同じモデル・違うハーネス 同じ AI モデル 良いハーネス 弱いハーネス 低い成果 報告例(条件で変動) SWE-bench 約5%→30%超 CORE-Bench 42%→78% Terminal Bench 52.8→66.5 高い成果 [プレプリント・海外] General Modular Harness (p<0.05) https://arxiv.org/abs/2507.11633 [実務・海外] MindStudio / MongoDB https://www.mindstudio.ai/blog/what-is-harness-engineering ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 7 / 14

8.

評価ハーネス:測れないものは直せない 評価ハーネス=採点の仕組み 固定シナリオを流してスコアを記録 “ハーネス+モデル”を測る エージェント評価は両者の合わせ技 採点のバグに注意 良い動作でも採点ミスで低評価に [実務・海外] Anthropic「evals for AI agents」/ Hugging Face https://huggingface.co/blog/agent-glossary ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 8 / 14

9.

つまずき・リスク(安全面) 評価が無い/プロンプト頼みで脆い 壊れても気づけない・再現しない “安全でない行動”が起きる ある評価で不安全行動が7〜33% 難タスクはまだ低い 実CVEでPoC≤18%・修正≤34% [プレプリント・海外] ClawsBench / SEC-bench / AgentBreeder https://arxiv.org/abs/2604.05172 ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 9 / 14

10.

実務での活かし方(文系でもできる) ルールを言葉にする 仕事を小さく・明確に 規約・禁止事項・お手本をファイル化=AIが従う土 台 曖昧な丸投げをやめ、手順と完了条件を決める 合格条件(評価)を先に決める ログで直す・人の確認点を置く 何が“OK”かを定義=評価のものさし 結果を見て改善。最終承認は人が担う 「AIが働きやすい環境を整える」のは、コードを書けなくても貢献できる仕事です。 ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 10 / 14

11.

国内外の文献マップ 海外:論文が中心 • 査読付き:ReAct(ICLR 2023) • プレプリント(arXiv):Modular Harness/AgentBreeder/SEC-bench/ClawsBen ch 等 • 国内:解説が中心 • @IT/CodeZine/サーバーワークス • Hexabase/Legalscape/aidd.jp • Speaker Deck 等の発表資料 実務:Anthropic/Hugging Face/MongoDB ※ 本調査では、国内の“査読付き論文”は確認できませんでした(用語が新しく実務発のため)。 ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 11 / 14

12.

主要論文:正式名+URL(海外) [査読付き] ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023) https://openreview.net/forum?id=WE_vluYUL-X [プレプリント] General Modular Harness for LLM Agents in Multi-Turn Gaming Environments https://arxiv.org/abs/2507.11633 [プレプリント] AgentBreeder: Mitigating AI Safety Risks of Multi-Agent Scaffolds (Oxford/Meta) https://arxiv.org/abs/2502.00757 [プレプリント] SEC-bench: Benchmarking LLM Agents on Real-World Software Security Tasks https://arxiv.org/abs/2506.11791 [プレプリント] ClawsBench: Capability and Safety of LLM Productivity Agents https://arxiv.org/abs/2604.05172 [プレプリント] Natural-Language Agent Harnesses https://arxiv.org/abs/2603.25723 ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 12 / 14

13.

関連記事(実務解説・国内) [海外・実務] Anthropic「Demystifying evals for AI agents」 https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents [海外・実務] Hugging Face「Agent glossary」 https://huggingface.co/blog/agent-glossary [海外・実務] MongoDB「The Agent Harness」/ MindStudio「Harness Engineering」 https://www.mindstudio.ai/blog/what-is-harness-engineering [国内・解説] @IT(ITmedia)「『ハーネス』って結局、何?」 https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news016.html [国内・解説] CodeZine「エージェントハーネスの概要と設計・実装」 https://codezine.jp/article/detail/23340 [国内・解説] サーバーワークス / Hexabase / Legalscape / aidd.jp / Speaker Deck(tame) https://blog.serverworks.co.jp/harness-engineering-overview ハーネスエンジニアリング | 国内外論文・図解・出典URL付き 13 / 14

14.

まとめ & 注意 • AIモデル=賢い新人、ハーネス=職場環境。まわり次第で成果は変わる • 基本:情報を絞る・段取り・評価で多角チェック・人の確認点 • 用語は2026年に実務発で普及。研究は査読(ReAct)+プレプリントが裏付け • 数値は実験条件に依存。効果が小さいとする報告もある(ウソなく併記) 面白きこともなき世を面白く 🐰🦺 | うさうさ先生