ローカルLLMでAIエージェントは作れるか?

-- Views

March 19, 26

スライド概要

2026/03/19 製造業でも生成AI活用したい!名古屋LLM MeetUp#11
https://kinto-technologies.connpass.com/event/383174/

profile-image

Engineer / AWS Community Builder / LINE API Expert / JAWS UG名古屋 運営 GIthub: http://github.com/Miura55 Blog: http://supernove.hatenadiary.jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

ローカルLLMでAIエージェント は作れるか? Koki Miura(@k_miura_io)

2.

自己紹介 • 三浦 耕生(こうき) • バックエンドエンジニア • JAWS UG名古屋&神戸 運営 • 鯱.py 運営 • 俺の勉強会 運営 @k_miura_io koki.miura05

3.

おことわり 今日のLTの中で一部撮影・SNS投稿NGの箇所があります。 下のイラストがあるページはスライドの撮影と喋ったことをSNSで投 稿するのは控えるようにお願いします。 他は自由に写真・SNS投稿してください!! (シェアするスライドはNG箇所をカットしたものを公開予定です)

4.

ローカルLLMとは ●LLM(大規模言語モデル)を自分のPC上で動かす仕組み ●クラウド(ChatGPT等)と違い、データが外部に送信されない ●インターネット接続なしでも利用可能 ●プライバシー・セキュリティ面で安心 ●利用料金がかからない(電気代のみ) ●代表的なツール:Ollama、llama.cpp、LM Studio

5.

AI活用する際の懸念点 1 データセキュリティ 機密性の高い製造データや 知的財産の漏洩リスク 4 人材不足 AI人材の確保と 既存社員のスキル教育 2 品質・精度の問題 AIの誤判断による 不良品流出や製造ミス 5 既存システム連携 レガシーシステムとの 統合や互換性の課題 3 導入コスト 初期投資・インフラ整備・ 運用コストの負担 6 責任所在の不明確さ AIの判断ミスに対する 責任の帰属問題

6.

AI活用する際の懸念点 1 データセキュリティ 機密性の高い製造データや 知的財産の漏洩リスク 4 人材不足 AI人材の確保と 既存社員のスキル教育 2 品質・精度の問題 AIの誤判断による 不良品流出や製造ミス 5 既存システム連携 レガシーシステムとの 統合や互換性の課題 3 導入コスト 初期投資・インフラ整備・ 運用コストの負担 6 責任所在の不明確さ AIの判断ミスに対する 責任の帰属問題

7.

事例:某電子部品メーカーの論文仕分け • 論文の仕分け業務を自動化するツール • 社内のセキュリティ的にクラウドのLLMが NGなのでローカルLLMを使いオンプレで の運用を想定 掲載NG • モデルを適切に選定したことでオンプレで もかなり高精度な出力になり、現在も社内 で活用されている

8.

PCスペックのインフレ • ローカルLLMを動かすのに高精度なGPUを買い求 める人がいるとか • Raspberry Piのスペックも上がってきていて、対応 したアクセラレーターボードも出ている

9.

モバイル向けLLMとは ● クラウドではなく、スマートフォンやタブレット上で直接推論を実行するLLM ● プライバシー保護:データが端末から外に出ない ● オフライン動作:ネットワーク不要でAIを利用可能 ● 低遅延:クラウド往復がないため応答が高速 ● 課題:メモリ制約(8-24GB RAM)、バッテリー消費、計算能力の限界 ● 量子化(4bit/8bit)やプルーニングで軽量化して対応

10.

代表的なモデルと最適化技術 主要モデル(sub-10B) ▸ Gemma 3n(Google) ─ モバイルアーキテクチャ専用設計 ▸ Qwen3-8B / Qwen2.5-VL-7B(Alibaba) ─ 画像理解・推論の二刀流 ▸ Llama 3.1/3.2(Meta) ─ 100+言語対応、オープンウェイト ▸ MobileLLM / SmolLM3(Meta / HuggingFace) ─ sub-3Bの超軽量モデル 主要な最適化技術 ▸ 量子化:FP16→INT4でモデルサイズを1/4に圧縮 ▸ MoE:トークンごとに一部のパラメータのみ活性化 ▸ 投機的デコーディング:小モデルで先読みし2-3x高速化

11.

推論フレームワークとユースケース 主要フレームワーク ▸ llama.cpp:C/C++で軽量推論、GGUFフォーマット対応 ▸ ExecuTorch(Meta):2025年にGA、モバイル・エッジ向け推論エンジン ▸ MLC-LLM:TVMベースのコンパイラ、iOS/Android対応 ▸ MediaPipe(Google):Gemmaモデル対応、GPU/CPU推論 ユースケース ▸ オフラインチャット・翻訳・文章校正 ▸ 端末上の画像認識・ドキュメント要約 ▸ Apple Intelligence / Gemini Nano などOS統合型AI

12.

手元のPCでAIエージェント動かせるかも?

13.

作ってみた • Web検索からレポートをまとめるAIエージェント • ワードが生成されるので、後から見直し、編集して 提出できる • 大学生の課題でやるようなレポートを手元のPCで 作成する • 大学生の強い味方(もちろん自己責任)

14.

システム構成

15.

DEMO

16.

使用するLLMの選定 • OllamaからLLMを取得する場合、「Tools」のタグで絞 り込む必要がある • ツール呼び出しに対応しているモデルから選ぶ • 先にモデルそのものを取得してモデル単体で動かした ときのレスポンスの早さを確認するのがおすすめ • あとは精度とのバランスで見るのがおすすめ

17.

宣伝 https://bit.ly/4teulft

18.

まとめ ● ローカルLLMでAI活用のハードルを下げられる ─ データ非送信でセキュリティ面も安心、オフライン・無料で利用可能 ● モバイル・エッジ向けLLMが急速に進化中 ─ 量子化・MoE等の最適化技術、Gemma 3n / Qwen3 / Llama 3.2等が充実 ● 手元のPCでAIエージェントが作れる時代に ─ Strands Agents × OllamaでWeb検索→レポート生成をローカル完結 ● LLM選定のポイント ─ Toolsタグ対応モデルを選び、速度と精度のバランスで判断

19.

宣伝② https://bit.ly/3NJQvHa

20.

END