ローカルLLMでAIエージェントは作れるか？

2.4K Views

March 19, 26

#名古屋llmmeetup #ローカルLLM #AIエージェント #プライバシー #セキュリティ #モバイルLLM

スライド概要

2026/03/19 製造業でも生成AI活用したい！名古屋LLM MeetUp#11
https://kinto-technologies.connpass.com/event/383174/

Koki Miura

@k_miura_io

スライド一覧

Engineer / AWS Community Builder / LINE API Expert / JAWS UG名古屋運営 GIthub: http://github.com/Miura55 Blog: http://supernove.hatenadiary.jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

AIエージェントの開発が捗るLLMs.txtって何？

ai coding meetup

Koki Miura 11.4K

転職のしくじりを語りたい

Koki Miura 9.1K

これぞ現代のRPA?! 話題のMCPを触ってみた

rpalt

Koki Miura 3.7K

型でつなぐFastAPI × フロントエンド活用術

pycontokai

Koki Miura 2.1K

AppSync Eventsで作るチャットアプリ-Amplifyを使わずに-

jawsug jawsug_nagoya

Koki Miura 2K

LINENotifyがもたらした影響

linedc

Koki Miura 1.9K

各ページのテキスト

ローカルLLMでAIエージェントは作れるか？ Koki Miura(@k_miura_io)

自己紹介 • 三浦耕生(こうき) • バックエンドエンジニア • JAWS UG名古屋＆神戸運営 • 鯱.py 運営 • 俺の勉強会運営 @k_miura_io koki.miura05

おことわり今日のLTの中で一部撮影・SNS投稿NGの箇所があります。下のイラストがあるページはスライドの撮影と喋ったことをSNSで投稿するのは控えるようにお願いします。他は自由に写真・SNS投稿してください！！ (シェアするスライドはNG箇所をカットしたものを公開予定です)

ローカルLLMとは ●LLM（大規模言語モデル）を自分のPC上で動かす仕組み ●クラウド（ChatGPT等）と違い、データが外部に送信されない ●インターネット接続なしでも利用可能 ●プライバシー・セキュリティ面で安心 ●利用料金がかからない（電気代のみ） ●代表的なツール：Ollama、llama.cpp、LM Studio

AI活用する際の懸念点 1 データセキュリティ機密性の高い製造データや知的財産の漏洩リスク 4 人材不足 AI人材の確保と既存社員のスキル教育 2 品質・精度の問題 AIの誤判断による不良品流出や製造ミス 5 既存システム連携レガシーシステムとの統合や互換性の課題 3 導入コスト初期投資・インフラ整備・運用コストの負担 6 責任所在の不明確さ AIの判断ミスに対する責任の帰属問題

事例：某電子部品メーカーの論文仕分け • 論文の仕分け業務を自動化するツール • 社内のセキュリティ的にクラウドのLLMが NGなのでローカルLLMを使いオンプレでの運用を想定掲載NG • モデルを適切に選定したことでオンプレでもかなり高精度な出力になり、現在も社内で活用されている

PCスペックのインフレ • ローカルLLMを動かすのに高精度なGPUを買い求める人がいるとか • Raspberry Piのスペックも上がってきていて、対応したアクセラレーターボードも出ている

モバイル向けLLMとは ● クラウドではなく、スマートフォンやタブレット上で直接推論を実行するLLM ● プライバシー保護：データが端末から外に出ない ● オフライン動作：ネットワーク不要でAIを利用可能 ● 低遅延：クラウド往復がないため応答が高速 ● 課題：メモリ制約（8-24GB RAM）、バッテリー消費、計算能力の限界 ● 量子化（4bit/8bit）やプルーニングで軽量化して対応

10.

代表的なモデルと最適化技術主要モデル（sub-10B） ▸ Gemma 3n（Google） ─ モバイルアーキテクチャ専用設計 ▸ Qwen3-8B / Qwen2.5-VL-7B（Alibaba） ─ 画像理解・推論の二刀流 ▸ Llama 3.1/3.2（Meta） ─ 100+言語対応、オープンウェイト ▸ MobileLLM / SmolLM3（Meta / HuggingFace） ─ sub-3Bの超軽量モデル主要な最適化技術 ▸ 量子化：FP16→INT4でモデルサイズを1/4に圧縮 ▸ MoE：トークンごとに一部のパラメータのみ活性化 ▸ 投機的デコーディング：小モデルで先読みし2-3x高速化

11.

推論フレームワークとユースケース主要フレームワーク ▸ llama.cpp：C/C++で軽量推論、GGUFフォーマット対応 ▸ ExecuTorch（Meta）：2025年にGA、モバイル・エッジ向け推論エンジン ▸ MLC-LLM：TVMベースのコンパイラ、iOS/Android対応 ▸ MediaPipe（Google）：Gemmaモデル対応、GPU/CPU推論ユースケース ▸ オフラインチャット・翻訳・文章校正 ▸ 端末上の画像認識・ドキュメント要約 ▸ Apple Intelligence / Gemini Nano などOS統合型AI

12.

手元のPCでAIエージェント動かせるかも？

13.

作ってみた • Web検索からレポートをまとめるAIエージェント • ワードが生成されるので、後から見直し、編集して提出できる • 大学生の課題でやるようなレポートを手元のPCで作成する • 大学生の強い味方(もちろん自己責任)

14.

システム構成

15.

DEMO

16.

使用するLLMの選定 • OllamaからLLMを取得する場合、「Tools」のタグで絞り込む必要がある • ツール呼び出しに対応しているモデルから選ぶ • 先にモデルそのものを取得してモデル単体で動かしたときのレスポンスの早さを確認するのがおすすめ • あとは精度とのバランスで見るのがおすすめ

17.

宣伝 https://bit.ly/4teulft

https://bit.ly/4teulft

18.

まとめ ● ローカルLLMでAI活用のハードルを下げられる ─ データ非送信でセキュリティ面も安心、オフライン・無料で利用可能 ● モバイル・エッジ向けLLMが急速に進化中 ─ 量子化・MoE等の最適化技術、Gemma 3n / Qwen3 / Llama 3.2等が充実 ● 手元のPCでAIエージェントが作れる時代に ─ Strands Agents × OllamaでWeb検索→レポート生成をローカル完結 ● LLM選定のポイント ─ Toolsタグ対応モデルを選び、速度と精度のバランスで判断

19.

宣伝② https://bit.ly/3NJQvHa

https://bit.ly/3NJQvHa

20.

END