-- Views
March 19, 26
スライド概要
2026/03/19 製造業でも生成AI活用したい!名古屋LLM MeetUp#11
https://kinto-technologies.connpass.com/event/383174/
Engineer / AWS Community Builder / LINE API Expert / JAWS UG名古屋 運営 GIthub: http://github.com/Miura55 Blog: http://supernove.hatenadiary.jp
ローカルLLMでAIエージェント は作れるか? Koki Miura(@k_miura_io)
自己紹介 • 三浦 耕生(こうき) • バックエンドエンジニア • JAWS UG名古屋&神戸 運営 • 鯱.py 運営 • 俺の勉強会 運営 @k_miura_io koki.miura05
おことわり 今日のLTの中で一部撮影・SNS投稿NGの箇所があります。 下のイラストがあるページはスライドの撮影と喋ったことをSNSで投 稿するのは控えるようにお願いします。 他は自由に写真・SNS投稿してください!! (シェアするスライドはNG箇所をカットしたものを公開予定です)
ローカルLLMとは ●LLM(大規模言語モデル)を自分のPC上で動かす仕組み ●クラウド(ChatGPT等)と違い、データが外部に送信されない ●インターネット接続なしでも利用可能 ●プライバシー・セキュリティ面で安心 ●利用料金がかからない(電気代のみ) ●代表的なツール:Ollama、llama.cpp、LM Studio
AI活用する際の懸念点 1 データセキュリティ 機密性の高い製造データや 知的財産の漏洩リスク 4 人材不足 AI人材の確保と 既存社員のスキル教育 2 品質・精度の問題 AIの誤判断による 不良品流出や製造ミス 5 既存システム連携 レガシーシステムとの 統合や互換性の課題 3 導入コスト 初期投資・インフラ整備・ 運用コストの負担 6 責任所在の不明確さ AIの判断ミスに対する 責任の帰属問題
AI活用する際の懸念点 1 データセキュリティ 機密性の高い製造データや 知的財産の漏洩リスク 4 人材不足 AI人材の確保と 既存社員のスキル教育 2 品質・精度の問題 AIの誤判断による 不良品流出や製造ミス 5 既存システム連携 レガシーシステムとの 統合や互換性の課題 3 導入コスト 初期投資・インフラ整備・ 運用コストの負担 6 責任所在の不明確さ AIの判断ミスに対する 責任の帰属問題
事例:某電子部品メーカーの論文仕分け • 論文の仕分け業務を自動化するツール • 社内のセキュリティ的にクラウドのLLMが NGなのでローカルLLMを使いオンプレで の運用を想定 掲載NG • モデルを適切に選定したことでオンプレで もかなり高精度な出力になり、現在も社内 で活用されている
PCスペックのインフレ • ローカルLLMを動かすのに高精度なGPUを買い求 める人がいるとか • Raspberry Piのスペックも上がってきていて、対応 したアクセラレーターボードも出ている
モバイル向けLLMとは ● クラウドではなく、スマートフォンやタブレット上で直接推論を実行するLLM ● プライバシー保護:データが端末から外に出ない ● オフライン動作:ネットワーク不要でAIを利用可能 ● 低遅延:クラウド往復がないため応答が高速 ● 課題:メモリ制約(8-24GB RAM)、バッテリー消費、計算能力の限界 ● 量子化(4bit/8bit)やプルーニングで軽量化して対応
代表的なモデルと最適化技術 主要モデル(sub-10B) ▸ Gemma 3n(Google) ─ モバイルアーキテクチャ専用設計 ▸ Qwen3-8B / Qwen2.5-VL-7B(Alibaba) ─ 画像理解・推論の二刀流 ▸ Llama 3.1/3.2(Meta) ─ 100+言語対応、オープンウェイト ▸ MobileLLM / SmolLM3(Meta / HuggingFace) ─ sub-3Bの超軽量モデル 主要な最適化技術 ▸ 量子化:FP16→INT4でモデルサイズを1/4に圧縮 ▸ MoE:トークンごとに一部のパラメータのみ活性化 ▸ 投機的デコーディング:小モデルで先読みし2-3x高速化
推論フレームワークとユースケース 主要フレームワーク ▸ llama.cpp:C/C++で軽量推論、GGUFフォーマット対応 ▸ ExecuTorch(Meta):2025年にGA、モバイル・エッジ向け推論エンジン ▸ MLC-LLM:TVMベースのコンパイラ、iOS/Android対応 ▸ MediaPipe(Google):Gemmaモデル対応、GPU/CPU推論 ユースケース ▸ オフラインチャット・翻訳・文章校正 ▸ 端末上の画像認識・ドキュメント要約 ▸ Apple Intelligence / Gemini Nano などOS統合型AI
手元のPCでAIエージェント動かせるかも?
作ってみた • Web検索からレポートをまとめるAIエージェント • ワードが生成されるので、後から見直し、編集して 提出できる • 大学生の課題でやるようなレポートを手元のPCで 作成する • 大学生の強い味方(もちろん自己責任)
システム構成
DEMO
使用するLLMの選定 • OllamaからLLMを取得する場合、「Tools」のタグで絞 り込む必要がある • ツール呼び出しに対応しているモデルから選ぶ • 先にモデルそのものを取得してモデル単体で動かした ときのレスポンスの早さを確認するのがおすすめ • あとは精度とのバランスで見るのがおすすめ
宣伝 https://bit.ly/4teulft
まとめ ● ローカルLLMでAI活用のハードルを下げられる ─ データ非送信でセキュリティ面も安心、オフライン・無料で利用可能 ● モバイル・エッジ向けLLMが急速に進化中 ─ 量子化・MoE等の最適化技術、Gemma 3n / Qwen3 / Llama 3.2等が充実 ● 手元のPCでAIエージェントが作れる時代に ─ Strands Agents × OllamaでWeb検索→レポート生成をローカル完結 ● LLM選定のポイント ─ Toolsタグ対応モデルを選び、速度と精度のバランスで判断
宣伝② https://bit.ly/3NJQvHa
END