1.7K Views
April 21, 25
スライド概要
Helpfeel Tech Conf 2025 での発表資料です。
イベント詳細:
https://techconf2025.helpfeel.com/
発表概要:
意図予測検索3は、ナレッジグラフを用いた事実抽出と引用ベースの要約の事前生成により、安定した回答を提供します。Helpfeelの独自技術である文書拡張を発展させ、AIエージェント時代を見据えたRAGを実現しました。知識探索に向き合い続ける中で見えてきた課題と解決策を、データの構造化、ベクトル検索、UI設計の視点で深掘りし、その応用可能性についても考察します。
13ページのデモ動画:
https://gyazo.com/20f56ddca40d5c08282105f947b0f781
15ページのデモ動画:
https://gyazo.com/55f1af5168271533090a5de2ef315505
(付録)検索型資料:
https://phonno.org/_b1ca8f84cbf64bc389d81d7b08aa72d8
AIとナレッジグラフと私 daiiz リードエンジニア / AIエキスパート
⾃⼰紹介 daiiz(@daizplus) ● ソフトウェア作家 ○ 知的⽣産活動を⽀援するツールの開発 ○ 仕事‧趣味ともに検索技術を探究 ● 技術同⼈誌作家 ○ 『LLM時代の検索を考える観察⽇記』 ○ 『知的⽣産のための画像検索システム開発記』 ○ https://books.daiiz.dev/
⾃⼰紹介 Phonno schema :creator ator e a:cr m e sch :author schema schema:home Location schema:birthDate Helpfeel "1993"^^xsd:gYear
Phonno(個⼈開発) 画像からの知識抽出+検索システム ● 画像データならなんでも扱える ○ スクリーンショット ○ 写真 ○ PDF⽂書 ● https://phonno.org
Helpfeel 検索型AI-FAQシステム ● 直感的な⾔葉で検索 ● ⾃⼰解決率向上 ○ 問い合わせ削減 ● Cosenseで編集 ● https://helpfeel.com
アジェンダ ● ● ● ● ⽂書拡張と意図予測検索 意図予測検索の進化 RAGの概要 意図予測検索3の構成技術 ○ ナレッジグラフ ○ 要約回答 ○ RAGの逆の考え⽅ ● AI Agent時代に向けた展望
⽂書拡張と意図予測検索 ● 記事に「質問⽂」を紐づける ● 検索語彙を拡張して誘導 🔍 壊れている 🔍 届かない 🔍 うごかない ⽂書拡張 返⾦⽅法の ご案内 ? 商品が届かない ? 期日を過ぎている ? 不良品が届いた ? 色違いが来た ? 期待通り動かない ? いつまでも来ない
⽂書拡張と意図予測検索 ● 記事に「質問⽂」を紐づける ● 検索語彙を拡張して誘導 🔍 届かない ? 商品が届かない ? 大幅に遅れて届いた
⽂書拡張と意図予測検索 ● 記事に「質問⽂」を紐づける 返⾦⽅法の ご案内 ● 検索語彙を拡張して誘導 🔍 届かない ? 商品が届かない ? 大幅に遅れて届いた
意図予測検索 単語で検索される時代 ● 古典的な⾃然⾔語処理 ○ 動詞の活⽤形の展開 ○ 送り仮名の正規化 🔍 うごかない ● ユーザーの検索語彙に寄り添う ? 期待通り動かない ? 正しい動作を確認したい
意図予測検索2 ⾃然⽂でも検索される時代 ● ベクトル検索 ○ 意味的に近いものを提⽰ ● クエリと質問⽂を⽐較 🔍 壊れている ○ 短⽂同⼠で相性が良い ? 期待通り動かない ? 不良品が届いた ? 変な音が鳴っている
意図予測検索3
意図予測検索3 デモ
意図予測検索3 デモ
意図予測検索3 デモ
意図予測検索3 デモ
意図予測検索3 複雑な問題が検索される時代 ● 要約のベクトル検索 ● RAGによる回答⽣成
意図予測検索3の⾒どころ ● 原典⽂書をほぼ引⽤する形で回答できる ● 答えがないときに作り話をしない
RAG Retrieval-Augmented Generation
RAG Retrieval-Augmented Generation ● LLMに外部知識を与えることで回答精度を向 上させる技術 ○ 組織に特化した検索システムを実現
RAGでの課題 ● ベクトル化する情報の粒度 ○ ページ単位 ○ ⽂字数、段落単位 ● 情報の重み付け ○ すべての記述を平等に扱っている ● ⾃然⾔語での回答の精度 ○ 最後のまとめ⽣成の際に誤りが含まれる可能性
意図予測検索3の構成技術 役に⽴つRAGシステムの作り⽅
意図予測検索3の構成技術 ● 徹底的な事実抽出 ○ 情報の重み付けを実現 ● 引⽤ベースの要約回答 ○ ベクトル化する情報単位と、まとめ⽣成での課題を解決
意図予測検索3の構成技術 ナレッジグラフ
ナレッジグラフ ● 情報を体系的に整理するための⼿法 ○ 2001 ○ 2006 ○ 2012 セマンティックウェブ Linked Data Google Knowledge Graph ● JSAI2024 ⽣成AI時代のナレッジグラフ ○ https://scrapbox.io/daiiz/JSAI2024_1⽇⽬:_⽣成AI時代のナ レッジグラフ
ナレッジグラフ ● エンティティとこれらの関係性を表現したグラフ構造 ● RDFトリプル ○ (主語, 述語, ⽬的語) schema:birth Place schema:birthDate 伝統工芸品 schema:home Location "1993"^^xsd:gYear 伝統工芸品
ナレッジグラフ ● エンティティとこれらの関係性を表現したグラフ構造 ● RDFトリプル ○ (主語, 述語, ⽬的語) schema:birth Place 伝統工芸品 schema:birthDate "1993"^^xsd:gYear 伝統工芸品
ナレッジグラフ ● エンティティとこれらの関係性を表現したグラフ構造 ● RDFトリプル ○ (主語, 述語, ⽬的語) schema:birth Place 伝統工芸品 schema:birthDate "1993"^^xsd:gYear 伝統工芸品
ナレッジグラフ ● エンティティとこれらの関係性を表現したグラフ構造 ● RDFトリプル ○ (主語, 述語, ⽬的語) schema:birth Place 伝統工芸品 schema:birthDate "1993"^^xsd:gYear 伝統工芸品
ナレッジグラフの活⽤例(Wikipedia / DBPedia) ● Wikipedia本⽂やinfoboxからの情報抽出 ● SPARQL(RDF問い合わせ⾔語)による柔軟な情報取得 ○ https://ja.dbpedia.org/sparql/
ナレッジグラフの活⽤例(Phonno) ● 画像の分類 ● 思考フローチャートの⽣成
ナレッジグラフの活⽤例(Phonno) ● 画像の分類 ● 思考フローチャートの⽣成
ナレッジグラフ活⽤(意図予測検索3) ● ⽂書からの事実抽出 ● ラフなナレッジグラフを構築 ● エンティティやエッジに厳密な定義は求めない ○ 対象空間がウェブほど広くない ○ LLMが⼗分に賢い
意図予測検索3でのラフなナレッジグラフ ラフなナレッジグラフを構築 ● LLMを情報の構造化ツールとして使う 事実 抽出
事実抽出 ● 情報の構造化 ● 記述の重み付け ○ 事実 ○ 条件付き事実 ○ それ以外 利⽤可能 バス 交通機関 利⽤可能 鉄道 ⼀定 の距 離以 当 上の 社 場合 が 必 要 と 認 め た 場 合 ⾶⾏機 その他の 交通機関
事実抽出 ● 情報の構造化 ● 記述の重み付け ○ 事実 ○ 条件付き事実 ○ それ以外 利⽤可能 バス 交通機関 利⽤可能 鉄道 ⼀定 の距 離以 当 上の 社 場合 が 必 要 と 認 め た 場 合 ⾶⾏機 その他の 交通機関
意図予測検索3の構成技術 要約回答
事実をいかにしてまとめるか ● エンドユーザー向けの回答⽂(スニペット)をどう作るか ○ グラフ構造をシリアライズしたい ● 役に⽴つスニペットの条件 ○ 情報が過不⾜なく正確である ○ クエリとの距離感を適切に表現している
意図予測検索3の初代プロトタイプ(不採⽤) ● ● ● Step 1. ⾃然⽂クエリをRDFトリプル形式に変換 Step 2. RDFクエリに類似する事前⽣成済みの知識を探索 Step 3. RDFトリプル郡に基づいて回答を作⽂ 最終⽣成される 回答が不安定
RAGのGeneration問題 ● ⽣成される⽂章のコントロールが難しい ● ハルシネーションとクリエイティビティは紙⼀重 ○ ⾃由に思考させることで⽣まれるアイデアもある ○ 現時点のHelpfeelは安全重視のため抑制的 ● → 即興で喋らせないほうがいいのではないか?
GAR (造語) Generation-Augmented Retrieval
GAR Generation-Augmented Retrieval(造語) ● 要約回答を事前⽣成 ○ グラフデータを活⽤ ● ベクトルDBに格納 ● 要約回答を組み合わせて提⽰ ○ 検索時にはグラフデータは不要 ベクトル データベース
引⽤ベースの要約回答 要約回答の作り⽅ ● ● Step 1. 本⽂からRDFトリプルを抽出 Step 2. RDFトリプルの根拠を確認 ○ → 該当箇所を引⽤ ● Hallucina トリプル集合 tion ☠ { (s, p, o) } ☠ (存在確認) Step 3. 引⽤⽂を回答提⽰⽤に調整 引用箇所の特定 { 原文テキスト } (類似性を 考慮) { 要約回答 }
引⽤ベースの要約回答 要約回答の探し⽅と⾒せ⽅ ● ● Step 1. ベクトル検索で候補を取得 Step 2. LLMでリランキング ○ 並べ替え ○ 破棄 ● Step 3. LLMでつなぎの⽂を⽣成
引⽤ベースの要約回答 要約回答の探し⽅と⾒せ⽅ ● ● Step 1. ベクトル検索で候補を取得 Step 2. LLMでリランキング ○ 並べ替え ○ 破棄 ● Step 3. LLMでつなぎの⽂を⽣成
引⽤ベースの要約回答 要約回答の探し⽅と⾒せ⽅ ● ● Step 1. ベクトル検索で候補を取得 Step 2. LLMでリランキング ○ 並べ替え ○ 破棄 ● Step 3. LLMでつなぎの⽂を⽣成 ��
GAR ≒ ⽂書拡張 ● 要約回答 = ハイコンテクストな質問⽂ ○ Helpfeelの⽂書拡張の考え⽅と合致 ○ 事実が整理されたドキュメントを書くことで、検索結果も おのずと良くなる ?⋯ ?⋯ ?⋯ ?⋯ 記事 ?⋯ ?⋯ 要約回答 質問⽂
GARの事前⽣成の強み ● 要約回答を事前に検証できる ● 安定してスケールできる ○ ⾼速に応答可能 ○ 検索時のLLM利⽤コストが⼩さい ● 「質問⽂」を⾃動⽣成できる ○ ナレッジグラフと要約回答の再利⽤
AI Agent時代に向けて
AI Agent時代に向けた⼼得 ● LLMに情報を正しく理解させる重要性 ○ 外部知識の与え⽅で回答が⼤きく変わる ● RAG(GAR)はAI Agentのパーツの⼀つ ○ それぞれのパーツの不安定さを解消 ○ → 全体の性能が向上
AI Agent時代に向けて ● あらゆる情報を蓄積‧参照できる環境 ○ 個⼈の興味関⼼、組織のナレッジ資産 ● 信頼性が⾼く多様な情報を返せるシステム ○ 直接的な回答 ○ 推論⽤の⽂書郡(Long-Context LLM向け) ● 情報の鮮度を保てる環境 ○ ⼈間やAIによる継続的な編集環境
AI Agent時代に向けて ● あらゆる情報を蓄積‧参照できる環境 ○ 個⼈の興味関⼼、組織のナレッジ資産 ● 信頼性が⾼く多様な情報を返せるシステム ○ 直接的な回答 ○ 推論⽤の⽂書郡(Long-Context LLM向け) ● 情報の鮮度を保てる環境 ○ ⼈間やAIによる継続的な編集環境