【大規模言語モデル入門】9章9.1~9.3

1K Views

December 05, 24

#質問応答システム #ChatGPT #OpenAI API #自然言語処理 #機械学習

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 18K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 16.3K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 12.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.9K

各ページのテキスト

2024年度後期輪読会 #8 (2024/12/5) 第9章質問応答（9.1~9.3）京都大学工学部情報学科数理工学コース B3 浦辺晴基 0

アジェンダ ◼ 質問応答システムのしくみ ◼ データセットと評価指標 ◼ ChatGPTにクイズを答えさせる 1

9.1 質問応答システムのしくみ ◼ 質問応答とは「ユーザーが入力する自然言語の質問に対して適切な解答を出力するタスク」を質問応答と呼び、その質問応答を行うシステムを質問応答システムと呼ぶ。日本の初代内閣総理大臣は？ QA 伊藤博文モーツァルトが生まれた国は？ QA ザルツブルクこれまで月面に降り立った宇宙飛行士は全部で何人？ QA 12人 2

9.1 質問応答システムのしくみ ◼ 質問応答とは質問応答システムが質問に解答するための知識源として、テキストの他に以下のような情報がある。 ⚫ 知識グラフ事物とそれらの間の関係の知識をグラフ構造で表したもの。代表例：DBpedia*1・Wikidata*2 ・森羅プロジェクト*3 ⚫ 画像画像に関する質問に解答するタスク：画像質問応答文書の画像に関する質問に、レイアウトなどを考慮して解答するタスク：文書画像質問応答 *1：https://www.dbpedia.org/ *2：https://www.wikidata.org/ *3：http://shinra-project.info/ 画像引用：Unifying Large Language Models and Knowledge Graphs: A Roadmap (https://arxiv.org/abs/2306.08302) 3

9.1 質問応答システムのしくみ ◼ オープンブック・クローズドブック ⚫ オープンブック質問応答「質問文と解答の手掛かりとなる知識が書かれたテキストの両方を用いて質問応答を行うタスク」質問 DBから文書検索文書から情報抽出解答生成解答 ⚫ クローズドブック質問応答「システム（大規模言語モデル）自身に知識を保持させて質問応答を行うタスク」大規模言語モデルの評価タスクとして重要。 4

9.2 データセットと評価指標本書では、対象とする知識の分野や範囲を限定せず任意の質問に答えられることを目指すオープンドメイン質問応答と呼ばれるタスクおよびシステムについて扱う。 ⚫ データセット本書では、質問応答システムのコンペティション「AI王」で提供されたデータセットを使用する。「AI王」データセットには品質が担保された広範な分野のクイズ問題が格納されている。問題文正解髪の毛が逆立つほどの激しい怒りを、「何、天を衝く（てんをつく）」というでしょう？怒髪（どはつ）「ぶらつく」という意味の英語に由来する、自転車であちこちきままにぶらつくことを表す和製英語は何でしょう？ポタリング 1901年から1904年の作品に見られる、悲しみに満ちた初期ピカソの作風を、その時期に多く用いられた色から何というでしょう？青の時代 5

9.2 データセットと評価指標 ⚫ 評価指標 ➢ 完全一致・正解率：システムが出力した解答と正解が完全に一致している場合を正答とする指標。（1文字でも異なると不正解）システムが出力した解答と正解がどれくらい近いか判別できないという欠点がある。 ➢ F値：システムが出力した解答と正解の部分一致を考慮した指標。正解率の欠点をカバー。 6

9.3 ChatGPTにクイズを答えさせる ◼ OpenAI API ⚫ OpenAI APIの主要なパラメータ ➢ model 使用するChatGPTのモデルを指定。書籍ではgpt-3.5-turbo、本スライドではgpt-4o-miniを使用。 ➢ messages 発話者を表すroleと発話内容を表すcontentから構成されるdictのlist。 roleにはuser・assistant・systemの 3種類を指定可能。 ➢ temperature (0.0 ~ 2.0) 出力のランダム性を制御する温度パラメータ。値が低いと決定論的、値が大きいと多様な出力になる。 7

9.3 ChatGPTにクイズを答えさせる ◼ OpenAI API ⚫ OpenAI APIの主要なパラメータ ➢ max_tokens 指定した数だけトークンを出力したところで生成処理が停止する。 ➢ stop 終端文字列を指定。指定した文字列を出力する直前で生成処理が停止するため、指定した文字列は出力に含まれない。 listで指定することも可能で、その場合は listに含まれる文字列のいずれかを出力する直前で生成処理が停止する。実用的には句読点や改行を示す文字列を指定して使用することなどが考えられる。 8

10.

9.3 ChatGPTにクイズを答えさせる ◼ OpenAI API ⚫ OpenAI APIのその他のパラメータ ➢ top_p (0.0 ~ 1.0)：出力に用いるトークンの選択肢を制限する。 0.3なら上位30%のトークン、 1.0なら全てのトークンを対象に回答を生成する。 ➢ n：出力される回答の数を指定する。 ➢ presence_penalty (-2.0 ~ 2.0)：トークンの重複出現を制御する。新たな話題へと推移しやすくなるかどうかが変わる。 ➢ frequency_penalty (-2.0 ~ 2.0)：トークンの繰り返しを制御する。 ➢ top_logprobs： LLMが回答を生成する際に検討したトークンを確率の大きい方からいくつ表示するかを指定する。 ➢ logit_bias (-100 ~ 100)：特定のトークンの出現確率を制御する。 9

11.

9.3 ChatGPTにクイズを答えさせる ◼ 効率的なリクエストの送信 ⚫ コルーチン APIにリクエストを送信する際、レスポンスを受信するまで次のリクエストの送信や他の処理を実行することができない。そのため、効率的な処理を行うために、 Pythonの標準ライブラリであるasyncioで実現されるコルーチンによる非同期処理を使用する。非同期処理：あるタスクを実行中でも他のタスクを実行できる実行方式 10

12.

9.3 ChatGPTにクイズを答えさせる ◼ 効率的なリクエストの送信 11

13.

9.3 ChatGPTにクイズを答えさせる ◼ クイズデータセットによる評価 12

14.

9.3 ChatGPTにクイズを答えさせる ◼ クイズデータセットによる評価 13

15.

9.3 ChatGPTにクイズを答えさせる ◼ おまけ言語モデルの幻覚（ハルシネーション）を防ぐプロンプトのテクニックとして、「落ち着いて考えてみてください」「ハルシネーションしないでください」という文言を入れると効果的らしいと聞き、試してみたが正解率はほとんど向上しなかった。おそらく上記の文言による幻覚（ハルシネーション）を防ぐ効果は「正しい回答をしやすくなる」のではなく、「自信のない回答(尤度の低い回答)をしづらくなる」ということなのではないかと思われる。 14