LIFULL AI Hub 100ミニッツ #1_LLM(大規模言語モデル)の研究開発

2K Views

December 28, 23

スライド概要

LIFULL AI Hub 100ミニッツ ♯1「LLM(大規模言語モデル)の研究開発」の講演およびトークセッション資料です。

各所でLLMが盛り上がりを見せる中、第1回のLIFULL AI Hub 100ミニッツでは、「プロンプト・エンジニアリング」と「LLM開発」の間にあるAI開発にスポットをあてて、今後の研究開発を一緒に考える会。
具体的には、LLMベースのAIエージェント研究の論文などを紹介。サービスやプロダクトの中での実現性や、アイデアの活きる開発のしどころなどを講演とトークセッションを通じて、皆さんと考察しました。

profile-image

LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
2.

• 主催について LIFULL AI Hub 100min • LIFULL AI HUB 100minとは • イベント開会に伴うご案内

3.

LIFULL データサイエンスグループ 研究開発を通じた AI技術シーズの創出と活用によって LIFULL事業/プロダクトを牽引する組織

4.

LIFULL AI Hub 100min

5.

Concept LIFULLでAIの研究開発を推進する データサイエンスグループが 100分でAIを語る トークと交流会のイベント 今後も継続的に開催していく予定です。

6.

Cingulate, inc

7.

株式会社シンギュレイト 代表 鹿内学, 博士(理学) Dr. SHIKAUCHI, Manabu. 1. 最初のキャリア:大学教員・研究者 京都大学 医学研究科 特定助教など 心理学、生理学、データサイエンス 2. 転身:ピープルアナリティクスと出会う jp o. c . e t a ul 国内大手人材企業 2社 新規事業開発 企画、営業/マーケ、リーン開発 g n i c ka@ shi 3. 株式会社シンギュレイト Facebook 起業、複業、経営マネジメント、 etc 信頼、マネジメント、働き方/組織づくり ピープルアナリティクス協会 上席研究員 LIFULL データサイエンスパートナー Cingulate, inc 名刺:Eight

8.

^&* Cingulate, inc

9.

コミュニケーションの3つの課題 1. 通信技術の課題 どのようにして、コミュニケーションの 2. TV会議 (Zoom) 記号 を正確に伝達できるか 意味にかかわる課題 どのようにして、伝達された記号が、伝えたい 3. 自然言語 (ChatGPT) 意味 を正確に伝えるか 効果にかかわる課題 どのようにして、受け取られた意味が、発信者の望むように相手の 行動 に影響を与えるか 次世代の生成AI 影響力 SHANNON, Claude E. & WEAVER, Warren. The Mathematical Theory of Communication, 1949 (『コミュニケーションの数学的理論』明治図書出版, 1969) Cingulate, inc

10.

推薦システム 守 1. 物件の理解(ex. 印象評価) a. 人間にとってどう見える物件なのか を、AIが評価できるようになる 破 2. ユーザーの行動をうながす a. コンバージョンを上げるような 画像を検証&予測(推薦) Cingulate, inc 離 3. ユーザー行動の理解 a. 行動理由・要因を把握し、新しい 物件条件の表示に活かす

11.

LLMにもタスクをふるだけのマネジメントでは足りない!? Cingulate, inc

12.

「まず、深呼吸をしよう。」 「そして、この問題を一歩ずつ、順に取り組もう。」 Take a deep breath and work on this problem step by step by Chengrum +, 2023 Yang, Chengrun & Wang, Xuezhi & Lu, Yifeng & Liu, Hanxiao & Le, Quoc & Zhou, Denny & Chen, Xinyun. (2023). Large Language Models as Optimizers. Cingulate, inc

13.

Yang, Chengrun & Wang, Xuezhi & Lu, Yifeng & Liu, Hanxiao & Le, Quoc & Zhou, Denny & Chen, Xinyun. (2023). Large Language Models as Optimizers. Cingulate, inc

14.

ふりかえり(Reflection)大事 by Park +, 2023 Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). Cingulate, inc

15.

Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). 1. 2. 3. 舞台は、カフェ、バー、公園、学校、寮、家など がある、とある小さな街 25名の個性豊かなエージェントが住んでいて、街 の中を移動したり、相互に会話をする 2日間にわたるシミュレーション 2日間に起こったことなどをエージェントに質問し、 正しく回答できている精度を評価。 1日に何度かふりかえりをするエージェント vs ふりかえりナシのエージェント ふりかえりをするエージェントが正しく回答! …というか、ログが残っていてアクセスできるのに、ふりかえりしないと、正しく回答できないことに驚く Cingulate, inc

16.
[beta]
Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy
Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human
behavior." arXiv preprint arXiv:2304.03442 (2023).

𝜇 = 29.89, 𝜎 = 0.72:Full Architecture
𝜇 = 26.88, 𝜎 = 0.69:No Reflection
𝜇 = 25.64, 𝜎 = 0.68:No {Reflection, Plan}

?

𝜇=
𝜎 = 0.70:No {Reflection, Plan, Observation}
の効果
り21.21,

え
)
ふりか 用がなければ

作
(交互 𝜇 = 22.95, 𝜎 = 0.69:Human

Obsavationの効果?:4.43
Plan の効果?:3.01
Reflectionの効果?:1.24
Cingulate, inc

17.

Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). 、 の他にも り え か ふり 。 )がある n a l P ( 計画 ふりかえりのトリガー、頻度 1. 重要度スコアの合計がある閾値を超えた時に発生 2. 実際には、1日に2-3回程度のリフレクションがある なぜ振り返りが必要(考察)? 1. エージェントの観察記憶だけでは一般化や推論が難しい 2. 何時間か経過した後に振り返ることで、記憶の羅列からより一般化した結論が得られる 3. リフレクションの結果も記憶の一種なので、他のメモリストリームに入れられる (引用されたメモリオブジェクトのポインタも含む) Cingulate, inc

18.

Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). 重要度スコア 1. Recency:最近の出来事 a. 直近の出来事であればあるほど高いスコアを与える b. 時間が経つごとにスコアは指数関数的に減衰させ、減衰係数は 0.99 を使用 2. Importance:稀な出来事 a. ありふれた出来事(歯を磨くなど)は低いスコアを与え、 b. 衝撃的な出来事(別れ、合格通知)は高いスコアを与える 3. Relevance:関連性の高い出来事 a. 関連性が高い出来事ほど高いスコアを与える b. 勉強の話題の時に、朝食の記憶は関連性は低く、学校の記憶は関連性が高い Cingulate, inc

19.

研究実施のためのヒント|エージェントへの実験課題の作成 2日にわたるシミュレーション後に エージェントにおこなった5つの質問 1. 2. 3. 4. 5. Self-knowledge a. 自己紹介、典型的な平日予定の説明など Memory a. 他のエージェントの名前などの事実確認の質問 Plans a. ex. 明日の10時にあなたは何をしますか? Reactions: a. ex. 朝食が燃えています!あなたならどうしますか? Reflections a. ex. 最近会った人の中で1人と過ごすとしたら、 それは誰で、なぜですか? エージェントの態度・行動の一貫性を評価するために(本物の人間らしさを評価するために)、 単に、事実確認(Self-Knowlegde、Memory)だけでなく、 次の計画性(Plans)、状況による行動特性(Reactions、Reflections)を評価する課題に! Cingulate, inc

20.

研究実施のためのヒント|人間による評価指標 & データセットの作成 人間もLLMと同様の課題を実施 1. 評価者(人間)が、回答の信憑性についてランク付 けしたランクデータを100セット用意 2. 解釈可能な比較のため、TrueSkill 評価を行った 3. a. XBox Live では対戦ゲームのパフォーマンス からプレイヤーのランキングに使われる b. プレイヤーのスキルを正規分布で特徴づける TrueSkill: Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023). Cingulate, inc

21.

研究実施のためのヒント|エージェント(LLM)への質問をLLMで作成 ふりかえり質問生成用のLLMに、 Memory Streamの「対象者について回答できる、最も顕著で高レベ ルな3つの質問はなんですか?」と聞いて、質問文を自動作成。 例 質問生成LLM 「What topic is Klaus Mueller passionate about?」 (Klaus が情熱を注いでいるトピックはなんですか?) エージェント 「Klaus Mueller is dedicated to his research on gentrification」 (Klaus はジェントリフィケーションに関する研究に専念している) このエージェントの回答は、引用したポインタを含めて、Memory Streamに保存されていく。 Cingulate, inc Park, Joon Sung, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, and Michael S. Bernstein. "Generative agents: Interactive simulacra of human behavior." arXiv preprint arXiv:2304.03442 (2023).

22.

同僚としては、一緒に働きにくいLLM。。。 あれができておいて、なぜ、これができない(苦笑) 能力に予測がつかない相手のマネジメントしにくい。。 Cingulate, inc

23.

ハルシネーション(Hallucination、幻覚) LLMは、実在しない情報や参照を、事実のように生成することがある。 ~~~~~~~~~~~~~~~~~~ LLMに敬意を表し、 もしくは、LLMに意図(悪意)がないことは自明!?なので、 嘘(ウソ)とは呼ばないことにします。 Cingulate, inc

24.

1. GPT4 の論理的思考能力を調査 a. 21の推論タスクを実施 i. 単純な計算・論理・推理問題 b. いずれのタスクも解けない場合がある ことから論理的思考はないと結論付け Arkoudas, K. (2023). GPT-4 Can't Reason. arXiv preprint arXiv:2308.03762. Cingulate, inc

25.

計算問題 2023年8月実施(植野さん実施) 本日実施(鹿内実施) 正解は 1,996,313 Cingulate, inc

26.

推論 2023年8月実施(植野さん実施) 本日実施(鹿内実施) Cingulate, inc

27.

バーチャルステージング ハリがあると エアコンはつかない 北欧風の部屋に 模様替えして 幻覚の発生 1. 2. 建物の構造を変更してしまっている 不動産サービスでは、景品表示法の優良誤認に問われるリスク Cingulate, inc

28.

バーチャルステージング: 幻覚を排除した部屋画像生成 単純な画像生成 元画像 生成画像 奥行き推定 3D構造の推定 Cingulate, inc

29.

LLMを利用してユーザー(人間)を理解する Cingulate, inc

30.

推薦システム|不動産を買ってもらう・借りてもらう、ユーザーのことを知りたい ユーザー 人格形成 幼少期の体験 教育環境 遺伝 く? どっちに聞 自然言語 プロンプト 人格プログラミング デジタル クローン Cingulate, inc

31.

ユーザーのペルソナのヒアリングを自動化|PsyCoT Psychological Questionnaire as Chain-of-Thought 対話形式で、 用意したアイテム(質問項目)を提示して、 性格を診断。 cf. 適応型テスト:項目反応理論 Tao Yang, Tianyuan Shi, Fanqi Wan, Xiaojun Quan, Qifan Wang, Bingzhe Wu, Jiaxiang Wu. PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection GitHub:https://github.com/TaoYang225/PsyCoT Cingulate, inc

32.

ユーザー 人格形成 幼少期の体験 教育環境 遺伝 ない!? ゃ じ ち っ こ 自然言語 プロンプト LLMクローンPJ 人格プログラミング デジタル クローン 1. 2. 何がほしいか、聴き放題 言語的に理由も聞ける(意味がわかる) まずは、グループのメンバーの クローンを作成中! Cingulate, inc

33.

性格は埋め込める 1. 性格プログラミング a. プロンプト・エンジニアリングにより、LLM (PaLM)に異なるパーソナリティを埋め込む b. 104の性格形容詞を使用、9段階のレベルで性 格特性を形成するプロンプトを開発 2. IPIP-NEOという性格主要5因子を計測するパーソナ リティ・テストをLLMにうけさせ、異なるパーソナ リティが確認できた Cingulate, inc Safdari, M., Serapio-García, G., Crepy, C., Fitz, S., Romero, P., Sun, L., ... & Matarić, M. (2023). Personality traits in large language models. arXiv preprint arXiv:2307.00184.

34.

心理学者、言語学者の研究 1. 「メタラーニング」という認知機能を検証 a. 人間は、新しい概念と既存の概念を体系的 に組み合わせることができる b. ex. スキップ;2周する i. スキップで2周する 2. トランスフォーマーで実現することを検証 a. 背景)NNでは、メタラーニングの認知テス トには苦戦する 3. 人間と同様の、帰納的推論のバイアス(不正解パ ターン)を再現する a. 人間が認知テストをした場合とも比較 Department of Psychology and Center for Data Science, New York University, New York, NY, USA Department of Translation and Language Sciences, Universitat Pompeu Fabra, Barcelona, Spain Cingulate, inc

35.

課題づくりが Nature メタラーニングの厳密な操作的定義|系統的構成性がある課題をつくり、系統的汎化ができる課題 1. Primitives:4つの基本単語 a. 単語から出力記号へのマッピング b. dax:🔴、wif:🟢、lug:🔵、zup:🟡 2. Function1〜3:関数 a. Fuction1:fep i. 出力を3回繰り返す b. Fuction2:blicket i. 先に来た単語で後に来た単語を挟む c. Fuction3:kiki i. 単語の順序を入れ替える 3. Function compositions:合成 Cingulate, inc

36.

課題づくりが Nature メタラーニングの厳密な操作的定義|系統的構成性がある課題をつくり、系統的汎化ができる課題 人間が、入力と出力の関連付けをどのように学習するかを調査 (実験参加者は25人) 1. 実験内容 a. 最初に Primitives と、3つの Function を、 それぞれ2つの例で学習する b. 次に、組み合わせの例を学習する c. それが終わった後、戦略についてヒアリング d. 問題を解いてもらう 2. 結果 a. b. c. Cingulate, inc 回答時間の平均 23分(最短 8分41秒、最長 41分19秒) 80.7% で完全に一致する出力シーケンスを生成できた 72.5% で学習時よりも長い出力配列に正しく汎化した

37.

LLMが行動をうながすためのミッシングリンクはどこに? Cingulate, inc

38.

推薦システム 守 1. 物件の理解(ex. 印象評価) a. 人間にとってどう見える物件なのか を、AIが評価できるようになる b. 必要なこと i. 人間による印象評定 破 2. ユーザーの行動をうながす a. コンバージョンを上げるような 画像を検証&予測(推薦) b. 必要なこと i. 人間による印象評定 ii. 行動データ(コンバージョン) Cingulate, inc 離 3. ユーザー行動の理解 a. 行動理由・要因を把握し、 新しい物件条件の表示に活かす b. 必要なこと i. 人間による印象評定 ii. 行動データ(コンバージョン) iii. 評価に耐えうる実験課題

39.

コミュニケーションの3つの課題 1. 通信技術の課題 どのようにして、コミュニケーションの 2. TV会議 (Zoom) 記号 を正確に伝達できるか 意味にかかわる課題 どのようにして、伝達された記号が、伝えたい 3. 自然言語 (ChatGPT) 意味 を正確に伝えるか 効果にかかわる課題 どのようにして、受け取られた意味が、発信者の望むように相手の 行動 に影響を与えるか 人間科学の知識・理論で、個人の行動変容を促しつつ(サービス &データサイエンス)、 影響力(会話行動)のデータを蓄積しつつ(データ集積)、 影響力の生成AIを構築(次世代生成AI)。 次世代の生成AI 影響力 SHANNON, Claude E. & WEAVER, Warren. The Mathematical Theory of Communication, 1949 (『コミュニケーションの数学的理論』明治図書出版, 1969) Cingulate, inc

40.

マネジメントをより深く。サイエンスをより近くに。 Cingulate, inc