社会科学の生成AI(&LLM)への適応

762 Views

August 06, 24

スライド概要

生成AI市場はこの3年で2倍以上に成長した。そして、今後についても2033年まで年率28%の高成長が続くと予想されている。こうなって来ると、普及に伴う社会への影響の問題がクローズアップされてくる。このような認識から、今回は生成AI普及が社会にどのような影響を与えるかについて、社会の変化を研究する「社会科学の生成AI(&LLM)への適応」を通してまとめてみた。

profile-image

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

社会科学の生成AI(& LLM)への適応 1

2.

目的 • 生成AI(& LLM)適応が各方面に拡大をみせている。 • その前提として、人間が生成したデータによってトレーニン グされたシステムが人間に影響を与える方法で使用されてい る現実がある。 • これは生成AI(& LLM)に関わる課題が基本的に社会技術的 課題であることを意味する。 • この状況を端的に可視化するには、多様な社会の振る舞いを 分析する社会科学への生成AI(& LMM)適応を探索するのが 適当であろう。 • 本稿は、このような認識から、社会技術的課題への生成 AI(& LMM)適応を行う社会科学の研究状況を調査すること で、今後の動向を理解することを目的としている。

3.

目次 1. はじめに 2. 計算社会科学の場合 3. 生成AI(& LLM)は社会科学を改善 できるか? 4. 社会技術的アプローチの必要性 3

4.

1.はじめに 基本認識 • 人間が生成したデータに基づいて人間によってトレーニング され、無数の人間に影響を与える方法で人間によって使用さ れるLLM(大規模言語モデル)は、本質的に社会技術的シ ステムである。 • LLMに関する技術的および社会技術的課題は独立ではなく、 相互に排他的でもない。 • そこで、技術的課題に捕らわれ過ぎると、LLMの責任ある 開発や展開に重大な疑念が生じる。 • 結果、社会的、倫理的および文脈的要素を無視すると、非現 実的または無関係な技術解決を追求することになる。 • 従って、課題の大部分は技術と社会の相互作用と利害関係者 とのコラボレーションを考慮して対処する必要がある。

5.

AIと社会科学研究の変遷 • LLMの進歩は社会科学研究に劇的な影響を与えている。 • 膨大なデータで事前トレーニングされたLLMは人間のよう な反応や行動を行う能力を増大させている。 • 結果、人間の行動に関する理論や仮説を大規模かつ迅速にテ ストできる機会が提供されることになった。 • 従来の社会科学研究は、アンケート、行動テスト、半構造化質問へ の応答分析、エージェントベースモデル(ABM)、観察、実験などに 依存していた。 • 従来、苦労することが多かった、本音、隠喩、感情的トーン などの言語リテラシーに係わる機能も大きく改善された。 • LLM、社会科学者、社会の役割の変化の全体像を次頁図に 示す。

6.

LLM、社会科学者、社会の役割の相互関連図 研究への援助 AI代替の研究 社会科学者 心理学者は、例えば極度の孤立状態で 人間がどのように反応するか、などを LLM でシミュレートするような具合 に状況を分析する。 LLM は、社会科学者が社会に おける社会的行動規範に関す る調査を改善するのに役立つ。 社会 社会と人間のため の代役 心理学的研究において、LLM は協力 者として行動し、参加者に対して一貫 した応答を提供する。 コンピューター科学者、社会科学者、倫 理学者からなる学際的チームが協力して、 LLM 出力の偏りによる手順由来の潜在 的偏見を調査し、対処する。 6

7.

図の解説 • 本図はLLM、社会科学者、社会間の動的相互作用を示して いる。 • 社会科学者はLLMをアクセラレータとして使用し研究の 設計と仮説策定を支援してもらう(左上) • また、LLMはシミュレータとして機能し、複雑な課題を 調査するための人間行動の模倣者(右上)となり、仮説 を検証するための実験にも協力する(左下)。 • この関係の中心にいるのはAIネクサス(右下)である。 • これ等は、LLM、社会科学者、社会を相互に連携させた フィードバックループを形成する。

8.

2.計算社会科学の場合 計算社会科学とは • 計算社会科学(CCS: computational social science)はビッ グデータやコンピュータ活用を可能にするデジタル時代の社 会科学として2009年Scienceに掲載されたD.Lazer論文を契 機に登場した。 • CCSは「複雑で通常は大規模な人間の行動データに対する計 算手法の開発と適用」と定義されている。 • 従来の定量的社会科学は、観察の独立を前提としてきたが、 CSSはデータ内のさまざまな依存関係までも捉えられる統計 モデルを適用して、検討範囲を拡大させてきた。 • 検討対象は、個人と集団、社会や経済などをこれまでにない 解像度とスケールで研究し、研究手法としても、仮説検証型 だけでなく、データ駆動型、さらには実社会に関するソ リューション志向型の研究にまで幅を広げた。

9.

計算社会科学の領域図 David Lazer キーワード:機械学習、計算科学、経済学、政治学、社会学、心理学、 社会物理学、シミュレーション、ソーシャルメディア、データサイエン ス、ネットワーク科学、ビッグデータ、バーチャルラボ、など 日本でもCSSを推進する計算社 会科学会が設立されている。 9

10.

LLMはCSSを変革できるか? 本稿テーマはCSSと深く係わるので、LLM登場によるCSSへのインパクトを分析する。 • LLMは多くのタスクをゼロショット(対象タスク向けのカス タムデータトレーニングなし)で実行できる。 • 他方、CCSで類似タスクを実行する場合、教師あり学習モデ ルでの手動ラベル付け作業が大きな負担になっていた。 • そこで、もし、LLMの登場で、ゼロショットLLMが各種の 社会現象を確実に分類し説明できるのなら、LLMは重要な 方法でCSSを強化できる。 • このような問題設定からスタンフォード大学を中心とする チームによって大規模な実験が行われた(Ziems, 2024)。 • 次頁以降にその実験内容を紹介する。

11.

実験内容の紹介 CSSの多目的ツールとしてのLLMの可能性 • LLMがCSSの現行作業をどの程度変換できるかを評価する。 • LLMがゼロショットプロンプトで人間による手動ラベル付 け作業の負担を取り除くことができればCSSは大きく発展す る。 • このための評価作業を一連の広範なCSSタスクで実施する。 • 評価の観点は、実行可能性、モデル選択、適切な対象領域、 ゼロショットLLMの機能レベル、など • 評価作業の概念図を次頁に示す。

12.

実験内容の紹介 LLMの可能性を評価する概念図 12

13.

実験内容の紹介 CSS各種タスクにLLM適応の評価 • 談話の種類 vs 各種ゼロショットLLMモデルの比較実験を行う。 • 談話の種類は・・ • 発言レベルのタスク • 方言、感情、比喩的、ユーモア、イデオロギー、憎悪の暗示、誤情報、説得、意 味の変化、スタンス、など • 会話レベルのタスク • 談話、共感、説得、礼儀正しさ、権力、毒性、など • 文書レベルのタスク • イベント引数、イベント詳細、イデオロギー、比喩、など • ゼロショットLLMモデルの種類は・・ • FLAN、FLAN-T5、・・(オープンソース) • GPT-3ベースのtext-001, text-002, text-003, ・・ • GPT-3.5(RLHF使用) • GPT-4 • など • 結果を次頁に示す(最良ゼロ ショットモデルを緑色で表示する)。

14.

CSS ベンチマークタスクのゼロショット分類結果比較 印:従来手法が高い項目

15.

実験内容の紹介 表の解説 • 多くの項目で従来の手法(教師ありモデル:手作業でラベル 付与)の方がスコアが高く、GPT-4を含めたどのLLMモデ ルでも従来方式の性能を上回れなかった。 • その中でも実用ベース製品であるGPT-4はかなりの項目で従 来方式に迫る(約半分程度)または上回る実績を上げていた。 • 但し、GPT-4の実績を細かく見ると項目によって大きなムラ が見られた(下記に水準の低い項目を記載)。 • 発言レベル:比喩的(特に低い)、憎悪の暗示(特に低い)、誤情 報、意味の変化、など • 会話レベル:共感(特に低い)、権力、など

16.

実験内容の紹介 人間(専門家)によるスコアリング評価 • 全ての専門家はUpworkプラットフォームを通じて採用され、評 価作業には報酬が支払われた。 • 4つの標準尺度を導入した。 • 忠実性・・生成内容がソース文書およびタスクの定義と一致しているか? • 一貫性・・生成内容が適切に構造化され、整理されているか? • 関連性・・生成内容に重要な情報のみが含まれ余分な情報が含まれていないか? • 流暢性・・テキストを読み難くする書式の問題、文字の誤り、文法的誤りがないか? • 5つの項目に専門家を採用し評価した(下記のスキル保有者を採用)。 • 各種側面の要約・・・公衆衛生学士号、健康教育の修士号を持つ専門機関の職員 • 比喩的表現の説明・・美術学修士号を持つライティングの専門家 • 肯定的再構成・・・・心理学の学士号を持つ臨床行動健康の看護師 • 暗示された誤情報の説明・・政治学の学士号を持つ公共政策の大学院生 • 社会的バイアスの推論・・・ジャーナリズムの学士号を持つ大学院生 • 結果を次頁に示す(最良スコアを緑色、次点を青色で表示する)

17.

ゼロショット生成タスクの専門家による評価

18.

実験内容の紹介 表の解説 • 主要なLLMモデルは人間の最上位レベルと同等またはそれ を超える品質のテキストを生成していた。 • 主な傾向を以下に記す。 • 各種側面の要約、社会的バイアスの推論ではGPT-3.5、GPT-4が良 い結果を出しており、人間のレベルを超えていた。(前頁の赤枠) • 一方、比喩的表現の説明、肯定的再構成、暗示された誤情報の説明 では、GPT-4は人間と同等レベルでさほど性能は良くない。 • 代わりにこれらの項目では、GPT-3モデルの一部、GPT-3.5が良い 性能を出し、人間のレベルを上回っていた。(前頁の青枠)

19.

実験内容の紹介 実験の総括 • 実験の目的はCSS研究者がLLMを何時導入するのが適切か、 また、どのLLMが個々の調査ニーズに最適であるか、など の情報を提供することであった。 • LLMが完全にはCSSの既存方式を置き換えることができない ことが判明したことを踏まえ、推奨事項を以下に示す。 1. LLMも作業の一部に統合し、大規模データのラベル付け作業の変 革を目指す。 2. 分類のためにはオープンソースLLMを優先して使用する。 3. また、人間の好みを学習したより大規模なLLMを選択することで、 忠実性、関連性、一貫性、流暢性のレベル向上を促進する。 4. LLMが長期的には新しいCSSの成果をどのように生み出せるかを 構想しレベルアップする。

20.

中間まとめ • LLMの優れたパフォーマンスにもかかわらず、人間の注釈 ベースの処理を大幅に上回るLLMモデルはなかった。 • 従って、最高レベルのLLMでも人間によるラベル付け作業 を完全に置き換えることは不可能であることが判明した。 • 但し、LLMはラベル付けタスクに対しては人間と同等レベ ルの対応に達していた。 • 今後、研究上のモデルがスケールアップするに連れてLLM の利点は増大することが考えられる。 • これは、LLMが反復的共同ラベル付けを通じて注釈プロセ スを強化することで、社会科学におけるテキスト分析を大幅 に高速化あるいは改善させることを示唆する。

21.

3.生成AI(& LLM)は社会科学を改善できるか? • • 前節で生成AI(& LLM)の社会科学への適応について技術的 可能性を示す実験を紹介した。但し、実際の実践ではその他 の多様な課題が存在する。 本節ではそれらを4つの切り口で紹介する。 ➢3.1:CSSの障害と機会 主要な障害と今後の奨励策、など ➢3.2:AIをベースとした社会科学研究の変革 取組みにおけるジレンマやトレードオフ、など ➢3.3:GPT-4および後継技術を使用した場合の影響 人間と機械との仕事分担変更やAI格差をも含む社会への影響、など ➢3.4:LLMの整合と安全性の保証 価値の不透明性、信頼性、破壊的性質、などの基本的課題

22.

3.1:CSSの障害と機会 CSS提唱者のD.Lazerは2020年にもScienceに基本的な問題提 起を行っている。設立10年後も不充分な実態が残っている。 A•. 大学の不整合 • 殆どの大学はこの種の学際的取組みに対して充分に整備されていない。 • コラボレーション(計算研究者と社会科学者)も奨励されていない。 • 研究資金の割り当ても適切でなく、学際的取組みの学者は過小評価さ れる傾向がある。 B•. 不充分なデータ共有パラダイム • プライバシーを保証しながらミクロ/マイクロレベルのデータ分析を 行うためのプラットフォームが整備されていない。 • 民間企業データへのアクセスが非常に限定されている。 C•.不充分なルール • 科学研究の「ルール」が策定されていない。 • 機密データを適切に収容/管理するための技術的、法的、規制的、倫 理的ガイダンスを提供している大学/機関が殆どない。

23.

今後の奨励策 • このような実態が存在することから、2020年論文では、 CSS分野に本格的にLLM導入を推進するためにも、まず は、次のような推奨事項が実施されるべきであるとして いる。 1. コラボレーションを強化する。 2. 新しいデータ・インフラストラクチャーを構築する。 3. 倫理的、法的、社会的影響を分析し準備する。 4. 大学を適切に再編成する。 5. 現実世界の課題を適切に解決する。 など

24.

3.2:AIをベースとした社会科学研究の変革 AI活用に絡む基本問題も残っている。 A. 社会科学者とLLMエンジニア間のジレンマ • 効果的なAI支援研究は、AIが多様な統計データを如何に正確 に反映できるかにかかっている。 • 偏見が認識された場合には、その起源(データ起因か、モデル 起因か、など)が重要な問題になる。 • 社会科学者は人間の行動をシミュレートし、文化的進化を追 跡するため、社会文化的偏見も組み込んだLLMを望む。 • 一方、LLMエンジニアは現実の世界よりは、「あるべき」世 界に向けてトレーニング済みモデルの微調整を目指す。 • LLMトレーニング独自の「ブラックボックス」化は研究者が 基盤としたいメカニズム評価に課題をもたらす。

25.

B.トレードオフと実践的な知恵の検討 • LLMを使用して人間の行動を近似できるか判断するには、研究者 はまず言語を介した潜在的構成を検証する必要がある。 • 研究者はLLMによって生成された応答を非人間参加者のサンプル として従来の実験に組み込むことができる。 • その際、重要な考慮事項は外部妥当性と内部妥当性のトレードオ フである。 • 多様な文化的コンテンツでトレーニングされたLLMは現実世界の シナリオを一般化することでより適切な外部妥当性を提供しうる。 • 一方、より小さく良く制御されたデータセットに基づいてトレー ニングされたLLMは信頼性と一般化が低下する代わりに強力な内 部妥当性を提供しうる。 • 研究対象に応じて両傾向のLLMのバランスの取れた活用の知恵を 働かせる必要がある。

26.

3.3:GPT-4/後継技術を使用した場合の影響 今後、LLMは、推論、一般化、相互作用等の機能が飛躍的に向 上し、人々や社会に価値あるものになる見通しだが、誤りの生成 (幻覚、など)は依然として不可欠な部分として残る。 A. 誤った生成の課題 • 幻覚は、正しい情報と絡み合った説得力のある方法で提示さ れるので、綿密な検査と労力をかけた事実確認を行わないと 正誤の識別が困難になる。 • 特性が十分に理解されていないエラーが生成されるので、真 実性と正確性が求められる領域でのLLM使用は、出力の正 確性を確認するために特段の注意がいる。 • LLM を採用する全ての分野の実務家は、LLM によって生成 された情報を検証するために最高の基準と慣行に準拠する必 要がある。

27.

B•. 人間の専門知識、仕事、経験との関係 • LLMの驚くべき性能は人間と機械の従来の専門知識分担に 関する概念や慣習を破壊する。 • 結果、多くの職業で人間と機械はさまざまな新たな方法で競 合と補完を模索する。 • 仕事の中味は見直され、AIによる自動化に適したタスクが切 り出されて大幅に自動化される可能性がある。 影響と考慮事項の集合 C•. 影響と考慮事項の混在 • 肯定的影響の他に、コストがかかったり否定的な影響を与え るなど、数多くの影響が表面化する。 • 一例がLLMの能力が高まることで、利用可能者と利用不可 能者間で不平等が拡大し、「AI格差」が生じることである。

28.

3.4:LLMの整合と安全性の保証 多様な基本的課題が認識されている。 A. LLMにコード化される価値の不透明性 • LLMはどのような価値、誰のための価値に整合されるべき かが曖昧なところがある。 • これに向けては、1)さまざまな価値体系の理解、2)技術的な 実現可能性が価値選択にどのように影響するか、3)LLMが特 定の価値を社会にどのように不当に押し付けるか、などにつ いて、更なる研究が必要になる。 B. 人間の専門知識、仕事、経験と誤用との関係 • LLMは悪意のある行為者による誤用の可能性を秘めている。

29.

C•. LLM価値が信頼できないケースの存在 人間の専門知識、仕事、経験との関係 • LLMベースのシステムが偶発的な損害を引き起こさないと いう保証はない。 • 損害はLLMの欠陥により直接発生する場合だけでなく、 ユーザーの不適切な使用によっても発生する。 影響と考慮事項の集合 D•. LLMの社会経済的影響が極めて破壊的である可能性 • LLMの急速な進化は労働力、所得格差、教育、経済の発展 に大きな影響を与える。 • 結果、重要な社会経済的機会と課題をもたらす。 • 例:自動化により労働需要が減少し、賃金の低下などが発生する可 能性、など

30.

中間まとめ 1. CSSそのものの推進に学術的、組織的、規範的な多様な課 題が認識されている。 2. LLMはじめ種々のAI機能を社会科学研究に取込むための課 題(ジレンマやトレードオフ)も認識されている。 3. 先端的GPT-4やその後継機能の使用にあたっても、新たな 影響への懸念が認識されている。 4. 懸念の代表格である安全性の保証について、多様な視点か らの基本的課題リストが認識されている。 • これらの課題の達成度に、LLMによる社会科学研究の改善 は大きく依存している。

31.

4.社会技術的アプローチの必要性 • 前節までの検討に見られるように、技術面の 課題はそれなりにあるが、 • それ以上に、社会技術的課題への対応に重点 を移すことがますます必要になっている。 • 本節では、社会技術的課題に向けた取組み (社会技術的アプローチ)の例を述べる。

32.

1:CSS用専門用語のLLMへの吸収 • CSS専門家の用語には特殊な定義や非標準な定義に基づく専 門用語が存在しており、このような専門用語をLLMに吸収 する方法を設計しLLM技術者と協力する必要がある。 • また、時間の経過とともに社会科学全般に係わる言語、規範、 信念、政治構造は変化してゆく。 • この状況をフォローするには継続的トレーニングを通じてLLMの知 識を更新する必要があるが、これには法外なコストがかかる。 • また、この課題は、モデルがスケールアップするに連れて悪化する 傾向がある。 • このような状況にどのように適切に対処するかの社会技術的 アプローチが必要である。

33.

2:AIの安全性の確保 (1) • 高度なデジタル技術は、抑制されないまま放置されると、人 権、社会正義、民主主義を犠牲にして権力と利益を追求する ために使用される可能性がある。 • このような状況に対しては、社会技術的アプローチのみが、 高度な AI の危険性と潜在的な危険性を真に制限できる。 • 社会技術的アプローチでは、技術者だけでない専門家のグ ループが、1)どのリスクが重要か、2)どの害が重要か、3)安 全な AI がどの価値に沿うべきかを協調的に決定することがで きる。 • また、安全な AI システムを保証するために、1)義務や実践を 伴わない行為を拒否し、2)誠実さを保つための透明性や説明 責任を企業などに要求することができる。

34.

3:AIの安全性の確保(2) • 偏見まみれのデータをトレーニングに使用する以上、LLMにバ イアスは存在する。 • その際、社会科学者は研究目的のためバイアスを利用、あるい はバイアスの傾向を探ろうとするかもしれない。 • しかし、現実のLLMのトレーニングプロセスやRLHFプロセスは非公 開で、現実的には目的は妨げられる可能性がある。 • また、学術誌や資金提供機関はLLMによって作成された低品質 の「ジャンクサイエンス」によって圧倒されるかもしれない。 • このような攻撃に対し、データに「ウォーターマーク」付与な どもありうるが、あらゆるLLMへの実装は不可能である。 • 結局、万能ではないが、何らかの社会技術的アプローチを奨励 することが必要になる。 34

35.

4:LLMガバナンスの欠如 • LLM が社会に有益であり、害を及ぼさないことを保証する には、適切なガバナンスが必要であるが、対処すべき課題は 多い。 1. LLM に関して必要な科学的理解の欠如、効果的で迅速に働 くガバナンス機関の欠如、責任追及制度の欠如、企業の力 などがあり、ガバナンス構造は極めて複雑である。 2. ほとんどのガバナンス メカニズムは未発達であり、現状は、 ガバナンスに関する具体的な提案が欠けている。 3. LLMのガバナンスは、技術の急速な製品化、技術の経済 的・破壊的性質 、誤用される可能性、急速に進化する技術 環境などにより困難性が増大している。 • これらの課題に対して、LLM を効果的に管理するには、競 争圧力が無責任な AI 開発につながらないようにするなどの 社会技術的アプローチが必要である。

36.

中間まとめ 1. 時間の変化に追随するためのコスト面などの考慮 2. 研究モデルのスケールアップに伴い影響が悪化しかねない 変化への対応 3. AIの技術的利用に制限を加えずに放置することに伴う危険 性を抑止するための考慮 4. LLMモデルのブラックボックス化に伴い発生する危険性へ の対応 5. 各種ガバナンスの課題が未成熟であることに伴い想定すべ き施策立ち上げの考慮 • これらの社会技術的課題への取組みがLLMによる社会科学 研究の推進に大きく係わってくる。

37.

全体まとめ 1. LLM普及は人間が生成したデータによってトレーニングされた LLMが本質的に社会技術的システムであることをますます明らか にしている。 2. 直近では、既存技術によって社会科学研究を推進してきたCSSの 研究能力がLLMによって強化されることを確認できる実験結果が 報告された。 3. そして、この延長線上で多様な社会技術的課題もクローズアップ された。 4. 但し、LLMは将に進化の途上にあり、判明しつつある課題も限定 的である。 5. 従って、適切な方向性や対応策を描ける段階ではないものの、将 来のLLMによる社会、経済へのインパクトは避けられない。 6. このような事態を充分に認識し、取組みの方向性を示唆する情報 を最大限に活用して必要な準備に着手すべき時である。

38.

文献