社会科学の生成AI（＆LLM）への適応

1.6K Views

August 06, 24

#生成ai #llm #社会科学 #計算社会科学 #生成AI #LLM #大規模言語モデル

スライド概要

生成AI市場はこの3年で2倍以上に成長した。そして、今後についても2033年まで年率28％の高成長が続くと予想されている。こうなって来ると、普及に伴う社会への影響の問題がクローズアップされてくる。このような認識から、今回は生成AI普及が社会にどのような影響を与えるかについて、社会の変化を研究する「社会科学の生成AI(&LLM)への適応」を通してまとめてみた。

高橋浩

@5451263343

スライド一覧

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文（経営学的視点のもの）をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

生成AIからエージェントAIへの移行の課題と展望

aiエージェントエージェントai 自律性ガバナンスエージェント介入リスク

高橋浩 9.2K

医療分野における大規模言語モデルの調査

医療医療llm 生成ai 医師免許試験デジタル化

高橋浩 5.6K

医療へのChatGPT & AIの適用

chatgpt イノベーションヘルスケア新サービス開発組織変革

高橋浩 5.1K

ChatGPT 機会課題影響

大規模言語モデル chatgpt 生成ai 商業化の壁 llm

高橋浩 5K

GPTは労働市場にどのような影響を与えるか

chatgpt 生成aiツール生産性向上生成aiの今後 llm

高橋浩 4K

価値創造と価値獲得

value creation value capture オープンイノベーションデジタル化 b2b業界価値創造と価値獲得のバランス

高橋浩 3.8K

各ページのテキスト

社会科学の生成AI（＆ LLM）への適応 1

目的 • 生成AI(＆ LLM)適応が各方面に拡大をみせている。 • その前提として、人間が生成したデータによってトレーニングされたシステムが人間に影響を与える方法で使用されている現実がある。 • これは生成AI(＆ LLM)に関わる課題が基本的に社会技術的課題であることを意味する。 • この状況を端的に可視化するには、多様な社会の振る舞いを分析する社会科学への生成AI(＆ LMM)適応を探索するのが適当であろう。 • 本稿は、このような認識から、社会技術的課題への生成 AI(＆ LMM)適応を行う社会科学の研究状況を調査することで、今後の動向を理解することを目的としている。

目次 1. はじめに 2. 計算社会科学の場合 3. 生成AI(＆ LLM)は社会科学を改善できるか？ 4. 社会技術的アプローチの必要性 3

１．はじめに基本認識 • 人間が生成したデータに基づいて人間によってトレーニングされ、無数の人間に影響を与える方法で人間によって使用されるLLM（大規模言語モデル）は、本質的に社会技術的システムである。 • LLMに関する技術的および社会技術的課題は独立ではなく、相互に排他的でもない。 • そこで、技術的課題に捕らわれ過ぎると、LLMの責任ある開発や展開に重大な疑念が生じる。 • 結果、社会的、倫理的および文脈的要素を無視すると、非現実的または無関係な技術解決を追求することになる。 • 従って、課題の大部分は技術と社会の相互作用と利害関係者とのコラボレーションを考慮して対処する必要がある。

AIと社会科学研究の変遷 • LLMの進歩は社会科学研究に劇的な影響を与えている。 • 膨大なデータで事前トレーニングされたLLMは人間のような反応や行動を行う能力を増大させている。 • 結果、人間の行動に関する理論や仮説を大規模かつ迅速にテストできる機会が提供されることになった。 • 従来の社会科学研究は、アンケート、行動テスト、半構造化質問への応答分析、エージェントベースモデル(ABM)、観察、実験などに依存していた。 • 従来、苦労することが多かった、本音、隠喩、感情的トーンなどの言語リテラシーに係わる機能も大きく改善された。 • LLM、社会科学者、社会の役割の変化の全体像を次頁図に示す。

LLM、社会科学者、社会の役割の相互関連図研究への援助 AI代替の研究社会科学者心理学者は、例えば極度の孤立状態で人間がどのように反応するか、などを LLM でシミュレートするような具合に状況を分析する。 LLM は、社会科学者が社会における社会的行動規範に関する調査を改善するのに役立つ。社会社会と人間のための代役心理学的研究において、LLM は協力者として行動し、参加者に対して一貫した応答を提供する。コンピューター科学者、社会科学者、倫理学者からなる学際的チームが協力して、 LLM 出力の偏りによる手順由来の潜在的偏見を調査し、対処する。 6

図の解説 • 本図はLLM、社会科学者、社会間の動的相互作用を示している。 • 社会科学者はLLMをアクセラレータとして使用し研究の設計と仮説策定を支援してもらう（左上） • また、LLMはシミュレータとして機能し、複雑な課題を調査するための人間行動の模倣者（右上）となり、仮説を検証するための実験にも協力する（左下）。 • この関係の中心にいるのはAIネクサス（右下）である。 • これ等は、LLM、社会科学者、社会を相互に連携させたフィードバックループを形成する。

２．計算社会科学の場合計算社会科学とは • 計算社会科学(CCS: computational social science)はビッグデータやコンピュータ活用を可能にするデジタル時代の社会科学として2009年Scienceに掲載されたD.Lazer論文を契機に登場した。 • CCSは「複雑で通常は大規模な人間の行動データに対する計算手法の開発と適用」と定義されている。 • 従来の定量的社会科学は、観察の独立を前提としてきたが、 CSSはデータ内のさまざまな依存関係までも捉えられる統計モデルを適用して、検討範囲を拡大させてきた。 • 検討対象は、個人と集団、社会や経済などをこれまでにない解像度とスケールで研究し、研究手法としても、仮説検証型だけでなく、データ駆動型、さらには実社会に関するソリューション志向型の研究にまで幅を広げた。

計算社会科学の領域図 David Lazer キーワード：機械学習、計算科学、経済学、政治学、社会学、心理学、社会物理学、シミュレーション、ソーシャルメディア、データサイエンス、ネットワーク科学、ビッグデータ、バーチャルラボ、など日本でもCSSを推進する計算社会科学会が設立されている。 9

10.

LLMはCSSを変革できるか？本稿テーマはCSSと深く係わるので、LLM登場によるCSSへのインパクトを分析する。 • LLMは多くのタスクをゼロショット(対象タスク向けのカスタムデータトレーニングなし)で実行できる。 • 他方、CCSで類似タスクを実行する場合、教師あり学習モデルでの手動ラベル付け作業が大きな負担になっていた。 • そこで、もし、LLMの登場で、ゼロショットLLMが各種の社会現象を確実に分類し説明できるのなら、LLMは重要な方法でCSSを強化できる。 • このような問題設定からスタンフォード大学を中心とするチームによって大規模な実験が行われた（Ziems, 2024)。 • 次頁以降にその実験内容を紹介する。

11.

実験内容の紹介 CSSの多目的ツールとしてのLLMの可能性 • LLMがCSSの現行作業をどの程度変換できるかを評価する。 • LLMがゼロショットプロンプトで人間による手動ラベル付け作業の負担を取り除くことができればCSSは大きく発展する。 • このための評価作業を一連の広範なCSSタスクで実施する。 • 評価の観点は、実行可能性、モデル選択、適切な対象領域、ゼロショットLLMの機能レベル、など • 評価作業の概念図を次頁に示す。

12.

実験内容の紹介 LLMの可能性を評価する概念図 12

13.

実験内容の紹介 CSS各種タスクにLLM適応の評価 • 談話の種類 vs 各種ゼロショットLLMモデルの比較実験を行う。 • 談話の種類は・・ • 発言レベルのタスク • 方言、感情、比喩的、ユーモア、イデオロギー、憎悪の暗示、誤情報、説得、意味の変化、スタンス、など • 会話レベルのタスク • 談話、共感、説得、礼儀正しさ、権力、毒性、など • 文書レベルのタスク • イベント引数、イベント詳細、イデオロギー、比喩、など • ゼロショットLLMモデルの種類は・・ • FLAN、FLAN-T5、・・（オープンソース） • GPT-3ベースのtext-001, text-002, text-003, ・・ • GPT-3.5（RLHF使用） • GPT-4 • など • 結果を次頁に示す(最良ゼロショットモデルを緑色で表示する)。

14.

CSS ベンチマークタスクのゼロショット分類結果比較印：従来手法が高い項目

15.

実験内容の紹介表の解説 • 多くの項目で従来の手法（教師ありモデル：手作業でラベル付与）の方がスコアが高く、GPT-4を含めたどのLLMモデルでも従来方式の性能を上回れなかった。 • その中でも実用ベース製品であるGPT-4はかなりの項目で従来方式に迫る（約半分程度）または上回る実績を上げていた。 • 但し、GPT-4の実績を細かく見ると項目によって大きなムラが見られた（下記に水準の低い項目を記載）。 • 発言レベル：比喩的（特に低い）、憎悪の暗示（特に低い）、誤情報、意味の変化、など • 会話レベル：共感（特に低い）、権力、など

16.

実験内容の紹介人間(専門家)によるスコアリング評価 • 全ての専門家はUpworkプラットフォームを通じて採用され、評価作業には報酬が支払われた。 • ４つの標準尺度を導入した。 • 忠実性・・生成内容がソース文書およびタスクの定義と一致しているか？ • 一貫性・・生成内容が適切に構造化され、整理されているか？ • 関連性・・生成内容に重要な情報のみが含まれ余分な情報が含まれていないか？ • 流暢性・・テキストを読み難くする書式の問題、文字の誤り、文法的誤りがないか？ • 5つの項目に専門家を採用し評価した（下記のスキル保有者を採用）。 • 各種側面の要約・・・公衆衛生学士号、健康教育の修士号を持つ専門機関の職員 • 比喩的表現の説明・・美術学修士号を持つライティングの専門家 • 肯定的再構成・・・・心理学の学士号を持つ臨床行動健康の看護師 • 暗示された誤情報の説明・・政治学の学士号を持つ公共政策の大学院生 • 社会的バイアスの推論・・・ジャーナリズムの学士号を持つ大学院生 • 結果を次頁に示す(最良スコアを緑色、次点を青色で表示する)

17.

ゼロショット生成タスクの専門家による評価

18.

実験内容の紹介表の解説 • 主要なLLMモデルは人間の最上位レベルと同等またはそれを超える品質のテキストを生成していた。 • 主な傾向を以下に記す。 • 各種側面の要約、社会的バイアスの推論ではGPT-3.5、GPT-4が良い結果を出しており、人間のレベルを超えていた。(前頁の赤枠) • 一方、比喩的表現の説明、肯定的再構成、暗示された誤情報の説明では、GPT-4は人間と同等レベルでさほど性能は良くない。 • 代わりにこれらの項目では、GPT-3モデルの一部、GPT-3.5が良い性能を出し、人間のレベルを上回っていた。(前頁の青枠)

19.

実験内容の紹介実験の総括 • 実験の目的はCSS研究者がLLMを何時導入するのが適切か、また、どのLLMが個々の調査ニーズに最適であるか、などの情報を提供することであった。 • LLMが完全にはCSSの既存方式を置き換えることができないことが判明したことを踏まえ、推奨事項を以下に示す。 1. LLMも作業の一部に統合し、大規模データのラベル付け作業の変革を目指す。 2. 分類のためにはオープンソースLLMを優先して使用する。 3. また、人間の好みを学習したより大規模なLLMを選択することで、忠実性、関連性、一貫性、流暢性のレベル向上を促進する。 4. LLMが長期的には新しいCSSの成果をどのように生み出せるかを構想しレベルアップする。

20.

中間まとめ • LLMの優れたパフォーマンスにもかかわらず、人間の注釈ベースの処理を大幅に上回るLLMモデルはなかった。 • 従って、最高レベルのLLMでも人間によるラベル付け作業を完全に置き換えることは不可能であることが判明した。 • 但し、LLMはラベル付けタスクに対しては人間と同等レベルの対応に達していた。 • 今後、研究上のモデルがスケールアップするに連れてLLM の利点は増大することが考えられる。 • これは、LLMが反復的共同ラベル付けを通じて注釈プロセスを強化することで、社会科学におけるテキスト分析を大幅に高速化あるいは改善させることを示唆する。

21.

３．生成AI(＆ LLM)は社会科学を改善できるか？ • • 前節で生成AI(＆ LLM)の社会科学への適応について技術的可能性を示す実験を紹介した。但し、実際の実践ではその他の多様な課題が存在する。本節ではそれらを４つの切り口で紹介する。 ➢3.1：CSSの障害と機会主要な障害と今後の奨励策、など ➢3.2：AIをベースとした社会科学研究の変革取組みにおけるジレンマやトレードオフ、など ➢3.3：GPT-4および後継技術を使用した場合の影響人間と機械との仕事分担変更やAI格差をも含む社会への影響、など ➢3.4：LLMの整合と安全性の保証価値の不透明性、信頼性、破壊的性質、などの基本的課題

22.

3.1：CSSの障害と機会 CSS提唱者のD.Lazerは2020年にもScienceに基本的な問題提起を行っている。設立10年後も不充分な実態が残っている。 A•. 大学の不整合 • 殆どの大学はこの種の学際的取組みに対して充分に整備されていない。 • コラボレーション(計算研究者と社会科学者)も奨励されていない。 • 研究資金の割り当ても適切でなく、学際的取組みの学者は過小評価される傾向がある。 B•. 不充分なデータ共有パラダイム • プライバシーを保証しながらミクロ/マイクロレベルのデータ分析を行うためのプラットフォームが整備されていない。 • 民間企業データへのアクセスが非常に限定されている。 C•.不充分なルール • 科学研究の「ルール」が策定されていない。 • 機密データを適切に収容/管理するための技術的、法的、規制的、倫理的ガイダンスを提供している大学/機関が殆どない。

23.

今後の奨励策 • このような実態が存在することから、2020年論文では、 CSS分野に本格的にLLM導入を推進するためにも、まずは、次のような推奨事項が実施されるべきであるとしている。 1. コラボレーションを強化する。 2. 新しいデータ・インフラストラクチャーを構築する。 3. 倫理的、法的、社会的影響を分析し準備する。 4. 大学を適切に再編成する。 5. 現実世界の課題を適切に解決する。など

24.

3.２：AIをベースとした社会科学研究の変革 AI活用に絡む基本問題も残っている。 A. 社会科学者とLLMエンジニア間のジレンマ • 効果的なAI支援研究は、AIが多様な統計データを如何に正確に反映できるかにかかっている。 • 偏見が認識された場合には、その起源(データ起因か、モデル起因か、など)が重要な問題になる。 • 社会科学者は人間の行動をシミュレートし、文化的進化を追跡するため、社会文化的偏見も組み込んだLLMを望む。 • 一方、LLMエンジニアは現実の世界よりは、「あるべき」世界に向けてトレーニング済みモデルの微調整を目指す。 • LLMトレーニング独自の「ブラックボックス」化は研究者が基盤としたいメカニズム評価に課題をもたらす。

25.

B.トレードオフと実践的な知恵の検討 • LLMを使用して人間の行動を近似できるか判断するには、研究者はまず言語を介した潜在的構成を検証する必要がある。 • 研究者はLLMによって生成された応答を非人間参加者のサンプルとして従来の実験に組み込むことができる。 • その際、重要な考慮事項は外部妥当性と内部妥当性のトレードオフである。 • 多様な文化的コンテンツでトレーニングされたLLMは現実世界のシナリオを一般化することでより適切な外部妥当性を提供しうる。 • 一方、より小さく良く制御されたデータセットに基づいてトレーニングされたLLMは信頼性と一般化が低下する代わりに強力な内部妥当性を提供しうる。 • 研究対象に応じて両傾向のLLMのバランスの取れた活用の知恵を働かせる必要がある。

26.

3.３：GPT-4/後継技術を使用した場合の影響今後、LLMは、推論、一般化、相互作用等の機能が飛躍的に向上し、人々や社会に価値あるものになる見通しだが、誤りの生成（幻覚、など）は依然として不可欠な部分として残る。 A. 誤った生成の課題 • 幻覚は、正しい情報と絡み合った説得力のある方法で提示されるので、綿密な検査と労力をかけた事実確認を行わないと正誤の識別が困難になる。 • 特性が十分に理解されていないエラーが生成されるので、真実性と正確性が求められる領域でのLLM使用は、出力の正確性を確認するために特段の注意がいる。 • LLM を採用する全ての分野の実務家は、LLM によって生成された情報を検証するために最高の基準と慣行に準拠する必要がある。

27.

B•. 人間の専門知識、仕事、経験との関係 • LLMの驚くべき性能は人間と機械の従来の専門知識分担に関する概念や慣習を破壊する。 • 結果、多くの職業で人間と機械はさまざまな新たな方法で競合と補完を模索する。 • 仕事の中味は見直され、AIによる自動化に適したタスクが切り出されて大幅に自動化される可能性がある。影響と考慮事項の集合 C•. 影響と考慮事項の混在 • 肯定的影響の他に、コストがかかったり否定的な影響を与えるなど、数多くの影響が表面化する。 • 一例がLLMの能力が高まることで、利用可能者と利用不可能者間で不平等が拡大し、「AI格差」が生じることである。

28.

3.４：LLMの整合と安全性の保証多様な基本的課題が認識されている。 A. LLMにコード化される価値の不透明性 • LLMはどのような価値、誰のための価値に整合されるべきかが曖昧なところがある。 • これに向けては、1)さまざまな価値体系の理解、2)技術的な実現可能性が価値選択にどのように影響するか、3)LLMが特定の価値を社会にどのように不当に押し付けるか、などについて、更なる研究が必要になる。 B. 人間の専門知識、仕事、経験と誤用との関係 • LLMは悪意のある行為者による誤用の可能性を秘めている。

29.

C•. LLM価値が信頼できないケースの存在人間の専門知識、仕事、経験との関係 • LLMベースのシステムが偶発的な損害を引き起こさないという保証はない。 • 損害はLLMの欠陥により直接発生する場合だけでなく、ユーザーの不適切な使用によっても発生する。影響と考慮事項の集合 D•. LLMの社会経済的影響が極めて破壊的である可能性 • LLMの急速な進化は労働力、所得格差、教育、経済の発展に大きな影響を与える。 • 結果、重要な社会経済的機会と課題をもたらす。 • 例：自動化により労働需要が減少し、賃金の低下などが発生する可能性、など

30.

中間まとめ 1. CSSそのものの推進に学術的、組織的、規範的な多様な課題が認識されている。 2. LLMはじめ種々のAI機能を社会科学研究に取込むための課題（ジレンマやトレードオフ）も認識されている。 3. 先端的GPT-4やその後継機能の使用にあたっても、新たな影響への懸念が認識されている。 4. 懸念の代表格である安全性の保証について、多様な視点からの基本的課題リストが認識されている。 • これらの課題の達成度に、LLMによる社会科学研究の改善は大きく依存している。

31.

４．社会技術的アプローチの必要性 • 前節までの検討に見られるように、技術面の課題はそれなりにあるが、 • それ以上に、社会技術的課題への対応に重点を移すことがますます必要になっている。 • 本節では、社会技術的課題に向けた取組み (社会技術的アプローチ)の例を述べる。

32.

1：CSS用専門用語のLLMへの吸収 • CSS専門家の用語には特殊な定義や非標準な定義に基づく専門用語が存在しており、このような専門用語をLLMに吸収する方法を設計しLLM技術者と協力する必要がある。 • また、時間の経過とともに社会科学全般に係わる言語、規範、信念、政治構造は変化してゆく。 • この状況をフォローするには継続的トレーニングを通じてLLMの知識を更新する必要があるが、これには法外なコストがかかる。 • また、この課題は、モデルがスケールアップするに連れて悪化する傾向がある。 • このような状況にどのように適切に対処するかの社会技術的アプローチが必要である。

33.

２：AIの安全性の確保（１） • 高度なデジタル技術は、抑制されないまま放置されると、人権、社会正義、民主主義を犠牲にして権力と利益を追求するために使用される可能性がある。 • このような状況に対しては、社会技術的アプローチのみが、高度な AI の危険性と潜在的な危険性を真に制限できる。 • 社会技術的アプローチでは、技術者だけでない専門家のグループが、1)どのリスクが重要か、2)どの害が重要か、3)安全な AI がどの価値に沿うべきかを協調的に決定することができる。 • また、安全な AI システムを保証するために、1)義務や実践を伴わない行為を拒否し、2)誠実さを保つための透明性や説明責任を企業などに要求することができる。

34.

３：AIの安全性の確保（２） • 偏見まみれのデータをトレーニングに使用する以上、LLMにバイアスは存在する。 • その際、社会科学者は研究目的のためバイアスを利用、あるいはバイアスの傾向を探ろうとするかもしれない。 • しかし、現実のLLMのトレーニングプロセスやRLHFプロセスは非公開で、現実的には目的は妨げられる可能性がある。 • また、学術誌や資金提供機関はLLMによって作成された低品質の「ジャンクサイエンス」によって圧倒されるかもしれない。 • このような攻撃に対し、データに「ウォーターマーク」付与などもありうるが、あらゆるLLMへの実装は不可能である。 • 結局、万能ではないが、何らかの社会技術的アプローチを奨励することが必要になる。 34

35.

４：LLMガバナンスの欠如 • LLM が社会に有益であり、害を及ぼさないことを保証するには、適切なガバナンスが必要であるが、対処すべき課題は多い。 1. LLM に関して必要な科学的理解の欠如、効果的で迅速に働くガバナンス機関の欠如、責任追及制度の欠如、企業の力などがあり、ガバナンス構造は極めて複雑である。 2. ほとんどのガバナンスメカニズムは未発達であり、現状は、ガバナンスに関する具体的な提案が欠けている。 3. LLMのガバナンスは、技術の急速な製品化、技術の経済的・破壊的性質、誤用される可能性、急速に進化する技術環境などにより困難性が増大している。 • これらの課題に対して、LLM を効果的に管理するには、競争圧力が無責任な AI 開発につながらないようにするなどの社会技術的アプローチが必要である。

36.

中間まとめ 1. 時間の変化に追随するためのコスト面などの考慮 2. 研究モデルのスケールアップに伴い影響が悪化しかねない変化への対応 3. AIの技術的利用に制限を加えずに放置することに伴う危険性を抑止するための考慮 4. LLMモデルのブラックボックス化に伴い発生する危険性への対応 5. 各種ガバナンスの課題が未成熟であることに伴い想定すべき施策立ち上げの考慮 • これらの社会技術的課題への取組みがLLMによる社会科学研究の推進に大きく係わってくる。

37.

全体まとめ 1. LLM普及は人間が生成したデータによってトレーニングされた LLMが本質的に社会技術的システムであることをますます明らかにしている。 2. 直近では、既存技術によって社会科学研究を推進してきたCSSの研究能力がLLMによって強化されることを確認できる実験結果が報告された。 3. そして、この延長線上で多様な社会技術的課題もクローズアップされた。 4. 但し、LLMは将に進化の途上にあり、判明しつつある課題も限定的である。 5. 従って、適切な方向性や対応策を描ける段階ではないものの、将来のLLMによる社会、経済へのインパクトは避けられない。 6. このような事態を充分に認識し、取組みの方向性を示唆する情報を最大限に活用して必要な準備に着手すべき時である。

38.

文献