社会科学の生成AI（＆LLM）への適応付属資料

168 Views

August 06, 24

#生成ai #llm #社会科学 #計算社会科学 #生成AI #LLM #AI倫理

スライド概要

直前にアップした「社会科学の生成AI(&LLM)への適応」の付属資料

高橋浩

@5451263343

スライド一覧

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文（経営学的視点のもの）をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

生成AIからエージェントAIへの移行の課題と展望

aiエージェントエージェントai 自律性ガバナンスエージェント介入リスク

高橋浩 9.4K

医療分野における大規模言語モデルの調査

医療医療llm 生成ai 医師免許試験デジタル化

高橋浩 5.7K

医療へのChatGPT & AIの適用

chatgpt イノベーションヘルスケア新サービス開発組織変革

高橋浩 5.1K

ChatGPT 機会課題影響

大規模言語モデル chatgpt 生成ai 商業化の壁 llm

高橋浩 5K

GPTは労働市場にどのような影響を与えるか

chatgpt 生成aiツール生産性向上生成aiの今後 llm

高橋浩 4K

価値創造と価値獲得

value creation value capture オープンイノベーションデジタル化 b2b業界価値創造と価値獲得のバランス

高橋浩 3.9K

各ページのテキスト

社会科学の生成 AI（＆ LLM）への適応〇高橋浩（ B-frontier 研究所）１．はじめに生成 AI(＆LLM)適応が各方面に拡大をみせている。そして、人間が生成したデータに基づいて人間によってトレーニングされ、人間によって利用される LLM が、本質的に社会技術的システムであることがますます明らかになっている。これは生成 AI(＆LLM)に関する課題が基本的に社会技術的課題であることを意味する。この状況を端的に可視化するには、多様な社会の振る舞いを分析する社会科学の生成 AI(＆LLM)への適応を探索するのが適当である。本稿は、このような認識から、図１．計算社会科学(CSS)の領域社会技術的課題への生成 AI(＆LLM)適応を主として社団、社会や経済などと幅広く、これまでにない解像度会科学者が LLM を使用して研究を行う視点で観察すとスケールで研究されている[2]（図１）。日本でも CSS る。そうすることで、今後の AI と人間の関係性の理解を研究する計算社会科学会が設立され活動している。本稿のテーマは CSS と深く係わるので、LLM が CSS を深めることを目的とする。を再変革できるかどうかに焦点を当てる。CSS の最も基本認識：人間が生成したデータに基づいて人間によってトレ進んだ計算手法は教師あり学習モデル（人間がタグ付ーニングされ、人間によって利用される LLM が、本質与）だが、タグ付け作業の負担が問題になっていた。的に社会技術的システムであるならば、注目されがちそこで、もし LLM が多くの CSS タスクをゼロショッな LLM の技術的課題に捕らわれ過ぎると、LLM の責ト (対象タスク向けのカスタムデータトレーニングな任ある開発や展開に疑念を生じる可能性がある。即ち、し)で実行できれば CSS を強化/変革できる。 LLM に係わる課題の大部分は技術と社会の相互作用と利害関係者間のコラボレーションを考慮した社会技術的アプローチで対処する必要がある。２. LLM は CSS（計算社会科学）を変革できるか？ゼロショット LLM が各種の社会現象を確実に分類し説明できるなら、LLM は CSS を大幅に強化できる AI と社会科学研究の変遷： LLM の進歩は社会科学研究に劇的な影響を与えた。との視点から、スタンフォード大学を中心としたチーその結果、人間の行動に関する理論や仮説を大規模かムが大規模な実験を行なった[3]。実験は第１実験、第つ迅速にテストできる機会が提供されることになった。２実験からなる。実験の概念図を図２に示す。従来の社会科学研究では、アンケート、行動テスト、半構造化質問への応答分析、エージェントベースモデル(ABM)、観察、実験などに依存してきた。しかし、2009 年デジタル時代の社会科学として計算社会科学 (CSS: computational social science)が登場し大きな変革があった[1]。これは、「複雑で通常は大規模な人間の行動データに対する計算手法の開発と適用」と定義されている。検討対象は、個人と集図２．CSS に対する LLM の可能性評価の実験概念図

第１実験：CSS 各種タスクに LLM 適応の評価成内容がソース文書およびタスクの定義と一致してい CSS タスク各種（縦軸）とゼロショット LLM モデるか？2)一貫性：生成内容が適切に構造化され、整理ル各種（横軸）を比較した（表１）。前者は、1)発言されているか？3)関連性：生成内容に重要な情報のみレベルのタスク（方言、感情、比喩、ユーモア、イデが含まれ余分な情報が含まれていないか？4)流暢性：オロギー、憎悪、誤情報、など）、2)会話レベルのタステキストを読み難くする書式、文字の誤り、文法的誤ク（共感、説得、礼儀、権力、毒性、など）、3)文書レりがないか？である。ベルのタスク（イデオロギー、比喩、など）からなる。評価結果：主要な LLM モデルが人間の最上位レベルと後者は、1)従来方式、2)オープンソ－スベース LLM 同等またはそれを超える品質のテキストを生成してい（ FLAN、 FLAN-T5、など）、 3)GPT-3 ベース LLM た。主な傾向は、1)①各種側面の要約、⑤社会的バイ（ text-001, text-002, text-003, など）、 4)GPT-3.5 アスの推論では GPT-3.5、GPT-4 が良い結果を出して（RLHF 使用）、5)GPT-4 からなる。おり、人間のレベルを超えていた(表２の赤枠)。2)一方、評価結果：多くの項目で従来手法（教師ありモデルで ②比喩的表現の説明、③肯定的再構成、④暗示された人間がラベル付与）の方がスコアが高く、GPT-4 を含誤情報の説明では、GPT-4 は人間と同等レベルで性能むどの LLM モデルでも従来方式を上回れなかった。中があまり良くなく、代わりに GPT-3 モデルの一部、では FLAN と GPT-4 がかなりの項目で従来方式に迫る GPT-3.5 が人間のレベルを上回っていた(表２の青枠)。か（半分程度）上回る実績を上げていた。但し、GPT-4 実験の総括：の実績を細かく見ると、項目によって水準の低い項目・LLM の優れたパフォーマンスにもかかわらず、従来もあった（例：発言レベルでの比喩、憎悪、など。会話レベルでの共感、など）。第２実験：人間(専門家)によるスコアリング評価５つの項目について、ゼロショット LLM モデル（縦軸）と４つの標準尺度（横軸）を比較した（表２）。5 つの項目は、①各種側面の要約、②比喩的表現の説明、 ③肯定的再構成、④暗示された誤情報の説明、⑤社会方式を大幅に上回る LLM モデルはなかった。・従って、最高レベルの LLM でも従来方式を完全に置き換えることは不可能であることが判明した。・但し、LLM はラベル付けタスクに対しては人間と同等レベルの対応に達していた。・今後、研究モデルがスケールアップするに連れて LLM の利点は増大すると予想される。的バイアスの推論であり、それぞれに評価の専門家を・これは、LLM が反復的共同ラベル付けを通じて注釈当てた。前者のゼロショット LLM モデルは第１実験とプロセスを強化し、社会科学におけるテキスト分析同じである。後者の４つの標準尺度は、1)忠実性：生の高速化と改善が見込めるためである。

レードオフももたらす。外部妥当性は多様な文化的コ３．実際の実践には多様な課題が登場するンテンツでトレーニングされた LLM で、より適切な環実験結果からクローズアップされているように、社境を提供する。一方、内部妥当性はより小さく制御さ会科学への LLM 活用では人間と AI の複雑な関係が想れたデータセットに基づいてトレーニングされた定される。想定される課題を 4 つ切り口で紹介する。 LLM で、強力な機能を提供する。両傾向の LLM のバ 3.1 CSS の障害と機会：[4] ランスの取れた活用のための知恵が求められる。殆どの大学ではこの種の学際的取組みへの対応が充 3.3 GPT-4/後継技術を使用した場合の影響：[6] 分整備されていない。計算研究者と社会科学者のコラ幻覚は説得力のある方法で提示されてくる。そこで、ボレーションも奨励されていない。研究資金の割り当綿密な事実確認を行わないと正誤の識別が困難になる。ても適切でなく、学際的取組みの学者は過小評価され結果、真実性と正確性が求められる領域での LLM 使用る傾向がある。また、プライバシーを保証しながらミは出力の正確性を確認するための特段の注意がいる。クロ/マイクロレベルのデータ分析を行うためのプラッまた、LLM は人間と機械の従来の専門知識分担に関すトフォームも整備されていない。科学研究の「ルール」る概念や慣習を破壊するので、多くの職業で人間と機も策定されていない。機密データを適切に収容/管理す械は新たな方法で競合と補完を模索する。仕事の中味るための技術的、法的、規制的、倫理的ガイダンスをは見直され、AI による自動化に適したタスクは切り出提供している大学/機関は殆どない。されて大幅に自動化される。その影響の一例として、 3.2 AI をベースとした社会科学研究の変革：[5] LLM の能力が高まるに連れて、利用可能者と利用不可社会科学者は人間の行動をシミュレートし、文化的進化を追跡するため、社会文化的偏見も組み込んだ能者間で不平等が拡大し、「AI 格差」が発生する。 3.4 LLM の整合と安全性の保証：[7] LLM を望む。一方、LLM エンジニアは現実の世界よ LLM はどのような価値、誰のための価値に整合されりは、「あるべき」世界に向けてトレーニング済みモデるべきかが曖昧なところがある。そのため、1)さまざルの微調整を目指す。LLM トレーニング独自の「ブラまな価値体系の理解、2)技術的な実現可能性が価値選ックボックス」化は社会科学者と LLM エンジニア間に択にどう影響するか、3)LLM が特定価値を社会にどのジレンマをもたらす可能性がある。また、LLM によっように押し付けるか、などについて更なる研究がいる。て生成された応答を従来の実験に組み込むことはできまた、LLM ベースのシステムは偶発的な損害を引き起るが、外部妥当性と内部妥当性という重要な事項でトこさないという保証はない。損害は LLM の欠陥により

発生するだけでなく、ユーザーの不適切な使用によっ経済的・破壊的性質、誤用される可能性、急速に進ても発生する。そして、LLM の急速な進化は労働力、化する技術環境などにより困難性が増している。所得格差、教育、経済の発展に大きな影響を与えるたこれらの課題に対して、LLM を効果的に管理するにめ、LLM の社会経済的影響は極めて破壊的である。は、競争圧力が無責任な AI 開発につながらないようにするなどの社会技術的アプローチが必要になる。４．社会技術的アプローチの取組みが今から必要最後に全体をまとめる。従って、社会技術的課題への対応に重点を移すこと 1.LLM 普及は人間が生成したデータによってトレーニがますます重要になってくる。社会技術的課題に向けングされた LLM が本質的に社会技術的システムでた社会技術的アプローチを 4 つ切り口で紹介する。あることをますます明らかにしている。 4.1 CSS 用専門用語の LLM への吸収：[3] CSS 専門家の用語には特殊な専門用語が含まれており、これらの専門用語の LLM への吸収が必要になる。 2.直近では、既存技術によって社会科学研究を推進してきた CSS の研究能力が LLM によって強化されることを確認できる実験結果が報告された。また、時間の経過とともに社会科学全般に係わる言語、 3.そして、最新 LLM でも従来方式を完全には置換でき規範、信念、政治構造は変化して行くので、このフォないことが判明した。この延長で新たな社会技術的ローもいる。しかし、これには法外なコストがかかる。課題もクローズアップされた。また、モデルがスケールアップするに連れてこの問題は悪化する。このような状況にどのように適切に対処して行くかの社会技術的アプローチがいる。 4.2 高度な AI の危険性への対応：[8] 高度なデジタル技術は、抑制されないまま放置され 4.但し、LLM は進化の途上にあり、判明した課題も限定的である。 5.従って、適切な方向性や対応策を描ける段階ではないものの、将来の LLM による社会、経済へのインパクトは避けられない。ると、人権、社会正義、民主主義を犠牲にして権力と 6.このような事態を充分に認識し、AI と人間の共進化利益を追求するために使用される可能性がある。このを社会技術的側面にも重点を置いて準備すべき時でような状況に対しては、社会技術的アプローチのみがある。〔参考文献〕真に高度な AI の危険性と潜在的な危険性を制限することができる。 4.3 バイアス起因で悪用されることへの対応：[6] 偏見まみれのデータをトレーニングに使用する LLM にバイアスが存在するのは当然のことである。しかし、トレーニングプロセスや RLHF プロセスは非公 [1] David M. J. Lazer et al., “Computational social science”, Science 323, 721 2009. [2] 研究開発の俯瞰報告書システム・情報科学技術分野(2023 年)の 2.3.5 計算社会科学 2023. [3] Caleb Ziems et al., “Can Large Language Models 開のままである。結果、例えば、学術誌や資金提供機 Transform Computational Social 関は LLM によって作成された低品質の「ジャンクサイ Computational Linguistics, 1-55 2024. Science?”, エンス」によって圧倒されるかもしれない。このよう [4] David M. J. Lazer et al., “Computational social な攻撃に対しても何らかの社会技術的アプローチを奨 science: Obstacles and opportunities”, Science 369 励することで適切に対応することが必要になる。 (6507), 1060-1062 2020. 4.4 LLM ガバナンスの欠如：[7] [5] Igor Grossmann et al., “AI and the LLM が社会に有益であり、害を及ぼさないことを保 transformation of social science research -Careful 証するには、適切なガバナンスが必要であるが、対処 bias management and data fidelity are key-”, すべき課題は多い。以下に若干の例を挙げる。 Science 380 (6650), 1108-1109 2023. ・LLM に関して、必要な科学的理解の欠如、効果的で [6] Sebastien Bubeck et al., “Sparks of Artificial 迅速に働くガバナンス機関の欠如、責任追及制度の General Intelligence: Early experiments with 欠如、企業の力などがあり、ガバナンス構造は極めて複雑である。・ほとんどのガバナンスメカニズムは未発達であり、現状は、ガバナンスに関する具体的な提案が欠けている。・LLM のガバナンスは、技術の急速な製品化、技術の GPT-4”, arXiv:2303.12712 2023. [7] Usman Anwar et al., “Foundational Challenges in Assuring Alignment and Safety of Large Language Models”, arXiv:2404.09932 2024. [8] Seth Lazar et al., “AI safety on whose terms?” Science 381 (6654), 138-138 2023.

社会科学の生成AI（＆LLM）への適応 付属資料

高橋浩