5.8K Views
June 11, 24
スライド概要
Generative Ai Study Group Master
生成AIの最新動向と活用 明治学院大学 情報数理学部 教授 永田 毅(ながた たけし) 1
自己紹介 • 名前:永田毅(ながたたけし)[email protected] • 1997年3月 • 1997年4月~2024年3月 筑波大学大学院物理学専攻修了 (原子核理論), 博士(理学) みずほリサーチ&テクノロジーズ株式会社 物理シミュレーション、移動通信、画像解析、機械学習に関する研究開発を担当 • 2012年8月~ 筑波大学 グローバル教育院 教授 • 2024年4月~ 明治学院大学 情報数理学部 教授 2
今日の内容 • 明治学院大学 情報数理学部のご紹介 • 生成AIの最新動向 • 生成AIの新しい活用例(私の研究から) 3
明治学院大学 情報数理学部のご紹介 (2024年4月開設) 4
情報数理学部 5
情報数理学部の講師陣 6
情報数理学部: カリキュラム 7
生成AIの最新動向 8
生成AI発展の歴史 パラメータ数 自己回帰 1.17億 15億 Transformer GPT-1 GPT-2 自然言語処理 PGGAN 3550億 100兆 学習データを2023 年4月まで拡張 映像や音声で 質問に応答 GPT-3 ChatGPT GPT-4 GPT-4 turbo GPT-4o Scaling Law1 MUSIC-GEN Scaling Law2 MUSIC-LM 画像と文章の 類似度 自己回帰 画像生成 GAN 1750億 Vision Transfomer StyleGAN DALL-E 自然言語(プロンプト)で画像生成 動画生成 Parti CLIP GLIDE DALL-E2 敵対的生成モデル DDPM ADM LDM DALL-E3 Stable Diffusion Midjourney ~2019 Sora Style CLIP StyleGAN2 拡散モデル 楽曲生成 2020 2021 9 2022 Stable Diffusion v3 Midjourney v6 2023 2024
GANの仕組み 敵対的生成ネットワーク(GAN、Generative Adversarial Network)は、2つのAIを競わせることで、画像 生成の精度を向上させる仕組みである。偽札犯と警察(偽札検出器)が互いに競うことで、結果的に高 精度な偽札が作られるようになる、という皮肉な現象が、AIに活用されて成果を上げている。 フィードバック Generator Discriminatorを騙す画 像を作ろうとする (最終的に利用するの はGeneratorのみ) フェイク画像 Discriminator Generatorが作ったフェイ ク画像を見破ろうとする 本物の画像 10 フェイクの確率 本物の確率
拡散モデル:ノイズを利用した画像生成モデル 完全なノイズ画像になるま で画像にノイズを加算して いき、各ステップにおける 画像と加算したノイズの関 係を学習しておく。 予測フェーズでは、ノイズ 画像を作成し、テキスト情 報を参考にしながら、ス テップごとにノイズを予測 してノイズ画像からノイズ 成分を引いていき、最後に 画像を完成させる。 https://qiita.com/adriantam/items/ad974f371b2 b047082ff Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022. 11
Transformer:自然言語処理の画期的な技術 • 「GLUE」(General Language Understanding Evaluation)は、英語圏における自然言語処理の標 準ベンチマーク。「同義言い換え」「質疑応答」といった、言語に関するテストデータが含 まれており、総合的な言語能力を算出する。2019年には人間の平均点を超えるAIが誕生した。 12
Transformer:機械学習の画期的な技術 2017年にGoogleが発表したTransformerは、GoogleのBERTやOpenAIのChatGPTのベースになっている。 入力は品詞単位ではなく、文章単位になっており、文章中の単語同士の関係を分析する。 文章はサイズが可変であるため、文章の最大文字数を規定しておき、最大文字数未満の文章は、最大文 字数までpadding(空白などの無意味な文字で埋めること)することで、固定サイズの入力となっている。 Transformerでは、自己教師あり学習により、Attention(ある単語の意味を解釈するために、他のどの単 語に注目すれば良いか)を学ぶことで、文章中の単語同士のつながりを分析することに成功した。 自己教師あり学習:文章中の一つの単語を隠し、その単語が何かを当てる学習を行う。 あの有名人は赤い〇に乗ってやってきた。 あの鉄面皮には赤い〇が通っているのだろうか? りんご? 自転車? スポーツカー? りんご? 血? 生徒? 13
Transformerを利用した自己回帰モデル Transformerを利用したエンコーダとデコーダを用意し、デコーダ部では自身の出力を自己回帰して入力 することで、文章をシーケンシャルに出力する。 I love you _ デコーダ エンコーダ 私 は あなた が _ 好き 14 I love you
Vision Transformer:画像版Transformer Transformerの自己教師あり学習を画像に応用すれば、画像中のある領域を隠し、その領域に何が写って いるかを当てる学習が可能(Vision Transformer)。 Vision Transformerが画像認識時に着目したAttention領域 Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020). 自己教師あり学習の例 https://arxiv.org/pdf/1604.07379.pdf 15
CLIP:自然言語と画像の融合 自然言語と画像を潜在空間にエンコードし、潜在空間上で、画像と自然言語の類似度を計算する。 すると、自然言語⇔画像 の相互変換が可能になる!(約4億枚の画像と画像のキャプション(文章)を学習) https://github.com/openai/CLIP 16
ChatGPT ChatGPT(Chat Generative Pre-trained Transformer)は、OpenAIが2022年11月 に公開した人工知能チャットボット(会話するAI)であり、以下の3ステップ で学習が行われる。 1.GPTのファインチューニング 入力文と出力文のペアを数万セット用意し、所望の結果が得られるように学習モデルを調整。 2.RM(Reward Model)の学習 以下の3つの指標を採点するモデルを学習する。 真実性:デマやミスリードの情報ではないか 無害性:人や環境を物理的・精神的に傷つけていないか 有益性:ユーザーのタスクを解決してくれるか 3.RMを利用したGPTの強化学習 RMを利用し、GPTモデルを仕上げていく。 17
ChatGPTの応用 ChatGPTの出力にはまだまだ嘘が含まれており、そのまま信用するわけにはい かないが、執筆やコード作成のスケルトンとしての利用価値は高い。 また、ChatGPTを特定の分野に特化させるというニーズも高い。 1.コンテキスト学習 プロンプトエンジニアリングの一種。 質問時に、当該分野の資料をつけて、その資料に沿って回答するよう要請する。 2.ファインチューニング 当該分野の資料をもとにファインチューニングする。 現在はGPT3.5がファインチューニング可能だが、年内にGPT4がファイン チューニングに対応すると予告されている。 18
コンテキスト学習の例:マツコGPT マツコデラックスさんの質問応答集に倣って回答してください、と要請する。 マツコデラックスさんの質問応答集(数百程度) 19
コンテキスト学習の例:マツコGPT 20
コンテキスト学習の例:マツコGPT 21
コンテキスト学習の例:マツコGPT 22
ChatGPTは知能と言えるのか? 哲学者のジョン・サールは、 1980年に “Minds, Brains, and Programs” という論文の中で、チューリングテストを批判的に議論するために、中国語 の部屋という思考実験を発表した。 イギリス人のA氏が閉ざされた部屋に入る。A氏は中国語が全く読めないが、「こういう漢文が来たら、こういう漢文で返答しろ」という膨大な対 応表を渡されている。 中国人のB氏は、この部屋に、紙のメモで質問を行う。すると、A氏は、対応表に照らし合わせて、回答する。何も知らないB氏にとっては、この部 屋の人物は、中国語に堪能なように見えるであろう。 しかし、A氏は、中国語に関する知識は全くないのである。特化型AIも、これに似た関係にあると言える。ChatGPTは、対応表は使わずに、その場 で適応的に文章が生成され、あたかも意味がわかっているように回答しているが、意味は全く理解していない。 你是人类?人工智能? (あなたは人間?AI?) 我是一个人。 (私は人間です) 23
生成AIの新しい活用例(私の研究から) 24
生成AIを利用したドメイン顔画像生成 潜在変数をさらに主成分分析(PCA)で次元圧縮する。すると、ランダムな主成分得点を与えれば、主成分 係数を利用して、学習した顔画像データベースの統計的な特徴を備えたバーチャルアイドルが生成できる。 本プロジェクトの成果は、日本顔学会の2023年次大会で発表された。 主成分得点 画像枚数 PCA 潜在変数行列 (Latent Matrix) 1980年代女性のデータ 主成分数 StyleGAN2 主成分係数 Restyle Encoder 512×18 画像枚数 ランダムな 主成分得点 バーチャルアイドルの潜在変数 = 1980女性の平均値 + 第1主成分得点×第1主成分係数 + 第2主成分得点×第2主成分係数 + ・・・ 1980年代女性のバー チャルアイドル
生成AIを活用した脳内イメージ可視化システム • 生成AIを活用して、人の脳内イメージを可視化するという、新しい価値を生み出した例であ る。この考え方は、2次元画像だけではなく、人が脳内でイメージするあらゆるもの(デザイ ン、音楽、等)に適用できる可能性を秘めている。特許取得済。 初回はランダムな顔が提示される 2回目以降は、ユーザーが選択した顔の近傍で、 ランダムな顔が生成される。 26 ユーザーが選択した顔 ターゲット顔
アイドル顔画像分析プロジェクト 全学向け「AIデータサイエンス入門」の講義履修者の提案により、「アイドル顔画像分析」プ ロジェクトが行われた。各年代のアイドル顔画像を収集し、生成AIに学習させることで、各年 代の平均顔を生成するとともに、各年代の理想のバーチャルアイドル生成システムを作成した。 1980年代女性 1980年代男性 1990年代女性 1990年代男性 2000年代女性 2000年代男性 2010年代女性 2010年代男性 平均顔 生成したバーチャル アイドルの例 平均顔 27 生成したバーチャル アイドルの例
アイドル顔画像分析プロジェクト 本研究の成果は、日本顔学会の年次大会、フォーラム顔学 2023(2023年10月14日-10月16日)で発表され、見事、ポス ター発表部門のオーディエンス賞を受賞した。
顔画像のドメイン変換プロジェクト 顔の加齢シミュレーションや一般人→アイドル変換等を行う。 動的画像処理実利用化ワークショップ DIA2024にて学会発表 29
顔画像のドメイン変換プロジェクト 顔の加齢シミュレーションや一般人→アイドル変換等を行う。 動的画像処理実利用化ワークショップ DIA2024にて学会発表 30
ご清聴ありがとうございました! 31