20250801_データエンジニアリング勉強会

162 Views

August 08, 25

スライド概要

profile-image

株式会社 Fusic で機械学習エンジニアをしています。自然言語処理に興味があります。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

CONFIDENTIAL Data-centric AI という考え方 福岡データエンジニアリング勉強会 2025.08.01 瓦祐希 @kawara_y ©Fusic Co., Ltd. 0

2.

はじめに 自己紹介 株式会社 Fusic 事業本部 先進事業部門 瓦 祐希 Yuki Kawara • 博士(情報科学) • 2024 Japan AWS Jr. Champions • 甲賀忍者検定初級 • スパルタンレース @kawara_y ©Fusic Co., Ltd. 1

3.

1. Data-Centric AI とは 2. Data-Centric AI を支える柱 3. Data-Centric AI を実現するために ©Fusic Co., Ltd. 2

4.

まずはじめに… • 「性能を向上させたい場合にモデルを改善すべきですか? データを改善すべきですか?」 • みんなデータを改善した方がいいとは感じている(が、注目されるのはモデルの方になりがち) ©Fusic Co., Ltd. 3

5.

What is Data-Centric AI? A Chat with Andrew on MLOps: From Model-centric to Data-centric AI で データの重要性について講演しました in 2021 Andrew Ng 先生 • モデルではなく、データを整備することでモデルの性能を上げようという考え • “Garbage in, garbage out” という言葉があるように、データが大事だという考えは以前からあったし、 データクレンジングをしてデータを綺麗にしないといけないという認識もあったはず • 偉いのは、Data-centric AI という言葉を作ってこの認識をきちんと体系化をしようとしたこと (だと思っている) ©Fusic Co., Ltd. 4

6.

Data-Centric の適用例:外観検査 • 外観検査において Data-Centric な考え方を適用した例 • アルゴリズムの変更ではほとんど精度が改善しなかったが、データを整備することで大きく改善した。 • (どういうアルゴリズムがベースになっているのかにもよるが、データも大事だという一例として) ©Fusic Co., Ltd. 5

7.

Data-Centric の適用例:LLM のファインチューニング • LIMA:Less Is More for Alignment (2023) • LLM のファインチューニングを厳選した 1000 件のデータで行うことで、同じモデルでより大規模な データを用いて学習されたモデル(Alpaca 65B)を上回る性能を発揮した • これも与えるデータを整備したことでモデルの性能を上げることが分かった例の一つ (ただし、データを 1000 件に整備するためにかなりの労力を割いているため、そこまで含めて どちらが良いかは議論すべきところ) ©Fusic Co., Ltd. 6

8.

Data-Centric AI という考えがなぜ必要か • データカスケード (2021) • データの不備が下流のプロセスに連鎖的に影響を及ぼしていくこと = データカスケード • データ収集、アノテーションがモデル開発と比較して軽視されがち(だが上図のように影響はでかい) • 研究結果と現場の適用で乖離が発生するのは、データ作業が軽視されがちで、かつ研究データは既に 綺麗にされて用意されていることが多いからなんだろうなーと個人的に感じている ©Fusic Co., Ltd. 7

9.

Data-Centric を支える四つの柱 • Quality:データの品質管理 • 欠損値、型不一致の検出 • 外れ値、重複データの除去 • Labeling:データのラベル整備 • 誤ったラベルの検出 • 不足しているラベルの付与 「データが大事」と一言で言っても、 考えるべき内容はたくさんある • Augmentation:データの合成と拡張 • 画像データに対する回転、MixUp のような手法の適用 • LLM によるテキスト、画像生成 • Monitoring:データの継続的なモニタリング • 分布ドリフトの検出 • データ品質の監視 ©Fusic Co., Ltd. 8

10.

Data-Centric AI 導入に向けて • 小さい簡単なことから取り組んでいく • データの品質管理 • 主要なテーブルのカラムに対して欠損値、型チェックの追加と可視化 • 右図は Soda Core でのチェック例 • ラベルの管理 • ラベル修正前の、修正後のデータセットで 同じモデルを学習して比較 • テストデータでの評価結果、AB テストでの オンライン評価 • データのモニタリング • データの分布ドリフトや、 スキーマの変更を検知してアラート • AWS Glue Data Quality、SageMaker Model Monitor などで検出可能 ©Fusic Co., Ltd. 9

11.

Data-Centric AI 導入に向けて • データを整理するタイミングはいつ? • データレイクに入れるとき • DWH に入れるとき • 実際に使用するとき • データを整備するためのツール • Soda:https://docs.soda.io/overview-main • Great Expectations:https://greatexpectations.io/ • dbt:https://www.getdbt.com/ • git などで変更するタイミングとデータを実際に取得するタイミングが異なるためテストがしづらい (ここら辺のベスプラについて懇親会などでお話しできれば…) ©Fusic Co., Ltd. 10

12.

Data-Centric AI まとめ Point.01 Data-Centric AI = 「モデルではなく、データをの品質向上を行うことでモデルの性能を上げよう」 Point.02 MLOps などと同じで、「計測、改善、バージョン管理」が大事 Point.03 いきなり全てを導入するのは難しいが、サービスは揃ってきているのでミニマムなところから 導入をしていって効果を見ていきましょう(相談にはいつでも乗ります!) ©Fusic Co., Ltd. 11

13.

実際の例として:RAG 編 • RAG(Retrieval Augmented Generation) … LLM でのテキスト生成の際に検索した情報を参照させる仕組み 瓦ってどなた? Fusic の社員 瓦について 教えて Fusic に おるらしいで 外部の データソース • 「企業内にしかないドキュメントについてチャットボットを作りたい」という相談がよく来る • ただし企業内のドキュメントのファイル形式は様々(PPT、Word、PDF、Markdown、etc.) もちろんファイル形式だけではなく中の書き方も人によって異なっていることが多い。 • ファイル、書き方がバラバラなので、当然検索しやすいファイルと検索しづらいファイルが出てくる (特にテーブルデータが大変…) ©Fusic Co., Ltd. 12

14.

とりあえず RAG を作ってみる • AWS の Bedrock で RAG 自体は簡単に作れるので、S3 にデータを入れて構築は出来る (参考:Amazon Bedrock Knowledge BasesとRAGASでRAGの評価をやってみた) • が、実際に検索結果を確認してみると、全然うまくいかないことも多い… • 検索に適したフォーマットではないことや、うまく LLM が扱えないようなデータであることが原因 検索しやすいよう、LLM が扱いやすいようにデータを整備することが大事 (これも Data-Centric AI の考えにつながるのでは? と個人的に感じている) ©Fusic Co., Ltd. 13

15.

RAG 構築におけるデータ改善の例 • 検索の単位を変える • チャンク戦略:固定チャンキング、意味的チャンキング、etc. • チャンキングサイズの変更:256 ~ 2048 の間で調整することが多い(ドキュメントによる) • そもそものデータ格納時に LLM が活用しやすい形式に変えておく(ex: Markdown) • Docling:https://github.com/docling-project/docling • モデルを活用してレイアウトの解析を行い、JSON や Markdown で出力 • 複雑なレイアウトはまだまだ改善の余地がある • MarkItDown:https://github.com/microsoft/markitdown • 名前のとおり、markdown にするためのツール • 実行が軽いが Docling ほどモデルを活用してはないため、複雑なドキュメントはまだ難しい • メタデータの付与:要約、カテゴリなどで検索をフィルタリング (Meta Knowledge for Retrieval Augmented Large Language Models を読んだ) • 特に最近の LLM は劇的に性能が向上することは少ないなと感じており、LLM の活用という点でも 「データに注目して性能を向上させる」というアプローチはかなり良いものだと思っているので、 もっとデータの扱いについて勉強していく必要があるなと考えている。 ©Fusic Co., Ltd. 14

16.

Thank You ご清聴いただきありがとうございました! We are Hiring! https://recruit.fusic.co.jp/ @kawara_y ©Fusic Co., Ltd. 15