20250801_データエンジニアリング勉強会

581 Views

August 08, 25

#Data-centric AI #AI #データ品質 #LLM #RAG

スライド概要

Yuki Kawara

@kawara-y

スライド一覧

株式会社スタディストで機械学習エンジニアをしています。自然言語処理に興味があります。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

20250324_RAGの基礎から実践運用まで：AWS BedrockとLangfuseで実現する構築・監視・評価（後編）

Yuki Kawara 20.9K

LM Studio + VSCode でローカル LLM にコードを書かせてみる

Yuki Kawara 13.8K

20250312_LLM-Meetup-Fukuoka

Yuki Kawara 2.2K

20250313_AsiaQuest×Fusic勉強会

Yuki Kawara 844

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.6M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

各ページのテキスト

CONFIDENTIAL Data-centric AI という考え方福岡データエンジニアリング勉強会 2025.08.01 瓦祐希 @kawara_y ©Fusic Co., Ltd. 0

はじめに自己紹介株式会社 Fusic 事業本部先進事業部門瓦祐希 Yuki Kawara • 博士（情報科学） • 2024 Japan AWS Jr. Champions • 甲賀忍者検定初級 • スパルタンレース @kawara_y ©Fusic Co., Ltd. 1

1. Data-Centric AI とは 2. Data-Centric AI を支える柱 3. Data-Centric AI を実現するために ©Fusic Co., Ltd. 2

まずはじめに… • 「性能を向上させたい場合にモデルを改善すべきですか？データを改善すべきですか？」 • みんなデータを改善した方がいいとは感じている（が、注目されるのはモデルの方になりがち） ©Fusic Co., Ltd. 3

What is Data-Centric AI? A Chat with Andrew on MLOps: From Model-centric to Data-centric AI でデータの重要性について講演しました in 2021 Andrew Ng 先生 • モデルではなく、データを整備することでモデルの性能を上げようという考え • “Garbage in, garbage out” という言葉があるように、データが大事だという考えは以前からあったし、データクレンジングをしてデータを綺麗にしないといけないという認識もあったはず • 偉いのは、Data-centric AI という言葉を作ってこの認識をきちんと体系化をしようとしたこと（だと思っている） ©Fusic Co., Ltd. 4

https://www.youtube.com/watch?v=06-AZXmwHjo

Data-Centric の適用例：外観検査 • 外観検査において Data-Centric な考え方を適用した例 • アルゴリズムの変更ではほとんど精度が改善しなかったが、データを整備することで大きく改善した。 • （どういうアルゴリズムがベースになっているのかにもよるが、データも大事だという一例として） ©Fusic Co., Ltd. 5

Data-Centric の適用例：LLM のファインチューニング • LIMA：Less Is More for Alignment (2023) • LLM のファインチューニングを厳選した 1000 件のデータで行うことで、同じモデルでより大規模なデータを用いて学習されたモデル（Alpaca 65B）を上回る性能を発揮した • これも与えるデータを整備したことでモデルの性能を上げることが分かった例の一つ（ただし、データを 1000 件に整備するためにかなりの労力を割いているため、そこまで含めてどちらが良いかは議論すべきところ） ©Fusic Co., Ltd. 6

https://arxiv.org/abs/2305.11206

Data-Centric AI という考えがなぜ必要か • データカスケード (2021) • データの不備が下流のプロセスに連鎖的に影響を及ぼしていくこと = データカスケード • データ収集、アノテーションがモデル開発と比較して軽視されがち（だが上図のように影響はでかい） • 研究結果と現場の適用で乖離が発生するのは、データ作業が軽視されがちで、かつ研究データは既に綺麗にされて用意されていることが多いからなんだろうなーと個人的に感じている ©Fusic Co., Ltd. 7

https://research.google/pubs/everyone-wants-to-do-the-model-work-not-the-data-work-data-cascades-in-high-stakes-ai/

Data-Centric を支える四つの柱 • Quality：データの品質管理 • 欠損値、型不一致の検出 • 外れ値、重複データの除去 • Labeling：データのラベル整備 • 誤ったラベルの検出 • 不足しているラベルの付与「データが大事」と一言で言っても、考えるべき内容はたくさんある • Augmentation：データの合成と拡張 • 画像データに対する回転、MixUp のような手法の適用 • LLM によるテキスト、画像生成 • Monitoring：データの継続的なモニタリング • 分布ドリフトの検出 • データ品質の監視 ©Fusic Co., Ltd. 8

10.

Data-Centric AI 導入に向けて • 小さい簡単なことから取り組んでいく • データの品質管理 • 主要なテーブルのカラムに対して欠損値、型チェックの追加と可視化 • 右図は Soda Core でのチェック例 • ラベルの管理 • ラベル修正前の、修正後のデータセットで同じモデルを学習して比較 • テストデータでの評価結果、AB テストでのオンライン評価 • データのモニタリング • データの分布ドリフトや、スキーマの変更を検知してアラート • AWS Glue Data Quality、SageMaker Model Monitor などで検出可能 ©Fusic Co., Ltd. 9

11.

Data-Centric AI 導入に向けて • データを整理するタイミングはいつ？ • データレイクに入れるとき • DWH に入れるとき • 実際に使用するとき • データを整備するためのツール • Soda：https://docs.soda.io/overview-main • Great Expectations：https://greatexpectations.io/ • dbt：https://www.getdbt.com/ • git などで変更するタイミングとデータを実際に取得するタイミングが異なるためテストがしづらい（ここら辺のベスプラについて懇親会などでお話しできれば…） ©Fusic Co., Ltd. 10

12.

Data-Centric AI まとめ Point.01 Data-Centric AI = 「モデルではなく、データをの品質向上を行うことでモデルの性能を上げよう」 Point.02 MLOps などと同じで、「計測、改善、バージョン管理」が大事 Point.03 いきなり全てを導入するのは難しいが、サービスは揃ってきているのでミニマムなところから導入をしていって効果を見ていきましょう（相談にはいつでも乗ります！） ©Fusic Co., Ltd. 11

13.

実際の例として：RAG 編 • RAG（Retrieval Augmented Generation） … LLM でのテキスト生成の際に検索した情報を参照させる仕組み瓦ってどなた？ Fusic の社員瓦について教えて Fusic におるらしいで外部のデータソース • 「企業内にしかないドキュメントについてチャットボットを作りたい」という相談がよく来る • ただし企業内のドキュメントのファイル形式は様々（PPT、Word、PDF、Markdown、etc.）もちろんファイル形式だけではなく中の書き方も人によって異なっていることが多い。 • ファイル、書き方がバラバラなので、当然検索しやすいファイルと検索しづらいファイルが出てくる（特にテーブルデータが大変…） ©Fusic Co., Ltd. 12

14.

とりあえず RAG を作ってみる • AWS の Bedrock で RAG 自体は簡単に作れるので、S3 にデータを入れて構築は出来る（参考：Amazon Bedrock Knowledge BasesとRAGASでRAGの評価をやってみた） • が、実際に検索結果を確認してみると、全然うまくいかないことも多い… • 検索に適したフォーマットではないことや、うまく LLM が扱えないようなデータであることが原因検索しやすいよう、LLM が扱いやすいようにデータを整備することが大事（これも Data-Centric AI の考えにつながるのでは？と個人的に感じている） ©Fusic Co., Ltd. 13

https://zenn.dev/fusic/articles/b25c7c84d7dc33

15.

RAG 構築におけるデータ改善の例 • 検索の単位を変える • チャンク戦略：固定チャンキング、意味的チャンキング、etc. • チャンキングサイズの変更：256 ~ 2048 の間で調整することが多い（ドキュメントによる） • そもそものデータ格納時に LLM が活用しやすい形式に変えておく（ex: Markdown） • Docling：https://github.com/docling-project/docling • モデルを活用してレイアウトの解析を行い、JSON や Markdown で出力 • 複雑なレイアウトはまだまだ改善の余地がある • MarkItDown：https://github.com/microsoft/markitdown • 名前のとおり、markdown にするためのツール • 実行が軽いが Docling ほどモデルを活用してはないため、複雑なドキュメントはまだ難しい • メタデータの付与：要約、カテゴリなどで検索をフィルタリング（Meta Knowledge for Retrieval Augmented Large Language Models を読んだ） • 特に最近の LLM は劇的に性能が向上することは少ないなと感じており、LLM の活用という点でも「データに注目して性能を向上させる」というアプローチはかなり良いものだと思っているので、もっとデータの扱いについて勉強していく必要があるなと考えている。 ©Fusic Co., Ltd. 14

16.

https://recruit.fusic.co.jp/