Apacheとデータフォーマットの紹介

1.1K Views

April 15, 25

#[第11回大阪sas勉強会] #Apache #Parquet #Arrow #SAS #データフォーマット

スライド概要

[第11回大阪sas勉強会]

森岡裕[SASユーザー総会世話人]

@6484025

スライド一覧

SAS言語を中心として，解析業務担当者・プログラマなのコミュニティを活性化したいです

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

MMRM入門

[第8回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 46.6K

t検定の基礎(Studentのt検定とWelchのt検定)

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 32.5K

SASユーザー総会論文集 2024年

sasユーザー総会論文集 2024年

森岡裕[SASユーザー総会世話人] 26.5K

SASのコールルーチンは57個あるねん10分で全部説明するねん

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 25.1K

統計解析・確率論に関連するパラドックス

森岡裕[SASユーザー総会世話人] 24.2K

ゼロからでも始められるSASプログラミングのエッセンス

森岡裕[SASユーザー総会世話人] 18.8K

各ページのテキスト

Apache とデータフォーマットの紹介第11回大阪SAS勉強会中松建

目次はじめに Apacheソフトウェア財団 Apacheライセンス Hadoopと分散処理データフォーマット Parquetと公式のSASコード Arrow:構成 Arrow:特徴より詳しく知りたい人へ過去資料など

はじめに最近のデータフォーマットについて、もう少しよく知っておきたい後半に詳しく知りたい人向けの内容前半に背景的な説明などを追加似たようなプロジェクト、いろいろな機能が含まれていたりするデータインフラの専門ではないので、誤りなどがあればご指摘ください 1

Apacheソフトウェア財団 Apache Software Foundation OSSで有名: 多くのオープンソースソフトウェアを提供高い信頼性: 大規模な体制、OracleやNetflixなど企業からのプロジェクト寄贈も多い幅広い利用: Apache HTTP Serverは最近でも25%以上のシェア httpサーバーやjavaライブラリなどSAS製品にも含まれている 2

https://www.apache.org/

Apacheライセンス https://www.apache.org/licenses/LICENSE-2.0 MITライセンスなどより厳格商標、特許、帰属などが定義されていて、企業が使用しやすい -> SAS社のリポジトリでも使用コミットする際に帰属の確認のため、サインオフが必要なことがある 3

https://www.apache.org/licenses/LICENSE-2.0

Hadoopと分散処理 Hadoop：大規模データを蓄積・分析するための分散処理フレームワーク分散処理(mapreduce) ファイルシステム(HDFS) SASでも proc hadoopがある最近では分散処理 → Spark HDFS → Amazon S3などデータ基盤製品(Databricks、Snowflake) 強化されたローカル処理 + 高性能なデータフォーマット 4

データフォーマット CSV・Jsonなどの非効率性から開発ファイル Avro(2010) メタデータが扱いやすい・行指向 Parquet(2013) 比較的多くのシステムでサポート ORC(2016) 書き込みに強いメモリ Arrow(2020) ()内はv1.0リリース年 5

Parquetと公式のSASコード SAS Viya 2021.2.6 で parquet, ORC がlibnameエンジンでサポート https://communities.sas.com/t5/SAS-Communities-Library/ParquetSupport-in-SAS-Compute-Server/ta-p/811733#U811733 saspy v5.100.2 で parquet の出力がサポート(ユーザーによるコミット) https://github.com/sassoftware/saspy/releases/tag/v5.100.2 内部ではpyarrowを使用、オプションの依存関係に追加 sd2pq("sh_class.parquet", table="class", libref="sashelp") 6

Arrow:構成標準化されたメモリ仕様言語や環境を問わない、中間データフレームのようなもの効率的なデータ交換 - 変換時にコピーが不要な場合もファイル形式メモリを出力したような形式 IPC(Feather V2) 幅広い状況に対応したライブラリ多数の言語 - C++(C Glib, MATLAB, Python, R, Ruby), C#, Go, Java, JavaScript, Julia, Rust, Swift 多数の形式 - CSV, Json, Parquet, ORC ファイルシステム - HDFS, Amazon S3 7

10.

Arrow:特徴高速な処理 Sparkの処理時間が 1/30 polars, cudfなどのライブラリで採用～100GB程度までなら分散しなくても処理可能 Pandasの問題点の改善 Noneのサポート、型が変わってしまう、データ交換がしづらいなど pandas の作者を含むチームが開発 Apache Arrowと「pandasの10項目の課題」- 日本語訳ページ pandas2.0 - 処理エンジンとして利用可能に pandas3.0 - 依存関係に追加予定文字型でデフォルトに 8

https://qiita.com/tamagawa-ryuji/items/3d8fc52406706ae0c144

11.

より詳しく知りたい方へ

12.

Arrow と Parquetの中身 Arrow/Parquet in SAS Computeよりも詳しく Arrow仕様 Parquet仕様 SASによる変換の実装例先におすすめの資料文字コードの進化小さく始める2進数以降の表記は基本的にlittle endian 9

13.

Arrow 仕様 Arrow: メモリ上 - 余分な処理を行わない IPC: google flatbufferによりメモリの情報をファイル化おすすめ解説サイト vtable(データ定義) アドレス(例) 値概要 0x0044 10 00 vtable length = 16 bytes 0x0046 14 00 table length = 20 bytes 0x0048 08 00 field id 0: offset to string 0x004A 06 00 field id 1: nullable (bool) 0x004C 07 00 field id 2: type id (byte) --- --- --- 10

https://kaigai.hatenablog.com/entry/2019/01/14/144040

14.

table(vtableに対応するデータ) アドレス(例) 値概要 0x0054 10 00 00 00 32bit negative offset to vtable (0x0054 - 0x0010 = 0x0044) 0x0058 00 00 (padding) 0x005A 01 field-id 1: nullable - true 0x005B 03 field-id 2: type-id - float 0x005C 10 00 00 00 field-id 0: offset to string(column name) - 16byte --- --- --- 11

15.

文字型の列の例 value ABC (null) DE FG 格納される情報値(bit・デコード) 概要 0D [00001101] validity bitmap 右から開始, 1ならnot null 0,3,3,5 オフセット ABCDEFG 値 12

16.

Parquet 仕様 Parquet: 保存用 - なるべく容量を削減 Thriftによりスキーマを定義 SchemaElement(列の定義)のフィールドID 1: type, 2: type_length;, 3: FieldRepetitionType, 4: name; idΔ, 型項目値 15 type, int32 0A :double 25 FieldRepetitionType, int32 02 : OPTIONAL 18 name, byte 省略 13

https://github.com/apache/thrift

17.

Varintエンコーディング可変長により小さい値で容量を節約継続bit + 7bit 継続bitが1なら次の7bitとあわせて読む数値エンコード bit 15 0F [0 0001111] 150 9601 [1 0010110] [0 0000001] 加えてzigzagエンコーディングで負数に対応 RLE/Bit-Packing Hybridエンコーディング definition level: フィールドの深さ(欠損を表すのにも使われる) 10 01 : [0001000 0] 末尾0-RLE: 非欠損( 01 )が8レコード続く 03 0D : [0000001 1] 末尾1-bitpacking: 以下で記載 14

18.

文字型の列の例 value ABC (null) DE FG 格納される情報値(bit・デコード) 概要 03 [0000001 1] 0D [00001101] definition level: 1バイトのビットマップ 3 ABC 2 DE 2 FG 文字数・値 15

19.

SASによる変換の実装例仕様に沿えばBaseSASでも変換が一応可能 https://github.com/k-nkmt/sas_study_group/tree/main/Osaka_11th SAS → Parquet, Arrow IPCに変換文字型と数値型(Double)の変数名と値のみを対象ファイルサイズより単純化を優先実行速度より読みやすさを優先、可能な箇所はproc streamを使用固定値(ファイル仕様、仕様からのバイト数)の説明は多すぎるのでなし Readmeを確認の上で利用をお願いします 16

https://github.com/k-nkmt/sas_study_group/tree/main/Osaka_11th

20.

コード実行例 example.ipynb 17

https://github.com/k-nkmt/sas_study_group/blob/main/Osaka_11th/example.ipynb

21.

過去資料など CSSによるODS RTFのスタイル設定第10回大阪SAS勉強会 SASでUUID(バージョン3,5)を生成する処理 Base SASだけで仕様からUUIDバージョン3, 5を生成 langchain, langgraphでのSAS利用例 2024年 SASユーザー総会 Intro to SAS Notes University of Florida College of Public Health and Health Professions が公開しているテキストの翻訳 Githubアカウント: https://github.com/k-nkmt e-mail: [email protected] 18