111 Views
December 06, 24
スライド概要
HeatWaveは超並列でデータ処理が可能なハイブリッド列指向のインメモリ・データストアです。MySQLの分析系クエリを高速化するクエリ・アクセラレータとして登場後、機械学習やLLMを追加することで、データの現在、過去、未来を分析と予測し、新しいアプリケーションの開発のための土台になっています。
HeatWaveを利用して「機械学習と生成AIを組み合わせたアプリケーション」を簡単に構築する方法やHeatWaveのイノベーションをご紹介しています。
日本オラクルにてMySQLをベースとしたHeatWaveの製品を担当するチームです。
⽣成AIや機械学習を活⽤した アプリケーションの開発を効率化するHeatWave 梶⼭ 隆輔 / KAJIYAMA, Ryusuke ⽇本オラクル株式会社 Technology Business Development Director Open Source Data Platforms
2 Transactional Analytics Lakehouse AutoML GenAI クラウド版MySQL Enterprise Edition ⼤規模データ分析を ⼤幅に⾼速化 オブジェクト・ ストレージとの統合 機械学習の パイプラインを⾃動化 専⾨知識なしで ⽣成AIの活⽤ Copyright © 2024, Oracle and/or its affiliates
顧客事例︓NVIDIA ミッションクリティカルなエンジニアリングのアプリケーションが稼働するMySQLをクラウド化 • MySQLを利⽤するエンジニアリングの アプリケーションは世界各地の複数拠点に分散配置 • チップの設計や製造に関連するシステムのため ビジネスへの影響が⼤きく⾼い可⽤性が要求される • ⼀部のアプリケーションは既存のデータセンターで 稼働するためFastConnectで各地のOCIと接続 HeatWave MySQLの本番環境 クラウドへの移⾏後のビジネス⾯での効果 全世界での MySQLの展開 • 新しいデータベース基盤を⽶国から NVIDIAの世界各地の拠点に展開 アプリとDBの コロケーション • アプリケーションとデータベースの間の 通信遅延を削減 GPUやHPCへの OCI利⽤拡⼤ • 当初想定のクラウド活⽤の領域から より多様なワークロードに展開 コスト最適化 • 適切な規模のアーキテクチャ、⼀連のDevOpsの ⾃動化、 データの保護とバックアップのポリシー HeatWave AutoMLを使⽤し、 MySQLサーバーの稼働ログから課題を早期発⾒ →拡張を必要とするリソースの発⾒から プロビジョニングまでの流れを迅速化 3 Copyright © 2024, Oracle and/or its affiliates
クラウド版MySQLサーバーとしてのHeatWave MySQL 業界“唯⼀” のEnterprise版によるフルマネージド型のMySQLサービス • シンプルかつ安価な価格体系 • MySQLのスレッドプールによる⾼い性能拡張性 • MySQLの開発元が提供するサポートサービス • マルチAZ/FDに分散配置した⾼可⽤性 • リードレプリカによる参照処理性能向上 HeatWave MySQLとAmazon Auroraの性能拡張性⽐較 スループット (txn/s) 6000 4000 10倍以上 ⾼速 2000 0 4 ー HeatWave MySQL ー Amazon Aurora 1 4 16 64 128 256 512 1024 2048 4096 同時実⾏トランザクション Copyright © 2023, Oracle and/or its affiliates コスト⽐較 200GBのストレージ利⽤時 • HeatWave MySQL:約1,200ドル/⽉, 4ノード構成 • Amazon Aurora: 約2,200ドル/⽉, 2ノード構成 ※ 8 vCPU, メモリ 64GB, 200GBストレージ ⾼可⽤性構成および参照処理⽤ノードあり +α • AutoPilotによるインデックス・アドバイザや スレッドプール・アドバイザによる性能向上 • クエリ・アクセラレータのHeatWaveエンジンの 追加で⼤幅な分析処理性能の向上可能 • DB内データに対する機械学習処理も HeatWaveエンジン追加で対応可能 オラクルのMySQL開発チームが提供する 安価かつ⾼性能なクラウド版MySQL
顧客事例︓NTTソルマーレ 様 HeatWaveで国内最⼤級の電⼦書籍配信サービス「コミックシーモア」でのデータ利活⽤を強化 利⽤サービス・製品 • HeatWave お客様のコメント 「『HeatWave』の導⼊によりサービス基盤とデータ分析 基盤のリアルタイムなデータ同期が実現できました。さらにこれまで 通常のMySQLで1.5時間程度かかっていたバッチ処理が2秒程度 で完了するなど性能の良さも実感しています。 処理を待つ思考停 ⽌の時間が短縮化され、業務効率化にもつながっています。 システム構成イメージ MySQLに対応したツールは『HeatWave』でもそのまま 活⽤でき、ユーザーの利便性を維持しながら様々な分析データを 更なるサービス向上に役⽴てることができています。 『HeatWave』を利⽤した新たなデータ分析基盤を活⽤し、 今後も更に幅広いお客様に楽しんでいただける書籍配信サービス を提供していきます。」 レプリケーション リアルタイム同期 コミックシーモアの サービス基盤 5 Copyright © 2024, Oracle and/or its affiliates HeatWaveによる データ分析基盤 エヌ・ティ・ティ・ソルマーレ株式会社 電⼦書籍事業部 サービス開発グループ ⽊下 ⽒
HeatWaveクラスターのアーキテクチャ MySQLのInnoDBのテーブルに追加されたデータは分析クエリで即座に利⽤可能 • アプリケーション側からはMySQLに対してSQLを実⾏するのと同じ Insert/ Update 分析 クエリ 結果 セット 並列化 MySQL Database Service HeatWave Node MySQL コンパイラ & オプティマイザー OLTPクエリ 最適化 MySQL クエリ実⾏ 分析ジョブスケジューラ 分析クエリ 最適化 InnoDB ストレージエンジン 結果 6 Copyright © 2024, Oracle and/or its affiliates クエリ プッシュダウン 分析クエリ実⾏ インメモリデータ管理 リアルタイム 更新 リロード Object Storage
HeatWaveとAmazon AuroraおよびRDS MySQLの⽐較 複雑な分析の処理性能 Amazon Aurora Amazon RDS 分析処理性能: 4TB TPC-H 分析処理性能: 4TB TPC-H 500000 1400000 450000 1200000 時間(秒) 時間(秒) 400000 350000 300000 1,400倍 遅い 250000 200000 150000 1000000 2,200X 3,500 ひどい倍 遅い 800000 600000 400000 100000 200000 50000 0 0 HeatWave MySQL (4 nodes) Aurora (db.r5.24xlarge) 2,200倍のコスト・パフォーマンス HeatWave MySQL (4 nodes) 4,600倍のコスト・パフォーマンス https://www.oracle.com/heatwave/performance-benchmarks/ *ベンチマーク結果TPC-Hベンチマークから導出されますが、TPC-H仕様に準拠していないため、公開されているTPC-Hベンチマーク結果と同等の結果はありません。 7 Copyright © 2024, Oracle and/or its affiliates Amazon RDS for MySQL (db.r5.24xlarge)
HeatWave Lakehouse オブジェクト・ストレージ内の様々な形式のデータを500TBまでクエリ実⾏ 8 Copyright © 2024, Oracle and/or its affiliates • 標準のSQL構⽂でMySQLデータベース内、 オブジェクト・ストレージ内、または その両⽅のデータに対するクエリ処理 • データは最⼤500TBまで、HeatWave クラスターは最⼤512ノードまで拡張可能 • オブジェクト・ストレージ内データへのクエリ処理は データベース内データへの処理と同様に⾼速 (業界初!) • オブジェクト・ストレージ内データはHeatWave クラスターにロードされ、MySQLデータベースへの コピーは⾏われない
HeatWave Lakehouseの圧倒的性能とコストパフォーマンス クエリ処理性能⽐較(500TB TPC-H) 総クエリ実⾏時間 年間コスト Hour 25 1.3 倍 ⾼コスト $2,500,000 35 倍 低速 20 21.1 $2,300,160 $2,000,000 0.9 倍 $1,742,036 15 $1,500,000 18 倍 低速 10 10.8 15 倍 低速 $1,544,268 0.8 倍 $1,446,900 $1,000,000 9.1 5 $500,000 0.6 0 $0 HeatWave Lakehouse Snowflake on AWS Amazon Redshift Google BigQuery HeatWave Lakehouse Snowflake on AWS Amazon Redshift https://www.oracle.com/mysql/heatwave/performance より作成 HeatWave Lakehouse:512 nodes, Annual Flex, Snowflake onAWS :4X-Large cluster,Standard Edition, Amazon Redshift:20-ra3,16xlarge, 1年間先払い, Google BigQuery:6400 slots, 1年間 リザーブド 9 Copyright © 2024, Oracle and/or its affiliates Google BigQuery
MySQLの機械学習プラットフォーム HeatWave AutoML 機械学習をより⼿軽に安全に 活⽤できるプラットフォーム 実業務に活⽤できる 説明可能性をサポート ⾼性能・⾼精度なモデル⽣成を 誰でも実⾏できるインタフェース ü 追加料⾦不要ですぐに利⽤可能 ü Oracle AutoMLにより、 機械学習⼯程を⾃動化 ü HeatWave上で完結でき、外部 にデータを出さずに実⾏可能 ü ブラックボックス化しやすい推論の 説明を明確化 ü 特徴量が予測に与える影響を ⾃動で判断 ü 法令遵守、公平性などの観点から モデルの挙動、有効性を⾒極め ü 各⼯程に対応した関数を実⾏ するだけで予測まで実⾏可能 ü パラメータ、アルゴリズムの選択など 専⾨的な知識は不要 ü トレーニングの⾼速化により、 迅速なモデル⽣成を⽀援 展開 予測 クエリ HeatWave ML ⽣成モデル 10 Copyright © 2024, Oracle and/or its affiliates 説明
HeatWave AutoMLでの機械学習処理の流れ シンプルなSQL関数と学習処理の⾃動化 MySQL呼び出し 学習データ展開 ML_TRAIN モデルのロード ML_MODEL_LOAD モデル作成 HeatWave Cluster 保存 モデルカタログ ML_PREDICT_* 推論 学習データやテストデータはMySQLサーバー上のテーブルとして管理 ML_EXPLAIN_* 説明(特徴量の抽出) アプリケーションからはHeatWave MLが⽤意したSQL関数群を実⾏ https://dev.mysql.com/doc/heatwave/en/heatwave-machine-learning.html ML_SCORE 11 Copyright © 2024, Oracle and/or its affiliates モデルの検証
AWS&AzureユーザーもHeatWave を使⽤可能 マルチクラウド利⽤にも対応 OCI On-Premises Azure AWS Oracle Cloud Infrastructure User Tenancy OCI AWS Availability Domain Customer Data Center VCN Subnet A Transaction Processing Analytics Identity VPN Dynamic Routing Gateway Customer AWS Tenancy MySQL HeatWave Bastian Server Virtual Machine Autopilot Machine Learning Data Console Control Plane Data Plane Subnet B Billing 8.0.31 MySQL Database Service Heatwave • OCIのハイパフォーマンスインフラに 最適化されたMySQL • セキュリティ、ネットワークなどOCIに 統合されたサービス • OCI全リージョンで提供 12 HeatWave Copyright © 2024, Oracle and/or its affiliates • OCIのリソース上にデプロイ • Azure-OCI間のネットワーク 設定が不要 • OCIとAzure間のデータ転送費 およびポート費⽤が無料 • AWS上のリソースを 利⽤してデプロイ • エグレス・コストや コンプライアンス上の懸念を解決 • インタラクティブなSQL実⾏や 機械学習など独⾃のコンソール Applications
HeatWave GenAI ⽣成AI & Vector Store 13 Copyright © 2024, Oracle and/or its affiliates
HeatWave GenAIは新しいユースケースおよびアプリケーションを実現可能に + ⾃然⾔語での会話 • ⾃然⾔語を使⽤した ⾮構造化ドキュメントによる 会話 • HeatWaveチャットは フォローアップ質問の コンテキストを保持 14 Copyright © 2024, Oracle and/or its affiliates コンテンツの生成と要約 • 企業や組織内のドキュメント からインサイト/レポートを⽣成 • PDF形式のマニュアルから ブログを⽣成 • コンテンツの要約 RAGおよび 類似性検索 • 組織内のデータ(RAG / (Retrieval Augmented Generation)を使⽤し、 より正確で状況に即した 回答を提供 • ⾮構造化データに対する 類似性検索の実⾏ 統合された⽣成AIと 機械学習の相乗効果 • 機械学習と⽣成AIを 組み合わせ、時間を節約し、 より多くの価値を顧客に提供 • AutoMLでフィルタされた データで⽣成AIを使⽤する ことで、コストを削減し、 より正確な結果を迅速に 取得可能
HeatWave GenAIにおける各コンポーネントの役割 SQLインターフェース ⾼速処理基盤 RAG基盤 機械学習エンジン LLMとの連携 VECTORデータ型 最⼤512ノードまでの スケール・アウト構成 ⾮構造データの活⽤ 機械学習と⽣成AIを 組み合わせたアプリの 開発を効率化 HeatWaveに 組み込まれた「イン・ データベースLLM」 ベクトル関数 JavaScript ストアド・プロシージャ 15 インメモリ・データストア Copyright © 2024, Oracle and/or its affiliates ⼤量データ対応 OCIの⽣成AIサービスと の連携も可能
HeatWaveによりセキュリティが強固に その他のサービス HeatWave レイクハウス 機械学習 LLM ユーザ・ データ アプリ 分析 OLTP HeatWave ベクター ストア • データが広範囲にわたって移動 • データは1つのデータベース・システムで管理される • 暗号化鍵、ユーザー・アクセス、認証スキームなど、 異なるセキュリティ特性を持つ複数のサービス • 統⼀的なアクセス制御と単⼀の構成 • すべての通信が認証され暗号化 • 16 ユーザーが複数のサービスを構成し、接続する必要がある Copyright © 2024, Oracle and/or its affiliates
ベクトル(VECTOR)データ型と関数 MySQL 9.0 Innovation Release ベクトルの類似度を演算するHeatWaveのみで利⽤可能なDISTANCE関数 • 2つのベクトルを引数とする • 第3引数には距離の演算⽅法を指定 COSINE, DOT, EUCLIDEAN mysql> SELECT DISTANCE(STRING_TO_VECTOR("[1.01231, 2.0123123, 3.0123123, 4.01231231]"), STRING_TO_VECTOR("[1, 2, 3, 4]"), "COSINE"); +-----------------------------------------------------------------------------------------------------------------------+ | DISTANCE(STRING_TO_VECTOR("[1.01231, 2.0123123, 3.0123123, 4.01231231]"), STRING_TO_VECTOR("[1, 2, 3, 4]"), "COSINE") | +-----------------------------------------------------------------------------------------------------------------------+ | 0.0000016689300537109375 | +-----------------------------------------------------------------------------------------------------------------------+ ベクトルと⽂字列の相互の変換関数 mysql> SELECT STRING_TO_VECTOR("[1.05, -17.8, 32]"); +---------------------------------------+ | STRING_TO_VECTOR("[1.05, -17.8, 32]") | +---------------------------------------+ | 0x6666863F66668EC100000042 | +---------------------------------------+ 1 row in set (0.00 sec) mysql> SELECT VECTOR_TO_STRING(0x00000040000040400000A0400000E040); +------------------------------------------------------+ | VECTOR_TO_STRING(0x00000040000040400000A0400000E040) | +------------------------------------------------------+ | [2.00000e+00,3.00000e+00,5.00000e+00,7.00000e+00] | +------------------------------------------------------+ 1 row in set (0.00 sec) 17 Copyright © 2024, Oracle and/or its affiliates
JavaScriptストアドプログラムのサポート
MySQL 9.0 Innovation Release
SQLでのストアドプログラムと同様に作成可能
mysql> CREATE FUNCTION gcd(a INT, b INT)
-> RETURNS INT NO SQL LANGUAGE JAVASCRIPT AS
-> $mle$
$>
let x = Math.abs(a)
$>
let y = Math.abs(b)
$>
while(y) {
$>
var t = y
$>
y = x % y
$>
x = t
$>
}
$>
return x
$> $mle$
-> ;
Query OK, 0 rows affected (0.01 sec)
利⽤もSQLでのストアドプログラムと同様
mysql> SELECT gcd(75, 220), gcd(75, 225);
+--------------+--------------+
| gcd(75, 220) | gcd(75, 225) |
+--------------+--------------+
|
5 |
75 |
+--------------+--------------+
1 row in set (0.00 sec)
18
Copyright © 2024, Oracle and/or its affiliates
• ⾔語仕様はECMAScript 2023 Specificationに
準拠し、標準のライブラリ・オブジェクトをサポート
Object, Function, Math, Date, String
• ストアドプログラムの引数や戻り値として
MySQLのデータ型をサポート ※VECTOR型を除く
• SQL⽂の実⾏結果をJavaScript内で利⽤可能
27.3.6 JavaScript SQL API
• 主な制限事項
• Globalオブジェクトはサポートされているが、
スコープは各ストアドプログラム内に限定される
• ファイルやネットワークへのアクセスは不可
• サードパーティーのライブラリのインポートは不可
• シングルスレッドでの処理
• 関数の再帰呼び出しは1,000回まで
イン・データベースLLMはHeatWaveノードに分散して実⾏ Execution time (s) 10000 9358 8000 • ⽣成AIのクエリは複数のノードに 分散して並列実⾏ 6000 • 他のクエリに影響を与えずに 各ノードでクエリを実⾏ 4947 • 32ノードで22倍の性能向上 4000 2433 2000 1276 695 0 1 2 4 8 #HeatWave nodes 19 Copyright © 2024, Oracle and/or its affiliates 16 423 32
イン・データベースLLMとデータベース内埋込みの⽣成 OCI⽣成AIサービスとも統合 アプリケーション オブジェクト・ストア 埋込み⽣成 ⾃然⾔語の質問 ベクトル・ストア HeatWave チャット HeatWave AutoML 拡張 プロンプト ⾃然⾔語応答 イン・データ ベースLLM HeatWave 20 Copyright © 2024, Oracle and/or its affiliates トレーニング済 モデル
ユースケース1: パーソナライズされた推奨事項 オブジェクト・ストレージ 「今⽇のおすすめの ベジタリアン向け料理はなに︖」 メニュー 質問 ユーザー 解答 21 「おすすめの料理は次の通りです。 ⾖腐カレー、⾖腐ビリヤニ、 ひよこ⾖のカレー」 HeatWave ベクトル・ストア ユーザーが質問を⼊⼒ HeatWave AutoMLのレコメンデーション・システムが ユーザーの注⽂履歴を元にレストランを提案 LLMがパーソナライズされたおすすめ料理を ⾃然⾔語で回答 ベクトル・ストアに格納されている提案されたレストランの メニューからおすすめの料理を選択 Copyright © 2024, Oracle and/or its affiliates メニュー メニュー
ユースケース2: 予測メンテナンス 質問 「このログの主な問題点はなに︖ 2つの⽂章にまとめて」 本番環境 オブジェクト・ストレージ ログ 問題と対策のナレッジベースのログ 本番環境のログがリアルタイムで HeatWave AutoMLの処理対象となる HeatWaveベクトルストア経由でLLMが ナレッジベースのデータにアクセスできる ユーザー 解答 「このログにおける主な問題は 特定のプロセス(ID 8145)による メモリ使⽤量があらかじめ定義された 閾値を継続的に超過していることです」 ユーザーが質問を⼊⼒ ⾃然⾔語での回答を得る 22 Copyright © 2024, Oracle and/or its affiliates HeatWave ベクトル・ストア HeatWave AutoMLがログから異常を検出しフィルタリング ベクトルストアがログの異常に関するコンテキストを追加し、 LLMに対するプロンプトに情報を追加する LLMが情報が追加されたプロンプト(Augmented Prompt)を元にレポートを⽣成
MySQL HeatWaveの⽣成AIの活⽤例: ログの集約と異常検出 AutoMLと⽣成AIのシナジー Report Generation: Summarization of anomalous logs Ask the question (‘What is the main problem in the following collection of logs. Provide a two-sentence summary.’) “The main problem in this collection of logs is that the memory usage of a particular process (with ID 8145) is consistently exceeding the defined memory threshold. This issue is repeatedly highlighted in the logs, and SIGTERM signals are sent to the main thread to terminate the process when it exceeds the memory threshold. Would you like me to help you with anything else regarding this collection of logs?" 23 Copyright © 2024, Oracle and/or its affiliates
HeatWave GenAIデモ ⽇本語データのLLM別の要約の差およびデータ追加による要約の変化 ECサイトの商品レビューの要約と翻訳を模したデモ 1. ⽇本語でのポジティブなレビューだけが50件⼊っているテーブルを作成 2. OCI Generative AIサービスのcohere.command-r-plusとcohere.command-r-16kおよび In-database LLMのllama3-8b-instruct-v1の3種類を使ってそれぞれ要約を作成 → ストアド・プロシージャの中でHeatWave GenAIのJavaScript APIのml.generate()にプロンプトやモデル名を渡している 3. ネガティブなレビューを30件強追加 4. 再度cohere.command-r-16kで要約を⽣成するとネガティブな内容も含まれる ポジティブなレビューのみの場合の要約 レッドウッドのTシャツは、着⼼地の良さとデザインの両⽅で⾼ 評価︕ 限定⾊のグラファイトはおしゃれで、ジーンズとの相性 も抜群です。その上、洗濯にも強く、型崩れせず⻑持ちする と⾔われています。レッドウッドのこだわりが詰まった、おすすめ のアイテムです︕ 24 Copyright © 2024, Oracle and/or its affiliates ネガティブなレビューを追加した場合の要約 レッドウッドのTシャツは、着⼼地の良さと洗練されたデザインが 魅⼒的です。中でも限定⾊のグラファイトは、スタイリッシュでオ シャレな印象を与えます。しかし、価格が⾼めなのが難点で、 コストパフォーマンスを重視する声も。洗濯にも強く、型崩れせ ず⻑持ちする点が評価される⼀⽅、その分乾きにくいという意 ⾒も。サイズ感やロゴのデザインなど、細部の好みが分かれるこ とも。レッドウッドのこだわりが光るTシャツですが、⼿頃な価格な らもっと⼈気が出そうです。
要約タスクの制約と回避策 • 9.1.0時点では要約 summarization タスクはHeatWaveのイン・データベースLLMのみサポート mistral-7b-instruct-v1 は⽇本語⾮対応、llama3-8b-instruct-v1 も正式には⽇本語⾮対応 → ⽂書⽣成 generation タスクとしてプロンプトにて「要約を⽣成」するように指⽰することで cohere.command-r-plusなどのOCI Generative AI ServiceのLLMでの要約が可能 • プロンプトの追加無しでも summarizationタスクでOCI GenAI Serviceを利⽤可能とする⽅向 27 Copyright © 2024, Oracle and/or its affiliates
イン・データベースLLMとデータベース内埋込みの⽣成 OCI⽣成AIサービスとも統合 アプリケーション オブジェクト・ストア 埋込み⽣成 ⾃然⾔語の質問 ベクトル・ストア HeatWave チャット HeatWave AutoML 拡張 プロンプト ⾃然⾔語応答 イン・データ ベースLLM HeatWave 28 Copyright © 2024, Oracle and/or its affiliates トレーニング済 モデル
MySQL Shell for VS Code - HeatWave Chat HeatWave Chat ⾃然⾔語を使って⽂書と対話。 ⽂脈が保持され、フォローアップの質問に よる会話を可能にする Lakehouse Navigator LLM がデータベース、HeatWave Lakehouse, HeatWave Vector Store 全体または 特定のデータ・セットから情報を取得できるように ガイドし、速度と精度を向上させる グローバル検索と詳細検索 全てのベクトル・ストアを検索することも、 特定のスキーマに検索範囲を限定することも可能 29 Copyright © 2024, Oracle and/or its affiliates
MySQL Shell for VS Code - Lakehouse Navigator RAGのためのドキュメント・ファイルのアップロードとベクトル埋め込みの⽣成 • OCIのプロファイルを⽤意しておくと オブジェクト・ストレージのバケットの⼀覧が表⽰される • アップロードするドキュメントと対象のバケットを選択 • ベクトル埋め込みを格納するテーブル名を指定 • 対象のテーブルはHeatWaveクラスターに ⾃動的にロードされる • アップロードする対象のファイル形式を選択 ⾃動判別も可能 30 Copyright © 2024, Oracle and/or its affiliates
MySQL Shell for VS Code - Lakehouse Navigator RAGのためのベクトル埋め込みの⽣成 mysqlsh > DESC `RAG_test`.`HeatWave_ja_doc`; +-------------------+---------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-------------------+---------------+------+-----+---------+-------+ | document_name | varchar(1024) | NO | | NULL | | | metadata | json | NO | | NULL | | | document_id | int unsigned | NO | PRI | NULL | | | segment_number | int unsigned | NO | PRI | NULL | | | segment | varchar(1024) | NO | | NULL | | | segment_embedding | vector(384) | NO | | NULL | | +-------------------+---------------+------+-----+---------+-------+ • ベクトル埋め込みが格納されているテーブルの定義 • アップロードされたドキュメントのメタデータや ドキュメントを分割したセグメントの ベクトル埋め込みを格納 • ベクトル埋め込みの⽣成の進捗が表⽰される • ロード済みドキュメントの再ロードやアンロードも可能 31 Copyright © 2024, Oracle and/or its affiliates
RAGテーブルの例
HeatWaveのイン・データベースLLMが⽣成したベクトル埋め込みの格納先
• 各⾏にドキュメントの⼀部である
セグメント単位でのベクトル埋め込みを格納
• 格納されている情報
• ドキュメントがアップロードされたバケットのURL
• ドキュメントのメタデータ
• セグメントの⽂字列
• セグメントのベクトル埋め込み
※画⾯右の例はVECTOR_TO_STRING()関数で
VECTORデータ型の値を⽂字列に変換
• ML_EMBED_TABLE()ストアド・プロシージャ
• セグメントの⽂字列が格納された列から
ベクトル埋め込みを⽣成し別の列に格納可能
32
Copyright © 2024, Oracle and/or its affiliates
document_name: https://objectstorage.us-chicago1.oraclecloud.com/n/idazzjlcjqzj/b/bucket-202411251945/o/HeatWave_PR.docx
metadata: {
"TITLE": "",
"SOURCE": "Microsoft Office Word",
"COMPANY": "",
"KEYWORD": "",
"SUBJECT": "",
<略>
"LASTSAVEDBY": "Ryusuke Kajiyama",
"CREATIONDATE": " 11/25/2024 14:56:00",
"LASTSAVEDATE": "11/25/2024 14:58:00",
"PRIMARYAUTHOR": "Ryusuke Kajiyama",
"REVISIONNUMBER": "2",
"USERDEFINEDPROP": "MSIP_Label_3c76ce46-357f-46de-88d677b9bbb83c46_ContentBits 0",
"COUNTCHARSWITHSPACES": "5849"
}
segment: ベクトル・ストアの作成とベクトル処理のベンチマーク
PDF、PPT、WORD、HTML形式のドキュメントのベクトル・ストアの作成は、Amazon BedrockのKnowledge
baseを使⽤する場合と⽐較して、HeatWave GenAIを使⽤すると最⼤23倍速く、コストは4分の1になります。
1.6GBから300GBのサイズのテーブルに対する様々な類似検索クエリを使⽤したサードパーティ・ベンチマークで実
証されたように、HeatWave GenAIはSnowflakeより30倍⾼速でコストは25%削減され、Databricksよ
り15倍⾼速でコストは85%削減され、Google BigQueryより18倍⾼速でコストは60%削減されます。
embedding: [1.00200e-02,-9.13479e-03,-3.69700e-02,-1.06737e02,2.55649e-02,-5.62598e-02,3.64135e-02,7.52265e-02,3.79956e-02,1.37684e-02,4.32041e-02,7.74046e-03,7.84678e-02,3.38508e-02,-1.98059e02,6.20408e-02,3.44924e-02,-5.85962e-02,-4.80669e-02,-2.94210e02,2.18502e-02,-1.33754e-02,-6.01970e-02,2.98551e-02,5.98533e02,7.20425e-02,-2.66657e-02,2.48639e-02,3.74166e-02,-4.72570e-02,5.92472e-02,-6.74163e-02,8.72355e-02,-4.54183e-02,6.70901e-02,9.89798e03,-1.70986e-02,-3.06104e-03,6.57276e-02,-9.53107e-02,-5.37361e02,2.24137e-02,1.84493e-02,5.42278e-02,4.01875e-03,8.33606e-02,-6.25437e03,8.57158e-02,-7.97270e-02,1.60378e-02,2.08244e-02,8.79194e-02, <略>
HeatWave Chat RAGを活⽤して⾃然⾔語でドキュメントを検索 • チャットの履歴が保存され、 追加の質問でのコンテキスト (⽂脈)として利⽤される • RAGとして利⽤する スキーマを選択可能 • 該当するドキュメントの 情報を表⽰ • 利⽤するLLMおよび⾔語を 選択可能 33 Copyright © 2024, Oracle and/or its affiliates
34 Transactional Analytics Lakehouse AutoML GenAI クラウド版MySQL Enterprise Edition ⼤規模データ分析を ⼤幅に⾼速化 オブジェクト・ ストレージとの統合 機械学習の パイプラインを⾃動化 専⾨知識なしで ⽣成AIの活⽤ Copyright © 2024, Oracle and/or its affiliates
OCIのAlways Free Servicesで無料でHeatWaveを利⽤可能 https://www.oracle.com/jp/heatwave/free/ • Oracle Autonomous Transaction Processing, Autonomous Data Warehouseと同じく、 HeatWaveも期間の制限なく無料で使⽤可能 • インスタンス数や容量、⼀部機能の制限あり • 容量制限などがない30⽇間無料トライアルとして 300ドルの無料クレジットをあわせて提供 • HeatWave GenAIの試⽤はトライアルにて 35 Copyright © 2024, Oracle and/or its affiliates
2025年1⽉のHeatWaveウェビナー https://blogs.oracle.com/mysql-jp/post/heatwave-events-in-japan 1/8 (⽔) 1/16 (⽊) 1/22 (⽔) 1/29 (⽔) AIと機械学習の融合: HeatWave GenAIと HeatWave AutoML がもたらすデータ活⽤の 進化 HeatWave MySQLへ のオンプレミスやクラウドの MySQL系データベースか らの移⾏のメリットと ポイント Oracle Code Night MySQL開発元が提供 するクラウド・データベース HeatWave MySQL HeatWave GenAI できるあんなことや こんなことを試してみた
37 Copyright © 2024, Oracle and/or its affiliates