生成AIによるDatabricksの開発方法論を改めて考えてみた【JEDAI in Osaka】

3.9K Views

April 17, 26

#生成AI #Databricks #開発方法論 #データエンジニアリング #システム開発

スライド概要

JEDAI in Osaka 2026 春 (オンサイト+オンライン)での発表資料です。

https://jedai.connpass.com/event/383379/

manabian

@manabian

スライド一覧

manabian の資料です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

DatabricksとSnowflakeをつなぐ最新データ相互利用術

manabian 19.5K

誰も教えてくれないメダリオンアーキテクチャのデザインメソッド

manabian 16.9K

データ利活用におけるセマンティックレイヤー概要

manabian 6.6K

BigQUery ×Databricks × Snowflake の相互運用～忍び寄る Apache

manabian 5K

TROCCOで高めるDatabricksのポテンシャル～データレイクを生成AIで分析する新時代へ～

manabian 3K

サイロ化したBigQueryをAnalyticsHubにより統合する構成案

manabian 2.1K

各ページのテキスト

JEDAI in Osaka 2026 春生成AIによる Databricksの開発方法論を改めて考えてみた manabian

はじめに本発表では、生成AIの開発手法（Skillsなど）に関する最新情報の共有ではなく、 Databricksを活用したシステム開発に役立てるための心構え（ほぼ決意）をお伝えします。データ分析におけるコードは少量で複雑かつ分割が難しい場合が多く、他のプログラミング技術をそのまま応用できないケースがあります。 ◼ 私の業務上、利用環境を固定できないことが多かったものの、現在は整った環境下でデータ分析システムのライフサイクルにおける生成AI活用の検証を進めています。今後は、その観点からの情報発信も行ってまいります。

自己紹介【主業務】レイクハウス・DWH・BI構築に関するSIベンダーにてフェローとして、次の業務を実施。 • データエンジニアリングの実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援 • データ分析基盤に関する技術検証 @manabian 【趣味】趣味がデータ分析基盤に関する調査や検証であり、主に Qiita を中心にデータ分析基盤プラットフォームに関する記事を投稿。

https://x.com/manabian

生成 AI による開発論の現状

生成 AI の技術力は Copilot からホームズへ ◼ 生成AIによる開発は当初Copilot（副操縦士）から始まりました。 ◼ 現在では、アウトプットの品質が飛躍的に向上し、私たちの多くの課題を解決してくれる名探偵ホームズのような存在へと進化しています。 GitHub Copilot

生成 AI のアウトプットの過信は禁物 AIエージェントを活用した継続的な機械学習モデルの精度向上を目指す autoresearch が最近注目されました。その施策の一つに seedの調整といった裏技的な手法も用いられており、現段階では完全に自律して運用できる状況には至っていないと考えています。引用元：GitHub - karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically · GitHub

https://github.com/karpathy/autoresearch

生成 AI はホームズ、私たちはワトソンという関係が理想 ◼ 名探偵ホームズの助手であるワトソンの役割を担い、私たちは情報（コンテキスト）を収集し、その重要度を判断してストーリー（システム）を構築する必要があります。ホームズを例にした理由非公開画像

名探偵と良好な関係を築けるワトソンになる方法

＜問題＞生成 AI の出力を鵜呑みにして量産すること (1/2) 生成 AI の言いなりとなりコードを大量生産開を実施するケースがありますが、ライブラリ化や回帰テスト等により品質をコントロールしたプログラムの開発が必要です。コードの大量生産データをデータを UPSERT でデータを UPSERT 連携する SQL でをデータを UPSERT 連携する SQL でを記述して UPSERT 連携する SQL でを記述して連携する記述してSQL を記述してデータをデータを UPSERT でデータを UPSERT 連携する SQL でをデータを UPSERT で連携する SQL を記述して UPSERT 連携するを記述してSQL で連携する SQL を記述して記述して共通化

10.

＜問題＞生成 AI の出力を鵜呑みにして量産すること (2/2) 宣言型によりデータエンジニアリングを実施できる機能を利用することも品質のばらつきを抑えるためにはとても有効な選択肢です。自作プログラムは柔軟だが、再利用・標準化・テスト・保守・参入障壁に課題が出てきたという事例 *1 もあります。 SDP 引用元：Lakeflow Spark宣言型パイプライン | Databricks on AWS dbt 引用元：GitHub - karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically · GitHub *1 Leveling up data engineering at Riot: How they transformed DevEx with dbt (Coalesce 2025) - YouTube

11.

＜問題＞適切な開発方式や技術検証を持たずに進めること (1/2) システムのアーキテクチャの視点を欠いたまま開発を進めることはリスクが伴います。特に Databricks を用いてシステムを構築する際には、構造化データ・非構造化データを問わず、データ管理の方法が非常に重要となります。誰も教えてくれないメダリオンアーキテクチャのデザインメソッド非構造化データのメダリオンアーキテクチャで加速するAIアプリケーション開発引用元：誰も教えてくれないメダリオンアーキテクチャのデザインメソッド | ドクセル引用元：非構造化データのメダリオンアーキテクチャで加速するAIアプリケーション開発 - Vポイントマーケティング｜TECH LABの Tech Blog

12.

＜問題＞適切な開発方式や技術検証を持たずに進めること (2/2) 重要なオプションや動作仕様が十分に考慮されずにコードが実装されることがあります。ドキュメントの参照と動作確認による詳細な調査/検証の実施をおすすめします。オプションが大量にあるためドキュメントの読み込む必要あり引用元：Auto Loaderオプション | Databricks on AWS 発表時週に調査したマルチテーブルトランザクション引用元：Databricks のマルチテーブルトランザクション機能の基本的な検証結果 #Databricks - Qiita

13.

＜問題＞個人レベルでの活用方法にとどめてしまうこと(1/2) 個々のツール選定に注力するのではなく、高品質なコンテキスト（ナレッジ管理）をいかに継続的に提供するかを検討する必要があります。検討対象ツールコンテキスト（ナレッジ管理） Jira

14.

＜問題＞個人レベルでの活用方法にとどめてしまうこと(2/2) ローカルでの開発方法論から含めて開発ライフサイクルにおけるプロセスでどのように活用するかを検討する必要があります。開発環境開発環境本番／検証環境本番／検証環境ローカル環境（コードを記述） Databricks （コードを実行） Databricks Visual Studio Code Databricks Workspace Databricks Workspace コードコード開発者 3. フィードバック 2. 同期と実行 1. コード開発コード Genie Code レポジトリー 5. デプロイ 4. コミット Git

15.

まとめ

16.

まとめ ◼ 生成 AI は「ホームズ」、私たちは「ワトソン」— 情報を収集・判断し、ストーリー（システム）を構築する役割分担になってきています。 ◼ AI の出力を鵜呑みにせず、組織（チーム）で拡張可能な方法論を一緒に考えましょう。

17.

ありがとうございました参考になった記事にはいいねをお願いします manabian 𝕏: @manabian Qiita: manabian