Dify Meetup Tokyo #5 DifyのETL処理とDifyプラグイン

23.2K Views

May 23, 25

#dify #生成ai #Dify #ETL #プラグイン開発 #PDF処理 #データ抽出

スライド概要

DifyCommunity

スライド一覧

Dify Community (JP) は、LangGenius, Inc.社が提供するオープンソースのLLM(Large-Language-Model)アプリ開発プラットフォームをもっと上手に活用するためのユーザーコミュニティです。 DifyではRAGエンジン(Retrieval-Augmented Generationエンジン)を使用して、ChatBotのようなエージェントから複雑なAIワークフローまでさまざまなLLMアプリをノーコードで編成することができます。このグループでは、Difyを支えるLLMやRAGなどの技術や、Difyの使い方の知見、またDifyを活用した業務や開発生産性の改善事例についてみなさまと議論していきます。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Dify Meetup Tokyo #4 AIエージェント開発の未来：Difyによるエージェントデザインパターン構築の試み

DifyCommunity 22.1K

Dify Meetup Tokyo #4 社内でDifyを広めるには？ 200名超えの育成プロジェクトから学んだこと

DifyCommunity 16.5K

Dify Meetup Tokyo #4 Difyの実務活用から考える、これからのAI人材に求められるスキルとは

DifyCommunity 11.9K

Dify Meetup Tokyo #5 Artifacts？なければ作ればいいじゃない

dify 生成ai

DifyCommunity 9.4K

Dify Meetup Tokyo #4【Dify×スプレッドシート】ワークフローをAI化して、組織装着する方法

DifyCommunity 4.9K

Dify Meetup Tokyo #4 エージェントとDifyプラグイン

DifyCommunity 4.6K

各ページのテキスト

DifyのETL処理とDifyプラグイン Extract/Transform/Load リコーITソリューションズ株式会社 ITソリューション事業本部 AIストラテジーセンター高田忠礼佐官雄介

企業紹介：リコーITソリューションズ株式会社 2名とも本社勤務

リコーグループでのDifyへの取り組みリコー「Dify」 https://promo.digital.ricoh.com/ai/service/dify/

https://promo.digital.ricoh.com/ai/service/dify/

自己紹介最近やっていること ● 散歩：体力を付けるため2017年頃から開始、休日に外出する時は10km目標 ● 中古CD収集：休日の散歩に無理矢理目的を持たせるために何となく収集を開始（70～80年代のソウル/ファンク） ● 登山：年に数回天園ハイキングコース（鎌倉）に行くくらい ● ジョギング：膝を痛めたり足首を痛めたりしたので休止 ● ボルダリング：友人に誘われて行ってみたら1時間で前腕がパンパンに… 経歴 ● ● ● ● 複合機のソフトウェア開発（12年）：PDFライブラリ（Java）、ICカード認証（C、Java） IoTシステム開発（6年） AIシステム開発（3年） Dify（6ヶ月目）：リコーグループのDify案件の環境構築/ワークフロー開発/技術支援/運用・保守等

アジェンダ ● Inside Dify ～DifyのETL処理を読んでみた～ ● ETL処理を実行可能なDifyプラグイン ● Difyプラグインを実装してみた ● Difyプラグインに関する所感

Inside Dify ～DifyのETL処理を読んでみた～ ※Dify Community v1.4.0段階

ETL（Extract/Transform/Load）とは？データソースからデータを抽出（Extract）、変換（Transform）、読み込み/流し込み（Load）するためのデータフローのこと。Dify内では以下の2つのファイル読み込み処理をETLと呼称している。 ①ナレッジにテキストファイルをインポートする際のファイル読み込み処理 ②ワークフロー/チャットフローのテキスト抽出ノードでのファイル読み込み処理

Difyの種別とETLタイプ Difyの種別 ETLタイプ備考 Dify Cloud（SaaS版、クラウドサービス版）・Unstructured ・LangGeniusがAWS（リージョン：アメリカ東部）で提供しているクラウドサービス・ETLタイプはUnstructured で固定 Dify Community（OSS版、・Dify コミュニティ版）・Unstructured ・GitHubリポジトリで公開されているOSS（ライセンスに追加条件あり）・環境変数ETL_TYPEで切り替えが可能、デフォルトは Dify（dify）

ETLタイプ：Unstructured ファイルの読み込み処理の一部にUnstucturedを利用するETLタイプ。追加で環境変数を指定することでUnstructured.ioが提供しているUnstructured APIを利用することも可能で未指定の場合はライブラリとしてのUnstructuredが利用される。 [対応しているファイル形式（ナレッジ）] ※Dify Cloudの画面より抜粋 https://github.com/Unstructured-IO/unstructured

https://github.com/Unstructured-IO/unstructured

10.

ETLタイプ：Dify ファイルの読み込み処理がファイル種別毎にそれぞれ別のライブラリを利用する ETLタイプ。Dify Communityをデフォルト（環境変数に手を入れない）で起動するとこちらのタイプになる。 [対応しているファイル形式（ナレッジ）] ※Dify Communityの画面より抜粋

11.

各ETLタイプで対応しているファイルの比較① テキストエディタ―で読めそうなファイル形式ファイル種別（拡張子） Unstructured（利用するライブラリ） Dify（利用するライブラリ） TXT（.txt）〇（なし）〇（なし） CSV（.csv）〇（pandas）〇（pandas） HTML（.html/.htm）〇（BeautifulSoup）〇（BeautifulSoup） VTT（.vtt） △（webvtt-py、ナレッジではTXT扱い） △（webvtt-py、ナレッジではTXT扱い） Markdown（.md/.mdx）〇（Unstructured）〇（なし） Email（.eml）〇（Unstructured） ×（TXT扱い） MSG（.msg）〇（Unstructured） ×（TXT扱い） XML（.xml）〇（Unstructured） ×（TXT扱い）設定がUnstructuredでも必ずUnstructuredを利用してファイルを読み込むわけではない

12.

各ETLタイプで対応しているファイルの比較② 構造が複雑なファイル形式ファイル種別（拡張子） Unstructured（利用するライブラリ） Dify（利用するライブラリ） EPUB（.epub）〇（Unstructured）〇（Unstructured） Excel（.xls/.xlsx）〇（openpyxl/pandas）〇（openpyxl/pandas） PDF（.pdf）〇（pypdfium2） ※Unstructuredを利用する実装自体はあるが利用されていない〇（pypdfium2） PowerPoint（.ppt）〇（Unstructured、APIキー必須） × PowerPoint（.pptx）〇（Unstructured） × Word（.doc）〇（Unstructured） × Word（.docx）〇（python-docx）〇（python-docx）設定がUnstructuredでも必ずUnstructuredを利用してファイルを読み込むわけではない設定がDifyでもUnstructuredを利用するケースもある（.epubのみ）

13.

ETL処理：PDFを読み込む入力ファイル：厚生労働省が公開している「モデル就業規則.pdf」 ①ナレッジにテキストファイルをインポートする際のファイル読み込み処理 ②ワークフロー/チャットフローのテキスト抽出ノードでのファイル読み込み処理 Dify v0.15.0～v1.3.1までは文字化けするPDFがあった（pypdfium2 4.30.1の障害） 2025/05/15にリリースされたv1.4.0で解消（pypdfium2 4.30.0に固定）

14.

ETL処理を実行可能なDifyプラグイン ※2025/05/16段階 ※LLMを利用してOCRするプラグインは含まない ※実行環境はDify Cloud

15.

ETL処理を実行可能なDifyプラグイン（ツール）プラグイン名プロバイダー名概要 markitdown yevanchen PDF Process 対応ファイル形式プラグインのライセンス利用するライブラリ MarkItDownをベースにしたDify PDF、Word（.doc、.docx、用のドキュメント変換プラグイン。 PowerPoint（.ppt、.pptx）、 Markdownで出力可能。 Excel（.xls、.xlsx）、HTML （.html、.htm）、etc... 不明（未記載） markitdown[all] kalochin Difyのための包括的なPDF処理ツールスイート。 PDF 不明（未記載） PyPDF2 PyMuPDF（AGPL v3.0） pillow pdfminer_six tavan pdfminer.sixを利用してPDFファイルからテキストを抽出するツールを提供するプラグイン。 PDF MIT pdfminer.six pdfminer.six[image] pymupdf yevanchen PyMuPDFを搭載したDify用の強 PDF 力なPDFテキスト抽出プラグイン。 AGPL v3.0 PyMuPDF（AGPL v3.0） ※PDF Processは前述のPDFの読み込み処理で停止するので紹介対象外

16.

動作確認用ワークフローの実行結果（Dify Cloud）用途にもよるがETL処理の性能（時間）はかなり気にする必要がある

17.

Difyプラグイン「pymupdf」の出力① ページの区切り情報も含まれておりシンプルにナレッジ登録が可能

18.

Difyプラグイン「pymupdf」の出力② 現状はどのプラグインでもPDF内の表（table）の情報は落ちてしまう

19.

Difyプラグインを実装してみた ● pypdfium2プラグイン ● Unstructuredプラグイン ● pdfplumberプラグイン ※実行環境はDify Cloud

20.

pypdfium2プラグイン Dify Community内の実装（pdf_extractor.py）を参考にしながらローカルプラグインとしてインストールした。 ● pypdfium2（4.30.0、特定のPDFで文字化けが発生しないバージョン）を利用してPDFの読み込みを行う ● ページ単位でセパレーター文字列（”******”）を入れる目的：プラグインの実装方法の調査、他のプラグインとの処理性能の比較

21.

pypdfium2プラグインの実行結果 ● pypdfium2のバージョンを落としたので文字化けしない ● PDFの読み込みが十分に速い ● ライセンス問題をクリアできる ● シンプルな実装なのでテキストを抽出するだけ、表データは読み込めない

22.

Unstructuredプラグイン Dify Community内の実装（unstructured_pdf_extractor.py、実装はあるが未使用）を参考にしながら実装した。 ● 内部実装と同様にテキスト抽出を行う処理のみ、OCRはしない ● 固定サイズでチャンク分割していたのでページ単位での分割に修正した目的：他のプラグインとの処理性能の比較

23.

Unstructuredプラグインの実行結果 ● リモートでのデバッグ実行は可能 ● パッケージ化したプラグインをインストールできない（インストール実行後成功したような表示が出た後にプラグインが表示されない） ● デバッグ実行環境（Windows、VSCode）のPython仮想環境に必要なライブラリをインストールするとプロジェクトフォルダーのサイズが約2GB OCRをしなくても必要なライブラリがインストールされる実際にOCRする場合はPython以外のライブラリも必要

24.

pdfplumberプラグイン PyMuPDFやpypdfium2と一緒に紹介されていることが多いので実装してみた。 ● ページ毎の表データの取得が簡単に実装可能 ● 表データはページ毎にメタデータとして出力する目的：他のプラグインとの処理性能の比較、表データの取得可否の確認

25.

pdfplumberプラグインの実行結果 ● PDFの読み込みには時間がかかってしまう（PDFの構造データから表データの生成を実行しているためと推測） ● ページ内に複数の表が存在する場合は右記リストに複数の表分のリストが格納される

26.

PDFを読み込むプラグインの総括 ● 利用するPDFライブラリによって処理性能の差が激しいので目的によって使い分ける必要がある ● 現状公開されているものはテキスト抽出だけしか行えない（ライブラリに機能はあるが実装していない）、表データの抽出まで行おうとするとプラグインを自前する必要がある ● 実装してみたプラグインも含めてPDFの画像データ部分の読み取り（OCR）は現状実行できない今回はファイル（ドキュメント）のETLに焦点を当てたが次回があればOCRに焦点を当てたい。 Azure Document Intelligence、Docling、 Tesseract OCR...

27.

Difyプラグインに関する所感

28.

Difyプラグインに関する所感よかった点 ● シンプルなプラグインは実装するのもデプロイするのも非常に簡単、もうコードノードには戻れない… ● 市民開発者（ノーコード/ローコードユーザー）のためのRPAの部品になるようなプラグイン（ツール）がリリースされている、もっと増えてくれるとうれしい課題 ● Dify Cloudでのデバッグ実行は挙動が不安定なので要注意（半日以上1日未満接続できない状態に陥ったことがあった） ● ドキュメントにプラグインのクォータに関する情報が不足しているので次はInside dify-plugin-daemonしてみる予定

29.

ご清聴ありがとうございました