20250419気ままに勉強会LT

1.8K Views

April 19, 25

スライド概要

生成AIによる文字読み取りをやってみた内容です

profile-image

酒と業務効率化をこよなく愛するオヤジ、武器はMicrosoft365一択だったけどノーコードもステキ!PowerPlatformで業務効率化が究極に進んだ世の中が理想。半ランク上(笑)のPowerAppsオジサンを目指します。好きなものは競馬、プロレス。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

帳票読み取り色々やってみたお話 最強の生成AI文字読み取りはどれだ?

2.

自己紹介 dai 365 平成7年就職 以降、非IT業務に長年従事 現在は、とある団体でデジタル推進に従事 X:@dai_keiba_73 https://biribiri.connpass.com/ 趣味:登山、競馬、お酒、プロレス、パソコン(ネット) 性格:手書きや手入力が極端に嫌い⇒昭和の業務は大嫌い!! 2024年11月 Microsoft MVPに 長らく無資格でしたが、生成AIパスポートを取得

3.

はじめに 本日お話しする内容は、あくまで私が実際にやってみて 「こう思った」という個人の見解に基づいています。 特定のサービスや技術を評価するものではなく、私の体験談としてお聞きください。 内容に間違いなどありましたら、ぜひご指摘いただけると嬉しいです。

4.

私の職場は ~ DXは進むものの、現実は… 組織を挙げてDXに取り組んでいますが やはり部署や仕事によってはまだまだ紙やFAXがたくさんあります いったい日本のどの業界のデジタル化が進んでいるのか私にはわかりませんが 少なくとも私が経験してきた仕事は 伝票やFAX、それを元にシステムに入力、そんな仕事がたくさんあります

5.

今回のシナリオ ~ 紙からデータへ! AIで夢を叶える 取引先から届いた紙データをデータベース化する •Before 取引先から紙の帳票が届く。その内容を手入力でExcelや他のシステムに転記・登録。 •After とにかく生成AIを使って自動的に読み取りたい!!抽出したデータをデータベース化したい。

6.

まず、AI BUILDERでもこのくらいは出来る ~ 手軽さと破壊力 AI Builderとは: MicrosoftのPower AppsやPower AutomateにAI機能を非常 にお手軽に組み込めるサービス。 メリット: • 専門知識がなくてもAIが使える。 • 破壊力は絶大!(業務効率化へのインパクト) • 何より構築スピードがヤバい! 利用: ライセンスとクレジット(費用)は必要。 可能なこと: • ビジネスカード、請求書、領収書などの定型帳票の読み取り • テキスト認識、言語分析、画像分析など、様々なタスク • カスタムプロンプトで独自の抽出も可能 https://learn.microsoft.com/ja-jp/ai-builder/overview

7.

まずはファイルを追加します ~ AI BUILDER カスタムプロンプトで抽出 手順(カスタムプロンプトの場合): プロンプト記述: 帳票から抽出したい要素をAIに伝える。 (例:「このファイルから〇〇を抽出してくださ い」のようにシンプルでOK) サンプルデータ追加: 読み取りたいサンプル帳票 (PDFなど)をアップロード。 プロンプトのテスト: 実行してAIの読み取り結果を 確認。結果はJSON形式で出力される。 結果: ここでJSON構造が意図通りか確認。 問題なければカスタムプロンプトを保存! スピード: この一連のテストが超速でできます。

8.

次にフロー作成です まずは基本形を作り、値が取得出来るかを試す 私の場合は最初は手動トリガーでお試し 必要に応じてJSON解析を入れて データソースに追加

9.

先日サクっとこんなの作りました(所要時間1時間) ~ 身近な課題をAIで即解決! 最近、緑内障と診断されまして・・・ 緑内障って飲んじゃいけない薬あるみたいですね・・・ 今までお薬手帳なんか持ったことないし・・・ ってことで(笑)、これが3月16日のお話

10.

様々な帳票を試しているうちに・・・ どうもGPT-4oの弱点が見えてきた・・・ やや複雑な構造のテーブルや手書きはなかなか読み取れない

11.

ということでまずはMISTRAL Mistralの特徴 高精度な認識能力 テキストだけでなく、表や数式、グラフなどの複雑なレイアウトも正確に解析可能。 94.89%の認識精度を誇り、GoogleやMicrosoftのOCR技術を上回る性能を発揮。 多言語対応 日本語、英語、中国語など主要言語に加え、ヒンディー語やアラビア語など数千もの言語に対応。 高速処理 単一ノードで1分間に最大2000ページの処理が可能。大量文書の効率的な処理が可能。 マルチモーダル対応 ドキュメント内のテキスト、画像、表、数式などを統合的に抽出し、Markdown形式やJSON形式で出力可能。 柔軟な利用方法 URL指定によるPDF処理やローカルファイルのアップロードが可能。 画像ファイル(JPEG、PNGなど)のOCR処理にも対応し、Base64エンコード形式で画像データを直接渡すことも可能.

12.

面白いのはURL指定によるPDF処理 作況 マークダウンで出力される

13.

もちろんファイルからも読取出来る PDFファイルをアップ マークダウンで出力される

14.

出力されたマークダウンをJSON化 で、ですね これ作るのに ここでAI-Builderのカスタムプロンプトを使用

15.

GOOGLE AI STUDIO使ってました 項目数がやたらと多かったので手では作りたくなかった・・・ 最適な構造化がどんなものかもGeminiに考えさせた めちゃめちゃ作業効率が良かった 使ったモデルは最新のGemini2.5Pro

16.

ここで思いつく、ひょっとして・・・ うわー、全部読み取れてる!! 印字データならほぼ完璧です

17.

まさかとは思うが、手書きもか? ~ GEMINIの衝撃的な精度 キター!!!! 驚異の読取精度です ちなみにGemini2.0flashでも全然実用に耐えるレベルです テーブルもバッチリ!

18.

じゃあ、API使いますか まあ、こんな感じでAPI叩いてみます 本文もGemini2.5に作ってもらいました(笑)

19.

お薬手帳アプリも改良!! 印字データなのでそもそも精度は高いが、さらに精度高く!

20.

GOOGLE AI STUDIO利用上の留意点 Google AI Studio利用上の注意点 課金APIにしないと入力内容が学習に利用されてしまいます。

21.

と思いきや 4月12日、AI-Builder GPT-4oでも出来るように!!! 4月15日、GPT-4.1降臨!!がしかし

22.

4月17日、さらに新モデル!! 我慢できずに課金(笑) o3だとめちゃめちゃ推論しちゃうのでo4-miniで十分!!結果もバッチリ

23.

おわりに ~ 終わらない進化を楽しむに 3月だけでも生成AIの進化はすごかった Gemini2.0flash(image generation)で画像の加工ができるようになり Gemini2.5が発表され GPT-4oの画像からの日本語読取がめちゃめちゃ向上し、マンガみたいなのが作成できるように M365CopilotへのResearcherやAnalystの搭載が発表されたり それ以外もたくさんありましたが たまたま今はGemini2.5がすごかったのかな・・と とか言いながら、今週4.1,o4-mini,o3と3つも新モデルが出ましたね これからも進化が楽しみで仕方ないですね、最後に一言、o3やべえ・・・マジやべえ