Supplement ２　DataFrameの比較

150 Views

March 06, 25

#データ分析 #Python #pandas #データ加工 #医療データ

スライド概要

forループで一気に作成したデータを縦型に変形し、本編で作成したデータ「naihuku」と同じ形に整形していきます。本編を思い出して、復習しましょう。

その後、2つのDataFrameが同じものかどうか確認します。

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブ（クソどうでもいい仕事）をこの世からなくしていきましょう！ 1st STEPが書籍になりました！ https://amzn.to/3TrhoPt

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.4K

データサイエンス関連の資格_後編

猫のタロー 3.8K

データサイエンス関連資格_前編

猫のタロー 1.9K

#32 NDBオープンデータとは

猫のタロー 492

#33 URLからデータを読み込む

猫のタロー 363

#40 都道府県別人口データを作成

猫のタロー 293

各ページのテキスト

1 3rd STEP 応用編医療 Supplement ２ DataFrameの比較 34’ データ名.reset_index(drop=True) 96 データ1.equals(データ2) 97 データ1.compare(データ2)

2 Supplement １で作成したデータ24個を、本編で行ったように、縦型に変形した一つのデータにまとめます。24個のデータは、フォルダー「データ2」に保管されていますね。ここからしばらくは、本編の復習になります。

3 Supplement ２ DataFrameの比較１．フォルダー「データ」の全ファイル名の取得データを結合するプログラムに渡すために、「glob」を使って、フォルダー「データ2」の全ファイル名を取得し、「all_files」と宣言します。

4 Supplement ２ DataFrameの比較２．結合したデータの作成フォルダー「データ2」に格納されている24のファイルを読み出し、縦型に結合していきます。「glab.glob」で取得したファイル名のリスト「all_files」を「forループ」で逐次受け取り、「append」を使って、「pd.read_csv」で読み込んだデータを末尾に加え、空の「list」に追加していきます。次にその「list」を「concat」に渡し、「list」のデータを結合します。

5 Supplement ２ DataFrameの比較３．縦型（long型）に変換する（１）「melt」を使って、結合したデータ「df_all」を縦型（long型）に変換します。

6 Supplement ２ DataFrameの比較４．縦型（long型）に変換する（２）結果は、下記のようになります。列名「個数」の要素に「-」があります

7 Supplement ２ DataFrameの比較５．「-」をNaNに置換するデータ「df_all4」をよく見ると、列名「個数」末尾の方に、「-」が存在します。これは、役所が作成した文書によく見られますが（Excelの列を結合しています）、データが存在しないことを表します。しかし、Pythonはその意味を理解しません。欠損値「NaN」と変換しておきましょう。

8 Supplement ２ DataFrameの比較６．データの保存結合して、縦型に変換したデータ「df_all2」を保存します。名前は「naihuku_new」で、csv形式でフォルダー「医療データ」直下に保存しましょう。

9 「naihuku_new」と本編で作成した「naihuku」は、本当に同じものでしょうか？確認してみましょう！

10.

10 Supplement ２ DataFrameの比較プログラム解説1 reset_index( )の引数「2nd STEP 集計とグラフ描画」の「Section 16 seabornでグラフ描画（１）」では、 groupbyを使って集計表をseabornでグラフ化する際に、34を使いました。 34 データ名.reset_index() 「2nd STEP 集計とグラフ描画」の「Section 16 seabornでグラフ描画（１）」では、 groupbyを使って集計表をseabornでグラフ化する際に、34を使いました。元のindexを削除し、データに残らない様にするには、34’を使います。 34’ データ名.reset_index(drop=True)

11.

11 Supplement ２ DataFrameの比較７．「naihuku」の読み込みとソート本編で作成したデータ「naihuku」を読み込みます。この際、不要なindexを読み込まないように「index_col=0」を引数に追加します。その後、ソートして、「reset_index(drop=True, inplace=True)」とし、これも不要なindexを読み込まないようにします。

12.

12 Supplement ２ DataFrameの比較８．「naihuku_new」の読み込みとソート先ほど作成したデータ「naihuku_new」を読み込みます。「naihuku」を読み込んだ時と同様、不要なindexを読み込まないように「index_col=0」を引数に追加します。その後、ソートして、「reset_index(drop=True, inplace=True)」とし、これも不要なindexを読み込まないようにします。

13.

13 「naihuku」と「naihuku_new」の列名は下記のようになります。 '薬効分類', '薬効分類名称', '医薬品コード', '医薬品名', '薬価基準収載医薬品コード', '薬価', '後発品区分', ‘年度’, '剤型_場所', '都道府県番号', '個数’ ‘医薬品名‘が決れば赤色の列の要素は、自動的に決まります。すなわち、「医薬品名」、「年度」、「剤型_場所」、「都道府県番号」が決れば、たった一つの行を選ぶことができますね。 DataFrameの比較をするために、「equals」を使いますが「equals」は、各行ごとに比較しますので、各行の順番を揃えておく必要があります。

14.

14 Supplement ２ DataFrameの比較９．「naihuku」と「naihuku_new」のデータ型の確認「naihuku」と「naihuku_new」のデータ型を比較してみましょう。改行文字「¥n」を入れることにより、二つのデータの結果を縦に表示することができ、比較しやすくなります。列「薬効分類」のデータ型が異なっていますね。データ型が異なっていると、 DataFrameの比較ができませんので、揃えることにします。

15.

15 Supplement ２ DataFrameの比較１０．「naihuku」と「naihuku_new」のデータ型の確認「naihuku」の「薬効分類」が、小数になっていますので、整数に替え、それを「naihuku2」と宣言しておきます。

16.

16 Supplement ２ DataFrameの比較プログラム解説2 equals 2つのDataFrameが同じものであるかどうかを判定するには、「equals」を使います。 96 データ1.equals(データ2) 結果が「True」なら2つのDataFrameはすべての要素が同じ、「False」なら同じデータではありません。【参考】値の違うindexと列を特定するには、「compare」を使います。 97 データ1.compare(データ2)

17.

17 Supplement ２ DataFrameの比較１１．「naihuku2」と「naihuku_new」を比較「equals」を使って、「naihuku2」と「naihuku_new」を比較します。結果に、「True」が出ているので、この2つは等しいデータです。 forループを使った今回のプログラムにミスはなかったということですね。

18.

「3rd STEP 応用編医療」を終了します！最後までご覧いただき、ありがとうございました。 4th STEPは、機械学習をテーマにする予定です。データサイエンスチュートリアルデータ思考を身に付けよう！