#34 データの修正・保存

173 Views

February 28, 24

スライド概要

今回は、NDBオープンデータのホームページにあるデータを一気に保存します。その前にデータ型の変更や、結合した時にどのファイルだったかをわかるように、フラグを立てておきます。

そのために、下記のようなプログラムを解説していきます。

● 要素がすべて同じ文字からなる列を追加する
  データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, …]

● データ型を変更する(復習)
  ⑱ データ名.astype({“列名1”:データ型, “列名2”:データ型,…})

★この動画のブログ

■ データサイエンス チュートリアル
https://tutorial4datascience.blogspot.com/

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけ、ブルシットジョブをこの世からなくしていきましょう!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

1 3rd STEP 応用編 医療 Section 3 データの修正・保存 84 データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, … ] 84’ データ名[[“列名1”, “列名2”, …]] = [数字1, 数字2, …]

2.

2 Section 3 データの修正・保存 1.データ型の確認 前回、読み込んだデータのデータ型を確認します。 ●「薬効分類」、「薬効分類名称」 、 「医薬品コード」 、 「医薬品名」 、 「薬価基準収載 医薬品コード」 、 「後発品区分」は、記号ですから文字列型(object、正確にはstr) ● 「総計」 、 「都道府県番号」の列は薬価(医薬品の価格)ですから、浮動小数点(float) にしておかないと、後々の集計プログラムがうまく 作動しません。 ただし、 「総計」 、 「都道府県番号」の列は、 一見して浮動小数点になっていますので、データ 型はそのままにしておきます。これは、欠損値(NaN) が混ざっているために起こります。後でまとめて欠損値 の処理を行います。 欠損値が混ざっていると、dtypesで求めたデータ型は objectと表示されます(1st STEP 「Section 5 データ型」を参照)。

3.

3 Section 3 データの修正・保存 2.データ型の変更 1st STEPで習得した⑱を用いて、データ型を修正します。 ⑱ データ名.astype({“列名1”:データ型, “列名2”:データ型, …}) ※ 列名「薬効分類」が小数点 以下が「0」になっていて見にくい のですが、後で修正します。

4.

4 Section 3 データの修正・保存 プログラム解説1 列を追加 要素がすべて同じ文字からなる列を追加するには、プログラム84を用います。 84 データ名[[“列名1”, “列名2”, …]] = [“文字1”, “文字2”, …] ちなみに、同じ数字(整数や浮動小数点)からなる列を追加する場合は、下記のようになります。 84’ データ名[[“列名1”, “列名2”, …]] = [数字1, 数字2, …]

5.

5 Section 3 データの修正・保存 3.列の追加 「Section 1」 スライド8には24個のExcelファイルがあります。最終的には、それらを結合し て一つのデータを作成しますので、「年度」や「剤型と医薬品の購入場所」がわかるように列を 追加しておきます。これを「フラグを立てる」と言います。

6.

6 Section 3 データの修正・保存 4.データの保存 Googleドライブ内に「データ」フォルダーを作成し、出来上がったデータに「H26_内服外来院 内」という名称を付けて、csv形式で保存します。

7.

7 Section 3 データの修正・保存 5.他のデータの読み込み・修正・保存 以下、 「Section 1」 スライド8のURLを、順次読込んでいきます。全部で24個!頑張りま しょう。プログラム内に、「#H26」等と年を記載しておくとわかりやすくなります。 ※第1回目だけが「外来院内」と「外来院外」の順番が異なっていることに注意しましょう。