#33 URLからデータを読み込む

423 Views

February 22, 24

#データ分析 #Python #Pandas #データクレンジング #Google Colaboratory

スライド概要

今回は、NDBオープンデータのホームページにあるデータを読込み、見やすい形に整形していきます。
そのために、下記のようなプログラムを解説していきます。

● Excelの最初の何行かを読み飛ばす「skiprows」、「skipfooter」

● データの列名を変更する「rename」

● 文字列を上下と同じように埋める「fillna」

★この動画のブログ

■ データサイエンスチュートリアル
https://tutorial4datascience.blogspot.com/

猫のタロー

@Cat_Taro

スライド一覧

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化（Socialization）からはじめていきます。下記のブログで、ここにアップしたスライド、動画を随時、公開中です。【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました！　　https://amzn.to/4ryVppn 　　https://amzn.to/4pGgFb1

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

データサイエンス関連資格

猫のタロー 49.8K

データサイエンス関連の資格_後編

猫のタロー 4.2K

データサイエンス関連資格_前編

猫のタロー 2K

#73 【解決編】 PythonとPyCaretのバージョン問題

猫のタロー 1K

#32 NDBオープンデータとは

猫のタロー 650

#40 都道府県別人口データを作成

猫のタロー 375

各ページのテキスト

1 3rd STEP 応用編医療 Section 2 URLからデータを読み込む 80 url = “Excelファイルのありか" データ名 = pd.read_excel(url) 81 skiprows=[数字1, 数字2, 数字3, ・・・] 82 データ名.rename(index={古い行名1：新しい行名1, ・・・}, columns={古い列名2：新しい列名2,・・・}) 83 データ名["薬効分類"].fillna(method='ffill')

2 Section 2 データの読み込み１．フォルダー、ノートブックの作成まずは、Googleドライブの「マイドライブ」に「医療」というフォルダーを作成し、左上の「＋新規」→「その他」→「Google Colaboratory」をクリックして、新しいノートブックを作り、名称を「連結データの作成.ipynb」とします。

3 Section 2 データの読み込みプログラム解説1 Excelファイルの読み込み WEBに存在するExcelファイルをダウンロードするには、下記のプログラムを使います。 80 url = “Excelファイルのありか" データ名 = pd.read_excel(url) 今回の例のように、最初の2行や、4行目を読み込みたくない場合は、引数としてskiprows を使います。すなわち、Excelの最初の何行かを読み飛ばす場合は、skiprows=数字、複数の行を読み飛ばす場合は、 81 skiprows=[数字1, 数字2, 数字3, ・・・] と記入していきます。数字1、数字2、数字3は、Excelの行番号で、０から始まることに注意してください。同様に、skipfooterを使うと、最後の何行を読み込まないように指定ことができます。この場合も、 Excelの行番号は０から始まることに注意してください。

4 Section 2 データの読み込み２．Excelファイルの読み込み（読み込み方法を指定していない場合） 80を使って、 Section 1 スライド8の一番最初のURLを読み込んでみましょう。引数を何も指定しないと、下記のようになります。

5 Section 2 データの読み込み３．Excelファイルを見てみよう Excelファイルを見てみると、表を見やすくするために、Excel特有の処理が施してあります。これらは、連結データを作成する際に、邪魔になります。最初の2行は、但し書きなので、必要ありません。 2行が結合されています。

6 Section 2 データの読み込み４．不要な行を読み飛ばす 81を使って、1、2、4行目を読み飛ばすと、少しきれいになってきました。それでも、改行を表す「\」が入っている列名（①）、薬効分類が最初の一行だけしか表示されていない（②）というの不具合が生じています。 ① ②

7 Section 2 データの読み込みプログラム解説2 列名を変更データの列名を変更する場合は、プログラム82を用います。 82 データ名.rename(index={古い行名1：新しい行名1, ・・・}, columns={古い列名2：新しい列名2,・・・}) 行名・列名のいずれかのみを変更したい場合は、引数indexとcolumnsのどちらか一方だけを指定します。ただし、元のデータは変更されないので、後々使う場合は新たなデータ名を宣言しておきます。

8 Section 2 データの読み込み５．①改行を表す「\」が入っている列名の修正 ①を82を使って、修正してみましょう。

9 Section 2 データの読み込みプログラム解説3 文字列を上下と同じように埋める Excelでは、行を結合して「薬効分類」を表示させていますので、Pandasで読み込んだ時に欠損値「NaN」と示されてしまいます。一つ上の「薬効分類」と同じものですから、一つ上と同様な文字列を埋めなくてはなりません。その場合、「fillna(method=‘ffill‘)」を用います。 83 データ名 ["薬効分類"].fillna(method='ffill') 後ろの値に置換する場合は、「fillna(method=‘bfill‘)」を使います。

10.

10 Section 2 データの読み込み６．②薬効分類が最初の一行だけしか表示されていない点を修正 ②を83を使って、上の薬効分類の数字で埋めましょう。