データの確認

データ分析

使用データ

データの読み込み・確認

カラムAカラムBカラムC
020chiba30.0
130ChibaNaN
240tokyoNaN
350saitama20.0
420kanagawa22.0

import でライブラリを読み込み、read関数で使用するファイルを読み込みhead()で使用ファイルのデータの最初の5行を表示しています。

行数・列数の確認

(7, 3)

shapeを用いることで使用データの行数と列数の確認をすることができます。今回は(7, 3)と表示され7行3列のデータになっていることが確認できます。

データ型の確認

カラムA int64

カラムB object

カラムC float64

dtype: object

dtypesを用いることで各カラムのデータの型を確認することができます。

カラムの値の確認

array([‘chiba’, ‘Chiba’, ‘tokyo’, ‘saitama’, ‘kanagawa’, ‘?’], dtype=object)

unique()を用いることで指定したカラムがどのような値で構成されているか確認することができます。

今回はカラムBを指定したため, ([‘chiba’, ‘Chiba’, ‘tokyo’, ‘saitama’, ‘kanagawa’, ‘?’]の6つの値で構成されていることが確認できます。

カラムの値の数の確認

kanagawa 2

chiba 1

Chiba 1

tokyo 1

saitama 1

? 1

Name: カラムB, dtype: int64

value_counts()で指定したカラムの各値が何回出現したか確認することができます。今回はkanagawaのみ2回, それ以外は1回ずつ出現していることが確認できます。

統計量の確認

カラムAカラムC
count7.0000004.000000
mean31.71428627.750000
std11.2058668.655441
min20.00000020.000000
25%22.50000021.500000
50%30.00000026.000000
75%38.50000032.250000
max50.00000039.000000

describe()を用いることで平均値, 標準偏差, 最小値, 最大値などの統計量の確認することができます。

欠損値の確認

カラムA 0

カラムB 0

カラムC 3

dtype: int64

isnull().sum()を用いることで欠損値の数を確認することができます。今回はカラムCで3個の欠損値が確認できます。isnull().sum()では空白のNaNのみカウントされるためカラムBの?についてはカウントされないので注意。

タイトルとURLをコピーしました