使用データ
データの読み込み・確認
1 2 3 |
import pandas as pd df = pd.read_excel("data.xlsx") df.head() |
カラムA | カラムB | カラムC | |
---|---|---|---|
0 | 20 | chiba | 30.0 |
1 | 30 | Chiba | NaN |
2 | 40 | tokyo | NaN |
3 | 50 | saitama | 20.0 |
4 | 20 | kanagawa | 22.0 |
import でライブラリを読み込み、read関数で使用するファイルを読み込みhead()で使用ファイルのデータの最初の5行を表示しています。
行数・列数の確認
1 |
df.shape |
(7, 3)
shapeを用いることで使用データの行数と列数の確認をすることができます。今回は(7, 3)と表示され7行3列のデータになっていることが確認できます。
データ型の確認
1 |
df.dtypes |
カラムA int64
カラムB object
カラムC float64
dtype: object
dtypesを用いることで各カラムのデータの型を確認することができます。
カラムの値の確認
1 |
df["カラムB"].unique() |
array([‘chiba’, ‘Chiba’, ‘tokyo’, ‘saitama’, ‘kanagawa’, ‘?’], dtype=object)
unique()を用いることで指定したカラムがどのような値で構成されているか確認することができます。
今回はカラムBを指定したため, ([‘chiba’, ‘Chiba’, ‘tokyo’, ‘saitama’, ‘kanagawa’, ‘?’]の6つの値で構成されていることが確認できます。
カラムの値の数の確認
1 |
df["カラムB"].value_counts() |
kanagawa 2
chiba 1
Chiba 1
tokyo 1
saitama 1
? 1
Name: カラムB, dtype: int64
value_counts()で指定したカラムの各値が何回出現したか確認することができます。今回はkanagawaのみ2回, それ以外は1回ずつ出現していることが確認できます。
統計量の確認
1 |
df.describe() |
カラムA | カラムC | |
---|---|---|
count | 7.000000 | 4.000000 |
mean | 31.714286 | 27.750000 |
std | 11.205866 | 8.655441 |
min | 20.000000 | 20.000000 |
25% | 22.500000 | 21.500000 |
50% | 30.000000 | 26.000000 |
75% | 38.500000 | 32.250000 |
max | 50.000000 | 39.000000 |
describe()を用いることで平均値, 標準偏差, 最小値, 最大値などの統計量の確認することができます。
欠損値の確認
1 |
df.isnull().sum() |
カラムA 0
カラムB 0
カラムC 3
dtype: int64
isnull().sum()を用いることで欠損値の数を確認することができます。今回はカラムCで3個の欠損値が確認できます。isnull().sum()では空白のNaNのみカウントされるためカラムBの?についてはカウントされないので注意。