パンダ-データフレームの分析
データの表示
DataFrameの概要をすばやく把握するために最もよく使用される方法の1つは、このhead()
方法です。
このhead()
メソッドは、ヘッダーと指定された行数を上から返します。
例
DataFrameの最初の10行を印刷して、概要をすばやく確認します。
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
この例では、「data.csv」というCSVファイルを使用します。
data.csvをダウンロードするか、ブラウザでdata.csvを開き ます。
注:行数が指定されていない場合、head()
メソッドは上位5行を返します。
例
DataFrameの最初の5行を印刷します。
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
DataFrameの最後のtail()
行を表示する方法
もあります。
このtail()
メソッドは、ヘッダーと指定された行数を下から順に返します。
例
DataFrameの最後の5行を印刷します。
print(df.tail())
データに関する情報
DataFramesオブジェクトにはinfo()
、データセットに関する詳細情報を提供すると呼ばれるメソッドがあります。
例
データに関する情報を印刷します。
print(df.info())
結果
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
結果の説明
結果は、169行4列であることを示しています。
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
また、各列の名前とデータ型は次のとおりです。
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
ヌル値
このinfo()
メソッドは、各列に存在する非ヌル値の数も示します。データセットでは、「カロリー」列に169個の非ヌル値のうち164個があるようです。
これは、何らかの理由で[カロリー]列に値がまったくない5つの行があることを意味します。
空の値またはNull値は、データを分析するときに問題になる可能性があるため、空の値を持つ行を削除することを検討する必要があります。これは、いわゆるクリーニングデータに向けたステップであり、次の章で詳しく説明します。