パンダ-データフレームの分析


データの表示

DataFrameの概要をすばやく把握するために最もよく使用される方法の1つは、このhead()方法です。

このhead()メソッドは、ヘッダーと指定された行数を上から返します。

DataFrameの最初の10行を印刷して、概要をすばやく確認します。

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

この例では、「data.csv」というCSVファイルを使用します。

data.csvをダウンロードするか、ブラウザでdata.csvを開き ます。

注:行数が指定されていない場合、head()メソッドは上位5行を返します。

DataFrameの最初の5行を印刷します。

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

DataFrameの最後のtail()行を表示する方法 もあります。

このtail()メソッドは、ヘッダーと指定された行数を下から順に返します。

DataFrameの最後の5行を印刷します。

print(df.tail()) 

w3schools CERTIFIED . 2021

認定を受けましょう!

Pandasモジュールを完了し、演習を行い、試験を受けると、w3schoolsの認定を受けます。

$ 10登録

データに関する情報

DataFramesオブジェクトにはinfo()、データセットに関する詳細情報を提供すると呼ばれるメソッドがあります。

データに関する情報を印刷します。

print(df.info()) 

結果

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

結果の説明

結果は、169行4列であることを示しています。

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

また、各列の名前とデータ型は次のとおりです。

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

ヌル値

このinfo()メソッドは、各列に存在する非ヌル値の数も示します。データセットでは、「カロリー」列に169個の非ヌル値のうち164個があるようです。

これは、何らかの理由で[カロリー]列に値がまったくない5つの行があることを意味します。

空の値またはNull値は、データを分析するときに問題になる可能性があるため、空の値を持つ行を削除することを検討する必要があります。これは、いわゆるクリーニングデータに向けたステップであり、次の章で詳しく説明します。