パンダ-データ相関
関係を見つける
Pandasモジュールの優れた点はcorr()
メソッドです。
このcorr()
メソッドは、データセットの各列間の関係を計算します。
このページの例では、「data.csv」というCSVファイルを使用しています。
data.csvをダウンロードします。またはdata.csvを開きます
例
列間の関係を表示します。
df.corr()
結果
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
注:
このcorr()
メソッドは、「数値ではない」列を無視します。
結果の説明
メソッドの結果は、corr()
2つの列間の関係がどの程度良好であるかを表す多数の数値を含むテーブルです。
数は-1から1まで変化します。
1は、1対1の関係(完全な相関関係)があることを意味します。このデータセットでは、最初の列の値が上がるたびに、もう一方の列も上がります。
0.9も良好な関係であり、一方の値を増やすと、もう一方の値もおそらく増えるでしょう。
-0.9は0.9と同じくらい良い関係になりますが、一方の値を増やすと、もう一方の値はおそらく下がるでしょう。
0.2は、良好な関係ではないことを意味します。つまり、一方の値が上がっても、もう一方の値が上がることを意味するわけではありません。
良い相関関係とは何ですか?用途にもよりますが、良い相関関係と呼ぶに
は少なくとも0.6
(または)
必要があると言っても過言ではありません。-0.6
完全な相関関係:
「Duration」と「Duration」が数値1.000000
を取得していることがわかります。これは理にかなっています。各列は常にそれ自体と完全な関係にあります。
良い相関関係:
「持続時間」と「カロリー」には0.922721
相関関係があり、これは非常に良好な相関関係です。運動時間が長くなるほど、燃焼するカロリーが増えると予測できます。逆に、大量のカロリーを燃焼した場合は、おそらく長い間働いていたでしょう。
悪い相関関係:
「Duration」と「Maxpulse」には0.009403
相関関係がありますが、これは非常に悪い相関関係です。つまり、ワークアウトの期間だけを見て最大パルスを予測することはできません。その逆も同様です。