パンダ-データ相関


関係を見つける

Pandasモジュールの優れた点はcorr()メソッドです。

このcorr()メソッドは、データセットの各列間の関係を計算します。

このページの例では、「data.csv」というCSVファイルを使用しています。

data.csvをダウンロードしますまたはdata.csvを開きます

列間の関係を表示します。

df.corr()

結果

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

注: このcorr()メソッドは、「数値ではない」列を無視します。

結果の説明

メソッドの結果は、corr()2つの列間の関係がどの程度良好であるかを表す多数の数値を含むテーブルです。

数は-1から1まで変化します。

1は、1対1の関係(完全な相関関係)があることを意味します。このデータセットでは、最初の列の値が上がるたびに、もう一方の列も上がります。

0.9も良好な関係であり、一方の値を増やすと、もう一方の値もおそらく増えるでしょう。

-0.9は0.9と同じくらい良い関係になりますが、一方の値を増やすと、もう一方の値はおそらく下がるでしょう。

0.2は、良好な関係ではないことを意味します。つまり、一方の値が上がっても、もう一方の値が上がることを意味するわけではありません。

良い相関関係とは何ですか?用途にもよりますが、良い相関関係と呼ぶに は少なくとも0.6(または) 必要があると言っても過言ではありません。-0.6

完全な相関関係:

「Duration」と「Duration」が数値1.000000を取得していることがわかります。これは理にかなっています。各列は常にそれ自体と完全な関係にあります。

良い相関関係:

「持続時間」と「カロリー」には0.922721相関関係があり、これは非常に良好な相関関係です。運動時間が長くなるほど、燃焼するカロリーが増えると予測できます。逆に、大量のカロリーを燃焼した場合は、おそらく長い間働いていたでしょう。

悪い相関関係:

「Duration」と「Maxpulse」には0.009403相関関係がありますが、これは非常に悪い相関関係です。つまり、ワークアウトの期間だけを見て最大パルスを予測することはできません。その逆も同様です。


エクササイズで自分をテストする

エクササイズ:

DataFrameの列間の関係を見つけるための正しい構文を挿入します。

df.()


w3schools CERTIFIED . 2021

認定を受けましょう!

Pandasモジュールを完了し、演習を行い、試験を受けると、w3schoolsの認定を受けます。

$ 10登録