データサイエンス-統計の分散
分散
分散は、値がどの程度広がっているかを示すもう1つの数値です。
実際、分散の平方根を取ると、標準偏差が得られます。または、逆に、標準偏差をそれ自体で乗算すると、分散が得られます。
最初に、10個の観測値を含むデータセットを使用して、分散を計算する方法の例を示します。
間隔 | Average_Pulse | Max_Pulse | Calorie_Burnage | Hours_Work | Hours_Sleep |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
分散は、多くの場合、記号Sigma Squareで表されます:σ^ 2
分散を計算するためのステップ1:平均を見つける
Average_Pulseの分散を見つけたいと思います。
1.平均を求めます。
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
平均は102.5です
ステップ2:各値について-平均からの差を見つける
2.各値の平均からの差を見つけます。
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
ステップ3:それぞれの違いについて-二乗値を見つける
3.各差の二乗値を見つけます。
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
注:合計スプレッドを取得するには、値を2乗する必要があります。
ステップ4:分散はこれらの2乗値の平均数です
4.二乗値を合計し、平均を求めます。
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
分散は206.25です。
Pythonを使用してhealth_dataの分散を見つける
Numpyの関数を使用してvar()
、分散を見つけることができます(10個の観測値を持つ最初のデータセットを使用していることを思い出してください)。
例
import numpy as np
var = np.var(health_data)
print(var)
出力:
Pythonを使用して完全なデータセットの分散を見つける
ここでは、完全なデータセットの各列の分散を計算します。
例
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
出力: