データサイエンス-統計の分散

分散

分散は、値がどの程度広がっているかを示すもう1つの数値です。

実際、分散の平方根を取ると、標準偏差が得られます。または、逆に、標準偏差をそれ自体で乗算すると、分散が得られます。

最初に、10個の観測値を含むデータセットを使用して、分散を計算する方法の例を示します。

間隔	Average_Pulse	Max_Pulse	Calorie_Burnage	Hours_Work	Hours_Sleep
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

分散は、多くの場合、記号Sigma Squareで表されます：σ^ 2

分散を計算するためのステップ1：平均を見つける

Average_Pulseの分散を見つけたいと思います。

1.平均を求めます。

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

平均は102.5です

ステップ2：各値について-平均からの差を見つける

2.各値の平均からの差を見つけます。

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

ステップ3：それぞれの違いについて-二乗値を見つける

3.各差の二乗値を見つけます。

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

注：合計スプレッドを取得するには、値を2乗する必要があります。

ステップ4：分散はこれらの2乗値の平均数です

4.二乗値を合計し、平均を求めます。

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

分散は206.25です。

Pythonを使用してhealth_dataの分散を見つける

Numpyの関数を使用してvar()、分散を見つけることができます（10個の観測値を持つ最初のデータセットを使用していることを思い出してください）。

例

import numpy as np

var = np.var(health_data)
print(var)

出力：

Pythonを使用して完全なデータセットの分散を見つける

ここでは、完全なデータセットの各列の分散を計算します。

例

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

出力：

❮ 前次 ❯