機械学習-標準偏差
標準偏差とは何ですか?
標準偏差は、値がどの程度広がっているかを表す数値です。
標準偏差が低いということは、ほとんどの数値が平均(平均)値に近いことを意味します。
標準偏差が高いということは、値がより広い範囲に分散していることを意味します。
例:今回は7台の車の速度を登録しました:
speed = [86,87,88,86,87,85,86]
標準偏差は次のとおりです。
0.9
ほとんどの値が平均値86.4から0.9の範囲内にあることを意味します。
より広い範囲の数値を選択して同じことを行いましょう。
speed = [32,111,138,28,59,77,97]
標準偏差は次のとおりです。
37.85
ほとんどの値が平均値77.4から37.85の範囲内にあることを意味します。
ご覧のとおり、標準偏差が高いほど、値がより広い範囲に広がっていることを示しています。
NumPyモジュールには、標準偏差を計算する方法があります。
例
NumPystd()
メソッドを使用して、標準偏差を見つけます。
import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)
例
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
分散
分散は、値がどの程度広がっているかを示すもう1つの数値です。
実際、分散の平方根を取ると、標準偏差が得られます。
または、逆に、標準偏差をそれ自体で乗算すると、分散が得られます。
分散を計算するには、次のようにする必要があります。
1.平均を求めます。
(32+111+138+28+59+77+97) / 7 = 77.4
2.各値について:平均からの差を見つけます。
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138
- 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77
- 77.4 = - 0.4
97 - 77.4 = 19.6
3.それぞれの違いについて:二乗値を見つけます。
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(- 0.4)2 = 0.16
(19.6)2 = 384.16
4.分散は、これらの2乗された差の平均数です。
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16)
/ 7 = 1432.2
幸い、NumPyには分散を計算する方法があります。
例
NumPyvar()
メソッドを使用して、分散を見つけます。
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
標準偏差
私たちが学んだように、標準偏差を見つけるための式は、分散の平方根です。
√1432.25 = 37.85
または、前の例のように、NumPyを使用して標準偏差を計算します。
例
NumPystd()
メソッドを使用して、標準偏差を見つけます。
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
記号
標準偏差は、多くの場合、記号Sigma: σで表されます。
分散は、多くの場合、記号Sigma Squareで表されます:σ2
章のまとめ
標準偏差と分散は機械学習でよく使用される用語であるため、それらを取得する方法とその背後にある概念を理解することが重要です。