機械学習-散布図
散布図
散布図は、データセットの各値がドットで表されている図です。
Matplotlibモジュールには、散布図を描画するためのメソッドがあり、同じ長さの2つの配列が必要です。1つはx軸の値用で、もう1つはy軸の値用です。
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x
配列は、各車の年齢を表します。
y
配列は、各車の速度を表します。
例
この方法を使用してscatter()
、散布図を描画します。
import matplotlib.pyplot as plt
x =
[5,7,8,7,2,17,2,9,4,11,12,9,6]
y =
[99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()
結果:
散布図の説明
x軸は年齢を表し、y軸は速度を表します。
図からわかるのは、最も速い2台の車は両方とも2年前であり、最も遅い車は12年前であったということです。
注:車が新しいほど速く運転できるようですが、それは偶然かもしれません。結局、登録した車は13台だけでした。
ランダムなデータ分布
機械学習では、データセットに数千、さらには数百万の値を含めることができます。
アルゴリズムをテストしているときは、実際のデータがない可能性があります。ランダムに生成された値を使用する必要がある場合があります。
前の章で学んだように、NumPyモジュールはそれを助けることができます!
正規データ分布からの1000個の乱数で満たされた2つの配列を作成しましょう。
最初の配列の平均は5.0に設定され、標準偏差は1.0になります。
2番目の配列の平均は10.0に設定され、標準偏差は2.0になります。
例
1000ドットの散布図:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0,
1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()
結果:
散布図の説明
ドットがx軸の値5とy軸の値10の周りに集中していることがわかります。
また、x軸よりもy軸の方が広がりが広いことがわかります。