機械学習-データ配信
データ配信
このチュートリアルの前半では、さまざまな概念を理解するために、例で非常に少量のデータを使用しました。
現実の世界では、データセットははるかに大きくなりますが、少なくともプロジェクトの初期段階では、現実のデータを収集するのは難しい場合があります。
ビッグデータセットを取得するにはどうすればよいですか?
テスト用のビッグデータセットを作成するには、PythonモジュールNumPyを使用します。このモジュールには、任意のサイズのランダムデータセットを作成するためのさまざまなメソッドが付属しています。
例
0から5までの250のランダムフロートを含む配列を作成します。
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
ヒストグラム
データセットを視覚化するために、収集したデータを使用してヒストグラムを描画できます。
PythonモジュールMatplotlibを使用してヒストグラムを描画します。
MatplotlibチュートリアルでMatplotlibモジュールについて学びます。
例
ヒストグラムを描く:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
結果:
ヒストグラムの説明
上記の例の配列を使用して、5本の棒でヒストグラムを描画します。
最初のバーは、配列内の0から1までの値の数を表します。
2番目のバーは、1から2までの値の数を表します。
等。
これにより、この結果が得られます。
- 52の値は0から1の間です
- 48の値は1から2の間です
- 49の値は2から3の間です
- 51の値は3から4の間です
- 50の値は4から5の間です
注:配列値は乱数であり、コンピューターでまったく同じ結果を表示することはありません。
ビッグデータの配布
250個の値を含む配列はそれほど大きなものとは見なされませんが、ランダムな値のセットを作成する方法がわかったので、パラメーターを変更することで、必要なだけ大きなデータセットを作成できます。
例
100000の乱数を含む配列を作成し、100本の棒のヒストグラムを使用してそれらを表示します。
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()