機械学習-データ配信

❮ 前次 ❯

データ配信

このチュートリアルの前半では、さまざまな概念を理解するために、例で非常に少量のデータを使用しました。

現実の世界では、データセットははるかに大きくなりますが、少なくともプロジェクトの初期段階では、現実のデータを収集するのは難しい場合があります。

ビッグデータセットを取得するにはどうすればよいですか？

テスト用のビッグデータセットを作成するには、PythonモジュールNumPyを使用します。このモジュールには、任意のサイズのランダムデータセットを作成するためのさまざまなメソッドが付属しています。

例

0から5までの250のランダムフロートを含む配列を作成します。

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

ヒストグラム

データセットを視覚化するために、収集したデータを使用してヒストグラムを描画できます。

PythonモジュールMatplotlibを使用してヒストグラムを描画します。

MatplotlibチュートリアルでMatplotlibモジュールについて学びます。

例

ヒストグラムを描く：

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

結果：

ヒストグラムの説明

上記の例の配列を使用して、5本の棒でヒストグラムを描画します。

最初のバーは、配列内の0から1までの値の数を表します。

2番目のバーは、1から2までの値の数を表します。

等。

これにより、この結果が得られます。

52の値は0から1の間です
48の値は1から2の間です
49の値は2から3の間です
51の値は3から4の間です
50の値は4から5の間です

注：配列値は乱数であり、コンピューターでまったく同じ結果を表示することはありません。

ビッグデータの配布

250個の値を含む配列はそれほど大きなものとは見なされませんが、ランダムな値のセットを作成する方法がわかったので、パラメーターを変更することで、必要なだけ大きなデータセットを作成できます。

例

100000の乱数を含む配列を作成し、100本の棒のヒストグラムを使用してそれらを表示します。

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()

❮ 前次 ❯

Pythonチュートリアル

ファイル処理

Pythonモジュール

Python Matplotlib

機械学習

Python MySQL

Python MongoDB

Pythonリファレンス

モジュールリファレンス

Pythonハウツー

Pythonの例