AIデータ

人工知能プロジェクトの最大80％は、データの収集に関するものです。

どのようなデータが必要ですか？
どのようなデータが利用できますか？
データの選び方は？
データを収集する方法は？
データをクリーンアップする方法は？
データを準備する方法は？
データの使い方は？

データとは何ですか？

データにはさまざまなものがあります。人工知能では、それは事実の集まりでなければなりません：

タイプ	例
数字	価格。日付。
測定	サイズ。高さ。重さ。
言葉	名前と場所。
観察	車を数える。
説明	寒いです。

インテリジェンスにはデータが必要

ヒューマンインテリジェンスにはデータが必要です。

不動産ブローカーは、価格を見積もるために売却された住宅に関するデータを必要としています。

人工知能にはデータが必要です：

コンピュータプログラムには、価格を見積もるためのデータも必要です。

データの保存

収集する最も一般的なデータは、数値と測定値です。

多くの場合、データは値間の関係を表す配列に格納されます。

この表には、住宅価格とサイズが含まれています。

価格	7	8	8	9	9	9	10	11	14	14	15
サイズ	50	60	70	80	90	100	110	120	130	140	150

定量的vs.定性的

定量的データは数値です：

55台
15メートル
35人の子供

定性的データは記述的です：

寒いです
長いです
楽しかった

国勢調査またはサンプリング

国勢調査とは、グループのすべてのメンバーのデータを収集することです。

サンプルは、グループの一部のメンバーのデータを収集する場合です。

アメリカ人が何人タバコを吸っているのか知りたい場合は、米国内のすべての人に尋ねるか（国勢調査）、10000人に尋ねることができます（サンプル）。

国勢調査は正確ですが、実行するのは困難です。サンプルは不正確ですが、実行する方が簡単です。

サンプリング条件

人口とは、情報を収集したい個人（オブジェクト）のグループです。

国勢調査は、人口のすべての個人に関する情報です。

サンプルは、母集団の一部に関する情報です（すべてを表すため）。

ランダムサンプル

サンプルが母集団を表すためには、ランダムに収集する必要があります。

ランダムサンプルは、母集団のすべてのメンバーがサンプルに現れる可能性が等しいサンプルです。

サンプリングバイアス

サンプリングバイアス（エラー）は、一部の個人がサンプルに含まれる可能性が低い（または多い）ような方法でサンプルが収集された場合に発生します。

❮ 前次 ❯

人工知能

数学

統計学

グラフィックス

AIサイエンス

機械学習

TensorFlow

例1

例2

JSグラフィックス