AIデータ
人工知能プロジェクトの最大80%は、データの収集に関するものです。
- どのようなデータが必要ですか?
- どのようなデータが利用できますか?
- データの選び方は?
- データを収集する方法は?
- データをクリーンアップする方法は?
- データを準備する方法は?
- データの使い方は?
データとは何ですか?
データにはさまざまなものがあります。人工知能では、それは事実の集まりでなければなりません:
タイプ | 例 |
---|---|
数字 | 価格。日付。 |
測定 | サイズ。高さ。重さ。 |
言葉 | 名前と場所。 |
観察 | 車を数える。 |
説明 | 寒いです。 |
インテリジェンスにはデータが必要
ヒューマンインテリジェンスにはデータが必要です。
不動産ブローカーは、価格を見積もるために売却された住宅に関するデータを必要としています。
人工知能にはデータが必要です:
コンピュータプログラムには、価格を見積もるためのデータも必要です。
データの保存
収集する最も一般的なデータは、数値と測定値です。
多くの場合、データは値間の関係を表す配列に格納されます。
この表には、住宅価格とサイズが含まれています。
価格 | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
サイズ | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
定量的vs.定性的
定量的データは数値です:
- 55台
- 15メートル
- 35人の子供
定性的データは記述的です:
- 寒いです
- 長いです
- 楽しかった
国勢調査またはサンプリング
国勢調査とは、グループのすべてのメンバーのデータを収集することです。
サンプルは、グループの一部のメンバーのデータを収集する場合です。
アメリカ人が何人タバコを吸っているのか知りたい場合は、米国内のすべての人に尋ねるか(国勢調査)、10000人に尋ねることができます(サンプル)。
国勢調査は正確ですが、実行するのは困難です。サンプルは不正確ですが、実行する方が簡単です。
サンプリング条件
人口とは、情報を収集したい個人(オブジェクト)のグループです。
国勢調査は、人口のすべての個人に関する情報です。
サンプルは、母集団の一部に関する情報です(すべてを表すため)。
ランダムサンプル
サンプルが母集団を表すためには、ランダムに収集する必要があります。
ランダムサンプルは、母集団のすべてのメンバーがサンプルに現れる可能性が等しいサンプルです。
サンプリングバイアス
サンプリングバイアス(エラー)は、一部の個人がサンプルに含まれる可能性が低い(または多い)ような方法でサンプルが収集された場合に発生します。