AIデータ

人工知能プロジェクトの最大80%は、データの収集に関するものです。

  • どのようなデータが必要ですか?
  • どのようなデータが利用できますか?
  • データの選び方は
  • データを収集する方法は?
  • データをクリーンアップする方法は?
  • データを準備する方法は?
  • データの使い方は

データとは何ですか?

データにはさまざまなものがあります。人工知能では、それは事実の集まりでなければなりません:

タイプ
数字価格。日付。
測定サイズ。高さ。重さ。
言葉名前と場所。
観察車を数える。
説明寒いです。

インテリジェンスにはデータが必要

ヒューマンインテリジェンスにはデータが必要です。

不動産ブローカーは、価格を見積もるために売却された住宅に関するデータを必要としています。

人工知能にはデータが必要です:

コンピュータプログラムには、価格を見積もるためのデータも必要です。


データの保存

収集する最も一般的なデータは、数値と測定値です。

多くの場合、データは値間の関係を表す配列に格納されます。

この表には、住宅価格とサイズが含まれています。

価格7889991011141415
サイズ5060708090100 110120130140150

定量的vs.定性的

定量的データは数値です:

  • 55台
  • 15メートル
  • 35人の子供

定性的データは記述的です:

  • 寒いです
  • 長いです
  • 楽しかった

国勢調査またはサンプリング

国勢調査とは、グループのすべてのメンバーのデータを収集することです。

サンプルは、グループの一部のメンバーのデータを収集する場合です。

アメリカ人が何人タバコを吸っているのか知りたい場合は、米国内のすべての人に尋ねるか(国勢調査)、10000人に尋ねることができます(サンプル)。

国勢調査は正確ですが、実行するのは困難です。サンプルは不正確ですが、実行する方が簡単です。


サンプリング条件

人口とは、情報を収集したい個人(オブジェクト)のグループです

国勢調査は、人口のすべての個人に関する情報です。

サンプルは、母集団の一部に関する情報です(すべてを表すため)


ランダムサンプル

サンプルが母集団を表すためには、ランダムに収集する必要があります。

ランダムサンプルは、母集団のすべてのメンバーがサンプルに現れる可能性が等しいサンプルです


サンプリングバイアス

サンプリングバイアス(エラー)は、一部の個人がサンプルに含まれる可能性が低い(または多い)ような方法でサンプルが収集された場合に発生します