データクラスター

  • クラスターは、類似したデータのコレクションです
  • クラスタリングは教師なし学習の一種です
  • 相関係数は、関係の強さを表します。

クラスター

クラスターは、類似性に基づくデータのコレクションです。

グラフにまとめられたデータポイントは、多くの場合、クラスターに分類できます。

以下のグラフでは、3つの異なるクラスターを区別できます。


クラスターの識別

クラスターは多くの貴重な情報を保持できますが、クラスターにはさまざまな形があります。それでは、クラスターをどのように認識できるでしょうか。

2つの主な方法は次のとおりです。

  • 視覚化の使用
  • クラスタリングアルゴリズムの使用

クラスタリング

クラスタリングは、教師なし学習の一種です。

クラスタリングは次のことを試みています。

  • グループで同様のデータを収集する
  • 他のグループで異なるデータを収集する

クラスタリング手法

  • 密度法
  • 階層的方法
  • 分割方法
  • グリッドベースの方法

密度法では、密度の高い領域のポイントは、密度の低い領域のポイントよりも類似点と相違点が多いと見なされます。密度法は精度が良いです。また、クラスターをマージする機能もあります。
2つの一般的なアルゴリズムは、DBSCANとOPTICSです。

階層的方法、ツリー型の構造でクラスターを形成します。新しいクラスターは、以前に形成されたクラスターを使用して形成されます。
2つの一般的なアルゴリズムは、CUREとBIRCHです。

グリッドベースの方法は、グリッドのような構造を形成する有限数のセルにデータを定式化します。
2つの一般的なアルゴリズムはCLIQUEとSTINGです

パーティション化方法、オブジェクトをk個のクラスターに分割し、各パーティションが1つのクラスターを形成します。
一般的なアルゴリズムの1つはCLARANSです。


相関係数

相関係数(r)は、散布図の線形関係とx / y変数の強度と方向を表します

rの値は常に-1から+1の間です。

-1.00完璧な下り坂負の線形関係。
-0.70強い下り坂負の線形関係。
-0.50適度な下り坂負の線形関係。
-0.30弱い下り坂負の線形関係。
0線形関係はありません。
+0.30弱い上り坂正の線形関係。
+0.50中程度の上り坂正の線形関係。
+0.70強い上り坂正の線形関係。
+1.00完璧な上り坂正の線形関係。

パーフェクトアップヒル+1.00

パーフェクトダウンヒル-1.00

'

強い上り坂+0.61

関係なし