データクラスター

クラスター

クラスターは、類似性に基づくデータのコレクションです。

グラフにまとめられたデータポイントは、多くの場合、クラスターに分類できます。

以下のグラフでは、3つの異なるクラスターを区別できます。

クラスターは多くの貴重な情報を保持できますが、クラスターにはさまざまな形があります。それでは、クラスターをどのように認識できるでしょうか。

2つの主な方法は次のとおりです。

クラスタリングは、教師なし学習の一種です。

クラスタリングは次のことを試みています。

密度法では、密度の高い領域のポイントは、密度の低い領域のポイントよりも類似点と相違点が多いと見なされます。密度法は精度が良いです。また、クラスターをマージする機能もあります。
2つの一般的なアルゴリズムは、DBSCANとOPTICSです。

階層的方法は、ツリー型の構造でクラスターを形成します。新しいクラスターは、以前に形成されたクラスターを使用して形成されます。
2つの一般的なアルゴリズムは、CUREとBIRCHです。

グリッドベースの方法は、グリッドのような構造を形成する有限数のセルにデータを定式化します。
2つの一般的なアルゴリズムはCLIQUEとSTINGです

パーティション化方法は、オブジェクトをk個のクラスターに分割し、各パーティションが1つのクラスターを形成します。
一般的なアルゴリズムの1つはCLARANSです。

相関係数（r）は、散布図の線形関係とx / y変数の強度と方向を表します。

rの値は常に-1から+1の間です。

パーフェクトアップヒル+1.00：

パーフェクトダウンヒル-1.00：

強い上り坂+0.61：

関係なし：