2012/08/22

KY法によるクラスタリング: Clustering by the KY-methods

◆ KY法を用いたクラスタリング


◇ KY法の基本原理に基づいたサンプリング:
  従来手法には無い基準に基づいて導かれるクラスタリング

  KY法の本質は、二クラス分類では「常に完全分類を実現すること」、またフィッティング(重回帰)では「極めて高い相関および決定係数の実現」となります。 KY法のサンプル群をより小さなグループに順番に分けてゆくという基本原理から、サンプル群のクラスター化(グループ化)が可能です。このクラスタリングに関しても、KY法を基本とすることで従来手法には無い極めて優秀な特性を有した手法となります。ています。 
  以下にこのKY法を利用したクラスタリングについて簡単にまとめます。

  「KY法」を用いたクラスタリングの大きな特徴が以下の二点です。

1.サンプル群の、分類やフィッティング基準に従ったクラスタリングが可能
  ・ 二クラス分類の場合、クラス間重なりの無い二つのグループに分けられる。
  ・ フィッティング(重回帰)の場合、残差の大きなサンプル群と小さなサンプル群へと分けられる

 通常のクラスタリングでは、アルゴリズムから考えればわかりますが、出来たクラスター同士は相互に重なっているか近接していることが殆どです。しかし、KY法により形成されたクラスターは相互に重なることはありません。 個々のクラスターは互いに完全に独立しており、重なって存在することはありません。

2.階層構造に従ったサンプル群の分類
  ・二クラス分類の場合、個々のステップ(繰り返し操作の基本となる単位)毎にサンプル群が分
   けられる。 従って、サンプルは判別関数からの距離に従って階層づけられてクラスター化さ
   れる。
  ・フィッティング(重回帰)においては、回帰式からの距離の程度に従ってクラスタリングされる。


◇ KY法によるクラスタリングの基本:教師付き(Supervised learning)クラスタリング

 

KY法自体は目的変数を持ったデータ解析手法である。 従って、KY法によるクラスタリングは、目的変数の情報に従ってサンプル群がクラスター化されますので、従来のからのクラスタリング手法とは内容が全く異なる手法となります。 
  従って、KY法によるクラスタリングは最初に解析目的とした教師データに基づく学習が基本となります。 一般的に、通常のクラスタリングは教師データが存在しない状態で行われます(Unsupervised learning)ので、KY法によるクラスタリングは目的変数の情報を基本としてクラスタリングされるという観点で、従来からのクラスタリング手法とは根本から異なります。

 以下に、KY法によるクラスタリングの基本を簡単にまとめます。今回説明に用いた例は、二本のモデル(判別関数)を用いたKY法です。

図1.
上図は二本のモデル(判別関数)を用いた二クラス分類KY法の基本概念図です。 この図からもわかるように、全サンプルがクラス間重なりの無い両サイドのクラスターと、クラスサンプル同士の重なりがあるクラスター(gray zone) とに分割されています。

図2.
先の図1で、両脇に位置するサンプル群は、クラス間重なりのない純粋に一つのクラスだけに帰属されるサンプル群で構成されていることがわかります。 本来は一つのサンプル空間上で混在して存在していたものが、同じサンプル空間でも両脇のサンプル群のみを取り出すことで、クラス間重なりのないきれいなサンプル空間(クラスター)に分類出来たこととなります。
 このクラスタリングは、本来有する目的変数の情報に従い、サンプル群を混在のないクリーンなサンプル群にクラスター化したものです。

図3.

 最後に残ったサンプル群は、クラス間重なりが発生しているサンプル空間となっていることが分かります。この結果、二モデルKY法の実行過程で、サンプル群が目的変数の情報に従って大きく3グループ(クラスター)に分けられたことが分かります。

図4.


 KY法の重要な特徴として、ここで述べたようなサンプル群の3グループへの再配分の機能がありますが、KY法を構成するもう一つの特徴である、繰り返し操作により、サンプル群がより小さなクラスターへと分割されてゆきます。この、個々の過程(ステップ)で実施されるKYクラスタリングにより、グレー領域として一つのクラスターとしてまとめられていたサンプル群が、再びクリーンなクラスター二個と重なりの存在するクラスターの3グループにクラスターされます。
 この時、今回のステップで用いたサンプル群はひとつ前のステップでクラス間重なりの存在する、グレー領域サンプルとしてクラスター化されたサンプル群です。これらのサンプル群は一つ先の
ステップで構築されたサンプルからみると、一段階下に存在するサンプル群(クラスター)となり、ステップ単位で作成される3種類のクラスターが互いに階層化していることが分かります。


◇ KY法によるクラスタリングの特徴


 以上の説明からもわかりますように、KY法によるクラスタリングは、従来のクラスタリング手法とはクラスタリング原理が全く異なる事がわかります。この結果として、クラスタリングされた個々の
クラスターはクラス間重なりのないクリーンなクラスーを形成し、かつステップ毎のクラスターサンプル同士が階層的な関係を有していることが分かります。
 さらに、多くのクラスタリング手法は分類のための基準を持たない、いわゆる教師無し学習タイプで、要因発見型のクラスタリングであるのに対し、KY法によるクラスタリングは目的変数に従ったクラスタリングを行う教師付き学習という極めて珍しいタイプのクラスタリング手法となることが分かります。