2012/08/22

KY法によるクラスタリング: Clustering by the KY-methods

◆ KY法を用いたクラスタリング


◇ KY法の基本原理に基づいたサンプリング:
  従来手法には無い基準に基づいて導かれるクラスタリング

  KY法の本質は、二クラス分類では「常に完全分類を実現すること」、またフィッティング(重回帰)では「極めて高い相関および決定係数の実現」となります。 KY法のサンプル群をより小さなグループに順番に分けてゆくという基本原理から、サンプル群のクラスター化(グループ化)が可能です。このクラスタリングに関しても、KY法を基本とすることで従来手法には無い極めて優秀な特性を有した手法となります。ています。 
  以下にこのKY法を利用したクラスタリングについて簡単にまとめます。

  「KY法」を用いたクラスタリングの大きな特徴が以下の二点です。

1.サンプル群の、分類やフィッティング基準に従ったクラスタリングが可能
  ・ 二クラス分類の場合、クラス間重なりの無い二つのグループに分けられる。
  ・ フィッティング(重回帰)の場合、残差の大きなサンプル群と小さなサンプル群へと分けられる

 通常のクラスタリングでは、アルゴリズムから考えればわかりますが、出来たクラスター同士は相互に重なっているか近接していることが殆どです。しかし、KY法により形成されたクラスターは相互に重なることはありません。 個々のクラスターは互いに完全に独立しており、重なって存在することはありません。

2.階層構造に従ったサンプル群の分類
  ・二クラス分類の場合、個々のステップ(繰り返し操作の基本となる単位)毎にサンプル群が分
   けられる。 従って、サンプルは判別関数からの距離に従って階層づけられてクラスター化さ
   れる。
  ・フィッティング(重回帰)においては、回帰式からの距離の程度に従ってクラスタリングされる。


◇ KY法によるクラスタリングの基本:教師付き(Supervised learning)クラスタリング

 

KY法自体は目的変数を持ったデータ解析手法である。 従って、KY法によるクラスタリングは、目的変数の情報に従ってサンプル群がクラスター化されますので、従来のからのクラスタリング手法とは内容が全く異なる手法となります。 
  従って、KY法によるクラスタリングは最初に解析目的とした教師データに基づく学習が基本となります。 一般的に、通常のクラスタリングは教師データが存在しない状態で行われます(Unsupervised learning)ので、KY法によるクラスタリングは目的変数の情報を基本としてクラスタリングされるという観点で、従来からのクラスタリング手法とは根本から異なります。

 以下に、KY法によるクラスタリングの基本を簡単にまとめます。今回説明に用いた例は、二本のモデル(判別関数)を用いたKY法です。

図1.
上図は二本のモデル(判別関数)を用いた二クラス分類KY法の基本概念図です。 この図からもわかるように、全サンプルがクラス間重なりの無い両サイドのクラスターと、クラスサンプル同士の重なりがあるクラスター(gray zone) とに分割されています。

図2.
先の図1で、両脇に位置するサンプル群は、クラス間重なりのない純粋に一つのクラスだけに帰属されるサンプル群で構成されていることがわかります。 本来は一つのサンプル空間上で混在して存在していたものが、同じサンプル空間でも両脇のサンプル群のみを取り出すことで、クラス間重なりのないきれいなサンプル空間(クラスター)に分類出来たこととなります。
 このクラスタリングは、本来有する目的変数の情報に従い、サンプル群を混在のないクリーンなサンプル群にクラスター化したものです。

図3.

 最後に残ったサンプル群は、クラス間重なりが発生しているサンプル空間となっていることが分かります。この結果、二モデルKY法の実行過程で、サンプル群が目的変数の情報に従って大きく3グループ(クラスター)に分けられたことが分かります。

図4.


 KY法の重要な特徴として、ここで述べたようなサンプル群の3グループへの再配分の機能がありますが、KY法を構成するもう一つの特徴である、繰り返し操作により、サンプル群がより小さなクラスターへと分割されてゆきます。この、個々の過程(ステップ)で実施されるKYクラスタリングにより、グレー領域として一つのクラスターとしてまとめられていたサンプル群が、再びクリーンなクラスター二個と重なりの存在するクラスターの3グループにクラスターされます。
 この時、今回のステップで用いたサンプル群はひとつ前のステップでクラス間重なりの存在する、グレー領域サンプルとしてクラスター化されたサンプル群です。これらのサンプル群は一つ先の
ステップで構築されたサンプルからみると、一段階下に存在するサンプル群(クラスター)となり、ステップ単位で作成される3種類のクラスターが互いに階層化していることが分かります。


◇ KY法によるクラスタリングの特徴


 以上の説明からもわかりますように、KY法によるクラスタリングは、従来のクラスタリング手法とはクラスタリング原理が全く異なる事がわかります。この結果として、クラスタリングされた個々の
クラスターはクラス間重なりのないクリーンなクラスーを形成し、かつステップ毎のクラスターサンプル同士が階層的な関係を有していることが分かります。
 さらに、多くのクラスタリング手法は分類のための基準を持たない、いわゆる教師無し学習タイプで、要因発見型のクラスタリングであるのに対し、KY法によるクラスタリングは目的変数に従ったクラスタリングを行う教師付き学習という極めて珍しいタイプのクラスタリング手法となることが分かります。





2012/08/04

◇ KY法(K-step Yard sampling methods)の名称について: About the name of the KY method

◇ KY法(K-step Yard sampling methods)となる必須事項:
Two Indispensable matter which configures the KY method
    KY法(K-step Yard sampling methods)という名前ですが、これは株式会社 インシリコデータの湯田が開発した、従来の多変量解析/パターン認識手法にはない、極めて優れた特性を有する新しいデータ解析手法の総称です。
    KY法となるための根拠は大きく二つあります。一つは多段階の繰り返し操作を伴う解析手法であることです。これは、KY法の名前のK-stepというところで表現されています。残る一つが、サンプル群の再構成を行い、より小さなスペースにサンプル群を再分類するという操作を伴う事です。これは、サンプル群全体をより小さな箱庭的なところ(Yard)に閉じ込めるという手順です。従って、この操作が、Yard samplingという表現で示されています。
    先にも述べましたように、KY法は現在二クラス分類で3種類、フィッティング(重回帰)手法として3種類の、計6種類(特許取得済み、および出願中:日本、米国、EU、韓国)開発されています。これら6種類のKY法は、すべて下記の二つの条件を満たしたデータ解析手法です。

  1.多段階繰り返し手法 (K-step):
       The multi-step repeating technique

2-model KY-method

 2.より小さなサンプル空間への作り直し (Yard sampling):
   Remaking of more smaller sample space

                                                               2-model KY-method

*余談1: KY法は上記の名前の付け方がフォーマルなのですが、実は伏線があります。KY法のKYは私の名前のイニシャル(Kohtaro Yuta)でもあります。私はすでにいくつか新しいデータ解析手法を発明していますが、どちらかというと改良法的なもので、データ解析結果を劇的に向上するというものではありませんでした。これに対し、KY法はデータ解析結果を劇的に向上させることが出来る極めて優れた手法なので、これは自分の名前を残しておきたいなーと考えて、イニシャルのKYをイメージしてつけました。
私をよく知っている人には、あの「KY]法の名前は自分の名前のイニシャルをつけたんでしょう、とよく言われました。正式名称はK-step Yard sampling methods ですね。

*余談2: KY法が開発され、学会等で最初に発表した当時は、世の中に「KY」という言葉が非常に有名になりつつある頃でした。「KY法」と言うと、手法自体のイメージが悪くなるよとよく言われました。 この社会的な状況を詳しく知らない私は、当時なぜか「KY]という言葉が知名度が高いので不思議に思っていたのですが、理由を知って納得しました。でも、発明者もKYな性格で、名前もKY、さらにはこの手法自体が従来の多変量解析/パターン認識の常識を超えた、いわゆる「KY」な手法なので、ちょうどいいやーと妙に納得したものでした。

*余談3:  K-stepは普通に考えるとMulti-stepですが、なんとかKにしたかったので、いろいろ考えました。 殆ど無理かなーと思っていたのですが、よく考えたら多変量解析/パターン認識手法の一つとしてK-NN法(最近隣法)があることを思い出しました。そこで、若干ニュアンスが異なりますが、このK-NNの様式を見習って繰り返しのところをK-stepとしました。