AI時代の化学・創薬関連研究討論: ＫＹ法によるクラスタリング： Clustering by the KY-methods

◆　ＫＹ法を用いたクラスタリング

◇　ＫＹ法の基本原理に基づいたサンプリング：
　　従来手法には無い基準に基づいて導かれるクラスタリング

　　ＫＹ法の本質は、二クラス分類では「常に完全分類を実現すること」、またフィッティング（重回帰）では「極めて高い相関および決定係数の実現」となります。　ＫＹ法のサンプル群をより小さなグループに順番に分けてゆくという基本原理から、サンプル群のクラスター化（グループ化）が可能です。このクラスタリングに関しても、ＫＹ法を基本とすることで従来手法には無い極めて優秀な特性を有した手法となります。ています。　
　　以下にこのＫＹ法を利用したクラスタリングについて簡単にまとめます。

　　「ＫＹ法」を用いたクラスタリングの大きな特徴が以下の二点です。

１．サンプル群の、分類やフィッティング基準に従ったクラスタリングが可能
　　・　二クラス分類の場合、クラス間重なりの無い二つのグループに分けられる。
　　・　フィッティング（重回帰）の場合、残差の大きなサンプル群と小さなサンプル群へと分けられる

　通常のクラスタリングでは、アルゴリズムから考えればわかりますが、出来たクラスター同士は相互に重なっているか近接していることが殆どです。しかし、ＫＹ法により形成されたクラスターは相互に重なることはありません。　個々のクラスターは互いに完全に独立しており、重なって存在することはありません。

２．階層構造に従ったサンプル群の分類
　　・二クラス分類の場合、個々のステップ（繰り返し操作の基本となる単位）毎にサンプル群が分
　　　けられる。　従って、サンプルは判別関数からの距離に従って階層づけられてクラスター化さ
　　　れる。
　　・フィッティング（重回帰）においては、回帰式からの距離の程度に従ってクラスタリングされる。

◇　ＫＹ法によるクラスタリングの基本：教師付き(Supervised learning)クラスタリング

ＫＹ法自体は目的変数を持ったデータ解析手法である。　従って、ＫＹ法によるクラスタリングは、目的変数の情報に従ってサンプル群がクラスター化されますので、従来のからのクラスタリング手法とは内容が全く異なる手法となります。　
　　従って、ＫＹ法によるクラスタリングは最初に解析目的とした教師データに基づく学習が基本となります。　一般的に、通常のクラスタリングは教師データが存在しない状態で行われます(Unsupervised learning)ので、ＫＹ法によるクラスタリングは目的変数の情報を基本としてクラスタリングされるという観点で、従来からのクラスタリング手法とは根本から異なります。

　以下に、ＫＹ法によるクラスタリングの基本を簡単にまとめます。今回説明に用いた例は、二本のモデル（判別関数）を用いたＫＹ法です。

図１．

上図は二本のモデル（判別関数）を用いた二クラス分類ＫＹ法の基本概念図です。　この図からもわかるように、全サンプルがクラス間重なりの無い両サイドのクラスターと、クラスサンプル同士の重なりがあるクラスター(gray zone) とに分割されています。

図２．

先の図１で、両脇に位置するサンプル群は、クラス間重なりのない純粋に一つのクラスだけに帰属されるサンプル群で構成されていることがわかります。　本来は一つのサンプル空間上で混在して存在していたものが、同じサンプル空間でも両脇のサンプル群のみを取り出すことで、クラス間重なりのないきれいなサンプル空間（クラスター）に分類出来たこととなります。
　このクラスタリングは、本来有する目的変数の情報に従い、サンプル群を混在のないクリーンなサンプル群にクラスター化したものです。

図３．

　最後に残ったサンプル群は、クラス間重なりが発生しているサンプル空間となっていることが分かります。この結果、二モデルＫＹ法の実行過程で、サンプル群が目的変数の情報に従って大きく３グループ（クラスター）に分けられたことが分かります。

図４．

　ＫＹ法の重要な特徴として、ここで述べたようなサンプル群の３グループへの再配分の機能がありますが、ＫＹ法を構成するもう一つの特徴である、繰り返し操作により、サンプル群がより小さなクラスターへと分割されてゆきます。この、個々の過程（ステップ）で実施されるＫＹクラスタリングにより、グレー領域として一つのクラスターとしてまとめられていたサンプル群が、再びクリーンなクラスター二個と重なりの存在するクラスターの３グループにクラスターされます。
　この時、今回のステップで用いたサンプル群はひとつ前のステップでクラス間重なりの存在する、グレー領域サンプルとしてクラスター化されたサンプル群です。これらのサンプル群は一つ先の
ステップで構築されたサンプルからみると、一段階下に存在するサンプル群（クラスター）となり、ステップ単位で作成される３種類のクラスターが互いに階層化していることが分かります。

◇　ＫＹ法によるクラスタリングの特徴

　以上の説明からもわかりますように、ＫＹ法によるクラスタリングは、従来のクラスタリング手法とはクラスタリング原理が全く異なる事がわかります。この結果として、クラスタリングされた個々の
クラスターはクラス間重なりのないクリーンなクラスーを形成し、かつステップ毎のクラスターサンプル同士が階層的な関係を有していることが分かります。
　さらに、多くのクラスタリング手法は分類のための基準を持たない、いわゆる教師無し学習タイプで、要因発見型のクラスタリングであるのに対し、ＫＹ法によるクラスタリングは目的変数に従ったクラスタリングを行う教師付き学習という極めて珍しいタイプのクラスタリング手法となることが分かります。

2012/08/22

ＫＹ法によるクラスタリング： Clustering by the KY-methods

◆ ＫＹ法を用いたクラスタリング

◇ ＫＹ法によるクラスタリングの基本：教師付き(Supervised learning)クラスタリング

◇ ＫＹ法によるクラスタリングの特徴

◆　ＫＹ法を用いたクラスタリング

◇　ＫＹ法によるクラスタリングの基本：教師付き(Supervised learning)クラスタリング

◇　ＫＹ法によるクラスタリングの特徴