◆ 2モデルKY法(二クラス分類)の基本原理について書きます(1/3)。
Detailed execution process of the '2 model KY method for binary classification' will be discussed and explained hear (1/3)
1.「KY法」の基本原理について簡単にまとめますデータ解析手法的に「KY法」は大きく二クラス分類手法とフィッティング(重回帰)手法に分かれます。それぞれに複数のアプローチがあり、現時点では二クラス分類手法として3種類のアプローチが、またフィッティング手法として3種類のアプローチがあります。
これらの手法は全て従来より展開されているデータ解析手法を用いて展開することが可能です。従って、特に「KY法」として全く新しいソフトウエアが必要というわけではありません。しかし、従来のデータ解析手法を「KY法」の計算エンジンとして使う場合には少し特殊な使い方が必要となります。ここでは、従来手法を「KY法」の基本的な考え方や手順等について簡単にまとめます。この説明後に「KY法」を実施する具体的な手順を紹介いたします。
「KY法」にはいくつものアプローチがあると申しましたが、ここで説明する「KY法」はクラス分類特性が互いに正反対の関係にある二本のモデル(判別関数)を用いて行う二クラス分類手法です。他の「KY法」と区別するため、「2モデルKY法(二クラス分類)」として説明いたします。
ここで述べる「2モデルKY法」の詳しい実行手順は米国特許および日本特許にて詳細に述べてありますので、そちらを参照してもらえば2モデルKY法の実行が可能であり、強力な分類結果を実感できます。手順が分かれば、従来手法では分類出来なかったサンプル群等に適用いただければ常に100%分類が実現されます。
KY法は開発されたばかりで、データ解析事例は現時点で2例しかありません。従って現在は、Journalへの投稿や学会等での発表もしやすい環境にあります。発表にあたっては、KY法の実施過程での感想や評価も加えれば、今後のKY法展開の支えとなるでしょう。
1.二本のモデル(判別関数)によるサンプル空間の3領域への分割と、二本のモデル(判別関数)の分類特性の違いについて
1.1 「2モデルKY法」で用いられるAPおよびANの二本のモデル(判別関数)の分類特性
従来の判別分析に用いられるモデル(判別関数)は一本だけでした。しかし、「KY法」では二本のモデル(判別関数)を利用します。しかもこれら二本のモデルはポジおよびネガクラスサンプルに対する分類特性が正反対(ANモデル(ネガサンプルの100%分類のみ保障)、APモデル(ポジサンプルの100%分類のみ保障))という特殊なものです。
ポジとネガのサンプルによる二クラス分類に「KY法」を適用する場合について述べる。
「KY法」実施の第一ステップとして、左図からわかるように、ポジ領域とネガ領域の他にポジとネガサンプルが混在する領域(グレー領域)の3つの異なるサンプル空間に分ける事が必要である。この3領域への分割のために利用される二種類の判別関数(AP:All PositiveおよびAN:All Negative)は、分類目的であるポジとネガサンプルに対する分類特性が全く正反対のものを利用します。このように、KY法の実施には二本の特殊なモデル(判別関数)を構築することが必要です。
通常の多変量解析/パターン認識手法を用いて二クラス分類を行うと、創出される判別関数は両方のクラスを最も効率よく分類する判別関数を構築します。
つまり、もともとのN次元サンプル空間が完全に二つに分割されているならば、判別関数は二つのクラスサンプルを2分割するきれいな識別線を引いてくれます。
しかし、サンプル数が増えたり、あるいはクラスサンプル同士がサンプル空間上で大きく重複している場合、創出される判別関数は左の図にあるようにポジとネガが重複している空間上に引かれることになります。 このような状態では、100%(完全)分類を実現することは極めて困難です。
このような事実から、全体のサンプル空間の両端にあるクラス間重複のない二つのサンプル空間と重複している空間(グレー空間と呼び、この空間に存在するサンプルのクラス決定は行わない)を分けることで、両端のサンプル群について100%(完全)分類を実現する。これがKY法の大きな二本の柱のうちの一つです。
左図にあるようにAN(All Negative)モデルは、全てのネガ(図中X)サンプルを100%正しく分類(赤いANモデル線の右側の空間)します。しかし、このANモデルはポジ(図中O)サンプルの分類に関してはなにも保証していません。それどころか、ネガサンプルの完全分類保障のためにANモデルの位置はネガサンプル領域どころか、ネガとポジサンプルの重複区間の端まで移動しています。この結果、ポジサンプルに関しての分類率は極端に低くなります。
すなわち、ANモデルはネガサンプルのみの完全分類を保証するモデル(判別関数)であって、ポジサンプルの保証は行わないという偏ったクラス分類特性を有するモデルです。
ポジとネガの二種類のサンプル群から構成されるサンプル空間の分類には、上図でしめされるようなネガサンプルだけの分類保障だけでは不十分で、もうひとつのクラスであるポジサンプル群についても完全分類を保証することが必要となります。このポジ(図中O)サンプルの分類を保証するものがAP(All Positive)モデルです。
左図は、先のANモデルを説明した時に用いたサンプル空間を用いてAPモデルを構築した時のAPモデル(図中青い線)の様子が示されています。
左図からもわかりますように、、ポジサンプル(図中O)については100%完全分類を保証(青いAPモデル線の左側の空間)するが、ネガサンプルについての分類はなにも保証しません。
即ちAPモデル(判別関数)とは、ポジサンプルの100%(完全)分類を保証しますがネガサンプルの分類は保証しないという分類特性を有し、この分類特性はANモデルと正反対の特性となります。
以上の基本からわかりますように、「2モデルKY法(二クラス分類)」の最大の特徴は、モデル(判別関数)の分類特性が正反対のものを二本用いて分類することにあります。このアプローチは、 従来手法では一本のモデル(判別関数)のみを用いて全サンプルを分類していたものとは全く異なっています。
この、互いに分類特性の異なる二本のモデル(判別関数)を構築する基本原理と具体的手順は次に(2/3)説明いたします。
「KY法」が従来手法と異なるもう一つの特徴は、サンプル分類過程で繰り返し分類(学習のための繰り返し計算ではありません)を行う事です。これは、3/3でまとめます。