データサイエンスおよび（大規模）生成AI情報時代の自律（オートノマス）型研究: ２モデルＫＹ法（二クラス分類手法）の実施原理（１／３）:Execution process of '2 Model KY-method for binary classification' (1/3)

◆　２モデルＫＹ法（二クラス分類）の基本原理について書きます（１／３）。

　Detailed execution process of the '2 model KY method for binary classification' will be discussed and explained hear (1/3)

１．「ＫＹ法」の基本原理について簡単にまとめます
     データ解析手法的に「ＫＹ法」は大きく二クラス分類手法とフィッティング（重回帰）手法に分かれます。それぞれに複数のアプローチがあり、現時点では二クラス分類手法として３種類のアプローチが、またフィッティング手法として３種類のアプローチがあります。
      これらの手法は全て従来より展開されているデータ解析手法を用いて展開することが可能です。従って、特に「ＫＹ法」として全く新しいソフトウエアが必要というわけではありません。しかし、従来のデータ解析手法を「ＫＹ法」の計算エンジンとして使う場合には少し特殊な使い方が必要となります。ここでは、従来手法を「ＫＹ法」の基本的な考え方や手順等について簡単にまとめます。この説明後に「ＫＹ法」を実施する具体的な手順を紹介いたします。
      「ＫＹ法」にはいくつものアプローチがあると申しましたが、ここで説明する「ＫＹ法」はクラス分類特性が互いに正反対の関係にある二本のモデル（判別関数）を用いて行う二クラス分類手法です。他の「ＫＹ法」と区別するため、「２モデルＫＹ法（二クラス分類）」として説明いたします。

      ここで述べる「２モデルＫＹ法」の詳しい実行手順は米国特許および日本特許にて詳細に述べてありますので、そちらを参照してもらえば２モデルＫＹ法の実行が可能であり、強力な分類結果を実感できます。手順が分かれば、従来手法では分類出来なかったサンプル群等に適用いただければ常に１００％分類が実現されます。
      ＫＹ法は開発されたばかりで、データ解析事例は現時点で２例しかありません。従って現在は、Ｊｏｕｒｎａｌへの投稿や学会等での発表もしやすい環境にあります。発表にあたっては、ＫＹ法の実施過程での感想や評価も加えれば、今後のＫＹ法展開の支えとなるでしょう。

１．二本のモデル（判別関数）によるサンプル空間の３領域への分割と、二本のモデル（判別関数）の分類特性の違いについて

１．１　「２モデルＫＹ法」で用いられるＡＰおよびＡＮの二本のモデル（判別関数）の分類特性

     従来の判別分析に用いられるモデル（判別関数）は一本だけでした。しかし、「ＫＹ法」では二本のモデル（判別関数）を利用します。しかもこれら二本のモデルはポジおよびネガクラスサンプルに対する分類特性が正反対（ＡＮモデル（ネガサンプルの１００％分類のみ保障）、ＡＰモデル（ポジサンプルの１００％分類のみ保障））という特殊なものです。

　　ポジとネガのサンプルによる二クラス分類に「ＫＹ法」を適用する場合について述べる。
「ＫＹ法」実施の第一ステップとして、左図からわかるように、ポジ領域とネガ領域の他にポジとネガサンプルが混在する領域（グレー領域）の３つの異なるサンプル空間に分ける事が必要である。この３領域への分割のために利用される二種類の判別関数（ＡＰ：All PositiveおよびＡＮ：All Negative）は、分類目的であるポジとネガサンプルに対する分類特性が全く正反対のものを利用します。このように、ＫＹ法の実施には二本の特殊なモデル（判別関数）を構築することが必要です。

通常の多変量解析／パターン認識手法を用いて二クラス分類を行うと、創出される判別関数は両方のクラスを最も効率よく分類する判別関数を構築します。

　　つまり、もともとのＮ次元サンプル空間が完全に二つに分割されているならば、判別関数は二つのクラスサンプルを２分割するきれいな識別線を引いてくれます。
しかし、サンプル数が増えたり、あるいはクラスサンプル同士がサンプル空間上で大きく重複している場合、創出される判別関数は左の図にあるようにポジとネガが重複している空間上に引かれることになります。　このような状態では、１００％（完全）分類を実現することは極めて困難です。

このような事実から、全体のサンプル空間の両端にあるクラス間重複のない二つのサンプル空間と重複している空間（グレー空間と呼び、この空間に存在するサンプルのクラス決定は行わない）を分けることで、両端のサンプル群について１００％（完全）分類を実現する。これがＫＹ法の大きな二本の柱のうちの一つです。

　　左図にあるようにＡＮ（All Negative）モデルは、全てのネガ（図中Ｘ）サンプルを１００％正しく分類（赤いＡＮモデル線の右側の空間）します。しかし、このＡＮモデルはポジ（図中Ｏ）サンプルの分類に関してはなにも保証していません。それどころか、ネガサンプルの完全分類保障のためにＡＮモデルの位置はネガサンプル領域どころか、ネガとポジサンプルの重複区間の端まで移動しています。この結果、ポジサンプルに関しての分類率は極端に低くなります。
すなわち、ＡＮモデルはネガサンプルのみの完全分類を保証するモデル（判別関数）であって、ポジサンプルの保証は行わないという偏ったクラス分類特性を有するモデルです。
ポジとネガの二種類のサンプル群から構成されるサンプル空間の分類には、上図でしめされるようなネガサンプルだけの分類保障だけでは不十分で、もうひとつのクラスであるポジサンプル群についても完全分類を保証することが必要となります。このポジ（図中Ｏ）サンプルの分類を保証するものがＡＰ（All Positive）モデルです。

　　左図は、先のＡＮモデルを説明した時に用いたサンプル空間を用いてＡＰモデルを構築した時のＡＰモデル（図中青い線）の様子が示されています。
　　左図からもわかりますように、、ポジサンプル（図中Ｏ）については１００％完全分類を保証（青いＡＰモデル線の左側の空間）するが、ネガサンプルについての分類はなにも保証しません。
      即ちＡＰモデル（判別関数）とは、ポジサンプルの１００％（完全）分類を保証しますがネガサンプルの分類は保証しないという分類特性を有し、この分類特性はＡＮモデルと正反対の特性となります。

      以上の基本からわかりますように、「２モデルＫＹ法（二クラス分類）」の最大の特徴は、モデル（判別関数）の分類特性が正反対のものを二本用いて分類することにあります。このアプローチは、　従来手法では一本のモデル（判別関数）のみを用いて全サンプルを分類していたものとは全く異なっています。
      この、互いに分類特性の異なる二本のモデル（判別関数）を構築する基本原理と具体的手順は次に（２／３）説明いたします。
      「ＫＹ法」が従来手法と異なるもう一つの特徴は、サンプル分類過程で繰り返し分類（学習のための繰り返し計算ではありません）を行う事です。これは、３／３でまとめます。

データサイエンスおよび
（大規模）生成AI
情報時代の
自律（オートノマス）型研究

2012/05/07

２モデルＫＹ法（二クラス分類手法）の実施原理（１／３）:Execution process of '2 Model KY-method for binary classification' (1/3)

◆　２モデルＫＹ法（二クラス分類）の基本原理について書きます（１／３）。

Detailed execution process of the '2 model KY method for binary classification' will be discussed and explained hear (1/3)

2012/05/07

２モデルＫＹ法（二クラス分類手法）の実施原理（１／３）:Execution process of '2 Model KY-method for binary classification' (1/3)

◆ ２モデルＫＹ法（二クラス分類）の基本原理について書きます（１／３）。

Detailed execution process of the '2 model KY method for binary classification' will be discussed and explained hear (1/3)

◆　２モデルＫＹ法（二クラス分類）の基本原理について書きます（１／３）。

　Detailed execution process of the '2 model KY method for binary classification' will be discussed and explained hear (1/3)