2012/07/07

2モデルKY法(二クラス分類)実行(繰り返し操作)手順(3/3):Execution process of '2 Model KY-method for binary classification' (3/3)

◆ 「2モデルKY法(二クラス分類)」における、繰り返し演算の操作手順(3/3):

Operating procedure of the iterated process of the "2 Model KY method for binary classification"


    先に説明した、 1/3で「KY法」の大まかな構成と、全体的な流れと注目ポイントについて述べました。また、2/3では「KY法」の基本の一つとなるサンプル群をより小さなグループに分ける(Yard sampling)ことと、この分割を行う目的で、クラス分類特性が正反対の関係にある二本の判別関数(APモデルとANモデル)の創出方法についてまとめました。 また、これら分類特性が特殊な判別関数は、通常利用している判別分析ソフトを用いて構築可能であることもお分かりになったかと思います。 
    これら二本の特殊な判別関数の構築原理が「不均衡データ(Imbalanced Data)」の特殊性にあり、このような特殊な状況下にある場合に創出される判別関数の特性(クラス分類に偏りが生じること)を利用して創出できる事がお分かりになったかと思います。

    先の2/3の操作説明で、サンプル群をポジとネガの二つのグループに分類する二クラス分類では、APおよびANの二本の判別関数を用いて、ポジ領域とネガ領域、そして現在の判別関数ではクラス決定が出来ないサンプル群が落ち込むグレーゾーンの三領域に分類することが書かれていました。
    この時点で、ポジおよびネガ領域に落ち込んだサンプル群の帰属クラスは最終決定となりますが、グレーゾーンに落ち込んだサンプル群のクラスは決定されていません。「KY法」の実施では、グレーゾーンに落ち込んだサンプル群の帰属クラスを決定することが必要です。このグレーゾーンに落ち込んだサンプル群の帰属についてこの3/3で説明します。

◆ 適用分野の差異によるグレーゾーンの割合の変化:
Change of the ratio of the 'gray zone' by the difference of the application field
  現在行われている判別分析では、分類が完全でなくともとりあえず、全てのサンプル群をどちらかのクラスに帰属して結果を出します。この結果、あいまいなままクラス決定がなされるために分類率が大幅に減少することとなります。

    「KY法」では現時点でクラス帰属が出来るものだけを帰属させます。しかし、現時点ではクラス帰属が決定出来ないサンプル判別関数無理に帰属させず、帰属が出来ない領域である「グレーゾーン」のサンプルとして取り扱います。従って、各時点では帰属が決定したサンプル群は100%正しく帰属されていることになります。帰属が決定されていない「グレーゾーン」に落ち込んだサンプル群は、帰属可能となる条件が満たされるまで帰属が先送りされます。
    グレーゾーンに残るサンプルの割合が全体の数%レベルの時はこんpクラス決定が出来ないことによる悪影響は殆ど問題になりませんが、この「グレーゾーン」のサンプルの割合が大きくなってくると、非常に大きな問題となります。
    例えば、安全性(毒性)研究等の分野ではきれいにポジ(毒性あり)とネガ(毒性なし)サンプル群に分割できることは少なく、殆どの場合ポジとネガが混在する領域(即ち「グレーゾーン」)が存在します。なおかつ、安全性(毒性)研究分野では多くの場合、この「グレーゾーン」の割合が極めて大きく、極端な場合だと90%以上が「ググレーゾーン」に帰属されてしまうことが頻発します。このような状態では、先の2/3で述べた、3グループに分ける手順だけでは分類が完成したという事にはなりません。

「グレーゾーン」の割合のイメージ図
安全性研究分野では、この「グレーゾーン」の割合が他の研究分野と比較して極めて高い

    「グレーゾーン」に帰属されたサンプルが多くなると、この「グレーゾーン」に帰属されたサンプル群をそのままにしておくことはできません。なんらかの形でクラス決定を行う事が必要です。

◆ 「グレーゾーン」に落ち込んだサンプル群の繰り返し操作手順による完全分類の実現:
Realization of the perfect classification by the repetitive operation of the samples which fell in the "gray zone"
    「グレーゾーン」に帰属されたサンプル群のクラス決定は、別のデータ解析手法に持ってゆくこと等を含めていろいろと考えられますが、一つの手法でクラス帰属が出来なかったサンプル群を他のデータ解析手法に持っていってもやはり同様に分類は困難であることは明らかです。
    そこで、ダメ元でこの「グレーゾーン」のサンプル群を初期サンプルデータセットとし、再び2/3の「Y法(Yard sampling)」を適用してみました。すると不思議な事に、一つの「グレーゾーン」に落ち込んでいたサンプル群が、その両端にポジおよびネガ帰属サンプル群を形成し、新たな3グループに分かれました。このようになることはあまり期待していなかったので、驚くと同時にこれで完全分類への可能性が出来たと本当に喜びました。あとは、「グレーゾーン」が無くなるまでこの手続きを繰り返せばよいこととなります。
    残る唯一の不安な点は、実際にこのようなことが最後まで繰り返し起こるのかという事でした。たまたま偶然に3グループに分けられたもので、それ以降は分けられないかもしれないという不安がありました。そこで、この繰り返し手続きを繰り返して実行したところ、データ解析に用いた約7000ものサンプルが23回の繰り返しで「グレーゾーン」が完全になくなりました。つまり、22回の「Y法(Yard sampling)」を実施して「グレーゾーン」が無くなり、最後の23回目は通常の二クラス分類でポジおよびネガサンプルの二クラスに完全に分けることが出来ました。これで、約7000サンプルの完全分類が実現したこととなります。この7000サンプル(Ames testサンプル)の「KY法」による完全分類の詳細については別の機会に報告します。
    この計算手順は、同じ操作を繰り返すもので、個々の操作過程を「ステップ(Step)」として表現する事にします。従って、この繰り返しの状態を示唆する「K」を加えて「K-step」と名前を付けました。従って、新しい手法は2/3の「Y法(Yard sampling)」と合わせて「K-step Yard sampling」、すなわち「KY法」と名づけました。もちろん、私の名前「Kohtaro Yuta」のイニシャルでもあります。

「K-step」手順の概念図
「グレーゾーン」に落ち込んだサンプル群を初期サンプルセットとして「Y法(Yard sampling)」法を
繰り返して実施する様子が示されています

繰り返し手続きの様子

    両脇のサンプル群が取り除かれ、その空っぽの空間目指して「グレーゾーン」のサンプル群からポジおよびネガクラスサンプル群が湧き出るようにして移動している様子を示した図

    上の二つの図により、「グレーゾーン」サンプルが、次のステップで両脇にサンプル群が押し出され、これらのサンプル群がポジとネガできれいに分けられ、同時に新しい「グレーゾーン」が形成されている事がわかります。

◆ 繰り返し操作手順実施上での手続き:
       Procedure on repetitive operation 
  個々のステップで同じ操作を行うと言いましたが、より具体的にその手順を説明します。
    基本は、個々のステップで新たなサンプル空間を作り出すことです。前のステップと次のステップで全く同じサンプル空間を作れば、両脇のサンプル群を取り除いたとしても、新たに発生してくる両脇のサンプル群は大きくはなりません。従って、サンプル空間は個々のステップごとに作り直すという感じで操作する事が必要です。
 〇個々のステップ単位でサンプル空間を新たに作り直す:
       Regenerate sample space by an individual step
     これを実現するためには面倒ですが、新たなステップに突入したらサンプル空間を構成するパラメータ群を新たに作り直すことが必要です。このステップで最も分離率のよい新しいサンプル空間を再構築するのです。これには、新たにパラメータ群についての特徴抽出を実行してこのステップに最も適する(分離率の高い)パラメータ群を決定することが必要となります。
 これらのパラメータ群を決定した後に2/3の手順である「Y法(Yard sampling)」を実施して二本のモデル(APモデルとANモデル)を構築します。


    以上の手順を繰り返し、最終的に「グレーゾン」が無くなるまで続けることで完全分類が実現されます。