◇現時点でKY法として6種類あります(二クラス分類KY法は3種類、フィッティング(重回帰)KY法は3種類):
There are six approaches as a KY method at present (3 approaches for Binary classification KY and 3 approaches for Fitting (multiple regression) KY)
現時点で二クラス分類(Binary classifier)手法として3種類。また、フィッティング(重回帰:multiple regression analysis)手法として3種類の総計6種類ほど開発されています。すべて「KY法」としての二大特徴、即ち(1.サンプル群のグループ分け、および 2.繰り返しステップの実施)の特徴を有しています。また、これら6種類全ての手法は従来から展開されているデータ解析手法をそのまま利用しますので、新しい解析ソフトを用いる必要はなく、現在展開されているソフト(手法)をそのまま運用することで実施出来る「メタ解析手法」です。
二クラス分類に展開されている3種類のアプローチは以下のようになります。
◇二クラス分類KY法:Binary classifier
1.2モデルKY法: Discriminant KY-method with two models
2.1モデルKY法: Discriminant KY-method with one model
3.モデルフリーKY法:
Discriminant KY-method with no model (Model free Discriminant KY-method)
また、フィッティング(重回帰)においてもKY法は適用されており、現在3種類のフィッティングKY法が展開されています。
◇フィッティング(重回帰)KY法:Multiple regression analysis (Fitting)
1.判別関数付きフィッティングKY法:
Regression (fitting) KY-method with DF(Discriminant Function)
2.3グループフィッティングKY法:Regression (fitting) KY-method with three groups
3.モデルフリーフィッティングKY法:
Regression (fitting) KY-method with no model (Model free regression KY-method)
以上、6種類のKY法は全てKY法としての特徴を有すると同時に、KY法として従来手法を運用することで、従来手法では実現できなかった以下の優れた特性を有することとなります。
1-1.二クラス分類では常に完全分類を実現できること
1-2.フィッティングでは極めて高い相関係数や決定係数を実現できること
2.両方ともにサンプル分布が不適切な場合でも、極めて高い分類率や相関/決定係数を実現
3.サンプル数がどんなに増えても、完全分類や極めて高い相関/決定係数を実現
以上が最も代表的な特徴ですが、副次的な利点として以下の特徴も有します。
1.予測時に、その予測サンプルがサンプル空間のどの位置あたりに存在するかがわかる
*二クラス分類であれば、サンプル空間の端の方にあるのか、クラス間重複の激しい真ん中付近にあるサンプルであるかが、クラス決定がされたステップの情報で簡単にわかる。
*フィッティングであっても、サンプル空間のどこいらに存在するサンプルかがわかる。
2.全サンプル群がステップ単位に分類/分割される。これらのサブサンプル群の情報解析を行う事で、全体を見た解析よりも詳細、かつ精度の高い情報が得られる。
◇ KY法の手法的および適用分野の広がりと、ビッグデータ扱い上での展開:
Enlargement of the technique and application field of the KY method, and applicability on a field of big data treatment
◇安全性予測研究を目的として開発(高い分類/予測率の達成)されたKY法
KY法はもともと化合物の安全性予測のように、サンプル空間上でポジやネガサンプル群が極めて高い重複度を示し、かつ極めて高い分類や予測率が要求される分野での適用を前提に開発されたものです。このような厳しい条件の解決が求められる安全性分野では、従来手法によるデータ解析の単純な展開では、前記必要条件を満たすことは殆ど出来ません。
◇KY法の二クラス分類からフィッティング(重回帰)への展開と、極めて高い相関/決定係数の実現
KY法の基本的な考えに基づき、現在では二クラス分類のみならずフィッティング(重回帰)分野においてもKY法が適用され、従来手法では実現できなかったような極めて高い相関および決定係数を実現しております。
◇KY法の特徴を有し、その優れた特性を有する複数のKY法の展開
二クラス分類やフィッティング(重回帰)においても複数のKY法が開発され、現時点で三種類の二クラス分類KY法と三種類のフィッティング(重回帰)KY法が存在します。これらの手法は全てKY法の特徴を備えると同時に、KY法にすることで、KY法が有するポテンシャル(二クラス分類では常に完全(100%)分類を実現、フィッティング(重回帰)では極めて高い相関/決定係数)を有するものとなっております。
◇より高度な要因解析の可能性(全体の解析から、クラスター単位での解析)
従来手法が一回のみのデータ解析で終わるのに対してKY法では多段階で実施されるので、これらの各ステップごとに分類(クラスター化)されたサンプル群を検討することで、全サンプル群を一度に検討する場合と比較してより高度な議論を展開する事が可能となります。
◇サンプル数の多いビッグデータへの高い適応性
KY法の原理的な特徴から、サンプル数がどんなに大きくなっても完全分類や極めて高い相関/決定係数の実現が保障され、かつ要因解析もサンプルクラスター単位に出来ます。この結果、全サンプルをまとめて一度に解析する従来手法と比較して、要因解析という点からもKY法はより高度な要因解析を行える可能性を有します。
これらの特徴は、最近重要となりつつあるビッグデータの扱いが可能であることを示し、同時に、従来手法によるビッグデータ解析では「トレンド解析」的になりがちなこの分野においても、より高度な解析を実現する、極めて優れたデータ解析のツールになるものと考えます。
時代が「コンピュータ時代」から、データが総てを支配する「情報時代」へと大きく変化しつつあります。従前のコンピュータの計算力に強く依存したデータサイエンス手法は、情報時代にあるべき姿へと変化してゆくことが求められます。
「情報時代」の中核技術はAIです。しかしこのAI は、コンピュータ時代に展開されてきたAI とは適用項目や実現項目等が決定的に異なります。現在のAI はデータサイエンスの一手法として組み込まれており、主として判定や分類、予測、要因解析等に利用され、来るべき情報時代の(大規模)生成AIとは機能が根本的に異なります。
「情報時代」のAIを基本とした時、望ましいデータサイエンスの形とはどんなものであるか。「情報時代」でのKY法のあるべき姿はどのようなものになるか等含めて、広範囲に議論し新時代に対応することが重要となります。
以上のような考えに基づき、本ブログでは「情報時代」の(大規模)生成AIとデータサイエンスの融合について討論してまいります。
2012/07/31
2012/07/07
2モデルKY法(二クラス分類)実行(繰り返し操作)手順(3/3):Execution process of '2 Model KY-method for binary classification' (3/3)
◆ 「2モデルKY法(二クラス分類)」における、繰り返し演算の操作手順(3/3):
Operating procedure of the iterated process of the "2 Model KY method for binary classification"
先に説明した、 1/3で「KY法」の大まかな構成と、全体的な流れと注目ポイントについて述べました。また、2/3では「KY法」の基本の一つとなるサンプル群をより小さなグループに分ける(Yard sampling)ことと、この分割を行う目的で、クラス分類特性が正反対の関係にある二本の判別関数(APモデルとANモデル)の創出方法についてまとめました。 また、これら分類特性が特殊な判別関数は、通常利用している判別分析ソフトを用いて構築可能であることもお分かりになったかと思います。
これら二本の特殊な判別関数の構築原理が「不均衡データ(Imbalanced Data)」の特殊性にあり、このような特殊な状況下にある場合に創出される判別関数の特性(クラス分類に偏りが生じること)を利用して創出できる事がお分かりになったかと思います。
先の2/3の操作説明で、サンプル群をポジとネガの二つのグループに分類する二クラス分類では、APおよびANの二本の判別関数を用いて、ポジ領域とネガ領域、そして現在の判別関数ではクラス決定が出来ないサンプル群が落ち込むグレーゾーンの三領域に分類することが書かれていました。
この時点で、ポジおよびネガ領域に落ち込んだサンプル群の帰属クラスは最終決定となりますが、グレーゾーンに落ち込んだサンプル群のクラスは決定されていません。「KY法」の実施では、グレーゾーンに落ち込んだサンプル群の帰属クラスを決定することが必要です。このグレーゾーンに落ち込んだサンプル群の帰属についてこの3/3で説明します。
◆ 適用分野の差異によるグレーゾーンの割合の変化:
Change of the ratio of the 'gray zone' by the difference of the application field
現在行われている判別分析では、分類が完全でなくともとりあえず、全てのサンプル群をどちらかのクラスに帰属して結果を出します。この結果、あいまいなままクラス決定がなされるために分類率が大幅に減少することとなります。
「KY法」では現時点でクラス帰属が出来るものだけを帰属させます。しかし、現時点ではクラス帰属が決定出来ないサンプル判別関数無理に帰属させず、帰属が出来ない領域である「グレーゾーン」のサンプルとして取り扱います。従って、各時点では帰属が決定したサンプル群は100%正しく帰属されていることになります。帰属が決定されていない「グレーゾーン」に落ち込んだサンプル群は、帰属可能となる条件が満たされるまで帰属が先送りされます。
グレーゾーンに残るサンプルの割合が全体の数%レベルの時はこんpクラス決定が出来ないことによる悪影響は殆ど問題になりませんが、この「グレーゾーン」のサンプルの割合が大きくなってくると、非常に大きな問題となります。
例えば、安全性(毒性)研究等の分野ではきれいにポジ(毒性あり)とネガ(毒性なし)サンプル群に分割できることは少なく、殆どの場合ポジとネガが混在する領域(即ち「グレーゾーン」)が存在します。なおかつ、安全性(毒性)研究分野では多くの場合、この「グレーゾーン」の割合が極めて大きく、極端な場合だと90%以上が「ググレーゾーン」に帰属されてしまうことが頻発します。このような状態では、先の2/3で述べた、3グループに分ける手順だけでは分類が完成したという事にはなりません。
「グレーゾーン」の割合のイメージ図
安全性研究分野では、この「グレーゾーン」の割合が他の研究分野と比較して極めて高い
「グレーゾーン」に帰属されたサンプルが多くなると、この「グレーゾーン」に帰属されたサンプル群をそのままにしておくことはできません。なんらかの形でクラス決定を行う事が必要です。
◆ 「グレーゾーン」に落ち込んだサンプル群の繰り返し操作手順による完全分類の実現:
Realization of the perfect classification by the repetitive operation of the samples which fell in the "gray zone"
「グレーゾーン」に帰属されたサンプル群のクラス決定は、別のデータ解析手法に持ってゆくこと等を含めていろいろと考えられますが、一つの手法でクラス帰属が出来なかったサンプル群を他のデータ解析手法に持っていってもやはり同様に分類は困難であることは明らかです。
そこで、ダメ元でこの「グレーゾーン」のサンプル群を初期サンプルデータセットとし、再び2/3の「Y法(Yard sampling)」を適用してみました。すると不思議な事に、一つの「グレーゾーン」に落ち込んでいたサンプル群が、その両端にポジおよびネガ帰属サンプル群を形成し、新たな3グループに分かれました。このようになることはあまり期待していなかったので、驚くと同時にこれで完全分類への可能性が出来たと本当に喜びました。あとは、「グレーゾーン」が無くなるまでこの手続きを繰り返せばよいこととなります。
残る唯一の不安な点は、実際にこのようなことが最後まで繰り返し起こるのかという事でした。たまたま偶然に3グループに分けられたもので、それ以降は分けられないかもしれないという不安がありました。そこで、この繰り返し手続きを繰り返して実行したところ、データ解析に用いた約7000ものサンプルが23回の繰り返しで「グレーゾーン」が完全になくなりました。つまり、22回の「Y法(Yard sampling)」を実施して「グレーゾーン」が無くなり、最後の23回目は通常の二クラス分類でポジおよびネガサンプルの二クラスに完全に分けることが出来ました。これで、約7000サンプルの完全分類が実現したこととなります。この7000サンプル(Ames testサンプル)の「KY法」による完全分類の詳細については別の機会に報告します。
この計算手順は、同じ操作を繰り返すもので、個々の操作過程を「ステップ(Step)」として表現する事にします。従って、この繰り返しの状態を示唆する「K」を加えて「K-step」と名前を付けました。従って、新しい手法は2/3の「Y法(Yard sampling)」と合わせて「K-step Yard sampling」、すなわち「KY法」と名づけました。もちろん、私の名前「Kohtaro Yuta」のイニシャルでもあります。
「K-step」手順の概念図
「グレーゾーン」に落ち込んだサンプル群を初期サンプルセットとして「Y法(Yard sampling)」法を
繰り返して実施する様子が示されています
繰り返し手続きの様子
両脇のサンプル群が取り除かれ、その空っぽの空間目指して「グレーゾーン」のサンプル群からポジおよびネガクラスサンプル群が湧き出るようにして移動している様子を示した図
上の二つの図により、「グレーゾーン」サンプルが、次のステップで両脇にサンプル群が押し出され、これらのサンプル群がポジとネガできれいに分けられ、同時に新しい「グレーゾーン」が形成されている事がわかります。
◆ 繰り返し操作手順実施上での手続き:
Procedure on repetitive operation
個々のステップで同じ操作を行うと言いましたが、より具体的にその手順を説明します。
基本は、個々のステップで新たなサンプル空間を作り出すことです。前のステップと次のステップで全く同じサンプル空間を作れば、両脇のサンプル群を取り除いたとしても、新たに発生してくる両脇のサンプル群は大きくはなりません。従って、サンプル空間は個々のステップごとに作り直すという感じで操作する事が必要です。
〇個々のステップ単位でサンプル空間を新たに作り直す:
Regenerate sample space by an individual step
これを実現するためには面倒ですが、新たなステップに突入したらサンプル空間を構成するパラメータ群を新たに作り直すことが必要です。このステップで最も分離率のよい新しいサンプル空間を再構築するのです。これには、新たにパラメータ群についての特徴抽出を実行してこのステップに最も適する(分離率の高い)パラメータ群を決定することが必要となります。
これらのパラメータ群を決定した後に2/3の手順である「Y法(Yard sampling)」を実施して二本のモデル(APモデルとANモデル)を構築します。
以上の手順を繰り返し、最終的に「グレーゾン」が無くなるまで続けることで完全分類が実現されます。
登録:
投稿 (Atom)