2012/04/08

KY法は常に疑いの目で見られます:The KY method is always seen with the eyes of the suspition

◆「KY法」は常に「眉唾な話」という感じで見られます:

The KY method is always regarded as the "fishy story talk"


    残念ですが「KY法」による100%完全分類の実験結果について発表すると、「KY法」を初めて聞かれた方々には常に「うさんくさい話」として受け止められます。実際、何十年と化学データ解析を行ってきた私自身もこの「KY法」を用いて約7000ものAmes試験サンプルの完全分類が出来た時には、思わずこれは奇跡か単なる偶然に過ぎないと思いました。そこで、何度も検証しましたが、完全分類は事実でした。
    もし私も「KY法」の開発者でなく、一般の立場でこの解析結果を聞けば、やはり他の研究者同様に疑いの眼を持ってしまうでしょう。なぜならば、私も安全性研究分野での100%(完全)分類実現の難しさを骨にしみるほど体験しているので・・・。こんなことあるはずがない・・・と。

*ある人からのアドバイス:Advice from a certain person
    私をよく知った親切な方は次のようにアドバイスしてくれました。「湯田さん、7000ものAmes試験サンプルを100%完全分類したなんて発表したら、聴いた人たちはだれも信用しません。眉唾と思われるだけですよ。少し値を落として95%から98%と発表した方がみなさん興味を持ってついてくると思います」と忠告してくれました。このように「KY法」は、その実行結果だけを聴いた直後は、データ解析を知っている人も知らない人も一様に「信じられない話で、眉唾な話」と思いこんでしまうようです。無理もありませんが・・・。

*事実を検証してこそ科学:It is science just by verifying the facts
    しかし、「KY法」を用いることで常に100%完全分類を達成できることは事実です。従来の常識に捕らわれて嘘を発表する事はできません。話を信じるか信じないかは、聴いた本人の問題と思います。しかし、「KY法」の解析結果を聴いて「眉唾な話」としてとらえること自体は、自分の常識や価値観から抜け出られないことの証であり、常に実験事実を優先して物事を冷静に考えることが科学者の務めであるはずなのに、本当に残念です。

*疑いの目で見られることは、「KY法」のすごさの証明:
 Seeing by the eye of doubt is the proof of the dreadfulness of the "KY methods"
    これだけ疑いの目で見られるという事実は、「KY法」の結果が従来手法と比較して信じられないレベルの高い結果を出していることの間接的な証拠と考えます。Ames試験での「KY法」適用に続き、約600化合物を用いた皮膚感作性評価実験でも100%(完全)分類を実現しました。この皮膚感作性データを用いた実験は、サンプル数が少ない時(214化合物)は従来からの多変量解析/パターン認識手法でも100%(TILSQ,AdaBoost)から99.5%の分類率を達成したのですが、サンプル数が多くなった(593化合物)時点で完全分類や高い分類率を実現することが出来なくなりました。そこで、開発早々の「KY法」を適用したところ100%(完全)分類が実現されました。これは、「KY法」の二番目の適用事例となります。

◆実現不可能を可能にした「KY法」:
    The "KY methods" made realize from impossible to possible
   安全性評価研究分野では、約7000にも及ぶ大きな数(実際には数が大きいだけではなく、扱う化合物の構造変化性が極めて高い)のサンプル群を、変異原性「ポジ」および「ネガ」の二クラスに完全分類することは「夢のまた夢」というくらいに難しい仕事で、殆ど不可能と考えられてきました。私も、仕事上の関係で様々な多変量解析/パターン認識手法を駆使し、パラメータ等を創意工夫し、サンプリング等を変えながら何度もチャレンジしてきました。この結果、従来手法での完全分類は実現不可能との結論に至り、100%は無理であっても、如何にして高い値を実現するかというように目標を変えて実験してきました。しかし「KY法」を用いることで、不可能と考えていた100%(完全)分類が実現したのです。

*「KY法」の常識はずれといえる機能:
   The "KY methods" is far beyond common sence of multivariate and pattern recognition methods
    「KY法」がうさんくさい手法として見られるのは、その分類結果(二クラス分類)や相関係数/決定係数(重回帰:フィッティング)結果が従来からの多変量解析/パターン認識の常識を覆す程高い値を示すためです。その従来からの常識とは以下の二点です。

データ解析の常識1:サンプル数が大きくなるほど分類率は下がる
Common sense1:A classification rate falls, so that the number of samples is large.
↓↓↓↓↓↓
KY法の能力1⇒サンプル数が大きくなっても常に完全分類実現
Power of the KY-methods⇒Even if the number of samples becomes large, perfect classification is always realized.


データ解析の常識2:クラス間重なりの大きなサンプル群を完全分類するのは極めて困難か不可能
Common sense2: It must be impossible to carry out perfect classification on the big sample space which have large overlapping space of two classes.
↓↓↓↓↓↓
KY法の能力2⇒たとえどんなにクラス間のオーバーラップが強くとも、完全分類実現
Power of the KY-methods⇒A perfect classification is realized even if class samples are highly overlapped.


   「KY法」の実施基本原理から容易にわかりますが、「KY法」を用いれば、サンプル数がどんなに大きくなっても100%完全分類が実現します。この事実は、先の常識1を覆すものです。また、たとえサンプル数が少なくとも、クラス間の重複度が高い場合は従来手法では完全分類出来ないのですが、両サイドの空間に単一クラスサンプルのみが存在する空間がある限り、必ず完全分類が実現されます。この事実は常識2を無効にしてしまう事実です。

    既に、「KY法」の適用事例で言うならば(二クラス分類)、常識1を覆す事実に関しては7000のAmes試験サンプルを用いた実験結果が証明しています。常識2を覆す事実はサンプル数はさほど大きくありませんが、約600の皮膚感作性試験の完全分類実現で証明されています。

2012/04/07

「KY法」の実行はどのようにしますか:How to execute the 'KY-methods' ?

「KY法」は、従来の多変量解析/パターン認識のソフトを用いて実行可能です:If there is software of the multivariate analysis / pattern recognition, it is easy to carry out the "KY-methods"


◆「KY法」はメタ手法なので、従来からのデータ解析ソフト上で実行できます:
    Since the "KY method" is the meta-method, it can perform on normal data analysis soft.
  
   先にも書きましたように、「KY法」は従来から展開されてきた多変量解析/パターン認識手法を計算エンジンとして利用する「メタ手法」です。従って、「KY法」として全く新しいデータ解析ソフトウエアを必要とするわけではありません。従来から展開されている多変量解析/パターン認識ソフトウエアを使って「KY法」を実行することが可能です。

◆「SVM」や「N.N.」等の専門ソフトが必要なわけではなく、これらのソフトを利用して「KY法」を実行することが可能です:
   Special software, such as "SVM" and "N. N.", is not necessarily required, and it is possible to perform the "KY method" using these software.

   例えば、「SVM:サポートベクターマシン(Support Vector Machine)」を実行するためにはSVMを実行するSVMソフトが必要です。同様に、「N.N.:ニューラルネットワーク(Neural Network)」の実行にはニューラルネットワークの実行ソフトが必要です。このように、新しいデータ解析手法には、それ専用のソフトが必要となります。しかし、「KY法」の実施に「KY法」のソフトが必要となるわけではありません。これらのソフトウエア(「SVM」、「N.N.」、「AdaBoost」、その他)を用いて「KY法」を実施します。現時点で「KY法」の専門ソフトウエアはありません。

◆「KY法」による二クラス分類で利用する判別関数は、従来手法を用いて構築します:
   The discriminant function used by the "KY method of binary classification" is built using the conventional technique.

    「KY法」自体は全体として新しいデータ解析手法ですが、「メタ手法」ですので従来からのデータ解析手法を用いて展開されます。従って、特に新しいソフトが必要になるわけではありません。例えば、二クラス分類を行う時、「KY法」で必要となる判別関数は、線形判別関数であるならば従来からのBayes判別分析やその他を利用することも出来るし、非線形判別関数であるならばSVMやN.N.を用いて判別関数を作成することが可能です。同じ「メタ手法」とされるAdaBoostを用いることも可能です。さらには、一つの「KY法」の中で線形/非線形判別関数を混在して用いることも可能です。いずれにしても、従来から展開されている多変量解析/パターン認識が実行できるソフトがあれば「KY法」を実行できます。

◆「KY法」の展開に必要な情報が従来手法のソフト上で扱える事が必要です:
   It is required to be able to treat information which were required for executing the "KY method" on the conventional software.

     従来からのデータ解析手法を用いた場合は、「KY法」の実施時に必要な関連情報を扱う事が可能であることが「KY法」を実施するための必須条件となります。この条件が揃えば、操作上での多少の煩雑さは出てきますが、従来手法のデータ解析ソフトを用いて「KY法」を実行することが可能となります。現に私も、「KY法」の専用ソフトを使っているわけではなく、化学データ解析用に開発された汎用的なデータ解析ソフトウエアを用いて「KY法」を実行しています。

◆従来手法を用いての「KY法」の実施は、解析手順の変更で実現します:
  The "KY method", using the conventional technique, is realized by change of an analysis process.

    このように、「KY法」の実行に専用ソフトが必要となるわけではありません。従来からの多変量解析/パターン認識手法を「KY法」に利用する場合は解析手順の変更が必要です。この手順の実施に多少複雑な操作が必要となりますが、一度操作手順を覚えれば「KY法」の実行をルーチンワーク的に実施出来ます。

◆「KY法」の専門ソフト: Special software of the "KY method".

     将来的に「KY法」の専門ソフトが出来るのは時間の問題と考えます。「KY法」の専門ソフトは、従来手法のソフトを用いて「KY法」を実行する時の手順の煩雑さが少ないソフトとして展開されるでしょう。

2012/04/06

KY法は全く新しい方法?:Is the KY-methods completely new approach?

KY法は「メタ手法」です:KY-methods are the meta-methods


KY法の基本は従来からの多変量解析/パターン認識手法です。しかし、サンプル空間の扱いと、その手順に根本的な差異があります。

     「 KY法」は全く新しい考えに基づいた多変量解析/パターン認識手法です。しかし、KY法の基本は従来から展開されている一般的な多変量解析/パターン認識手法を利用しています。二クラス分類における判別関数の構築や、重回帰等のフィッティング手法における回帰式等の構築はすべて従来から展開されてきた手法を用いており、全く新しいアルゴリズムを用いているわけではありません。従って、KY法は従来の多変量解析/パターン認識技術を基本として展開される「メタ手法」となります。
       では、KY法が全く新しい多変量解析/パターン認識手法であり、適用結果が従来手法と比較して根本的に異なる高い精度を実現するのはなぜでしょうか。それは、サンプル空間の有するサンプル分布特性を利用するためです。この目的を実現するためにKY法は、従来からの多変量解析/パターン認識手法を利用(判別関数や重回帰式の構築)はしますが、そのデータ解析手法の運用方法(特にサンプル空間の扱い解析手順)が従来手法と比較して根本から異なっている点にあります。

      データ解析運用方法が異なる大きな点(特徴)は以下の二点につきます。

1.サンプル空間の分類や設定が従来手法と異なる。

(a)ニクラス分類:二クラスではあるが三グループにサンプル空間を分割する

・KY法ではサンプル空間が3グループ(ポジ/ネガ/グレー)に分割される

KY法にて、全サンプル群がポジ(O)サンプル領域とネガ(X)サンプル領域、およびグレー(OとXが混在し、クラス決定が出来ない)サンプル領域との3領域に分割される様子。
二クラス分類の時、分類結果のサンプル空間を見ると、常にその両端は混在のないきれいな個別クラスのサンプル群で構成されている。
分類を妨げている語分類サンプル群は常にサンプル空間の真ん中の位置周辺に位置している。
・従来手法は2グループ(ポジ/ネガ)のみに分割される

従来手法による二クラス分類は、全サンプル群をポジ(O)サンプル領域とネガ(X)サンプル領域の二つのグループに分割しようとして判別関数を構築する。このために、サンプル空間上でポジおよびネガサンプルが混在する空間が残った場合、この混在空間を線形判別関数で分類することは殆ど不可能である。また、強力な分類機である、非線形分類手法を用いても完全分類することは困難である。


(b)重回帰(フィッティング):サンプル空間を残差値の大きさに従ってグループ分けする

・KY法では残差の小さいグループと残差の大きなグループの二つに分ける
・従来手法では、残差値の大小によるサンプル群のグループ分けは行わない

2.計算実行のプロセス

(a)二クラス分類:
・KY法ではサンプルグループ単位での繰り返し計算を行い、これを完全分類実現まで行う

     クラス決定の出来なかったサンプルグループ(グレーサンプル)を初期サンプルセットとして新たにサンプル空間を作り直し、再び分類 計算を行う。この操作を繰り返し、最終的に全サンプルが完全(100%)分類されるまで何度も行う。最終回の分類は、1本の判別関数を用いて実行する通常の形式での二クラス分類となる。以上の操作により、KY法ではサンプル数がどんなに多い場合でも、またクラス間重なりが激しいサンプル空間であっても常に完全分類が実現される。なお、最終ステップは一本の判別関数による通常の判別分類が実施される。
・従来手法では、分類計算は一回のみ実施。

ポジおよびネガサンプルの重なり状態が高くなったり、サンプル数が多くなるにつれて、一回だけの計算で全サンプルを完全(100%)分類することは困難か殆ど不可能となる。
左図は、完全分類を目指して線形および非線形判別関数をいくつも創出している様子を示す。このように、一回限りの分類操作では、異なるクラスのサンプル群が混在する状況を克服して完全分類することは極めて困難であることが分かる。


(b)重回帰(フィッティング):
・KY法では、サンプルグループ単位あるいはサンプル単体での繰り返し計算を行う
・従来手法では全サンプルを用いた一回のみの計算である

       以上の二点がKY法と従来手法による多変量解析/パターン認識との操作上での大きな違いです。KY法の実施にあたり、判別関数や回帰式の構築は従来からの多変量解析/パターン認識手法を用いていることがわかります。KY法は従来からの多変量解析/パターン認識手法を基本としながら、その運用方法をガラッと変えること(すなわち「メタ手法」であっても)、従来手法とは比較にならない程の高い解析精度を実現することになります。

◆「KY法」はメタ手法:従来からのデータ解析ソフトウエアを用いての実行が可能

      KY法は「メタ手法」なので、基本的な運用方法さえ理解されれば従来からの多変量解析/パターン認識の解析ソフトウエアを用いての実行が可能です。KY法専用のソフトウエアが必要というわけではありません。現に私も、KY法のソフトウエアとして特別に開発されたソフト(残念ですが、現在は存在しません)を用いているわけではなく、一般のデータ解析目的で作成された、従来手法による多変量解析/パターン認識のソフトウエアを用いてKY法を実施しています。このような身軽さがKY法の隠れたもう一つの利点です。