2012/10/12

クラスタリングKY法: Clustering KY-methods

KY法によるクラスタリングとは:What is the Clustering KY-methods


◆ KY法によるクラスタリング: Clustering by the KY-methods

  KY法の基本原理を適用する事で新たなクラスタリング手法を実行する事が可能です。
  KY法の基本は「サンプル群のサブグループ化」と「繰り返し多段階操作」です。クラスタリングを実行する過程で、この二つの条件を満たすことで新たなクラスタリングKY法を実現出来ます。

〇KYクラスタリングの特徴: Spatial features of the clustering KY-methods
  以下に現在展開されているクラスタリングKY法の種類と、それぞれの特徴を列挙します。

1.教師データ付きクラスタリング(クラスタリングKY法の最大の特徴)
  一般的に実施されているクラスタリング手法は教師データ無しで実行されます。クラスタリングの結果からなぜそのようにクラスター化されたかを追求します。このような、要因発見型のアプローチに対して、KY法によるクラスタリングは教師データ付きクラスタリングとなり、これが従来手法のクラスタリングには無い非常にユニークな特徴となります。

2.教師なしクラスタリング
  クラスタリング手法では教師なしデータが基本です。クラスタリング手法にもいろいろとありますが、これらの一般的な教師なしクラスタリングも、KY法の基本的な手順を適用する事でクラスタリングKY法となります。
  従来主峰のクラスタリングでは、全て一回の操作でクラスタリングを完了させ、その結果を評価するのが一般的です。この、一回限りの操作と実行の手順を変え、サンプル群のサブグループ化(これはクラスタリングの基本的な仕事ですが、これにさらに人為的あるいは別の基準でKY法用のサブグループ化を行ないます)を行ない、このサブグループのみについてさらにクラスタリング(この場合は別のクラスタリング手法を適用する、あるいはパラメータセットを帰る等行ないます)を実行する。これを繰り返し行います。
  以上の手順を取ると、従来からの教師なしクラスタリング手法にもKY法の手順を適用する事が可能となり、より高度な考察やデータ解析を行なう事が可能となります。



◆ KY法の拡張性: Expandability of the KY-methods

  クラスタリングKY法を見てすぐに気づかれたと思いますが、このKY法はマッピング等のデータ解析手法にも展開可能です。KY法の二大基本である「サンプル群のサブグループ化」と「繰り返し多段階操作」の手順を組み入れることで、従来からの一回限りのマッピングを、より高度な展開のできるマッピングKY法へと導くことが出来ます。

  KY法は従来より展開されてきたデータ解析アルゴリズムをそのまま利用し、KY法としての二つの手順を行なう事で、従来手法では達成できなかった様々なデータ解析能力や、新たな視点を見出すことを可能とします。

 KY法は、判別分析、重回帰、クラスタリングそしてマッピングと、現在提供されている殆ど全てのデータ解析手法に適用可能であり、KY法の適用により従来手法では達成し得なかった素晴らしい解析結果を提供します。



2012/08/22

KY法によるクラスタリング: Clustering by the KY-methods

◆ KY法を用いたクラスタリング


◇ KY法の基本原理に基づいたサンプリング:
  従来手法には無い基準に基づいて導かれるクラスタリング

  KY法の本質は、二クラス分類では「常に完全分類を実現すること」、またフィッティング(重回帰)では「極めて高い相関および決定係数の実現」となります。 KY法のサンプル群をより小さなグループに順番に分けてゆくという基本原理から、サンプル群のクラスター化(グループ化)が可能です。このクラスタリングに関しても、KY法を基本とすることで従来手法には無い極めて優秀な特性を有した手法となります。ています。 
  以下にこのKY法を利用したクラスタリングについて簡単にまとめます。

  「KY法」を用いたクラスタリングの大きな特徴が以下の二点です。

1.サンプル群の、分類やフィッティング基準に従ったクラスタリングが可能
  ・ 二クラス分類の場合、クラス間重なりの無い二つのグループに分けられる。
  ・ フィッティング(重回帰)の場合、残差の大きなサンプル群と小さなサンプル群へと分けられる

 通常のクラスタリングでは、アルゴリズムから考えればわかりますが、出来たクラスター同士は相互に重なっているか近接していることが殆どです。しかし、KY法により形成されたクラスターは相互に重なることはありません。 個々のクラスターは互いに完全に独立しており、重なって存在することはありません。

2.階層構造に従ったサンプル群の分類
  ・二クラス分類の場合、個々のステップ(繰り返し操作の基本となる単位)毎にサンプル群が分
   けられる。 従って、サンプルは判別関数からの距離に従って階層づけられてクラスター化さ
   れる。
  ・フィッティング(重回帰)においては、回帰式からの距離の程度に従ってクラスタリングされる。


◇ KY法によるクラスタリングの基本:教師付き(Supervised learning)クラスタリング

 

KY法自体は目的変数を持ったデータ解析手法である。 従って、KY法によるクラスタリングは、目的変数の情報に従ってサンプル群がクラスター化されますので、従来のからのクラスタリング手法とは内容が全く異なる手法となります。 
  従って、KY法によるクラスタリングは最初に解析目的とした教師データに基づく学習が基本となります。 一般的に、通常のクラスタリングは教師データが存在しない状態で行われます(Unsupervised learning)ので、KY法によるクラスタリングは目的変数の情報を基本としてクラスタリングされるという観点で、従来からのクラスタリング手法とは根本から異なります。

 以下に、KY法によるクラスタリングの基本を簡単にまとめます。今回説明に用いた例は、二本のモデル(判別関数)を用いたKY法です。

図1.
上図は二本のモデル(判別関数)を用いた二クラス分類KY法の基本概念図です。 この図からもわかるように、全サンプルがクラス間重なりの無い両サイドのクラスターと、クラスサンプル同士の重なりがあるクラスター(gray zone) とに分割されています。

図2.
先の図1で、両脇に位置するサンプル群は、クラス間重なりのない純粋に一つのクラスだけに帰属されるサンプル群で構成されていることがわかります。 本来は一つのサンプル空間上で混在して存在していたものが、同じサンプル空間でも両脇のサンプル群のみを取り出すことで、クラス間重なりのないきれいなサンプル空間(クラスター)に分類出来たこととなります。
 このクラスタリングは、本来有する目的変数の情報に従い、サンプル群を混在のないクリーンなサンプル群にクラスター化したものです。

図3.

 最後に残ったサンプル群は、クラス間重なりが発生しているサンプル空間となっていることが分かります。この結果、二モデルKY法の実行過程で、サンプル群が目的変数の情報に従って大きく3グループ(クラスター)に分けられたことが分かります。

図4.


 KY法の重要な特徴として、ここで述べたようなサンプル群の3グループへの再配分の機能がありますが、KY法を構成するもう一つの特徴である、繰り返し操作により、サンプル群がより小さなクラスターへと分割されてゆきます。この、個々の過程(ステップ)で実施されるKYクラスタリングにより、グレー領域として一つのクラスターとしてまとめられていたサンプル群が、再びクリーンなクラスター二個と重なりの存在するクラスターの3グループにクラスターされます。
 この時、今回のステップで用いたサンプル群はひとつ前のステップでクラス間重なりの存在する、グレー領域サンプルとしてクラスター化されたサンプル群です。これらのサンプル群は一つ先の
ステップで構築されたサンプルからみると、一段階下に存在するサンプル群(クラスター)となり、ステップ単位で作成される3種類のクラスターが互いに階層化していることが分かります。


◇ KY法によるクラスタリングの特徴


 以上の説明からもわかりますように、KY法によるクラスタリングは、従来のクラスタリング手法とはクラスタリング原理が全く異なる事がわかります。この結果として、クラスタリングされた個々の
クラスターはクラス間重なりのないクリーンなクラスーを形成し、かつステップ毎のクラスターサンプル同士が階層的な関係を有していることが分かります。
 さらに、多くのクラスタリング手法は分類のための基準を持たない、いわゆる教師無し学習タイプで、要因発見型のクラスタリングであるのに対し、KY法によるクラスタリングは目的変数に従ったクラスタリングを行う教師付き学習という極めて珍しいタイプのクラスタリング手法となることが分かります。





2012/08/04

◇ KY法(K-step Yard sampling methods)の名称について: About the name of the KY method

◇ KY法(K-step Yard sampling methods)となる必須事項:
Two Indispensable matter which configures the KY method
    KY法(K-step Yard sampling methods)という名前ですが、これは株式会社 インシリコデータの湯田が開発した、従来の多変量解析/パターン認識手法にはない、極めて優れた特性を有する新しいデータ解析手法の総称です。
    KY法となるための根拠は大きく二つあります。一つは多段階の繰り返し操作を伴う解析手法であることです。これは、KY法の名前のK-stepというところで表現されています。残る一つが、サンプル群の再構成を行い、より小さなスペースにサンプル群を再分類するという操作を伴う事です。これは、サンプル群全体をより小さな箱庭的なところ(Yard)に閉じ込めるという手順です。従って、この操作が、Yard samplingという表現で示されています。
    先にも述べましたように、KY法は現在二クラス分類で3種類、フィッティング(重回帰)手法として3種類の、計6種類(特許取得済み、および出願中:日本、米国、EU、韓国)開発されています。これら6種類のKY法は、すべて下記の二つの条件を満たしたデータ解析手法です。

  1.多段階繰り返し手法 (K-step):
       The multi-step repeating technique

2-model KY-method

 2.より小さなサンプル空間への作り直し (Yard sampling):
   Remaking of more smaller sample space

                                                               2-model KY-method

*余談1: KY法は上記の名前の付け方がフォーマルなのですが、実は伏線があります。KY法のKYは私の名前のイニシャル(Kohtaro Yuta)でもあります。私はすでにいくつか新しいデータ解析手法を発明していますが、どちらかというと改良法的なもので、データ解析結果を劇的に向上するというものではありませんでした。これに対し、KY法はデータ解析結果を劇的に向上させることが出来る極めて優れた手法なので、これは自分の名前を残しておきたいなーと考えて、イニシャルのKYをイメージしてつけました。
私をよく知っている人には、あの「KY]法の名前は自分の名前のイニシャルをつけたんでしょう、とよく言われました。正式名称はK-step Yard sampling methods ですね。

*余談2: KY法が開発され、学会等で最初に発表した当時は、世の中に「KY」という言葉が非常に有名になりつつある頃でした。「KY法」と言うと、手法自体のイメージが悪くなるよとよく言われました。 この社会的な状況を詳しく知らない私は、当時なぜか「KY]という言葉が知名度が高いので不思議に思っていたのですが、理由を知って納得しました。でも、発明者もKYな性格で、名前もKY、さらにはこの手法自体が従来の多変量解析/パターン認識の常識を超えた、いわゆる「KY」な手法なので、ちょうどいいやーと妙に納得したものでした。

*余談3:  K-stepは普通に考えるとMulti-stepですが、なんとかKにしたかったので、いろいろ考えました。 殆ど無理かなーと思っていたのですが、よく考えたら多変量解析/パターン認識手法の一つとしてK-NN法(最近隣法)があることを思い出しました。そこで、若干ニュアンスが異なりますが、このK-NNの様式を見習って繰り返しのところをK-stepとしました。



2012/07/31

KY法にはどのような手法があるのでしょうか?:What kind of methods are there on the KY method?

◇現時点でKY法として6種類あります(二クラス分類KY法は3種類、フィッティング(重回帰)KY法は3種類):
  There are six approaches as a KY method at present (3 approaches for Binary classification KY and 3 approaches for Fitting (multiple regression) KY)

    現時点で二クラス分類(Binary classifier)手法として3種類。また、フィッティング(重回帰:multiple regression analysis)手法として3種類の総計6種類ほど開発されています。すべて「KY法」としての二大特徴、即ち(1.サンプル群のグループ分け、および 2.繰り返しステップの実施)の特徴を有しています。また、これら6種類全ての手法は従来から展開されているデータ解析手法をそのまま利用しますので、新しい解析ソフトを用いる必要はなく、現在展開されているソフト(手法)をそのまま運用することで実施出来る「メタ解析手法」です。
    二クラス分類に展開されている3種類のアプローチは以下のようになります。

◇二クラス分類KY法:Binary classifier
1.2モデルKY法: Discriminant KY-method with two models
2.1モデルKY法: Discriminant KY-method with one model
3.モデルフリーKY法:
       Discriminant KY-method with no model (Model free Discriminant KY-method)

    また、フィッティング(重回帰)においてもKY法は適用されており、現在3種類のフィッティングKY法が展開されています。

◇フィッティング(重回帰)KY法:Multiple regression analysis (Fitting)
1.判別関数付きフィッティングKY法:
       Regression (fitting) KY-method with DF(Discriminant Function)
2.3グループフィッティングKY法:Regression (fitting) KY-method with three groups
3.モデルフリーフィッティングKY法:
      Regression (fitting) KY-method with no model (Model free regression KY-method)

    以上、6種類のKY法は全てKY法としての特徴を有すると同時に、KY法として従来手法を運用することで、従来手法では実現できなかった以下の優れた特性を有することとなります。

1-1.二クラス分類では常に完全分類を実現できること
1-2.フィッティングでは極めて高い相関係数や決定係数を実現できること
2.両方ともにサンプル分布が不適切な場合でも、極めて高い分類率や相関/決定係数を実現
3.サンプル数がどんなに増えても、完全分類や極めて高い相関/決定係数を実現

    以上が最も代表的な特徴ですが、副次的な利点として以下の特徴も有します。
1.予測時に、その予測サンプルがサンプル空間のどの位置あたりに存在するかがわかる
 *二クラス分類であれば、サンプル空間の端の方にあるのか、クラス間重複の激しい真ん中付近にあるサンプルであるかが、クラス決定がされたステップの情報で簡単にわかる。
 *フィッティングであっても、サンプル空間のどこいらに存在するサンプルかがわかる。
2.全サンプル群がステップ単位に分類/分割される。これらのサブサンプル群の情報解析を行う事で、全体を見た解析よりも詳細、かつ精度の高い情報が得られる。


◇ KY法の手法的および適用分野の広がりと、ビッグデータ扱い上での展開:
Enlargement of the technique and application field of the KY method, and applicability on a field of big data treatment

◇安全性予測研究を目的として開発(高い分類/予測率の達成)されたKY法
  KY法はもともと化合物の安全性予測のように、サンプル空間上でポジやネガサンプル群が極めて高い重複度を示し、かつ極めて高い分類や予測率が要求される分野での適用を前提に開発されたものです。このような厳しい条件の解決が求められる安全性分野では、従来手法によるデータ解析の単純な展開では、前記必要条件を満たすことは殆ど出来ません。

◇KY法の二クラス分類からフィッティング(重回帰)への展開と、極めて高い相関/決定係数の実現
    KY法の基本的な考えに基づき、現在では二クラス分類のみならずフィッティング(重回帰)分野においてもKY法が適用され、従来手法では実現できなかったような極めて高い相関および決定係数を実現しております。

◇KY法の特徴を有し、その優れた特性を有する複数のKY法の展開
      二クラス分類やフィッティング(重回帰)においても複数のKY法が開発され、現時点で三種類の二クラス分類KY法と三種類のフィッティング(重回帰)KY法が存在します。これらの手法は全てKY法の特徴を備えると同時に、KY法にすることで、KY法が有するポテンシャル(二クラス分類では常に完全(100%)分類を実現、フィッティング(重回帰)では極めて高い相関/決定係数)を有するものとなっております。

◇より高度な要因解析の可能性(全体の解析から、クラスター単位での解析)
    従来手法が一回のみのデータ解析で終わるのに対してKY法では多段階で実施されるので、これらの各ステップごとに分類(クラスター化)されたサンプル群を検討することで、全サンプル群を一度に検討する場合と比較してより高度な議論を展開する事が可能となります。

◇サンプル数の多いビッグデータへの高い適応性
      KY法の原理的な特徴から、サンプル数がどんなに大きくなっても完全分類や極めて高い相関/決定係数の実現が保障され、かつ要因解析もサンプルクラスター単位に出来ます。この結果、全サンプルをまとめて一度に解析する従来手法と比較して、要因解析という点からもKY法はより高度な要因解析を行える可能性を有します。
    これらの特徴は、最近重要となりつつあるビッグデータの扱いが可能であることを示し、同時に、従来手法によるビッグデータ解析では「トレンド解析」的になりがちなこの分野においても、より高度な解析を実現する、極めて優れたデータ解析のツールになるものと考えます。





2012/07/07

2モデルKY法(二クラス分類)実行(繰り返し操作)手順(3/3):Execution process of '2 Model KY-method for binary classification' (3/3)

◆ 「2モデルKY法(二クラス分類)」における、繰り返し演算の操作手順(3/3):

Operating procedure of the iterated process of the "2 Model KY method for binary classification"


    先に説明した、 1/3で「KY法」の大まかな構成と、全体的な流れと注目ポイントについて述べました。また、2/3では「KY法」の基本の一つとなるサンプル群をより小さなグループに分ける(Yard sampling)ことと、この分割を行う目的で、クラス分類特性が正反対の関係にある二本の判別関数(APモデルとANモデル)の創出方法についてまとめました。 また、これら分類特性が特殊な判別関数は、通常利用している判別分析ソフトを用いて構築可能であることもお分かりになったかと思います。 
    これら二本の特殊な判別関数の構築原理が「不均衡データ(Imbalanced Data)」の特殊性にあり、このような特殊な状況下にある場合に創出される判別関数の特性(クラス分類に偏りが生じること)を利用して創出できる事がお分かりになったかと思います。

    先の2/3の操作説明で、サンプル群をポジとネガの二つのグループに分類する二クラス分類では、APおよびANの二本の判別関数を用いて、ポジ領域とネガ領域、そして現在の判別関数ではクラス決定が出来ないサンプル群が落ち込むグレーゾーンの三領域に分類することが書かれていました。
    この時点で、ポジおよびネガ領域に落ち込んだサンプル群の帰属クラスは最終決定となりますが、グレーゾーンに落ち込んだサンプル群のクラスは決定されていません。「KY法」の実施では、グレーゾーンに落ち込んだサンプル群の帰属クラスを決定することが必要です。このグレーゾーンに落ち込んだサンプル群の帰属についてこの3/3で説明します。

◆ 適用分野の差異によるグレーゾーンの割合の変化:
Change of the ratio of the 'gray zone' by the difference of the application field
  現在行われている判別分析では、分類が完全でなくともとりあえず、全てのサンプル群をどちらかのクラスに帰属して結果を出します。この結果、あいまいなままクラス決定がなされるために分類率が大幅に減少することとなります。

    「KY法」では現時点でクラス帰属が出来るものだけを帰属させます。しかし、現時点ではクラス帰属が決定出来ないサンプル判別関数無理に帰属させず、帰属が出来ない領域である「グレーゾーン」のサンプルとして取り扱います。従って、各時点では帰属が決定したサンプル群は100%正しく帰属されていることになります。帰属が決定されていない「グレーゾーン」に落ち込んだサンプル群は、帰属可能となる条件が満たされるまで帰属が先送りされます。
    グレーゾーンに残るサンプルの割合が全体の数%レベルの時はこんpクラス決定が出来ないことによる悪影響は殆ど問題になりませんが、この「グレーゾーン」のサンプルの割合が大きくなってくると、非常に大きな問題となります。
    例えば、安全性(毒性)研究等の分野ではきれいにポジ(毒性あり)とネガ(毒性なし)サンプル群に分割できることは少なく、殆どの場合ポジとネガが混在する領域(即ち「グレーゾーン」)が存在します。なおかつ、安全性(毒性)研究分野では多くの場合、この「グレーゾーン」の割合が極めて大きく、極端な場合だと90%以上が「ググレーゾーン」に帰属されてしまうことが頻発します。このような状態では、先の2/3で述べた、3グループに分ける手順だけでは分類が完成したという事にはなりません。

「グレーゾーン」の割合のイメージ図
安全性研究分野では、この「グレーゾーン」の割合が他の研究分野と比較して極めて高い

    「グレーゾーン」に帰属されたサンプルが多くなると、この「グレーゾーン」に帰属されたサンプル群をそのままにしておくことはできません。なんらかの形でクラス決定を行う事が必要です。

◆ 「グレーゾーン」に落ち込んだサンプル群の繰り返し操作手順による完全分類の実現:
Realization of the perfect classification by the repetitive operation of the samples which fell in the "gray zone"
    「グレーゾーン」に帰属されたサンプル群のクラス決定は、別のデータ解析手法に持ってゆくこと等を含めていろいろと考えられますが、一つの手法でクラス帰属が出来なかったサンプル群を他のデータ解析手法に持っていってもやはり同様に分類は困難であることは明らかです。
    そこで、ダメ元でこの「グレーゾーン」のサンプル群を初期サンプルデータセットとし、再び2/3の「Y法(Yard sampling)」を適用してみました。すると不思議な事に、一つの「グレーゾーン」に落ち込んでいたサンプル群が、その両端にポジおよびネガ帰属サンプル群を形成し、新たな3グループに分かれました。このようになることはあまり期待していなかったので、驚くと同時にこれで完全分類への可能性が出来たと本当に喜びました。あとは、「グレーゾーン」が無くなるまでこの手続きを繰り返せばよいこととなります。
    残る唯一の不安な点は、実際にこのようなことが最後まで繰り返し起こるのかという事でした。たまたま偶然に3グループに分けられたもので、それ以降は分けられないかもしれないという不安がありました。そこで、この繰り返し手続きを繰り返して実行したところ、データ解析に用いた約7000ものサンプルが23回の繰り返しで「グレーゾーン」が完全になくなりました。つまり、22回の「Y法(Yard sampling)」を実施して「グレーゾーン」が無くなり、最後の23回目は通常の二クラス分類でポジおよびネガサンプルの二クラスに完全に分けることが出来ました。これで、約7000サンプルの完全分類が実現したこととなります。この7000サンプル(Ames testサンプル)の「KY法」による完全分類の詳細については別の機会に報告します。
    この計算手順は、同じ操作を繰り返すもので、個々の操作過程を「ステップ(Step)」として表現する事にします。従って、この繰り返しの状態を示唆する「K」を加えて「K-step」と名前を付けました。従って、新しい手法は2/3の「Y法(Yard sampling)」と合わせて「K-step Yard sampling」、すなわち「KY法」と名づけました。もちろん、私の名前「Kohtaro Yuta」のイニシャルでもあります。

「K-step」手順の概念図
「グレーゾーン」に落ち込んだサンプル群を初期サンプルセットとして「Y法(Yard sampling)」法を
繰り返して実施する様子が示されています

繰り返し手続きの様子

    両脇のサンプル群が取り除かれ、その空っぽの空間目指して「グレーゾーン」のサンプル群からポジおよびネガクラスサンプル群が湧き出るようにして移動している様子を示した図

    上の二つの図により、「グレーゾーン」サンプルが、次のステップで両脇にサンプル群が押し出され、これらのサンプル群がポジとネガできれいに分けられ、同時に新しい「グレーゾーン」が形成されている事がわかります。

◆ 繰り返し操作手順実施上での手続き:
       Procedure on repetitive operation 
  個々のステップで同じ操作を行うと言いましたが、より具体的にその手順を説明します。
    基本は、個々のステップで新たなサンプル空間を作り出すことです。前のステップと次のステップで全く同じサンプル空間を作れば、両脇のサンプル群を取り除いたとしても、新たに発生してくる両脇のサンプル群は大きくはなりません。従って、サンプル空間は個々のステップごとに作り直すという感じで操作する事が必要です。
 〇個々のステップ単位でサンプル空間を新たに作り直す:
       Regenerate sample space by an individual step
     これを実現するためには面倒ですが、新たなステップに突入したらサンプル空間を構成するパラメータ群を新たに作り直すことが必要です。このステップで最も分離率のよい新しいサンプル空間を再構築するのです。これには、新たにパラメータ群についての特徴抽出を実行してこのステップに最も適する(分離率の高い)パラメータ群を決定することが必要となります。
 これらのパラメータ群を決定した後に2/3の手順である「Y法(Yard sampling)」を実施して二本のモデル(APモデルとANモデル)を構築します。


    以上の手順を繰り返し、最終的に「グレーゾン」が無くなるまで続けることで完全分類が実現されます。





2012/06/27

2モデルKY法(二クラス分類)実行手順(2/3):Execution process of '2 Model KY-method for binary classification' (2/3)

◆ 2モデルKY法(二クラス分類)の実施手順について書きます(2/3)。

 Detailed execution process of the '2 model KY method for binary classification' will be discussed and explained hear (2/3)


2.「2モデルKY法」で用いられる、
  APおよびANのモデル(判別関数)の構築法

      「KY法」で用いるAPおよびANモデル(判別関数)はその分類特性がポジおよびネガクラスサンプルに対して正反対の特性を持っています。現在使用可能な既存の判別分析手法はすべてこのような特殊な判別関数を構築する機能は持っていません。では、どのようにすれば通常利用している判別分析ソフトを用いてこのような特殊な分類特性を持つ判別関数を創出することが出来るのでしょうか。

      答えは極めて簡単です。
「クラス分布に偏りのあるサンプルデータを分類する時の判別分析の分類特性を利用」

     即ち、判別関数作成時の分類特性を利用するだけで、APおよびANの全く正反対の分類特性を有する二本の判別関数を創出できます。従って、「KY法」で用いる特殊な二本のモデル(判別関数)は、現在提供されている既存の手法(線形/非線形を問わない:但し判別関数を用いない分類手法、KNN(最近隣法)等は除きます)を用いて創出することが可能です。「KY法」が従来手法を用いて実施する「メタ解析手法」に分類されるのは、このためです。

     多くのデータ解析研究者の方々は二クラス分類の時に「不均衡データ(Imbalanced Data)」(1-4)を扱わざるを得ない場合、特にクラスポピュレーションが99:1のような極端に偏ったサンプルデータを扱う時に起こる現象に悩まされてきたかと思います。
     このようにクラスポピュレーションが極端に偏ったサンプル群を扱う場合、現在入手可能な判別分析手法は、必ずポピュレーションの多いクラスに全てのサンプルを帰属してしまいます。即ち、分類率はポピュレーションの多いクラスが100%で、ポピュレーションが少ないクラスは0%となり、全体では99%の分類率となります。通常のクラス分類という観点からは、このような分類はあり得ないもので、両方のクラスに正分類と誤分類が存在することが理想ですが、上記のような極端に偏ったサンプル群を判別関数で分類すると、このような偏った分類結果となります。
(1)http://ibisforest.org/index.php?%E4%B8%8D%E5%9D%87%E8%A1%A1%E3%83%87%E3%83%BC%E3%82%BF
(2)https://www.aaai.org/Papers/Workshops/2000/WS-00-05/WS00-05-003.pdf
(3)http://sci2s.ugr.es/keel/pdf/specific/congreso/guo_on_2008.pdf
(4)http://www.mendeley.com/research/class-imbalances-are-we-focusing-on-the-right-issue/

      通常、このような偏りのある分類を避けるために、以下のようなアプローチを取ります。

対応1:学習過程でのペナルテイの強化(Cost-sensitive learning)
対応2:サンプルポピュレーションの調整

      これは、従来の判別分析手法はポジとネガの二クラスにしか分類しないために、偏りのある分類は実用にならないため、何とかこの現象を回避しようとするためです。

しかし、「KY法」ではサンプル群をポジ、ネガそして両方が混在するグレー領域に3分割する事が必要で、このためにAPおよびANの分類特性が正反対である極めて特殊な判別関数を利用します。このAPおよびANの特殊な判別関数の創出に、この偏った分類特性を利用します。

2.1 分類に偏りのある判別関数(APモデルおよびANモデル)の構築

     何度も述べていますが、「2モデルKY法」実施では分類特性が個々のクラスに対して全く正反対の分類特性を有するAPモデルおよびANモデルの二種類の判別関数が必要となります。この分類に偏りのある判別関数は通常のデータ解析手法を用いることで構築可能です。は、前記の「不均衡データ」を対象とした時に創出される判別関数のクラス分類がサンプル数の多いクラスに有利に働くという特性を利用します。

*一つのクラスサンプルを100%正しく分類する判別関数の作成方法
     クラスサンプル数に極端な偏りがある場合、通常の判別分析手法をそのまま適用するとサンプル数が多いクラスのサンプルを正しく分類する判別関数を作成します。例えばサンプル構成が99:1となるような極端な場合、99%のサンプルクラスは100%完全分類されます。しかし、1%の方のクラスサンプルは全て間違いとみなされ、クラス分類率は0%となる判別関数が創出されます。結果として全サンプル中99%が正しく分類されることとなるので、全体の分類率は99%となり極めて高い分類率が達成されます。しかし、このような分類はおかしいので、様々な工夫を行う事で偏りのある分類を修正します。
     上記の事実は、極端に偏りのあるサンプルデータを用いて作成された判別関数は特定のクラス(サンプル数が多い方)を100%正しく分類出来る能力を有することを意味します。もう少し一般的に考えると、通常の判別分析で創出される判別関数は、サンプル数の多いクラスを出来るだけ多くカバーするようにして創出されるという事です。この分類特性は、特定のクラスを100%正しく分類する必要のあるAPおよびANの二本の判別関数の作成に利用できます。

     以下に、ポジティブサンプル(O)を100%正しく分類する判別関数(APモデル)の導入について、イメージ図を用いながら説明します。

(1)全サンプルを用いて初期の判別関数を創出する。
     最初に全サンプルを用いて最初の判別関数を創出します。ここで創出された判別関数はサンプル分布がポジおよびネガでかなり重複しているため、ポジ(O)およびネガ(X)サンプルについて、両クラスともに100%分類を達成できない判別関数となっています。図1では、グリーンで示されています。
図1.初期判別関数(緑の線)

(2)初期判別関数をポジサンプルを100%分類出来るように、スライドさせる。
     初期判別関数ではポジサンプルを完全に分類することは出来ません。従って、次に必要な操作は、この初期判別関数を図2のように右の方にずらしてゆくことが必要となります。
    即ち、 図2中で青い領域をカバーする判別関数が出来るように、最初の判別関数をネガクラスの方に移動させます。この操作を行う時に、先に述べたように「偏りのあるサンプル群を扱うと、サンプルの多いクラスが有利(高い分類率)になるように判別関数が創出される:即ち、判別関数はサンプル数の少ないクラスの方に押し出される」という判別分析の特性を利用します。
     このように、判別関数をネガ(X)クラス(図2では右の方)に移動させるのは、ネガのサンプルを減らして強制的にサンプルの偏りを生じさせ、この新しいサンプルセットを用いて判別関数を再創出することで達成されます。この時ポジサンプルは当然ですが全てを用います。ネガサンプルを減らすことで判別関数がネガクラスの方に移動します。この結果、ポジサンプルの分類率が、ネガサンプルを減らす前と比較して少し向上します。

図2.初期判別関数をネガクラスの方(右の方)に移動


     ネガサンプルを徐々に減らしてゆくことで判別関数を徐々にネガクラスの方に移動させ、ポジサンプルの分類率を少しずつ向上させる。この操作を、最終的にポジサンプルが100%完全に分類されるまで繰り返します。なお、この時、サンプルを減らすのでサンプル空間の形も変わり、全体のサンプル数も少なくなり、ネガクラスのサンプル数が急速に減ってゆきますので、データ解析の信頼性を維持するためにパラメータ数も減らして、解析信頼性を保ちながら最適なパラメータ群を作成することが必要となります(*1)。すなわち、単にサンプル数を減らすのみならず、同時に解析に用いるパラメータ数も小さくし、選択することが必要であり、このためにパラメータ選択のために特徴抽出を行うことが必要となります。
     このような操作を繰り返し、最終的に全てのポジサンプルが100%正しく分類される判別関数が出来た時点でこの操作を止めます。

*1 用いる全サンプル数(N)と解析に用いるパラメータ数(P)にはデータ解析の信頼性を保持するという観点から一定の関係が存在します。通常の二クラス分類では N/P ≧ 4 の関係を保つことが必要です。 また、さらに上位のルールとして、ポピュレーションの少ないクラスサンプルの数(Ns)と用いるパラメータ数(P)との間にも Ns ≧ P の関係も存在します。信頼性の高いデータ解析を保証するためにはこれらの制限条件下で判別関数を構築することが必要となります。
つまり、サンプル総数が4個しかない場合、分類には1個のパラメータしか使えません。二個以上になると「偶然相関」をおこしていることになります。また、全サンプルが100個あったとしても、少ないサンプル数のクラスサンプル数が一個の場合、最初の制限ルールでは25個のパラメータが使えますが、残る一つの制限ルールにより、この場合の分類に使えるパラメータは1個しか使えません。このような制限条件は、データ解析の信頼性を保つためには極めて重要な制限事項となります。

(3)前記(2)の操作を繰り返し、最終的なAPモデル(判別関数)を創出する
     全てのポジサンプル(O)が100%正しく分類された時点での判別関数(図3中青い線)が最終的なAPモデルとなります。この最終APモデルを創出する過程は特徴抽出を行いながら実施しますので、最終APモデルを構成するパラメータの種類も数もウェイトベクトルも、最初に創出された判別関数(図1中の緑の線)とは完全に異なったものとなっています。

図3.最終的なAPモデル(判別関数)(図中青い線)

(4)創出されたAPモデルを用いて、全てのサンプルの分類を行う
     APモデルを構成するパラメータの種類や数は最初に創出された判別関数のものとは全く異なり、そのウエイトベクトルも異なっています。この時点でAPモデル作成過程で取り除いたネガサンプルをサンプル母集団に戻し、再び全サンプルの分類を行います。この時、最終APモデルを用いているので、当然ながら全てのポジサンプルは100%正しく分類されます。しかし、ネガサンプルの分類率は高くはありませんが、この場合ネガサンプルの分類率は気にしません。
     図3からわかるように、このAPモデルで正しく分類されたネガサンプルは純粋にネガサンプルのみ存在する領域に落ち込んでいます(図3中、青い線の右側部分)。このAPモデルで誤分類されたネガサンプルは、この時点(ステップ)ではクラス決定が出来ないグレーゾーンに落ち込んだサンプルとなり、次のステップで再分類されることになります。
 即ち、APモデルではネガサンプル群が、純粋にネガサンプルのみで構成される領域に落ち込んだサンプル群と、ポジとネガサンプルが混在する領域(グレーゾーン)に落ち込んだサンプル群の2グループに分類されることがわかります。「KY法」では、このように与えられたサンプル群がポジ/ネガおよびグレーゾーンのどのグループに帰属されたかを明確にすることが最も大事な作業となります。この作業過程での分類率は単に作業上での指標にしかすぎません。全サンプルが完全にポジ/ネガ領域に落ち込んで、グレーゾーンが無くなった時が操作のストップポイントであり、この時点で全サンプルの完全分類が実現されたことになります。

(5)ANモデルの構築によるポジサンプルの帰属領域(純粋およびグレーゾーン)の決定
     ポジサンプルは上記(1)-(4)のプロセスで創出したAPモデルでは正しく分類されていますが、このAPモデルでは、個々のポジサンプルが純粋なポジ領域に落ち込んだサンプルであるのか、グレーゾーンに落ち込んだサンプルであるのかのかを区別することは出来ません。これを行うためにはAPモデルと対をなすANモデルを構築することが必要となります。
     このANモデルの構築は、上記(1)-(3)のプロセスでポジサンプルとネガサンプルを置き換えて実行する事でAPモデルと同様に創出されます。ちなみに図2中では、初期の緑色の判別関数が図2で示されている方向とは反対方向(左側)に進むことになります。

*用いる判別関数の種類(線形および非線形)
     「KY法」で作成される判別関数は、線形でも非線形でも構いません。上記の図では説明の都合上から線形の判別関数を用いて説明していますが、当然のことながら非線形の判別関数でも構いません。また、ANモデルおよびAPモデルがともに線形、非線形、あるいは片方が線形で残る片方が非線形でも構いません。
  但し、データ解析の信頼性(特に外挿性)を高く保つという観点からは、両方とも線形であることが望ましいのですが、線形と非線形判別関数の構築しやすさを考えた場合は非線形判別関数の方が構築しやすい事は事実です。しかし、特にサンプル数が少ない時や「KY法」の実施でサンプル数が少なくなってきた時は創出が難しくとも線形判別関数を用いることが「偶然相関」の回避という観点でも望ましいものとなります。

     次回は、グレーゾーンに落ち込んだサンプルの扱いに関してまとめます。




2012/05/07

2モデルKY法(二クラス分類手法)の実施原理(1/3):Execution process of '2 Model KY-method for binary classification' (1/3)

◆ 2モデルKY法(二クラス分類)の基本原理について書きます(1/3)。

 Detailed execution process of the '2 model KY method for binary classification' will be discussed and explained hear (1/3)

 1.「KY法」の基本原理について簡単にまとめます
     データ解析手法的に「KY法」は大きく二クラス分類手法とフィッティング(重回帰)手法に分かれます。それぞれに複数のアプローチがあり、現時点では二クラス分類手法として3種類のアプローチが、またフィッティング手法として3種類のアプローチがあります。
      これらの手法は全て従来より展開されているデータ解析手法を用いて展開することが可能です。従って、特に「KY法」として全く新しいソフトウエアが必要というわけではありません。しかし、従来のデータ解析手法を「KY法」の計算エンジンとして使う場合には少し特殊な使い方が必要となります。ここでは、従来手法を「KY法」の基本的な考え方や手順等について簡単にまとめます。この説明後に「KY法」を実施する具体的な手順を紹介いたします。
      「KY法」にはいくつものアプローチがあると申しましたが、ここで説明する「KY法」はクラス分類特性が互いに正反対の関係にある二本のモデル(判別関数)を用いて行う二クラス分類手法です。他の「KY法」と区別するため、「2モデルKY法(二クラス分類)」として説明いたします。

      ここで述べる「2モデルKY法」の詳しい実行手順は米国特許および日本特許にて詳細に述べてありますので、そちらを参照してもらえば2モデルKY法の実行が可能であり、強力な分類結果を実感できます。手順が分かれば、従来手法では分類出来なかったサンプル群等に適用いただければ常に100%分類が実現されます。
      KY法は開発されたばかりで、データ解析事例は現時点で2例しかありません。従って現在は、Journalへの投稿や学会等での発表もしやすい環境にあります。発表にあたっては、KY法の実施過程での感想や評価も加えれば、今後のKY法展開の支えとなるでしょう。

1.二本のモデル(判別関数)によるサンプル空間の3領域への分割と、二本のモデル(判別関数)の分類特性の違いについて

1.1 「2モデルKY法」で用いられるAPおよびANの二本のモデル(判別関数)の分類特性

     従来の判別分析に用いられるモデル(判別関数)は一本だけでした。しかし、「KY法」では二本のモデル(判別関数)を利用します。しかもこれら二本のモデルはポジおよびネガクラスサンプルに対する分類特性が正反対(ANモデル(ネガサンプルの100%分類のみ保障)、APモデル(ポジサンプルの100%分類のみ保障))という特殊なものです。

  ポジとネガのサンプルによる二クラス分類に「KY法」を適用する場合について述べる。
      「KY法」実施の第一ステップとして、左図からわかるように、ポジ領域とネガ領域の他にポジとネガサンプルが混在する領域(グレー領域)の3つの異なるサンプル空間に分ける事が必要である。この3領域への分割のために利用される二種類の判別関数(AP:All PositiveおよびAN:All Negative)は、分類目的であるポジとネガサンプルに対する分類特性が全く正反対のものを利用します。このように、KY法の実施には二本の特殊なモデル(判別関数)を構築することが必要です。

      通常の多変量解析/パターン認識手法を用いて二クラス分類を行うと、創出される判別関数は両方のクラスを最も効率よく分類する判別関数を構築します。

  つまり、もともとのN次元サンプル空間が完全に二つに分割されているならば、判別関数は二つのクラスサンプルを2分割するきれいな識別線を引いてくれます。
しかし、サンプル数が増えたり、あるいはクラスサンプル同士がサンプル空間上で大きく重複している場合、創出される判別関数は左の図にあるようにポジとネガが重複している空間上に引かれることになります。 このような状態では、100%(完全)分類を実現することは極めて困難です。


     このような事実から、全体のサンプル空間の両端にあるクラス間重複のない二つのサンプル空間と重複している空間(グレー空間と呼び、この空間に存在するサンプルのクラス決定は行わない)を分けることで、両端のサンプル群について100%(完全)分類を実現する。これがKY法の大きな二本の柱のうちの一つです。
  左図にあるようにAN(All Negative)モデルは、全てのネガ(図中X)サンプルを100%正しく分類(赤いANモデル線の右側の空間)します。しかし、このANモデルはポジ(図中O)サンプルの分類に関してはなにも保証していません。それどころか、ネガサンプルの完全分類保障のためにANモデルの位置はネガサンプル領域どころか、ネガとポジサンプルの重複区間の端まで移動しています。この結果、ポジサンプルに関しての分類率は極端に低くなります。
     すなわち、ANモデルはネガサンプルのみの完全分類を保証するモデル(判別関数)であって、ポジサンプルの保証は行わないという偏ったクラス分類特性を有するモデルです。
    ポジとネガの二種類のサンプル群から構成されるサンプル空間の分類には、上図でしめされるようなネガサンプルだけの分類保障だけでは不十分で、もうひとつのクラスであるポジサンプル群についても完全分類を保証することが必要となります。このポジ(図中O)サンプルの分類を保証するものがAP(All Positive)モデルです。
  左図は、先のANモデルを説明した時に用いたサンプル空間を用いてAPモデルを構築した時のAPモデル(図中青い線)の様子が示されています。
  左図からもわかりますように、、ポジサンプル(図中O)については100%完全分類を保証(青いAPモデル線の左側の空間)するが、ネガサンプルについての分類はなにも保証しません。
      即ちAPモデル(判別関数)とは、ポジサンプルの100%(完全)分類を保証しますがネガサンプルの分類は保証しないという分類特性を有し、この分類特性はANモデルと正反対の特性となります。

      以上の基本からわかりますように、「2モデルKY法(二クラス分類)」の最大の特徴は、モデル(判別関数)の分類特性が正反対のものを二本用いて分類することにあります。このアプローチは、 従来手法では一本のモデル(判別関数)のみを用いて全サンプルを分類していたものとは全く異なっています。
      この、互いに分類特性の異なる二本のモデル(判別関数)を構築する基本原理と具体的手順は次に(2/3)説明いたします。
      「KY法」が従来手法と異なるもう一つの特徴は、サンプル分類過程で繰り返し分類(学習のための繰り返し計算ではありません)を行う事です。これは、3/3でまとめます。

2012/04/08

KY法は常に疑いの目で見られます:The KY method is always seen with the eyes of the suspition

◆「KY法」は常に「眉唾な話」という感じで見られます:

The KY method is always regarded as the "fishy story talk"


    残念ですが「KY法」による100%完全分類の実験結果について発表すると、「KY法」を初めて聞かれた方々には常に「うさんくさい話」として受け止められます。実際、何十年と化学データ解析を行ってきた私自身もこの「KY法」を用いて約7000ものAmes試験サンプルの完全分類が出来た時には、思わずこれは奇跡か単なる偶然に過ぎないと思いました。そこで、何度も検証しましたが、完全分類は事実でした。
    もし私も「KY法」の開発者でなく、一般の立場でこの解析結果を聞けば、やはり他の研究者同様に疑いの眼を持ってしまうでしょう。なぜならば、私も安全性研究分野での100%(完全)分類実現の難しさを骨にしみるほど体験しているので・・・。こんなことあるはずがない・・・と。

*ある人からのアドバイス:Advice from a certain person
    私をよく知った親切な方は次のようにアドバイスしてくれました。「湯田さん、7000ものAmes試験サンプルを100%完全分類したなんて発表したら、聴いた人たちはだれも信用しません。眉唾と思われるだけですよ。少し値を落として95%から98%と発表した方がみなさん興味を持ってついてくると思います」と忠告してくれました。このように「KY法」は、その実行結果だけを聴いた直後は、データ解析を知っている人も知らない人も一様に「信じられない話で、眉唾な話」と思いこんでしまうようです。無理もありませんが・・・。

*事実を検証してこそ科学:It is science just by verifying the facts
    しかし、「KY法」を用いることで常に100%完全分類を達成できることは事実です。従来の常識に捕らわれて嘘を発表する事はできません。話を信じるか信じないかは、聴いた本人の問題と思います。しかし、「KY法」の解析結果を聴いて「眉唾な話」としてとらえること自体は、自分の常識や価値観から抜け出られないことの証であり、常に実験事実を優先して物事を冷静に考えることが科学者の務めであるはずなのに、本当に残念です。

*疑いの目で見られることは、「KY法」のすごさの証明:
 Seeing by the eye of doubt is the proof of the dreadfulness of the "KY methods"
    これだけ疑いの目で見られるという事実は、「KY法」の結果が従来手法と比較して信じられないレベルの高い結果を出していることの間接的な証拠と考えます。Ames試験での「KY法」適用に続き、約600化合物を用いた皮膚感作性評価実験でも100%(完全)分類を実現しました。この皮膚感作性データを用いた実験は、サンプル数が少ない時(214化合物)は従来からの多変量解析/パターン認識手法でも100%(TILSQ,AdaBoost)から99.5%の分類率を達成したのですが、サンプル数が多くなった(593化合物)時点で完全分類や高い分類率を実現することが出来なくなりました。そこで、開発早々の「KY法」を適用したところ100%(完全)分類が実現されました。これは、「KY法」の二番目の適用事例となります。

◆実現不可能を可能にした「KY法」:
    The "KY methods" made realize from impossible to possible
   安全性評価研究分野では、約7000にも及ぶ大きな数(実際には数が大きいだけではなく、扱う化合物の構造変化性が極めて高い)のサンプル群を、変異原性「ポジ」および「ネガ」の二クラスに完全分類することは「夢のまた夢」というくらいに難しい仕事で、殆ど不可能と考えられてきました。私も、仕事上の関係で様々な多変量解析/パターン認識手法を駆使し、パラメータ等を創意工夫し、サンプリング等を変えながら何度もチャレンジしてきました。この結果、従来手法での完全分類は実現不可能との結論に至り、100%は無理であっても、如何にして高い値を実現するかというように目標を変えて実験してきました。しかし「KY法」を用いることで、不可能と考えていた100%(完全)分類が実現したのです。

*「KY法」の常識はずれといえる機能:
   The "KY methods" is far beyond common sence of multivariate and pattern recognition methods
    「KY法」がうさんくさい手法として見られるのは、その分類結果(二クラス分類)や相関係数/決定係数(重回帰:フィッティング)結果が従来からの多変量解析/パターン認識の常識を覆す程高い値を示すためです。その従来からの常識とは以下の二点です。

データ解析の常識1:サンプル数が大きくなるほど分類率は下がる
Common sense1:A classification rate falls, so that the number of samples is large.
↓↓↓↓↓↓
KY法の能力1⇒サンプル数が大きくなっても常に完全分類実現
Power of the KY-methods⇒Even if the number of samples becomes large, perfect classification is always realized.


データ解析の常識2:クラス間重なりの大きなサンプル群を完全分類するのは極めて困難か不可能
Common sense2: It must be impossible to carry out perfect classification on the big sample space which have large overlapping space of two classes.
↓↓↓↓↓↓
KY法の能力2⇒たとえどんなにクラス間のオーバーラップが強くとも、完全分類実現
Power of the KY-methods⇒A perfect classification is realized even if class samples are highly overlapped.


   「KY法」の実施基本原理から容易にわかりますが、「KY法」を用いれば、サンプル数がどんなに大きくなっても100%完全分類が実現します。この事実は、先の常識1を覆すものです。また、たとえサンプル数が少なくとも、クラス間の重複度が高い場合は従来手法では完全分類出来ないのですが、両サイドの空間に単一クラスサンプルのみが存在する空間がある限り、必ず完全分類が実現されます。この事実は常識2を無効にしてしまう事実です。

    既に、「KY法」の適用事例で言うならば(二クラス分類)、常識1を覆す事実に関しては7000のAmes試験サンプルを用いた実験結果が証明しています。常識2を覆す事実はサンプル数はさほど大きくありませんが、約600の皮膚感作性試験の完全分類実現で証明されています。

2012/04/07

「KY法」の実行はどのようにしますか:How to execute the 'KY-methods' ?

「KY法」は、従来の多変量解析/パターン認識のソフトを用いて実行可能です:If there is software of the multivariate analysis / pattern recognition, it is easy to carry out the "KY-methods"


◆「KY法」はメタ手法なので、従来からのデータ解析ソフト上で実行できます:
    Since the "KY method" is the meta-method, it can perform on normal data analysis soft.
  
   先にも書きましたように、「KY法」は従来から展開されてきた多変量解析/パターン認識手法を計算エンジンとして利用する「メタ手法」です。従って、「KY法」として全く新しいデータ解析ソフトウエアを必要とするわけではありません。従来から展開されている多変量解析/パターン認識ソフトウエアを使って「KY法」を実行することが可能です。

◆「SVM」や「N.N.」等の専門ソフトが必要なわけではなく、これらのソフトを利用して「KY法」を実行することが可能です:
   Special software, such as "SVM" and "N. N.", is not necessarily required, and it is possible to perform the "KY method" using these software.

   例えば、「SVM:サポートベクターマシン(Support Vector Machine)」を実行するためにはSVMを実行するSVMソフトが必要です。同様に、「N.N.:ニューラルネットワーク(Neural Network)」の実行にはニューラルネットワークの実行ソフトが必要です。このように、新しいデータ解析手法には、それ専用のソフトが必要となります。しかし、「KY法」の実施に「KY法」のソフトが必要となるわけではありません。これらのソフトウエア(「SVM」、「N.N.」、「AdaBoost」、その他)を用いて「KY法」を実施します。現時点で「KY法」の専門ソフトウエアはありません。

◆「KY法」による二クラス分類で利用する判別関数は、従来手法を用いて構築します:
   The discriminant function used by the "KY method of binary classification" is built using the conventional technique.

    「KY法」自体は全体として新しいデータ解析手法ですが、「メタ手法」ですので従来からのデータ解析手法を用いて展開されます。従って、特に新しいソフトが必要になるわけではありません。例えば、二クラス分類を行う時、「KY法」で必要となる判別関数は、線形判別関数であるならば従来からのBayes判別分析やその他を利用することも出来るし、非線形判別関数であるならばSVMやN.N.を用いて判別関数を作成することが可能です。同じ「メタ手法」とされるAdaBoostを用いることも可能です。さらには、一つの「KY法」の中で線形/非線形判別関数を混在して用いることも可能です。いずれにしても、従来から展開されている多変量解析/パターン認識が実行できるソフトがあれば「KY法」を実行できます。

◆「KY法」の展開に必要な情報が従来手法のソフト上で扱える事が必要です:
   It is required to be able to treat information which were required for executing the "KY method" on the conventional software.

     従来からのデータ解析手法を用いた場合は、「KY法」の実施時に必要な関連情報を扱う事が可能であることが「KY法」を実施するための必須条件となります。この条件が揃えば、操作上での多少の煩雑さは出てきますが、従来手法のデータ解析ソフトを用いて「KY法」を実行することが可能となります。現に私も、「KY法」の専用ソフトを使っているわけではなく、化学データ解析用に開発された汎用的なデータ解析ソフトウエアを用いて「KY法」を実行しています。

◆従来手法を用いての「KY法」の実施は、解析手順の変更で実現します:
  The "KY method", using the conventional technique, is realized by change of an analysis process.

    このように、「KY法」の実行に専用ソフトが必要となるわけではありません。従来からの多変量解析/パターン認識手法を「KY法」に利用する場合は解析手順の変更が必要です。この手順の実施に多少複雑な操作が必要となりますが、一度操作手順を覚えれば「KY法」の実行をルーチンワーク的に実施出来ます。

◆「KY法」の専門ソフト: Special software of the "KY method".

     将来的に「KY法」の専門ソフトが出来るのは時間の問題と考えます。「KY法」の専門ソフトは、従来手法のソフトを用いて「KY法」を実行する時の手順の煩雑さが少ないソフトとして展開されるでしょう。

2012/04/06

KY法は全く新しい方法?:Is the KY-methods completely new approach?

KY法は「メタ手法」です:KY-methods are the meta-methods


KY法の基本は従来からの多変量解析/パターン認識手法です。しかし、サンプル空間の扱いと、その手順に根本的な差異があります。

     「 KY法」は全く新しい考えに基づいた多変量解析/パターン認識手法です。しかし、KY法の基本は従来から展開されている一般的な多変量解析/パターン認識手法を利用しています。二クラス分類における判別関数の構築や、重回帰等のフィッティング手法における回帰式等の構築はすべて従来から展開されてきた手法を用いており、全く新しいアルゴリズムを用いているわけではありません。従って、KY法は従来の多変量解析/パターン認識技術を基本として展開される「メタ手法」となります。
       では、KY法が全く新しい多変量解析/パターン認識手法であり、適用結果が従来手法と比較して根本的に異なる高い精度を実現するのはなぜでしょうか。それは、サンプル空間の有するサンプル分布特性を利用するためです。この目的を実現するためにKY法は、従来からの多変量解析/パターン認識手法を利用(判別関数や重回帰式の構築)はしますが、そのデータ解析手法の運用方法(特にサンプル空間の扱い解析手順)が従来手法と比較して根本から異なっている点にあります。

      データ解析運用方法が異なる大きな点(特徴)は以下の二点につきます。

1.サンプル空間の分類や設定が従来手法と異なる。

(a)ニクラス分類:二クラスではあるが三グループにサンプル空間を分割する

・KY法ではサンプル空間が3グループ(ポジ/ネガ/グレー)に分割される

KY法にて、全サンプル群がポジ(O)サンプル領域とネガ(X)サンプル領域、およびグレー(OとXが混在し、クラス決定が出来ない)サンプル領域との3領域に分割される様子。
二クラス分類の時、分類結果のサンプル空間を見ると、常にその両端は混在のないきれいな個別クラスのサンプル群で構成されている。
分類を妨げている語分類サンプル群は常にサンプル空間の真ん中の位置周辺に位置している。
・従来手法は2グループ(ポジ/ネガ)のみに分割される

従来手法による二クラス分類は、全サンプル群をポジ(O)サンプル領域とネガ(X)サンプル領域の二つのグループに分割しようとして判別関数を構築する。このために、サンプル空間上でポジおよびネガサンプルが混在する空間が残った場合、この混在空間を線形判別関数で分類することは殆ど不可能である。また、強力な分類機である、非線形分類手法を用いても完全分類することは困難である。


(b)重回帰(フィッティング):サンプル空間を残差値の大きさに従ってグループ分けする

・KY法では残差の小さいグループと残差の大きなグループの二つに分ける
・従来手法では、残差値の大小によるサンプル群のグループ分けは行わない

2.計算実行のプロセス

(a)二クラス分類:
・KY法ではサンプルグループ単位での繰り返し計算を行い、これを完全分類実現まで行う

     クラス決定の出来なかったサンプルグループ(グレーサンプル)を初期サンプルセットとして新たにサンプル空間を作り直し、再び分類 計算を行う。この操作を繰り返し、最終的に全サンプルが完全(100%)分類されるまで何度も行う。最終回の分類は、1本の判別関数を用いて実行する通常の形式での二クラス分類となる。以上の操作により、KY法ではサンプル数がどんなに多い場合でも、またクラス間重なりが激しいサンプル空間であっても常に完全分類が実現される。なお、最終ステップは一本の判別関数による通常の判別分類が実施される。
・従来手法では、分類計算は一回のみ実施。

ポジおよびネガサンプルの重なり状態が高くなったり、サンプル数が多くなるにつれて、一回だけの計算で全サンプルを完全(100%)分類することは困難か殆ど不可能となる。
左図は、完全分類を目指して線形および非線形判別関数をいくつも創出している様子を示す。このように、一回限りの分類操作では、異なるクラスのサンプル群が混在する状況を克服して完全分類することは極めて困難であることが分かる。


(b)重回帰(フィッティング):
・KY法では、サンプルグループ単位あるいはサンプル単体での繰り返し計算を行う
・従来手法では全サンプルを用いた一回のみの計算である

       以上の二点がKY法と従来手法による多変量解析/パターン認識との操作上での大きな違いです。KY法の実施にあたり、判別関数や回帰式の構築は従来からの多変量解析/パターン認識手法を用いていることがわかります。KY法は従来からの多変量解析/パターン認識手法を基本としながら、その運用方法をガラッと変えること(すなわち「メタ手法」であっても)、従来手法とは比較にならない程の高い解析精度を実現することになります。

◆「KY法」はメタ手法:従来からのデータ解析ソフトウエアを用いての実行が可能

      KY法は「メタ手法」なので、基本的な運用方法さえ理解されれば従来からの多変量解析/パターン認識の解析ソフトウエアを用いての実行が可能です。KY法専用のソフトウエアが必要というわけではありません。現に私も、KY法のソフトウエアとして特別に開発されたソフト(残念ですが、現在は存在しません)を用いているわけではなく、一般のデータ解析目的で作成された、従来手法による多変量解析/パターン認識のソフトウエアを用いてKY法を実施しています。このような身軽さがKY法の隠れたもう一つの利点です。

2012/03/05

◇ 安全性(毒性)評価/予測の困難性について: Difficulty of Toxicity prediction

◇安全性(毒性)研究分野での評価や予測の困難性は極大である:  The toxicity prediction research is one of the most difficult thema of data analysis approaches

私は、構造-活性相関や構造-物性相関を多年にわたり実施してきましたが、安全性(毒性)分野における評価や予測の困難さは飛びぬけて難しいという事を実感しています。通常の薬理活性を目的変数とした解析と、安全性(毒性)を目的変数とした解析では、研究を行うための環境が全く異なり、果てには研究分野全体の思想までが全く異なっているという事を実感してきました。

インシリコ上で安全性(毒性)評価や予測を行う時に大きな問題となる項目を以下に示しました。これは薬理活性の評価や予測を行うときには見られない大きな差異となります。

1.評価や予測対象となる化合物の構造変化性が極めて高い
   ( Structural diversity of used compounds are extremely high )

2.扱うサンプル数が大きくなる
   ( Ordinaly, the number of compounds becomes extremely big )

3.高い評価信頼性や予測性が求められる
   ( Extremely high evaluation reliability and predictive values are strongly required ) 

これらの項目を薬理活性を比較対象として考えてみます。

最初の1番ですが、これが安全性(毒性)予測の最大の特徴であり、この点がインシリコ上での評価や予測を薬理活性分野とは異なり、極めて難しくしている点となります。
薬理活性分野では、評価や予測対象化合物は基本的に誘導体(構造が似ているもの)を中心として展開されます。この誘導体の中で、薬理活性を最適化させてゆくことが中心となります。しかし安全性(毒性)分野で扱う化合物は、原則すべての化合物が評価や予測の対象とすることが求められます。従って、非常に簡単な構造を持つ化物から構造が極めて複雑な化合物までもが同じ土俵上で評価、予測対象とすることが必要です。この結果、メタンエタンのような極めて構造が簡単なものから、テルペン、ステロイド、糖といったより構造が複雑なもの、さらにはマクロライドのような極めて構造の複雑なものまで同じ土俵上で評価、予測する事が必要です。この結果、評価と予測対象となる化合物の構造変化性は極大となります。
一般的に、インシリコ上での化合物評価や予測は構造変化性が高くなるほど難しくなることが分かっています。この点で、安全性(毒性)に関するインシリコ上での評価や予測が極めて実施困難であることは明白です。

次の2番目の項目ですが、基本的に安全性(毒性)の評価や予測対象となる化合物はすべての化合物となります。従って、データ解析で扱うサンプル数は薬理活性分野の研究と異なり、簡単に大きくなります。統計分野はちょっと異なりますが、いわゆる多変量解析/パターン認識ではデータ(要因)解析の特性が強いため、サンプル数が大きくなるほどノイズも増えてくるため、データ解析実施の困難性が急速に増してきます。
現在はサンプル数が大きい場合の解析手法としてデータマイニング等が開発されていますが、いわゆる「トレンド解析」的なもので、安全性(毒性)分野のように、サンプル数が増えてもその精度は高いものが要求されるという逼迫した要求にこたえるものではありません。データマイニングが目指すトレンド解析も重要なテーマですが、安全性(毒性)評価や予測分野で求められる高い精度への要求に答えることを目指して開発された手法ではありません。

三番目の項目の高い評価信頼性や予測性という事も、インシリコによる安全性(毒性)評価や予測では極めて高いハードルとなります。もともと、第一と第二項目で示しましたようにインシリコ上での評価や予測が実施困難であるのに、この値に関しては安全性(毒性)分野では可能な限り高い値が求められます。
これに対して、薬理活性評価や予測分野ではそれほど高い値は求められません。これらの値は、議論が出来る、保障されるレベルの高さであればよいと思われています。むしろ要因解析結果で、薬理活性に関する説明がきちっと出来ていることの方が大事です。データ解析による評価値や予測値は参考レベルで構わず、むしろ、次のドラグデザインにつながる、参考情報がきちっと論じられることの方が重要であるという文化が育っています。
先にも述べたように安全性(毒性)分野は薬理活性研究分野と異なり、メカニズムを中心に安全性(毒性)を議論することが難しいため、評価や予測値の高さとデータ解析の信頼性が強く求められます。

これら3項目の他に、細かなところでインシリコ上での安全性(毒性)評価/予測を困難とする様々な要因があります。

例えば、
(a)サンプルデータの信頼性の問題 ( Problems of the low reliability of the used sample data )
様々な実験プロトコルがあり、結果として同じ安全性(毒性)項目であっても、同じ化合物が毒性と安全性の二つに評価され、矛盾が生じることがある。また、実験動物種や実験プロトコルが異なるものを一緒にしてデータ解析を行っていいのか、分けてデータ解析を行うのか等の問題がある。いずれにしても、単にポジ、ネガでデータ解析を行うと先の矛盾データや、その他の様々な条件の違いからくる要因のため、後で苦労することになる。
*例えば魚毒性の場合、極端にいうと魚の種類の数だけ実験プロトコルがあると言えます。薬理活性ではせいぜい数種類か、一つに統一されます。

(b)サンプルデータの偏りの問題 ( Problems of the large disproportion of class sample population )
サンプルデータの収集上、サンプルデータが一方のクラスに極端に傾いていることが多い。
このようなサンプルデータの場合、データ解析の実行が困難になり、無理に行ったとしてもよい結果に結び付かない。昔、私が安全性(毒性)評価の委託を受けて、そのデータ解析に使うサンプルデータを受け取った時、全体としては約3千近くのサンプルをいただきましたのですが、そのうちポジ゙サンプルは約30未満しかありませんでした。これでは、データ解析自体が出来ません。無理に行うことは可能で、この場合は全体で98%程度の分類率を簡単に達成しました。しかしこの場合、すべてのサンプルをネガと判定する判別関数が作成されます。全体がネガであっても、ポジが30/約3000なので98%以上の分類精度が出ますね。

この他に、安全性(毒性)はメカニズムが極めて複雑なために、実験至上主義で、インシリコが得意とする要因解析等の理由づけは殆ど行わないこと。 サンプルの特性として、ポジ/ネガの二クラス分類を行うと、薬理活性分野と異なりポジとネガの混在領域の大きさが際立って大きくなること。すなわち、分類率が悪くなるという事です。

なんやかんやと思いつくままに書いてきましたが、ようするに安全性(毒性)評価/予測は薬理活性分野と異なる特殊な要因や研究文化の違いにより、インシリコによる評価/予測の実施が極めて難しい分野であることが、雰囲気でわかっていただければ十分です。

2012/02/28

◇ KY(K-step Yard sampling) 法開発のきっかけについて   ( Opportunity of the development of the KY-methods )

 なぜこのようなデータ解析手法が必要となり、開発することになったのかについて以下にて話します。

  私が行っていた富士通での仕事は、化学多変量解析/パターン認識手法を用いた構造-活性相関やドラグデザイン等を行うことでした。会社にいた時から、構造-活性相関/ドラグデザイン支援システムの開発やADAPT(1)の富士通マシンへの移植、さらには実際にデータ解析の依頼を受け、ADAPTを用いて従来手法によるデータ解析を長く続けてきました。

1)ADAPT (Automated Data Analysis by Pattern recognition Techniques) は、私が留学先で行った研究(1979年)で用いた化学多変量解析/パターン認識(ケモメトリックス)支援システムです。私は、米国ペンシルバニア州立大学のP.C.Jurs教授の下にリサーチアソシエートとして留学しましたが、ADAPTはJurs教授グループで開発されており、これが世界初の化学変量解析/パターン認識(ケモメトリックス)研究支援システムとなります。私の研究は、このADAPTシステムを用いたインシリコ(コンピュータ)による発がん性予測でした。約30年も前にインシリコ上で毒性予測を行っていたことになります。その後、日本に帰ってからは安全性(毒性)関連の仕事は殆どなく、殆どが薬理活性を目的とした構造-活性相関やドラグデザイン関連の仕事となりました。また、データ解析ということで、このデータ解析のノウハウを利用したバイオテクノロジー関連研究分野での仕事が一時は多くを占めるようになりましたが、データ解析技術はどの分野でも利用できるので、多くの経験を積むことが出来ました。
 現在、ADAPTは最新のGUI技術を取り入れ、かつPC上で稼働するようにしてModelBuilderという名前で(株)富士通九州システムズから販売されています。

◇ 適用分野の変化(薬理活性から毒性へ)と従来手法の限界   ( A limit of conventional methods based on the change of application fields from activity to toxicity )

 薬理活性を対象とした創薬系でのデータ解析(構造-活性相関やドラグデザイン)は、現在までに開発されている従来手法でも十分に解析目的を達成することが出来ます。しかし、近年になり安全性(毒性)関連のシステム開発やデータ解析の依頼が多くなり、この安全性(毒性)関連分野のデータ解析に携わるようになることで、この薬理活性解析での常識が覆りました。つまり、薬理活性と異なり安全性(毒性)分野では、従来から展開されている通常の多変量解析/パターン認識手法では線形/非線形といったデータ解析手法の差異にかかわらず、良い結果を得ることは極めて難しいということです。

◇ 適用分野の違いによる、データ解析適用の困難性の違い(薬理活性と安全性(毒性))( Difference in difficulty of the data analysis by the difference of the application field ( activity and toxicity ))

先にも述べましたように、薬理活性を目的変数とした構造-活性相関やドラグデザイン研究では、現在展開されている化学多変量解析/パターン認識(ケモメトリックス)のパワーで十分です。日常的には、充分にお釣りがくるレベルの解析が実行できていました。特に、ADAPTはこの分野のシステムとして最長の歴史と最高のデータ解析パワーを有しており、薬理活性データ解析では充分な結果の達成と討論を行うことが出来ました。

しかし、時代の変化とともに最近ではADMEや安全性(毒性)に関するデータ解析依頼が多くなってきました。特に、安全性(毒性)を目的変数としたデータ解析では、薬理活性と異なり、従来手法によるデータ解析手法の単純適用ではどんなに努力しても良い結果が得られないことを肌で実感するようになりました。私の経験では最強のADAPTを用いても、多くの場合80から90%で、サンプル数が多くなってくると70から、高くとも80%程度になってしまいます。このようにデータ解析に用いるデータ解析ソフトウエアとしてはこの分野で頂点に立つADAPTを用いて、且つ、私が培ってきたこの種のソフトウエアの利用ノウハウを駆使してもこの程度です。

* 学会発表やパンフレットの「見せかけの指標」と、現場で行う実際のデータ解析とのギャップ
 一般的に、学会発表やパンフレット等の広告では結構高い値が示され、その気になってしまいがちですが、実際の現場で行うデータ解析では様々な条件からもっと低い値となるのが現状です。このように、現実のデータ解析と学会発表やパンフレットのデータ解析結果の値とのギャップが生じる大きな原因としては、データ解析の本質を無視し、「見せかけの指標」だけを良くすることに集中することの弊害と考えます。データ解析では様々な条件を変えて行うことが可能であり、意図的でなく、また本人が気付かないとしても嘘をつかずにかなり良い値を示すことは可能です。ちょうど、理想的な環境下での瞬間風速と、暴風雨の中での瞬間風速のような違いと言えるでしょう。どちらも瞬間風速であることには変わりありません。
 単に、発表やパンフレット等に用いられる「見せかけの指標」に頼ることなく、データ解析の本質を洞察することが出来れば、高い値になった理由がケースバイケースの様々な要因の結果なのか、あるいはこれらの総合的な結果としての効果なのか等が見えてくるようになります。この種の悪しき事例は、世界的に公表されているパブリックで著名なデータベースでもしばしば見られます。この原因は、「見せかけの指標」重視のあまり、データ解析の本質がおろそかになったためと考えます。

・線形重回帰で常に相関係数(R)、および決定係数(R2)を1(100%)とするアプローチ
 フェイクパラメータの適用による完全フィッティングの実現

・サンプル空間に合わせて解析を行うアプローチと、サンプル空間を作り直すアプローチ
 科学に基づいたアプローチと、科学と関係のないアプローチ(線形及び非線形問題)
  (a) 二クラス分類手法
  (b) フィッティング(重回帰)関連手法

まだブログには書いておりませんが、上記の他にも「見せかけの指標」を向上するアプローチが種々存在します。無意識のうちに使っていることが殆どでしょうが、正しいデータ解析を行うためには重要なことですので、よく意識しておいてください。これらについてはインシリコデータのブログで順次解説してゆきます。

最近の学会発表では非線形解析手法の発展につれて、先に述べた「見せかけの指標」だけでは予測率の低下が著しいので、クロスバリデーション(CV:Cross Varidation)を行う事が一般的になっています。このCVといえども限界があります。これも、インシリコデータのブログで取り上げてゆく予定です。
 このような発表用の「見せかけの指標」を信じるだけだと、実際にデータ解析を行う時に苦労や失敗を繰り返すことになります。難しいかもしれませんが、実際に自分で内容を理解し、影にある見えない操作等のポイントを見ることが出来るようにすることが必要です。

 次回は、薬理活性と異なり、なぜ安全性(毒性)分野のデータ解析が極めて困難となるかについて書いてみます。

KY法とは何でしょう: What is the KY(K-step Yard sampling) methods

◇ KY法とは何でしょうか?; What is the "KY-methods" ?

  KY法とは、(株)インシリコデータの湯田が開発した、新時代にふさわしい優れた機能を持つ全く新しい多変量解析/パターン認識データ解析手法です。
The KY (K-step Yard sampling) methods are the newly coming the most powerfull multi-variate and pattern recognition methods ever made.

  以下に示したことが、KY法の優れた特徴となります? 
Spatial and the most typical features are listed below.


* 二クラス分類では、常に完全分類を実現
      ( On 2- class discriminant analysis, the KY-methods always carry out parfect (100%) classification regardless of a sample number and distribution status)
* フィッティング(重回帰等)では、極端に高い相関/決定係数を実現
      ( On fitting methods (linear, non-linear regression, the KY-methods always attain
quite high coefficient of correlation and determination values regardless of a sample number and distribution status)  


  KY法は、従来手法と比較して段違いのデータ解析パフォーマンスを実現します。例えば、二クラス分類ではサンプル数の大小にかかわらず、またサンプル同士の重なり程度に関係なく、つねに完全(100%)分類を実現します。
  また、重回帰等のフィッティングにおいても、二クラス分類と同様にサンプル数がどんなに増えても、またサンプル分散の程度が極めて悪いサンプル群であっても、従来手法による解析結果の相関(R)/決定係数(R2)とは比較にならないほど高い値を実現します。


  日常的にデータ解析で良い結果が得られずに悩んでいる研究者の方々は、こんなことはあり得ないと信じられないでしょう。しかし、同じデータを用いて解析すると、サンプル数が多い、あるいはサンプル間の重なり度が高い等の理由で、従来手法では実現できなかった100%(完全)分類が、KY法の適用により簡単に実現されてしまいます。実際にKY法の発表を聴いた研究者の方からは、「確かに、聴いて納得したけれど、100%(完全)分類というと誰も信じませんよ、95から98%といった方がいいですよ」と助言されました。しかし、事実は事実です。
  順を追ってKY法の内容を説明して行きますが、いかに従来手法とは異なる、型破りの発想をしたデータ解析手法であるかをご理解いただけるかと思います。まさに、データ解析分野でのKY(空気が読めない)な手法です。これくらい型破りな手法でなければ、従来手法の限界を超えることは出来ないでしょう。

2012/02/20

ようこそ「KY法(K-step Yard sampling methods)のブログへ:Welcome to the blog of KY-methods

    このブログでは(株)インシリコデータの湯田が開発した「KY法(U.S.および日本のパテント取得済)」に関する情報を中心とし、関連情報も含めて発信いたします。
This blog always open, reports, discusses and exchanges information about the "KY-methods".
The "KY-methods" are developped based on various state of the arts technologies. The KY-methods have the most powerfull discriminant and fitting functions ever made.

特許取得および出願状況 (Patented and pended conditions)

1.「KY法(2モデル判別分析)」:U.S.パテント、USP 7,725,413 ; 日本、韓国、EUは出願済
・2-model KY: US;patented, Japan;pended, Korea;pended, EU;pended
・先日、日本でも特許が成立しました。詳細が分かり次第公表いたします。

2.その他のKY法特許 (Other patent of KY-methods):日本(Japan)、US(US)、EU(EU)に出願済
・1-model KY: US;pended, Japan;pended, EU;pended
・Model free KY: US;pended, Japan;pended, EU;pended
・KY-fitting with DA: US;pended, Japan;pended, EU;pended
・KY-fitting with no-DA: US;pended, Japan;pended, EU;pended

3.関連特許 (Related patent)
・Related patent;
  Tailor made modeling: US;pended, Japan;pended, EU;pended


    「KY法」は、現代社会における複雑化、多様化、情報の激増という多変量データ解析自体を困難にする状況に対応することを目指して開発された、まったく新しい多変量データ解析手法です。従いまして、「KY法」に関する情報はWEB上を検索してもあまりヒットしません。「KY法」開発者の湯田が(株)インシリコデータのホームページ上にアップできない、より詳細かつ最新の情報やコメント等を加えた形で「KY法」の情報発信の場としてこのブログを利用致します。

    変化の激しい時代の要求にこたえることのできる、多変量解析/パターン認識のまったく新しい手法である「KY法」にご興味のある研究者の方々は本ブログをチエックいただきたく存じます。
    従来手法とは全く異なるデータ解析手法であり、かつ従来手法では達成することの出来ない素晴らしい結果を出すことが可能です。解析結果を従来手法と比較する、従来手法では成功しなかったデータ解析に再チャレンジする等、様々な新しい結果を得て、報告をすることが可能となります。