2012/02/28

◇ KY(K-step Yard sampling) 法開発のきっかけについて   ( Opportunity of the development of the KY-methods )

 なぜこのようなデータ解析手法が必要となり、開発することになったのかについて以下にて話します。

  私が行っていた富士通での仕事は、化学多変量解析/パターン認識手法を用いた構造-活性相関やドラグデザイン等を行うことでした。会社にいた時から、構造-活性相関/ドラグデザイン支援システムの開発やADAPT(1)の富士通マシンへの移植、さらには実際にデータ解析の依頼を受け、ADAPTを用いて従来手法によるデータ解析を長く続けてきました。

1)ADAPT (Automated Data Analysis by Pattern recognition Techniques) は、私が留学先で行った研究(1979年)で用いた化学多変量解析/パターン認識(ケモメトリックス)支援システムです。私は、米国ペンシルバニア州立大学のP.C.Jurs教授の下にリサーチアソシエートとして留学しましたが、ADAPTはJurs教授グループで開発されており、これが世界初の化学変量解析/パターン認識(ケモメトリックス)研究支援システムとなります。私の研究は、このADAPTシステムを用いたインシリコ(コンピュータ)による発がん性予測でした。約30年も前にインシリコ上で毒性予測を行っていたことになります。その後、日本に帰ってからは安全性(毒性)関連の仕事は殆どなく、殆どが薬理活性を目的とした構造-活性相関やドラグデザイン関連の仕事となりました。また、データ解析ということで、このデータ解析のノウハウを利用したバイオテクノロジー関連研究分野での仕事が一時は多くを占めるようになりましたが、データ解析技術はどの分野でも利用できるので、多くの経験を積むことが出来ました。
 現在、ADAPTは最新のGUI技術を取り入れ、かつPC上で稼働するようにしてModelBuilderという名前で(株)富士通九州システムズから販売されています。

◇ 適用分野の変化(薬理活性から毒性へ)と従来手法の限界   ( A limit of conventional methods based on the change of application fields from activity to toxicity )

 薬理活性を対象とした創薬系でのデータ解析(構造-活性相関やドラグデザイン)は、現在までに開発されている従来手法でも十分に解析目的を達成することが出来ます。しかし、近年になり安全性(毒性)関連のシステム開発やデータ解析の依頼が多くなり、この安全性(毒性)関連分野のデータ解析に携わるようになることで、この薬理活性解析での常識が覆りました。つまり、薬理活性と異なり安全性(毒性)分野では、従来から展開されている通常の多変量解析/パターン認識手法では線形/非線形といったデータ解析手法の差異にかかわらず、良い結果を得ることは極めて難しいということです。

◇ 適用分野の違いによる、データ解析適用の困難性の違い(薬理活性と安全性(毒性))( Difference in difficulty of the data analysis by the difference of the application field ( activity and toxicity ))

先にも述べましたように、薬理活性を目的変数とした構造-活性相関やドラグデザイン研究では、現在展開されている化学多変量解析/パターン認識(ケモメトリックス)のパワーで十分です。日常的には、充分にお釣りがくるレベルの解析が実行できていました。特に、ADAPTはこの分野のシステムとして最長の歴史と最高のデータ解析パワーを有しており、薬理活性データ解析では充分な結果の達成と討論を行うことが出来ました。

しかし、時代の変化とともに最近ではADMEや安全性(毒性)に関するデータ解析依頼が多くなってきました。特に、安全性(毒性)を目的変数としたデータ解析では、薬理活性と異なり、従来手法によるデータ解析手法の単純適用ではどんなに努力しても良い結果が得られないことを肌で実感するようになりました。私の経験では最強のADAPTを用いても、多くの場合80から90%で、サンプル数が多くなってくると70から、高くとも80%程度になってしまいます。このようにデータ解析に用いるデータ解析ソフトウエアとしてはこの分野で頂点に立つADAPTを用いて、且つ、私が培ってきたこの種のソフトウエアの利用ノウハウを駆使してもこの程度です。

* 学会発表やパンフレットの「見せかけの指標」と、現場で行う実際のデータ解析とのギャップ
 一般的に、学会発表やパンフレット等の広告では結構高い値が示され、その気になってしまいがちですが、実際の現場で行うデータ解析では様々な条件からもっと低い値となるのが現状です。このように、現実のデータ解析と学会発表やパンフレットのデータ解析結果の値とのギャップが生じる大きな原因としては、データ解析の本質を無視し、「見せかけの指標」だけを良くすることに集中することの弊害と考えます。データ解析では様々な条件を変えて行うことが可能であり、意図的でなく、また本人が気付かないとしても嘘をつかずにかなり良い値を示すことは可能です。ちょうど、理想的な環境下での瞬間風速と、暴風雨の中での瞬間風速のような違いと言えるでしょう。どちらも瞬間風速であることには変わりありません。
 単に、発表やパンフレット等に用いられる「見せかけの指標」に頼ることなく、データ解析の本質を洞察することが出来れば、高い値になった理由がケースバイケースの様々な要因の結果なのか、あるいはこれらの総合的な結果としての効果なのか等が見えてくるようになります。この種の悪しき事例は、世界的に公表されているパブリックで著名なデータベースでもしばしば見られます。この原因は、「見せかけの指標」重視のあまり、データ解析の本質がおろそかになったためと考えます。

・線形重回帰で常に相関係数(R)、および決定係数(R2)を1(100%)とするアプローチ
 フェイクパラメータの適用による完全フィッティングの実現

・サンプル空間に合わせて解析を行うアプローチと、サンプル空間を作り直すアプローチ
 科学に基づいたアプローチと、科学と関係のないアプローチ(線形及び非線形問題)
  (a) 二クラス分類手法
  (b) フィッティング(重回帰)関連手法

まだブログには書いておりませんが、上記の他にも「見せかけの指標」を向上するアプローチが種々存在します。無意識のうちに使っていることが殆どでしょうが、正しいデータ解析を行うためには重要なことですので、よく意識しておいてください。これらについてはインシリコデータのブログで順次解説してゆきます。

最近の学会発表では非線形解析手法の発展につれて、先に述べた「見せかけの指標」だけでは予測率の低下が著しいので、クロスバリデーション(CV:Cross Varidation)を行う事が一般的になっています。このCVといえども限界があります。これも、インシリコデータのブログで取り上げてゆく予定です。
 このような発表用の「見せかけの指標」を信じるだけだと、実際にデータ解析を行う時に苦労や失敗を繰り返すことになります。難しいかもしれませんが、実際に自分で内容を理解し、影にある見えない操作等のポイントを見ることが出来るようにすることが必要です。

 次回は、薬理活性と異なり、なぜ安全性(毒性)分野のデータ解析が極めて困難となるかについて書いてみます。

KY法とは何でしょう: What is the KY(K-step Yard sampling) methods

◇ KY法とは何でしょうか?; What is the "KY-methods" ?

  KY法とは、(株)インシリコデータの湯田が開発した、新時代にふさわしい優れた機能を持つ全く新しい多変量解析/パターン認識データ解析手法です。
The KY (K-step Yard sampling) methods are the newly coming the most powerfull multi-variate and pattern recognition methods ever made.

  以下に示したことが、KY法の優れた特徴となります? 
Spatial and the most typical features are listed below.


* 二クラス分類では、常に完全分類を実現
      ( On 2- class discriminant analysis, the KY-methods always carry out parfect (100%) classification regardless of a sample number and distribution status)
* フィッティング(重回帰等)では、極端に高い相関/決定係数を実現
      ( On fitting methods (linear, non-linear regression, the KY-methods always attain
quite high coefficient of correlation and determination values regardless of a sample number and distribution status)  


  KY法は、従来手法と比較して段違いのデータ解析パフォーマンスを実現します。例えば、二クラス分類ではサンプル数の大小にかかわらず、またサンプル同士の重なり程度に関係なく、つねに完全(100%)分類を実現します。
  また、重回帰等のフィッティングにおいても、二クラス分類と同様にサンプル数がどんなに増えても、またサンプル分散の程度が極めて悪いサンプル群であっても、従来手法による解析結果の相関(R)/決定係数(R2)とは比較にならないほど高い値を実現します。


  日常的にデータ解析で良い結果が得られずに悩んでいる研究者の方々は、こんなことはあり得ないと信じられないでしょう。しかし、同じデータを用いて解析すると、サンプル数が多い、あるいはサンプル間の重なり度が高い等の理由で、従来手法では実現できなかった100%(完全)分類が、KY法の適用により簡単に実現されてしまいます。実際にKY法の発表を聴いた研究者の方からは、「確かに、聴いて納得したけれど、100%(完全)分類というと誰も信じませんよ、95から98%といった方がいいですよ」と助言されました。しかし、事実は事実です。
  順を追ってKY法の内容を説明して行きますが、いかに従来手法とは異なる、型破りの発想をしたデータ解析手法であるかをご理解いただけるかと思います。まさに、データ解析分野でのKY(空気が読めない)な手法です。これくらい型破りな手法でなければ、従来手法の限界を超えることは出来ないでしょう。

2012/02/20

ようこそ「KY法(K-step Yard sampling methods)のブログへ:Welcome to the blog of KY-methods

    このブログでは(株)インシリコデータの湯田が開発した「KY法(U.S.および日本のパテント取得済)」に関する情報を中心とし、関連情報も含めて発信いたします。
This blog always open, reports, discusses and exchanges information about the "KY-methods".
The "KY-methods" are developped based on various state of the arts technologies. The KY-methods have the most powerfull discriminant and fitting functions ever made.

特許取得および出願状況 (Patented and pended conditions)

1.「KY法(2モデル判別分析)」:U.S.パテント、USP 7,725,413 ; 日本、韓国、EUは出願済
・2-model KY: US;patented, Japan;pended, Korea;pended, EU;pended
・先日、日本でも特許が成立しました。詳細が分かり次第公表いたします。

2.その他のKY法特許 (Other patent of KY-methods):日本(Japan)、US(US)、EU(EU)に出願済
・1-model KY: US;pended, Japan;pended, EU;pended
・Model free KY: US;pended, Japan;pended, EU;pended
・KY-fitting with DA: US;pended, Japan;pended, EU;pended
・KY-fitting with no-DA: US;pended, Japan;pended, EU;pended

3.関連特許 (Related patent)
・Related patent;
  Tailor made modeling: US;pended, Japan;pended, EU;pended


    「KY法」は、現代社会における複雑化、多様化、情報の激増という多変量データ解析自体を困難にする状況に対応することを目指して開発された、まったく新しい多変量データ解析手法です。従いまして、「KY法」に関する情報はWEB上を検索してもあまりヒットしません。「KY法」開発者の湯田が(株)インシリコデータのホームページ上にアップできない、より詳細かつ最新の情報やコメント等を加えた形で「KY法」の情報発信の場としてこのブログを利用致します。

    変化の激しい時代の要求にこたえることのできる、多変量解析/パターン認識のまったく新しい手法である「KY法」にご興味のある研究者の方々は本ブログをチエックいただきたく存じます。
    従来手法とは全く異なるデータ解析手法であり、かつ従来手法では達成することの出来ない素晴らしい結果を出すことが可能です。解析結果を従来手法と比較する、従来手法では成功しなかったデータ解析に再チャレンジする等、様々な新しい結果を得て、報告をすることが可能となります。