なぜこのようなデータ解析手法が必要となり、開発することになったのかについて以下にて話します。
◇ 適用分野の変化(薬理活性から毒性へ)と従来手法の限界 ( A limit of conventional methods based on the change of application fields from activity to toxicity )
薬理活性を対象とした創薬系でのデータ解析(構造-活性相関やドラグデザイン)は、現在までに開発されている従来手法でも十分に解析目的を達成することが出来ます。しかし、近年になり安全性(毒性)関連のシステム開発やデータ解析の依頼が多くなり、この安全性(毒性)関連分野のデータ解析に携わるようになることで、この薬理活性解析での常識が覆りました。つまり、薬理活性と異なり安全性(毒性)分野では、従来から展開されている通常の多変量解析/パターン認識手法では線形/非線形といったデータ解析手法の差異にかかわらず、良い結果を得ることは極めて難しいということです。
薬理活性を対象とした創薬系でのデータ解析(構造-活性相関やドラグデザイン)は、現在までに開発されている従来手法でも十分に解析目的を達成することが出来ます。しかし、近年になり安全性(毒性)関連のシステム開発やデータ解析の依頼が多くなり、この安全性(毒性)関連分野のデータ解析に携わるようになることで、この薬理活性解析での常識が覆りました。つまり、薬理活性と異なり安全性(毒性)分野では、従来から展開されている通常の多変量解析/パターン認識手法では線形/非線形といったデータ解析手法の差異にかかわらず、良い結果を得ることは極めて難しいということです。
◇ 適用分野の違いによる、データ解析適用の困難性の違い(薬理活性と安全性(毒性))( Difference in difficulty of the data analysis by the difference of the application field ( activity and toxicity ))
先にも述べましたように、薬理活性を目的変数とした構造-活性相関やドラグデザイン研究では、現在展開されている化学多変量解析/パターン認識(ケモメトリックス)のパワーで十分です。日常的には、充分にお釣りがくるレベルの解析が実行できていました。特に、ADAPTはこの分野のシステムとして最長の歴史と最高のデータ解析パワーを有しており、薬理活性データ解析では充分な結果の達成と討論を行うことが出来ました。
しかし、時代の変化とともに最近ではADMEや安全性(毒性)に関するデータ解析依頼が多くなってきました。特に、安全性(毒性)を目的変数としたデータ解析では、薬理活性と異なり、従来手法によるデータ解析手法の単純適用ではどんなに努力しても良い結果が得られないことを肌で実感するようになりました。私の経験では最強のADAPTを用いても、多くの場合80から90%で、サンプル数が多くなってくると70から、高くとも80%程度になってしまいます。このようにデータ解析に用いるデータ解析ソフトウエアとしてはこの分野で頂点に立つADAPTを用いて、且つ、私が培ってきたこの種のソフトウエアの利用ノウハウを駆使してもこの程度です。
* 学会発表やパンフレットの「見せかけの指標」と、現場で行う実際のデータ解析とのギャップ
一般的に、学会発表やパンフレット等の広告では結構高い値が示され、その気になってしまいがちですが、実際の現場で行うデータ解析では様々な条件からもっと低い値となるのが現状です。このように、現実のデータ解析と学会発表やパンフレットのデータ解析結果の値とのギャップが生じる大きな原因としては、データ解析の本質を無視し、「見せかけの指標」だけを良くすることに集中することの弊害と考えます。データ解析では様々な条件を変えて行うことが可能であり、意図的でなく、また本人が気付かないとしても嘘をつかずにかなり良い値を示すことは可能です。ちょうど、理想的な環境下での瞬間風速と、暴風雨の中での瞬間風速のような違いと言えるでしょう。どちらも瞬間風速であることには変わりありません。
単に、発表やパンフレット等に用いられる「見せかけの指標」に頼ることなく、データ解析の本質を洞察することが出来れば、高い値になった理由がケースバイケースの様々な要因の結果なのか、あるいはこれらの総合的な結果としての効果なのか等が見えてくるようになります。この種の悪しき事例は、世界的に公表されているパブリックで著名なデータベースでもしばしば見られます。この原因は、「見せかけの指標」重視のあまり、データ解析の本質がおろそかになったためと考えます。
一般的に、学会発表やパンフレット等の広告では結構高い値が示され、その気になってしまいがちですが、実際の現場で行うデータ解析では様々な条件からもっと低い値となるのが現状です。このように、現実のデータ解析と学会発表やパンフレットのデータ解析結果の値とのギャップが生じる大きな原因としては、データ解析の本質を無視し、「見せかけの指標」だけを良くすることに集中することの弊害と考えます。データ解析では様々な条件を変えて行うことが可能であり、意図的でなく、また本人が気付かないとしても嘘をつかずにかなり良い値を示すことは可能です。ちょうど、理想的な環境下での瞬間風速と、暴風雨の中での瞬間風速のような違いと言えるでしょう。どちらも瞬間風速であることには変わりありません。
単に、発表やパンフレット等に用いられる「見せかけの指標」に頼ることなく、データ解析の本質を洞察することが出来れば、高い値になった理由がケースバイケースの様々な要因の結果なのか、あるいはこれらの総合的な結果としての効果なのか等が見えてくるようになります。この種の悪しき事例は、世界的に公表されているパブリックで著名なデータベースでもしばしば見られます。この原因は、「見せかけの指標」重視のあまり、データ解析の本質がおろそかになったためと考えます。
・線形重回帰で常に相関係数(R)、および決定係数(R2)を1(100%)とするアプローチ
フェイクパラメータの適用による完全フィッティングの実現
・サンプル空間に合わせて解析を行うアプローチと、サンプル空間を作り直すアプローチ
科学に基づいたアプローチと、科学と関係のないアプローチ(線形及び非線形問題)
(a) 二クラス分類手法
(b) フィッティング(重回帰)関連手法
まだブログには書いておりませんが、上記の他にも「見せかけの指標」を向上するアプローチが種々存在します。無意識のうちに使っていることが殆どでしょうが、正しいデータ解析を行うためには重要なことですので、よく意識しておいてください。これらについてはインシリコデータのブログで順次解説してゆきます。
最近の学会発表では非線形解析手法の発展につれて、先に述べた「見せかけの指標」だけでは予測率の低下が著しいので、クロスバリデーション(CV:Cross Varidation)を行う事が一般的になっています。このCVといえども限界があります。これも、インシリコデータのブログで取り上げてゆく予定です。
このような発表用の「見せかけの指標」を信じるだけだと、実際にデータ解析を行う時に苦労や失敗を繰り返すことになります。難しいかもしれませんが、実際に自分で内容を理解し、影にある見えない操作等のポイントを見ることが出来るようにすることが必要です。
次回は、薬理活性と異なり、なぜ安全性(毒性)分野のデータ解析が極めて困難となるかについて書いてみます。