時代の変化と「ビッグデータ解析」:
The "big data analysis" and change of time
先日、NHKのTV番組で見ましたがビッグデータ解析が急速に普及しているとの話でした。 このため、統計や多変量解析/パターン認識のわかる人が求められているが、現在のビッグデータ解析市場の広がりになかなか対応できていないという話でした。
このような話は、創薬や化合物関連分野で長期にわたりデータ解析による薬物設計やインシリコスクリーニング、さらには毒性評価等を行なってきた私にも朗報です。
現在取りざたされているビッグデータ解析は主として市場データの分析を行なうもので、手法的にはトレンド解析に近く、一昔前にはデータマイニングとして脚光を浴びたものの発展形です。 当時はデータベースの拡大により、データベースに保存されているデータ量が急激に拡大したので、このデータの山をデータ解析を行なう事で新たな情報や事実の発見につなげるという事が大きな目的でした。 この作業は、データベース中のデータの集まりをデータの山ととらえ、この中から新事実(宝)を探すという事で、「データマイニング」と呼ばれました。
現在は「データマイニング」当時と比較すると、データ入手のインフラ整備が急激に進んでいます。 単に大量のデータをデータベースとして保存するだけでなく、大量の顧客やその市場データが日常的にリアルタイムで集まるようになりました。 この日々集まる大量のデータの高度な活用が必要となり、これが「ビッグデータ解析」という名のもとに注目されるようになったようです。 正に、タイムリーで時代の変化や要求に答える技術だと思います。
大量データの扱いという観点での「KY法」:
The "KY-methods" in terms of handling large amounts of data
「KY法」は大量のデータを扱う事が可能なデータ解析手法です。 しかも、通常のデータ解析手法が有するデータ解析力を極限近くまで高めています。 「KY法」の基本である、「リサンプリングによる繰り返し解析」の原理は、扱う対象となるサンプル数がどんなに増えてもデータ解析力を低下することなく、最後まで実行できることを保証します。
統計と異なり、多変量解析/パターン認識では、解析対象となるサンプル数が増えると、肝心のデータ解析力や精度が低下してしまいます。 これはサンプル数が大きくなると、データ解析として考えた時、データ解析の目的を邪魔する、あるいはノイズとなるサンプルが絶対数的に増えてしまうことが大きな原因です。 要因解析を大きな実行目的とする多変量解析/パターン認識では、データ解析目的と何の関係もないサンプル(ノイズサンプル)が増えると、急激にそのデータ解析能力が低下してしまいます。
統計では、ノイズサンプルがサンプル分布の外周部分を構成する事で、サンプル分布をより完全なものとしてとらえることが出来るようになります。 従って、統計はノイズサンプルの存在に強いデータ解析手法であり、同時にサンプル数が多い方がより精度の高い結果が期待できる手法と言えます。 しかし、多変量解析/パターン認識は、要因解析力が強い分だけ、サンプル分布を乱すノイズデータに弱い(影響を受けやすい)手法と言えます。 また、サンプルが多くなるほどデータ解析の信頼性が低下してしまいます。 従って、多変量解析/パターン認識を適用する場合は、データ解析前のサンプル調整にかなり注意する事が必要です。
データ解析を行なう場合は、このような事実を知った上で慎重にデータ解析マネージメントを行なう必要があります。 データをいっぱい集めて、エイヤっとばかりに多変量解析/パターン認識を実行しても、有意義な結果が得られるはずはありません。 何かやっているという実感はありますが、実際は意味のない結果に振り回されているだけです。
創薬研究とビッグデータ解析および「KY法」:
Drug design and big data-analysis and the "KY-methods"
現在のビッグデータ解析で対象となるマーケティング関連のデータ程ではありませんが、創薬や化合物関連研究分野でも、一昔前と比べると、かなり大量のデータがデータベースに蓄えられるようになりました。 また、コンビナトリアルケミストリー、HTS、インシリコスクリーニング等の新たな技術も展開されるようになり、この研究分野では昔と比べて桁違いに大量の化合物の処理が求められています。
大量化合物の処理のみならず、その処理での要因解析力や、予測精度も、たとえサンプル数が大幅に増えたとしても、従来と同等、あるいはそれ以上の結果を出すことが要求されています。
現在展開されている多くの多変量解析/パターン認識手法は、現在求めているような大量のデータを扱う事を前提として開発されたものではありません。 この点で、現代が求める大量サンプルの扱い下での要求事項を満足する事は極めて困難です。 一般的には、サンプル数が増えると情報量が増すので、良い解析が出来るとイメージされるようですが、多変量解析/パターン認識ではその逆となります。 何度も申し上げますが、データ解析の品質が下がるのはノイズサンプルの絶対量が増えるためです。
用いるサンプル全てがデータ解析に良好な情報を与えるものである場合は、当然ですがサンプル数が増えるほどデータ解析の信頼性は向上します。 しかし、この場合は外挿性という観点で不安となります。 純粋で理想的な環境下で実行された解析では、普遍のルールを取り出せた場合は良いのですが、中途半端な場合は、純粋な環境という事で外的な揺れに弱いデータ解析結果となっている可能性が高いのです。 人間と同じで、データ解析もある程度のノイズを含んでいた方が、外的環境に強い結果が出来る可能性があります。
とにかく、多変量解析/パターン認識を行なう時は、データ解析前に行なうサンプリングをきっちりと行なう事が必要です。 この作業が、データ解析の成否を左右する極めて重要なステップです。 ただ、数だけ揃えれば何とかなるという考えでは、精度や品質の高い解析は及びもつきません。 ノイズの多いサンプルを用いた解析では、要因解析というよりも、データの傾向をとらえる「トレンド解析」が重要となりますし、これが本来の目的です。 ノイズを含んだサンプルを用いて多変量解析/パターン認識を行なう場合は、ここでは書きませんが、様々なノウハウを駆使しての解析が必要となります。
この点で「KY法」は、①大量サンプルに対応出来ること、 ②サンプルが多くてもデータ解析力や精度を高めた解析が出来るという点で、現代が求めているデータ解析に答える手法と考えています。 今後は、この「KY法」の展開に全力を尽くしてまいります。
よろしくご支援のほどお願いいたします。
文責:
株式会社 インシリコデータ 湯田 浩太郎