2013/07/08

ビッグデ-タ解析とKY法: Big data-analysis and the KY methods.

時代の変化と「ビッグデータ解析」:
 The "big data analysis" and change of time

  先日、NHKのTV番組で見ましたがビッグデータ解析が急速に普及しているとの話でした。 このため、統計や多変量解析/パターン認識のわかる人が求められているが、現在のビッグデータ解析市場の広がりになかなか対応できていないという話でした。
  このような話は、創薬や化合物関連分野で長期にわたりデータ解析による薬物設計やインシリコスクリーニング、さらには毒性評価等を行なってきた私にも朗報です。 

  現在取りざたされているビッグデータ解析は主として市場データの分析を行なうもので、手法的にはトレンド解析に近く、一昔前にはデータマイニングとして脚光を浴びたものの発展形です。 当時はデータベースの拡大により、データベースに保存されているデータ量が急激に拡大したので、このデータの山をデータ解析を行なう事で新たな情報や事実の発見につなげるという事が大きな目的でした。 この作業は、データベース中のデータの集まりをデータの山ととらえ、この中から新事実(宝)を探すという事で、「データマイニング」と呼ばれました。

  現在は「データマイニング」当時と比較すると、データ入手のインフラ整備が急激に進んでいます。 単に大量のデータをデータベースとして保存するだけでなく、大量の顧客やその市場データが日常的にリアルタイムで集まるようになりました。 この日々集まる大量のデータの高度な活用が必要となり、これが「ビッグデータ解析」という名のもとに注目されるようになったようです。 正に、タイムリーで時代の変化や要求に答える技術だと思います。


大量データの扱いという観点での「KY法」:
The "KY-methods" in terms of handling large amounts of data
  
 「KY法」は大量のデータを扱う事が可能なデータ解析手法です。 しかも、通常のデータ解析手法が有するデータ解析力を極限近くまで高めています。 「KY法」の基本である、「リサンプリングによる繰り返し解析」の原理は、扱う対象となるサンプル数がどんなに増えてもデータ解析力を低下することなく、最後まで実行できることを保証します。

  統計と異なり、多変量解析/パターン認識では、解析対象となるサンプル数が増えると、肝心のデータ解析力や精度が低下してしまいます。 これはサンプル数が大きくなると、データ解析として考えた時、データ解析の目的を邪魔する、あるいはノイズとなるサンプルが絶対数的に増えてしまうことが大きな原因です。 要因解析を大きな実行目的とする多変量解析/パターン認識では、データ解析目的と何の関係もないサンプル(ノイズサンプル)が増えると、急激にそのデータ解析能力が低下してしまいます。 
  統計では、ノイズサンプルがサンプル分布の外周部分を構成する事で、サンプル分布をより完全なものとしてとらえることが出来るようになります。 従って、統計はノイズサンプルの存在に強いデータ解析手法であり、同時にサンプル数が多い方がより精度の高い結果が期待できる手法と言えます。 しかし、多変量解析/パターン認識は、要因解析力が強い分だけ、サンプル分布を乱すノイズデータに弱い(影響を受けやすい)手法と言えます。 また、サンプルが多くなるほどデータ解析の信頼性が低下してしまいます。 従って、多変量解析/パターン認識を適用する場合は、データ解析前のサンプル調整にかなり注意する事が必要です。
  データ解析を行なう場合は、このような事実を知った上で慎重にデータ解析マネージメントを行なう必要があります。 データをいっぱい集めて、エイヤっとばかりに多変量解析/パターン認識を実行しても、有意義な結果が得られるはずはありません。 何かやっているという実感はありますが、実際は意味のない結果に振り回されているだけです。


創薬研究とビッグデータ解析および「KY法」:
Drug design and big data-analysis and the "KY-methods"

  現在のビッグデータ解析で対象となるマーケティング関連のデータ程ではありませんが、創薬や化合物関連研究分野でも、一昔前と比べると、かなり大量のデータがデータベースに蓄えられるようになりました。 また、コンビナトリアルケミストリー、HTS、インシリコスクリーニング等の新たな技術も展開されるようになり、この研究分野では昔と比べて桁違いに大量の化合物の処理が求められています。

 大量化合物の処理のみならず、その処理での要因解析力や、予測精度も、たとえサンプル数が大幅に増えたとしても、従来と同等、あるいはそれ以上の結果を出すことが要求されています。

  現在展開されている多くの多変量解析/パターン認識手法は、現在求めているような大量のデータを扱う事を前提として開発されたものではありません。 この点で、現代が求める大量サンプルの扱い下での要求事項を満足する事は極めて困難です。 一般的には、サンプル数が増えると情報量が増すので、良い解析が出来るとイメージされるようですが、多変量解析/パターン認識ではその逆となります。  何度も申し上げますが、データ解析の品質が下がるのはノイズサンプルの絶対量が増えるためです。 
  用いるサンプル全てがデータ解析に良好な情報を与えるものである場合は、当然ですがサンプル数が増えるほどデータ解析の信頼性は向上します。  しかし、この場合は外挿性という観点で不安となります。 純粋で理想的な環境下で実行された解析では、普遍のルールを取り出せた場合は良いのですが、中途半端な場合は、純粋な環境という事で外的な揺れに弱いデータ解析結果となっている可能性が高いのです。 人間と同じで、データ解析もある程度のノイズを含んでいた方が、外的環境に強い結果が出来る可能性があります。

  とにかく、多変量解析/パターン認識を行なう時は、データ解析前に行なうサンプリングをきっちりと行なう事が必要です。 この作業が、データ解析の成否を左右する極めて重要なステップです。 ただ、数だけ揃えれば何とかなるという考えでは、精度や品質の高い解析は及びもつきません。 ノイズの多いサンプルを用いた解析では、要因解析というよりも、データの傾向をとらえる「トレンド解析」が重要となりますし、これが本来の目的です。 ノイズを含んだサンプルを用いて多変量解析/パターン認識を行なう場合は、ここでは書きませんが、様々なノウハウを駆使しての解析が必要となります。

  この点で「KY法」は、①大量サンプルに対応出来ること、 ②サンプルが多くてもデータ解析力や精度を高めた解析が出来るという点で、現代が求めているデータ解析に答える手法と考えています。 今後は、この「KY法」の展開に全力を尽くしてまいります。
  よろしくご支援のほどお願いいたします。

文責:
 株式会社 インシリコデータ 湯田 浩太郎






2013/05/30

モデルフリー重回帰KY法が日本で特許として認められました:Modelfree regression KY-method was patented in Japan

◇ モデルフリー重回帰KY法が日本で特許として認定されました。


  モデルフリー重回帰KY法は、KY法の基本に基づいて重回帰を行なうもので、三種類ある重回帰KY法のうちで最強の手法ですが、このたび日本で特許として認定されました。 これで、3種類ある重回帰KY法の全てが日本で特許化されたことになります。 現在USAおよびEUで審査中で、一部は既に特許となっております。 今回日本で特許として認められたことから、モデルフリー重回帰KY法がUSAおよびEUで特許化されることが期待されます。

   モデルフリー重回帰KY法は、回帰線上で残差値が最も小さなサンプルを取り出し、取り出した後の全サンプルを用いて新たに重回帰式を創出する事を基本操作とします。 この操作を繰り返し行い、段階的に母集団サンプル群を減らしてゆくというダイナミックな操作を特徴とする重回帰手法です。
  上記アルゴリズムからわかるように、サンプル全体としての残差値の絶対値は従来手法と比較して劇的に減少します。ただ、サンプル単位での重回帰手法の繰り返しとなりますので、計算時間はサンプル数の分だけ大きくかかるようになりますが、現在のコンピュータのCPUパワーであれば、そんなに大きな負担ではありません。 予測も、予測対象サンプルに最も類似したサンプルが最小残差値となった時点での重回帰式を用いて実行されますので、予測信頼性も大きく向上します。

  本手法は従来からの重回帰手法の根本を大きく変えるものとなります。 今後、USAおよびEUで特許として認められることが期待されます。


文責: 株式会社 インシリコデータ 湯田 浩太郎

2013/01/07

新年のご挨拶 : I wish you have a Happy New Year and continued good discussion with me in the coming year

今年もよろしくお願いいたします。

◆KY法の種類と特許化の現状:
    The kind of KY method, and the present condition of their patents
 KY法が最初に開発され、学会で発表したのが2006年でしたので、あれこれで既に6年程経ちました。最初のKY法(2モデル判別分析)に関する特許が認可されたのが昨年でしたので、特許化には5年ほどかかっていることになります。既にKY法を知っている方々はKY法として判別分析(二クラス分類)手法が3種類、また重回帰(フィッティング)手法として3種類で、総計6種類あることはご存知かと思います。既に最初のKY法以外にも幾つか特許の認可が下りてきました。今後、残るKY法も順番に特許として認可されるものと考えます。

◆比類なき分類能力を実現するための工夫(手順の違いによる新規データ解析手法):
   The trick for realizing the highest classification capability
 KY法はその生い立ちから、従来からのデータ解析手法では実現できないような極めて分類が困難なサンプルセットであっても、高い分類率で分けることを目指して開発されたものでした。このために、従来手法には考えられない手順を採用していました。一つは、一回で無理に分けることを完結させず、少しずつ分類を繰り返して全サンプルの分類を完了させるという、段階的な分類操作を取り入れたこと。残る一つが、サンプル分類を2グループの他に、その時点では分類出来ないサンプル群(グレイゾーン)の3グループに分けたことです。この、分類決定出来ないサンプル群を集めて、再び先の繰り返し分類を行ない、全てのサンプル群が分割できてグレイゾーンに帰属するサンプルが無くなるまで分類を繰り返し実施するの二点です。
*ここでは二クラス分類用のKY法について述べています。重回帰(フィッティング)用のKY法は、KY法としての基本的考えは同じですが、若干手続きが異なります。

◆KY法は「メタ手法」です:The KY method is the "meta-method"
 KY法のデータ解析エンジンは従来から展開されている手法をそのまま利用します。なのに、従来手法とは比較にならない分類能力を示すのは、先に述べましたように、単に操作手順が異なるだけなのです。従って、KY法はデータ解析手法としては全く新しいデータ解析アルゴリズムや理論、あるいはデータ解析エンジンを備えたものではありません。この点で、データ解析の専門研究者には面白くないかもしれませんが、実用目的に考えた場合はこれほど素晴らしいものはありません。また、メタ手法であるがために、今後新たに開発されるデータ解析手法も次々と組み合わせ、単体では実現困難なことを実現させて、さらに発展する事が可能となるのです。

◆KY法の中で利用される従来手法は何でも利用可能であり、その組み合わせも自由です:
The any conventional data analysis methods can be used in the KY method, and the combination of them are also available.
 KY法は従来手法のデータ解析エンジンを用いてデータ解析を行ないますが、用いる時のデータ解析手法の種類や組み合わせは全く自由です。例えば、二本の予測モデルを用いる2モデル判別分析KY法では、モデル毎にデータ解析手法を変えることが可能です。従って、一本はSVMで構築し、もう一本はBayes判別分析で構築する、あるいはその他のニューラルネットワーク等を用いてもかまいません。さらには、多段階手順を取る時に、段階(ステップ)毎に個別の判別分析手法を適用する事が可能です。このようにKY法で利用される判別分析手法の種類の組み合わせの自由度は極めて高くなっています。


文責: 株式会社 インシリコデータ 湯田 浩太郎