2017/06/09

WC10にて最新のKY法に関して発表致します:

 WC10(8月20-24日)Seatle, USAにて最新のKY法について発表してまいります。
本発表のタイトルは 'Development of new data analysis method KY-method' となります。

 また、WC10ホームページのトップページの上部に掲載されているWC9での会場写真の二枚目に私と家内がポスターを見ている画面の写真が使われています。 二枚目の写真ですので、WC10のホームページで最初に掲載されませんが、少し時間がたつと私の写真に変わります。 WC9の時、このような写真が撮られている事は気がつかなかったのですが、なんとなくうれしく感じております。

 KY法の本質はメタ解析手法なので、データ解析実施時の基本となるデータ解析手法として多種多様な手法を使う事が可能です。 従って、現時点で展開されている様々な解析手法や、さらには今後展開される新規の解析手法なども取り入れ、より強力なデータ解析手法へと変身させることが可能です。
 最近、大きな注目を浴びている機械学習や、さらには現在注目されている深層学習による人工知能(AI)もKY法に組み込むことにより、人工知能だけで展開するよりも分類や予測率のさらなる向上が期待されます。 現在、このような適用事例は存在していませんが、人工知能手法が多くのデータ解析分野で利用されるようになれば、KY法との組み合わせが注目されるようになるでしょう。

 既に”インシリコスクリーニングブログ”にて紹介いたしておりますように、経済産業省(METI)の「人工知能による化合物毒性評価システムの開発」が発足し、展開されております。 このPJにおいて、人工知能手法の展開が積極的に展開されるものと期待されますが、この中で人工知能とKY法の組み合わせ等も考えられますので、今後の展開が楽しみです。

2016/10/08

多変量解析/パターン認識と人工知能

  最近人工知能が注目されている。現在は、人工知能の適用分野が急速に広がり、生活の様々な場面での適用が急速に進んでいる。これは、生活環境がICT、IoT、さらにはビッグデータ等で大きく変化してきたこと。また、人工知能技術が進んだことで、従来は適用困難、あるいは適用対象とされていなかった分野でも人工知能展開の可能性がでてきたためと考える。

  最近盛んになってきた人工知能は、その学習過程で機械学習という技術を適用する事にある。機械学習はコンピュータにデータを取り込むことで、コントロールがうまく出来れば自動的に学習し、実施目的追行に必要なルールを見出す、自己学習機能である。
  一昔前の人工知能はルールベース方式だったため、人工知能適用対象とする分野での先験的知識の存在が必要であり、従って革新的、あるいは極めて専門的な分野への適用は困難であった。

  現在の人工知能は第3世代と呼ばれている。現在の人工知能は機械学習をメインとし、その技術はニューラルネットワーク上で展開される「深層学習」が主体となる。このような内容から、現在の人工知能は、多変量解析/パターン認識との境界線が明確にならないようになっている。

  多変量解析/パターン認識手法の大部分は「フィードバックエラートレイニング」という訓練(学習)機能を有し、これは「機械学習」となる。この観点で、機械学習を行なう多変量解析/パターン認識手法技術を人工知能とする場合もある。

  KY法は多変量解析/パターン認識手法であり、しかもKY法は様々な多変量解析/パターン認識手法を適用して実施されるメタ解析手法である。この点で、KY法はその内部で展開されている多変量解析/パターン認識手法の種類によっては現在の人工知能と同じ機能を目指すことが出来ると容易に想像できる。
  今後は、KY法の特徴を生かしつつKY法の人工知能への適用可能性や、KY法と他の人工知能との連携等を目指して、新たな展開に発展させてゆく。

以上

2016/01/06

2016年 新年のご挨拶

◇新年のご挨拶
 昨年は、本ブログ上でのKY法に関する報告は殆どしておりませんでした。KY法関連作業や、計算毒性学研究会の立ち上げやその関連作業、JASIS展示会やランチョンセミナー対応、日本動物実験代替法学会大会での企業展示等でパタパタしており、なかなかアップの時間が取れなかったので申し訳ありませんでした。
 現在、KY法の基本は殆ど出来上がっております。昨年はKY法と他の一般的な多変量解析/パターン認識手法を組み合わせることで、従来手法単独でデータ解析を行なった場合の適用結果を大幅に改善出来るということを中心に展開しておりました。例えば、KY法+PCAやKY法+クラスタリング等です。まだまだいろいろな組み合わせが考えられますので、ご期待ください。

◇KY法特許関連の報告
 昨年末に、EUよりKY法の特許に関する審査官からのクレームがきて、その内容に対応したところです。KY法に関する特許は殆ど完了し、EUでの特許が残っていましたが、これで特許関係の作業は完了するものと期待しています。今年はKY法にとりましてよい年になるように願っております。
 KY法自体がクラス分類とフィッティング手法で総数6種類の手法があり、関連手法が一つで総計7種類となります。これらを日本と米国およびEUに出願すると総計で21出願となりました。これらの対応に、かれこれ6年以上はかかってきました。特許の審査期間の短期化を目指して各国が頑張っていますが、結構時間がかかることは事実です。今回の特許出願作業は私の家内が国内/国外出願を見てきたので私たちのレスポンスは早かったはずですが、それでも数年単位の時間がかかります。特許出願に関する現実はまだまだ厳しいですね・・。

◇データ解析手法を巡る大きな環境の変化(ビッグデータやIoT)とKY法の役割
 既にご存じのようにビッグデータが大きく取り上げられるようになってきました。またIoTの展開により、データ蓄積のスピードが急劇に加速されると予想されます。データ解析と言えば多変量解析/パターン認識ですが、今回はこれら技術のみならず人工知能技術を用いてのデータ処理が大きく展開されようとしています。
 従来から展開されてきた多変量解析/パターン認識は、データ解析、特に要因解析力を重視しているため、ノイズデータに弱く、扱えるサンプル数もさほど大きくないという事が前提でした。従来手法が持つこのような特性は、現在話題となっているビッグデータへの直接的な対応がかなり難しいことを想像させるに十分です。従って、ビッグデータを扱える新世代のデータ解析手法の展開が急務となっています。この点で、基本原理上から、大量データを扱え、大量データを扱ってもその解析精度を大幅に向上させる事が出来るKY法の役割は今後急速に増大してゆくものと期待しております。

◇人工知能とKY法
 ビッグデータ時代が来ると同時に、データ爆発に対応する手法としての人工知能が大きく期待されています。ニューラルネットワークによる深層学習等は、今後急速に原理の解明や展開がなされるはずです。このような新世代の人工知能技術とKY法の連携や融合をインシリコデータの大きな課題として、今後積極的に取り入れてゆきたいと考えております。
 
 新しい時代に向けて頑張りますので、よろしくご支援お願い致します。

以上
湯田 浩太郎

2014/09/26

統計関連連合学会でのKY法関連発表です:KY-methods was presented on the Japanese joint statistical meeting

 2014年度統計関連学会連合大会 9月13-16 東京 にて発表いたしました。
 私の演題は「ビッグデータ対応の二クラス分類KY(K-step Yard sampling)法の開発と展開」というもので、KY法の基本概念と、そのバリエーション(現在①2モデル判別分析KY法、②①モデル判別分析KY法、および③モデルフリー判別分析KY法)についての概要を発表しました。なお、発表要旨はこちらとなります。本講演に興味があります方はさきの要旨を参照ください。あるいは、より詳細な説明や、発表の時に用いたPPTファイルをご希望されます方は、本ブログにて連絡いただくか、contact@insilicodata.comにメールいただきたく存じます。

 統計関連分野では、データ解析実施過程で新たにサンプル空間を作りかえるという発想が無いようなので、今回はPPTファイルの中に、この手順を大きく明記し、発表時もきちんと説明しました。
 質問は、KY法の他の発表時にもありましたが、決定木に似ているとの質問がありました。これも、KY法を発表していると頻度高く質問される項目です。基本的にKY法は多段階階層的な手法であるがため、同様な多段階階層型の決定木と混同されるようです。

1.個々の段階は、KY法は完全分類された2クラスターと分類出来ない一つのクラスターで、合計3クラスターで構成されます。
  決定木は、エンタルピー等の指標によりサンプル群が分類されます。この時、各クラスターの分類率が高くなるように計算されますが、KY法のように、100%分類された領域が出来る保証はありません。100%分類が完了しないがために、さらに下位の方に新たなクラスターが形成されるようになり、ステップが進むほどクラスターの数が多くなり、全体として大きな木のような下側に向かって広がる形を取ります。KY法は最後まで常に3クラスターであり、2クラスターが完全分類されたもので、残る分類できなかったクラスターの一個だけが下の階層に持ちこされるようになります。
2.階層構造について
 KY法の階層構造は常に3クラスターで、最後の階層は完全分類が実現されるので、二つのクラスターとなる。
 バイナリーツリーは、階層が進む(下の階層に行く)程、クラスターの数が増え、全体的にはツリー構造、あるいはパラソルのような形となる。
3.分類について
 KY法は個々の階層で必ず100%分類されたクラスターがでてくる。100%分類出来ないサンプル群はグレーサンプルとしてそのすべてが下の階層に移る。
 決定木は各階層で100%分類されたクラスターが出来ることは殆ど無い。個々のサンプルの分類成功不成功は、ツリー構造の最下層ステップに着くまで決定出来ない。 

2014/06/30

統計関連学会連合大会にて最新のKY法について発表いたします。

 2014年度統計関連連合大会が9月13日(土)から16日(火)の日程で、東京大学本郷キャンパスで開催されます。
http://www.jfssa.jp/taikai/2014/

 湯田はこの大会にて
「ビッグデータ対応の二クラス分類KY(K-step Yard sampling)法の開発と展開」
との演題で発表いたします。
 発表内容は、KY法の基本概念説明および、その二クラス分類手法への展開状況等を中心に発表いたします。また、KY法は従来から展開されている多変量解析/パターン認識手法を適用し、その運用方法を変えることで、従来手法では得られなかったデータ解析上での様々な特徴や利点を達成するものであることを説明いたします。
 KY法に関心のある方は、是非ともこの統計関連連合大会に参加され、KY法のより詳細な話や、最新の展開状況等に関する発表を聞いていただければと存じます。

2014年6月30日
文責:湯田 浩太郎


 
 

2013/07/08

ビッグデ-タ解析とKY法: Big data-analysis and the KY methods.

時代の変化と「ビッグデータ解析」:
 The "big data analysis" and change of time

  先日、NHKのTV番組で見ましたがビッグデータ解析が急速に普及しているとの話でした。 このため、統計や多変量解析/パターン認識のわかる人が求められているが、現在のビッグデータ解析市場の広がりになかなか対応できていないという話でした。
  このような話は、創薬や化合物関連分野で長期にわたりデータ解析による薬物設計やインシリコスクリーニング、さらには毒性評価等を行なってきた私にも朗報です。 

  現在取りざたされているビッグデータ解析は主として市場データの分析を行なうもので、手法的にはトレンド解析に近く、一昔前にはデータマイニングとして脚光を浴びたものの発展形です。 当時はデータベースの拡大により、データベースに保存されているデータ量が急激に拡大したので、このデータの山をデータ解析を行なう事で新たな情報や事実の発見につなげるという事が大きな目的でした。 この作業は、データベース中のデータの集まりをデータの山ととらえ、この中から新事実(宝)を探すという事で、「データマイニング」と呼ばれました。

  現在は「データマイニング」当時と比較すると、データ入手のインフラ整備が急激に進んでいます。 単に大量のデータをデータベースとして保存するだけでなく、大量の顧客やその市場データが日常的にリアルタイムで集まるようになりました。 この日々集まる大量のデータの高度な活用が必要となり、これが「ビッグデータ解析」という名のもとに注目されるようになったようです。 正に、タイムリーで時代の変化や要求に答える技術だと思います。


大量データの扱いという観点での「KY法」:
The "KY-methods" in terms of handling large amounts of data
  
 「KY法」は大量のデータを扱う事が可能なデータ解析手法です。 しかも、通常のデータ解析手法が有するデータ解析力を極限近くまで高めています。 「KY法」の基本である、「リサンプリングによる繰り返し解析」の原理は、扱う対象となるサンプル数がどんなに増えてもデータ解析力を低下することなく、最後まで実行できることを保証します。

  統計と異なり、多変量解析/パターン認識では、解析対象となるサンプル数が増えると、肝心のデータ解析力や精度が低下してしまいます。 これはサンプル数が大きくなると、データ解析として考えた時、データ解析の目的を邪魔する、あるいはノイズとなるサンプルが絶対数的に増えてしまうことが大きな原因です。 要因解析を大きな実行目的とする多変量解析/パターン認識では、データ解析目的と何の関係もないサンプル(ノイズサンプル)が増えると、急激にそのデータ解析能力が低下してしまいます。 
  統計では、ノイズサンプルがサンプル分布の外周部分を構成する事で、サンプル分布をより完全なものとしてとらえることが出来るようになります。 従って、統計はノイズサンプルの存在に強いデータ解析手法であり、同時にサンプル数が多い方がより精度の高い結果が期待できる手法と言えます。 しかし、多変量解析/パターン認識は、要因解析力が強い分だけ、サンプル分布を乱すノイズデータに弱い(影響を受けやすい)手法と言えます。 また、サンプルが多くなるほどデータ解析の信頼性が低下してしまいます。 従って、多変量解析/パターン認識を適用する場合は、データ解析前のサンプル調整にかなり注意する事が必要です。
  データ解析を行なう場合は、このような事実を知った上で慎重にデータ解析マネージメントを行なう必要があります。 データをいっぱい集めて、エイヤっとばかりに多変量解析/パターン認識を実行しても、有意義な結果が得られるはずはありません。 何かやっているという実感はありますが、実際は意味のない結果に振り回されているだけです。


創薬研究とビッグデータ解析および「KY法」:
Drug design and big data-analysis and the "KY-methods"

  現在のビッグデータ解析で対象となるマーケティング関連のデータ程ではありませんが、創薬や化合物関連研究分野でも、一昔前と比べると、かなり大量のデータがデータベースに蓄えられるようになりました。 また、コンビナトリアルケミストリー、HTS、インシリコスクリーニング等の新たな技術も展開されるようになり、この研究分野では昔と比べて桁違いに大量の化合物の処理が求められています。

 大量化合物の処理のみならず、その処理での要因解析力や、予測精度も、たとえサンプル数が大幅に増えたとしても、従来と同等、あるいはそれ以上の結果を出すことが要求されています。

  現在展開されている多くの多変量解析/パターン認識手法は、現在求めているような大量のデータを扱う事を前提として開発されたものではありません。 この点で、現代が求める大量サンプルの扱い下での要求事項を満足する事は極めて困難です。 一般的には、サンプル数が増えると情報量が増すので、良い解析が出来るとイメージされるようですが、多変量解析/パターン認識ではその逆となります。  何度も申し上げますが、データ解析の品質が下がるのはノイズサンプルの絶対量が増えるためです。 
  用いるサンプル全てがデータ解析に良好な情報を与えるものである場合は、当然ですがサンプル数が増えるほどデータ解析の信頼性は向上します。  しかし、この場合は外挿性という観点で不安となります。 純粋で理想的な環境下で実行された解析では、普遍のルールを取り出せた場合は良いのですが、中途半端な場合は、純粋な環境という事で外的な揺れに弱いデータ解析結果となっている可能性が高いのです。 人間と同じで、データ解析もある程度のノイズを含んでいた方が、外的環境に強い結果が出来る可能性があります。

  とにかく、多変量解析/パターン認識を行なう時は、データ解析前に行なうサンプリングをきっちりと行なう事が必要です。 この作業が、データ解析の成否を左右する極めて重要なステップです。 ただ、数だけ揃えれば何とかなるという考えでは、精度や品質の高い解析は及びもつきません。 ノイズの多いサンプルを用いた解析では、要因解析というよりも、データの傾向をとらえる「トレンド解析」が重要となりますし、これが本来の目的です。 ノイズを含んだサンプルを用いて多変量解析/パターン認識を行なう場合は、ここでは書きませんが、様々なノウハウを駆使しての解析が必要となります。

  この点で「KY法」は、①大量サンプルに対応出来ること、 ②サンプルが多くてもデータ解析力や精度を高めた解析が出来るという点で、現代が求めているデータ解析に答える手法と考えています。 今後は、この「KY法」の展開に全力を尽くしてまいります。
  よろしくご支援のほどお願いいたします。

文責:
 株式会社 インシリコデータ 湯田 浩太郎






2013/05/30

モデルフリー重回帰KY法が日本で特許として認められました:Modelfree regression KY-method was patented in Japan

◇ モデルフリー重回帰KY法が日本で特許として認定されました。


  モデルフリー重回帰KY法は、KY法の基本に基づいて重回帰を行なうもので、三種類ある重回帰KY法のうちで最強の手法ですが、このたび日本で特許として認定されました。 これで、3種類ある重回帰KY法の全てが日本で特許化されたことになります。 現在USAおよびEUで審査中で、一部は既に特許となっております。 今回日本で特許として認められたことから、モデルフリー重回帰KY法がUSAおよびEUで特許化されることが期待されます。

   モデルフリー重回帰KY法は、回帰線上で残差値が最も小さなサンプルを取り出し、取り出した後の全サンプルを用いて新たに重回帰式を創出する事を基本操作とします。 この操作を繰り返し行い、段階的に母集団サンプル群を減らしてゆくというダイナミックな操作を特徴とする重回帰手法です。
  上記アルゴリズムからわかるように、サンプル全体としての残差値の絶対値は従来手法と比較して劇的に減少します。ただ、サンプル単位での重回帰手法の繰り返しとなりますので、計算時間はサンプル数の分だけ大きくかかるようになりますが、現在のコンピュータのCPUパワーであれば、そんなに大きな負担ではありません。 予測も、予測対象サンプルに最も類似したサンプルが最小残差値となった時点での重回帰式を用いて実行されますので、予測信頼性も大きく向上します。

  本手法は従来からの重回帰手法の根本を大きく変えるものとなります。 今後、USAおよびEUで特許として認められることが期待されます。


文責: 株式会社 インシリコデータ 湯田 浩太郎