2014/09/26

統計関連連合学会でのKY法関連発表です:KY-methods was presented on the Japanese joint statistical meeting

 2014年度統計関連学会連合大会 9月13-16 東京 にて発表いたしました。
 私の演題は「ビッグデータ対応の二クラス分類KY(K-step Yard sampling)法の開発と展開」というもので、KY法の基本概念と、そのバリエーション(現在①2モデル判別分析KY法、②①モデル判別分析KY法、および③モデルフリー判別分析KY法)についての概要を発表しました。なお、発表要旨はこちらとなります。本講演に興味があります方はさきの要旨を参照ください。あるいは、より詳細な説明や、発表の時に用いたPPTファイルをご希望されます方は、本ブログにて連絡いただくか、contact@insilicodata.comにメールいただきたく存じます。

 統計関連分野では、データ解析実施過程で新たにサンプル空間を作りかえるという発想が無いようなので、今回はPPTファイルの中に、この手順を大きく明記し、発表時もきちんと説明しました。
 質問は、KY法の他の発表時にもありましたが、決定木に似ているとの質問がありました。これも、KY法を発表していると頻度高く質問される項目です。基本的にKY法は多段階階層的な手法であるがため、同様な多段階階層型の決定木と混同されるようです。

1.個々の段階は、KY法は完全分類された2クラスターと分類出来ない一つのクラスターで、合計3クラスターで構成されます。
  決定木は、エンタルピー等の指標によりサンプル群が分類されます。この時、各クラスターの分類率が高くなるように計算されますが、KY法のように、100%分類された領域が出来る保証はありません。100%分類が完了しないがために、さらに下位の方に新たなクラスターが形成されるようになり、ステップが進むほどクラスターの数が多くなり、全体として大きな木のような下側に向かって広がる形を取ります。KY法は最後まで常に3クラスターであり、2クラスターが完全分類されたもので、残る分類できなかったクラスターの一個だけが下の階層に持ちこされるようになります。
2.階層構造について
 KY法の階層構造は常に3クラスターで、最後の階層は完全分類が実現されるので、二つのクラスターとなる。
 バイナリーツリーは、階層が進む(下の階層に行く)程、クラスターの数が増え、全体的にはツリー構造、あるいはパラソルのような形となる。
3.分類について
 KY法は個々の階層で必ず100%分類されたクラスターがでてくる。100%分類出来ないサンプル群はグレーサンプルとしてそのすべてが下の階層に移る。
 決定木は各階層で100%分類されたクラスターが出来ることは殆ど無い。個々のサンプルの分類成功不成功は、ツリー構造の最下層ステップに着くまで決定出来ない。