AI時代の化学・創薬関連研究討論: 8月 2012

2012/08/22

ＫＹ法によるクラスタリング： Clustering by the KY-methods

◆　ＫＹ法を用いたクラスタリング

◇　ＫＹ法の基本原理に基づいたサンプリング：
　　従来手法には無い基準に基づいて導かれるクラスタリング

　　ＫＹ法の本質は、二クラス分類では「常に完全分類を実現すること」、またフィッティング（重回帰）では「極めて高い相関および決定係数の実現」となります。　ＫＹ法のサンプル群をより小さなグループに順番に分けてゆくという基本原理から、サンプル群のクラスター化（グループ化）が可能です。このクラスタリングに関しても、ＫＹ法を基本とすることで従来手法には無い極めて優秀な特性を有した手法となります。ています。　
　　以下にこのＫＹ法を利用したクラスタリングについて簡単にまとめます。

　　「ＫＹ法」を用いたクラスタリングの大きな特徴が以下の二点です。

１．サンプル群の、分類やフィッティング基準に従ったクラスタリングが可能
　　・　二クラス分類の場合、クラス間重なりの無い二つのグループに分けられる。
　　・　フィッティング（重回帰）の場合、残差の大きなサンプル群と小さなサンプル群へと分けられる

　通常のクラスタリングでは、アルゴリズムから考えればわかりますが、出来たクラスター同士は相互に重なっているか近接していることが殆どです。しかし、ＫＹ法により形成されたクラスターは相互に重なることはありません。　個々のクラスターは互いに完全に独立しており、重なって存在することはありません。

２．階層構造に従ったサンプル群の分類
　　・二クラス分類の場合、個々のステップ（繰り返し操作の基本となる単位）毎にサンプル群が分
　　　けられる。　従って、サンプルは判別関数からの距離に従って階層づけられてクラスター化さ
　　　れる。
　　・フィッティング（重回帰）においては、回帰式からの距離の程度に従ってクラスタリングされる。

◇　ＫＹ法によるクラスタリングの基本：教師付き(Supervised learning)クラスタリング

ＫＹ法自体は目的変数を持ったデータ解析手法である。　従って、ＫＹ法によるクラスタリングは、目的変数の情報に従ってサンプル群がクラスター化されますので、従来のからのクラスタリング手法とは内容が全く異なる手法となります。　
　　従って、ＫＹ法によるクラスタリングは最初に解析目的とした教師データに基づく学習が基本となります。　一般的に、通常のクラスタリングは教師データが存在しない状態で行われます(Unsupervised learning)ので、ＫＹ法によるクラスタリングは目的変数の情報を基本としてクラスタリングされるという観点で、従来からのクラスタリング手法とは根本から異なります。

　以下に、ＫＹ法によるクラスタリングの基本を簡単にまとめます。今回説明に用いた例は、二本のモデル（判別関数）を用いたＫＹ法です。

図１．

上図は二本のモデル（判別関数）を用いた二クラス分類ＫＹ法の基本概念図です。　この図からもわかるように、全サンプルがクラス間重なりの無い両サイドのクラスターと、クラスサンプル同士の重なりがあるクラスター(gray zone) とに分割されています。

図２．

先の図１で、両脇に位置するサンプル群は、クラス間重なりのない純粋に一つのクラスだけに帰属されるサンプル群で構成されていることがわかります。　本来は一つのサンプル空間上で混在して存在していたものが、同じサンプル空間でも両脇のサンプル群のみを取り出すことで、クラス間重なりのないきれいなサンプル空間（クラスター）に分類出来たこととなります。
　このクラスタリングは、本来有する目的変数の情報に従い、サンプル群を混在のないクリーンなサンプル群にクラスター化したものです。

図３．

　最後に残ったサンプル群は、クラス間重なりが発生しているサンプル空間となっていることが分かります。この結果、二モデルＫＹ法の実行過程で、サンプル群が目的変数の情報に従って大きく３グループ（クラスター）に分けられたことが分かります。

図４．

　ＫＹ法の重要な特徴として、ここで述べたようなサンプル群の３グループへの再配分の機能がありますが、ＫＹ法を構成するもう一つの特徴である、繰り返し操作により、サンプル群がより小さなクラスターへと分割されてゆきます。この、個々の過程（ステップ）で実施されるＫＹクラスタリングにより、グレー領域として一つのクラスターとしてまとめられていたサンプル群が、再びクリーンなクラスター二個と重なりの存在するクラスターの３グループにクラスターされます。
　この時、今回のステップで用いたサンプル群はひとつ前のステップでクラス間重なりの存在する、グレー領域サンプルとしてクラスター化されたサンプル群です。これらのサンプル群は一つ先の
ステップで構築されたサンプルからみると、一段階下に存在するサンプル群（クラスター）となり、ステップ単位で作成される３種類のクラスターが互いに階層化していることが分かります。

◇　ＫＹ法によるクラスタリングの特徴

　以上の説明からもわかりますように、ＫＹ法によるクラスタリングは、従来のクラスタリング手法とはクラスタリング原理が全く異なる事がわかります。この結果として、クラスタリングされた個々の
クラスターはクラス間重なりのないクリーンなクラスーを形成し、かつステップ毎のクラスターサンプル同士が階層的な関係を有していることが分かります。
　さらに、多くのクラスタリング手法は分類のための基準を持たない、いわゆる教師無し学習タイプで、要因発見型のクラスタリングであるのに対し、ＫＹ法によるクラスタリングは目的変数に従ったクラスタリングを行う教師付き学習という極めて珍しいタイプのクラスタリング手法となることが分かります。

2012/08/04

◇　ＫＹ法（K-step Yard sampling methods)の名称について：　About the name of the KY method

◇　ＫＹ法（K-step Yard sampling methods)となる必須事項：
Two Indispensable matter which configures the KY method
    ＫＹ法（K-step Yard sampling methods)という名前ですが、これは株式会社　インシリコデータの湯田が開発した、従来の多変量解析/パターン認識手法にはない、極めて優れた特性を有する新しいデータ解析手法の総称です。
    ＫＹ法となるための根拠は大きく二つあります。一つは多段階の繰り返し操作を伴う解析手法であることです。これは、ＫＹ法の名前のK-stepというところで表現されています。残る一つが、サンプル群の再構成を行い、より小さなスペースにサンプル群を再分類するという操作を伴う事です。これは、サンプル群全体をより小さな箱庭的なところ（Yard）に閉じ込めるという手順です。従って、この操作が、Yard samplingという表現で示されています。
    先にも述べましたように、ＫＹ法は現在二クラス分類で３種類、フィッティング（重回帰）手法として３種類の、計６種類（特許取得済み、および出願中：日本、米国、ＥＵ、韓国）開発されています。これら６種類のＫＹ法は、すべて下記の二つの条件を満たしたデータ解析手法です。

　 １．多段階繰り返し手法　（K-step）：
       The multi-step repeating technique

2-model KY-method

　２．より小さなサンプル空間への作り直し　（Yard sampling）：
　　　Remaking of more smaller sample space

2-model KY-method

＊余談１：　ＫＹ法は上記の名前の付け方がフォーマルなのですが、実は伏線があります。ＫＹ法のＫＹは私の名前のイニシャル（Kohtaro Yuta）でもあります。私はすでにいくつか新しいデータ解析手法を発明していますが、どちらかというと改良法的なもので、データ解析結果を劇的に向上するというものではありませんでした。これに対し、ＫＹ法はデータ解析結果を劇的に向上させることが出来る極めて優れた手法なので、これは自分の名前を残しておきたいなーと考えて、イニシャルのＫＹをイメージしてつけました。
私をよく知っている人には、あの「ＫＹ］法の名前は自分の名前のイニシャルをつけたんでしょう、とよく言われました。正式名称はK-step Yard sampling methods ですね。

＊余談２：　ＫＹ法が開発され、学会等で最初に発表した当時は、世の中に「ＫＹ」という言葉が非常に有名になりつつある頃でした。「ＫＹ法」と言うと、手法自体のイメージが悪くなるよとよく言われました。　この社会的な状況を詳しく知らない私は、当時なぜか「ＫＹ］という言葉が知名度が高いので不思議に思っていたのですが、理由を知って納得しました。でも、発明者もＫＹな性格で、名前もＫＹ、さらにはこの手法自体が従来の多変量解析/パターン認識の常識を超えた、いわゆる「ＫＹ」な手法なので、ちょうどいいやーと妙に納得したものでした。

＊余談３：　 K-stepは普通に考えるとMulti-stepですが、なんとかKにしたかったので、いろいろ考えました。　殆ど無理かなーと思っていたのですが、よく考えたら多変量解析/パターン認識手法の一つとしてK-NN法（最近隣法）があることを思い出しました。そこで、若干ニュアンスが異なりますが、このK-NNの様式を見習って繰り返しのところをK-stepとしました。

ようこそ、(大規模）生成AI技術でのデータ解析手法（含む：KY 法）討論ブログ：
Welcome to the blog of data science methods

以下のリストは関連ホームページ及びブログです。ご興味のある方はチエックください。

**************************************************
◇本ブログの親となるホームページです。
（株）インシリコデータのホームページへ
Welcome to the In Silico Data homepage
**********************************************

インシリコデータとの総合連携ブログ
Visit to the blog of In Silico Data

**********************************************

AI時代の AI創薬研究
◆創薬研究へのAI適用に関する研究
Visit to the blog of AI Drug Design

**********************************************

AI時代を支えるAIの研究討論
◆時代を変えるAI基本技術
（Attention, Transformer, 他）の検討
Come to the blog of AI releted discussion

**********************************************
AI時代の化学・創薬関連研究討論
◇本ブログです
◆AI時代の化学情報学およびケモメトリクス
Come to the blog of Chemical Information and Chemometrics
**********************************************
AI技術の歴史的討論
◆ルールベース、パーセプトロン、深層学習、大規模生成AI
Come to the blog of various AI basic technologies
****************************************************

2012/08/22

ＫＹ法によるクラスタリング： Clustering by the KY-methods

◆ ＫＹ法を用いたクラスタリング

◇ ＫＹ法によるクラスタリングの基本：教師付き(Supervised learning)クラスタリング

◇ ＫＹ法によるクラスタリングの特徴

2012/08/04

◇ ＫＹ法（K-step Yard sampling methods)の名称について： About the name of the KY method

◆　ＫＹ法を用いたクラスタリング

◇　ＫＹ法によるクラスタリングの基本：教師付き(Supervised learning)クラスタリング

◇　ＫＹ法によるクラスタリングの特徴

◇　ＫＹ法（K-step Yard sampling methods)の名称について：　About the name of the KY method