著書名:
データサイエンスおよび
(大規模)生成AI
情報時代の
自律(オートノマス)型研究
時代が「コンピュータ時代」から、データが総てを支配する「情報時代」へと大きく変化しつつあります。従前のコンピュータの計算力に強く依存したデータサイエンス手法は、情報時代にあるべき姿へと変化してゆくことが求められます。
「情報時代」の中核技術はAIです。しかしこのAI は、コンピュータ時代に展開されてきたAI とは適用項目や実現項目等が決定的に異なります。現在のAI はデータサイエンスの一手法として組み込まれており、主として判定や分類、予測、要因解析等に利用され、来るべき情報時代の(大規模)生成AIとは機能が根本的に異なります。
「情報時代」のAIを基本とした時、望ましいデータサイエンスの形とはどんなものであるか。「情報時代」でのKY法のあるべき姿はどのようなものになるか等含めて、広範囲に議論し新時代に対応することが重要となります。
以上のような考えに基づき、本ブログでは「情報時代」の(大規模)生成AIとデータサイエンスの融合について討論してまいります。
2024/06/25
分著情報:マテリアルズデザイン関連分野における
ケモメトリクス適用に関する湯田の分著情報です。
2024/06/22
分著情報【目次です】:
化学物質の毒性評価手法とその事例
以下が、ケモインフォマティクス関連著書(「化学物質の毒性評価手法とその事例」)の中で、湯田が分筆した部分の目次です。 ケモメトリクスの毒性評価関連研究への適用に関する様々な事項が著述されています。ご参考ください。
1節 ケモインフォマティクスを用いた化合物毒性予測での記述子設計とデータ解析
1.ケモメトリックス研究に用いる化合物の吟味
1.1 サンプル化合物及びサンプル母集団の吟味
1.2 サンプル母集団のクラスポピュレーションでの留意点
2.化合物より創出された記述子の調整と記述子選択
2.1 創出された記述子の吟味とウオッシング(洗浄):簡易的な記述子選択
2.2 高度な記述子選択とノイズサンプル化合物の取り出し
2.3 最終選択記述子の種類と適用パターン
3.芳香族アミン化合物の発がん性に関する解析
3.1 ケモメトリックスによる解析に用いたサンプルデータと要因解析実施目的
3.2 記述子創出から記述子洗浄および簡易な記述子選択実施
3.3 ケモメトリックス解析に重要な役割を果たす記述子の選択
3.4 重要記述子選択の実施手順
3.5 重要記述子選択の実施結果
3.6 重要記述子による要因解析の実施
3.7 ニクラス分類/予測結果
4.まとめ
4.1 化学分野のデータサイエンスの(ケモメトリックス)適用時の留意点
4.2 毒性関連研究分野のメカニズム追及への展開
4.3 メカニズム解析におけるケモメトリックス研究の役割と留意点
4.4 今後から近未来への展開:データサイエンスの自動化から自律化への進歩
2024/06/06
分著情報:
化学物質の毒性評価手法とその事例
本ブログではデータサイエンスが基本技術となり、これを基本として来るべく「情報時代」における「自律型研究」への適用等に関する討論を行います。当然ながら「情報時代」の革命技術は「(大規模)生成AI」であるので、全体的な構成としては、データサイエンス技術や手法を基本とし、これと(大規模)生成AI技術を融合を目指します。最終的には「コンピュータ時代」のコンピュータ支援による単純データ解析から、様々な知識や創造性、種々の判断、決定等を伴う「自律型研究」の展開や発展を目指します。
本論の討論の前に、湯田が昨年に著述した内容が参考資料、及びケモインフォマティクスの参照になればと考えますので、紹介いたします。本投稿にあるように、全体としてケモインフォマティクス(化学情報学)がテーマの書籍となっております。この中で、化学物質の毒性評価に適用されているケモメトリクス(化学計量学)関連技術に関して分著しました。
著書名:ケモインフォマティクスにおけるデータ収集の最適化と解析手法
発刊日; 2023年4月28日 技術情報協会
湯田分著部分;
◇第7章 化学物質の毒性評価手法とその事例◇
内容は、タイトルにあるように毒性評価に適用されるケモメトリクス関連手法の適用に関する解説となっております。毒性評価分野では昔から予測や分類、要因解析という観点でケモメトリクス手法の適用が推進されてきました。特に国際的に決められたICH M7では、インシリコ技術による毒性予測を積極的に取り入れるという観点で対応されております。
ICH M7ではインシリコ手法としてケモメトリクス的手法と人工知能による手法の両方の活用が推奨されております。この意味でも、毒性評価は現在から今後の「情報時代」における発展が期待される状況となっています。
湯田が分著した本稿は、ケモメトリクスを実施する観点での様々な留意事項について細かく解説しているので、今後毒性評価にケモメトリクスを適用されようとする研究者の方々には是非読んでいただきたい著書となります。著書の内容がわかる目次は次の投稿にて列挙致しますので、ご期待ください。
2024/01/25
新たなブログ名称および内容の案です:
This is a proposal for a new blog name and content.
This is a proposal for a new blog name and content.
新ブログを構成するにあたり以下の点を留意しつつ検討いたしました。
■討論テーマは来るべき「情報時代」に相応しい内容とする
・新たな技術等に関する積極的な討論を目指す。
・「情報時代」の基盤技術となる大規模言語モデルや種々生成AIを主たるテーマとする。
■従来型の基本的な分野や手法に関する議論の場も設ける
・「コンピュータ時代」における技術も、ある程度フォローする。
・「コンピュータ時代」と「情報時代」の技術の連携や、改良等の効果も重要。
■インシリコデータのHPとの連携性も考慮する
・インシリコデータのHPには討論のみならず関連資料が多数掲載されている。従って、そのHPとの連携により、相乗効果が期待できる。
1.インシリコデータブログ:
⇒ インシリコデータおよびオートノマス(自律型)関連、一般及び速報
2.オートノマスブログ:
⇒ 自律型(知的、オートノマス)研究概論関連ブログ
3.インシリコスクリーニングブログ:
⇒ 自律型(知的、オートノマス)創薬等の適用関連ブログ
4.AI法関連ブログ:
⇒ 大規模言語モデル(LLM)、種々生成AI 関連ブログ(GAI)
5:KY 法関連ブログ:
⇒ KY法およびデータサイエンス関連ブログ
6:テーラーメードモデリングブログ:
⇒ テーラーメードモデリング及びインシリコ創薬関連ブログ
2024/01/05
時代の移行や技術の発展に伴い、インシリコデータ関連ブログを刷新致します。
As the times change and technology develops, we will update the in silico data related blogs.
現在はコンピュータを中心として殆どの業務が動き、コントロールされる「コンピュータ時代」の絶頂期となっております。このコンピュータ関連技術の発展は多種多様な技術内容で展開され、現在は様々な分野で大きな変化が起こっています。即ち、コンピュータ本体の計算スピードの更なる高速化、メモリー容量の大規模化、ネットワーク関連技術の拡大に伴うインターネットや通信速度の高速化、SNSの普及や多種多様のデータベースの開発等が実現されました。
このような様々な変化により、現在は「データ」、即ち「情報」が社会の流れや生活を大きくコントロールする「情報時代」となっております。これに伴い、時代を支える基盤技術にも大きな変化が起こっております。最近話題になっているChatGPTを中心とする大規模言語モデル(LLM)や、様々な生成AI(GAI)等が新たな時代を支える基盤技術となりつつあります。
2024/01/04
KY法についてBing chatに問い合わせてみました。
プロトコルは以下のものです。
「KY法というデータ解析手法について教えてください。」
以下はBing chatによる回答です。
******************************************
KY法は、大量のデータを扱う際に、高い分類率や相関値を実現することができるデータ解析手法です1. KY法は、K-step Yard samplingの略称で、サンプル数が極めて大きく、分類手法ではクラス間の重なりサンプルの割合が極めて高い場合、またフィッティングではサンプルの分散が極めて大きいような、従来のデータ解析手法が最も苦手、適用限界となるようなサンプル群を扱う場合に最大の効果を発揮する全く新規のデータ解析手法です2. この手法は、サンプル群を3分割することで、従来の手法では達成困難な極めて高い分類率を達成することができます1. この手法は、ビッグデータ時代に対応できる手法として注目されています2.
******************************************
第三者的立場にあるBing chatによる回答で、内容的に満足しました。
2022/01/23
KY法の特徴と、
IT関連技術や環境の発展に伴う、時代の要求に答えるKY法
本ブログはデータサイエンス手法として、従来のデータ解析手法とは基本原理が全く異なる、段階的分類、フィッテイング手法を適用したKY法に関する議論を中心に実施してまいりました。
*KY法は極めて高い分類率や相関係数/決定係数を実現
サンプル全体を解析対象にする従来のデータ解析手法と異なり、サンプルを段階的にグループ分けしてゆくことで、分類率は殆どの場合で完全分類を実現し、フィッテイング(重回帰)では極めて高い相関係数や決定係数を実現します。このように、KY法は従来手法と根本的に異なる手法を有するアプローチであるので、本ブログではこのKY法の詳細を知ってもらうことを中心に展開や討論を行ってまいりました。
*IT関連技術の兆速の進歩の結果「ビッグデータ」時代が到来
KY法が開発されてから既に十数年経ちました。この期間に、IT関連技術は兆速の進歩を遂げ、ハード的にもソフト的にも見違えるほどの変化を遂げました。特に、インターネットの展開で、多くの情報が集積されるようになり、データも巨大となり、これらの情報を蓄積するメモリー関連技術も見違えるように進歩しました。これらのIT関連環境に支えられ、現在は「ビッグデータ時代」となり、今後はこのビッグデータの規模や種類が一層拡大することは明白となっています。
*KY法は、サンプル数が極めて大きいデータであっても、分類率や相関係数/決定係数は低下しない ⇒「ビッグデータ」時代に最適
KY法は分類能力やフィッテイング(重回帰)能力の向上のみならず、その解析アルゴリズムから、解析対象サンプル数が大きくなっても解析能力に変化が無いことが最大の特徴となります。KY法開発当初は、現在のようなビッグデータ時代ではありませんでした。このために、KY法の最大の特徴である「極めて大きなサンプル数」にも耐えるという事実は大きな特徴として捉えられては来ませんでした。KY法の分類率、相関係数/決定係数が極限まで高くなるということに加えて、現在の「ビッグデータ」時代に求められる大量サンプルを正確に扱えるという特徴が際立つようになりました。
*KY法はデータ解析の自動化に適したアルゴリズムを有する
KY法のもう一つの特徴は、データ解析の自動化に適したアルゴリズムを有することです。この機能は重要で、通常のデータ解析手法ではサンプル数が大きくなるとデータ解析能力が低下するだけでなく、データ解析の実施自体も困難さが増大してきます。従って、サンプル数が極めて大きなデータを扱う時は、データ解析の自動化という問題が極めて重要となります。KY法は手法の特徴として、データ解析の自動化に適したアルゴリズムを持ちます。この特徴は、サンプル数が極めて多くなる「ビッグデータ」時代のデータ解析手法として最高の機能となります。
上記のように、KY法はデータ解析上で様々な特徴を有しますが、データ解析本来の機能が優れていることに加えて、正に「ビッグデータ」時代に求められる大量サンプルの扱い機能を持ちます。更に、データ解析の自動化に対応しやすいという機能は、今後データサイエンスや人工知能適用の究極の形となる「オートノマス(自律型/化)」への対応も可能ということを示しています。