生命情報科学研究室

研究内容

Division of Structural Bioinformatics

生命情報科学研究室では、計算機を用いて、物理化学的分子シミュレーションとバイオインフォマティクスを融合し、タンパク質や核酸 (DNA, RNA) などの生体高分子の立体構造と機能についての理論的研究をしています。また、機械学習や画像処理等の情報科学手法を用いて、創薬・構造生物学を推進する研究、および広く生物・生命現象を解析する研究を行っています。

研究概要

コメント

 情報科学研究室では、タンパク質や核酸などの生体高分子の立体構造、 物性、機能について、コンピュータを用いて理論的に研究しています。メゾ スコピックな大きさを持ち、周期性・対称性を持たない複雑系である生体高 分子を研究するには、生体高分子が実現する機能・物性を観測し、帰納的に そこに隠されている論理を抽出することが必要です。帰納的研究を行うため の元となる情報は、全く異なるふたつの方法によって得られます。ひとつは、 物理・化学を基礎とする分子シミュレーション、いまひとつは情報生物学 (バイオインフォマティクス)を基礎とするデータベースです。それらの膨 大な情報から論理を帰納するための主要な手段としては、前者に対しては統 計力学が、後者に対しては数理統計・情報理論が対応します。本研究室では、 それぞれの方法論を発展させるとともに、両者を融合させて、生体高分子研 究の新たな領域を開拓していこうとしています。



[分子シミュレーション]
シミュレーション
 物理・化学的分子シミュレーションでは、実際に機能している生体高分子の 様子をコンピュータ内に再現し、観察し理解しようとするところに、研究の 根本の動機があります。そのためには、できる限り生体内の環境に近い条件 で、分子シミュレーションを行う必要があります。そのような環境を構築し ようとすると、非常に沢山の原子・分子を計算に導入せねばならず、またそ の分子構造も非常に複雑です。例えば、最近研究を始めた膜タンパク質の分 子シミュレーションでは、数万から数百万の原子数の系を計算機内に構築し ています。このような巨大・複雑な分子を扱うには、通常の単一CPUのコン ピュータでは処理能力が不足しますので、CPUを多数連結した並列コンピュ ータを用いる必要があります。このような並列コンピュータを有効活用する 分子シミュレーションソフトウエア開発も重要な研究テーマです。

上へ戻る

平衡系統計力学的観点
 タンパク質や核酸の機能を物理・化学の立場から理解していくためには、分 子シミュレーションの結果を統計力学的に解析し、全体像を理解する必要が あります。生体高分子の重要な機能の1つに特定の分子と結合する分子認識 がありますが、分子認識を理解するためには、分子間の相互作用を原子レベ ルの物理化学的相互作用(自由エネルギー)で記述する必要があります。そ のような統計力学理論(熱力学的摂動論、拡張アンサンブル、積分方程式法) を用いた分子認識解析は重要な研究テーマです。
上へ戻る


非平衡系統計力学的観点
 また、タンパク質や核酸の機能発現では、平衡状態における「揺らぎ」だけ ではなく、外部からの摂動に対する応答としての構造変化を伴う運動が重要 です。例えば、ATPの加水分解などの化学反応が、いかにして構造変化に発展 し機能に結びついているのかを理解するには、このような非平衡統計力学的な 観点が不可欠です。
上へ戻る


物理・化学的実験との対話
 物理・化学的な実験との対話も重要な課題です。生体高分子の実験は多くの場合、 大量で複雑な情報を含んでいます。そこに、シミュレーションを含めた理論的方 法が大きな寄与をすることができます。我々は、これまでにX線結晶構造解析、電 子線結晶構造解析、NMRになどおいて、解析法に関わる方法論の提案をしてきました。
上へ戻る


[機械学習(探索)とシミュレーション・実験の融合]
機械学習とシミュレーションの融合
 強化学習などの機械学習の手法や人工知能(AI)で用いられる探索アルゴリズムを使って、分子動力学シミュレーションを高速化したり性能を向上させる研究を行なっています。
 例えば、計算機を使った創薬においてタンパク質と薬候補分子がどのように結合しているかを見積もる結合ポーズ推定という問題がありますが、シミュレーションコストが非常に高いという課題があります。ここで、結合ポーズ推定の問題を、強化学習の一種である多腕バンディット問題とみなすことで、強化学習な有用なアルゴリズムを活用でき、結果的にシミュレーションコストを削減できます。また、強化学習(探索アルゴリズム)を使うことで、シミュレーションに基づく構造や構造間の経路の探索を効率化することができます。
 他にも、シミュレーションに用いられる力場に機械学習手法を導入したり、シミュレーションのパラメータを効率的に探索する手法開発にも取り組んでいます。
上へ戻る

新しい分子や材料を自動的にデザイン・探索する手法の開発と応用
 強化学習・深層学習・進化的アルゴリズム等の手法と量子化学・分子動力学シミュレーションを組み合わせることで、これまでにない分子(薬を含む)や材料の自動設計手法を開発しています。また、これらの手法を使って実際に分子や材料を合成・作成する研究(共同研究)も行なっています。
上へ戻る

実験データと機械学習・シミュレーションの融合
 複雑な生命現象を明らかにするために、世界中で実験が行われています。大量のデータが日々生成されていますが、実際に解析に用いられ、論文やデータベース等にまとめられるデータはそのごく一部です。また実験では、注目している性質のデータ以外にも様々な情報が付随して得られます。このような実験データに注目して、これまで気づかれなかった情報を抽出したり、実験データの解釈を促進する手法の開発を行なっています。例えば、タンパク質の構造決定に近年広く用いられているcryo-EMの電子密度マップのデータから、深層学習・シミュレーションを組み合わせることで、構造ではなくタンパク質の運動性の情報を直接的に抽出する手法などを開発しています。
上へ戻る


[深層学習・コンピュータビジョンの応用]
深層学習やコンピュータビジョンと呼ばれる動画像から様々な情報を取り出す手法を用いて、医療、材料開発、魚の養殖、サンゴのモニタリング等以下に示すような課題に取り組んでいます。
  • 深層学習による尿細胞診支援システム
  • 障害のある子どもへの支援に向けた運動機能や書字の定量化手法の開発
  • 深層学習によって二次元材料の種類を識別する手法の開発
  • 養殖場や水族館の魚(特に、クロマグロ・ハタ科魚類)の行動モニタリングや卵質評価を自動化する手法の開発
  • 海底のサンゴや水草、底生生物を深層学習を用いて識別する手法の開発
    上へ戻る


    [バイオインフォマティクス]
    データベース
     すでに40種を超える生物種で全ゲノムの塩基配列が明らかにされ、その遺伝子産 物であるタンパク質の立体構造データも、急速に増加してきています。そのよう に増加するデータを背景にして、データベース解析によって、生体高分子を理解 することの重要性が増してきました。我々のバイオインフォマティクス研究は、 生体高分子の分子としての機能を、主にその立体構造に基づいて理解することを 目的にしています。多様な立体構造とそれ以上に複雑に分岐した機能の相関を系 統だてて理解するためにまずしなければならないことは、生データである1次デー タベースから、ある作業仮説に基づいてデータを取捨選択、整理し、さらに新た に必要と思われる情報を付加した2次データベースを構築することです。本研究室 では、分子認識などの機能に深く関わっている立体構造構造モチーフや分子表面な どからなる、タンパク質立体構造−機能相関データベースを構築し、公開しています。
    上へ戻る


    博物学
     そのような2次データベースから、統計的・情報科学的に特徴抽出をします。その 第一段階は、立体構造(原子配置、表面形状等)の類似性に基づく博物学としての 分類です。立体構造の類似性の計算方法は、ダイナミックプログラミング、グラフ 理論的方法などの情報科学的方法、さらにはスピン系の類比に基づいた統計力学的 方法まで、対象に適した様々な方法論を開発しています。
    上へ戻る


    特徴抽出
     特徴抽出の段階は、分類されたグループ内部に共通する、または相関する物性の統計 的モデルによる認識によって行われます。そこからは立体構造−機能相関に関わる、 メタ・ルールになり得る一般的な特徴・論理ばかりでなく、個別の分子に関わる今ま で見過ごされてきた発見などが現れてきます。まさにこの段階にこそ、バイオインフ ォマティクス研究の醍醐味があるといえます。そして、そのように抽出されてきた特 徴・論理は、立体構造からの機能予測へ用いられることとなります。
    上へ戻る


    分子進化
     そのような解析においては、分子進化の観点が重要です。立体構造・機能の多様性は、 物理化学の制約以前に、極めて強い進化からの制約を受けています。従って、配列の 類似性によって定義される進化距離は、上記の解析で常に参照されなければならない 情報です。逆に、1次配列の類似性だけからでは分からない進化関係を発見していくこ とも重要な研究テーマとなり得ます。
    上へ戻る


    [分子シミュレーションとバイオインフォマティクスの融合]
     本研究室の特徴は、上記の分子シミュレーションとバイオインフォマティクスの双方の 方法論を融合した研究を志向しているところにあります。統計力学的にシミュレーショ ンから抽出された論理と情報科学的にデータベースから抽出された論理とを、それぞれ 相手の土俵の上で再吟味します。例えば、ある分子間相互作用において支配的な因子が シミュレーションから発見されたときに、データベースでは、分類されたグループ内で、 支配的な因子に関わる化学構造・立体構造がよりよく保存され、そうでない部分が保存 されていない、という状況は観察され得るか?というような問いかけです。分子シミュ レーションは、一つの生体高分子の中により深い論理を見いだそうとし、データベース は、多数の生体高分子の中により広い論理を見いだそうとします。その両者の総合の中 にこそ生体高分子の精妙な分子機能の論理が見いだせるものと期待して、これらの研究 を行っています。
    上へ戻る


  • ©2004-2021 Division of Structural Bioinformatics, YCU. All rights reserved. No reproduction or republication without written permission.