バイオインフォマティクス

近年,様々な生命現象を大規模かつ網羅的に計測する技術が爆発的に発展し,生命科学はそのような技術で得られた大量のデータから生物学的な知見を発見する「データサイエンス」へと様変わりしました.そのため,大量のデータを取り扱う技術の一つである機械学習が生命科学においてますます中心的な役割を担うことは間違いありません.我々の研究室は,生命科学のための機械学習に関する研究に精力的に取り組んでいます.

二次構造に基づくRNA配列情報解析

タンパク質に翻訳されないRNAの中には,触媒機能や多様な調節機能を持つ機能性RNAが数多く存在し,生体内において極めて重要な役割を担っていることが近年明らかになってきています.機能性RNAが持つ機能とその二次構造の間には強い関連があることが知られています.

最も基本的な解析の一つであるRNA二次構造予測において,我々のグループは世界トップレベルの成果を挙げています.近年では,深層学習を用いたRNA二次構造予測法MXfold2を開発しました.先行研究においてもRNA二次構造予測に対して深層学習が導入され高精度を達成しましたが,過学習を容易に引き起こすために未知のRNAに対する予測精度は期待通りには得られないことがわかっていました.それに対し,MXfold2は深層学習モデルと熱エネルギーモデルを効果的に組み合わせることによって過学習を克服し,極めて頑健かつ高精度なRNA二次構造予測を実現しました (Sato et al. 2021; プレスリリース; ウェブサーバ).

また,シュードノットと呼ばれる複雑なRNA部分構造を予測可能なRNA二次構造予測法IPknotを開発しました.従来,数千塩基を超えるRNA配列に対するシュードノットを含めたRNA二次構造予測は計算量の観点から極めて困難でしたが,本手法はこれを克服して高速かつ高精度の予測を実現しました.メッセンジャーRNA(mRNA)やウイルスRNAなどの長鎖RNA配列においてシュードノットが関与する遺伝子発現制御機構の解明などへの応用が期待されます (Sato et al. 2022; Sato et al. 2011; プレスリリース; ウェブサーバ).

その他にも,RNA二次構造が関与する諸問題に対して多数の研究成果を上げています (研究業績).

ゲノム情報解析

近年,様々な生命現象を大規模かつ網羅的に計測する技術の発展し,生命情報に関する様々な公共データベースが整備されています.そのため,ゲノムを中心とした現代の生命科学においてデータサイエンスを活用した研究が増えています.

我々の研究グループでは,第三世代シークエンサーPacBioにより納豆菌のゲノム配列を決定し (Kamada et al. 2014),国内の複数の納豆菌株および国外に存在する納豆に似た発酵食品に含まれる菌の比較ゲノム解析を行いました (Kamada et al. 2015).また,次世代シークエンシングデータによりコモンマーモセットのゲノム配列を大きく改善し (Sato et al. 2015),この成果を活用して,高効率なゲノム編集を用いた非ヒト霊長類重症免疫不全モデルに関する研究をバイオインフォマティクスの側面から強力にサポートしました (Sato et al. 2016).

さらに,機械学習に基づくメタゲノムアセンブラXGenovoおよびMetaVelvetの開発 (Afiahayati et al. 2015; Afiahayati et al. 2014) やゲノムアラインメントツールLASTの開発 (Kiełbasa et al. 2011) に参画しました.