DATA SCIENCE 北里大学のデータサイエンス

生命情報デザイン ―生命情報をわかりやすく表現する― Life Sciences Information Design (LD)

私たちの研究室では、生命情報を活用することで生命に隠されているデザインを解明し、効果的なゲノム医療と効率的な創薬を実現するとともに、個々人の個性を理解し社会還元するための研究開発を行います。技術革新により、昨今では生命に関する多様かつ膨大なデータが得られるようになりました。一方で、生命を表現するデータは、セントラルドグマに表されるように、階層的かつ複雑な関連性を有しています。これらのデータを理解しやすく表現し、使いやすくすること、つまり情報をデザインすることで、未知の生体メカニズムに迫りたいと考えています。

  • 教授 : 鎌田 真由美
  • 助教 : 牧垣 秀一朗
キーワード :
データデザイン 個別化医療 疾患メカニズム インフォグラフィックス

近年の技術進歩により、ミクロな分子挙動からマクロな人の行動まで、幅広いデータを取得できるようになりました。表現が異なるこれらのデータを統合的に扱うことで、生命機序を深く理解できる可能性があります。私たちは、これら多階層データを統合活用可能な形に変換し、新たな知識を見つけ出すための技術開発に取り組みます。
複雑かつ巧妙な生命のデザインを解き明かすためには、データを統合するためのデータモデルの開発や、膨大なデータからの知識発見および社会還元を可能にするような汎用的な可視化表現とプラットフォームの開発が必要です。このプラットフォームとデータサイエンスを活用することで、難病・稀少疾患をはじめとした疾患の機序だけでなく、日常生活で感じるような感情や振る舞いの違いといった、人の個性を明らかにすることを目指します。

研究室NEWS

鎌田真由美

身体の中で起きている様々な現象とその仕組みに興味があり、データサイエンスで生命の複雑なメカニズムに迫れる可能性にワクワクしています。最近は「伝わるためにどう伝えるか」など、人の認知・コミュニケーションにも興味があります。いろんなご縁で今の自分があるので、偶然は必然だと思って生きています。

牧垣秀一朗

計算機科学専攻だったが、以前より興味のあった生物学との関わりを捨てきれず、大学院修士課程からはバイオインフォマティクスを専攻。修了後に一般IT企業に就職。数年後に悔改め、一念発起して働きながら博士号を取得。一癖ある経歴のため、一癖ある相談事には力になれるかもしれません。座右の銘は「原理は単純を、構造は複雑を極め、人は最も人らしく」(士郎正宗『アップルシード』)。

マルチモーダルデータの統合と活用

現在の創薬ニーズのギャップを埋めるとして期待されている天然化合物に対し、活性に関する多様なデータが計測可能になりつつあります。当研究室では、これらマルチモーダルデータが持つ多次元性や多階層性を表現するための柔軟なデータモデルを構築し、既存の大規模データベース情報と統合することで、AI readyな共有データ基盤の構築を目指しています。データサイエンスや機械学習の適用においてデータ整備はその起点であり、情報活用の成功を左右します。さらに、統合データの活用にはデータ理解と応用展開を容易にするデータ表現(可視化)が重要となることから、マルチモーダルなデータに対する新たな可視化技術と汎用プラットフォームも開発します。(学術変革(A)「潜在空間分子設計」計画研究班)

ゲノムバリアントの臨床的解釈ためのデータ統合と予測モデルの開発

日本では2019年にがんゲノム検査が保健適用されるなど、ゲノム解析は身近なものとなりつつあります。その一方で、ゲノム解析で得られる膨大な数の遺伝子の変化(バリアント)のうち、疾患との関連性や薬剤耐性への影響が明らかになっているものはごく一部です。その他のバリアントは、Variants of uncertain significance(VUS)と呼ばれ、ゲノム検査による精密な治療選択や確度の高い診断に対する障壁となっています。これを解決するためには、臨床的解釈のための情報を包括的に提供することと、既存の情報をもとに推定することが有効です。
そこで当研究室では、疾患を軸にゲノムからタンパク質立体構造、分子間相互作用に至るまでの多階層データを統合したデータベースの開発と、疾患の原因となりかつ創薬標的となる分子を探索するための機械学習モデルの開発に取り組みます。(富岳成果創出プログラム(hp230216)「富岳」で目指すシミュレーション・AI駆動型次世代医療・創薬)

ゲノムデータの標準化

ゲノムの大きな変化である構造多型(Structural Variant; SV)が、疾患の発症に関わることが知られており、国内外の大規模コホートによるSVデータの蓄積が進められています。各研究者が検出したSVデータの解釈には、ゲノム座標や類似性に基づき、既知のSVであるか否かを整理する必要があります。しかし、SV特有の複雑な多様性によりSV間の比較は容易ではなく、既報データに一致するSVがあるかどうかについては、煩雑なマニュアル作業が求められています。そこで私たちの研究室では、多様なSVデータの効率的なアノテーションを可能にするため、SVデータの同一判定モデルと類似検索ツールを開発します。(基盤C 「ヒトゲノム構造多型データ類似性検索のための基盤技術開発」)

coming soon

ページの先頭へ