2021/7/13 12:57
遺伝統計学チーム (チームリーダー 田宮元 ) サムネイル

説明

遺伝統計学チーム (https://aip.riken.jp/labs/goalorient_tech/stat_genet/?lang=ja) at RIKEN AIP
日本語での講演となります

Speaker 1: 田宮 元 (15 min)
Title: 遺伝統計学チームの概要
Abstract: 遺伝統計学チームでは、ゲノムデータ、生活習慣データ、微生物などのデータ、さらには文献情報など、多種多様なデータを組み合わせたビッグデータを機械学習・人工知能技術に基づく遺伝統計学手法を用いて分析し、複雑でありふれた疾患の要因を探り出します。またそれらを用いて高精度のゲノムリスク予測を可能にし、個別化医療・予防を実現することを目指しています。

Speaker 2: 櫻井 利恵子 (20 min)
Title: 質問票データに対する外れ値検出
Abstract: バイオバンクのような膨大なデータを蓄積するシステムで外れ値検出を行うには、データを一つ一つ詳細に見ていくことが不可能であるため、ツールによる自動化が必須である。このようなことが可能な外れ値検出の手法は、機械学習の分野で急速に発展してきたが、そのほとんどは正規分布を仮定したものである。しかしながら、医療で収集されるデータは、カテゴリ変数や非正規分布に従うものがほとんどである。また、問診では特定の条件に当てはまる者(例えば喫煙する人や妊娠中の女性など)に対して、詳細な質問を用意する場合が多い。そのため、少数派に対する質問であるほど、その質問が含まれたデータは疎になる。以上のような特徴を持つデータに対して開発した外れ値検出法を紹介する。

Speaker 3: 小島 要 (20 min)
Title: リカレントニューラルネットワークによる個人情報保護を尊重した遺伝子型インピュテーション法
Abstract: SNPアレイにより計測された遺伝子型情報はゲノムワイド関連解析、遺伝率推定、疾患発症リスク推定等の遺伝子解析手法に用いられるが、遺伝子型情報は予め設計された変異サイトに限られるため、遺伝子型インピュテーション(以下、インピュテーション)法により未計測な変異サイトでの遺伝子型情報を推定した上で解析されることが一般的である。インピュテーションでは、参照パネルと呼ばれるハイスループットシークエンサーによりほぼ全てのゲノム領域において計測された数千以上の検体から構成される遺伝子型情報をもとに、遺伝子型情報の推定が行われる。この参照パネルを構成する検体は、インピュテーション対象の検体と遺伝的背景が近い民族集団、例えば、日本人検体を対象にインピュテーションを行う場合、日本人集団から構成される参照パネルが推定精度の点で望ましい。しかしながら、参照パネルをそのものは個人情報の集合体であるため、個人情報保護の観点から研究機関間における共有は難しいことが多く、公共データとして利用可能であるがインピュテーション対象の民族集団とは異なる、ないし少数しか含まない参照パネルが用いられてきた。本発表では、こうした背景のもと参照パネルにおける個人情報保護の問題の解決ため開発した深層リカレントニューラルネットワークを用いたインピュテーション法について、モデル構造、学習方法、従来手法との性能比較についてご紹介する予定である。また、本開発手法はKojima et al., PLOS Computational Biology, 2020において発表を行っており、詳細についてはそちらも合わせてご参照いただきたい。

Speaker 4: 松崎 素道 (20 min)
Title: HMMを用いた日本人集団の遺伝的多様性の低さの分析
Abstract: 人類は比較的遺伝的多様性が低い種であり、それががんや精神疾患などの「ありふれた疾患」のリスクと関連していると考えられている。集団の大規模ゲノムデータが取得されるようになったことで、染色体中の部位毎の遺伝的多様性を分析することも可能になっている。一方、現状のゲノムデータにはある程度のエラーが含まれているため、それによって遺伝的多様性の見積もりが狂うことが考えられる。本研究では隠れマルコフモデルを用いて日本人集団の遺伝的多様性の低さを分析し、上記エラーの影響について考察する。

Speaker 5: 髙山 順 (20 min)
Title: 希少難病分野から見たAIへの期待
Abstract: 希少難病は2000人に1人以下程度の有病率の非常に稀な疾患であり、しばしば激烈な症状を有する。それぞれの例数は少ないが疾患の種類は6000-1万程度と推定され、合算すれば1歳以下の死亡原因の35%を占める。希少難病の原因バリアントを同定する手法として2009年から次世代シークエンサーを用いたゲノム解析手法が本格化し現在では日常的に使用されているが、疾患原因バリアントを同定できる検体の割合は4割に満たない。解決率が低い原因はゲノム解析手法に改善の余地があるためと我々は考え、これまでにゲノム解析手法を日本人検体に最適化することで解決率の向上を図ってきた。一方でゲノム解析から得られた候補バリアントのうち、どれが真の疾患原因であるか判別するためには熟練した専門医の知識によるところが大きい。我々は現在オントロジー技術を用いて専門医に頼らずとも原因バリアントの同定を行える手法の開発、および専門医の補助をするシステムの開発を行なっている。本発表では機械学習・人工知能分野の専門家と、我々の分野の課題を共有し解決率向上の端緒を見つけることを目指したい。

関連研究室

last updated on 2024/11/13 10:06研究室