2024/9/17 12:19

[研究の概要]

大規模言語モデル(LLM)は様々な分野で大きな成功を収めていますが、医療分野での応用には限界があります。医療画像解析をするうえでの最大の課題は、高品質な医療データの不足です。医用画像の多くは2次元画像ですが、CT画像やMRI画像は2次元の断層画像を重ね合わせて構成される3次元画像です。また、内視鏡画像は2次元ですが、消化管の内部をうつした小野であるため、3次元的な広がりを持つ画像です。従って、一般的なデータセットは、クラウドソーシングや常識に基づき比較的容易に収集できますが、医療画像データの収集には高度な専門知識と正確な自然言語理解が必要です。そのため、大規模かつ高品質なデータを得るのは、コストも高く、非常に困難です。

この課題を解決するため、理化学研究所革新知能統合研究センター(AIP)、東京大学、国立がん研究センター研究所、テキサス大学アーリントン校、および米国国立衛生研究所(NIH)の国際共同研究チームが、胸部X線写真に基づいて、医師の臨床推論を対話的に支援するための世界最大規模のVisual Question Answering(VQA)データセットを作成しました。

図1に示されているように、AI研究者と放射線科医が協力し、臨床現場で実際に行われる診断手順を反映したデータセットを設計しました。まず、LLMを用いて、X線画像とレポートのペアから臨床的に重要な情報を抽出するよう訓練します。このデータセットの特長は、臨床現場で実際に行われる医師の臨床推論のように、様々な推論経路を統合することによって成り立つ診療的対話を含む点です。これを活用することによって、メディカルLLMに特化した「Chain of Thought(CoT)」を実現することができます。

この共同研究は、メディカルLLMの性能向上に大きく貢献し、より正確で説明可能かつ信頼性の高い医療AIシステムの実現に向けた重要な一歩となります。本研究成果は、トップクラスの医療AI学術誌であるMedical Image Analysisに発表されました。

図1. 医療用VQAデータセットを構築するための、臨床現場で実際に行われる診断手順を反映した重要情報の抽出

  • 論文情報
    ジャーナル名: Medical Image Analysis
    論文タイトル: Interpretable medical image Visual Question Answering via multi-modal relationship graph learning
    DOI: https://doi.org/10.1016/j.media.2024.103279
  • 著者:
    Xinyue Hu(テキサス大学アーリントン校(米国))
    谷林 (Lin Gu)( 理研AIP/ 東京大学)
    小林和馬( 国立がん研究センター)
    Liangchen Liu(テキサス大学アーリントン校(米国))
    Mengliang Zhang(テキサス大学アーリントン校(米国))
    原田達也(東京大学/ 理研AIP)
    Ronald M. Summers(国立衛生研究所クリニカルセンター (NIH, 米国))
    Yingying Zhu(テキサス大学アーリントン校(米国))

ーーー医療格差の解消に貢献

メディカルLLMは、特に低・中所得国における医療格差の解消に貢献できる可能性があります。例えば、専門家が不足している場合でも、医療VQAシステムによるセカンドオピニオンを活用することで、若手医師が複雑な診療に対処する際の自信を高めることができます。このようなシステムの導入は、医療資源が限られた地域での医師不足を補うことが期待されます。例えば、アフリカは医療従事者が世界のわずか3%しかいませんが、世界全体の疾病負荷の24%を抱えています。メディカルLLMの導入が進めば、このような地域の医療人材不足を改善し、持続可能な開発目標(SDGs)達成にも寄与すると考えられます。

現在のメディカルLLMの最大の課題は、多様で限られたトレーニングデータにあります。図2に示されているように、既存のデータセットにはいくつかの重要な制約がありました:

1.主に「この画像の主な異常は何ですか?」や「この画像で見られるものは何ですか?」といったシンプルな質問に焦点が当てられていた(図2(c)参照)。
2.医用画像には、CT、MRI、X線写真などの多様なモダリティや、頭部、胸部、腹部、骨盤部などの様々な撮像部位といった多様性がある。医用画像とそれに関連する質問に基づく臨床的対話からなるデータセットを構築する場合、こうした臨床的な多様性を考慮する必要があった。

 

図2. 既存の医療データセット

ーーーVisual Question Answering (VQA)データセットの開発

これらの課題を解決するために、共同研究チームは、重要な臨床情報を抽出するためのルールベースの手法を提案し、大規模なDifference VQAデータセットを開発しました。このデータセットは、病変の位置、重症度、治療後の進行といった臨床的に重要な質問に対応し、特に診療経過に応じた医用画像の時間的な「差異」に注目している点が特徴的です。この研究は、ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD 2023)で発表され、医療用LLMの研究者コミュニティから高い評価を受けました。その後、フィードバックを基に拡張版が作成され、オープンなLLMであるLlama 2の70Bモデルを独自に微調整して、異常の有無や部位、病変の重症度など、臨床的な質問に対するより正確な回答ができるようにし、実際の診断手順に近い形で情報を抽出できるようになっています。

ーーー今後の展望

提案されたデータセットには、異常所見、撮像部位、タイプ、レベル、撮像方向(ビュー)といった様々なカテゴリにわたる780,014組の質問と回答が含まれています。図3と図4には、質問と回答の分布状況が示されています。さらに、研究チームは、VQAにおける質問回答の推論経路を強調する、オープンソースの手法を提案しました。この手法は簡単に利用できるソフトウェアとして提供されており、医療用LLMにおけるChain of Thoughtとしても活用できるほか、知識駆動型のプロンプトを構築して新たなモデルのトレーニングに利用することも可能です。

図3. 質問タイプの分布

図4. 回答タイプの分布

[1] Xinyue Hu, Lin Gu, Qiyuan An, Mengliang Zhang, Liangchen Liu, Kazuma Kobayashi, Tatsuya Harada, Ronald M. Summers, and Yingying Zhu. 2023. Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’23). Association for Computing Machinery, New York, NY, USA, 4156–4165. https://doi.org/10.1145/3580305.3599819

 

 

関連研究室

last updated on 2025/1/17 10:34研究室