人工知能・機械学習の研究のアプローチとキャリアを3人が語る
第2回「女子高生のための『数理・情報・AI』最前線!」レポート
オンラインセミナーシリーズ「女子高生のための『数理・情報・AI』最前線!」の第2回を2022年11月17日(木)に開催しました。今回は、数理最適化や統計的機械学習という分野を研究する黒木祐子先生、機械学習の手法や倫理について研究するNan Lu先生、自然言語処理技術の社会応用をめざす学生の丹羽彩奈さんが、研究の魅力や進路選択の決め手などを披露しました。3人のお話をダイジェストでお伝えします。
■データの背後に潜む規則を捉える: 研究員 黒木祐子先生
大学入学後、数学の面白さに気づき、数学を研究対象に
私は、人工知能研究の基礎理論や応用数学の一分野である数理最適化ならびに統計的機械学習を研究しています。おもに数学を駆使してアルゴリズムつまり計算手順と、その理論をつくっています。
高校時代、文理選択のとき、どちらに進むか決められずにいましたが、直感で理系クラスを選びました。大学受験では「私を選んでくれたところに行こう!」と考えてさまざまな大学の学部・学科を受験し、結果、東京工業大学生命理工学部第7類に入学しました。入学後は、生物を中心に学びながら数学の基礎も勉強し、受験で苦手だった数学がおもしろく思えてきました。図書館をまわり自分の知らない学問があることにも感動しました。
2年生になると学科に進学となり、3年生でさらに専門の学びを深めます。4年生で研究室配属となり、卒業研究に取り組み、多くの人は大学院に進学し、さらに研究を進めます。
私は社会工学科に進み、3年生で卒業研究をおこなう東京工業大学の早期卒業制度 を利用し、輸送費用が少なく効率のよい輸送ネットワークのアリゴリズムについて卒業研究で取り組みました。最適化とオペレーションズ・リサーチ、アルゴリズムの研究室で、学生のみなさんと専門書を読んだり、指導教員の先生と議論したりしました。
ひきつづき修士課程に進み、より専門的な講義を受け、研究に臨みました。修士課程2年生になると、国内外での学会発表や修士論文づくりが本格化します。このころ私は統計的機械学習とよばれるデータの背後に潜む規則を自動で見つける数理技術に興味をもつようになり、その後の博士課程では東京大学大学院 情報理工学研究科に進み、理化学研究所AIPセンター長でもある杉山将先生の指導のもと研究をおこないました。博士課程以降は、世界に向けて論文を書いて発表するのが重要な仕事となります。
社会で役に立つ数学を学ぶ
統計的機械学習の魅力は、応用と基礎の両方の側面があることです。データマイニングやコンピュータビジョンなどの応用分野のもとになっている一方、確率論や統計学などの基礎分野に基づいており、両方とつながりがあることにおもしろさを感じます。
私が取り組んだ博士課程中の研究テーマの一つとしては、不確実なソーシャルネットワークやタンパク質間相互作用ネットワークから意味のあるコミュニティをできるだけ少ないデータで抽出するといったことがあります。
数学がいかに社会で役立つかを紹介します。実社会には様々なデータが存在していますが、それらのデータは何らかの確率分布に従って生成されると考えることができます。そうすると,様々なデータを個々でなく抽象的に扱い、データの背後に潜む規則を数学の世界で統一的に議論ができるようになります。
機械学習のタスクに2値分類というものがあり、示された画像が犬か猫かを自動判別するようなときに使います。数理モデルでは、データはある確率分布に従って生成されると考えます。犬か猫かを決定する境界を計算で求めたいのですが、数学的には訓練データにおける誤差を最小化するよう計算したいということになります。「入力データがまちがっている?」「ラベルが付いていない画像がある?」などのさまざまな問題に対し、数学を使うことで正確に議論できるようになります。その意味で、数学は言葉の一つであるといえます。
また、最適化問題では、あたえられた制約条件のもとでよりよい目的を達成するために数理モデルを使います。各仕事に対して一人の労働者 を割り当てたいというとき、頂点と枝からなるグラフで表現します。離散数学という分野で扱うこのグラフという数学的な概念を用いると 最適化問題として定式化でき、高速に最適解を導けるようになります。
表現のために国語や英語も重要
数理や情報の分野でも、研究では、自分の考えを発表する、議論をする、論文を執筆するといった機会があり、英語や国語も重要と感じます。文系科目のよいと思える点を生かして数理や情報の分野に進むのもよいと思います。数学が苦手だけれども数理や情報に興味があって、でも、この分野に進むことに不安を感じる人は、研究に制限時間はないと思ってじっくり取り組んだらよいのではないでしょうか。
数理・情報の分野に最短距離で進む人もいれば、私のように生命系の分野から進む人もいます。ぜひ、いま好きなことを大切に進路選択をしてください。
■AIの「魔法のしくみ」を探る: 研究員 Nan Lu先生
私は2017年に来日し、東京大学大学院新領域創成科学研究科に所属し、博士課程を修了しました。それより前は中国にいました。中国の高校で学んでいたころから情報技術に興味をもっていました。「魔法をかけているものはなにか、見てみたい!」と思い、理系に進学を決め、北京理工大学で通信工学を学ぶことにしました。数学、信号処理、コンピュータシステム、プログラミングなどを学び、デジタルの世界を幅広く理解することができました。
私がどのように機械学習の研究に興味をもったのか
大学生時代に、人工知能「AlphaGo」が囲碁の世界王者に勝ったというニュースにとても衝撃を受け、「AIは自分の生活をどう変えるのだろう」と考えるようになりました。その中で、中国のソーシャル・ネットワーキング・サービス「weibo」に「いいね!」をつけただけで、システムが私にとっておもしろいコンテンツを勧めてくることに気がつきました。「どのようにして私の興味を予測しているのだろう」と思って調べてみたところ、PU学習(Positive-Unlabeled Learning)という手法があるとわかりました。PU学習では、「いいね!」がついた投稿はポジティブ(P)データ、つかない投稿はアンラベリング(U)データとして扱われます。これらのデータをコンピュータに学習させ機械学習モデルをつくるのです。予測がまちがっていたら、その差をコンピュータに計算させます。これを損失関数といい、この損失関数を最小化したり最大化したりしながら機械学習モデルを最適化していきます。学習が進んでいくと、機械学習モデルはweiboを使っている個人が興味をもちそうなコンテンツの特徴を知り、効果的なレコメンデーションをするようになります。
私がどのようにして答えを見つけようとしたのか
いまはビッグデータの時代です。手元には教師データのラベル情報が不正確であったり、一部のみに正解が付与されているものが沢山あります。これらの完全な教師情報が付与されていないデータだけを用いて、機械に学習させる手法もあります。これを弱教師つき学習といいます。なぜ、そうしたことができるのかという疑問から、「弱教師付き学習」というテーマに興味をもち、大学院の博士課程に進むことにしました。PU学習は、「弱教師付き学習」の一つのタイプです。弱教師付き学習では、不十分な状態のデータを集めて機械に学習させモデルを生成させます。これこそが、魔法の仕組みを知るカギになると思い複数の論文を読み、その結果、理化学研究所AIPセンター長でもある杉山将先生がこの分野の第一人者だと知り、先生の研究室を志望し、日本で学ぶことを決意しました。そして、東京大学大学院新領域創成科学研究科の博士課程に進学し、「AIの魔法のしくみを探る旅」出たのです。
将来の研究について
博士課程の4年間は素晴らしいものでした。博士課程を修了し、私は人工知能の倫理の問題に興味をもつようになりました。現代社会では、機械学習モデルは社会に広く普及していますが、その際に重要なことは、「すべてのグループ(例えば、異なる人種や性別)に対して、公平な機械学習モデルを作るか」ということだと思いました。そこで、ドイツの大学にこの問題に取り組んでいる研究グループがあると知り、今は、テュービンゲン大学の機会学習における公平性の研究グループにPostdoctoral Fellowとして所属しています。
私の目標は、「公平」な機械学習モデルを実現させることです。だれもが安全に人工知能の成果を享受できる、よりよい世界に貢献する一助となればと願っているところです。
■自然言語処理の研究を社会に役立てる: 学生 丹羽彩奈さん
私はことばがわかる賢いコンピュータ(人工知能)をつくるための自然言語処理という分野の研究をしています。身近では、グーグル翻訳や、マイクロソフトが開発した対話型AI「りんな」などでこの分野の成果が実用化されています。
ゴールは「意図」を効果的に伝えることばの生成
研究の最終ゴールは、書き手や話し手の「意図」を効果的に伝えることばの生成です。効果的な単語選択や言い回しを生成できる人工知能をつくりたいと考えています。この研究ゴールに向けて、手法と応用の両面からのアプローチをとりました。
手法からのアプローチでは、ある文を参考に新しい文を生成する手法の開発に取り組みました。ことばは、ある同じ内容を複数通りの言い回しで表現することができます。そのため「こういう言い回しで文を表現したい」という希望に沿って文を生成する技術は意図を効果的に伝えるために大変重要です。そしてそのための一つのアプローチとして、希望する言い回しが含まれる文を参考にして文を生成する研究に取り組みました。具体的には、まず参考となる文をデータベースから検索し、その文に対して不要な単語を削除して必要な単語を挿入する編集操作を行うことで、目的の文章を生成するしくみを開発しました。
応用からのアプローチでは、広告生成AIの開発に取り組みました。広告で消費者を惹きつけるために用いられる修辞技法の一つに、二つ並んだ句を意味や文構造で対応させる「対句」があります。これは二つの事柄を対比的に表現することによって伝えたいメッセージを強調することができます。そのため、ことばを効果的に伝えるためのアプローチとして対句を含む文を人工知能に生成させようとしています。具体的には、まず広告のコピーライターがどの単語ペアを対照的な意味合いで使っているのか、また両者をどういう言い回しで対比させているのか知るため、単語ペアと言い回しテンプレートを大量に自動取得する手法を開発しました。次に、ある言い回しテンプレートが与えられた時に、対句を構成できるように単語を穴埋めする手法を提案しました。
女性研究者のひとつのロールモデルになる
高校時代、私は高校数学の各単元が世の中で具体的にどう役立っているのかを教えられる高校教員になるべく情報系の学部を目指していました。また、文理問わない幅広い学問や国際的なことにも挑戦したいと考えたため、ほぼ全ての学部が同じキャンパスで学べて国際色豊かな上智大学の理工学部情報理工学科に入学しました。入学後は「なんでもやってみよう」精神で希望通り文系理系にとらわれない幅広い経験を積みました。またそれと同時に、専攻分野である情報工学の(目指す教員像に近づくための手段としてではない)学問としての面白さにも気づきました。進路として、就職する、高校教員を目指す、進学する の三つで悩みましたが、分野にとらわれない幅広い経験を積んだ自分にしかできない研究をしてみたいと考え、進学を決めました。東京工業大学大学院に進んでからは、学部時代のスタンスから180度方向転換し、「一つのことを突き詰めよう」という精神で研究に取り組んできました。
自然言語処理について研究しようと思ったのは、学部時代にさまざまな背景をもつ人々とコミュニケーションをとった経験から、意図や言い回しで相手にあたえる影響力が変わる「ことば」に興味をもったからです。
いまは博士課程で自分の好きなことに全時間を使えるので、楽しく過ごせています。自分の興味と向き合い、できることの幅も広がりました。高校時代の計画とは大きく異なる進路にはなったものの自分の進路選択には自信をもっており、「自分のやりたいことを常に考えて行動し、ときに勇気をもって大幅な方向転換をすることで楽しく生きられる」ことを身をもって学びました。
今後は企業の研究所でリサーチサイエンティストとして働く予定です。「実社会で」役立つ技術の開発に向け研究を続けていくとともに、女性研究者のひとつのロールモデルになれればと思っています。