2人の語る「研究者」という職業を選ぶまで…
第6回「女子高生のための『数理・情報・AI』最前線!」レポート
オンラインセミナーシリーズ「女子高生のための『数理・情報・AI』最前線!」の第6回を2023年1月27日(金)に開催しました。東北大学データ駆動科学・AI教育研究センターの助教であり理研AIP自然言語理解チームの客員研究員である赤間怜奈先生と、東北大学教育学研究科の大学院生であり理研AIP自然言語理解チームの研修生でもある石月由紀子さんにご登壇いただき、女子中高生の参加者みなさんに研究の魅力や進路選択の理由をお話しいただきました。2人のお話と、参加者へのエールをダイジェストでお伝えします。
■たくさんの人が安心して使える自然言語処理技術を: 赤間怜奈先生
自然言語処理という研究分野
「自然言語処理」と呼ばれる私たちの研究分野では、人間が日常的に使っていることば、すなわち自然言語を上手に扱うことができる計算機の実現を目指して、そのための方法論の構築や要素技術の開発などに取り組んでいます。
ニュース記事、SNSの投稿、会議の議事録などあらゆる言語データが私たちの研究で扱う対象であり、翻訳、要約、会話など入出力に言語が関わる様々な知的処理機構を構築することが私たちの挑戦です。
社会のなかの自然言語処理技術
自動翻訳ツールやウェブ検索サービスなどは多くの人が利用したことがあると思います。これらはまさに自然言語処理における応用技術が社会実装されたものです。最近は、いわゆる「対話システム」の社会実装も進んでいます。ウェブページに設置されているカスタマーサポートをおこなうチャットボット、スマートフォンやスマートスピーカーに搭載されているバーチャルアシスタントなどがその例です。
近年の対話応答生成研究
近年の文生成研究の主流のひとつは、深層ニューラルネットワークベースの大規模な文生成モデルを大量の学習データで訓練する方法論です。文生成のひとつである対話応答生成の研究でも、モデルの大規模化と学習データの増大や高品質化により、モデルは、流暢なことばで自然な会話を生成できるようになりました。最近の研究では、会話の「品質」に関しては、モデルが人間と同等レベルの性能を達成したとの報告もあります。
ことばを理解している?
このような方法論で構築されたモデルは、お手本とする大量の対話データ(学習データ)から「人間の会話の傾向」というものを捉え、それを模倣することにより、まるで人間のような会話を生成します。一見、ことばを理解しているかのような振る舞いですが、一方で、ことばを理解しているとはいえない事実も確認されています。たとえば、会話の品質の面では人間に迫る性能のモデルであっても、事実に基づいていない内容の発話や、過去の文脈と矛盾する内容の発話を生成することがしばしばあります。
「研究」と「勉強」の違い
これまでできなかったことがほんの少しでもできるようになる、誰も知らなかったことがほんの少しだけでも分かるようになる、という風に、「できる」と「わかる」の範囲を広げていくことが「研究」だと考えます。「勉強」は、過去の研究によって「できる」「わかる」が明らかになっていることについて、どうすればできるのかを学び、どこまでがわかっているのかを知ることだと思っています。
「研究」と「勉強」の違い
私の場合、何人かのグループで研究を進めることがほとんどです。共同研究者と議論をしながら実験や論文の執筆をしています。私が研究で扱う対象は主に言語データなので、実験に必要な機材は計算機です。スーパーコンピュータやAI研究用の大規模計算機を使うことも多いですが、その際に私が実際にしていることは手元のノートパソコンでプログラムを書くことやコマンドを打つことです。それから、情報収集のために毎日たくさん論文を読んでいます。今は特に自然言語処理も人工知能も世界的に盛り上がっているため毎日のように結構な数の論文が発表されていますが、それらを頑張って追っています。分からないことがあれば、学生のときのように教科書や専門書を使って勉強もします。あとは、国内外の学会に参加して、研究発表をおこなう、最新情報を収集する、ということも定期的にしています。
「研究者」の仕事
もちろん第一には研究ですが、それ以外にも、アウトリーチ活動や学会等の運営もしています。昨年は、国内の研究者が集う勉強会、日本語Q&Aシステムのコンペティション「AI王~クイズAI日本一決定戦~」、コンピュータサイエンスに関心のある女子学生向けワークショップ「Workshop on ExploreCSR @Tohoku University」などの運営に携わりました。現在は、学会誌の編集委員などもしています。あと、私は大学で研究者をしているので、大学教員として講義を担当しています。学外向けに模擬講義や出張講義をすることもあります。
「研究者」という職業を選ぶまで
研究者という職業に就くことを現実的な選択肢として考え始めたのは、博士課程に進学してからでした。そろそろ博士号が取得できそうだけどこの先どうする?となった時期が、ちょうど修士博士と続けてきた研究活動そのものが楽しいと感じていた時期で、この楽しい時間をもっと続けたいという思いから研究者という職業を選びました。今も引き続き楽しいです。大学で研究しているのもあり、研究者としてあるいは教員として、様々な国籍・年齢・業界の方と、先に述べたような色々な種類のお仕事をさせていただいていて、毎日が刺激的です。
大学で研究者している理由
研究をしているうちにいつの間にか「憧れの研究者」というものができていたのですが、その方が大学で研究者をされていました。しかも、色々な偶然が重なった結果、私が博士課程を修了するタイミングで幸運にもその方と一緒に働けるチャンスがあり、その魅力的な環境に惹かれて大学で研究者をする道を選びました。
学生時代について
高校の前半までは、勉強よりもはるかに習い事や部活動に熱心でした。中学ではバスケットボールをしていて、その中で、チームの一員として「頑張る」ということや、結果に繋げやすい自分にあった努力の仕方を体当たりで学びました。このことは間違いなくその後の人生の糧になっていると感じます。高校は理数科に進学、大学では情報科学を専攻しました。大学では、学業にはもちろん本気で取り組みつつ、サークル活動やアルバイトもしていました。これら全てに全力投球して時には失敗したり後悔したりした経験が、自分の体力や精神力のキャパシティの限界を知るきっかけになっていると思います。学部4年で研究室に所属してからは、そこで企業との共同研究やインターンシップも経験しました。これらを通して「働く」ことに具体的なイメージを持つことができ、進路選択の際にも参考になりました。
博士課程への進学
大学入学時点で修士課程までは行くつもりでしたが、そこから博士課程に進学するかどうかはかなり悩みました。SNSで博士課程についての色々な意見も目にしていましたし。でも、どれだけ人の意見を見たところで「自分が」どう思うかは結局自分でやってみないと分からないですし、少しでも興味があるならとりあえずやってみよう、精一杯やってそれで無理ならまたそのときに考えよう、という気持ちで進学しました。博士号を取得したことでひとつ達成感のようなものが得られましたし、自信にもなりました。博士課程で研究を指導していただく中で、専門的な知識や技能だけではなく、タスク管理能力や文章を速く正しく読解する力、論理的かつ明解な文章を書く力、議論を円滑に進める力など、どんな仕事でも必ず役に立つ汎用的なスキルも訓練できたと感じます。博士号を持っていることによって就けなくなる職業はまずないですし、職業選択の幅が広がったのも良かったです。
研究者という面白い職業がある
研究者が働く場所は、文字通り世界中にたくさんあります。大学や研究機関はもちろん、民間企業や政府機関などでも研究者が大活躍しています。とくに、コンピュータサイエンスの専門家は、これからもますます世界中で求められると言われています。人工知能技術・自然言語処理技術も今まさにそうですが、コンピュータサイエンスに基づく技術が急速に社会へ浸透していくなかで、きっとこれからも次々と新しい課題が出てくると思います。それらをひとつひとつ解決し、多くの人が安心して使える技術を一緒につくりあげていく仲間が必要です。ぜひこの刺激的な世界に飛び込んできてください。近い将来、一緒に楽しく研究できることを楽しみにしています。
■自然言語処理やAI、データサイエンスを道具として社会課題の解決を: 石月由紀子さん
ワクワクの先にあった自然言語処理
私は現在、教育学研究科に在籍しています。学部生の頃から教育学、教育心理学に加えて自然言語処理について学び、研究をしています。数理情報AIとは一見離れたバックグラウンドを持つ私がどうして自然言語処理を研究しているのかをお話しします。
高校では、3年間理系のクラスに所属していましたが、当時、いろいろ悩んで、大学は文系を選択しました。東北大学を選んだのは、総合大学で、研究予算の規模も大きく、選択肢が広がりそうな大学だと思ったからです。その中でも最も扱う領域が広かったのが教育学部でした。
大学の学部時代は、4年間で200冊の本を読むぞと決めて、大学1年生の時から沢山の本を読み、いろいろな知識をインプットしていました。その中で、人間の学習や読解能力に関心を持つようになり、同時期に教育とAIに関する書籍を何冊か読んだこともあって、AIに関心を持つようになりました。大学2年生になり、専門科目を学んでいくうちに、東北大学教育学部には自然言語処理を研究している先生がいらっしゃることを知り、調べてみると、私が今まで抱いていた人文学的関心と自然科学的関心のどちらも追及できる可能性があるということが分かって、非常にワクワクしたのを覚えています。高校生の時は苦手意識のあった数学や統計も自分の関心ベースで勉強していくうちに自分でもできる!ということが分かってきて、最終的に自然言語処理の研究ができる研究室を選択しました。学部を卒業した後は、もっと研究したいと思い大学院に進学しました。将来は、自然言語処理にとどまらず、AIやデータサイエンスを道具として社会課題の解決につなげられるような仕事がしたいと考えています。
人間の省略判断を模倣した計算モデル
私の研究テーマは自然言語処理です。自然言語処理は人間の知的活動を支える言語を対象としていて、人間の言語活動をコンピュータに理解させるための処理に関する学問分野です。私はその中で、日本語の省略というテーマに関心を持っています。
日本語には項省略現象というものがあり、主語や目的語がしばしば省略されます。例えば「吾輩は猫である。吾輩は、名前はまだない」という文章があったときに、この文の前方の情報を元に、後方の文の主語を省略することができて「吾輩は猫である。名前はまだない。」という文を作ることができます。このように日本語は、言葉をある程度省略してもコミュニケーションができるのですが、実はすごく不思議だし、面白いなと思いませんか?
このように何となく主語や目的語を省略、あるいは表出したほうが、自然な気がするといった、人間のあいまいな直観的な判断を機械に理解させるにはどうしたらいいのか、省略の自然さは何によって決まるのかといったことを研究しています。このような疑問を起点として、「人間の省略判断を模倣した計算モデル」を作りたいという目標を掲げて研究を行っています。
省略を決定づける要因のようなものを、定量的に数式を用いて説明することができれば、「この項は省略すべきかどうか」という問いに対して、ある種答えを与えるようなシステムを作れる可能性があるのではないかと考えています。これが実現すると教育に応用ができるのではないかと考えています。例えば、小論文の執筆支援だとか、非母語話者の日本語の学習支援、さらに読みやすい文章の評価のようなことができるのではないかと考えています。
教育と自然言語処理の親和性が高いのは、出口として教育応用を見据えることができるということ、それから言語という人間の知的活動の産物を題材として扱うことができるからではないかなと個人的には考えています。
現在の研究
実際に取り組んできた研究を紹介します。学部4年生の時には省略が発生する条件を定量的な指標を用いて、情報理論の観点から説明することを試みる研究を行っていました。この研究では、書き手は、主語や目的語を省略しても読みづらさが悪化しないのであれば、項を省略するのではないか という仮説を基に研究を進めています。ここで自然言語処理のモデルは、次にどんな単語が来るかという確率を計算するようなモデルになっています。
例えば、「私はケーキを」という単語系列がある時に、述語として「食べる」と「飲む」では、どちらの出現確率の高いかということを考慮しながら計算しているモデルになっていて、この言語モデルの単語の予測確率に基づいて計算される読みづらさの指標が先行研究で報告されています。これが人の実際の単語の処理負荷と相関があることが報告されています。つまり、「私はケーキを食べる」よりも「私はケーキを飲む」という文の方が単語の処理負荷が大きく、人は予測できない単語が来るとびっくりするということが言えます。これを用いることで、省略についても説明ができるのではないかと考えました。このようなアイデアを基にして、たくさん文章をサンプリングしてきて、項が表出されている文については、それを消した文章を作り、逆に「吾輩は猫である。名前はまだない」のような元々主語が省略されている文章については、それを無理やり補った文を作って、項がある文、ない文というペアを作成しました。このペアを用いて、項がある文とない文で、その読みづらさの指標の値がどれぐらい変わるのかを比較します。
この研究の中で、項がないとびっくりする文は省略されにくいということが分かり、省略を確率に基づく指標で説明できるということを明らかにしました。学部4年生の時の研究では、省略を定量的に説明することを試みたのですが、その過程で、実際に人はどういう風に省略の可否を判断しているのかということが気になるようになりました。それを検証するのが、今修士1年で取り組んでいる内容になります。実際に人がどういう風な判断をしているのかというものを大規模なデータとして収集しました。具体的には前方の文脈を読ませた後に、その文の述語と項の関係を踏まえて、項が省略できるかどうかを人に問いかけ、省略判断の注釈付きデータを作成しました。
さらに、同じようなタスクを現在の自然言語処理のモデルを使って行なった時に、実際に集めた人のデータとどれぐらい類似するのかということが知りたいなと思い、それを検証しています。具体的には、まず人間と同様のタスクを解くような項省略判断モデルを作りました。
今はモデルの判断と、実際に収集してきた人の判断を比較することを行なっています。これによって、実際の人の判断を今のAIは、どれぐらい模倣できているのかということを分析し、人間らしい省略判断を実際に機械で実現するには何が必要かを検討しています。
自然言語処理を学んでみて気付いたこと
最後に、自然言語処理を学んでみて気付いたことについてお話しします。
自然言語処理は、私にとっては人間科学的な関心を最先端の技術と掛け合わせて追求できるものです。非常に魅力的な学問領域だなと思っています。また、理工系の学部に進んだからといって、研究対象が機械だけになるわけではなくて、言葉や人間を扱うこともできると思いますし、逆に、私のように教育学を学んでいても、AIを道具や題材として研究できる領域になっています。
自然言語処理の分野は言語学や教育学など、色んなバックグランドの研究者がいるような、非常に多様性に富んだ領域であると思います。また、研究という営み自体は、自分の興味を追求して形にしていくようなものだと思っていますので、非常に楽しいなと思っています。
進路は0か100ではない。選択肢を沢山もって
最後に進路選択のアドバイスなのですが、周りと比較せずに、自分の価値観の軸を大切にして選んでいって欲しいなと思います。0か100かの思考になるのではなくて、いろいろなことを経験する中で、選択肢をたくさん持っておくのが、一番大事ではないかと思っています。また、学校で今学んでいることは、将来の学びの土台になるものだということを知っておいて欲しいと思います。受験勉強や試験勉強など、やらないといけないからやるだとか、みんながやっているから自分もやるという、ある種抑圧された枠の中で学びに向き合っていくと、辛くなってしまうことがどうしてもあるのではないかと思うのですが、将来何がしたいのかということや、今やっていることがそのやりたいことにどう繋がりそうなのかということを考えると、乗り越えられるのではないかと思います。結果も大事ですが、目の前のことにとりあえず全力で取り組むということが、将来の自分にとって糧になるのではないかなと思います。