2019/3/28 15:00

要旨

森羅2019:Wikipediaを拡張固有表現の定義に従って構造化するプロジェクトです。評価型プロジェクトとリソース作成を同時に行うResource by Collaborative Contributionの形式で実施します。本プロジェクトの説明会を行います。

タスク

本プロジェクトでは、説明できる人工知能の実現に向けて、世界最大の百科事典であるWikipediaと、言葉の分類体系である拡張固有表現とを組み合わせた、大規模な知識源の構築を目指します。2019年のタスクは2種類あります。

JP-5:人名、企業名、市区町村名、空港名、化合物名

  • 提供データ:600〜900項目のトレーニングデータ、森羅2018の全システム出力
  • 出力データ:指定した属性の値をJSON形式で抽出
  • 評価データ:森羅2018と同じ100項目の評価データ

JP-30: 地名関係 6カテゴリ(GPE_その他, 都道府県州郡名, 国名, 大陸地域名, 国内地域名, 地名_その他)、地形関係 8カテゴリ(温泉名, 地形名_その他, 山地名, 島名, 河川名, 湖沼名, 海洋名, 湾名)、組織名関係 16カテゴリ(組織名_その他, 国際組織名, 公演組織名, 家系名, 民族名_その他,国籍名, 競技団体名, 競技リーグ名,競技連盟名, 非営利団体名, 企業グループ名, 政治的組織名_その他, 政府組織名, 政党名, 内閣名, 軍隊名)

  • 提供データ:各カテゴリ100項目のトレーニングデータ
  • 出力データ:指定した属性の値をJSON形式で抽出
  • 評価データ:(非公開の)100項目の評価データ

参加者には、各カテゴリーに設定された、各属性に該当する属性値を、Wikipedia記事本文から抽出する手法を構築し、その結果を提出していただきます。

抽出対象の例(空港名):ふりがな、IATA、ICAO、別名、名称由来、名称由来人物の地位職業名、国、年間利用客数、年間利用客数データのとし、年間発着回数、年間発着数データのとし、座標・軽度、座標・緯度、、、

日程

  • 2019年4月19日:説明会/トレーニングデータの公開
  • 2019年9月10日:結果提出期限
  • 2019年10月:最終報告会

ホームページ

森羅2019プロジェクトホームページ

詳細情報

日時 2019/04/19(金) 16:00 - 18:00
URL https://c5dc59ed978213830355fc8978.doorkeeper.jp/events/89302

場所

〒103-0027 東京都中央区日本橋1-4-1 日本橋一丁目三井ビルディング 15階

関連研究室

last updated on 2020/6/1 13:30研究室