(Translated by https://www.hiragana.jp/)
菅原 朔 - コンテンツ科学研究系 - 研究者紹介 - 研究 - 国立情報学研究所 / National Institute of Informatics

研究けんきゅう / Research

コンテンツ科学かがく研究けんきゅうけい

菅原すがわら さく
SUGAWARA Saku
コンテンツ科学かがく研究けんきゅうけい じょきょう
学位がくい博士はかせ情報じょうほう理工りこうがく
専門せんもん分野ぶんやコンテンツ基盤きばん
研究けんきゅう内容ないようhttps://researchmap.jp/sakus

研究けんきゅう紹介しょうかい

言語げんご理解りかい研究けんきゅう着実ちゃくじつ進展しんてん貢献こうけん

コンピューターは人間にんげん言葉ことば理解りかいしているか?

 わたしは、「言葉ことば意味いみがわかる」とはどのようなことなのか、言語げんご理解りかいという曖昧あいまいなものにかたちあたえたいというおもいから、自然しぜん言語げんご処理しょり人間にんげん言葉ことばをコンピューターで処理しょりする技術ぎじゅつ)の研究けんきゅうをしています。
 この分野ぶんやおおきな目標もくひょうのひとつは、人間にんげんのように文章ぶんしょう理解りかいするシステムをつくることです。一時期いちじき人工じんこう知能ちのうブームでは、「やがてひと知能ちのうえる人工じんこう知能ちのう出現しゅつげんする」などと話題わだいになりましたが、実際じっさい機械きかい学習がくしゅうはそれほど簡単かんたんなものではありません。人工じんこう知能ちのう性能せいのう誤解ごかいがあると、社会しゃかい応用おうようするときにおおきな問題もんだいこるかもしれません。誇張こちょうのない正確せいかく性能せいのうしめされる必要ひつようがあります。
 システムの性能せいのうため方法ほうほうひとつに、国語こくご文章ぶんしょうだいのような形式けいしき質問しつもんこたえさせる「機械きかい読解どっかいタスク」があります。近年きんねん機械きかい学習がくしゅう技術ぎじゅつ進展しんてんにともなってすうまん単位たんい問題もんだいそなえたデータセットが(おも英語えいごで)おお提案ていあんされ、世界中せかいじゅう大学だいがくやIT企業きぎょう研究けんきゅうしゃがそれらを使つかってシステムの開発かいはつすすめています。なかには人間にんげんどう程度ていど性能せいのう評価ひょうかされるシステムも登場とうじょうしていますが、このような評価ひょうか方法ほうほうには課題かだいのこっています。

機械きかい読解どっかいタスクの正答せいとうりつだけでは、理解りかい評価ひょうかできない

 それはおもふたつあり、1つは、システムが課題かだいぶんをどの程度ていど理解りかいしているかその詳細しょうさいがわからないことです。性能せいのう質問しつもん正答せいとうりつでしか評価ひょうかされないことがおおいため、文章ぶんしょう理解りかい必要ひつよう基盤きばんてき能力のうりょく指示しじ表現ひょうげんなにすかてることや、否定ひていぶん条件じょうけんぶん論理ろんりてき理解りかいできることなど)があるかどうか、具体ぐたいてきにわからないのです。
 もうひとつは、システムが文章ぶんしょう理解りかいせずに正答せいとうしている可能かのうせいがあることです。たとえば課題かだいぶん末尾まつびに「質問しつもんぶんによくまぎらわしいぶん (ただし本来ほんらい正答せいとうわらない)」を人手ひとで作成さくせいして追加ついかすると、システムの性能せいのうおおきく低下ていかすることがあります。このような場合ばあいは、質問しつもんぶんてくる単語たんご課題かだいぶんからさがして、それがちかくにあるこたえをえらんで正答せいとうしている可能かのうせいがあります(近年きんねん機械きかい学習がくしゅうモデルはとくにそういうことが得意とくいです)。

高度こうど言語げんご理解りかいがいらない質問しつもんおお

 わたしはこれらの課題かだい解決かいけつするため、1つについては、読解どっかい必要ひつよう能力のうりょくを10ほど定義ていぎして、その質問しつもんくのにどの能力のうりょく必要ひつようになるか人手ひとで分析ぶんせきできるようにしました。2つについては、「質問しつもんぶんとの単語たんご一致いっちるだけで簡単かんたんけてしまう質問しつもん」を特定とくていできるようにしました。
 また両者りょうしゃをまとめるかたちで、複雑ふくざつ推論すいろん能力のうりょく必要ひつようとされる可能かのうせいのある質問しつもん特定とくていするための自動的じどうてき手法しゅほう提案ていあんしました。たとえば「課題かだいぶんのそれぞれのぶん語順ごじゅんをランダムにならえる」ということをします。その状態じょうたいでもし質問しつもんけるならば、その質問しつもん文章ぶんしょう主語しゅご述語じゅつごなどが正確せいかくからなくてもけてしまうとかんがえられます。
 このような手法しゅほうをいくつか考案こうあんして既存きそんのデータセットに適用てきようしたところ、これまで正解せいかいされている質問しつもんおおくは、推論すいろん文法ぶんぽう観点かんてんから高度こうど言語げんご理解りかい要求ようきゅうされているわけではなさそうである、という観察かんさつました。

具体ぐたいてき読解どっかい能力のうりょく把握はあくできる評価ひょうかシステムの構築こうちくをめざす

sugawara_zu.png
読解どっかい問題もんだいれい既存きそん評価ひょうか手法しゅほう課題かだい

 今後こんごはこのような手法しゅほう応用おうようして、高度こうど言語げんご理解りかい必要ひつようとしない簡単かんたん質問しつもんのぞき、基盤きばんてき読解どっかい能力のうりょく有無うむ特定とくていできるよう、実際じっさいのデータセットじょう分析ぶんせきすすめます。「この質問しつもんけることでなにができるようになったのか」がなるべくあきらかにできるような評価ひょうか方法ほうほう確立かくりつして、言語げんご理解りかい研究けんきゅう着実ちゃくじつ進展しんてん貢献こうけんしたいとかんがえます。


取材しゅざい構成こうせい 平塚ひらつか裕子ゆうこ

関連かんれん情報じょうほう

人間にんげん言葉ことば理解りかいできる機械きかいをどう評価ひょうかするか 菅原すがわら さく 国立こくりつ情報じょうほうがく研究所けんきゅうじょ 研究けんきゅう紹介しょうかい
リンク

注目ちゅうもくコンテンツ / SPECIAL

2024年度ねんど 軽井沢かるいざわ土曜どよう懇話こんわかい だい1かい 国立こくりつ情報じょうほうがく研究所けんきゅうじょ
2024年度ねんど 要覧ようらん
国立こくりつ情報じょうほうがく研究所けんきゅうじょ 研究けんきゅう教育きょういく職員しょくいん 募集ぼしゅう オープンハウス2024 学術がくじゅつ情報じょうほう基盤きばんオープンフォーラム 2024 NII Today No.102 SINETStream 事例じれい紹介しょうかい:トレーラーがた動物どうぶつ施設しせつ [徳島大学とくしまだいがく バイオイノベーション研究所けんきゅうじょ] ウェブサイト「軽井沢かるいざわ土曜どよう懇話こんわかいアーカイブス」を公開こうかい 情報じょうほうけんシリーズ これからの「ソフトウェアづくり」とのかた 学術がくじゅつ研究けんきゅうプラットフォーム紹介しょうかい動画どうが 教育きょういく機関きかんDXシンポ 高等こうとう教育きょういく機関きかんにおけるセキュリティポリシー 情報じょうほう・システム研究けんきゅう機構きこうにおけるLGBTQを尊重そんちょうする基本きほん理念りねん オープンサイエンスのためのデータ管理かんり基盤きばんハンドブック 教育きょういく機関きかんDXシンポ
アーカイブス
コンピュータサイエンスパーク