視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅう

視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅう^{[注釈ちゅうしゃく 1]}（英語えいご: Vision and Language^{[注釈ちゅうしゃく 2]}）とは、コンピュータビジョンと自然しぜん言語げんご処理しょりを融合ゆうごうした研究けんきゅう分野ぶんやである^[12]^[5]。画像がぞうや動画どうがからのキャプション生成せいせい^[14]、画像がぞうや動画どうがを対象たいしょうとした質問しつもん応答おうとう（VQA）^[15]などのタスクが含ふくまれる。

1960年代ねんだいからヒューマン・ロボット・コラボレーション（英語えいご版ばん）の分野ぶんやを中心ちゅうしんに初期しょきの研究けんきゅうが始はじめられており^[16]^[17]、1990年代ねんだいごろから画像がぞう検索けんさく^[18]、2000年代ねんだいから画像がぞうキャプション生成せいせい^[19]の研究けんきゅうも始はじめられた。2010年代ねんだいに深層しんそう学習がくしゅうの適用てきようによってコンピュータビジョンと自然しぜん言語げんご処理しょりが大おおきく発展はってんしたことに伴ともない、融合ゆうごう研究けんきゅうも発展はってんを遂とげている^[16]^[20]。多おおくの研究けんきゅうが行おこなわれている一方いっぽうで、データセットバイアスなどの研究けんきゅう課題かだいも残のこされている^[21]^[22]。

背景はいけい

視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうは、コンピュータビジョンと自然しぜん言語げんご処理しょりを融合ゆうごうした研究けんきゅう分野ぶんやである^[12]^[5]。2つの分野ぶんやは独立どくりつして研究けんきゅうされてきたが、視覚しかくと自然しぜん言語げんごを組くみ合あわせることにより、ヒューマンコンピュータインタラクション^[23]^[20]、視覚しかく障害しょうがい者しゃの支援しえん^[23]^[20]^[24]、ヒューマン・ロボット・コラボレーション（英語えいご版ばん）^[20]^[24]、自動じどう運転うんてん^[23]、ナビゲーション^[23]、画像がぞう検索けんさく^[20]といった分野ぶんやへの応用おうようが期待きたいされることもあり、融合ゆうごう研究けんきゅうが注目ちゅうもくされるようになった^[25]^[20]。

コンピュータビジョン

詳細しょうさいは「コンピュータビジョン」を参照さんしょう

コンピュータビジョンは、コンピュータに画像がぞうや動画どうがの内容ないようを理解りかいさせる分野ぶんやである^[26]^[27]^[28]。主おもなタスクとしては画像がぞう分類ぶんるい^[29]や物体ぶったい検出けんしゅつ^[30]^[29]などが含ふくまれる。敵対てきたい的てき生成せいせいネットワーク（GAN）などによる画像がぞう生成せいせいが含ふくまれる場合ばあいもある^[31]^[32]。

自然しぜん言語げんご処理しょり

詳細しょうさいは「自然しぜん言語げんご処理しょり」を参照さんしょう

自然しぜん言語げんご処理しょりは、人間にんげんが使用しようする言語げんご（自然しぜん言語げんご）をコンピュータに処理しょりさせる分野ぶんやである^[33]^[34]。主おもなタスクとしては情報じょうほう検索けんさく^[35]^[36]、質問しつもん応答おうとう^[33]^[36]、機械きかい翻訳ほんやく^[33]^[37]などが含ふくまれる。

主おもな研究けんきゅう分野ぶんや

視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうとして以下いかのような分野ぶんやが研究けんきゅうされている^[38]^[18]^[1]^[4]。

自然しぜん言語げんご処理しょりのタスクの拡張かくちょう

画像がぞう・動画どうがの説明せつめい生成せいせい: 画像がぞうや動画どうがに対たいする説明せつめいを生成せいせいするタスクである^[38]^{[注釈ちゅうしゃく 3]}。この融合ゆうごう分野ぶんやの代表だいひょう的てきなタスクとされる^[39]画像がぞうキャプション生成せいせいも含ふくまれる^[40]。; 画像がぞうキャプション生成せいせいの研究けんきゅうは2000年代ねんだいから行おこなわれており^[19]、検索けんさくエンジンやソーシャルメディアなどで画像がぞうの説明せつめいを生成せいせいするために利用りようされている^[41]。

画像がぞう・動画どうがへの質問しつもん応答おうとう（Visual Question Answering、VQA): 自然しぜん言語げんご処理しょりにおける質問しつもん応答おうとうは、人間にんげんの質問しつもんに対たいして回答かいとうするタスクである^[42]。質問しつもん応答おうとうでは、質問しつもんに回答かいとうするにあたって必要ひつような情報じょうほうを得えるために、なんらかの文書ぶんしょを参照さんしょうする場合ばあいもある^[43]。質問しつもん応答おうとうが自然しぜん言語げんごのみを使用しようするのに対たいして、VQAは質問しつもん応答おうとうタスクを拡張かくちょうした、画像がぞうや動画どうがに関かんする質問しつもんに答こたえるタスクである^[38]。; 未知みちの物体ぶったいにも対応たいおうするようなVQAは2014年ねんに研究けんきゅうが始はじめられた^[44]。

画像がぞう検索けんさく（Image Retrieval）: 多数たすうの画像がぞうの中なかから、画像がぞうを検索けんさくするタスクである^[45]。キーワードや文章ぶんしょうなどの自然しぜん言語げんごをクエリとして使用しようするタスク、画像がぞうをクエリとして類似るいじしている画像がぞうを検索けんさくするタスク、手書てがきの絵えをクエリとするタスクなどが研究けんきゅうされている^[46]^[47]。; 従来じゅうらいは画像がぞうに人間にんげんがつけたキャプションなどを利用りようして検索けんさくを行おこなっていたが、1990年代ねんだいから画像がぞうに含ふくまれる視覚しかく情報じょうほうも用もちいて検索けんさくを行おこなう研究けんきゅうが行おこなわれるようになった^[48]^[45]。検索けんさくエンジンでも使用しようされている^[49]^[50]。

Visual Dialogの説明せつめい。「それは何なん色しょくですか」（What color is it?）という質問しつもんに対たいして、対話たいわの履歴りれきから犬いぬの色いろを聞きかれていることを理解りかいする必要ひつようがある。

画像がぞう・動画どうがに関かんする対話たいわ（Visual Dialog）: 画像がぞうや動画どうがに含ふくまれる情報じょうほうに対たいして、自然しぜん言語げんごを用もちいて対話たいわを行おこなうタスクである^[38]。例たとえば、人間にんげんが対話たいわシステムに画像がぞうの内容ないように関かんする複数ふくすうの質問しつもんを問といかけるという対話たいわにおいて、対話たいわシステムは過去かこの対話たいわ内容ないようも考慮こうりょして回答かいとうする必要ひつようがある^[51]。; Visual Dialogは2017年ねんに提案ていあんされて研究けんきゅうが始はじまった^[52]。

画像がぞうの参照さんしょう表現ひょうげん（Visual Referring Expression）の理解りかい・生成せいせい: 参照さんしょう表現ひょうげん（Referring Expression）とは「左ひだりの三みっつの玉たまのうちの一番いちばん右みぎの玉たま」のように複数ふくすうの物体ぶったいの中なかから特定とくていの物体ぶったいを識別しきべつするための言語げんご表現ひょうげんである^[53]。視覚しかくとの融合ゆうごう分野ぶんやでは、自然しぜん言語げんごで与あたえられた参照さんしょう表現ひょうげんに対応たいおうする物体ぶったいを画像がぞう中ちゅうで示しめしたり、画像がぞう中ちゅうの物体ぶったいに対応たいおうする参照さんしょう表現ひょうげんを生成せいせいするタスクが研究けんきゅうされている^[54]。; 参照さんしょう表現ひょうげん生成せいせいの研究けんきゅうは自然しぜん言語げんご処理しょりの分野ぶんやで1970年代ねんだいから行おこなわれているが^[55]、2010年代ねんだいまで画像がぞうなどに含ふくまれる視覚しかく情報じょうほうを直接ちょくせつ使つかうような手法しゅほうはほとんど研究けんきゅうされていなかった^[56]^[57]。深層しんそう学習がくしゅうを用もちいた画像がぞうの参照さんしょう表現ひょうげんの理解りかいと生成せいせいの最初さいしょの研究けんきゅうは2016年ねんに発表はっぴょうされ^[58]、画像がぞうから直接ちょくせつの参照さんしょう表現ひょうげんの理解りかい・生成せいせいを行おこなう研究けんきゅうが始はじまった^[57]。

画像がぞうの含意がんい関係かんけい認識にんしき（Visual Entailment）: 自然しぜん言語げんご処理しょりにおいて、含意がんい関係かんけい認識にんしきという「ある文章ぶんしょうが正ただしければもう一方いっぽうの文章ぶんしょうも正ただしいと言いえるか」を判別はんべつするタスクがある^[38]。例たとえば「川端かわばた康成やすなりは「雪国ゆきぐに」などの作品さくひんでノーベル文学ぶんがく賞しょうを受賞じゅしょうした」という文章ぶんしょうが正ただしいときは「川端かわばた康成やすなりは「雪国ゆきぐに」の作者さくしゃである」も正ただしいという関係かんけいを判別はんべつすることが求もとめられる^[59]。視覚しかくとの融合ゆうごう分野ぶんやでは、画像がぞうに示しめされた状況じょうきょうが正ただしいときに与あたえられた文章ぶんしょうが正ただしいと言いえるかを判別はんべつするタスクが提案ていあんされている^[38]。; 2018年ねんにVisual Entailmentのタスクを提案ていあんする研究けんきゅうが発表はっぴょうされた^[60]。

マルチモーダル機械きかい翻訳ほんやく: 機械きかい翻訳ほんやくタスクを拡張かくちょうして、元もとの言語げんごの文章ぶんしょうに加くわえて、文章ぶんしょうに対応たいおうした画像がぞうや動画どうがが与あたえられた状況じょうきょうで翻訳ほんやくを行おこなうというタスクである^[38]。; 2016年ねんにタスクが提案ていあんされた^[61]。

コンピュータビジョンのタスクの拡張かくちょう

Visual ReasoningのデータセットであるCLEVR^[62]の画像がぞうの例れい。質問しつもんの例れいとして「小ちいさい円柱えんちゅうは金属きんぞく製せいの物体ぶったいより多おおいですか？」などが想定そうていされる（回答かいとうは「いいえ」）^[63]。

文章ぶんしょうに対たいする画像がぞう生成せいせい: 与あたえられた文章ぶんしょうに対応たいおうした画像がぞうを生成せいせいするタスクである^[38]^{[注釈ちゅうしゃく 4]}。; 敵対てきたい的てき生成せいせいネットワーク（GAN）の登場とうじょうに伴ともない、2016年ねんに文章ぶんしょうから画像がぞうを生成せいせいする最初さいしょの研究けんきゅうが発表はっぴょうされた^[65]。

Visual Reasoning: 画像がぞう分類ぶんるいや物体ぶったい検出けんしゅつを拡張かくちょうしたタスクであり^[38]、画像がぞうや動画どうがに含ふくまれる視覚しかく情報じょうほうを理解りかいするタスクである^[66]。一いち例れいとして、画像がぞうに含ふくまれる複数ふくすうの物体ぶったい同士どうしの関係かんけい性せいなどを理解りかいするタスクなどが含ふくまれる^[67]^[68]。Visual Reasoningは視覚しかく情報じょうほうに対たいする質問しつもんに回答かいとうするための過程かていとして定義ていぎされることもある^[69]。すなわち、VQAやVisual Dialogのモデルは（明示めいじ的てきに設計せっけいされていなくても）Visual Reasoningを行おこなっていることになる^[69]。Visual Reasoningの手法しゅほうを評価ひょうかするために、VQAを用もちいることも一般いっぱん的てきである^[68]。; 初期しょきの研究けんきゅうは1960年代ねんだいから行おこなわれている^[67]。

自然しぜん言語げんご処理しょりとコンピュータビジョンのタスクの拡張かくちょう

視覚しかくと言語げんごを用もちいたナビゲーション: ナビゲーションはロボットなどに対たいして目的もくてき地ちまでの道順みちじゅんを案内あんないするタスクであり^[70]、視覚しかく情報じょうほうもしくは自然しぜん言語げんごのみでのナビゲーションが研究けんきゅうされてきた^[38]。これらを拡張かくちょうして、視覚しかくと自然しぜん言語げんごの両方りょうほうの情報じょうほうを使用しようするタスクが融合ゆうごう分野ぶんやとして研究けんきゅうされている^[38]。; 視覚しかくと自然しぜん言語げんごの両方りょうほうの情報じょうほうを用もちいるナビゲーションとしては、最初さいしょのデータセットが2017年ねんに発表はっぴょうされている^[71]。

歴史れきし

黎明れいめい期き（1960年代ねんだい以降いこう）

1968年ねんから始はじめられたSHRDLUというプロジェクトが、視覚しかくと自然しぜん言語げんごの融合ゆうごうにおける最初さいしょ期きの研究けんきゅうのひとつとされている^[16]^[17]。SHRDLUは人間にんげんが自然しぜん言語げんごで指示しじをすることで、コンピュータ内ないの仮想かそう空間くうかんの積つみ木きを操作そうさできるコンピュータプログラムである^[17]。これ以降いこうの視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうでは、ロボットを自然しぜん言語げんごによる対話たいわで操作そうさするという分野ぶんやが多おおく研究けんきゅうされてきた^[16]。

深層しんそう学習がくしゅう以前いぜん（1990年代ねんだい〜2000年代ねんだい）

画像がぞう検索けんさくも視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうにおける最初さいしょ期きのタスクのひとつである^[18]。従来じゅうらいは画像がぞうに人間にんげんがつけたキャプションを利用りようしていたが、1990年代ねんだいから画像がぞうの視覚しかく情報じょうほうも用もちいて検索けんさくを行おこなう研究けんきゅうが行おこなわれるようになった^[45]^[72]。

画像がぞうキャプション生成せいせいは2000年代ねんだいごろから研究けんきゅうが行おこなわれており、主おもにテンプレートを用もちいた手法しゅほうが提案ていあんされていた^[19]。テンプレートを用もちいて文章ぶんしょうを生成せいせいするためにSIFT（英語えいご版ばん）やHOG（英語えいご版ばん）などの局所きょくしょ画像がぞう特徴とくちょう量りょう^[73]に対たいしてサポートベクターマシン（SVM）などの分類ぶんるい器きを適用てきようするなどの手法しゅほうが提案ていあんされた^[74]^[75]。

深層しんそう学習がくしゅうの適用てきよう（2010年代ねんだい以降いこう）

2010年代ねんだいの深層しんそう学習がくしゅうの適用てきようによって、画像がぞうと自然しぜん言語げんご処理しょりの融合ゆうごう分野ぶんやも大おおきな発展はってんを遂とげた^[16]^[20]。VQA（2014年ねん）^{[注釈ちゅうしゃく 5]}、マルチモーダル機械きかい翻訳ほんやく（2016年ねん）^[61]、Visual Dialog（2017年ねん）^[52]、視覚しかくと言語げんごを用もちいたナビゲーション（2017年ねん）^[71]といったタスクの研究けんきゅうも2010年代ねんだいに始はじまった。

深層しんそう学習がくしゅうが適用てきようされるようになってからは、主おもに畳たたみ込こみニューラルネットワーク（CNN）を用もちいて画像がぞうや動画どうがの特徴とくちょう量りょうを、回帰かいき型がたニューラルネットワーク（RNN）を用もちいて自然しぜん言語げんごの特徴とくちょう量りょうを抽出ちゅうしゅつして、2種類しゅるいの特徴とくちょう量りょうを統合とうごうする手法しゅほうが研究けんきゅうされてきた^[76]。2019年ねんからはTransformer^[77]^[78]という共通きょうつうのモデルを用もちいる手法しゅほうが研究けんきゅうされている^[79]^[80]。

手法しゅほう

画像がぞうキャプション生成せいせいの例れい。画像がぞうの特徴とくちょう量りょうを得えるためにCNNを利用りようし、文章ぶんしょうを生成せいせいするためにRNNを用もちいている。

視覚しかく情報じょうほうと自然しぜん言語げんご情報じょうほうの統合とうごう（2018年ねんごろまでの主流しゅりゅう）

視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうの手法しゅほうについて、視覚しかく情報じょうほうや自然しぜん言語げんごの特徴とくちょう量りょうを得える機構きこうなどには共通きょうつう点てんが多おおく^[81]、2018年ねんごろまで^[80]の多おおくの手法しゅほうは、(1)視覚しかく情報処理じょうほうしょり、(2)自然しぜん言語げんご処理しょり、(3)二ふたつの情報じょうほうの統合とうごうを行おこなう3個このサブシステムを持もっていた^[76]。

視覚しかく情報処理じょうほうしょりには、かつてはSIFTなどの局所きょくしょ画像がぞう特徴とくちょう量りょうが用もちいられていたが^[74]^[73]、深層しんそう学習がくしゅうが適用てきようされ始はじめてからは主おもにCNNが使用しようされてきた^[76]。2017年ねんまではCNNが出力しゅつりょくする特徴とくちょう量りょうをそのまま利用りようするモデルが多おおかったが、バウンディングボックスやグラフ構造こうぞうを中間ちゅうかん表現ひょうげんとして利用りようする研究けんきゅうも行おこなわれるようになった^[76]。

自然しぜん言語げんご処理しょりには単語たんごベクトルが使つかわれることが多おおかったが^[38]、深層しんそう学習がくしゅうが適用てきようされ始はじめてからは主おもにRNNで得えられる文章ぶんしょう全体ぜんたいの特徴とくちょう量りょうが使用しようされてきた^[76]。

これらの手法しゅほうによって得えられた画像がぞうや動画どうがと自然しぜん言語げんごの情報じょうほうを統合とうごうするための手法しゅほうは、タスクごとに様々さまざまなものが利用りようされている^[76]。CNNやRNNから得えられた特徴とくちょう量りょうベクトルを統合とうごうする最もっとも単純たんじゅんな方法ほうほうは、二ふたつのベクトルを連結れんけつしたりアダマール積せきをとることである^[76]。より高度こうどな手法しゅほうとして、注意ちゅうい機構きこう（Attention）という手法しゅほうを適用てきようして、画像がぞうや自然しぜん言語げんごからそれぞれのクエリに対たいして重要じゅうような情報じょうほうを自動的じどうてきに選択せんたくして利用りようすることが提案ていあんされている^[76]。

統合とうごう的てきな事前じぜん学習がくしゅう（2019年ねん以降いこう）

事前じぜん学習がくしゅうとは、機械きかい学習がくしゅうのモデルを大だい規模きぼなデータセットで学習がくしゅうすることで、さまざまなタスクに用もちいることができる特徴とくちょう量りょうを抽出ちゅうしゅつできるモデルを学習がくしゅうする手法しゅほうである^[82]。大だい規模きぼなデータセットで事前じぜん学習がくしゅうを行おこなったのちに、比較的ひかくてき小規模しょうきぼのデータセットを用もちいて個別こべつのタスクにチューニングを行おこなうことで、高たかい性能せいのうを持もつモデルを学習がくしゅうできることが知しられている^[82]。コンピュータビジョンにおいてはCNNをImageNetなどの大だい規模きぼなデーセットで事前じぜん学習がくしゅうすることは広ひろく行おこなわれてきたが^[82]、RNNを用もちいた自然しぜん言語げんご処理しょりで事前じぜん学習がくしゅうを行おこなうことは少すくなかった^[83]^{[注釈ちゅうしゃく 6]}。2017年ねんに発表はっぴょうされた自然しぜん言語げんご処理しょりの新あたらしいモデルであるTransformer^[77]に対たいして事前じぜん学習がくしゅうを行おこなう手法しゅほうが2018年ねんに提案ていあんされ^[84]、自然しぜん言語げんご処理しょりにおいても文章ぶんしょう全体ぜんたいについて事前じぜん学習がくしゅうを行おこなう研究けんきゅうが行おこなわれるようになった（BERTなど）^[85]。2018年ねんには動画どうがにTransformerを適用てきようする研究けんきゅうが提案ていあんされ、2020年ねんには画像がぞうにTransformerを適用てきようする研究けんきゅうも始はじめられた（Vision Transformer（英語えいご版ばん））^[86]。

視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうにおいても、2019年ねんからTransformerを用もちいて画像がぞう・動画どうがと自然しぜん言語げんごの事前じぜん学習がくしゅうを同時どうじに行おこなう研究けんきゅうが行おこなわれている^[80]。

主おもなタスクの研究けんきゅう・評価ひょうか手法しゅほう

視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうのタスクには共通きょうつう点てんがあるが^[81]^[76]、タスクごとに異ことなる手法しゅほうが研究けんきゅうされている^[87]。ここでは主おもなタスクの手法しゅほうと評価ひょうか手法しゅほうを紹介しょうかいする。

画像がぞう・動画どうがの説明せつめい生成せいせい

画像がぞうキャプション生成せいせいの手法しゅほう: 研究けんきゅうが始はじめられた2000年代ねんだいごろには主おもにテンプレートを用もちいた手法しゅほうが提案ていあんされていた^[19]。テンプレートを用もちいて文章ぶんしょうを生成せいせいするためにSIFT（英語えいご版ばん）やHOG（英語えいご版ばん）などの局所きょくしょ画像がぞう特徴とくちょう量りょう^[73]に対たいしてSVMなどの分類ぶんるい器きを適用てきようするなどの手法しゅほうが提案ていあんされた^[74]^[75]。; 深層しんそう学習がくしゅうを用もちいた手法しゅほうが発展はってんした2010年代ねんだいには、CNNとRNNを用もちいる方法ほうほうが一般いっぱん的てきになった^[75]。さまざまなモデルが提案ていあんされているが、単純たんじゅんかつ一般いっぱん的てきに使用しようされている手法しゅほうとしては教師きょうしあり学習がくしゅうを用もちいたエンコーダ・デコーダモデルがある^[88]。これは、CNNを用もちいて画像がぞう特徴とくちょう量りょうを抽出ちゅうしゅつして、画像がぞう特徴とくちょう量りょうをRNNに入力にゅうりょくしてキャプションを生成せいせいするという手法しゅほうである^[89]。2019年ねんには画像がぞうと自然しぜん言語げんごの両方りょうほうにTransformerを使用しようする手法しゅほうも提案ていあんされている^[90]。

評価ひょうか手法しゅほう: 主おもに使用しようされているのは、生成せいせいされた説明せつめいとデータセットに含ふくまれる説明せつめいの類似るいじ度どによる評価ひょうかである^[91]^[92]。BLEU（英語えいご版ばん）、ROUGE、METEOR（英語えいご版ばん）といった機械きかい翻訳ほんやくなどの自然しぜん言語げんご処理しょりタスクで使用しようされている評価ひょうか基準きじゅんが使つかわれている^[91]^[92]。

画像がぞう・動画どうがへの質問しつもん応答おうとう（VQA)

VQAの手法しゅほうの例れい^[93]。画像がぞうに注意ちゅうい機構きこう（Attention）を適用てきようしている。

手法しゅほう: 2014年ねんに研究けんきゅうが始はじめられた当初とうしょの手法しゅほうは、あらかじめ定義ていぎされた形式けいしきの回答かいとうに限定げんていされたものだったが、2015年ねんには回答かいとうの形式けいしきを限定げんていしないような質問しつもんにも対応たいおうできるモデルが提案ていあんされた^[94]。2015年ねんに提案ていあんされたモデルのひとつは、CNNで抽出ちゅうしゅつされた画像がぞうの特徴とくちょう量りょうベクトルと質問しつもん文章ぶんしょうの単語たんごベクトルの両方りょうほうをエンコーダのRNN（LSTM）に入力にゅうりょくすることで特徴とくちょう量りょうを統合とうごうし、デコーダのRNNで回答かいとうを生成せいせいする手法しゅほうである^[95]。同どう時期じきには、特徴とくちょう量りょうの統合とうごうの方法ほうほうを変更へんこうしたり、注意ちゅうい機構きこう（Attention）の適用てきようや、データベースを利用りようする方法ほうほうなど、様々さまざまな手法しゅほうが提案ていあんされている^[95]。2019年ねんには自然しぜん言語げんご処理しょりにTransformerを使用しようするモデルや^[96]、Transformerを用もちいて画像がぞうと自然しぜん言語げんごの特徴とくちょう量りょうを統合とうごう的てきに事前じぜん学習がくしゅうする手法しゅほうが提案ていあんされている^[97]。

評価ひょうか手法しゅほう: VQAの回答かいとうは画像がぞうキャプションなどよりは短みじかいことが多おおいため、単純たんじゅんな評価ひょうか手法しゅほうが使用しようされることが多おおいが、高度こうどな評価ひょうか手法しゅほうも研究けんきゅうされている^[98]。単純たんじゅんな手法しゅほうのひとつは、生成せいせいされた回答かいとうとデータセットに含ふくまれる回答かいとうが厳密げんみつに一致いっちしているかを評価ひょうかすることである^[99]。高度こうどな手法しゅほうとしては、回答かいとうの意味いみの類似るいじ度どを評価ひょうかする手法しゅほうが研究けんきゅうされている^[99]。

画像がぞう検索けんさく（Image Retrieval）

適合てきごう率りつ（Precision）と再現さいげん率りつ（Recall）（英語えいご版ばん）の説明せつめい。

手法しゅほう: さまざまな種類しゅるいのクエリに対たいする画像がぞう検索けんさくが研究けんきゅうされているが^[46]^[47]、文章ぶんしょうか画像がぞうをクエリとする研究けんきゅうが多おおく研究けんきゅうされている^[100]。; 文章ぶんしょうをクエリとする検索けんさくについて、2019年ねんでもウェブ検索けんさくでは人間にんげんがつけたキャプションなどの自然しぜん言語げんごの情報じょうほうを利用りようしているとされている^[100]。キャプションがない画像がぞうも検索けんさくするために、画像がぞうキャプション生成せいせいなどを用もちいて^[41]自動的じどうてきにアノテーションを行おこなう手法しゅほうを適用てきようすることが研究けんきゅうされている^[101]。; 人間にんげんがつけたキャプションなどを利用りようしない方法ほうほうとして、1990年代ねんだいから画像がぞうをクエリとして類似るいじする画像がぞうを検索けんさくする研究けんきゅうが行おこなわれている^[101]^[102]。画像がぞうをクエリとした画像がぞう検索けんさくは、画像がぞうから特徴とくちょう量りょうを抽出ちゅうしゅつして類似るいじ度どを評価ひょうかすることで行おこなわれる^[103]。初期しょきの研究けんきゅうとして色いろ、形かたち、質感しつかんなどを特徴とくちょう量りょうとして使用しようする方法ほうほうが研究けんきゅうされてきたが、それだけでは画像がぞうが表あらわす意味いみの類似るいじ性せいを比較ひかくすることができないことが課題かだいだった^[102]。そのため、深層しんそう学習がくしゅうが適用てきようされる以前いぜんから、画像がぞう全体ぜんたいの意味いみも表あらわすような特徴とくちょう量りょうも併用へいようする試こころみが研究けんきゅうされてきた^[102]。深層しんそう学習がくしゅうを使用しようした方法ほうほうも数多かずおおく提案ていあんされており、CNNを利用りようして画像がぞう検索けんさくに有用ゆうような特徴とくちょう量りょうを抽出ちゅうしゅつする研究けんきゅうが行おこなわれている^[104]。

評価ひょうか手法しゅほう: 画像がぞう検索けんさくには情報じょうほう検索けんさくの評価ひょうか手法しゅほうが用もちいられる^[105]。評価ひょうか手法しゅほうとして様々さまざまなものがあり、想定そうていされる適用てきよう先さきなどによって使つかい分わけることが求もとめられる^[106]。広ひろく用もちいられているのは適合てきごう率りつ（Precision）と再現さいげん率りつ（Recall）（英語えいご版ばん）、およびF値ねである^[106]。ここで、検索けんさく結果けっかの上位じょういk個この画像がぞうを「検出けんしゅつされた」と判定はんていするとする^[106]。また、評価ひょうかの際さいには、検出けんしゅつされるべき正解せいかいの画像がぞう（複数ふくすうの場合ばあいもある）が分わかっているとする^[106]。下した式しきのように、適合てきごう率りつ（P）は検出けんしゅつされた画像がぞうの中なかで、正解せいかいの画像がぞう（tp）の割合わりあいで表あらわされる（fpは誤あやまって検出けんしゅつされた画像がぞうの数かず）^[106]。再現さいげん率りつ（R)は検出けんしゅつされるべき正解せいかいの画像がぞうの中なかで、実際じっさいに検出けんしゅつされた画像がぞう（tp）の割合わりあいで表あらわされる（fnは正解せいかいの画像がぞうだが、検出けんしゅつされなかった画像がぞうの数かず）^[106]。; ${\mathsf {P}}={\frac {tp}{tp+fp}},{\mathsf {R}}={\frac {tp}{tp+fn}}$; F値ちは適合てきごう率りつと再現さいげん率りつの調和ちょうわ平均へいきんで求もとめられる^[106]。

文章ぶんしょうに対たいする画像がぞう生成せいせい

手法しゅほう: 2016年ねんからGANを応用おうようした手法しゅほうが提案ていあんされていたが、文章ぶんしょうで条件付じょうけんづけしない通常つうじょうの画像がぞう生成せいせいと比較ひかくすると、生成せいせいされる画像がぞうの質しつが低ひくかった^[65]。画像がぞうの質しつを高たかめるために複数ふくすうのGANを使用しようしたり、文章ぶんしょう全体ぜんたいの意味いみを画像がぞうに反映はんえいするために注意ちゅうい機構きこう（Attention）を使用しようする研究けんきゅうが提案ていあんされた^[65]。

評価ひょうか手法しゅほう: GANなどのコンピュータビジョンにおける画像がぞう生成せいせいタスクで使用しようされる評価ひょうか指標しひょうが使つかわれている^[107]。Inception Scoreという指標しひょうを用もちいて画像がぞうの質しちや多様たよう性せいを評価ひょうかできるが、Inception Scoreでは文章ぶんしょうに対応たいおうした画像がぞうを生成せいせいできているかを評価ひょうかすることができないので、R-Precisionという指標しひょうも併用へいようされる^[108]。

データセット

大だい規模きぼなデータセットを用もちいて学習がくしゅうすることは、深層しんそう学習がくしゅうモデルの汎ひろし化か性能せいのうを高たかめる重要じゅうような要素ようそのひとつである^[109]。視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうにおいても大だい規模きぼなデータセットは重要じゅうような役割やくわりを果はたしており、モデルの学習がくしゅうと評価ひょうかに不可欠ふかけつな存在そんざいである^[16]。写真しゃしんの共有きょうゆうサイトであるFlickrなどから提供ていきょうされる画像がぞうデータとクラウドソーシングによるアノテーションによって、大だい規模きぼなデータセットを作つくることが可能かのうになった^[16]。このような既存きそんの画像がぞうを収集しゅうしゅうするだけではなく、データセットのために作成さくせいされることもある^[71]。

さまざまなデータセットが提案ていあんされているが、データセットのサイズ（含ふくまれる画像がぞうや文章ぶんしょうの数かず）、画像がぞうの質しちや多様たよう性せい、文章ぶんしょうの長ながさ、文章ぶんしょうに含ふくまれる単語たんごや構文こうぶんの多様たよう性せい、アノテーションの豊富ほうふさなどの異ことなる性質せいしつを持もっており^[110]、それぞれのデータセットに利点りてんと欠点けってんがある^[16]。

本節ほんぶしでは主おもなデータセットを紹介しょうかいする^{[注釈ちゅうしゃく 7]}。

画像がぞう・動画どうがの説明せつめい生成せいせい

データセットには画像がぞうと説明せつめい文ぶんが含ふくまれるが、データセットによってデータの数かずや質しつ、収集しゅうしゅう方法ほうほうなどが異ことなる^[112]。

キャプション付つき画像がぞうデータセット


名称めいしょう	発表はっぴょう年ねん	画像がぞうの枚数まいすう	各かく画像がぞうのキャプション数すう	特徴とくちょう	出典しゅってん
SBU Captioned Photo Dataset	2011	1,000,000	1	Flickrから集あつめられた写真しゃしんで、ユーザがつけたキャプションを利用りようしている。	^[113]
Flickr 30K Images	2014	31,014	5	Flickrから集あつめられた写真しゃしんに対たいして、クラウドソーシングでキャプションを付つけている。	^[114]
Microsoft COCO Dataset	2014	123,287	5	Flickrから集あつめられた写真しゃしんに対たいして、クラウドソーシングでキャプションを付つけている。広ひろく利用りようされているデータセット^[115]。	^[116]

説明せつめい付つき動画どうがデータセット

名称めいしょう	発表はっぴょう年ねん	動画どうがの数かず	動画どうがの合計ごうけい時間じかん	文章ぶんしょうの数かず	特徴とくちょう	出典しゅってん
Microsoft Research Video Description Corpus	2011	1,970	5.3時じ間あいだ	70,028	YouTubeの動画どうがに、クラウドソーシングで説明せつめいをつけている。複数ふくすう言語げんごの説明せつめいがつけられている。	^[117]

画像がぞうへの質問しつもん応答おうとう

異ことなる特徴とくちょうを持もったさまざまなデータセットが提案ていあんされている。実じつ世界せかいの画像がぞうを用もちいたデータセットが良よく使つかわれているが^[118]、画像がぞう認識にんしきの能力のうりょくではなく意味いみを理解りかいできているかの評価ひょうかに注目ちゅうもくするために、クリップアートで作成さくせいされた絵えを用もちいたデータセットも提案ていあんされている^[119]。初期しょきのデータセットは画像がぞう中ちゅうの情報じょうほうを理解りかいできれば質問しつもんに答こたえられるものであったが、2015年ねんに発表はっぴょうされたKB-VQAというデータセットなどは、画像がぞう中ちゅうの情報じょうほうだけでは質問しつもんに正まさしく回答かいとうすることはできず、外部がいぶデータベースの知識ちしきを用もちいることが求もとめられる^[119]。2017年ねんに発表はっぴょうされたVisual Genomeというデータセットでは、画像がぞうのシーングラフ（物体ぶったいをノード、物体ぶったい同士どうしの関係かんけい（位置いち関係かんけいなど）をエッジとするグラフ^[120]）が与あたえられている^[121]。


名称めいしょう	発表はっぴょう年ねん	画像がぞうの枚数まいすう	質問しつもんの数かず	回答かいとうの数かず	説明せつめい	出典しゅってん
Visual Question Answering Dataset (v1.0)	2015	204,721 + 50,000	614,163 + 150,000	6,141,630 + 1,500,000	MS COCOの画像がぞう（204,721枚まい）とクリップアートで作成さくせいされた絵え（50,000枚まい）に対たいして、クラウドソーシングで質問しつもんと回答かいとうがつけられている。	^[122]

課題かだい

データセットバイアス

データセットバイアスとは、機械きかい学習がくしゅうモデルの学習がくしゅうに使用しようしたときに誤あやまった結論けつろんを導みちびく可能かのう性せいがある、データセットの偏かたよりのことである^[123]。例たとえば、画像がぞうデータセットを用もちいて「自動車じどうしゃ」を認識にんしきする機械きかい学習がくしゅうモデルを学習がくしゅうするときに、ImageNetというデータセットでは「自動車じどうしゃ」というラベルにスポーツカーを多おおく含ふくむため、自家用車じかようしゃの検出けんしゅつ性能せいのうが低ひくくなってしまうという問題もんだいが起おこることがある^[124]。逆ぎゃくに、学習がくしゅうデータとテストデータは多おおくの場合ばあいは同おなじ条件じょうけんで集あつめられているため、学習がくしゅうデータを記憶きおくするだけでテストデータにも対応たいおうできてしまい、実際じっさいの性能せいのうよりも高たかく評価ひょうかされてしまうという問題もんだいが起おこることもある^[21]。

データセットバイアスはコンピュータビジョンや自然しぜん言語げんご処理しょりのそれぞれの分野ぶんやでも問題もんだいとなるが、両方りょうほうの分野ぶんやを対象たいしょうとする融合ゆうごう研究けんきゅうではより深刻しんこくな影響えいきょうを受うけるとされている^[21]^[125]。一いち例れいとして、VQAのデータセットにおいて、質問しつもんに対たいする回答かいとうに偏かたよりがあると画像がぞうを使つかわなくても一定いっていの精度せいどを達成たっせいできてしまうことが知しられている^[21]^[126]。例たとえばデータセットに「画像がぞう中ちゅうに〜がありますか」という形式けいしきの質問しつもんが複数ふくすうあり、答こたえとして「はい」が多おおいという偏かたよりがあるとする^[21]。機械きかい学習がくしゅうモデルは画像がぞうの内容ないようを確認かくにんして答こたえることが期待きたいされるが、自然しぜん言語げんごの質問しつもんだけを見みて「画像がぞう中ちゅうに〜がありますか」という形式けいしきの質問しつもんには常つねに「はい」と答こたえるように学習がくしゅうをされてしまうことが起おこり得える^[21]^[126]。

解決かいけつ方法ほうほうとしてデータセットからバイアスを取とり除のぞく方法ほうほうが研究けんきゅうされているが、大だい規模きぼなデータセットにおいてあらゆる要素ようそのバイアスを取とり除のぞくことは不可能ふかのうに近ちかく、未み解決かいけつの問題もんだいとされている^[21]。

評価ひょうかの難むずかしさ

評価ひょうか手法しゅほうはコンピュータビジョンと自然しぜん言語げんご処理しょりの各かく分野ぶんやにおいても課題かだいのひとつであるが、融合ゆうごう研究けんきゅうにおいてはさらに大おおきな問題もんだいとなっているとされている^[22]。特とくに自然しぜん言語げんご生成せいせいに関係かんけいするタスクにおける評価ひょうかは難むずかしいとされる^[22]^[127]^[128]。例たとえば画像がぞうキャプション生成せいせいにおいて「男性だんせいが木きの横よこを歩あるいている」と「男おとこが木きのそばを散歩さんぽしている」という二ふたつの文章ぶんしょうはほとんど同おなじ意味いみを表あらわしているが、自動的じどうてきに類似るいじ度どの評価ひょうかを行おこなうことは難むずかしい^[22]。また、VQAにおいて「鳥とり」という答こたえが正解せいかいとされている問題もんだいに対たいして、「鷹たか」という答こたえが正ただしいのかどうかを自動的じどうてきに評価ひょうかすることは難むずかしい^[22]。

評価ひょうか手法しゅほうを改善かいぜんする研究けんきゅうは行おこなわれているが、未み解決かいけつの問題もんだいとなっている^[22]。

脚注きゃくちゅう

注釈ちゅうしゃく

^ 日本語にほんごでの表記ひょうきは複数ふくすう存在そんざいし、「視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅう」^[1]、「視覚しかくと言語げんごの融合ゆうごう研究けんきゅう」^[2]^[3]、「画像がぞうと自然しぜん言語げんご処理しょりの融合ゆうごう研究けんきゅう」^[4]、「CVとNLPの融合ゆうごう研究けんきゅう」^[5]などの他ほかに"Vision and Language"と英語えいごのままで呼よばれることもある^[6]^[7]。
^ "Vision and Language"^[8]^[9]^[10]の他ほかに"Language and Vision"^[11]など表記ひょうきに揺ゆらぎはある。
^ 自然しぜん言語げんご処理しょり分野ぶんやにおいて、与あたえられた文章ぶんしょうの次つぎの文章ぶんしょうを生成せいせいする「条件じょうけん付つき言語げんご生成せいせい」は広ひろく研究けんきゅうされているが、これを拡張かくちょうした、与あたえられた画像がぞうや動画どうがに対たいして「条件じょうけん付つき言語げんご生成せいせい」をするというタスクとして捉とらえることもできる^[38]。
^ コンピュータビジョンで画像がぞうに対たいする画像がぞうの生成せいせい（白黒しろくろ写真しゃしんからカラー写真しゃしんの生成せいせいなど^[64]）などが研究けんきゅうされているが、これを自然しぜん言語げんごとの融合ゆうごう分野ぶんやに拡張かくちょうしたタスクとして捉とらえることもできる^[38]。
^ 未知みちの物体ぶったいなども対象たいしょうとした（open-world）手法しゅほうとして初はじめて提案ていあんされたのがMalinowski et al. (2014)^[10]である^[44]。
^ 自然しぜん言語げんご処理しょり分野ぶんやにおいては、単語たんごベクトルを事前じぜん学習がくしゅうすることは広ひろく研究けんきゅうされてきた^[83]。
^ サーベイ論文ろんぶん^[111]^[9]で挙あげられているデータセットを中心ちゅうしんに取とり上あげる。

出典しゅってん

^ ^a ^b ^c ^d 牛久うしく祥さち孝こう. “【記事きじ更新こうしん】私わたしのブックマーク「視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅう（Integrating Vision and Language）」 – 人工じんこう知能ちのう学会がっかい (The Japanese Society for Artificial Intelligence)”. 人工じんこう知能ちのう学会がっかい. 2022年ねん3月がつ24日にち閲覧えつらん。
^ “NL研けん・CVIM研けん・PRMU研けんの合同ごうどう研究けんきゅう会かい：第だい248回かい自然しぜん言語げんご処理しょり研究けんきゅう会かい発表はっぴょう募集ぼしゅう”. 情報処理じょうほうしょり学会がっかい自然しぜん言語げんご処理しょり研究けんきゅう会かい (NL) (2021年ねん2月がつ9日にち). 2022年ねん3月がつ24日にち閲覧えつらん。
^ “【第だい48回かいAIセミナー】「マルチモーダル情報じょうほうの統合とうごう理解りかいの最前線さいぜんせん」”. 人工じんこう知能ちのう研究けんきゅうセンター. 2022年ねん3月がつ24日にち閲覧えつらん。
^ ^a ^b ^c “AI白書はくしょ2017：IPA 独立どくりつ行政ぎょうせい法人ほうじん情報処理じょうほうしょり推進すいしん機構きこう”. 情報処理じょうほうしょり推進すいしん機構きこう. p. 42. 2022年ねん3月がつ24日にち閲覧えつらん。
^ ^a ^b ^c 一般いっぱん社団しゃだん法人ほうじん情報処理じょうほうしょり学会がっかい. “第だい247回かいNL研究けんきゅう発表はっぴょう会かい-情報処理じょうほうしょり学会がっかい”. www.ipsj.or.jp. 2022年ねん3月がつ24日にち閲覧えつらん。
^ 井尻いじり, 善久よしひさ; 牛久うしく, 祥さち孝こう; 片岡かたおか, 裕雄ひろお; 藤吉ふじよし, 弘ひろ亘わたる, eds. (2021). コンピュータビジョン最前線さいぜんせん　Winter 2021. 共立きょうりつ出版しゅっぱん. p. 78.
^ 品川しながわ, 政せい太朗たろう「Vision and Languageと分野ぶんやを取とり巻まく深層しんそう学習がくしゅう手法しゅほうの紹介しょうかい」『研究けんきゅう報告ほうこくコンピュータビジョンとイメージメディア（CVIM）』2021-CVIM-226第だい15号ごう、2021年ねん5月がつ13日にち、1–1頁ぺーじ、ISSN 2188-8701。
^ “Workshop on Vision and Language - ACL Anthology”. ACL Anthology. ACL. 2022年ねん3月がつ24日にち閲覧えつらん。
^ ^a ^b Mogadala, Kalimuthu & Klakow 2021.
^ ^a ^b ^c Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Lawrence Zitnick, C.; Parikh, Devi (2015). “VQA: Visual Question Answering”. Proceedings of the IEEE International Conference on Computer Vision (ICCV): 2425–2433.
^ “CVPR 2015 Language and Vision Workshop | The Center for Brains, Minds & Machines”. Center for Brain, Minds & Machines. 2022年ねん3月がつ24日にち閲覧えつらん。
^ ^a ^b Mogadala, Kalimuthu & Klakow 2021, p. 1183.
^ ^a ^b Ferraro 2015, p. 210.
^ ^[1]^[4]^[13]
^ ^[1]^[10]^[13]
^ ^a ^b ^c ^d ^e ^f ^g ^h Ferraro 2015, p. 207.
^ ^a ^b ^c Terry Winograd. “SHRDLU”. 2022年ねん3月がつ24日にち閲覧えつらん。
^ ^a ^b ^c Kafle 2019, 2.1. Tasks in V&L Research.
^ ^a ^b ^c ^d Wang 2021, p. 2.
^ ^a ^b ^c ^d ^e ^f ^g Kafle 2019, 1. Introduction.
^ ^a ^b ^c ^d ^e ^f ^g Kafle 2019, 3.1. Dataset Bias.
^ ^a ^b ^c ^d ^e ^f Kafle 2019, 3.2. Evaluation Metrics.
^ ^a ^b ^c ^d Mogadala, Kalimuthu & Klakow 2021, p. 1184.
^ ^a ^b Fern, Sonia. “The intersection of vision and language” (英語えいご). phys.org. 2022年ねん4月がつ9日にち閲覧えつらん。
^ Mogadala, Kalimuthu & Klakow 2021, pp. 1183–1184.
^ Sonka 2008, p. 1.
^ Huang, T (1996) (英語えいご). Computer Vision: Evolution And Promise. doi:10.5170/CERN-1996-008.21. http://cds.cern.ch/record/400313.
^ “コンピュータービジョンとは | Microsoft Azure”. Microsoft. 2022年ねん4月がつ8日にち閲覧えつらん。
^ ^a ^b Mogadala, Kalimuthu & Klakow 2021, p. 1185.
^ Sonka 2008, p. 385.
^ Cao, Yang-Jie; Jia, Li-Li; Chen, Yong-Xia; Lin, Nan; Yang, Cong; Zhang, Bo; Liu, Zhi; Li, Xue-Xiang et al. (2019). “Recent Advances of Generative Adversarial Networks in Computer Vision”. IEEE Access 7: 14985–15006. doi:10.1109/ACCESS.2018.2886814. ISSN 2169-3536.
^ Wang, Zhengwei; She, Qi; Ward, Tomás E. (2022-03-31). “Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy” (英語えいご). ACM Computing Surveys 54 (2): 1–38. doi:10.1145/3439723. ISSN 0360-0300.
^ ^a ^b ^c Jurafsky 2009, p. 1.
^ Eisenstein 2019, p. 1.
^ Jurafsky 2009, p. 737.
^ ^a ^b Eisenstein 2019, p. 424.
^ Eisenstein 2019, p. 431.
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ Mogadala, Kalimuthu & Klakow 2021, p. 1187.
^ Baltrušaitis 2019, p. 424.
^ Mogadala, Kalimuthu & Klakow 2021, p. 1190.
^ ^a ^b Hossain 2019, p. 1.
^ Jurafsky 2009, p. 779.
^ Jurafsky 2009, p. 780.
^ ^a ^b Wu 2017, p. 3.
^ ^a ^b ^c Mezaris, V.; Kompatsiaris, I.; Strintzis, M.G. (2003-09). “An ontology approach to object-based image retrieval”. Proceedings 2003 International Conference on Image Processing (Cat. No.03CH37429) 2: II–511. doi:10.1109/ICIP.2003.1246729.
^ ^a ^b Datta 2008, pp. 11–12.
^ ^a ^b Latif 2019, p. 3.
^ Datta 2008, p. 4.
^ Kaput, Mike. “AI in Search Engines: Everything You Need to Know” (英語えいご). Marketing AI Institute. 2022年ねん4月がつ9日にち閲覧えつらん。
^ “Google Search By Image: Use A Snapshot As Your Search Query” (英語えいご). TechCrunch. 2022年ねん4月がつ9日にち閲覧えつらん。
^ Mogadala, Kalimuthu & Klakow 2021, p. 1246.
^ ^a ^b Das, Abhishek; Kottur, Satwik; Gupta, Khushi; Singh, Avi; Yadav, Deshraj; Moura, Jose M. F.; Parikh, Devi; Batra, Dhruv (2017). Visual Dialog. pp. 326–335.
^ 船越ふなこし, 孝太郎こうたろう、渡辺わたなべ, 聖きよし、栗山くりやま, 直子なおこ、徳永とくなが, 健けん伸しん「知覚ちかく的てき群ぐん化かに基もとづく参照さんしょう表現ひょうげんの生成せいせい」『自然しぜん言語げんご処理しょり』第だい13巻かん第だい2号ごう、2006年ねん、79–97頁ぺーじ、doi:10.5715/jnlp.13.2_79。
^ Mogadala, Kalimuthu & Klakow 2021, p. 1216.
^ Kazemzadeh, Sahar; Ordonez, Vicente; Matten, Mark; Berg, Tamara (2014-10). “ReferItGame: Referring to Objects in Photographs of Natural Scenes”. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (Doha, Qatar: Association for Computational Linguistics): 787–798. doi:10.3115/v1/D14-1086. https://aclanthology.org/D14-1086.
^ Krahmer 2012, p. 207.
^ ^a ^b Mao, Junhua; Huang, Jonathan; Toshev, Alexander; Camburu, Oana; Yuille, Alan; Murphy, Kevin (2016-06). “Generation and Comprehension of Unambiguous Object Descriptions”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (Las Vegas, NV, USA: IEEE): 11–20. doi:10.1109/CVPR.2016.9. ISBN 978-1-4673-8851-1.
^ Qiao 2021, p. 4427.
^ 寺中じちゅう, 元もと希まれ; 斎藤さいとう, 博昭ひろあき (2015). “含意がんい関係かんけい認識にんしきにおけるベクトル空間くうかんモデルの適用てきよう”. 自然しぜん言語げんご処理しょり学会がっかい 21: 924.
^ Mogadala, Kalimuthu & Klakow 2021, p. 1241.
^ ^a ^b Specia, Lucia; Frank, Stella; Sima'an, Khalil; Elliott, Desmond (2016-08). “A Shared Task on Multimodal Machine Translation and Crosslingual Image Description”. Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers (Berlin, Germany: Association for Computational Linguistics): 543–553. doi:10.18653/v1/W16-2346. https://aclanthology.org/W16-2346.
^ “CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning”. cs.stanford.edu. 2022年ねん3月がつ25日にち閲覧えつらん。
^ CLEVR Dataset Generation, Meta Research, (2022-03-16) 2022年ねん3月がつ25日にち閲覧えつらん。
^ Isola, Phillip; Zhu, Jun-Yan; Zhou, Tinghui; Efros, Alexei A. (2017-07). “Image-to-Image Translation with Conditional Adversarial Networks”. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 5967–5976. doi:10.1109/CVPR.2017.632.
^ ^a ^b ^c Mogadala, Kalimuthu & Klakow 2021, p. 1258.
^ Mogadala, Kalimuthu & Klakow 2021, p. 1232.
^ ^a ^b Bakhtin, Anton; van der Maaten, Laurens; Johnson, Justin; Gustafson, Laura; Girshick, Ross (2019). “PHYRE: A New Benchmark for Physical Reasoning”. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 32.
^ ^a ^b Johnson, Justin; Hariharan, Bharath; Van Der Maaten, Laurens; Hoffman, Judy; Fei-Fei, Li; Zitnick, C. Lawrence; Girshick, Ross (2017-10). “Inferring and Executing Programs for Visual Reasoning”. 2017 IEEE International Conference on Computer Vision (ICCV): 3008–3017. doi:10.1109/ICCV.2017.325.
^ ^a ^b He 2021, p. 2.
^ Zieliński, P.; Markowska-Kaczmar, U. (2021-10-01). “3D robotic navigation using a vision-based deep reinforcement learning model” (英語えいご). Applied Soft Computing 110: 107602. doi:10.1016/j.asoc.2021.107602. ISSN 1568-4946.
^ ^a ^b ^c Anderson, Peter; Wu, Qi; Teney, Damien; Bruce, Jake; Johnson, Mark; Sunderhauf, Niko; Reid, Ian; Gould, Stephen et al. (2018-06). “Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments”. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (Salt Lake City, UT: IEEE): 3674–3683. doi:10.1109/CVPR.2018.00387. ISBN 978-1-5386-6420-9.
^ Datta 2008, p. 5.
^ ^a ^b ^c 庄野しょうの逸いつ (2013). “局所きょくしょ画像がぞう特徴とくちょう量りょう～ SIFT, HOG を題材だいざいに～”. 映像えいぞう情報じょうほうメディア学会がっかい誌し 67 (3): 256～258.
^ ^a ^b ^c Farhadi, Ali; Hejrati, Mohsen; Sadeghi, Mohammad Amin; Young, Peter; Rashtchian, Cyrus; Hockenmaier, Julia; Forsyth, David (2010). Daniilidis, Kostas; Maragos, Petros; Paragios, Nikos. eds. “Every Picture Tells a Story: Generating Sentences from Images” (英語えいご). Computer Vision – ECCV 2010 (Berlin, Heidelberg: Springer): 15–29. doi:10.1007/978-3-642-15561-1_2. ISBN 978-3-642-15561-1.
^ ^a ^b ^c Hossain 2019, p. 2.
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ Kafle 2019, 2.2. V&L Algorithms.
^ ^a ^b Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). “Attention is All you Need”. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 30.
^ Parmar, Niki; Vaswani, Ashish; Uszkoreit, Jakob; Kaiser, Lukasz; Shazeer, Noam; Ku, Alexander; Tran, Dustin (2018-07-03). “Image Transformer” (英語えいご). International Conference on Machine Learning (PMLR): 4055–4064.
^ Mogadala, Kalimuthu & Klakow 2021, p. 1270.
^ ^a ^b ^c Uppal 2022, p. 161.
^ ^a ^b Mogadala, Kalimuthu & Klakow 2021, p. 1189.
^ ^a ^b ^c He, Kaiming; Girshick, Ross; Dollar, Piotr (2019-10). “Rethinking ImageNet Pre-Training”. 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (Seoul, Korea (South): IEEE): 4917–4926. doi:10.1109/ICCV.2019.00502. ISBN 978-1-7281-4803-8.
^ ^a ^b Qiu 2020, p. 1872.
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2019). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (英語えいご). Proceedings of the 2019 Conference of the North (Minneapolis, Minnesota: Association for Computational Linguistics): 4171–4186. doi:10.18653/v1/N19-1423. http://aclweb.org/anthology/N19-1423.
^ Qiu 2020, p. 1873.
^ Han 2022, p. 1.
^ Uppal 2022, p. 149.
^ Hossain 2019, pp. 4, 11.
^ Hossain 2019, pp. 11.
^ Uppal 2022, p. 153.
^ ^a ^b Mogadala, Kalimuthu & Klakow 2021, p. 1198.
^ ^a ^b Sharma 2020, p. 327.
^ Zhang, Jianing; Wu, Zhaochang; Zhang, Huajie; Chen, Yunfang (2020-10-01). “Visual Question Answering Based on Question Attention Model”. Journal of Physics: Conference Series 1624 (2): 022022. doi:10.1088/1742-6596/1624/2/022022. ISSN 1742-6588.
^ Qi 2017, p. 22.
^ ^a ^b Qi 2017, p. 23.
^ Uppal 2022, p. 155.
^ Zhou, Luowei; Palangi, Hamid; Zhang, Lei; Hu, Houdong; Corso, Jason; Gao, Jianfeng (2020-04-03). “Unified Vision-Language Pre-Training for Image Captioning and VQA”. Proceedings of the AAAI Conference on Artificial Intelligence 34 (07): 13041–13049. doi:10.1609/aaai.v34i07.7005. ISSN 2374-3468.
^ Wu 2017, p. 22.
^ ^a ^b Wu 2017, p. 30.
^ ^a ^b Latif 2019, p. 1.
^ ^a ^b Latif 2019, p. 2.
^ ^a ^b ^c Kapoor 2021, p. 29562.
^ Kapoor 2021, p. 29561.
^ Kapoor 2021, pp. 29563–29571.
^ Datta 2008, p. 52.
^ ^a ^b ^c ^d ^e ^f ^g Latif 2019, p. 17.
^ Mogadala, Kalimuthu & Klakow 2021, p. 1261.
^ Li, Bowen; Qi, Xiaojuan; Lukasiewicz, Thomas; Torr, Philip (2019). “Controllable Text-to-Image Generation”. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 32.
^ Goodfellow 2016, p. 19.
^ Ferraro 2015, p. 208.
^ Ferraro 2015.
^ Mogadala, Kalimuthu & Klakow 2021, p. 1193.
^ “Im2Text: Describing Images Using 1 Million Captioned Photographs”. Vicente Ordonez. 2022年ねん3月がつ25日にち閲覧えつらん。
^ Young, Peter; Lai, Alice; Hodosh, Micah; Hockenmaier, Julia (2014). “From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions”. Transactions of the Association for Computational Linguistics 2: 67–78. doi:10.1162/tacl_a_00166. https://aclanthology.org/Q14-1006.
^ Mogadala, Kalimuthu & Klakow 2021, p. 1195.
^ Lin, Tsung-Yi; Maire, Michael; Belongie, Serge; Hays, James; Perona, Pietro; Ramanan, Deva; Dollár, Piotr; Zitnick, C. Lawrence (2014). Fleet, David; Pajdla, Tomas; Schiele, Bernt et al.. eds. “Microsoft COCO: Common Objects in Context” (英語えいご). Computer Vision – ECCV 2014 (Cham: Springer International Publishing): 740–755. doi:10.1007/978-3-319-10602-1_48. ISBN 978-3-319-10602-1.
^ Chen, David; Dolan, William (2011-06). “Collecting Highly Parallel Data for Paraphrase Evaluation”. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (Portland, Oregon, USA: Association for Computational Linguistics): 190–200. https://aclanthology.org/P11-1020.
^ Wu 2017, p. 28.
^ ^a ^b Wu 2017, p. 33.
^ He 2021, p. 5.
^ Wu 2017, p. 34.
^ “Visual Question Answering” (英語えいご). Visual Question Answering. 2022年ねん3月がつ25日にち閲覧えつらん。
^ Tommasi, Tatiana; Patricia, Novi; Caputo, Barbara; Tuytelaars, Tinne (2017), “A Deeper Look at Dataset Bias”, in Csurka, Gabriela (英語えいご), Domain Adaptation in Computer Vision Applications, Springer International Publishing, p. 39, doi:10.1007/978-3-319-58347-1_2, ISBN 978-3-319-58347-1
^ Torralba, Antonio; Efros, Alexei A. (2011-06). “Unbiased look at dataset bias”. CVPR 2011: 1521–1528. doi:10.1109/CVPR.2011.5995347.
^ Margaret Mitchell. “Bias in the Vision and Language of Artificial Intelligence”. 2022年ねん4月がつ8日にち閲覧えつらん。
^ ^a ^b Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015-12). “VQA: Visual Question Answering”. 2015 IEEE International Conference on Computer Vision (ICCV) (Santiago, Chile: IEEE): 2425–2433. doi:10.1109/ICCV.2015.279. ISBN 978-1-4673-8391-2.
^ Iqbal 2020, p. 12.
^ Novikova, Jekaterina; Dušek, Ondřej; Cercas Curry, Amanda; Rieser, Verena (2017). “Why We Need New Evaluation Metrics for NLG” (英語えいご). Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (Copenhagen, Denmark: Association for Computational Linguistics): 2241–2252. doi:10.18653/v1/D17-1238. http://aclweb.org/anthology/D17-1238.

参考さんこう文献ぶんけん

書籍しょせき

Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016-11-18) (英語えいご). Deep Learning. Cambridge, MA, USA: MIT Press. ISBN 978-0-262-03561-3
Milan Sonka; Vaclav Hlavac; Roger Boyle (2008). Image Processing, Analysis, and Machine Vision. Thomson. ISBN 978-0-495-08252-1
Jurafsky, Daniel; Martin, James H. (2009). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition (Second edition ed.). Prentice Hall. ISBN 978-0-13-187321-6. OCLC 213375806
Eisenstein, Jacob (2019). Introduction to natural language processing. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-04284-0. OCLC 1080249173

サーベイ論文ろんぶん（視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうについて）

背景はいけい

コンピュータビジョン

自然しぜん言語げんご処理しょり

主おもな研究けんきゅう分野ぶんや

自然しぜん言語げんご処理しょりのタスクの拡張かくちょう

コンピュータビジョンのタスクの拡張かくちょう

自然しぜん言語げんご処理しょりとコンピュータビジョンのタスクの拡張かくちょう

歴史れきし

黎明れいめい期き（1960年代ねんだい以降いこう）

深層しんそう学習がくしゅう以前いぜん（1990年代ねんだい〜2000年代ねんだい）

深層しんそう学習がくしゅうの適用てきよう（2010年代ねんだい以降いこう）

手法しゅほう

視覚しかく情報じょうほうと自然しぜん言語げんご情報じょうほうの統合とうごう（2018年ねんごろまでの主流しゅりゅう）

統合とうごう的てきな事前じぜん学習がくしゅう（2019年ねん以降いこう）

主おもなタスクの研究けんきゅう・評価ひょうか手法しゅほう

画像がぞう・動画どうがの説明せつめい生成せいせい

画像がぞう・動画どうがへの質問しつもん応答おうとう（VQA)

画像がぞう検索けんさく（Image Retrieval）

文章ぶんしょうに対たいする画像がぞう生成せいせい

データセット

画像がぞう・動画どうがの説明せつめい生成せいせい

キャプション付つき画像がぞうデータセット

説明せつめい付つき動画どうがデータセット

画像がぞうへの質問しつもん応答おうとう

課題かだい

データセットバイアス

評価ひょうかの難むずかしさ

脚注きゃくちゅう

注釈ちゅうしゃく

出典しゅってん

参考さんこう文献ぶんけん

書籍しょせき

サーベイ論文ろんぶん（視覚しかくと自然しぜん言語げんごの融合ゆうごう研究けんきゅうについて）

分野ぶんや全体ぜんたいについて

それぞれのタスクについて

サーベイ論文ろんぶん（コンピュータビジョンおよび自然しぜん言語げんご処理しょりについて）