(Translated by https://www.hiragana.jp/)
視覚と自然言語の融合研究 - Wikipedia コンテンツにスキップ

視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅう

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
VQAの問題もんだいれい

視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅう[注釈ちゅうしゃく 1]英語えいご: Vision and Language[注釈ちゅうしゃく 2])とは、コンピュータビジョン自然しぜん言語げんご処理しょり融合ゆうごうした研究けんきゅう分野ぶんやである[12][5]画像がぞう動画どうがからのキャプション生成せいせい[14]画像がぞう動画どうが対象たいしょうとした質問しつもん応答おうとう(VQA)[15]などのタスクがふくまれる。

1960年代ねんだいからヒューマン・ロボット・コラボレーション英語えいごばん分野ぶんや中心ちゅうしん初期しょき研究けんきゅうはじめられており[16][17]、1990年代ねんだいごろから画像がぞう検索けんさく[18]、2000年代ねんだいから画像がぞうキャプション生成せいせい[19]研究けんきゅうはじめられた。2010年代ねんだい深層しんそう学習がくしゅう適用てきようによってコンピュータビジョン自然しぜん言語げんご処理しょりおおきく発展はってんしたことにともない、融合ゆうごう研究けんきゅう発展はってんげている[16][20]おおくの研究けんきゅうおこなわれている一方いっぽうで、データセットバイアスなどの研究けんきゅう課題かだいのこされている[21][22]

背景はいけい

[編集へんしゅう]

視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅうは、コンピュータビジョン自然しぜん言語げんご処理しょり融合ゆうごうした研究けんきゅう分野ぶんやである[12][5]。2つの分野ぶんや独立どくりつして研究けんきゅうされてきたが、視覚しかく自然しぜん言語げんごわせることにより、ヒューマンコンピュータインタラクション[23][20]視覚しかく障害しょうがいしゃ支援しえん[23][20][24]ヒューマン・ロボット・コラボレーション英語えいごばん[20][24]自動じどう運転うんてん[23]、ナビゲーション[23]画像がぞう検索けんさく[20]といった分野ぶんやへの応用おうよう期待きたいされることもあり、融合ゆうごう研究けんきゅう注目ちゅうもくされるようになった[25][20]

コンピュータビジョン

[編集へんしゅう]

コンピュータビジョンは、コンピュータ画像がぞう動画どうが内容ないよう理解りかいさせる分野ぶんやである[26][27][28]おもなタスクとしては画像がぞう分類ぶんるい[29]物体ぶったい検出けんしゅつ[30][29]などがふくまれる。敵対てきたいてき生成せいせいネットワーク(GAN)などによる画像がぞう生成せいせいふくまれる場合ばあいもある[31][32]

自然しぜん言語げんご処理しょり

[編集へんしゅう]

自然しぜん言語げんご処理しょりは、人間にんげん使用しようする言語げんご自然しぜん言語げんご)をコンピュータに処理しょりさせる分野ぶんやである[33][34]おもなタスクとしては情報じょうほう検索けんさく[35][36]質問しつもん応答おうとう[33][36]機械きかい翻訳ほんやく[33][37]などがふくまれる。

おも研究けんきゅう分野ぶんや

[編集へんしゅう]

視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅうとして以下いかのような分野ぶんや研究けんきゅうされている[38][18][1][4]

自然しぜん言語げんご処理しょりのタスクの拡張かくちょう

[編集へんしゅう]
画像がぞうキャプション生成せいせいのデータセットのれい
画像がぞう動画どうが説明せつめい生成せいせい
画像がぞう動画どうがたいする説明せつめい生成せいせいするタスクである[38][注釈ちゅうしゃく 3]。この融合ゆうごう分野ぶんや代表だいひょうてきなタスクとされる[39]画像がぞうキャプション生成せいせいふくまれる[40]
画像がぞうキャプション生成せいせい研究けんきゅうは2000年代ねんだいからおこなわれており[19]検索けんさくエンジンソーシャルメディアなどで画像がぞう説明せつめい生成せいせいするために利用りようされている[41]
画像がぞう動画どうがへの質問しつもん応答おうとう(Visual Question Answering、VQA)
自然しぜん言語げんご処理しょりにおける質問しつもん応答おうとうは、人間にんげん質問しつもんたいして回答かいとうするタスクである[42]質問しつもん応答おうとうでは、質問しつもん回答かいとうするにあたって必要ひつよう情報じょうほうるために、なんらかの文書ぶんしょ参照さんしょうする場合ばあいもある[43]質問しつもん応答おうとう自然しぜん言語げんごのみを使用しようするのにたいして、VQAは質問しつもん応答おうとうタスクを拡張かくちょうした、画像がぞう動画どうがかんする質問しつもんこたえるタスクである[38]
未知みち物体ぶったいにも対応たいおうするようなVQAは2014ねん研究けんきゅうはじめられた[44]
画像がぞう検索けんさく(Image Retrieval)
多数たすう画像がぞうなかから、画像がぞう検索けんさくするタスクである[45]。キーワードや文章ぶんしょうなどの自然しぜん言語げんごをクエリとして使用しようするタスク、画像がぞうをクエリとして類似るいじしている画像がぞう検索けんさくするタスク、手書てがきのをクエリとするタスクなどが研究けんきゅうされている[46][47]
従来じゅうらい画像がぞう人間にんげんがつけたキャプションなどを利用りようして検索けんさくおこなっていたが、1990年代ねんだいから画像がぞうふくまれる視覚しかく情報じょうほうもちいて検索けんさくおこな研究けんきゅうおこなわれるようになった[48][45]検索けんさくエンジンでも使用しようされている[49][50]
Visual Dialogの説明せつめい。「それはなんしょくですか」(What color is it?)という質問しつもんたいして、対話たいわ履歴りれきからいぬいろかれていることを理解りかいする必要ひつようがある。
画像がぞう動画どうがかんする対話たいわ(Visual Dialog)
画像がぞう動画どうがふくまれる情報じょうほうたいして、自然しぜん言語げんごもちいて対話たいわおこなうタスクである[38]たとえば、人間にんげん対話たいわシステムに画像がぞう内容ないようかんする複数ふくすう質問しつもんいかけるという対話たいわにおいて、対話たいわシステムは過去かこ対話たいわ内容ないよう考慮こうりょして回答かいとうする必要ひつようがある[51]
Visual Dialogは2017ねん提案ていあんされて研究けんきゅうはじまった[52]
画像がぞう参照さんしょう表現ひょうげん(Visual Referring Expression)の理解りかい生成せいせい
参照さんしょう表現ひょうげん(Referring Expression)とは「ひだりみっつのたまのうちの一番いちばんみぎたま」のように複数ふくすう物体ぶったいなかから特定とくてい物体ぶったい識別しきべつするための言語げんご表現ひょうげんである[53]視覚しかくとの融合ゆうごう分野ぶんやでは、自然しぜん言語げんごあたえられた参照さんしょう表現ひょうげん対応たいおうする物体ぶったい画像がぞうちゅうしめしたり、画像がぞうちゅう物体ぶったい対応たいおうする参照さんしょう表現ひょうげん生成せいせいするタスクが研究けんきゅうされている[54]
参照さんしょう表現ひょうげん生成せいせい研究けんきゅう自然しぜん言語げんご処理しょり分野ぶんやで1970年代ねんだいからおこなわれているが[55]、2010年代ねんだいまで画像がぞうなどにふくまれる視覚しかく情報じょうほう直接ちょくせつ使つかうような手法しゅほうはほとんど研究けんきゅうされていなかった[56][57]深層しんそう学習がくしゅうもちいた画像がぞう参照さんしょう表現ひょうげん理解りかい生成せいせい最初さいしょ研究けんきゅうは2016ねん発表はっぴょうされ[58]画像がぞうから直接ちょくせつ参照さんしょう表現ひょうげん理解りかい生成せいせいおこな研究けんきゅうはじまった[57]
画像がぞう含意がんい関係かんけい認識にんしき(Visual Entailment)
自然しぜん言語げんご処理しょりにおいて、含意がんい関係かんけい認識にんしきという「ある文章ぶんしょうただしければもう一方いっぽう文章ぶんしょうただしいとえるか」を判別はんべつするタスクがある[38]たとえば「川端かわばた康成やすなりは「雪国ゆきぐに」などの作品さくひんノーベル文学ぶんがくしょう受賞じゅしょうした」という文章ぶんしょうただしいときは「川端かわばた康成やすなりは「雪国ゆきぐに」の作者さくしゃである」もただしいという関係かんけい判別はんべつすることがもとめられる[59]視覚しかくとの融合ゆうごう分野ぶんやでは、画像がぞうしめされた状況じょうきょうただしいときにあたえられた文章ぶんしょうただしいとえるかを判別はんべつするタスクが提案ていあんされている[38]
2018ねんにVisual Entailmentのタスクを提案ていあんする研究けんきゅう発表はっぴょうされた[60]
マルチモーダル機械きかい翻訳ほんやく
機械きかい翻訳ほんやくタスクを拡張かくちょうして、もと言語げんご文章ぶんしょうくわえて、文章ぶんしょう対応たいおうした画像がぞう動画どうがあたえられた状況じょうきょう翻訳ほんやくおこなうというタスクである[38]
2016ねんにタスクが提案ていあんされた[61]

コンピュータビジョンのタスクの拡張かくちょう

[編集へんしゅう]
Visual ReasoningのデータセットであるCLEVR[62]画像がぞうれい質問しつもんれいとして「ちいさい円柱えんちゅう金属きんぞくせい物体ぶったいよりおおいですか?」などが想定そうていされる(回答かいとうは「いいえ」)[63]
文章ぶんしょうたいする画像がぞう生成せいせい
あたえられた文章ぶんしょう対応たいおうした画像がぞう生成せいせいするタスクである[38][注釈ちゅうしゃく 4]
敵対てきたいてき生成せいせいネットワーク(GAN)の登場とうじょうともない、2016ねん文章ぶんしょうから画像がぞう生成せいせいする最初さいしょ研究けんきゅう発表はっぴょうされた[65]
Visual Reasoning
画像がぞう分類ぶんるい物体ぶったい検出けんしゅつ拡張かくちょうしたタスクであり[38]画像がぞう動画どうがふくまれる視覚しかく情報じょうほう理解りかいするタスクである[66]いちれいとして、画像がぞうふくまれる複数ふくすう物体ぶったい同士どうし関係かんけいせいなどを理解りかいするタスクなどがふくまれる[67][68]。Visual Reasoningは視覚しかく情報じょうほうたいする質問しつもん回答かいとうするための過程かていとして定義ていぎされることもある[69]。すなわち、VQAやVisual Dialogのモデルは(明示めいじてき設計せっけいされていなくても)Visual Reasoningをおこなっていることになる[69]。Visual Reasoningの手法しゅほう評価ひょうかするために、VQAをもちいることも一般いっぱんてきである[68]
初期しょき研究けんきゅうは1960年代ねんだいからおこなわれている[67]

自然しぜん言語げんご処理しょりとコンピュータビジョンのタスクの拡張かくちょう

[編集へんしゅう]
視覚しかく言語げんごもちいたナビゲーションのれい
視覚しかく言語げんごもちいたナビゲーション
ナビゲーションはロボットなどにたいして目的もくてきまでの道順みちじゅん案内あんないするタスクであり[70]視覚しかく情報じょうほうもしくは自然しぜん言語げんごのみでのナビゲーションが研究けんきゅうされてきた[38]。これらを拡張かくちょうして、視覚しかく自然しぜん言語げんご両方りょうほう情報じょうほう使用しようするタスクが融合ゆうごう分野ぶんやとして研究けんきゅうされている[38]
視覚しかく自然しぜん言語げんご両方りょうほう情報じょうほうもちいるナビゲーションとしては、最初さいしょのデータセットが2017ねん発表はっぴょうされている[71]

歴史れきし

[編集へんしゅう]

黎明れいめい(1960年代ねんだい以降いこう

[編集へんしゅう]

1968ねんからはじめられたSHRDLUというプロジェクトが、視覚しかく自然しぜん言語げんご融合ゆうごうにおける最初さいしょ研究けんきゅうのひとつとされている[16][17]SHRDLU人間にんげん自然しぜん言語げんご指示しじをすることで、コンピュータない仮想かそう空間くうかん操作そうさできるコンピュータプログラムである[17]。これ以降いこう視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅうでは、ロボット自然しぜん言語げんごによる対話たいわ操作そうさするという分野ぶんやおお研究けんきゅうされてきた[16]

深層しんそう学習がくしゅう以前いぜん(1990年代ねんだい〜2000年代ねんだい

[編集へんしゅう]

画像がぞう検索けんさく視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅうにおける最初さいしょのタスクのひとつである[18]従来じゅうらい画像がぞう人間にんげんがつけたキャプションを利用りようしていたが、1990年代ねんだいから画像がぞう視覚しかく情報じょうほうもちいて検索けんさくおこな研究けんきゅうおこなわれるようになった[45][72]

画像がぞうキャプション生成せいせいは2000年代ねんだいごろから研究けんきゅうおこなわれており、おもにテンプレートをもちいた手法しゅほう提案ていあんされていた[19]。テンプレートをもちいて文章ぶんしょう生成せいせいするためにSIFT英語えいごばんHOG英語えいごばんなどの局所きょくしょ画像がぞう特徴とくちょうりょう[73]たいしてサポートベクターマシン(SVM)などの分類ぶんるい適用てきようするなどの手法しゅほう提案ていあんされた[74][75]

深層しんそう学習がくしゅう適用てきよう(2010年代ねんだい以降いこう

[編集へんしゅう]

2010年代ねんだい深層しんそう学習がくしゅう適用てきようによって、画像がぞう自然しぜん言語げんご処理しょり融合ゆうごう分野ぶんやおおきな発展はってんげた[16][20]。VQA(2014ねん[注釈ちゅうしゃく 5]、マルチモーダル機械きかい翻訳ほんやく(2016ねん[61]、Visual Dialog(2017ねん[52]視覚しかく言語げんごもちいたナビゲーション(2017ねん[71]といったタスクの研究けんきゅうも2010年代ねんだいはじまった。

深層しんそう学習がくしゅう適用てきようされるようになってからは、おもたたみニューラルネットワーク(CNN)をもちいて画像がぞう動画どうが特徴とくちょうりょうを、回帰かいきがたニューラルネットワーク(RNN)をもちいて自然しぜん言語げんご特徴とくちょうりょう抽出ちゅうしゅつして、2種類しゅるい特徴とくちょうりょう統合とうごうする手法しゅほう研究けんきゅうされてきた[76]。2019ねんからはTransformer[77][78]という共通きょうつうのモデルをもちいる手法しゅほう研究けんきゅうされている[79][80]


手法しゅほう

[編集へんしゅう]
画像がぞうキャプション生成せいせいれい画像がぞう特徴とくちょうりょうるためにCNN利用りようし、文章ぶんしょう生成せいせいするためにRNNもちいている。

視覚しかく情報じょうほう自然しぜん言語げんご情報じょうほう統合とうごう(2018ねんごろまでの主流しゅりゅう

[編集へんしゅう]

視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅう手法しゅほうについて、視覚しかく情報じょうほう自然しぜん言語げんご特徴とくちょうりょう機構きこうなどには共通きょうつうてんおお[81]、2018ねんごろまで[80]おおくの手法しゅほうは、(1)視覚しかく情報処理じょうほうしょり、(2)自然しぜん言語げんご処理しょり、(3)ふたつの情報じょうほう統合とうごうおこなう3のサブシステムをっていた[76]

視覚しかく情報処理じょうほうしょりには、かつてはSIFTなどの局所きょくしょ画像がぞう特徴とくちょうりょうもちいられていたが[74][73]深層しんそう学習がくしゅう適用てきようされはじめてからはおもCNN使用しようされてきた[76]。2017ねんまではCNNが出力しゅつりょくする特徴とくちょうりょうをそのまま利用りようするモデルがおおかったが、バウンディングボックスやグラフ構造こうぞう中間ちゅうかん表現ひょうげんとして利用りようする研究けんきゅうおこなわれるようになった[76]

自然しぜん言語げんご処理しょりには単語たんごベクトル使つかわれることがおおかったが[38]深層しんそう学習がくしゅう適用てきようされはじめてからはおもRNNられる文章ぶんしょう全体ぜんたい特徴とくちょうりょう使用しようされてきた[76]

これらの手法しゅほうによってられた画像がぞう動画どうが自然しぜん言語げんご情報じょうほう統合とうごうするための手法しゅほうは、タスクごとに様々さまざまなものが利用りようされている[76]。CNNやRNNからられた特徴とくちょうりょうベクトルを統合とうごうするもっと単純たんじゅん方法ほうほうは、ふたつのベクトルを連結れんけつしたりアダマールせきをとることである[76]。より高度こうど手法しゅほうとして、注意ちゅうい機構きこう(Attention)という手法しゅほう適用てきようして、画像がぞう自然しぜん言語げんごからそれぞれのクエリにたいして重要じゅうよう情報じょうほう自動的じどうてき選択せんたくして利用りようすることが提案ていあんされている[76]

統合とうごうてき事前じぜん学習がくしゅう(2019ねん以降いこう

[編集へんしゅう]

事前じぜん学習がくしゅうとは、機械きかい学習がくしゅうのモデルをだい規模きぼデータセット学習がくしゅうすることで、さまざまなタスクにもちいることができる特徴とくちょうりょう抽出ちゅうしゅつできるモデルを学習がくしゅうする手法しゅほうである[82]だい規模きぼなデータセットで事前じぜん学習がくしゅうおこなったのちに、比較的ひかくてき小規模しょうきぼのデータセットをもちいて個別こべつのタスクにチューニングをおこなうことで、たか性能せいのうつモデルを学習がくしゅうできることがられている[82]。コンピュータビジョンにおいてはCNNImageNetなどのだい規模きぼなデーセットで事前じぜん学習がくしゅうすることはひろおこなわれてきたが[82]RNNもちいた自然しぜん言語げんご処理しょり事前じぜん学習がくしゅうおこなうことはすくなかった[83][注釈ちゅうしゃく 6]。2017ねん発表はっぴょうされた自然しぜん言語げんご処理しょりあたらしいモデルであるTransformer[77]たいして事前じぜん学習がくしゅうおこな手法しゅほうが2018ねん提案ていあんされ[84]自然しぜん言語げんご処理しょりにおいても文章ぶんしょう全体ぜんたいについて事前じぜん学習がくしゅうおこな研究けんきゅうおこなわれるようになった(BERTなど)[85]。2018ねんには動画どうがにTransformerを適用てきようする研究けんきゅう提案ていあんされ、2020ねんには画像がぞうにTransformerを適用てきようする研究けんきゅうはじめられた(Vision Transformer英語えいごばん[86]

視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅうにおいても、2019ねんからTransformerをもちいて画像がぞう動画どうが自然しぜん言語げんご事前じぜん学習がくしゅう同時どうじおこな研究けんきゅうおこなわれている[80]

おもなタスクの研究けんきゅう評価ひょうか手法しゅほう

[編集へんしゅう]

視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅうのタスクには共通きょうつうてんがあるが[81][76]、タスクごとにことなる手法しゅほう研究けんきゅうされている[87]。ここではおもなタスクの手法しゅほう評価ひょうか手法しゅほう紹介しょうかいする。

画像がぞう動画どうが説明せつめい生成せいせい

[編集へんしゅう]
画像がぞうキャプション生成せいせい手法しゅほう
研究けんきゅうはじめられた2000年代ねんだいごろにはおもにテンプレートをもちいた手法しゅほう提案ていあんされていた[19]。テンプレートをもちいて文章ぶんしょう生成せいせいするためにSIFT英語えいごばんHOG英語えいごばんなどの局所きょくしょ画像がぞう特徴とくちょうりょう[73]たいしてSVMなどの分類ぶんるい適用てきようするなどの手法しゅほう提案ていあんされた[74][75]
深層しんそう学習がくしゅうもちいた手法しゅほう発展はってんした2010年代ねんだいには、CNNRNNもちいる方法ほうほう一般いっぱんてきになった[75]。さまざまなモデルが提案ていあんされているが、単純たんじゅんかつ一般いっぱんてき使用しようされている手法しゅほうとしては教師きょうしあり学習がくしゅうもちいたエンコーダ・デコーダモデルがある[88]。これは、CNNをもちいて画像がぞう特徴とくちょうりょう抽出ちゅうしゅつして、画像がぞう特徴とくちょうりょうをRNNに入力にゅうりょくしてキャプションを生成せいせいするという手法しゅほうである[89]。2019ねんには画像がぞう自然しぜん言語げんご両方りょうほうTransformer使用しようする手法しゅほう提案ていあんされている[90]
評価ひょうか手法しゅほう
おも使用しようされているのは、生成せいせいされた説明せつめいデータセットふくまれる説明せつめい類似るいじによる評価ひょうかである[91][92]BLEU英語えいごばんROUGEMETEOR英語えいごばんといった機械きかい翻訳ほんやくなどの自然しぜん言語げんご処理しょりタスクで使用しようされている評価ひょうか基準きじゅん使つかわれている[91][92]

画像がぞう動画どうがへの質問しつもん応答おうとう(VQA)

[編集へんしゅう]
VQAの手法しゅほうれい[93]画像がぞう注意ちゅうい機構きこう(Attention)を適用てきようしている。
手法しゅほう
2014ねん研究けんきゅうはじめられた当初とうしょ手法しゅほうは、あらかじめ定義ていぎされた形式けいしき回答かいとう限定げんていされたものだったが、2015ねんには回答かいとう形式けいしき限定げんていしないような質問しつもんにも対応たいおうできるモデルが提案ていあんされた[94]。2015ねん提案ていあんされたモデルのひとつは、CNN抽出ちゅうしゅつされた画像がぞう特徴とくちょうりょうベクトルと質問しつもん文章ぶんしょう単語たんごベクトル両方りょうほうをエンコーダのRNNLSTM)に入力にゅうりょくすることで特徴とくちょうりょう統合とうごうし、デコーダのRNNで回答かいとう生成せいせいする手法しゅほうである[95]どう時期じきには、特徴とくちょうりょう統合とうごう方法ほうほう変更へんこうしたり、注意ちゅうい機構きこう(Attention)の適用てきようや、データベース利用りようする方法ほうほうなど、様々さまざま手法しゅほう提案ていあんされている[95]。2019ねんには自然しぜん言語げんご処理しょりにTransformerを使用しようするモデルや[96]、Transformerをもちいて画像がぞう自然しぜん言語げんご特徴とくちょうりょう統合とうごうてき事前じぜん学習がくしゅうする手法しゅほう提案ていあんされている[97]
評価ひょうか手法しゅほう
VQAの回答かいとう画像がぞうキャプションなどよりはみじかいことがおおいため、単純たんじゅん評価ひょうか手法しゅほう使用しようされることがおおいが、高度こうど評価ひょうか手法しゅほう研究けんきゅうされている[98]単純たんじゅん手法しゅほうのひとつは、生成せいせいされた回答かいとうとデータセットにふくまれる回答かいとう厳密げんみつ一致いっちしているかを評価ひょうかすることである[99]高度こうど手法しゅほうとしては、回答かいとう意味いみ類似るいじ評価ひょうかする手法しゅほう研究けんきゅうされている[99]

画像がぞう検索けんさく(Image Retrieval)

[編集へんしゅう]
適合てきごうりつ(Precision)と再現さいげんりつ(Recall)英語えいごばん説明せつめい
手法しゅほう
さまざまな種類しゅるいのクエリにたいする画像がぞう検索けんさく研究けんきゅうされているが[46][47]文章ぶんしょう画像がぞうをクエリとする研究けんきゅうおお研究けんきゅうされている[100]
文章ぶんしょうをクエリとする検索けんさくについて、2019ねんでもウェブ検索けんさくでは人間にんげんがつけたキャプションなどの自然しぜん言語げんご情報じょうほう利用りようしているとされている[100]。キャプションがない画像がぞう検索けんさくするために、画像がぞうキャプション生成せいせいなどをもちいて[41]自動的じどうてきアノテーションおこな手法しゅほう適用てきようすることが研究けんきゅうされている[101]
人間にんげんがつけたキャプションなどを利用りようしない方法ほうほうとして、1990年代ねんだいから画像がぞうをクエリとして類似るいじする画像がぞう検索けんさくする研究けんきゅうおこなわれている[101][102]画像がぞうをクエリとした画像がぞう検索けんさくは、画像がぞうから特徴とくちょうりょう抽出ちゅうしゅつして類似るいじ評価ひょうかすることでおこなわれる[103]初期しょき研究けんきゅうとしていろかたち質感しつかんなどを特徴とくちょうりょうとして使用しようする方法ほうほう研究けんきゅうされてきたが、それだけでは画像がぞうあらわ意味いみ類似るいじせい比較ひかくすることができないことが課題かだいだった[102]。そのため、深層しんそう学習がくしゅう適用てきようされる以前いぜんから、画像がぞう全体ぜんたい意味いみあらわすような特徴とくちょうりょう併用へいようするこころみが研究けんきゅうされてきた[102]深層しんそう学習がくしゅう使用しようした方法ほうほう数多かずおお提案ていあんされており、CNN利用りようして画像がぞう検索けんさく有用ゆうよう特徴とくちょうりょう抽出ちゅうしゅつする研究けんきゅうおこなわれている[104]
評価ひょうか手法しゅほう
画像がぞう検索けんさくには情報じょうほう検索けんさく評価ひょうか手法しゅほうもちいられる[105]評価ひょうか手法しゅほうとして様々さまざまなものがあり、想定そうていされる適用てきようさきなどによって使つかけることがもとめられる[106]ひろもちいられているのは適合てきごうりつ(Precision)と再現さいげんりつ(Recall)英語えいごばん、およびFである[106]。ここで、検索けんさく結果けっか上位じょういk画像がぞうを「検出けんしゅつされた」と判定はんていするとする[106]。また、評価ひょうかさいには、検出けんしゅつされるべき正解せいかい画像がぞう複数ふくすう場合ばあいもある)がかっているとする[106]したしきのように、適合てきごうりつ(P)は検出けんしゅつされた画像がぞうなかで、正解せいかい画像がぞう(tp)の割合わりあいあらわされる(fpはあやまって検出けんしゅつされた画像がぞうかず[106]再現さいげんりつ(R)は検出けんしゅつされるべき正解せいかい画像がぞうなかで、実際じっさい検出けんしゅつされた画像がぞう(tp)の割合わりあいあらわされる(fnは正解せいかい画像がぞうだが、検出けんしゅつされなかった画像がぞうかず[106]
F適合てきごうりつ再現さいげんりつ調和ちょうわ平均へいきんもとめられる[106]

文章ぶんしょうたいする画像がぞう生成せいせい

[編集へんしゅう]
手法しゅほう
2016ねんからGAN応用おうようした手法しゅほう提案ていあんされていたが、文章ぶんしょう条件付じょうけんづけしない通常つうじょう画像がぞう生成せいせい比較ひかくすると、生成せいせいされる画像がぞうしつひくかった[65]画像がぞうしつたかめるために複数ふくすうのGANを使用しようしたり、文章ぶんしょう全体ぜんたい意味いみ画像がぞう反映はんえいするために注意ちゅうい機構きこう(Attention)を使用しようする研究けんきゅう提案ていあんされた[65]
評価ひょうか手法しゅほう
GANなどのコンピュータビジョンにおける画像がぞう生成せいせいタスクで使用しようされる評価ひょうか指標しひょう使つかわれている[107]。Inception Scoreという指標しひょうもちいて画像がぞうしち多様たようせい評価ひょうかできるが、Inception Scoreでは文章ぶんしょう対応たいおうした画像がぞう生成せいせいできているかを評価ひょうかすることができないので、R-Precisionという指標しひょう併用へいようされる[108]

データセット

[編集へんしゅう]

だい規模きぼデータセットもちいて学習がくしゅうすることは、深層しんそう学習がくしゅうモデルのひろし性能せいのうたかめる重要じゅうよう要素ようそのひとつである[109]視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅうにおいてもだい規模きぼなデータセットは重要じゅうよう役割やくわりたしており、モデルの学習がくしゅう評価ひょうか不可欠ふかけつ存在そんざいである[16]写真しゃしん共有きょうゆうサイトであるFlickrなどから提供ていきょうされる画像がぞうデータとクラウドソーシングによるアノテーションによって、だい規模きぼなデータセットをつくることが可能かのうになった[16]。このような既存きそん画像がぞう収集しゅうしゅうするだけではなく、データセットのために作成さくせいされることもある[71]

さまざまなデータセットが提案ていあんされているが、データセットのサイズ(ふくまれる画像がぞう文章ぶんしょうかず)、画像がぞうしち多様たようせい文章ぶんしょうながさ、文章ぶんしょうふくまれる単語たんご構文こうぶん多様たようせい、アノテーションの豊富ほうふさなどのことなる性質せいしつっており[110]、それぞれのデータセットに利点りてん欠点けってんがある[16]

本節ほんぶしではおもなデータセットを紹介しょうかいする[注釈ちゅうしゃく 7]

画像がぞう動画どうが説明せつめい生成せいせい

[編集へんしゅう]

データセットには画像がぞう説明せつめいぶんふくまれるが、データセットによってデータのかずしつ収集しゅうしゅう方法ほうほうなどがことなる[112]

キャプション画像がぞうデータセット

[編集へんしゅう]
名称めいしょう 発表はっぴょうねん 画像がぞう枚数まいすう かく画像がぞうのキャプションすう 特徴とくちょう 出典しゅってん
SBU Captioned Photo Dataset 2011 1,000,000 1 Flickrからあつめられた写真しゃしんで、ユーザがつけたキャプションを利用りようしている。 [113]
Flickr 30K Images 2014 31,014 5 Flickrからあつめられた写真しゃしんたいして、クラウドソーシングでキャプションをけている。 [114]
Microsoft COCO Dataset 2014 123,287 5 Flickrからあつめられた写真しゃしんたいして、クラウドソーシングでキャプションをけている。ひろ利用りようされているデータセット[115] [116]

説明せつめい動画どうがデータセット

[編集へんしゅう]
名称めいしょう 発表はっぴょうねん 動画どうがかず 動画どうが合計ごうけい時間じかん 文章ぶんしょうかず 特徴とくちょう 出典しゅってん
Microsoft Research Video Description Corpus 2011 1,970 5.3あいだ 70,028 YouTube動画どうがに、クラウドソーシング説明せつめいをつけている。複数ふくすう言語げんご説明せつめいがつけられている。 [117]

画像がぞうへの質問しつもん応答おうとう

[編集へんしゅう]

ことなる特徴とくちょうったさまざまなデータセットが提案ていあんされている。じつ世界せかい画像がぞうもちいたデータセットが使つかわれているが[118]画像がぞう認識にんしき能力のうりょくではなく意味いみ理解りかいできているかの評価ひょうか注目ちゅうもくするために、クリップアート作成さくせいされたもちいたデータセットも提案ていあんされている[119]初期しょきのデータセットは画像がぞうちゅう情報じょうほう理解りかいできれば質問しつもんこたえられるものであったが、2015ねん発表はっぴょうされたKB-VQAというデータセットなどは、画像がぞうちゅう情報じょうほうだけでは質問しつもんまさしく回答かいとうすることはできず、外部がいぶデータベース知識ちしきもちいることがもとめられる[119]。2017ねん発表はっぴょうされたVisual Genomeというデータセットでは、画像がぞうのシーングラフ(物体ぶったいをノード、物体ぶったい同士どうし関係かんけい位置いち関係かんけいなど)をエッジとするグラフ[120])があたえられている[121]

名称めいしょう 発表はっぴょうねん 画像がぞう枚数まいすう 質問しつもんかず 回答かいとうかず 説明せつめい 出典しゅってん
Visual Question Answering Dataset (v1.0) 2015 204,721 + 50,000 614,163 + 150,000 6,141,630 + 1,500,000 MS COCOの画像がぞう(204,721まい)とクリップアートで作成さくせいされた(50,000まい)にたいして、クラウドソーシング質問しつもん回答かいとうがつけられている。 [122]

課題かだい

[編集へんしゅう]

データセットバイアス

[編集へんしゅう]

データセットバイアスとは、機械きかい学習がくしゅうモデルの学習がくしゅう使用しようしたときにあやまった結論けつろんみちび可能かのうせいがある、データセットかたよりのことである[123]たとえば、画像がぞうデータセットをもちいて「自動車じどうしゃ」を認識にんしきする機械きかい学習がくしゅうモデルを学習がくしゅうするときに、ImageNetというデータセットでは「自動車じどうしゃ」というラベルにスポーツカーおおふくむため、自家用車じかようしゃ検出けんしゅつ性能せいのうひくくなってしまうという問題もんだいこることがある[124]ぎゃくに、学習がくしゅうデータとテストデータはおおくの場合ばあいおな条件じょうけんあつめられているため、学習がくしゅうデータを記憶きおくするだけでテストデータにも対応たいおうできてしまい、実際じっさい性能せいのうよりもたか評価ひょうかされてしまうという問題もんだいこることもある[21]

データセットバイアスはコンピュータビジョンや自然しぜん言語げんご処理しょりのそれぞれの分野ぶんやでも問題もんだいとなるが、両方りょうほう分野ぶんや対象たいしょうとする融合ゆうごう研究けんきゅうではより深刻しんこく影響えいきょうけるとされている[21][125]いちれいとして、VQAのデータセットにおいて、質問しつもんたいする回答かいとうかたよりがあると画像がぞう使つかわなくても一定いってい精度せいど達成たっせいできてしまうことがられている[21][126]たとえばデータセットに「画像がぞうちゅうに〜がありますか」という形式けいしき質問しつもん複数ふくすうあり、こたえとして「はい」がおおいというかたよりがあるとする[21]機械きかい学習がくしゅうモデルは画像がぞう内容ないよう確認かくにんしてこたえることが期待きたいされるが、自然しぜん言語げんご質問しつもんだけをて「画像がぞうちゅうに〜がありますか」という形式けいしき質問しつもんにはつねに「はい」とこたえるように学習がくしゅうをされてしまうことがこり[21][126]

解決かいけつ方法ほうほうとしてデータセットからバイアスをのぞ方法ほうほう研究けんきゅうされているが、だい規模きぼなデータセットにおいてあらゆる要素ようそのバイアスをのぞくことは不可能ふかのうちかく、解決かいけつ問題もんだいとされている[21]

評価ひょうかむずかしさ

[編集へんしゅう]

評価ひょうか手法しゅほうはコンピュータビジョンと自然しぜん言語げんご処理しょりかく分野ぶんやにおいても課題かだいのひとつであるが、融合ゆうごう研究けんきゅうにおいてはさらにおおきな問題もんだいとなっているとされている[22]とく自然しぜん言語げんご生成せいせい関係かんけいするタスクにおける評価ひょうかむずかしいとされる[22][127][128]たとえば画像がぞうキャプション生成せいせいにおいて「男性だんせいよこあるいている」と「おとこのそばを散歩さんぽしている」というふたつの文章ぶんしょうはほとんどおな意味いみあらわしているが、自動的じどうてき類似るいじ評価ひょうかおこなうことはむずかしい[22]。また、VQAにおいて「とり」というこたえが正解せいかいとされている問題もんだいたいして、「たか」というこたえがただしいのかどうかを自動的じどうてき評価ひょうかすることはむずかしい[22]

評価ひょうか手法しゅほう改善かいぜんする研究けんきゅうおこなわれているが、解決かいけつ問題もんだいとなっている[22]

脚注きゃくちゅう

[編集へんしゅう]

注釈ちゅうしゃく

[編集へんしゅう]
  1. ^ 日本語にほんごでの表記ひょうき複数ふくすう存在そんざいし、「視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅう[1]、「視覚しかく言語げんご融合ゆうごう研究けんきゅう[2][3]、「画像がぞう自然しぜん言語げんご処理しょり融合ゆうごう研究けんきゅう[4]、「CVとNLPの融合ゆうごう研究けんきゅう[5]などのほかに"Vision and Language"と英語えいごのままでばれることもある[6][7]
  2. ^ "Vision and Language"[8][9][10]ほかに"Language and Vision"[11]など表記ひょうきらぎはある。
  3. ^ 自然しぜん言語げんご処理しょり分野ぶんやにおいて、あたえられた文章ぶんしょうつぎ文章ぶんしょう生成せいせいする「条件じょうけん言語げんご生成せいせい」はひろ研究けんきゅうされているが、これを拡張かくちょうした、あたえられた画像がぞう動画どうがたいして「条件じょうけん言語げんご生成せいせい」をするというタスクとしてとらえることもできる[38]
  4. ^ コンピュータビジョンで画像がぞうたいする画像がぞう生成せいせい白黒しろくろ写真しゃしんからカラー写真しゃしん生成せいせいなど[64])などが研究けんきゅうされているが、これを自然しぜん言語げんごとの融合ゆうごう分野ぶんや拡張かくちょうしたタスクとしてとらえることもできる[38]
  5. ^ 未知みち物体ぶったいなども対象たいしょうとした(open-world)手法しゅほうとしてはじめて提案ていあんされたのがMalinowski et al. (2014)[10]である[44]
  6. ^ 自然しぜん言語げんご処理しょり分野ぶんやにおいては、単語たんごベクトルを事前じぜん学習がくしゅうすることはひろ研究けんきゅうされてきた[83]
  7. ^ サーベイ論文ろんぶん[111][9]げられているデータセットを中心ちゅうしんげる。

出典しゅってん

[編集へんしゅう]
  1. ^ a b c d 牛久うしくさちこう. “記事きじ更新こうしんわたしのブックマーク「視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅう(Integrating Vision and Language)」 – 人工じんこう知能ちのう学会がっかい (The Japanese Society for Artificial Intelligence)”. 人工じんこう知能ちのう学会がっかい. 2022ねん3がつ24にち閲覧えつらん
  2. ^ NLけん・CVIMけん・PRMUけん合同ごうどう研究けんきゅうかいだい248かい自然しぜん言語げんご処理しょり研究けんきゅうかい 発表はっぴょう募集ぼしゅう”. 情報処理じょうほうしょり学会がっかい 自然しぜん言語げんご処理しょり研究けんきゅうかい (NL) (2021ねん2がつ9にち). 2022ねん3がつ24にち閲覧えつらん
  3. ^ だい48かいAIセミナー】「マルチモーダル情報じょうほう統合とうごう理解りかい最前線さいぜんせん”. 人工じんこう知能ちのう研究けんきゅうセンター. 2022ねん3がつ24にち閲覧えつらん
  4. ^ a b c AI白書はくしょ2017:IPA 独立どくりつ行政ぎょうせい法人ほうじん 情報処理じょうほうしょり推進すいしん機構きこう”. 情報処理じょうほうしょり推進すいしん機構きこう. p. 42. 2022ねん3がつ24にち閲覧えつらん
  5. ^ a b c 一般いっぱん社団しゃだん法人ほうじん情報処理じょうほうしょり学会がっかい. “だい247かいNL研究けんきゅう発表はっぴょうかい-情報処理じょうほうしょり学会がっかい”. www.ipsj.or.jp. 2022ねん3がつ24にち閲覧えつらん
  6. ^ 井尻いじり, 善久よしひさ; 牛久うしく, さちこう; 片岡かたおか, 裕雄ひろお; 藤吉ふじよし, ひろわたる, eds. (2021). コンピュータビジョン最前線さいぜんせん Winter 2021. 共立きょうりつ出版しゅっぱん. p. 78.
  7. ^ 品川しながわ, せい太朗たろうVision and Languageと分野ぶんや深層しんそう学習がくしゅう手法しゅほう紹介しょうかい」『研究けんきゅう報告ほうこくコンピュータビジョンとイメージメディア(CVIM)』2021-CVIM-226だい15ごう、2021ねん5がつ13にち、1–1ぺーじISSN 2188-8701 
  8. ^ Workshop on Vision and Language - ACL Anthology”. ACL Anthology. ACL. 2022ねん3がつ24にち閲覧えつらん
  9. ^ a b Mogadala, Kalimuthu & Klakow 2021.
  10. ^ a b c Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Lawrence Zitnick, C.; Parikh, Devi (2015). “VQA: Visual Question Answering”. Proceedings of the IEEE International Conference on Computer Vision (ICCV): 2425–2433. https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Antol_VQA_Visual_Question_ICCV_2015_paper.html. 
  11. ^ CVPR 2015 Language and Vision Workshop | The Center for Brains, Minds & Machines”. Center for Brain, Minds & Machines. 2022ねん3がつ24にち閲覧えつらん
  12. ^ a b Mogadala, Kalimuthu & Klakow 2021, p. 1183.
  13. ^ a b Ferraro 2015, p. 210.
  14. ^ [1][4][13]
  15. ^ [1][10][13]
  16. ^ a b c d e f g h Ferraro 2015, p. 207.
  17. ^ a b c Terry Winograd. “SHRDLU”. 2022ねん3がつ24にち閲覧えつらん
  18. ^ a b c Kafle 2019, 2.1. Tasks in V&L Research.
  19. ^ a b c d Wang 2021, p. 2.
  20. ^ a b c d e f g Kafle 2019, 1. Introduction.
  21. ^ a b c d e f g Kafle 2019, 3.1. Dataset Bias.
  22. ^ a b c d e f Kafle 2019, 3.2. Evaluation Metrics.
  23. ^ a b c d Mogadala, Kalimuthu & Klakow 2021, p. 1184.
  24. ^ a b Fern, Sonia. “The intersection of vision and language” (英語えいご). phys.org. 2022ねん4がつ9にち閲覧えつらん
  25. ^ Mogadala, Kalimuthu & Klakow 2021, pp. 1183–1184.
  26. ^ Sonka 2008, p. 1.
  27. ^ Huang, T (1996) (英語えいご). Computer Vision: Evolution And Promise. doi:10.5170/CERN-1996-008.21. http://cds.cern.ch/record/400313. 
  28. ^ コンピューター ビジョンとは | Microsoft Azure”. Microsoft. 2022ねん4がつ8にち閲覧えつらん
  29. ^ a b Mogadala, Kalimuthu & Klakow 2021, p. 1185.
  30. ^ Sonka 2008, p. 385.
  31. ^ Cao, Yang-Jie; Jia, Li-Li; Chen, Yong-Xia; Lin, Nan; Yang, Cong; Zhang, Bo; Liu, Zhi; Li, Xue-Xiang et al. (2019). “Recent Advances of Generative Adversarial Networks in Computer Vision”. IEEE Access 7: 14985–15006. doi:10.1109/ACCESS.2018.2886814. ISSN 2169-3536. https://ieeexplore.ieee.org/document/8576508/. 
  32. ^ Wang, Zhengwei; She, Qi; Ward, Tomás E. (2022-03-31). “Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy” (英語えいご). ACM Computing Surveys 54 (2): 1–38. doi:10.1145/3439723. ISSN 0360-0300. https://dl.acm.org/doi/10.1145/3439723. 
  33. ^ a b c Jurafsky 2009, p. 1.
  34. ^ Eisenstein 2019, p. 1.
  35. ^ Jurafsky 2009, p. 737.
  36. ^ a b Eisenstein 2019, p. 424.
  37. ^ Eisenstein 2019, p. 431.
  38. ^ a b c d e f g h i j k l m n Mogadala, Kalimuthu & Klakow 2021, p. 1187.
  39. ^ Baltrušaitis 2019, p. 424.
  40. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1190.
  41. ^ a b Hossain 2019, p. 1.
  42. ^ Jurafsky 2009, p. 779.
  43. ^ Jurafsky 2009, p. 780.
  44. ^ a b Wu 2017, p. 3.
  45. ^ a b c Mezaris, V.; Kompatsiaris, I.; Strintzis, M.G. (2003-09). “An ontology approach to object-based image retrieval”. Proceedings 2003 International Conference on Image Processing (Cat. No.03CH37429) 2: II–511. doi:10.1109/ICIP.2003.1246729. https://ieeexplore.ieee.org/document/1246729. 
  46. ^ a b Datta 2008, pp. 11–12.
  47. ^ a b Latif 2019, p. 3.
  48. ^ Datta 2008, p. 4.
  49. ^ Kaput, Mike. “AI in Search Engines: Everything You Need to Know” (英語えいご). Marketing AI Institute. 2022ねん4がつ9にち閲覧えつらん
  50. ^ Google Search By Image: Use A Snapshot As Your Search Query” (英語えいご). TechCrunch. 2022ねん4がつ9にち閲覧えつらん
  51. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1246.
  52. ^ a b Das, Abhishek; Kottur, Satwik; Gupta, Khushi; Singh, Avi; Yadav, Deshraj; Moura, Jose M. F.; Parikh, Devi; Batra, Dhruv (2017). Visual Dialog. pp. 326–335. https://openaccess.thecvf.com/content_cvpr_2017/html/Das_Visual_Dialog_CVPR_2017_paper.html. 
  53. ^ 船越ふなこし, 孝太郎こうたろう渡辺わたなべ, きよし栗山くりやま, 直子なおこ徳永とくなが, けんしん知覚ちかくてきぐんもとづく参照さんしょう表現ひょうげん生成せいせい」『自然しぜん言語げんご処理しょりだい13かんだい2ごう、2006ねん、79–97ぺーじdoi:10.5715/jnlp.13.2_79 
  54. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1216.
  55. ^ Kazemzadeh, Sahar; Ordonez, Vicente; Matten, Mark; Berg, Tamara (2014-10). “ReferItGame: Referring to Objects in Photographs of Natural Scenes”. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (Doha, Qatar: Association for Computational Linguistics): 787–798. doi:10.3115/v1/D14-1086. https://aclanthology.org/D14-1086. 
  56. ^ Krahmer 2012, p. 207.
  57. ^ a b Mao, Junhua; Huang, Jonathan; Toshev, Alexander; Camburu, Oana; Yuille, Alan; Murphy, Kevin (2016-06). “Generation and Comprehension of Unambiguous Object Descriptions”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (Las Vegas, NV, USA: IEEE): 11–20. doi:10.1109/CVPR.2016.9. ISBN 978-1-4673-8851-1. http://ieeexplore.ieee.org/document/7780378/. 
  58. ^ Qiao 2021, p. 4427.
  59. ^ 寺中じちゅう, もとまれ; 斎藤さいとう, 博昭ひろあき (2015). “含意がんい関係かんけい認識にんしきにおけるベクトル空間くうかんモデルの適用てきよう”. 自然しぜん言語げんご処理しょり学会がっかい 21: 924. 
  60. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1241.
  61. ^ a b Specia, Lucia; Frank, Stella; Sima'an, Khalil; Elliott, Desmond (2016-08). “A Shared Task on Multimodal Machine Translation and Crosslingual Image Description”. Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers (Berlin, Germany: Association for Computational Linguistics): 543–553. doi:10.18653/v1/W16-2346. https://aclanthology.org/W16-2346. 
  62. ^ CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning”. cs.stanford.edu. 2022ねん3がつ25にち閲覧えつらん
  63. ^ CLEVR Dataset Generation, Meta Research, (2022-03-16), https://github.com/facebookresearch/clevr-dataset-gen 2022ねん3がつ25にち閲覧えつらん 
  64. ^ Isola, Phillip; Zhu, Jun-Yan; Zhou, Tinghui; Efros, Alexei A. (2017-07). “Image-to-Image Translation with Conditional Adversarial Networks”. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 5967–5976. doi:10.1109/CVPR.2017.632. https://ieeexplore.ieee.org/document/8100115. 
  65. ^ a b c Mogadala, Kalimuthu & Klakow 2021, p. 1258.
  66. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1232.
  67. ^ a b Bakhtin, Anton; van der Maaten, Laurens; Johnson, Justin; Gustafson, Laura; Girshick, Ross (2019). “PHYRE: A New Benchmark for Physical Reasoning”. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 32. https://proceedings.neurips.cc/paper/2019/hash/4191ef5f6c1576762869ac49281130c9-Abstract.html. 
  68. ^ a b Johnson, Justin; Hariharan, Bharath; Van Der Maaten, Laurens; Hoffman, Judy; Fei-Fei, Li; Zitnick, C. Lawrence; Girshick, Ross (2017-10). “Inferring and Executing Programs for Visual Reasoning”. 2017 IEEE International Conference on Computer Vision (ICCV): 3008–3017. doi:10.1109/ICCV.2017.325. https://ieeexplore.ieee.org/document/8237587. 
  69. ^ a b He 2021, p. 2.
  70. ^ Zieliński, P.; Markowska-Kaczmar, U. (2021-10-01). “3D robotic navigation using a vision-based deep reinforcement learning model” (英語えいご). Applied Soft Computing 110: 107602. doi:10.1016/j.asoc.2021.107602. ISSN 1568-4946. https://www.sciencedirect.com/science/article/pii/S1568494621005238. 
  71. ^ a b c Anderson, Peter; Wu, Qi; Teney, Damien; Bruce, Jake; Johnson, Mark; Sunderhauf, Niko; Reid, Ian; Gould, Stephen et al. (2018-06). “Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments”. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (Salt Lake City, UT: IEEE): 3674–3683. doi:10.1109/CVPR.2018.00387. ISBN 978-1-5386-6420-9. https://ieeexplore.ieee.org/document/8578485/. 
  72. ^ Datta 2008, p. 5.
  73. ^ a b c 庄野しょうのいつ (2013). 局所きょくしょ画像がぞう特徴とくちょうりょう ~ SIFT, HOG を題材だいざいに~”. 映像えいぞう情報じょうほうメディア学会がっかい 67 (3): 256~258. https://www.ite.or.jp/contents/keywords/FILE-20160413114344.pdf. 
  74. ^ a b c Farhadi, Ali; Hejrati, Mohsen; Sadeghi, Mohammad Amin; Young, Peter; Rashtchian, Cyrus; Hockenmaier, Julia; Forsyth, David (2010). Daniilidis, Kostas; Maragos, Petros; Paragios, Nikos. eds. “Every Picture Tells a Story: Generating Sentences from Images” (英語えいご). Computer Vision – ECCV 2010 (Berlin, Heidelberg: Springer): 15–29. doi:10.1007/978-3-642-15561-1_2. ISBN 978-3-642-15561-1. https://link.springer.com/chapter/10.1007/978-3-642-15561-1_2. 
  75. ^ a b c Hossain 2019, p. 2.
  76. ^ a b c d e f g h i Kafle 2019, 2.2. V&L Algorithms.
  77. ^ a b Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). “Attention is All you Need”. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 30. https://papers.nips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html. 
  78. ^ Parmar, Niki; Vaswani, Ashish; Uszkoreit, Jakob; Kaiser, Lukasz; Shazeer, Noam; Ku, Alexander; Tran, Dustin (2018-07-03). “Image Transformer” (英語えいご). International Conference on Machine Learning (PMLR): 4055–4064. https://proceedings.mlr.press/v80/parmar18a.html. 
  79. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1270.
  80. ^ a b c Uppal 2022, p. 161.
  81. ^ a b Mogadala, Kalimuthu & Klakow 2021, p. 1189.
  82. ^ a b c He, Kaiming; Girshick, Ross; Dollar, Piotr (2019-10). “Rethinking ImageNet Pre-Training”. 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (Seoul, Korea (South): IEEE): 4917–4926. doi:10.1109/ICCV.2019.00502. ISBN 978-1-7281-4803-8. https://ieeexplore.ieee.org/document/9010930/. 
  83. ^ a b Qiu 2020, p. 1872.
  84. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2019). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (英語えいご). Proceedings of the 2019 Conference of the North (Minneapolis, Minnesota: Association for Computational Linguistics): 4171–4186. doi:10.18653/v1/N19-1423. http://aclweb.org/anthology/N19-1423. 
  85. ^ Qiu 2020, p. 1873.
  86. ^ Han 2022, p. 1.
  87. ^ Uppal 2022, p. 149.
  88. ^ Hossain 2019, pp. 4, 11.
  89. ^ Hossain 2019, pp. 11.
  90. ^ Uppal 2022, p. 153.
  91. ^ a b Mogadala, Kalimuthu & Klakow 2021, p. 1198.
  92. ^ a b Sharma 2020, p. 327.
  93. ^ Zhang, Jianing; Wu, Zhaochang; Zhang, Huajie; Chen, Yunfang (2020-10-01). “Visual Question Answering Based on Question Attention Model”. Journal of Physics: Conference Series 1624 (2): 022022. doi:10.1088/1742-6596/1624/2/022022. ISSN 1742-6588. https://iopscience.iop.org/article/10.1088/1742-6596/1624/2/022022. 
  94. ^ Qi 2017, p. 22.
  95. ^ a b Qi 2017, p. 23.
  96. ^ Uppal 2022, p. 155.
  97. ^ Zhou, Luowei; Palangi, Hamid; Zhang, Lei; Hu, Houdong; Corso, Jason; Gao, Jianfeng (2020-04-03). “Unified Vision-Language Pre-Training for Image Captioning and VQA”. Proceedings of the AAAI Conference on Artificial Intelligence 34 (07): 13041–13049. doi:10.1609/aaai.v34i07.7005. ISSN 2374-3468. https://aaai.org/ojs/index.php/AAAI/article/view/7005. 
  98. ^ Wu 2017, p. 22.
  99. ^ a b Wu 2017, p. 30.
  100. ^ a b Latif 2019, p. 1.
  101. ^ a b Latif 2019, p. 2.
  102. ^ a b c Kapoor 2021, p. 29562.
  103. ^ Kapoor 2021, p. 29561.
  104. ^ Kapoor 2021, pp. 29563–29571.
  105. ^ Datta 2008, p. 52.
  106. ^ a b c d e f g Latif 2019, p. 17.
  107. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1261.
  108. ^ Li, Bowen; Qi, Xiaojuan; Lukasiewicz, Thomas; Torr, Philip (2019). “Controllable Text-to-Image Generation”. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 32. https://papers.nips.cc/paper/2019/hash/1d72310edc006dadf2190caad5802983-Abstract.html. 
  109. ^ Goodfellow 2016, p. 19.
  110. ^ Ferraro 2015, p. 208.
  111. ^ Ferraro 2015.
  112. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1193.
  113. ^ Im2Text: Describing Images Using 1 Million Captioned Photographs”. Vicente Ordonez. 2022ねん3がつ25にち閲覧えつらん
  114. ^ Young, Peter; Lai, Alice; Hodosh, Micah; Hockenmaier, Julia (2014). “From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions”. Transactions of the Association for Computational Linguistics 2: 67–78. doi:10.1162/tacl_a_00166. https://aclanthology.org/Q14-1006. 
  115. ^ Mogadala, Kalimuthu & Klakow 2021, p. 1195.
  116. ^ Lin, Tsung-Yi; Maire, Michael; Belongie, Serge; Hays, James; Perona, Pietro; Ramanan, Deva; Dollár, Piotr; Zitnick, C. Lawrence (2014). Fleet, David; Pajdla, Tomas; Schiele, Bernt et al.. eds. “Microsoft COCO: Common Objects in Context” (英語えいご). Computer Vision – ECCV 2014 (Cham: Springer International Publishing): 740–755. doi:10.1007/978-3-319-10602-1_48. ISBN 978-3-319-10602-1. https://link.springer.com/chapter/10.1007/978-3-319-10602-1_48. 
  117. ^ Chen, David; Dolan, William (2011-06). “Collecting Highly Parallel Data for Paraphrase Evaluation”. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (Portland, Oregon, USA: Association for Computational Linguistics): 190–200. https://aclanthology.org/P11-1020. 
  118. ^ Wu 2017, p. 28.
  119. ^ a b Wu 2017, p. 33.
  120. ^ He 2021, p. 5.
  121. ^ Wu 2017, p. 34.
  122. ^ Visual Question Answering” (英語えいご). Visual Question Answering. 2022ねん3がつ25にち閲覧えつらん
  123. ^ Tommasi, Tatiana; Patricia, Novi; Caputo, Barbara; Tuytelaars, Tinne (2017), “A Deeper Look at Dataset Bias”, in Csurka, Gabriela (英語えいご), Domain Adaptation in Computer Vision Applications, Springer International Publishing, p. 39, doi:10.1007/978-3-319-58347-1_2, ISBN 978-3-319-58347-1, https://doi.org/10.1007/978-3-319-58347-1_2 
  124. ^ Torralba, Antonio; Efros, Alexei A. (2011-06). “Unbiased look at dataset bias”. CVPR 2011: 1521–1528. doi:10.1109/CVPR.2011.5995347. https://ieeexplore.ieee.org/document/5995347. 
  125. ^ Margaret Mitchell. “Bias in the Vision and Language of Artificial Intelligence”. 2022ねん4がつ8にち閲覧えつらん
  126. ^ a b Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015-12). “VQA: Visual Question Answering”. 2015 IEEE International Conference on Computer Vision (ICCV) (Santiago, Chile: IEEE): 2425–2433. doi:10.1109/ICCV.2015.279. ISBN 978-1-4673-8391-2. http://ieeexplore.ieee.org/document/7410636/. 
  127. ^ Iqbal 2020, p. 12.
  128. ^ Novikova, Jekaterina; Dušek, Ondřej; Cercas Curry, Amanda; Rieser, Verena (2017). “Why We Need New Evaluation Metrics for NLG” (英語えいご). Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (Copenhagen, Denmark: Association for Computational Linguistics): 2241–2252. doi:10.18653/v1/D17-1238. http://aclweb.org/anthology/D17-1238. 

参考さんこう文献ぶんけん

[編集へんしゅう]

書籍しょせき

[編集へんしゅう]

サーベイ論文ろんぶん視覚しかく自然しぜん言語げんご融合ゆうごう研究けんきゅうについて)

[編集へんしゅう]

分野ぶんや全体ぜんたいについて

[編集へんしゅう]

それぞれのタスクについて

[編集へんしゅう]

サーベイ論文ろんぶん(コンピュータビジョンおよび自然しぜん言語げんご処理しょりについて)

[編集へんしゅう]