(Translated by https://www.hiragana.jp/)
残差ネットワーク - Wikipedia コンテンツにスキップ

ざんネットワーク

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
ResNetから転送てんそう
ふかざんネットワークのざんブロック。ここでは、ざん接続せつぞくは2つのレイヤーをスキップする。

ざんニューラルネットワーク別名べつめいざんネットワーク、ResNet)は[1]、ウェイトそうそう入力にゅうりょく参照さんしょうしてざん関数かんすう学習がくしゅうする深層しんそう学習がくしゅうモデルである。ざんネットワークは、恒等こうとう写像しゃぞうおこなうスキップ接続せつぞくつネットワークであり、加算かさんによってレイヤーの出力しゅつりょくとマージされる。これは、つよせいのバイアスおもみによってゲートがひらく「幹線かんせん道路どうろネットワーク」[2]のようにう。これにより、すうじゅうからすうひゃくのレイヤーを深層しんそうモデルを容易ようい学習がくしゅうさせることができ、よりふか学習がくしゅうするさいにはよりたか精度せいどちかづくことができる。同一どういつせいスキップ接続せつぞくは、よく「ざん接続せつぞく」とばれ、1997ねんLSTMネットワーク[3]、トランスフォーマー・モデル(BERT、ChatGPTなどのGPTモデルなど)、AlphaGo Zeroシステム、AlphaStarシステム、AlphaFoldシステムでも使用しようされている。

ざんネットワークは、なに愷明、ちょうしょう宇、にんしょうきょうまごけんによって開発かいはつされ、ImageNet 2015コンペティションで優勝ゆうしょうした。[4][5]

公式こうしき

[編集へんしゅう]

背景はいけい

[編集へんしゅう]

2012ねんにImageNetよう開発かいはつされたAlexNetモデルは、8そうたたみニューラルネットワークだった。オックスフォおっくすふぉド大学どだいがくのVisual Geometry Group(VGG)が2014ねん開発かいはつしたニューラルネットワークは、3×3のたたそうかさねることで19そうふかさにちかづいた。[6]しかし、よりおおくのそうかさねることは、「劣化れっか問題もんだいばれる学習がくしゅう精度せいどすみやかな低下ていかにつながった.[7]

よりふかいネットワークが、よりあさいネットワークに余分よぶんなレイヤーをかさねることで構築こうちくできるのであれば、よりあさいネットワークよりも学習がくしゅう損失そんしつおおきくなることはないはずである。もし余分よぶんそう同一どういつせいマッピングとして設定せっていできれば、ふかいネットワークはあさいネットワークとおな機能きのうあらわすことになる。オプティマイザは、パラメータされたそうたいして同一どういつせいマッピングにちかづくことができないという仮説かせつつ。

ざん学習がくしゅう

[編集へんしゅう]

多層たそうニューラルネットワークモデルでは、あるかずたとえば2そうや3そう)の積層せきそうそうつサブネットワークをかんがえる。このサブネットワークが実行じっこうする基本きほんてき機能きのうを𝐻 ( 𝑥 ) に定義ていぎする。ここで 𝑥 はこのサブネットワークへの入力にゅうりょくである。ざん学習がくしゅうのアイデアは、このサブネットワークをさいパラメータし、パラメータそうざん関数かんすう表現ひょうげんさせる。𝐹 ( 𝑥 ) := 𝐻 ( 𝑥 ) - 𝑥 . 出力しゅつりょく 𝑦 はつぎのようにあらわされる:

信号しんごう伝播でんぱ

[編集へんしゅう]

同一どういつせいマッピングの導入どうにゅうにより、前方ぜんぽうおよび後方こうほうパスでの信号しんごう伝播でんぱ容易よういになる。 [8]

ざんブロックのバリエーション

[編集へんしゅう]
たたざんブロックの2つのバリエーション。ひだり:3x3のたたそうを2つ基本きほんブロック。みぎ次元じげん削減さくげんのための1x1たたそうたとえば1/4)、3x3たたそう次元じげん復元ふくげんのためのもう1つの1x1たたそうつボトルネック・ブロック。

プレアクト・ブロック

[編集へんしゅう]

事前じぜん活性かっせいざんブロック[9](ResNetV2もばれる)は、ざん関数かんすう適用てきようするまえ活性かっせい関数かんすうたとえば、直線ちょくせんせい正規せいき)を適用てきようする。正式せいしきには、ぜん活性かっせいざんブロックの計算けいさんつぎのようにくことができる:

ここで 𝜙 は任意にんい線型せんけい活性かっせい(ReLUなど)または正規せいき(LayerNormなど)操作そうさである。この設計せっけいにより、ざんブロックあいだ同一どういつマッピングのかずらすことができる。この設計せっけいは、200そうから1000そう以上いじょうのモデルの学習がくしゅう使用しようされた。

GPT-2以降いこう、Transformer BlocksはPre-activation Blocksとして実装じっそうされることが主流しゅりゅうとなっています。これは、Transformerモデルの文献ぶんけんでは、しばしば "pre-normalization "とばれています。[10]

トランスフォーマーブロック

[編集へんしゅう]
最初さいしょGPT モデル使用しようされた Transformer アーキテクチャ。トランスフォーマーブロックは、マルチヘッドアテンションブロックとフィードフォワード多層たそうパーセプトロン(MLP)ブロックの2つのざんブロックから構成こうせいされる。

Transformerブロックは、2つのざんブロックをかさねたものである。かくざんブロックはざんコネクションをつ。最初さいしょざんブロックはマルチヘッドアテンションブロックであり、(自己じこ)アテンション計算けいさんのち線形せんけい投影とうえいおこなう。

2番目ばんめざんブロックはフィードフォワード多層たそうパーセプトロン(MLP)ブロックである。このブロックは「ぎゃく」ボトルネックブロックに類似るいじしており、次元じげん増加ぞうかさせる線形せんけい射影しゃえいそう(これはたたみニューラルネットワークの文脈ぶんみゃくでは1x1じょうみに相当そうとうする)と、次元じげん減少げんしょうさせるもう1つの線形せんけい射影しゃえいそうつ。

トランスフォーマーブロックのふかさは4そう直線ちょくせん投影とうえい)です。GPT-3モデルには96のトランスフォーマー・ブロックがある(トランスフォーマーの文献ぶんけんでは、トランスフォーマー・ブロックはしばしば「トランスフォーマー・レイヤー」とばれる)。このモデルは、トランスフォーマーブロックの96x4そうと、入力にゅうりょくみと出力しゅつりょく予測よそくのための余分よぶんそうふくめて、やく400の投影とうえいそうふかさをつ。

非常ひじょうふかいトランスフォーマーモデルは、ざんコネクションなしではうまく学習がくしゅうできない。[11]

関連かんれん作品さくひん

[編集へんしゅう]

1961ねん出版しゅっぱんされたFrank Rosenblattちょほんなかで、スキップ接続せつぞくつ3そう多層たそうパーセプトロン(MLP)モデルが紹介しょうかいされている(だい15しょう p313)。このモデルは「交差こうさ結合けつごうシステム」とばれ、スキップ結合けつごう交差こうさ結合けつごういち形態けいたいである。[12]

生物せいぶつがくてき関係かんけい

[編集へんしゅう]

最初さいしょのResidual Networkの論文ろんぶんでは、生物せいぶつがくてきシステムに示唆しさされたとは主張しゅちょうしていない。しかし、その研究けんきゅうで、Residual Networkは生物せいぶつがくてき妥当だとうなアルゴリズムと関連かんれんづけられるようになった。. [13] [14]

2023ねんに『サイエンス発表はっぴょうされた研究けんきゅうで、昆虫こんちゅう(ミバエの幼虫ようちゅう)ののう完全かんぜんコネクトーム公開こうかいされた。この研究けんきゅうでは、ResNetsをふく人工じんこうニューラルネットワークのスキップ接続せつぞくた「多層たそうショートカット」が発見はっけんされた。[15]

関連かんれん項目こうもく

[編集へんしゅう]

参考さんこう資料しりょう

[編集へんしゅう]
  1. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 December 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385
  2. ^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (3 May 2015). "Highway Networks". arXiv:1505.00387 [cs.LG]。
  3. ^ Sepp Hochreiter; Jürgen Schmidhuber (1997). “Long short-term memory”. Neural Computation 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. https://www.researchgate.net/publication/13853244. 
  4. ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009). “ImageNet: A large-scale hierarchical image database”. CVPR. https://scholar.google.com/citations?view_op=view_citation&hl=en&user=rDfyQnIAAAAJ&citation_for_view=rDfyQnIAAAAJ:qjMakFHDy7sC. 
  5. ^ ILSVRC2015 Results”. image-net.org. Template:Cite webしエラー:引数ひきすう accessdate必須ひっすです。
  6. ^ Simonyan, Karen; Zisserman, Andrew (2014). "Very Deep Convolutional Networks for Large-Scale Image Recognition". arXiv:1409.1556 [cs.CV]。
  7. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV]。
  8. ^ He, Kaiming; Zhang, Xiangyu. "Identity Mappings in Deep Residual Networks". arXiv:1603.05027 [cs.CV]。
  9. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). "Identity Mappings in Deep Residual Networks". arXiv:1603.05027 [cs.CV]。
  10. ^ Radford (2019ねん2がつ14にち). “Language models are unsupervised multitask learners”. 2021ねん2がつ6にち時点じてんのオリジナルよりアーカイブ2020ねん12月19にち閲覧えつらん
  11. ^ Dong, Yihe; Cordonnier, Jean-Baptiste. "Attention is not all you need: pure attention loses rank doubly exponentially with depth". arXiv:2103.03404 [cs.LG]。
  12. ^ Rosenblatt, Frank (1961). Principles of neurodynamics. perceptrons and the theory of brain mechanisms. https://safari.ethz.ch/digitaltechnik/spring2018/lib/exe/fetch.php?media=neurodynamics1962rosenblatt.pdf#page=327 
  13. ^ Liao, Qianli; Poggio, Tomaso (2016). Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex.
  14. ^ Xiao, Will; Chen, Honglin; Liao, Qianli; Poggio, Tomaso (2018). Biologically-Plausible Learning Algorithms Can Scale to Large Datasets.
  15. ^ Winding, Michael; Pedigo, Benjamin; Barnes, Christopher; Patsolic, Heather; Park, Youngser; Kazimiers, Tom; Fushiki, Akira; Andrade, Ingrid et al. (10 Mar 2023). “The connectome of an insect brain”. Science 379 (6636): eadd9330. doi:10.1126/science.add9330. PMC 7614541. PMID 36893230. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7614541/.