(Translated by https://www.hiragana.jp/)
AlexNet - Wikipedia コンテンツにスキップ

AlexNet

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
Comparison of the LeNet and AlexNet convolution, pooling and dense layers

AlexNetたたみニューラル ネットワーク(CNN)の構造こうぞう名前なまえであり、Alex Krizhevsky が博士はかせ課程かてい指導しどう教官きょうかんである Ilya Sutskever および ジェフェリー・ヒントン共同きょうどう設計せっけいした[1] [2]

AlexNet は、2012 ねん 9 がつ 30 にち開催かいさいされた ILSVRC 2012[3]参加さんかした。AlexNet はエラーりつ 15.3% で優勝ゆうしょうし、次点じてんよりも 10.8% 以上いじょうひくかった。この論文ろんぶんおも内容ないようは、モデルのふかさが高性能こうせいのうには不可欠ふかけつであるというもので、計算けいさんコストはたかくなるものの、GPU をもちいて学習がくしゅうすることで実現じつげんした[2]

歴史れきしてき背景はいけい

[編集へんしゅう]

GPU で実装じっそうした高速こうそくたたみニューラルネットワークが画像がぞう認識にんしきコンテストで優勝ゆうしょうしたのは AlexNet がはじめてではなかった。K. Chellapilla ら(2006)による GPU じょうたたみニューラルネットワークは、CPU じょう同等どうとう実装じっそうくらべて 4 ばい高速こうそくだった[4]。IDSIA での Dan Cireșan ら(2011)のディープたたみニューラルネットワークは、すでに 60 ばい速度そくど[5]、2011 ねん 8 がつにはちょう人的じんてき性能せいのう達成たっせいしていた[6]。2011 ねん 5 がつ 15 にちから 2012 ねん 9 がつ 10 にちまでのあいだに、かれらのたたみニューラルネットワークは 4 つ以上いじょう画像がぞうコンテストで優勝ゆうしょうしている[7] [8]。また、複数ふくすう画像がぞうデータベースかんする文献ぶんけんなかでの最高さいこう性能せいのう大幅おおはば更新こうしんした[9]

AlexNet の論文ろんぶんによると[2]、Cireșan の初期しょきのネットワークは「多少たしょうている」とのこと。 どちらも元々もともとは GPU じょう動作どうさするように CUDAかれた。実際じっさいには、どちらもヤン・ルカンら(1989)が発表はっぴょうしたたたみニューラルネットワーク・デザインの変形へんけいであり[10] [11]ネオコグニトロンばれる福島ふくしま邦彦くにひこたたみニューラルネットワークの構造こうぞう誤差ごさぎゃく伝播でんぱほう(バックプロパゲーション)を適用てきようしたものだ[12] [13]。 この構造こうぞうは、J. Weng の max-pooling とばれる手法しゅほうのち修正しゅうせいされた [14] [8]

2015 ねんには、ImageNet 2015 コンテストで優勝ゆうしょうした Microsoft Research Asia の100そう以上いじょう非常ひじょうふかたたみニューラルネットワークにAlexNet がった[15]

ネットワーク・デザイン

[編集へんしゅう]

AlexNet には 8 つのレイヤーがふくまれていた。最初さいしょの 5 つはたたそうで、そのうちのいくつかに max-pooling そうつづき、最後さいごの 3 つはぜん結合けつごうそうだった[2]活性かっせい関数かんすうには、飽和ほうわがたReLU使用しようし、tanh および sigmoid よりも学習がくしゅう性能せいのう向上こうじょうしている。

影響えいきょう

[編集へんしゅう]

AlexNet は、コンピュータビジョン発表はっぴょうされたもっと影響えいきょうりょくのある論文ろんぶんの 1 つであるとかんがえられており、深層しんそう学習がくしゅう加速かそくするためにたたみニューラルネットワークと GPU を使用しようしてさらにおおくの論文ろんぶん発表はっぴょうされている[16]。 Google Scholar によると、AlexNet の論文ろんぶんは 2021 ねん現在げんざいで 80,000 かい以上いじょう引用いんようされている。

関連かんれん項目こうもく

[編集へんしゅう]

脚注きゃくちゅう

[編集へんしゅう]
  1. ^ The data that transformed AI research—and possibly the world”. 2021ねん6がつ4にち閲覧えつらん
  2. ^ a b c d Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). “ImageNet classification with deep convolutional neural networks”. Communications of the ACM 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf. 
  3. ^ ILSVRC2012 Results”. 2021ねん6がつ4にち閲覧えつらん
  4. ^ Kumar Chellapilla; Sid Puri; Patrice Simard (2006). “High Performance Convolutional Neural Networks for Document Processing”. In Lorette, Guy. Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft. https://hal.inria.fr/inria-00112631/document 
  5. ^ Cireșan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). “Flexible, High Performance Convolutional Neural Networks for Image Classification”. Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two 2: 1237–1242. http://www.idsia.ch/~juergen/ijcai2011.pdf 17 November 2013閲覧えつらん. 
  6. ^ IJCNN 2011 Competition result table” (英語えいご). OFFICIAL IJCNN2011 COMPETITION (2010ねん). 2019ねん1がつ14にち閲覧えつらん
  7. ^ Schmidhuber (17 March 2017). “History of computer vision contests won by deep CNNs on GPU” (英語えいご). 14 January 2019閲覧えつらん
  8. ^ a b Schmidhuber, Jürgen (2015). “Deep Learning”. Scholarpedia 10 (11): 1527–54. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. http://www.scholarpedia.org/article/Deep_Learning. 
  9. ^ Cireșan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). Multi-column deep neural networks for image classification. New York, NY: Institute of Electrical and Electronics Engineers (IEEE). 3642–3649. arXiv:1202.2745. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155 
  10. ^ LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (1989). “Backpropagation Applied to Handwritten Zip Code Recognition”. Neural Computation (MIT Press - Journals) 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667. OCLC 364746139. http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf. 
  11. ^ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). “Gradient-based learning applied to document recognition”. Proceedings of the IEEE 86 (11): 2278–2324. doi:10.1109/5.726791. http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf October 7, 2016閲覧えつらん. 
  12. ^ Fukushima, K. (2007). “Neocognitron”. Scholarpedia 2 (1): 1717. Bibcode2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717. 
  13. ^ Fukushima, Kunihiko (1980). “Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position”. Biological Cybernetics 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. http://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf 16 November 2013閲覧えつらん. 
  14. ^ Weng, J; Ahuja, N; Huang, TS (1993). “Learning recognition and segmentation of 3-D objects from 2-D images”. Proc. 4th International Conf. Computer Vision: 121–128. 
  15. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). “Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. 
  16. ^ Deshpande. “The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3)”. adeshpande3.github.io. 2018ねん12月4にち閲覧えつらん