(Translated by https://www.hiragana.jp/)
GPT-2 - Wikipedia コンテンツにスキップ

GPT-2

chūdiăn: フリーbaĭshìdiăn『ウィキペディア(Wikipedia)』
Generative Pre-trained Transformer 2 (GPT-2)
GPT-2がプロンプトをwánするyàngshìHugging FaceのWrite With Transformerのウェブサイト。Wikipediaのこのshìからたテキストをプロンプトとしてyòngいた。zuìchūのプロンプトにくハイライトされたテキストはすべてzuìchūwánhoùからxièdeshēngchéngされたもので、それwaìbiānはない。
zuòzhě OpenAI
chūbăn 14 February 2019nián (6niánqián) (14 February 2019)
リポジトリ https://github.com/openai/gpt-2
qiánshēn GPT-1
hoù GPT-3
zhŏngbié Transformer yánモデル
gōngshìサイト openai.com/blog/gpt-2-1-5b-release/
テンプレートをbiaŏshì

Generative Pre-trained Transformer 2GPT-2) は、2019nián2yuèOpenAIによってkaīされたオープンソースréngōngzhīnéngソフトウェアである[1][2][3][4]。GPT-2は、テキストをfānし、zhíwènwénzhāngyaòyuēxíng[5]shíにはrénjiānjiànfēnけがつかないようなテキストchūshēngchéngするが[6]chángwénzhāngshēngchéngするとqiaōfănしたりweìmíngbiaŏxiànになることもある[7]。GPT-2は、duōdexuéであり、dìngのタスク(shìshì)をxíngうためのbiéxùnliànshoùけてはおらず、これらのタスクをxíngnéngは、rènshùnxiàngzhèngquèchéngするbāndenéngyánchángxiànshàngにある[8][5]。GPT-2は、OpenAIの2018niánbănGPTモデルの「スケールアップbăn」としてgoùzhúされ[9]、パラメータshùxùnliànyòngデータセットがともに10beìzēngjiāした[4]

GPTアーキテクチャは、ディープラーニング(shēncéngxuéによるニューラルネットワークdeには「トランスフォーマー(Transformer)モデル」をshízhuāngしており[9]、これまでのhuíguīxíngdiéみ込みxíngのアーキテクチャのdaìわりに「アテンション」を使shĭyòngしている[10][11]。アテンションgoùにより、モデルは、テキストのzhōngからzuìguānliánxìnggaōいとされるweìxuăndejiaōdiăndāngてることができる[12][13]。このモデルでは、bìnglièhuàxiàngshàngさせることができ、RNN/CNN/LSTMにづくモデルのこれまでのベンチマークよりもyoūれたxìngnénghuīしている[9]

OpenAIは、2019nián11yuè、GPT-2yánモデルのwánquánbăn(15のパラメータをhánむ)をgōngkaīした[14]。GPT-2にいて、1,750のパラメータをhánGPT-3[15]が、2020niángōngkaīされるdìngだった[16](そのソースコードはgōngkaīされていない)。GPT-3へのアクセスは、OpenAIとマイクロソフトgōngするアプリケーションプログラミングインタフェース(API)をtōngじてのみgōngされている[17]

beìjĭng

[biān]

コンピュータのmíngyīngbănからréngōngzhīnéngyánjiūduìxiàngであった。1950niánアラン・チューリングchàngした「イミテーション・ゲーム(imitation game)」(しばしばチューリング・テストとばれる)は、diànシステムやxièdeシステムのzhīdexíngdòngをとるnéngを、píngjiàzhěがシステムとrénjiānxíngdòngbiéするnéngによってpàndìngすることをànするものである[18]。「xièxué(machine learning)」というyòngは、zaŏくも1959niánに、IBMyánjiūzhěであるアーサー・サミュエルによって、réngōngzhīnéngnéngxìngshuōmíngするyánxiéとしてzuìchū使shĭわれた[19]xiànzaì、このyòngには、tŏngdexuéデータサイエンスニューラルネットワークなど、suànwènduìするさまざまなshoŭ(しばしばréngōngzhīnéngxiàzhìかれる)がbaōhánされている。

suànyánxué

[biān]

コンピュータによるrányánchŭ(NLP)は、もともとsuànyánxuéfēnとしてkaŏえられていたもので、コンピュータのハードウェアにnéngbeìわるとtóngshíshìみられるようになった。1948nián、ロンドンのバークベック・カレッジkaīされたshūルックアップテーブルzuìchūyīngyòngである[20]。1954niánジョージタウンxuéでのshíyànyīngbănでは、60wénのロシアwénzhāngyīngfānするという(zhŭにロシアdānyīngtóngzhìhuànえる)wánquándònghuàされたxièfānshíyănされた[21][22]。そのシステムには6つのwénguīと250huìしかなく[23]tŏnggoùzaòjiěfānxíngわれなかったため、fānなものがduōかった[24]。しかし、このshíyànによって、コンピュータがrányánjiěshìchŭできることがbānzhèngmíngされ[25]、さらなるyánjiūのためにCIAjīnquèbaŏされた[21]zhíjiēzhìhuànは、xièfānプログラムをpíngjiàするzhŭnとしてcáncúnしている。

20shìbànばには、rénjiānとコンピュータのduìhuà(HCI)にrányányòngするシステムもdēngchángshĭめた。1968niánから1970niánにかけてMITでkaīされた「SHRDLU」は、いくつかのがあるjiăxiăngkōngjiānで、ユーザーがrányánによるmìnglìng使shĭってduìhuàxíngうプログラムである(たとえば「jīnchíっているものよりgaōいブロックをtànして、xiāngzhōngれる」)[26][27]。1966niánkaīされたおしゃべりロボットの「ELIZA」は、rénjiānduìhuàzhěしたテキストからキーワードをjiěし、huìhuàshìするfănをした[28]duōくのbeìyànzhěが、ELIZAのhuìhuàrénjiānhuìhuàbiéできないとzhŭzhāngしたが、これがzhīxìnggoùchéngするかどうかというwènについてはlùnとなった(もっともyoŭmíngtaíběnは、xīnliaóshìがユーザーのyánったことをほぼそのままqiaōfănすというパロディであった)[29]

xièfānchūshìみはchúncuìsuànによるものだったが、1950niándaìになると、suànyánxuézhŭliúノーム・チョムスキーbiànwénというgaìniànzhòngshìされるようになった[20]dāngshíのNLPyánjiūは、rènrányánwénを、yáncúnしないlùngoùzaòhuányuánするshìみがzhōngxīnであった。1970niándaìには、weìlùndeなNLPシステムは、goùwéndeエンコーディングsyntactic encodings)をけ、よりbānweìlùndeなエンコーディング(semantic encodings)をzhīchíするようになった[30]。しかし、ニューラルネットワークdēngchángするまでは、ほとんどのシステムが、shoŭzuòでプログラムされたguīな(そしてますますいにくくなった)ルールセットcúnけ、dāngchūいどおりにkuòzhāngすることはできなかった[20]

réngōngzhīnéngfēnは20shìhoùbànzhănけたが、ときおり「AIのdōng」とばれるtíngzhìfăngれた。さまざまなwénxiàn「AIのdōng」はさまざまなshíshēngしたとshùべられている。1994niánにHoweは、1973niánshĭまって10niánいたとzhù[31]、2003niánのRussell & Norvigは、1988niánにすぐshĭまったとshùべている[32]

ニューラルネットワーク

[biān]

réngōngzhīnéngchūgaìniànであるコネクショニズムは、shēngxuédenaŏにおけるニューロン(shénjīngbaōdòngをシミュレートするようにshèされたréngōngニューラルネットワークによってzhīdexíngdòngyĭnこそうとするものであった。réngōngニューラルネットワークのzuìchūは、1951niángoùzhúされた「SNARCyīngbăn」である。「パーセプトロン」(èrzhífēnleìzhŏng)は、1957niánxīnxuézhěフランク・ローゼンブラットによってbiaŏされた[33]xièは、400フォトセル(guāngdiànchíを「ニューロン」にjiēしてhuàxiàngrènshìするようにshèされ、jiāzhòngzhíポテンショメータjuédìngされていた(xùnliànguòchéngdiànモーターで調diaòzhěng[34])。パーセプトロンはきなhuàとなり、ニューヨーク・タイムズzhĭshìで『(haĭjūnが)daìするdiànコンピュータのméngは、き、huàし、jiànて、shūき、zhìし、fēncúnzaìshìできるようになるだろう』とshaòjièされた[35]。しかし、マービン・ミンスキーシーモア・パパートによる1969niánshūパーセプトロン:suànxuéへのdaòyīngbăn」において[36]dāngshízuìxiānduānshùdāncéngパーセプトロン)のqiàndiănとして、paídelùn(XOR)guānshùhaòhuàできないことなどがzhĭzhaīされてlaí、パーセプトロンシステムはshùshíniánjiānshuaī退tuìしたままであった。このběndāngshíyoŭwàngyánjiūfēnとしてのパーセプトロン(およびbāndeなニューラルネットワーク)をfoŭdìngするものとkaŏえられていた[35]

ニューラルネットワークは、「xùnliàn(training)」および「xué(learning)」というguòchéngjīngて、さまざまなfēnleìすることができるようになる(すなわちbiéのカテゴリにfēnする)。xuéは、まずネットワークのzhòngみ(ニューロンの「huóxìnghuà」がhoùcéngdìngニューロンのhuóxìnghuàyĭngxiăngえるliàng)をランダムzuòweì)にchūhuàする。このzhuàngtaìでは、ネットワークのchūtóngyàngにランダムとなる。そして、ネットワークのchūがどれだけwàngましいできばえにjìnいかをdìngliàngdedìngするsŭnshīguānshùなどのdeguānshùdìngする(たとえば、shoŭshūきのshùからなるが、そのshùduìyīngするchūニューロンのみをhuóxìnghuàさせるpín[37]。このguānshùとネットワークのできばえから、zhòngみを調diaòzhěngしてxìngnénggaĭshànすることができる[38]

バックプロパゲーションは、1974niánポール・ワーボスyīngbănxuéweìlùnwénchūめてxièxuéシステムにshìyòngしたjiaòshīありアルゴリズムであり[39]suŏchūduìするネットワークquánzhòngみのzuìshì調diaòzhěngshùするベクトルchángである「goūpeì」のsuànxiaòlwhuàした[38][37]。このgoūpeì使shĭyòngしてニューラルネットワークをxùnliànするgoūpeìjiàngxiàによって、よりなシステムをgoùzhúすることがnéngとなり、1980niándaìにはニューラルネットワークのrányánchŭへのyīngyòngguăngまることになった[40][32]。1985niánにはD.B. Parkerがワーボスのshoŭzaìjiàn[41]、1986niánにはラメルハートヒントンウイリアムスが「shēncéngxuéディープラーニング)」ネットワークとばれるyĭncéngchíつニューラルネットワークで、データのneìbiaŏxiànshēngchéngするためにこのshoŭyīngyòng[42]、このyánjiūはそのhoùhuíguīxíngニューラルネットワークchŭzhúいた。

cónglaíshùnyúnxíngニューラルネットワーク(FFNN)は、céngqiáncéngからのchūれ、céngsòngchūすことからそのmíngけられた。FFNNのgoùzaòには、qíngbaòliúするような「xúnhuí(cycles)」はcúnzaìしない。これにduìして、huíguīxíngニューラルネットワーク(RNN)は、huóxìnghuàliúれのxúnhuíshaŏなくともchíっている[37]。RNNネットワークでは、あるxiàngそのものと、qiánxiàngchŭしたときのchūliăngfāng使shĭyòngしてliánxiàngchŭできるため、shùnいたxiàngchŭする(およびjiānglaíshùnxiàngする)ためによく使shĭyòngされた[37]

1979niándaŏbāngyàndòngshìjuéにおけるshénjīnggoùzaòモデルにづいてchàngしたネオコグニトロン[43]は、huàxiàngchŭguăng使shĭわれるdiéみ込みニューラルネットワーク(CNN)のchŭzhúいた[44]。CNNは、きなcéngduìしてxiaŏさなcéngを「zhòngねてhuáらせる」ことで、よりshaŏないsuànliàngでよりshēnchŭxíngうことができる。たとえば、100×100のhuàxiàngには10,000huàがあり、quánjiécéngchŭするには10,000zhòngみがyaòだが、huàxiàngshàngをスライドする5×5の「chuān」からなるdiéみ込みcéngでは、わずか25xuénéngなパラメータでエッジjiănchūxíngうことがnéngである。diéみ込みcéngは「プーリングcéng」によってjiéされ、「quánjiécéng」(bāndeduōcéngパーセプトロン)によってchŭされる。

rányánchŭのためのxièxué

[biān]

huíguīxíngニューラルネットワーク(RNN)は、lièdeqíngbaòchŭすることができるため、duōくのrányánchŭ(NLP)アプリケーションでyòngされている。RNNは、FFNNとはなり、tóngxiàngduìして、shùnxiàngzhoūweízhuàngkuàngyīngじてなるzhòngみをhaòhuàする(そしてなるchūえる)ことができる。ということは、dānjiěするRNNシステムでも、「heīquăn(black dog)」はmaóむくじゃらのjiaŏ、「アメリカンドッグ(corn dog)」はケチャップ、「huàn(sun dog)」はzhéのように、tóngじ「dog」からなるliánxiăngができる。さらに、RNNでは、qiánshùnxiàngqíngbaòzaìguīdechūすことができるため、ずっとqiánってrènxiàngchūすようにシステムをshèすることができる。たとえば、「トムはheīquănjiànた」「トムはアメリカンドッグをjiànた」「トムはhuànjiànた」というshùnxiàngを、それぞれ「yoūしく」「えて」「jiānjiēdeに」とけることができるようになる[45][11]

しかし、duōcéngxíngのFFNNとRNNはyoūれたjiěchūせるfāngで、どちらもgoūpeìxiaōshīwènduìしてcuìruòであることがpànmíngした。goūpeìyoŭxiànjīngshùzhíとしてhaòhuàされ、モデルのquánてのcéngにわたってyúnするyaòがあるため、duōshùcéngzhòngねるとゼロに「xiaōmiè」、またはxiànに「sàn」するnéngxìngがある。1995nián-1997niánにかけて、Sepp HochreiterJürgen Schmidhuberchūめてànしたchángduănネットワーク(LSTM)は、「」「chū」「wàngquè」ゲートをchíshùbiéの「セル」からなるxīnしいアーキテクチャをdaŏすることによって、このwènjiějuéしようとした[46][47][48]。2009niánに、Alex GravesチームがchūしたLSTMにづくモデルが、shoŭshūwénrènshìICDARコンペティションでyoūshèng[49]、もうつのモデルはzuìzhèngquèなモデル、3fānのモデルはzuìgaōなモデルであった[50]

RNNやLSTMがbaòえるもうつのwènは、qiánshùnxiàngwénしかkaŏlwできないことである[45][51]。このため、「トムはバイクにchéngってdiànxíngき、キックスタンドをxiàろしてエンジンをqiēった」のように、「バイク(zhuănchē)」が「モーターバイク(オートバイ)」であるというyaòwénzuìhoùでしかmíngらかにならないwénzhāngjiěするときにwènyĭnこすことがある。このようなwènjiějuéするつがshuāngfāngxiàngLSTM(bidirectional LSTM)であり、shuāngfāngxiàngtóngshíjìnxíngすることで、「guò」と「weìlaí」のliăngfāngzhēngにアクセスすることをnéngにする[45]tiaójiànquèlwcháng(CRF)は、タグを使shĭってchūzhíjiējiéびつける[45]shàngのアプローチのわせた、LSTM-CRFネットワークやBI-LSTM-CRFネットワークもある[45]。そのに、RNNモデルのgaĭliángとして、ニューラルチューリングマシンyīngbănshìyīngsuànshíjiān(adaptive computation time)、ニューラルプログラマー(neural programmers)、アテンションgoùなどがあり、zuìhoùのものはGPT-2やguānliánshùchŭをなしている[11]

xuăndezhōng

[biān]

2010niándaìchūtoúまで、ニューラルxièfānzuìgaōxìngnénghuīしたのは、RNNやLSTMによる「エンコーダネットワーク」がyuánwénベクトルhaòhuàし、そのベクトルをtóngyàngのアーキテクチャの「デコーダネットワーク」がchŭしてfānchūるという「エンコーダ・デコーダ」モデルであった[12]。2014niánに、feīchángな「アテンションgoùdaŏされ、これらのモデルのxìngnéngxiàngshàngした。アテンションgoùは、デコーダネットワークに、テキストquándānベクトルとしてjiěするのではなく、yuánwéndìngmiànshìyīngdeに「アテンション(zhù)」をzhōngさせるnéngえた[12][13]

そのhoù、2017niánには、さらにjìnんでアテンションgoù使shĭyòngして、RNN/LSTMアーキテクチャをwánquánzhìhuànえた「トランスフォーマー(Transformer)」モデルがdaŏされた[10][11]

アテンションgoù

[biān]

エンコーダ・デコーダモデルのzhìyuēつに、よりきなwénzhānghaòhuàしてdìngchángのベクトルにsuōすることのnánしさがあり、きくなるにつれてxìngnéngxiàすることがよくjiànられた。2014nián、Bahdanauらは[12]、「zhěnglièfāngòngtóngxíngう」ことができるエンコーダ・デコーダモデルのkuòzhāngbiaŏした[13]。Bahdanauモデルのエンコーダ(fāngxiàngに1000yĭnれユニットをchíshuāngfāngxiàngRNN)は、fānされたyuánwéndānduìして、そのwéncánquánてをjiănsuŏしてguānliánするqíngbaòweìzhìtànした。cónglaíのようにwénquándìngchángでベクトルhuàしてデコーダにするのではなく、それらのweìzhìqiánshēngchéngしたターゲットguānliánけた「wénベクトル」をshēngchéngした[12]。そして、デコーダ(これも1000yĭnれユニットをchíつ)は、このwénベクトルを使shĭyòngして、どこに「zhù」をxiàngけるかをjuédìngした[12][13][11]

「アテンション」goùtànjiūは、Luongらによる2015niánlùnwénされた[13]。Bahdanaulùnwénづく「グローバル」アプローチと、yuánfēnのみをに「kaŏlw」する「ローカル」アプローチがshìみられ、ローカルアプローチは、アーキテクチャdeにはよりだが、suànliàngshaŏなく、xùnliànróngであった[13]。1miaŏjiānに1,000のターゲットfānできるようにbiéshèされたyīng-ドイツfānモデルをwánquánxùnliànするのに7-10yaòした。そのjīngは、2014niánACL Workshop on Machine Translation(WMT'14)におけるyīng-ドイツwénペアのタスクにduìするテストで、23.0 BLEUというjiéguŏchéngした。これは、qiánshìみでchéngしたzuìgaōjiéguŏであるBuck et al. 2014によるフレーズベースのyánモデルよりも2.1 BLEUyoūれていた[52][13]

Transformers

[biān]

アテンションgoùは、cúndiéみ込みxíngニューラルネットワークhuíguīxíngニューラルネットワークのアーキテクチャをgaĭshànするために使shĭうことでxìngnéngxiàngshàngxiaòguŏdeであったが、すぐに、chŭzhìかずにアテンションgoùdānでもgaōxìngnéngなモデルをgoùzhúできることがわかった[10]

2017nián6yuèGoogle BrainyīngbănGoogle Research、およびトロントxuéyánjiūzhěbiaŏしたlùnwénで、Transformerアーキテクチャがchūめてshaòjièされた[10]。Transformerは、diéみ込みhuíguīwánquánshěり、アテンションgoùのみにづいたモデルのzhŏngである。cónglaíのRNNにづくモデルとなり、Transformerは、lièdeされるxiàngについてshùnfānsuànすることなくchŭできるため、guībìnglièhuànéngであることをweìした[10]。WMT'14フランス-yīngタスクでは、Transformerアーキテクチャを使shĭyòngしてbiéxùnliànしたフランス-yīngfānモデルが、41.8 BLEUというxīnしいdānモデルのベンチマークをchéngすることができた[10]。Transformerは、daŏlaíduōくのrányánchŭ(NLP)アプリケーションで使shĭyòngされている[53]

Generative Pre-trained Transformer

[biān]
GPTモデルのshì
GPTシリーズのjiaò
アーキテクチャ パラメータshù xùnliànyòngデータ
GPT-1 12céng、12ヘッドのTransformerデコーダ(エンコーダなし)、いでxiànxíngsoftmax 1.2 BookCorpus: 4.5 GBのテキスト、さまざまなジャンルのweìbiaŏxiaŏshuō7000fēn[54]
GPT-2 GPT-1 biànzhŏng 15[55] WebTextコーパス (40 GB)
GPT-3 GPT-2, ただしスケーリングがきくbiàngèngされた 1750 570 GBのpíngwén、4,000のトークン。zhŭCommonCrawlWebTextyīngbănWikipedia、2つのshūコーパス(Books1、Books2)

2018nián6yuè11、OpenAIは「Improving Language Understanding by Generative Pre-Training」(shēngchéngdeshìqiánxuéによるyánjiěxiàngshàng)とするlùnwénbiaŏし、そのzhōngで「Generative Pre-trained Transformer(GPT)」とぶNLPモデルをshaòjièした[9]。このdāngshízuìgaōxìngnénghuīするニューラルNLPモデルでは、zhŭshoŭzuòでラベルけされたliàngのデータをyòngいて、jiaòshīありxuécaĭyòngしていた。こうしたjiaòshīありxuéへのcúnによって、ラベルけがshífēnでないデータセットでのyòngzhìxiànshoùけ、さらにfeīchángguīなモデルをxùnliànするにはfeīchánggaōjiàかつshíjiānもかかっていた[9][56]スワヒリハイチ・クレオールなどのduōくのyánは、コーパスgoùzhúのためのテキストがしているため、このようなモデルをyòngいてfāntōngすることはkùnnánであった[56]。これにduìして、GPTの「bànjiaòshīき」アプローチは、yánモデリングのdeづいてchūパラメータをshèdìngするjiaòshīなしshēngchéngdeshìqiánxuéduànjiēと、これらのパラメータをbiaōdeタスクにshìyīngさせるjiaòshīありshìbiédeweī調diaòzhěngduànjiēの2duànjiēfēnけてxíngわれた[9]

アテンションqiánghuàRNNをháncónglaíshùとはなり、TransformerアーキテクチャをyòngいたGPTには、よりgoùzaòhuàされたbeìわり、それによって「duōyàngなタスクにduìyīngできるwánjiànzhuănxìngnéng」がshíxiànされた[9]

zhuănshíには、トラバースxíngshìshoŭからpaìshēngしたタスクyoŭshìyīngyòngし、goùzaòhuàテキストのdānliánしたトークンlièとしてchŭする。[9]

コーパス

[biān]

jiaòshīなしshìqiánxuéは、さまざまなジャンルにshŭする7,000shàngweìbiaŏxiaŏshuōのデータセット「BooksCorpus」をyòngいてxíngわれた[57]。このデータセットがxuănばれたyoúつは、chángqíngbaòchŭするためのモデルのtiaójiànとして、liánしたchángwénzhāngqiúめられたことにある。yòngnéngのデータセットは、guīきくても、このようなchángfànweídegoùzaòがない(wénレベルで「え」られている)ことをyoúquèxiàされた[9]。BooksCorpusのテキストをクリーニング(diănkōngbaíbiaōzhŭnhuà)するためにftfyライブラリが、トークンhuàではspaCy使shĭわれた[9]

アーキテクチャ

[biān]

GPTのアーキテクチャは、12céngのデコーダのみのTransformerで、それぞれ64yuánzhuàngtaìchíつ12のマスクアテンション・ヘッド(768)を使shĭyòngした。dānchúnquèlwdegoūpeìjiàngxiàではなく、Adamzuìshìhuàアルゴリズム使shĭyòngされた。xuélwは、zuìchūの2,000huígèngxīnでは、0からzuì2.5×10−4までxiànxíngzēngjiāし、コサインスケジュールによって0までアニリーングされた[9]

512liánしたトークンからなるランダムにサンプリングした64のミニバッチのxùnliànを100エポックxíngう。レイヤーノルムはモデルquánguăngyòngわれているため、N(0,0.02)のdānchúnzhòngみのchūhuàshífēnであった。40,000バイトduìhaòhuà(BPE)huìのマージと、zhènghuàにはcánchaīmaíめ込み、アテンションのドロップアウトをlw0.1でxíngった。また、Loshchilov et al. 2017でànされたL2zhènghuàxiūzhèngbăncaĭyòngし、すべてのfeīバイアスウェイトやゲインウェイトはw=0.01とした。

 (zhōnglWè)
yuánzhùànされたzhèngxiánバージョンのdaìわりにxuéされたweìzhìmaíめ込みを使shĭyòngした。
 (zhōnglWè)

zhĭdìngがないxiànり、jiaòshīなしshìqiánxuéでのハイパーパラメータshèdìngzaìyòngする。fēnleìにはドロップアウトをlw0.1でzhuījiāする。ほとんどのタスクでは、xué6.25e-5、バッチサイズ32を使shĭyòngする。このモデルはgaōweī調diaòzhěngされ、ほとんどのchángは3エポックのxùnliànshífēnであった。xuélwxiànxíngjiănshuaīスケジュールをyòngい、ウォームアップはxùnliànの0.2%shàngとした。λは0.5とした[9]

GPTは、weī調diaòzhěngduànjiēdìngのタスクにshìyīngさせたが、shìqiánxuéduànjiēはそうしなかった。さまざまなタスクをshíxíngするために、タスクにcúnしないchŭとなるモデルアーキテクチャにzuìxiaŏxiànbiàngèngjiāえられた[9]。それにもかかわらず、GPTはいくつかのyánchŭタスクにおいてguòのベンチマークをshànghuíり、duōくのduōyàngなタスクにおいて、タスクzhĭxiàngのアーキテクチャをchíshìbiédexùnliànされたモデルよりyoūれていた[9]

xìngnéng

[biān]

rányántuīlùnテキストhántuīlùnyīngbăn(textual entailment)ともばれる)タスクでは、モデルのpíngjiàは、さまざまなデータセットにhánまれるwénduìjiěshìし、それらのguānを「hán」「maódùn」「zhōng」にfēnleìするnéngづいてxíngわれる[9]。たとえば、QNLI(Wikipediashì)やMultiNLI(zhòngxiaŏshuōzhèngbaògaòなど)といったqíngbaòyuánduìして[58]、GPTはcónglaízuìgaōzhíからそれぞれ5.8%、1.5%yoūれていた[9]tóngyàngに、zhíwènyīngchángshìtuīlùnyīngbănguānliánする2つのタスクでも、RACE(zhōngxuéxiaògaōxiaòshìyànwènjiěからなるデータセット)で5.7%[59]クローズ・テストyīngbănで8.9%、cónglaíのモデルをそれぞれshànghuíった[60]

もうつのweìdeleìxìng(またはyánhuànjiănchū)のタスクでは、2つのwénいにyánhuànえであるかどうかをモデルができるかどうかをpíngjiàするもので、Quora Question Pairs(QQP)データセットで、GPTはcónglaízuìgaōxìngnéngモデルよりも4.2%xiàngshàngした[9]。また、Corpus of Linguistic Acceptability(CoLA)をyòngいたテキストfēnleìタスクでは、cónglaízuìgaōスコア35.0にduìしてGPTはスコア45.4をchéngした。zuìhoùに、マルチタスクテストのGLUEで[61]、GPTはzŏngスコア72.8(cónglaíは68.9)をchéngした[9]

GPT-2はGPTのスケールアップbănとしてzuòchéngされ、パラメータshùとデータセットサイズをいずれも10beìにしている[8][9][4]shuāngfāngともjiaòshīなしTransformerモデルで、liánトークンbìngびからdānしてテキストをshēngchéngするようにxùnliànされた。GPT-2モデルは15のパラメータをchíち、800wànのウェブページのデータセットxùnliànxíngわれた[8]。GPT-2は、テキストサンプルzhōngliándānjiěshìし、zuìnéngxìnggaōdānするというfeīchángdānchúnzhŭnqiánghuàされ、zhuījiāされるdānけることでwánquánwénduànluòshēngchéngし、rányánwánquánjiěできる(そしてweìlùndeweìchíつ)wénshēngchéngする[8]に、GPT-2は、ゼロショットshèdìngyīngbănでのタスクにduìするxìngnéngpíngjiàされた。

データセット

[biān]

GPT-2はxīnguīkaīされた WebText コーパスをデータセットとしてyòngしている。

WebTextコーパス

[biān]

WebText コーパスはyuē800wànウェブページからchoūchūされたgaōpĭnzhírányánテキストコーパスである[62]

GPT-2はゼロショットtuīlùnnéngpánモデルをしてkaīされた。biéタスクをmíngshìdexuéせずゼロショットでtuīlùnするには、xuéyòngテキストneìyàng々なタスクのが(タスクラベルしで)hánまれているyaòがあるとkaŏえられる[63]fāngzhíいテキストはモデルのjīngluòとすため[64]コモン・クロールのようなzuòweìshoūされたコーパスはyòngできない[65]。これらのwènjiějuéするためにGPT-2lùnwénkaīされたコーパスが WebText コーパスである。

WebText はrénjiānによるキュレーションをpĭnzhíxiàngshàngyòngしている[66]。まずRedditで3huíshàngzànchéngpiaòshoùけたリンクxiānウェブページをdìngpĭnzhíのテキストとみなし[67]zhòngwénzhāngchú・Wikipediashìxuēchú[68]・ヒューリスティックによるクリーニングをjīngて、zuìzhōngdeyuē800wànのウェブページからchoūchūされたyuē40GBのrányánテキストをWebTextとしている[69]

モデル

[biān]

GPT-2のモデルアーキテクチャはGPT-1のマイナーチェンジbănである。アーキテクチャshàngbiàngèngdiănxiàtōngり:

  • Post LN → Pre LN[70]
  • zuìzhōngアテンションブロックhoùzhuījiāLN[71]
  • cánchaīレイヤーのshēn zhòngchūhuà[72]

アーキテクチャはほぼtóngであるが、GPT-2はGPT-1よりきなモデルとなっている。モデルshàngbiàngèngdiănxiàtōngり:

  • モデルパラメータサイズ: 15yuē13beì[55]
  • ボキャブラリ: 50,257[73]
  • コンテキストトークンcháng: 512→1024[74]

xùnliàn

[biān]

モデルとtóngじくxuéもスケールされており、バッチサイズは512にbiàngèngされている[75]

GPT-2のxùnliànfeìyòngは1shíjiānあたり256ドルであることがzhīられているが[76][77]xùnliànyaòしたzŏngshíjiānmíngなため、xùnliànfeìyòngzŏngézhèngquèjiànもることはできない[78]。しかし、Transformerアーキテクチャをyòngいたtóngděngguīyánモデルでのfeìyòngはよりxiángshùされており、BERTXLNetxùnliànguòchéngでは、それぞれ6,912ドルと245,000ドルのyuánxiaōfeìした[77]

xìngnéng

[biān]
GPT-2がzuòchéngした、2020niánguótŏnglĭngxuănshèngしたhoùエドワード・スノーデンxíngdòngguānするjiàkōngのニュースshìqiáng調diaòbiaŏshìされたテキストはすべてxièshēngchéngしたものである。スノーデンは(shēngchéngshídiănで)gōngzhíxuănchūされたことはなかったが、shēngchéngされたサンプルはwéndeにもwéndeにもtuŏdāngなものである。

GPT-2は、そのデータセットとアプローチのguăngさによって、dānchúnなテキストshēngchéngにとどまらないguăngいタスクにduìyīngできるようになった。zhíwènえたり、chángwényaòyuēしたり、さまざまなdìnglĭngyīngbănyánjiānfānをしたり、liándānfāngshàngのことはzhĭshìされずにshíxíngできる[79][80]

bānhuàxuéは、フランス-yīngjiānxièfānをするGPT-2のnéngであり、そのために、WMT-14のfānタスクを使shĭyòngしてGPT-2のxìngnéngpíngjiàされた。GPT-2のxùnliànyòngコーパスには、フランスのテキストはほとんどhánまれていなかった。xùnliànqiánにデータセットのクリーニングでyīngwaìのテキストをdexuēchúしたため、られた40,000 MBのうちモデルがxùnliàn使shĭyòngできたフランスは10 MBにすぎなかった(ほとんどはyīngtoú稿gaŏshìhánまれたwaìguóyĭnyòng[8]。それでもGPT-2は、WMT-14のyīng-フランスjiānテストセットで5 BLEUをchéngした(dāndānweìでのzhìhuànによるfānをわずかにxiàhuíるスコア)。また、フランスからyīngへのテストセットでGPT-2は、dāngshí(2017nián)のjiaòshīなしxièfānベースラインをshànghuíって、11.5 BLEUをchéngした。これは、33.5 BLEUをchéngしたdāngshí(2019niánzuìgaōxìngnéngjiaòshīなしshoŭxiàhuíるものだった[8]。しかし、のモデルは、このjiéguŏchéngするためにliàngのフランステキストを使shĭyòngしており、fāngのGPT-2は、tóngděngshoŭyuē1/500のサイズのdānyánフランスコーパスを使shĭyòngしたとtuīdìngされた[8]

gōngkaī

[biān]

GPT-2は、2019nián2yuè14chūめてbiaŏされた。2019nián2yuèThe VergejiēzaìされたJames Vincentによるshìでは、『(このプログラムが)zuòchūwénzhāngは、tōngchángrénjiānではないとróngpànbiéできる』ものの、yánshēngchéngプログラムの『これまでで、もっともわくわくするつ』であることにbiànわりはないとshùべている[79]

weìjiànchūしをけると、あとはweìyĭnyòngtŏngjiaōえたcánりをshūいてくれる。duănbiānxiaŏshuōzuìchūxíngすると、dēngchángrénこるかjiaòえてくれる。shìqiēプロンプトmìnglìng)をすれば、ファン・フィクションだってshūける[79]

ガーディアンzhĭはこのchūを『もっともらしいxīnwénsànwén』とbiaŏxiàn[7]VoxKelsey Piperは『がこれまでjiànzhōngzuìもクールなAIシステムのつは、shīzhuīい込むものかもしれない』とshùべている[80]。GPT-2のroúruănxìngは、The Vergeによれば『yìnxiàngde』とpíngされ、deには、yánjiānでのテキストfānchángwénshìyaòyuēxuédezhíwènhuíなどのnéngzhùされた[79]

xiūzhèngチューリングテストをyòngいたアムステルダムxuéyánjiūでは、shaŏなくともいくつかのシナリオで、cānjiāzhěはGPT-2がshēngchéngしたshīrénjiānshūいたshījiànfēnけられないことがfēnかった[81]

zhìxiànfēngōngkaī

[biān]
「Skub」はshízaìするzhìpĭnではないが、DistilGPT2で使shĭyòngされているsuōxiaŏサイズのモデルでさえ、zànchéngfănduìliăngからもっともらしいlùnzuòchūすことができる。

これまでOpenAIのモデルはすぐにbāngōngkaīされていたが、2019nián2yuèbiaŏでは、èyòngされるweīxiănxìngがあるとして[7]、GPT-2のソースコードgōngkaīdāngchūfoŭしていた[7]biaŏshíには、baòdaòguānzhěにのみ、モデルへのzhìxiànきアクセス(ソースコードではなく、でき、chūgōngするインターフェース)がされた。よくyánわれるのは、shēngchéngされたテキストはtōngchángまったくxīnしいものなので、スパマーyīngbăndòngフィルターhuíするためにèyòngするnéngxìngがあるというzhèngdānghuàyoúである。OpenAIは、GPT-2をweī調diaòzhěngして『kěndìngdeまたはfoŭdìngdezhìpĭnレビューをyŏngyuănshēngchéngする』バージョンをshíyănした[7]。もうつのwènは、GPT-2を使shĭyòngすると、わいせつあるいはrénzhŏngchaībiédeなテキストがshēngchéngされるnéngxìngがあることである。ジェレミー・ハワードなどのyánjiūzhěは、『このshùは、Twitterやdiànメール、そしてウェブを、dexiăngきをchíってwén沿yánったsànwénwánquánmaíjĭnし、のすべてのyánをかきxiaōすようなものであり、フィルタリングはnéngになる』とjĭnggaòした[79]アレンréngōngzhīnéngyánjiūsuŏyīngbănは、GPT-2にyīngして「ニューラルフェイクニュース」をjiănchūするツールをbiaŏした[82]

しかし、jiànfēnかれた。2019nián2yuèThe Vergeshìは、GPT-2がもたらすxiéweīkuāzhāngされているとlùn[83]カリフォルニアgōngxuéjiaòshoùNvidiaxièxuéyánjiūディレクターであるAnima Anandkumarは、OpenAIがyánうようなxiéweīをもたらすnéngがGPT-2にあるというzhèngはなく、らがしたことは『オープンとはzhèngfănduì』だとshùべ、wánquánモデルのgōngkaīfoŭしたことを「èのあるたわごとyīngbăn」とみなした[83]The Gradientzhĭは、OpenAIにduìしてモデルのgōngkaīgōngkaīshūjiănbiaŏし、テキストshēngchéngAIがもたらすxiéweīyìnshuāのそれとjiaòし、『húnluànをもたらすnéngxìngがあったにものの、(xìngいにも)xiàndaìshèhuìhuaìしなかったshù』としてPhotoshopげた[84]

30niánhoù、Photoshopはgaōxiaòshēng使shĭえるほどjiăndānで、dòngとしてguăng使shĭわれているにもかかわらず、shèhuìjiaòdeshìですんでいる。なぜか?それは、shuíもがPhotoshopをzhīっているからこそである[84]

774Mgōngkaī

[biān]

OpenAIは、wánquánxuéみモデルや、xùnliànyòngコーパスをgōngkaīしなかったが、guòchūbănにおけるそのshoŭshuōmíng(およびchŭとなるshùchángでのshoŭxìng)により、GPT-2はyoúソフトウェアとしてzhězhìすることがnéngであった。そのようなzhìつ、OpenGPT-2は、OpenWebTextとばれるyoúライセンスbănのWebTextとわせて2019nián8yuègōngkaīされた。OpenGPT-2のクラウドコンピューティングfeìyòngyuē50,000ドルとshìされた[85]

2019nián8yuè20、OpenAIは、77,400wànのパラメータ(15パラメータのwánquánモデルのyuēbànfēnguī)をchíつGPT-2のsuōxiaŏbăngōngkaīした[2]

wánquánbăn1.5Bgōngkaī

[biān]

しかし、GPT-2がguăngfànèyòngにつながるのではないかというdāngchūxuánniànは、xiànshíのものとならなかった。The Vergeは、『AIshùがあるzhŏngの「qíngbaòshìinfopocalypse)」をもたらすというzhŭzhāngにはhuaídeyoúがある。まずに、わずかなコストでもっともらしいwénzhāngliàngshēngchéngできるプログラム、すなわちrénjiāncúnzaìしている。』 とshùべている[86]。2019nián11yuèまでに、OpenAIは『これまでのところèyòngされたqiángzhèngjiànられない』とshùべ、2019nián11yuè5に15のパラメータをchíwánquánbăngōngkaīした[3][14]

xiànjiè

[biān]
GPT-2は、さまざまなシナリオにduìしてテーマに沿yánったテキストをshēngchéngすることができる。たとえば、ドナルド・トランプがアニメ キャラクターのzŏngliú・アスカ・ラングレーshăngzànするyănshuōをしたというCNNshìのようなfeīxiànshídeなものでさえshēngchéngすることができる。ここでは、1.5Bのwánquánモデルであっても、2duànluòではwénlièhuàshĭまり、zuìzhōngdeにはweìmíngwénqiaōfănされるchūなど、chūchángくなるにつれてweìfăndeなテキストをshēngchéngするqīngxiàngjiànられる。

GPT-2のrányánテキストのshēngchéngnéngは、おおむねgaōpíngjiàされているが、duànluòshùが2duànchaōえるchángいテキストをshēngchéngするchángには、そのqiàndiănzhĭzhaīされている。Voxは『sànwénはかなりまかで、ときおりfeīdeなこともあり、shìchángくなればなるほどguànxìngshīわれる』とshùべている[80]The Vergetóngyàngに、GPT-2のwénzhāngchángいサンプルになると『huàがそれる』qīngxiàngがあり、shoŭweĭguànxìngqiànけるとzhĭzhaīした[79]The Registeryīngbănは、『それをんだrénjiānは、しばらくすると、かがきていることにづくはずだ』とpíngし、『GPT-2は、qíngbaòchoūchūりだすためにアルゴリズムにcúnするのシステムとtóngyàngzhíwènにはえていない』とshùべている[76]

GPT-2をdaŏするにはduōくのyuányaòで、wánquánbănモデルのきさは5ギガバイトchaōえるため、アプリケーションにローカルにみ込むことがnánしく、またliàngメモリー(RAM)xiaōfeìする。また、1huíxíngうと『CPUを100%の使shĭyònglwshùfēnjiānzhānyoŭすることがある』ほか、GPUchŭでも『1huíshùmiaŏかかることがある』[6]。これらのwènqīngjiănするために、Hugging Faceは、zhīshìzhēngliú使shĭyòngして、『いくつかのpĭnzhíベンチマークでshùポイントい』ものの、『33%xiaŏさく、2beìい』というxiaŏxíngモデルをzuòchéngするDistilGPT2をkaīした[6]

shízhuāngとそのhoùyánjiū

[biān]

ジャーナリストによってbaòじられたGPT-2のyīngyòngとして、ニュースshìなどのwénzhāngrénjiānshūくことをzhùするなどがげられている[7]。GPT-2は、zhìpĭnbăngōngkaīqiánから、さまざまなアプリケーションやサービス、それにエンターテインメントにyòngされていた。2019nián6yuèにはRedditサイトneìに、r/SubSimulatorGPT2というコミュニティ(サブレディット)がzuòられ、さまざまなサブレディットでxùnliànしたGPT-2のshíインスタンス)がtoú稿gaŏし、いのコメントにfănxìnすることで『r/BitcoinがrénhuàしたAIと、r/ShittyFoodPornのxièxuéyoúlaíするlínglùnする』zhuàngkuàngzuòられた[86]tóngnián7yuèまでに、GPT-2にづいて、さまざまなプログラミングyánのコードxíngdòngwánするソフトウェアがgōngkaīされ、ユーザーから「ゲームチェンジャー(トレンドをbiànえるできごと)」とpíngされた[87]

2019niánには、GPT-2をyòngし、ユーザーのづいてdòngdeテキストアドベンチャーgōngするAI Dungeonyīngbănbiaŏされた[88]。2021niánxiànzaì、AI Dungeonは、オプションのyoŭliaòアップグレードとしてGPT-3のzuìリリースAPIへのアクセスをgōngし、liaòbănではGPT-3の2fānきなリリースを使shĭyòngした[89]。AI DungeonをzhōngxīnshèされたLatitudeは、2021niánkaījīnyīngbăn330wànドルを調diaòした[90]。いくつかのウェブサイトでは、GPT-2やそののTransformerモデルのさまざまなインスタンスのduìhuàdeなデモンストレーションをgōngkaīしている[91][92][93]

2021nián2yuèwènbaòえたティーンエージャーxiàngけのweīguănセンターが、カウンセラーがshídaìhuànzhěhuìhuàをしてトレーニングするために、GPT-2yoúlaíのチャットボットの使shĭyòngshĭめるとbiaŏした(この使shĭyòngchúncuìneìdeであり、GPT-2はティーンエージャーshēnjiaōxìnしなかった)[94]

jiaŏzhù

[biān]
  1. ^ Piper, Kelsey (2019nián5yuè15). “A poetry-writing AI has just been unveiled. It's ... pretty good.”. Vox. 2020nián11yuè7shídiănのオリジナルよりアーカイブ。2020nián12yuè19yuèlăn
  2. ^ a b Johnson, Khari (2019nián8yuè20). “OpenAI releases curtailed version of GPT-2 language model”. VentureBeat. 2020nián12yuè18shídiănのオリジナルよりアーカイブ。2020nián12yuè19yuèlăn
  3. ^ a b Vincent, James (2019nián11yuè7). “OpenAI has published the text-generating AI it said was too dangerous to share”. The Verge. 2020nián6yuè11shídiănのオリジナルよりアーカイブ。2020nián12yuè19yuèlăn
  4. ^ a b c Better Language Models and Their Implications”. OpenAI (2019nián2yuè14). 2020nián12yuè19shídiănのオリジナルよりアーカイブ。2020nián12yuè19yuèlăn
  5. ^ a b Hegde, Chaitra; Patil, Shrikumar (9 June 2020). "Unsupervised Paraphrase Generation using Pre-trained Language Models". arXiv:2006.05477 [cs.CL]。
  6. ^ a b c Kaiser, Caleb (2020nián1yuè31). “Too big to deploy: How GPT-2 is breaking servers”. Towards Data Science. 2020nián2yuè15shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  7. ^ a b c d e f Hern, Alex (2019nián2yuè14). “New AI fake text generator may be too dangerous to release, say creators”. The Guardian. 2019nián2yuè14shídiănのオリジナルよりアーカイブ。2020nián12yuè19yuèlăn
  8. ^ a b c d e f g Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). Language models are unsupervised multitask learners. 1. オリジナルの6 February 2021shídiănにおけるアーカイブ。. https://web.archive.org/web/20210206183945/https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2020nián12yuè19yuèlăn. 
  9. ^ a b c d e f g h i j k l m n o p q r s Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (2018nián6yuè11). 2021nián1yuè26shídiănのオリジナルよりアーカイブ。2021nián1yuè23yuèlăn
  10. ^ a b c d e f Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (12 June 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL]。
  11. ^ a b c d e Olah, Chris; Carter, Shan (8 September 2016). “Attention and Augmented Recurrent Neural Networks”. Distill 1 (9). doi:10.23915/distill.00001. オリジナルの22 December 2020shídiănにおけるアーカイブ。. https://web.archive.org/web/20201222104024/https://distill.pub/2016/augmented-rnns/ 2021nián1yuè22yuèlăn. 
  12. ^ a b c d e f Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]。
  13. ^ a b c d e f g Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 August 2015). "Effective Approaches to Attention-based Neural Machine Translation". arXiv:1508.04025 [cs.CL]。
  14. ^ a b GPT-2: 1.5B Release” (yīng). OpenAI (2019nián11yuè5). 2019nián11yuè14shídiănのオリジナルよりアーカイブ。2019nián11yuè14yuèlăn
  15. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。
  16. ^ Arram (2020nián7yuè9). “GPT-3: An AI that's eerily good at writing almost anything”. Arram Sabeti. 2020nián7yuè20shídiănのオリジナルよりアーカイブ。2020nián7yuè31yuèlăn
  17. ^ Hao, Karen (September 23, 2020). “OpenAI is giving Microsoft exclusive access to its GPT-3 language model” (yīng). MIT Technology Review. https://www.technologyreview.com/2020/09/23/1008729/openai-is-giving-microsoft-exclusive-access-to-its-gpt-3-language-model/ 2020nián9yuè25yuèlăn. ""The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases."" 
  18. ^ Turing, Alan (October 1950), "Computing Machinery and Intelligence", Mind, LIX (236): 433–460, doi:10.1093/mind/LIX.236.433, ISSN 0026-4423
  19. ^ Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi:10.1147/rd.33.0210. 
  20. ^ a b c Hancox, P.J. (1996nián1yuè26). “SEM1A5 – Part 1 – A brief history of NLP”. University of Birmingham. 2021nián1yuè13shídiănのオリジナルよりアーカイブ。2021nián1yuè12yuèlăn
  21. ^ a b Nye, Mary Jo (2016). “Speaking in Tongues: Science's centuries-long hunt for a common language”. Distillations 2 (1): 40–43. オリジナルの3 August 2020shídiănにおけるアーカイブ。. https://web.archive.org/web/20200803130801/https://www.sciencehistory.org/distillations/magazine/speaking-in-tongues 2018nián3yuè22yuèlăn. 
  22. ^ Gordin, Michael D. (2015). Scientific Babel: How Science Was Done Before and After Global English. Chicago, Illinois: University of Chicago Press. ISBN 9780226000299 
  23. ^ John Hutchins. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954 (PDF) (Report). S2CID 132677
  24. ^ Reifler, Erwin (February 2–5, 1960). “The solution of MT linguistic problems through lexicography.”. Proceedings of the National Symposium on Machine Translation. 
  25. ^ Hutchins, John (1997). “From first conception to first demonstration: the nascent years of machine translation, 1947–1954. A chronology.”. Machine Translation 12, 195–252 12 (3): 195–252. doi:10.1023/A:1007969630568. 
  26. ^ Winograd, Terry (1971-01-01) (yīng). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language. hdl:1721.1/7095. オリジナルの2021-01-13shídiănにおけるアーカイブ。. https://web.archive.org/web/20210113121007/https://dspace.mit.edu/handle/1721.1/7095 2021nián1yuè12yuèlăn. 
  27. ^ SHRDLU”. Stanford Human-Computer Interaction (HCI) Group. 2020nián8yuè16shídiănのオリジナルよりアーカイブ。2021nián1yuè12yuèlăn
  28. ^ Weizenbaum, Joseph (January 1966), “ELIZA – A Computer Program For the Study of Natural Language Communication Between Man And Machine”, Communications of the ACM 9 (1): 36–45, doi:10.1145/365153.365168 
  29. ^ Bassett, Caroline (2019). “The computational therapeutic: exploring Weizenbaum's ELIZA as a history of the present”. AI & Society 34 (4): 803–812. doi:10.1007/s00146-018-0825-9. 
  30. ^ Hancox, P.J. (1996nián1yuè26). “SEM1A5 – Part 1 – The state-of-the-art”. University of Birmingham. 2021nián1yuè16shídiănのオリジナルよりアーカイブ。2021nián1yuè12yuèlăn
  31. ^ Howe, J. (1994nián11yuè). “Artificial Intelligence at Edinburgh University : a Perspective”. 2007nián8yuè17shídiănのオリジナルよりアーカイブ。2007nián8yuè30yuèlăn。 “Lighthill's [1973] report provoked a massive loss of confidence in AI by the academic establishment in the UK (and to a lesser extent in the US). It persisted for a decade ― the so-called 'AI Winter'”
  32. ^ a b Russell, Stuart J.; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, p. 24, ISBN 0-13-790395-2, オリジナルの2011-02-28shídiănにおけるアーカイブ。, https://web.archive.org/web/20110228023805/http://aima.cs.berkeley.edu/ 2021nián1yuè12yuèlăn, ""Overall, the AI industry boomed from a few million dollars in 1980 to billions of dollars in 1988. Soon after that came a period called the 'AI Winter'"" 
  33. ^ Rosenblatt, Frank (1957). “The Perceptron—a perceiving and recognizing automaton”. Report 85-460-1 (Cornell Aeronautical Laboratory). 
  34. ^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8 
  35. ^ a b Olazaran, Mikel (1996). “A Sociological Study of the Official History of the Perceptrons Controversy”. Social Studies of Science 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702. 
  36. ^ Minsky, Marvin; Papert, Seymour (1969), Perceptrons: An Introduction to Computational Geometry, MIT Press, ISBN 0-262-63022-2 
  37. ^ a b c d Wilson, Bill (2012nián6yuè24). “The Machine Learning Dictionary”. www.cse.unsw.edu.au. 2018nián8yuè26shídiănオリジナルよりアーカイブ。2021nián1yuè19yuèlăn
  38. ^ a b Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). “6.5 Back-Propagation and Other Differentiation Algorithms”. Deep Learning. MIT Press. pp. 200–220. ISBN 9780262035613. オリジナルの2018-01-27shídiănにおけるアーカイブ。. https://web.archive.org/web/20180127104809/http://www.deeplearningbook.org/ 2021nián3yuè14yuèlăn 
  39. ^ Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6 
  40. ^ Crevier, Daniel [in yīng] (1993), AI: The Tumultuous Search for Artificial Intelligence, New York, NY: BasicBooks, ISBN 0-465-02997-3
  41. ^ Parker, D.B. (1985). Learning Logic. Cambridge MA: Massachusetts Institute of Technology. 
  42. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986a). “Learning representations by back-propagating errors”. Nature 323 (6088): 533–536. Bibcode1986Natur.323..533R. doi:10.1038/323533a0. 
  43. ^ Fukushima, Kunihiko「weìzhìずれにyĭngxiăngされないパターンrènshìgoùshénjīnghuíのモデル --- ネオコグニトロン ---」『Trans. IECE』J62-A10haò、1979nián10yuè、658–665オリジナルの2021nián1yuè28shídiănにおけるアーカイブ、2021nián1yuè20yuèlăn 
  44. ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). “Deep learning”. Nature 521 (7553): 436–444. Bibcode2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. 
  45. ^ a b c d e Bajpai, Akash (2019nián2yuè23). “Recurrent Neural Networks: Deep Learning for NLP”. Towards Data Science. 2021nián1yuè19yuèlăn
  46. ^ ゼップ・ホッフライター; ユルゲン・シュミットフーバー (1995nián8yuè21), Long Short Term Memory, ftp://ftp.idsia.ch/pub/juergen/fki-207-95.ps.gz , Wikidata Q98967430
  47. ^ ゼップ・ホッフライター; ユルゲン・シュミットフーバー (1997nián), “LSTM can Solve Hard Long Time Lag Problems” (yīng), Advances in Neural Information Processing Systems 9, Advances in Neural Information Processing Systems, https://papers.nips.cc/paper/1215-lstm-can-solve-hard-long-time-lag-problems.pdf , Wikidata Q77698282
  48. ^ Sepp Hochreiter; Jürgen Schmidhuber (1997). “Long short-term memory”. Neural Computation 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. オリジナルの2021-01-22shídiănにおけるアーカイブ。. https://web.archive.org/web/20210122144703/https://www.researchgate.net/publication/13853244_Long_Short-term_Memory 2021nián1yuè20yuèlăn. 
  49. ^ Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (May 2009). “A Novel Connectionist System for Unconstrained Handwriting Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 31 (5): 855–868. doi:10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. 
  50. ^ Märgner, Volker; Abed, Haikal El (July 2009). “ICDAR 2009 Arabic Handwriting Recognition Competition”. 2009 10th International Conference on Document Analysis and Recognition: 1383–1387. doi:10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4. 
  51. ^ Olah, Chris (2015nián8yuè27). “Understanding LSTM Networks”. 2017nián8yuè1shídiănのオリジナルよりアーカイブ。2021nián1yuè22yuèlăn
  52. ^ N-gram Counts and Language Models from the Common Crawl”. pp. 3579–3584 (2014nián5yuè). 2021nián1yuè28shídiănのオリジナルよりアーカイブ。2021nián1yuè22yuèlăn
  53. ^ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim et al. (2020). “Transformers: State-of-the-Art Natural Language Processing”. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6 
  54. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. pp. 19–27. arXiv:1506.06724. https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html. 
  55. ^ a b "Our largest model, GPT-2, is a 1.5B parameter Transformer" Radford. (2019)
  56. ^ a b Tsvetkov, Yulia (2017nián6yuè22). “Opportunities and Challenges in Working with Low-Resource Languages”. Carnegie Mellon University. 2020nián3yuè31shídiănのオリジナルよりアーカイブ。2021nián1yuè23yuèlăn
  57. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015). "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books". arXiv:1506.06724 [cs.CV]. # of books: 11,038 / # of sentences: 74,004,228 / # of words: 984,846,357 / mean # of words per sentence: 13 / median # of words per sentence: 11
  58. ^ A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference”. Association for Computational Linguistics (2018nián6yuè1). 2020nián2yuè11shídiănのオリジナルよりアーカイブ。2021nián1yuè23yuèlăn。 “At 433k examples, this resource is one of the largest corpora available for natural language inference (a.k.a. recognizing textual entailment), [...] offering data from ten distinct genres of written and spoken English [...] while supplying an explicit setting for evaluating cross-genre domain adaptation.”
  59. ^ Lai, Guokun; Xie, Qizhe; Hanxiao, Liu; Yang, Yiming; Hovy, Eduard (15 April 2017). "RACE: Large-scale ReAding Comprehension Dataset From Examinations". arXiv:1704.04683 [cs.CL]。
  60. ^ LSDSem 2017 Shared Task: The Story Cloze Test”. Association for Computational Linguistics (2017nián4yuè3). 2020nián11yuè22shídiănのオリジナルよりアーカイブ。2021nián1yuè23yuèlăn。 “The LSDSem’17 shared task is the Story Cloze Test, a new evaluation for story understanding and script learning. This test provides a system with a four-sentence story and two possible endings, and the system must choose the correct ending to the story. Successful narrative understanding (getting closer to human performance of 100%) requires systems to link various levels of semantics to commonsense knowledge.”
  61. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omar; Bowman, Samuel R. (20 April 2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". arXiv:1804.07461 [cs.CL]。
  62. ^ "a new dataset of millions of webpages called WebText ... which emphasizes document quality." Radford. (2019). Language Models are Unsupervised Multitask Learners.
  63. ^ "Our approach motivates building as large and diverse a dataset as possible in order to collect natural language demonstrations of tasks in as varied of domains and contexts as possible." Radford. (2019)
  64. ^ Trinh, Trieu H.; Le, Quoc V. (7 June 2018). "A Simple Method for Commonsense Reasoning". arXiv:1806.02847 [cs.CL]。
  65. ^ "Common Crawl ... they have significant data quality issues ... We observed similar data issues in our initial experiments with Common Crawl." Radford. (2019)
  66. ^ "emphasizes document quality. To do this we only scraped web pages which have been curated/filtered by humans." Radford. (2019)
  67. ^ "we scraped all outbound links from Reddit, a social media platform, which received at least 3 karma." Radford. (2019)
  68. ^ duōくのデータセットにhánまれているので、guòshèngshìyuányīnとなるnéngxìngがあった
  69. ^ "a preliminary version of WebText ... which ... contains slightly over 8 million documents for a total of 40 GB of text." Radford. (2019)
  70. ^ "Layer normalization ... was moved to the input of each sub-block" Radford. (2019)
  71. ^ "an additional layer normalization was added after the final self-attention block." Radford. (2019)
  72. ^ "A modified initialization which accounts for the accumulation on the residual path with model depth ... scale the weights of residual layers at initialization by a factor of 1/√N where N is the number of residual layers." Radford. (2019)
  73. ^ "The vocabulary is expanded to 50,257." Radford. (2019)
  74. ^ "We also increase the context size from 512 to 1024 tokens" Radford. (2019)
  75. ^ "a larger batchsize of 512 is used." Radford. (2019)
  76. ^ a b Quach, Katyanna (2019nián2yuè14). “Roses are red, this is sublime: We fed OpenAI's latest chat bot a classic Reg headline”. The Register. 2021nián3yuè9shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  77. ^ a b The Staggering Cost of Training SOTA AI Models”. Synced (2019nián6yuè27). 2020nián11yuè24shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  78. ^ Wiggers, Kyle (2020nián3yuè23). “Google open-sources framework that reduces AI training costs by up to 80%”. VentureBeat. 2020nián11yuè26shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  79. ^ a b c d e f Vincent, James (2019nián2yuè14). “OpenAI's new multitalented AI writes, translates, and slanders”. The Verge. 2020nián12yuè18shídiănのオリジナルよりアーカイブ。2020nián12yuè19yuèlăn
  80. ^ a b c Piper, Kelsey (2019nián2yuè14). “An AI helped us write this article”. Vox. 2020nián11yuè8shídiănのオリジナルよりアーカイブ。2020nián12yuè19yuèlăn
  81. ^ Köbis, Nils; Mossink, Luca D. (1 January 2021). “Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human-written poetry”. Computers in Human Behavior 114: 106553. doi:10.1016/j.chb.2020.106553. 
  82. ^ Schwartz, Oscar (2019nián7yuè4). “Could 'fake text' be the next global political threat?”. The Guardian. オリジナルの2019nián7yuè16shídiănにおけるアーカイブ。. https://web.archive.org/web/20190716035703/https://www.theguardian.com/technology/2019/jul/04/ai-fake-text-gpt-2-concerns-false-information 2019nián7yuè16yuèlăn 
  83. ^ a b Vincent, James (2019nián2yuè21). “AI researchers debate the ethics of sharing potentially harmful programs”. The Verge. 2021nián2yuè9shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  84. ^ a b Zhang, Hugh (2019nián2yuè19). “OpenAI: Please Open Source Your Language Model”. The Gradient. 2021nián1yuè28shídiănのオリジナルよりアーカイブ。2021nián2yuè28yuèlăn
  85. ^ OpenGPT-2: We Replicated GPT-2 Because You Can Too”. Noteworthy (2019nián8yuè22). 2021nián2yuè27yuèlăn
  86. ^ a b Vincent, James (2019nián6yuè6). “There's a subreddit populated entirely by AI personifications of other subreddits”. The Verge. 2021nián2yuè21shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  87. ^ Vincent, James (2019nián7yuè24). “This AI-powered autocompletion software is Gmail's Smart Compose for coders”. The Verge. 2021nián3yuè9shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  88. ^ Olson, Mathew (2019nián12yuè17). “AI Dungeon 2, the Text Adventure Where You Can do Nearly Anything, Is Now on Mobile”. 2020nián9yuè20shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  89. ^ Nelius, Joanna (2020nián8yuè3). “This AI-Powered Choose-Your-Own-Adventure Text Game Is Super Fun and Makes No Sense”. Gizmodo. 2021nián2yuè28shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  90. ^ Ha, Anthony (2021nián2yuè4). “AI Dungeon-maker Latitude raises $3.3M to build games with 'infinite' story possibilities”. TechCrunch. 2021nián2yuè21shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn
  91. ^ Write With Transformer”. 2019nián12yuè4yuèlăn
  92. ^ Talk to Transformer”. 2019nián12yuè4yuèlăn
  93. ^ CreativeEngines”. 2021nián6yuè25yuèlăn
  94. ^ An AI is training counselors to deal with teens in crisis”. MIT Technology Review (2021nián2yuè26). 2021nián2yuè27shídiănのオリジナルよりアーカイブ。2021nián2yuè27yuèlăn