Generative Pre-trained Transformer 2 (GPT-2 ) は、2019年 nián 2月 yuè にOpenAI によって開 kaī 発 fā されたオープンソース の人 rén 工 gōng 知 zhī 能 néng ソフトウェアである[ 1] [ 2] [ 3] [ 4] 。GPT-2は、テキストを翻 fān 訳 yì し、質 zhí 問 wèn に答 dá え 、文 wén 章 zhāng の要 yaò 約 yuē を行 xíng い[ 5] 、時 shí には人 rén 間 jiān と見 jiàn 分 fēn けがつかない ようなテキスト出 chū 力 lì を生 shēng 成 chéng するが[ 6] 、長 cháng い文 wén 章 zhāng を生 shēng 成 chéng すると繰 qiaō り返 făn したり意 yì 味 weì 不 bù 明 míng な表 biaŏ 現 xiàn になることもある[ 7] 。GPT-2は、多 duō 目 mù 的 de 学 xué 習 xí 器 qì であり、特 tè 定 dìng のタスク(仕 shì 事 shì )を行 xíng うための特 tè 別 bié な訓 xùn 練 liàn を受 shoù けてはおらず、これらのタスクを行 xíng う能 néng 力 lì は、任 rèn 意 yì の順 shùn 序 xù で次 cì の項 xiàng 目 mù を正 zhèng 確 què に合 hé 成 chéng する一 yī 般 bān 的 de な能 néng 力 lì の延 yán 長 cháng 線 xiàn 上 shàng にある[ 8] [ 5] 。GPT-2は、OpenAIの2018年 nián 版 băn GPT モデルの「スケールアップ版 băn 」として構 goù 築 zhú され[ 9] 、パラメータ数 shù と訓 xùn 練 liàn 用 yòng データセットがともに10倍 beì に増 zēng 加 jiā した[ 4] 。
GPTアーキテクチャは、ディープラーニング(深 shēn 層 céng 学 xué 習 xí ) によるニューラルネットワーク 、具 jù 体 tĭ 的 de には「トランスフォーマー(Transformer )モデル」を実 shí 装 zhuāng しており[ 9] 、これまでの回 huí 帰 guī 型 xíng や畳 dié み込み型 xíng のアーキテクチャの代 daì わりに「アテンション 」を使 shĭ 用 yòng している[ 10] [ 11] 。アテンション機 jī 構 goù により、モデルは、入 rù 力 lì テキストの中 zhōng から最 zuì も関 guān 連 lián 性 xìng が高 gaō いと予 yŭ 測 cè される部 bù 位 weì に選 xuăn 択 zé 的 de に焦 jiaō 点 diăn を当 dāng てることができる[ 12] [ 13] 。このモデルでは、並 bìng 列 liè 化 huà を大 dà 幅 fú に向 xiàng 上 shàng させることができ、RNN/CNN/LSTMに基 jī づくモデルのこれまでのベンチマーク よりも優 yoū れた性 xìng 能 néng を発 fā 揮 huī している[ 9] 。
OpenAIは、2019年 nián 11月 yuè 、GPT-2言 yán 語 yŭ モデルの完 wán 全 quán 版 băn (15億 yì 個 gè のパラメータを含 hán む)を公 gōng 開 kaī した[ 14] 。GPT-2に続 xù いて、1,750億 yì 個 gè のパラメータを含 hán むGPT-3 [ 15] が、2020年 nián に公 gōng 開 kaī される予 yŭ 定 dìng だった[ 16] (そのソースコードは公 gōng 開 kaī されていない)。GPT-3へのアクセスは、OpenAIとマイクロソフト が提 tí 供 gōng するアプリケーションプログラミングインタフェース (API)を通 tōng じてのみ提 tí 供 gōng されている[ 17] 。
コンピュータの黎 lí 明 míng 期 qī (英 yīng 語 yŭ 版 băn ) から人 rén 工 gōng 知 zhī 能 néng は研 yán 究 jiū 対 duì 象 xiàng であった。1950年 nián にアラン・チューリング が提 tí 唱 chàng した「イミテーション・ゲーム (imitation game)」(しばしばチューリング・テストと呼 hū ばれる)は、電 diàn 子 zĭ システムや機 jī 械 xiè 的 de システムの知 zhī 的 de 行 xíng 動 dòng をとる能 néng 力 lì を、評 píng 価 jià 者 zhě がシステムと人 rén 間 jiān の行 xíng 動 dòng を区 qū 別 bié する能 néng 力 lì によって判 pàn 定 dìng することを提 tí 案 àn するものである[ 18] 。「機 jī 械 xiè 学 xué 習 xí (machine learning)」という用 yòng 語 yŭ は、早 zaŏ くも1959年 nián に、IBM の研 yán 究 jiū 者 zhě であるアーサー・サミュエル によって、人 rén 工 gōng 知 zhī 能 néng の可 kě 能 néng 性 xìng を説 shuō 明 míng する言 yán 葉 xié として最 zuì 初 chū に使 shĭ われた[ 19] 。現 xiàn 在 zaì 、この用 yòng 語 yŭ には、統 tŏng 計 jì 的 de 学 xué 習 xí 、データサイエンス 、ニューラルネットワーク など、計 jì 算 suàn 問 wèn 題 tí に対 duì するさまざまな手 shoŭ 法 fă (しばしば人 rén 工 gōng 知 zhī 能 néng の下 xià に置 zhì かれる)が包 baō 含 hán されている。
コンピュータによる自 zì 然 rán 言 yán 語 yŭ 処 chŭ 理 lĭ (NLP)は、もともと計 jì 算 suàn 言 yán 語 yŭ 学 xué の一 yī 分 fēn 野 yě として考 kaŏ えられていたもので、コンピュータのハードウェアに能 néng 力 lì が備 beì わると同 tóng 時 shí に試 shì みられるようになった。1948年 nián 、ロンドンのバークベック・カレッジ で開 kaī 発 fā された辞 cí 書 shū ルックアップテーブル が最 zuì 初 chū の応 yīng 用 yòng 例 lì である[ 20] 。1954年 nián のジョージタウン大 dà 学 xué での実 shí 験 yàn (英 yīng 語 yŭ 版 băn ) では、60文 wén のロシア語 yŭ の文 wén 章 zhāng を英 yīng 語 yŭ に翻 fān 訳 yì するという(主 zhŭ にロシア語 yŭ の単 dān 語 yŭ を英 yīng 語 yŭ の同 tóng 義 yì 語 yŭ に置 zhì き換 huàn える)完 wán 全 quán に自 zì 動 dòng 化 huà された機 jī 械 xiè 翻 fān 訳 yì が実 shí 演 yăn された[ 21] [ 22] 。そのシステムには6つの文 wén 法 fă 規 guī 則 zé と250語 yŭ の語 yŭ 彙 huì しかなく[ 23] 、統 tŏng 語 yŭ 構 goù 造 zaò の解 jiě 析 xī や翻 fān 訳 yì も行 xíng われなかったため、翻 fān 訳 yì は粗 cū 雑 zá なものが多 duō かった[ 24] 。しかし、この実 shí 験 yàn によって、コンピュータが自 zì 然 rán 言 yán 語 yŭ を解 jiě 釈 shì し処 chŭ 理 lĭ できることが一 yī 般 bān に証 zhèng 明 míng され[ 25] 、さらなる研 yán 究 jiū のためにCIA の資 zī 金 jīn が確 què 保 baŏ された[ 21] 。直 zhí 接 jiē 置 zhì 換 huàn は、機 jī 械 xiè 翻 fān 訳 yì プログラムを評 píng 価 jià する際 jì の基 jī 準 zhŭn として残 cán 存 cún している。
20世 shì 紀 jì 半 bàn ばには、人 rén 間 jiān とコンピュータの対 duì 話 huà (HCI)に自 zì 然 rán 言 yán 語 yŭ を利 lì 用 yòng するシステムも登 dēng 場 cháng し始 shĭ めた。1968年 nián から1970年 nián にかけてMITで開 kaī 発 fā された「SHRDLU 」は、いくつかの物 wù 体 tĭ がある仮 jiă 想 xiăng 空 kōng 間 jiān で、ユーザーが自 zì 然 rán 言 yán 語 yŭ による命 mìng 令 lìng を使 shĭ って対 duì 話 huà を行 xíng うプログラムである(たとえば「今 jīn 持 chí っているものより高 gaō いブロックを探 tàn して、箱 xiāng の中 zhōng に入 rù れる」)[ 26] [ 27] 。1966年 nián に開 kaī 発 fā されたおしゃべりロボット の「ELIZA 」は、人 rén 間 jiān の対 duì 話 huà 者 zhě が入 rù 力 lì したテキストからキーワードを解 jiě 析 xī し、会 huì 話 huà に適 shì する返 făn 答 dá をした[ 28] 。多 duō くの被 beì 験 yàn 者 zhě が、ELIZAの会 huì 話 huà と人 rén 間 jiān の会 huì 話 huà を区 qū 別 bié できないと主 zhŭ 張 zhāng したが、これが知 zhī 性 xìng を構 goù 成 chéng するかどうかという問 wèn 題 tí については議 yì 論 lùn となった(もっとも有 yoŭ 名 míng な台 taí 本 běn は、心 xīn 理 lĭ 療 liaó 法 fă 士 shì がユーザーの言 yán ったことをほぼそのまま繰 qiaō り返 făn すというパロディであった)[ 29] 。
機 jī 械 xiè 翻 fān 訳 yì の初 chū 期 qī の試 shì みは純 chún 粋 cuì に計 jì 算 suàn によるものだったが、1950年 nián 代 daì になると、計 jì 算 suàn 言 yán 語 yŭ 学 xué の主 zhŭ 流 liú がノーム・チョムスキー の普 pŭ 遍 biàn 文 wén 法 fă という概 gaì 念 niàn が重 zhòng 視 shì されるようになった[ 20] 。当 dāng 時 shí のNLP研 yán 究 jiū は、任 rèn 意 yì の自 zì 然 rán 言 yán 語 yŭ の文 wén を、言 yán 語 yŭ に依 yī 存 cún しない論 lùn 理 lĭ 構 goù 造 zaò に還 huán 元 yuán する試 shì みが中 zhōng 心 xīn であった。1970年 nián 代 daì には、意 yì 味 weì 論 lùn 的 de なNLPシステムは、構 goù 文 wén 的 de なエンコーディング (syntactic encodings)を避 bì け、より一 yī 般 bān 意 yì 味 weì 論 lùn 的 de なエンコーディング(semantic encodings)を支 zhī 持 chí するようになった[ 30] 。しかし、ニューラルネットワーク が登 dēng 場 cháng するまでは、ほとんどのシステムが、手 shoŭ 作 zuò 業 yè でプログラムされた大 dà 規 guī 模 mó な(そしてますます扱 xī いにくくなった)ルールセット に依 yī 存 cún し続 xù け、当 dāng 初 chū の狙 jū いどおりに拡 kuò 張 zhāng することはできなかった[ 20] 。
人 rén 工 gōng 知 zhī 能 néng の分 fēn 野 yě は20世 shì 紀 jì 後 hoù 半 bàn も発 fā 展 zhăn を続 xù けたが、ときおり「AIの冬 dōng 」と呼 hū ばれる停 tíng 滞 zhì 期 qī が訪 făng れた。さまざまな文 wén 献 xiàn で、 「AIの冬 dōng 」はさまざまな時 shí 期 qī に発 fā 生 shēng したと述 shù べられている。1994年 nián にHoweは、1973年 nián に始 shĭ まって10年 nián 続 xù いたと著 zhù し[ 31] 、2003年 nián のRussell & Norvigは、1988年 nián にすぐ始 shĭ まったと述 shù べている[ 32] 。
人 rén 工 gōng 知 zhī 能 néng の初 chū 期 qī の概 gaì 念 niàn であるコネクショニズム は、生 shēng 物 wù 学 xué 的 de な脳 naŏ におけるニューロン(神 shén 経 jīng 細 xì 胞 baō ) の挙 jŭ 動 dòng をシミュレートするように設 shè 計 jì された人 rén 工 gōng ニューラルネットワーク によって知 zhī 的 de 行 xíng 動 dòng を引 yĭn き起 qĭ こそうとするものであった。人 rén 工 gōng ニューラルネットワークの最 zuì 初 chū の例 lì は、1951年 nián に構 goù 築 zhú された「SNARC (英 yīng 語 yŭ 版 băn ) 」である。「パーセプトロン 」(二 èr 値 zhí 分 fēn 類 leì 器 qì の一 yī 種 zhŏng )は、1957年 nián に心 xīn 理 lĭ 学 xué 者 zhě のフランク・ローゼンブラット によって発 fā 表 biaŏ された[ 33] 。彼 bĭ の機 jī 械 xiè は、400個 gè のフォトセル(光 guāng 電 diàn 池 chí ) を「ニューロン」に接 jiē 続 xù して画 huà 像 xiàng 認 rèn 識 shì するように設 shè 計 jì され、加 jiā 重 zhòng 値 zhí はポテンショメータ で決 jué 定 dìng されていた(訓 xùn 練 liàn 過 guò 程 chéng で電 diàn 気 qì モーターで調 diaò 整 zhěng [ 34] )。パーセプトロンは大 dà きな話 huà 題 tí となり、ニューヨーク・タイムズ 紙 zhĭ の記 jì 事 shì で『(海 haĭ 軍 jūn が)期 qī 待 daì する電 diàn 子 zĭ コンピュータの萠 méng 芽 yá は、歩 bù き、話 huà し、見 jiàn て、書 shū き、自 zì 己 jĭ 複 fù 製 zhì し、自 zì 分 fēn の存 cún 在 zaì を意 yì 識 shì できるようになるだろう』と紹 shaò 介 jiè された[ 35] 。しかし、マービン・ミンスキー とシーモア・パパート による1969年 nián の書 shū 籍 jí 「パーセプトロン:計 jì 算 suàn 機 jī 科 kē 学 xué への道 daò (英 yīng 語 yŭ 版 băn ) 」において[ 36] 、当 dāng 時 shí の最 zuì 先 xiān 端 duān 技 jì 術 shù (単 dān 層 céng パーセプトロン)の欠 qiàn 点 diăn として、排 paí 他 tā 的 de 論 lùn 理 lĭ 和 hé (XOR)関 guān 数 shù を符 fú 号 haò 化 huà できないことなどが指 zhĭ 摘 zhaī されて以 yĭ 来 laí 、パーセプトロンシステムは数 shù 十 shí 年 nián 間 jiān も衰 shuaī 退 tuì したままであった。この本 běn は当 dāng 時 shí 、有 yoŭ 望 wàng な研 yán 究 jiū 分 fēn 野 yě としてのパーセプトロン(および一 yī 般 bān 的 de なニューラルネットワーク)を否 foŭ 定 dìng するものと考 kaŏ えられていた[ 35] 。
ニューラルネットワークは、「訓 xùn 練 liàn (training)」および「学 xué 習 xí (learning)」という過 guò 程 chéng を経 jīng て、さまざまな入 rù 力 lì を分 fēn 類 leì することができるようになる(すなわち個 gè 別 bié のカテゴリに区 qū 分 fēn する)。学 xué 習 xí は、まずネットワークの重 zhòng み(各 gè ニューロンの「活 huó 性 xìng 化 huà 」が後 hoù 続 xù 層 céng の特 tè 定 dìng ニューロンの活 huó 性 xìng 化 huà に影 yĭng 響 xiăng を与 yŭ える量 liàng )をランダム (無 wú 作 zuò 為 weì )に初 chū 期 qī 化 huà する。この状 zhuàng 態 taì では、ネットワークの出 chū 力 lì も同 tóng 様 yàng にランダムとなる。そして、ネットワークの出 chū 力 lì がどれだけ望 wàng ましいできばえに近 jìn いかを定 dìng 量 liàng 的 de に測 cè 定 dìng する損 sŭn 失 shī 関 guān 数 shù などの目 mù 的 de 関 guān 数 shù を定 dìng 義 yì する(たとえば、手 shoŭ 書 shū きの数 shù 字 zì からなる入 rù 力 lì が、その数 shù 字 zì に対 duì 応 yīng する出 chū 力 lì ニューロンのみを活 huó 性 xìng 化 huà させる頻 pín 度 dù )[ 37] 。この関 guān 数 shù とネットワークのできばえから、重 zhòng みを調 diaò 整 zhěng して性 xìng 能 néng を改 gaĭ 善 shàn することができる[ 38] 。
バックプロパゲーション は、1974年 nián のポール・ワーボス (英 yīng 語 yŭ 版 băn ) の学 xué 位 weì 論 lùn 文 wén で初 chū めて機 jī 械 xiè 学 xué 習 xí システムに適 shì 用 yòng した教 jiaò 師 shī あり アルゴリズムであり[ 39] 、所 suŏ 与 yŭ の入 rù 出 chū 力 lì 例 lì に対 duì するネットワーク全 quán 体 tĭ の重 zhòng みの最 zuì 適 shì 調 diaò 整 zhěng を記 jì 述 shù するベクトル場 cháng である「勾 goū 配 peì 」の計 jì 算 suàn を効 xiaò 率 lw 化 huà した[ 38] [ 37] 。この勾 goū 配 peì を使 shĭ 用 yòng してニューラルネットワークを訓 xùn 練 liàn する勾 goū 配 peì 降 jiàng 下 xià 法 fă によって、より複 fù 雑 zá なシステムを構 goù 築 zhú することが可 kě 能 néng となり、1980年 nián 代 daì にはニューラルネットワークの自 zì 然 rán 言 yán 語 yŭ 処 chŭ 理 lĭ への応 yīng 用 yòng が広 guăng まることになった[ 40] [ 32] 。1985年 nián にはD.B. Parkerがワーボスの手 shoŭ 法 fă を再 zaì 発 fā 見 jiàn し[ 41] 、1986年 nián にはラメルハート 、ヒントン 、ウイリアムス が「深 shēn 層 céng 学 xué 習 xí (ディープラーニング )」ネットワークと呼 hū ばれる隠 yĭn れ層 céng を持 chí つニューラルネットワークで、入 rù 力 lì データの内 neì 部 bù 表 biaŏ 現 xiàn を生 shēng 成 chéng するためにこの手 shoŭ 法 fă を応 yīng 用 yòng し[ 42] 、この研 yán 究 jiū はその後 hoù の回 huí 帰 guī 型 xíng ニューラルネットワーク の基 jī 礎 chŭ を築 zhú いた。
従 cóng 来 laí の順 shùn 伝 yún 播 bō 型 xíng ニューラルネットワーク (FFNN)は、各 gè 層 céng が前 qián の層 céng からの出 chū 力 lì を取 qŭ り入 rù れ、次 cì の層 céng に送 sòng り出 chū すことからその名 míng が付 fù けられた。FFNNの構 goù 造 zaò には、情 qíng 報 baò が逆 nì 流 liú するような「巡 xún 回 huí (cycles)」は存 cún 在 zaì しない。これに対 duì して、回 huí 帰 guī 型 xíng ニューラルネットワーク (RNN)は、活 huó 性 xìng 化 huà の流 liú れの巡 xún 回 huí を少 shaŏ なくとも一 yī つ持 chí っている[ 37] 。RNNネットワークでは、ある項 xiàng 目 mù そのものと、以 yĭ 前 qián の項 xiàng 目 mù を処 chŭ 理 lĭ したときの出 chū 力 lì の両 liăng 方 fāng を使 shĭ 用 yòng して一 yī 連 lián の項 xiàng 目 mù を処 chŭ 理 lĭ できるため、順 shùn 序 xù 付 fù いた項 xiàng 目 mù を処 chŭ 理 lĭ する(および将 jiāng 来 laí の順 shùn 序 xù 項 xiàng 目 mù を予 yŭ 測 cè する)ためによく使 shĭ 用 yòng された[ 37] 。
1979年 nián に福 fú 島 daŏ 邦 bāng 彦 yàn が哺 bŭ 乳 rŭ 動 dòng 物 wù の視 shì 覚 jué 野 yě における神 shén 経 jīng 構 goù 造 zaò モデルに基 jī づいて提 tí 唱 chàng したネオコグニトロン [ 43] は、画 huà 像 xiàng 処 chŭ 理 lĭ で広 guăng く使 shĭ われる畳 dié み込みニューラルネットワーク (CNN)の基 jī 礎 chŭ を築 zhú いた[ 44] 。CNNは、大 dà きな入 rù 力 lì 層 céng に対 duì して小 xiaŏ さな層 céng を「重 zhòng ねて滑 huá らせる」ことで、より少 shaŏ ない計 jì 算 suàn 量 liàng でより深 shēn い処 chŭ 理 lĭ を行 xíng うことができる。たとえば、100×100の画 huà 像 xiàng には10,000個 gè の画 huà 素 sù があり、全 quán 結 jié 合 hé 層 céng で処 chŭ 理 lĭ するには10,000個 gè の重 zhòng みが必 bì 要 yaò だが、画 huà 像 xiàng 上 shàng をスライドする5×5の「窓 chuān 」からなる畳 dié み込み層 céng では、わずか25個 gè の学 xué 習 xí 可 kě 能 néng なパラメータでエッジ検 jiăn 出 chū を行 xíng うことが可 kě 能 néng である。畳 dié み込み層 céng は「プーリング層 céng 」によって結 jié 合 hé され、「全 quán 結 jié 合 hé 層 céng 」(一 yī 般 bān 的 de に多 duō 層 céng パーセプトロン )によって処 chŭ 理 lĭ される。
自 zì 然 rán 言 yán 語 yŭ 処 chŭ 理 lĭ のための機 jī 械 xiè 学 xué 習 xí [ 編 biān 集 jí ]
回 huí 帰 guī 型 xíng ニューラルネットワーク(RNN)は、系 xì 列 liè 的 de な情 qíng 報 baò を処 chŭ 理 lĭ することができるため、多 duō くの自 zì 然 rán 言 yán 語 yŭ 処 chŭ 理 lĭ (NLP)アプリケーションで利 lì 用 yòng されている。RNNは、FFNNとは異 yì なり、同 tóng じ項 xiàng 目 mù に対 duì して、順 shùn 序 xù 項 xiàng 目 mù の周 zhoū 囲 weí の状 zhuàng 況 kuàng に応 yīng じて異 yì なる重 zhòng みを符 fú 号 haò 化 huà する(そして異 yì なる出 chū 力 lì を与 yŭ える)ことができる。ということは、一 yī 度 dù に一 yī 個 gè の単 dān 語 yŭ を解 jiě 析 xī するRNNシステムでも、「黒 heī い犬 quăn (black dog)」は毛 maó むくじゃらの脚 jiaŏ 、「アメリカンドッグ (corn dog)」はケチャップ、「幻 huàn 日 rì (sun dog)」は屈 qū 折 zhé のように、同 tóng じ「dog」から異 yì なる連 lián 想 xiăng ができる。さらに、RNNでは、以 yĭ 前 qián の順 shùn 序 xù 項 xiàng 目 mù の情 qíng 報 baò を再 zaì 帰 guī 的 de に呼 hū び出 chū すことができるため、ずっと以 yĭ 前 qián に遡 sù って任 rèn 意 yì の項 xiàng 目 mù を思 sī い出 chū すようにシステムを設 shè 計 jì することができる。たとえば、「トムは黒 heī い犬 quăn を見 jiàn た」「トムはアメリカンドッグを見 jiàn た」「トムは幻 huàn 日 rì を見 jiàn た」という順 shùn 序 xù 項 xiàng 目 mù を、それぞれ「優 yoū しく」「飢 jī えて」「間 jiān 接 jiē 的 de に」と続 xù けることができるようになる[ 45] [ 11] 。
しかし、多 duō 層 céng 型 xíng のFFNNとRNNは優 yoū れた解 jiě を出 chū せる一 yī 方 fāng で、どちらも勾 goū 配 peì 消 xiaō 失 shī 問 wèn 題 tí に対 duì して脆 cuì 弱 ruò であることが判 pàn 明 míng した。勾 goū 配 peì は有 yoŭ 限 xiàn 精 jīng 度 dù の数 shù 値 zhí として符 fú 号 haò 化 huà され、モデルの全 quán ての層 céng にわたって逆 nì 伝 yún 播 bō する必 bì 要 yaò があるため、多 duō 数 shù の層 céng を重 zhòng ねるとゼロに「消 xiaō 滅 miè 」、または無 wú 限 xiàn 大 dà に「発 fā 散 sàn 」する可 kě 能 néng 性 xìng がある。1995年 nián -1997年 nián にかけて、Sepp Hochreiter とJürgen Schmidhuber が初 chū めて提 tí 案 àn した長 cháng ・短 duăn 期 qī 記 jì 憶 yì ネットワーク (LSTM)は、「入 rù 力 lì 」「出 chū 力 lì 」「忘 wàng 却 què 」ゲートを持 chí つ複 fù 数 shù の個 gè 別 bié の「セル」からなる新 xīn しいアーキテクチャを導 daŏ 入 rù することによって、この問 wèn 題 tí を解 jiě 決 jué しようとした[ 46] [ 47] [ 48] 。2009年 nián に、Alex Graves チームが提 tí 出 chū したLSTMに基 jī づくモデルが、手 shoŭ 書 shū き文 wén 字 zì 認 rèn 識 shì のICDAR コンペティションで優 yoū 勝 shèng し[ 49] 、もう一 yī つのモデルは最 zuì も正 zhèng 確 què なモデル、3番 fān 目 mù のモデルは最 zuì も高 gaō 速 sù なモデルであった[ 50] 。
RNNやLSTMが抱 baò えるもう一 yī つの問 wèn 題 tí は、以 yĭ 前 qián の順 shùn 序 xù 項 xiàng 目 mù の文 wén 脈 mò しか考 kaŏ 慮 lw できないことである[ 45] [ 51] 。このため、「トムはバイクに乗 chéng って店 diàn に行 xíng き、キックスタンドを下 xià ろしてエンジンを切 qiē った」のように、「バイク(自 zì 転 zhuăn 車 chē )」が「モーターバイク(オートバイ )」であるという必 bì 要 yaò な文 wén 脈 mò が最 zuì 後 hoù でしか明 míng らかにならない文 wén 章 zhāng を解 jiě 析 xī するときに問 wèn 題 tí を引 yĭn き起 qĭ こすことがある。このような問 wèn 題 tí を解 jiě 決 jué する一 yī つが双 shuāng 方 fāng 向 xiàng LSTM(bidirectional LSTM)であり、双 shuāng 方 fāng 向 xiàng に同 tóng 時 shí に進 jìn 行 xíng することで、「過 guò 去 qù 」と「未 weì 来 laí 」の両 liăng 方 fāng の入 rù 力 lì 特 tè 徴 zhēng にアクセスすることを可 kě 能 néng にする[ 45] 。条 tiaó 件 jiàn 付 fù き確 què 率 lw 場 cháng (CRF)は、タグを使 shĭ って入 rù 力 lì と出 chū 力 lì を直 zhí 接 jiē 結 jié びつける[ 45] 。 上 shàng 記 jì のアプローチの組 zŭ み合 hé わせた、LSTM-CRFネットワークやBI-LSTM-CRFネットワークもある[ 45] 。その他 tā に、RNNモデルの改 gaĭ 良 liáng として、ニューラルチューリングマシン (英 yīng 語 yŭ 版 băn ) 、適 shì 応 yīng 計 jì 算 suàn 時 shí 間 jiān (adaptive computation time)、ニューラルプログラマー(neural programmers)、アテンション機 jī 構 goù などがあり、最 zuì 後 hoù のものはGPT-2や関 guān 連 lián 技 jì 術 shù の基 jī 礎 chŭ をなしている[ 11] 。
2010年 nián 代 daì 初 chū 頭 toú まで、ニューラル機 jī 械 xiè 翻 fān 訳 yì で最 zuì 高 gaō の性 xìng 能 néng を発 fā 揮 huī したのは、RNNやLSTMによる「エンコーダネットワーク」が原 yuán 文 wén をベクトル に符 fú 号 haò 化 huà し、そのベクトルを同 tóng 様 yàng のアーキテクチャの「デコーダネットワーク」が処 chŭ 理 lĭ して翻 fān 訳 yì 出 chū 力 lì を得 dé るという「エンコーダ・デコーダ」モデルであった[ 12] 。2014年 nián に、非 feī 常 cháng に複 fù 雑 zá な「アテンション 」機 jī 構 goù が導 daŏ 入 rù され、これらのモデルの性 xìng 能 néng は大 dà 幅 fú に向 xiàng 上 shàng した。アテンション機 jī 構 goù は、デコーダネットワークに、テキスト全 quán 体 tĭ を単 dān 一 yī ベクトルとして解 jiě 析 xī するのではなく、原 yuán 文 wén の特 tè 定 dìng の側 cè 面 miàn に適 shì 応 yīng 的 de に「アテンション(注 zhù 意 yì )」を集 jí 中 zhōng させる能 néng 力 lì を与 yŭ えた[ 12] [ 13] 。
その後 hoù 、2017年 nián には、さらに一 yī 歩 bù 進 jìn んでアテンション機 jī 構 goù を使 shĭ 用 yòng して、RNN/LSTMアーキテクチャを完 wán 全 quán に置 zhì き換 huàn えた「トランスフォーマー(Transformer)」モデルが導 daŏ 入 rù された[ 10] [ 11] 。
エンコーダ・デコーダモデルの制 zhì 約 yuē の一 yī つに、より大 dà きな文 wén 章 zhāng を符 fú 号 haò 化 huà して固 gù 定 dìng 長 cháng のベクトルに圧 yā 縮 suō することの難 nán しさがあり、入 rù 力 lì が大 dà きくなるにつれて性 xìng 能 néng が低 dī 下 xià することがよく見 jiàn られた。2014年 nián 、Bahdanauらは[ 12] 、「整 zhěng 列 liè と翻 fān 訳 yì を共 gòng 同 tóng で行 xíng う」ことができるエンコーダ・デコーダモデルの拡 kuò 張 zhāng を発 fā 表 biaŏ した[ 13] 。Bahdanauモデルのエンコーダ(各 gè 方 fāng 向 xiàng に1000個 gè の隠 yĭn れユニットを持 chí つ双 shuāng 方 fāng 向 xiàng RNN)は、翻 fān 訳 yì された原 yuán 文 wén の各 gè 単 dān 語 yŭ に対 duì して、その文 wén の残 cán り全 quán てを検 jiăn 索 suŏ して関 guān 連 lián する情 qíng 報 baò の位 weì 置 zhì を探 tàn した。従 cóng 来 laí のように入 rù 力 lì 文 wén 全 quán 体 tĭ を固 gù 定 dìng 長 cháng でベクトル化 huà してデコーダに入 rù 力 lì するのではなく、それらの位 weì 置 zhì と以 yĭ 前 qián に生 shēng 成 chéng したターゲット語 yŭ を関 guān 連 lián 付 fù けた「文 wén 脈 mò ベクトル」を生 shēng 成 chéng した[ 12] 。そして、デコーダ(これも1000個 gè の隠 yĭn れユニットを持 chí つ)は、この文 wén 脈 mò ベクトルを使 shĭ 用 yòng して、どこに「注 zhù 意 yì 」を向 xiàng けるかを決 jué 定 dìng した[ 12] [ 13] [ 11] 。
「アテンション」機 jī 構 goù の探 tàn 究 jiū は、Luongらによる2015年 nián の論 lùn 文 wén で継 jì 続 xù された[ 13] 。Bahdanau論 lùn 文 wén に基 jī づく「グローバル」アプローチと、原 yuán 語 yŭ の部 bù 分 fēn 集 jí 合 hé のみを一 yī 度 dù に「考 kaŏ 慮 lw 」する「ローカル」アプローチが試 shì みられ、ローカルアプローチは、アーキテクチャ的 de にはより複 fù 雑 zá だが、計 jì 算 suàn 量 liàng が少 shaŏ なく、訓 xùn 練 liàn が容 róng 易 yì であった[ 13] 。1秒 miaŏ 間 jiān に1,000個 gè のターゲット語 yŭ を翻 fān 訳 yì できるように特 tè 別 bié に設 shè 計 jì された英 yīng 語 yŭ -ドイツ語 yŭ 翻 fān 訳 yì モデルを完 wán 全 quán に訓 xùn 練 liàn するのに7-10日 rì を要 yaò した。その精 jīng 度 dù は、2014年 nián のACL Workshop on Machine Translation(WMT'14)における英 yīng 語 yŭ -ドイツ語 yŭ 文 wén ペアのタスクに対 duì するテストで、23.0 BLEUという結 jié 果 guŏ を達 dá 成 chéng した。これは、以 yĭ 前 qián の試 shì みで達 dá 成 chéng した最 zuì 高 gaō 結 jié 果 guŏ であるBuck et al. 2014によるフレーズベースの言 yán 語 yŭ モデルよりも2.1 BLEU優 yoū れていた[ 52] [ 13] 。
アテンション機 jī 構 goù は、既 jì 存 cún の畳 dié み込み型 xíng ニューラルネットワーク や回 huí 帰 guī 型 xíng ニューラルネットワーク のアーキテクチャを改 gaĭ 善 shàn するために使 shĭ うことで性 xìng 能 néng 向 xiàng 上 shàng に効 xiaò 果 guŏ 的 de であったが、すぐに、何 hé も基 jī 礎 chŭ を置 zhì かずにアテンション機 jī 構 goù 単 dān 独 dú でも高 gaō 性 xìng 能 néng なモデルを構 goù 築 zhú できることがわかった[ 10] 。
2017年 nián 6月 yuè 、Google Brain (英 yīng 語 yŭ 版 băn ) 、Google Research 、およびトロント大 dà 学 xué の研 yán 究 jiū 者 zhě が発 fā 表 biaŏ した論 lùn 文 wén で、Transformer アーキテクチャが初 chū めて紹 shaò 介 jiè された[ 10] 。Transformerは、畳 dié み込み や回 huí 帰 guī を完 wán 全 quán に捨 shě て去 qù り、アテンション機 jī 構 goù のみに基 jī づいたモデルの一 yī 種 zhŏng である。従 cóng 来 laí のRNNに基 jī づくモデルと異 yì なり、Transformerは、系 xì 列 liè 的 de に入 rù 力 lì される各 gè 項 xiàng 目 mù について順 shùn 番 fān に計 jì 算 suàn することなく処 chŭ 理 lĭ できるため、大 dà 規 guī 模 mó な並 bìng 列 liè 化 huà が可 kě 能 néng であることを意 yì 味 weì した[ 10] 。WMT'14フランス語 yŭ -英 yīng 語 yŭ タスクでは、Transformerアーキテクチャを使 shĭ 用 yòng して特 tè 別 bié に訓 xùn 練 liàn したフランス語 yŭ -英 yīng 語 yŭ 翻 fān 訳 yì モデルが、41.8 BLEUという新 xīn しい単 dān 一 yī モデルのベンチマークを達 dá 成 chéng することができた[ 10] 。Transformerは、導 daŏ 入 rù 以 yĭ 来 laí 、多 duō くの自 zì 然 rán 言 yán 語 yŭ 処 chŭ 理 lĭ (NLP)アプリケーションで使 shĭ 用 yòng されている[ 53] 。
GPTモデルの模 mó 式 shì 図 tú
GPTシリーズの比 bĭ 較 jiaò
アーキテクチャ
パラメータ数 shù
訓 xùn 練 liàn 用 yòng データ
GPT-1
12層 céng 、12ヘッドのTransformerデコーダ(エンコーダなし)、次 cì いで線 xiàn 形 xíng softmax
1.2億 yì
BookCorpus : 4.5 GBのテキスト、さまざまなジャンルの未 weì 発 fā 表 biaŏ 小 xiaŏ 説 shuō 7000冊 cè 分 fēn [ 54]
GPT-2
GPT-1 変 biàn 種 zhŏng
15億 yì [ 55]
WebTextコーパス (40 GB)
GPT-3
GPT-2, ただしスケーリングが大 dà きく変 biàn 更 gèng された
1750億 yì
570 GBの平 píng 文 wén 、4,000億 yì のトークン。主 zhŭ にCommonCrawl 、WebText 、英 yīng 語 yŭ 版 băn Wikipedia、2つの書 shū 籍 jí コーパス(Books1、Books2)
2018年 nián 6月 yuè 11日 rì 、OpenAIは「Improving Language Understanding by Generative Pre-Training」(生 shēng 成 chéng 的 de 事 shì 前 qián 学 xué 習 xí による言 yán 語 yŭ 理 lĭ 解 jiě の向 xiàng 上 shàng )と題 tí する論 lùn 文 wén を発 fā 表 biaŏ し、その中 zhōng で「Generative Pre-trained Transformer(GPT) 」と呼 hū ぶNLPモデルを紹 shaò 介 jiè した[ 9] 。この当 dāng 時 shí 、最 zuì 高 gaō 性 xìng 能 néng を発 fā 揮 huī するニューラルNLPモデルでは、主 zhŭ に手 shoŭ 作 zuò 業 yè でラベル付 fù けされた大 dà 量 liàng のデータを用 yòng いて、教 jiaò 師 shī あり学 xué 習 xí を採 caĭ 用 yòng していた。こうした教 jiaò 師 shī あり学 xué 習 xí への依 yī 存 cún によって、ラベル付 fù けが十 shí 分 fēn でないデータセットでの利 lì 用 yòng は制 zhì 限 xiàn を受 shoù け、さらに非 feī 常 cháng に大 dà 規 guī 模 mó なモデルを訓 xùn 練 liàn するには非 feī 常 cháng に高 gaō 価 jià かつ時 shí 間 jiān もかかっていた[ 9] [ 56] 。スワヒリ語 yŭ やハイチ・クレオール語 yŭ などの多 duō くの言 yán 語 yŭ は、コーパス構 goù 築 zhú のためのテキストが不 bù 足 zú しているため、このようなモデルを用 yòng いて翻 fān 訳 yì や通 tōng 訳 yì することは困 kùn 難 nán であった[ 56] 。これに対 duì して、GPTの「半 bàn 教 jiaò 師 shī 付 fù き」アプローチは、言 yán 語 yŭ モデリングの目 mù 的 de に基 jī づいて初 chū 期 qī パラメータを設 shè 定 dìng する教 jiaò 師 shī なし生 shēng 成 chéng 的 de 「事 shì 前 qián 学 xué 習 xí 」段 duàn 階 jiē と、これらのパラメータを標 biaō 的 de タスクに適 shì 応 yīng させる教 jiaò 師 shī あり識 shì 別 bié 的 de 「微 weī 調 diaò 整 zhěng 」段 duàn 階 jiē の2段 duàn 階 jiē に分 fēn けて行 xíng われた[ 9] 。
アテンション強 qiáng 化 huà RNNを含 hán む従 cóng 来 laí の技 jì 術 shù とは異 yì なり、Transformerアーキテクチャを用 yòng いたGPTには、より構 goù 造 zaò 化 huà された記 jì 憶 yì が備 beì わり、それによって「多 duō 様 yàng なタスクに対 duì 応 yīng できる頑 wán 健 jiàn な転 zhuăn 移 yí 性 xìng 能 néng 」が実 shí 現 xiàn された[ 9] 。
転 zhuăn 移 yí 時 shí には、トラバース形 xíng 式 shì の手 shoŭ 法 fă から派 paì 生 shēng したタスク固 gù 有 yoŭ の入 rù 力 lì 適 shì 応 yīng を利 lì 用 yòng し、構 goù 造 zaò 化 huà テキストの入 rù 力 lì を単 dān 一 yī の連 lián 続 xù したトークン列 liè として処 chŭ 理 lĭ する。[ 9]
教 jiaò 師 shī なし事 shì 前 qián 学 xué 習 xí は、さまざまなジャンルに属 shŭ する7,000冊 cè 以 yĭ 上 shàng の未 weì 発 fā 表 biaŏ 小 xiaŏ 説 shuō のデータセット「BooksCorpus」を用 yòng いて行 xíng われた[ 57] 。このデータセットが選 xuăn ばれた理 lĭ 由 yoú の一 yī つは、長 cháng 距 jù 離 lí の情 qíng 報 baò を処 chŭ 理 lĭ するためのモデルの条 tiaó 件 jiàn として、連 lián 続 xù した長 cháng い文 wén 章 zhāng が求 qiú められたことにある。利 lì 用 yòng 可 kě 能 néng な他 tā のデータセットは、規 guī 模 mó は大 dà きくても、このような長 cháng 範 fàn 囲 weí 的 de な構 goù 造 zaò がない(文 wén レベルで「入 rù れ替 tì え」られている)ことを理 lĭ 由 yoú に却 què 下 xià された[ 9] 。BooksCorpusのテキストをクリーニング(句 jù 読 dú 点 diăn や空 kōng 白 baí の標 biaō 準 zhŭn 化 huà )するためにftfy ライブラリが、トークン化 huà ではspaCy が使 shĭ われた[ 9] 。
GPTのアーキテクチャ自 zì 体 tĭ は、12層 céng のデコーダのみのTransformerで、それぞれ64次 cì 元 yuán の状 zhuàng 態 taì を持 chí つ12個 gè のマスク付 fù き自 zì 己 jĭ アテンション・ヘッド(合 hé 計 jì 768個 gè )を使 shĭ 用 yòng した。単 dān 純 chún な確 què 率 lw 的 de 勾 goū 配 peì 降 jiàng 下 xià 法 fă ではなく、Adam最 zuì 適 shì 化 huà アルゴリズム が使 shĭ 用 yòng された。学 xué 習 xí 率 lw は、最 zuì 初 chū の2,000回 huí の更 gèng 新 xīn では、0から最 zuì 大 dà 2.5×10−4 まで線 xiàn 形 xíng に増 zēng 加 jiā し、コサインスケジュールによって0までアニリーング された[ 9] 。
512個 gè の連 lián 続 xù したトークンからなるランダムにサンプリングした64個 gè のミニバッチの訓 xùn 練 liàn を100エポック行 xíng う。レイヤーノルムはモデル全 quán 体 tĭ で広 guăng く用 yòng われているため、N(0,0.02)の単 dān 純 chún な重 zhòng みの初 chū 期 qī 化 huà で十 shí 分 fēn であった。40,000個 gè のバイト対 duì 符 fú 号 haò 化 huà (BPE)語 yŭ 彙 huì のマージと、正 zhèng 則 zé 化 huà には残 cán 差 chaī 、埋 maí め込み、アテンションのドロップアウトを比 bĭ 率 lw 0.1で行 xíng った。また、Loshchilov et al. 2017で提 tí 案 àn されたL2正 zhèng 則 zé 化 huà の修 xiū 正 zhèng 版 băn を採 caĭ 用 yòng し、すべての非 feī バイアスウェイトやゲインウェイトはw=0.01とした。
(中 zhōng 略 lWè )
原 yuán 著 zhù で提 tí 案 àn された正 zhèng 弦 xián 波 bō バージョンの代 daì わりに学 xué 習 xí された位 weì 置 zhì 埋 maí め込みを使 shĭ 用 yòng した。
(中 zhōng 略 lWè )
特 tè に指 zhĭ 定 dìng がない限 xiàn り、教 jiaò 師 shī なし事 shì 前 qián 学 xué 習 xí でのハイパーパラメータ設 shè 定 dìng を再 zaì 利 lì 用 yòng する。分 fēn 類 leì 器 qì にはドロップアウトを比 bĭ 率 lw 0.1で追 zhuī 加 jiā する。ほとんどのタスクでは、学 xué 習 xí 速 sù 度 dù 6.25e-5 、バッチサイズ32を使 shĭ 用 yòng する。このモデルは高 gaō 速 sù に微 weī 調 diaò 整 zhěng され、ほとんどの場 cháng 合 hé は3エポックの訓 xùn 練 liàn で十 shí 分 fēn であった。学 xué 習 xí 率 lw は線 xiàn 形 xíng 減 jiăn 衰 shuaī スケジュールを用 yòng い、ウォームアップは訓 xùn 練 liàn の0.2%以 yĭ 上 shàng とした。λは0.5とした[ 9] 。
GPTは、微 weī 調 diaò 整 zhěng の段 duàn 階 jiē で特 tè 定 dìng のタスクに適 shì 応 yīng させたが、事 shì 前 qián 学 xué 習 xí の段 duàn 階 jiē はそうしなかった。さまざまなタスクを実 shí 行 xíng するために、タスクに依 yī 存 cún しない基 jī 礎 chŭ となるモデルアーキテクチャに最 zuì 小 xiaŏ 限 xiàn の変 biàn 更 gèng が加 jiā えられた[ 9] 。それにもかかわらず、GPTはいくつかの言 yán 語 yŭ 処 chŭ 理 lĭ タスクにおいて過 guò 去 qù のベンチマークを上 shàng 回 huí り、多 duō くの多 duō 様 yàng なタスクにおいて、タスク指 zhĭ 向 xiàng のアーキテクチャを持 chí つ識 shì 別 bié 的 de に訓 xùn 練 liàn されたモデルより優 yoū れていた[ 9] 。
自 zì 然 rán 言 yán 語 yŭ 推 tuī 論 lùn (テキスト含 hán 意 yì 推 tuī 論 lùn (英 yīng 語 yŭ 版 băn ) (textual entailment)とも呼 hū ばれる)タスクでは、モデルの評 píng 価 jià は、さまざまなデータセットに含 hán まれる文 wén の対 duì を解 jiě 釈 shì し、それらの関 guān 係 xì を「含 hán 意 yì 」「矛 maó 盾 dùn 」「中 zhōng 立 lì 」に分 fēn 類 leì する能 néng 力 lì に基 jī づいて行 xíng われる[ 9] 。たとえば、QNLI(Wikipedia の記 jì 事 shì )やMultiNLI(速 sù 記 jì 、大 dà 衆 zhòng 小 xiaŏ 説 shuō 、政 zhèng 府 fŭ 報 baò 告 gaò など)といった情 qíng 報 baò 源 yuán に対 duì して[ 58] 、GPTは従 cóng 来 laí の最 zuì 高 gaō 値 zhí からそれぞれ5.8%、1.5%優 yoū れていた[ 9] 。同 tóng 様 yàng に、質 zhí 問 wèn 応 yīng 答 dá や常 cháng 識 shì 推 tuī 論 lùn (英 yīng 語 yŭ 版 băn ) に関 guān 連 lián する2つのタスクでも、RACE(中 zhōng 学 xué 校 xiaò と高 gaō 校 xiaò の筆 bĭ 記 jì 試 shì 験 yàn の問 wèn 題 tí と解 jiě 答 dá の組 zŭ からなるデータセット)で5.7%[ 59] 、クローズ・テスト (英 yīng 語 yŭ 版 băn ) で8.9%、従 cóng 来 laí のモデルをそれぞれ上 shàng 回 huí った[ 60] 。
もう一 yī つの意 yì 味 weì 的 de 類 leì 似 sì 性 xìng (または言 yán い換 huàn え検 jiăn 出 chū )のタスクでは、2つの文 wén が互 hù いに言 yán い換 huàn えであるかどうかをモデルが予 yŭ 測 cè できるかどうかを評 píng 価 jià するもので、Quora Question Pairs(QQP)データセットで、GPTは従 cóng 来 laí の最 zuì 高 gaō 性 xìng 能 néng モデルよりも4.2%向 xiàng 上 shàng した[ 9] 。また、Corpus of Linguistic Acceptability(CoLA)を用 yòng いたテキスト分 fēn 類 leì タスクでは、従 cóng 来 laí の最 zuì 高 gaō スコア35.0に対 duì してGPTはスコア45.4を達 dá 成 chéng した。最 zuì 後 hoù に、マルチタスクテストのGLUEで[ 61] 、GPTは総 zŏng 合 hé スコア72.8(従 cóng 来 laí は68.9)を達 dá 成 chéng した[ 9] 。
GPT-2はGPTのスケールアップ版 băn として作 zuò 成 chéng され、パラメータ数 shù とデータセットサイズをいずれも10倍 beì にしている[ 8] [ 9] [ 4] 。双 shuāng 方 fāng とも教 jiaò 師 shī なし のTransformer モデルで、一 yī 連 lián のトークン の並 bìng びから次 cì の単 dān 語 yŭ を予 yŭ 測 cè してテキストを生 shēng 成 chéng するように訓 xùn 練 liàn された。GPT-2モデルは15億 yì のパラメータを持 chí ち、800万 wàn のウェブページのデータセット で訓 xùn 練 liàn が行 xíng われた[ 8] 。GPT-2は、テキストサンプル中 zhōng の一 yī 連 lián の単 dān 語 yŭ を解 jiě 釈 shì し、最 zuì も可 kě 能 néng 性 xìng の高 gaō い次 cì の単 dān 語 yŭ を予 yŭ 測 cè するという非 feī 常 cháng に単 dān 純 chún な基 jī 準 zhŭn で強 qiáng 化 huà され、追 zhuī 加 jiā される単 dān 語 yŭ を予 yŭ 測 cè し続 xù けることで完 wán 全 quán な文 wén や段 duàn 落 luò を生 shēng 成 chéng し、自 zì 然 rán 言 yán 語 yŭ で完 wán 全 quán に理 lĭ 解 jiě できる(そして意 yì 味 weì 論 lùn 的 de に意 yì 味 weì を持 chí つ)文 wén を生 shēng 成 chéng する[ 8] 。特 tè に、GPT-2は、ゼロショット設 shè 定 dìng (英 yīng 語 yŭ 版 băn ) でのタスクに対 duì する性 xìng 能 néng で評 píng 価 jià された。
GPT-2は新 xīn 規 guī に開 kaī 発 fā された WebText コーパスをデータセットとして利 lì 用 yòng している。
WebText コーパスは約 yuē 800万 wàn のウェブページ から抽 choū 出 chū された高 gaō 品 pĭn 質 zhí 自 zì 然 rán 言 yán 語 yŭ テキストコーパスである[ 62] 。
GPT-2はゼロショット推 tuī 論 lùn 可 kě 能 néng な基 jī 盤 pán モデルを意 yì 図 tú して開 kaī 発 fā された。個 gè 別 bié タスクを明 míng 示 shì 的 de に学 xué 習 xí せずゼロショットで推 tuī 論 lùn するには、学 xué 習 xí 用 yòng テキスト内 neì に様 yàng 々なタスクの具 jù 体 tĭ 例 lì が(タスクラベル無 wú しで)含 hán まれている必 bì 要 yaò があると考 kaŏ えられる[ 63] 。一 yī 方 fāng で質 zhí の低 dī いテキストはモデルの精 jīng 度 dù を落 luò とすため[ 64] 、コモン・クロール のような無 wú 作 zuò 為 weì 収 shoū 集 jí されたコーパスは利 lì 用 yòng できない[ 65] 。これらの問 wèn 題 tí を解 jiě 決 jué するためにGPT-2論 lùn 文 wén で開 kaī 発 fā されたコーパスが WebText コーパスである。
WebText は人 rén 間 jiān によるキュレーションを品 pĭn 質 zhí 向 xiàng 上 shàng に利 lì 用 yòng している[ 66] 。まずReddit で3回 huí 以 yĭ 上 shàng 賛 zàn 成 chéng 票 piaò を受 shoù けたリンク先 xiān ウェブページを一 yī 定 dìng 品 pĭn 質 zhí のテキストとみなし[ 67] 、重 zhòng 複 fù 文 wén 章 zhāng の除 chú 去 qù ・Wikipedia記 jì 事 shì の削 xuē 除 chú [ 68] ・ヒューリスティックによるクリーニングを経 jīng て、最 zuì 終 zhōng 的 de に約 yuē 800万 wàn のウェブページから抽 choū 出 chū された約 yuē 40GBの自 zì 然 rán 言 yán 語 yŭ テキストをWebTextとしている[ 69] 。
GPT-2のモデルアーキテクチャはGPT-1 のマイナーチェンジ版 băn である。アーキテクチャ上 shàng の変 biàn 更 gèng 点 diăn は以 yĭ 下 xià の通 tōng り:
Post LN → Pre LN[ 70]
最 zuì 終 zhōng アテンション ブロック後 hoù の追 zhuī 加 jiā LN[ 71]
残 cán 差 chaī レイヤーの深 shēn 度 dù
1
/
N
{\displaystyle 1/{\sqrt {N}}}
重 zhòng み付 fù け初 chū 期 qī 化 huà [ 72]
アーキテクチャはほぼ同 tóng 一 yī であるが、GPT-2はGPT-1より大 dà きなモデルとなっている。モデル上 shàng の変 biàn 更 gèng 点 diăn は以 yĭ 下 xià の通 tōng り:
モデルパラメータサイズ: 15億 yì (約 yuē 13倍 beì )[ 55]
ボキャブラリ: 50,257[ 73]
コンテキストトークン長 cháng : 512→1024[ 74]
モデルと同 tóng じく学 xué 習 xí もスケールされており、バッチサイズは512に変 biàn 更 gèng されている[ 75] 。
GPT-2の訓 xùn 練 liàn 費 feì 用 yòng は1時 shí 間 jiān あたり256ドルであることが知 zhī られているが[ 76] [ 77] 、訓 xùn 練 liàn に要 yaò した総 zŏng 時 shí 間 jiān は不 bù 明 míng なため、訓 xùn 練 liàn 費 feì 用 yòng の総 zŏng 額 é を正 zhèng 確 què に見 jiàn 積 jī もることはできない[ 78] 。しかし、Transformerアーキテクチャを用 yòng いた同 tóng 等 děng の大 dà 規 guī 模 mó 言 yán 語 yŭ モデルでの費 feì 用 yòng はより詳 xiáng 細 xì に記 jì 述 shù されており、BERT とXLNet の訓 xùn 練 liàn 過 guò 程 chéng では、それぞれ6,912ドルと245,000ドルの資 zī 源 yuán を消 xiaō 費 feì した[ 77] 。
GPT-2が作 zuò 成 chéng した、2020年 nián の米 mĭ 国 guó 大 dà 統 tŏng 領 lĭng 選 xuăn 挙 jŭ に勝 shèng 利 lì した後 hoù のエドワード・スノーデン の行 xíng 動 dòng に関 guān する架 jià 空 kōng のニュース記 jì 事 shì 。強 qiáng 調 diaò 表 biaŏ 示 shì されたテキストはすべて機 jī 械 xiè が生 shēng 成 chéng したものである。スノーデンは(生 shēng 成 chéng 時 shí 点 diăn で)公 gōng 職 zhí に選 xuăn 出 chū されたことはなかったが、生 shēng 成 chéng されたサンプルは文 wén 法 fă 的 de にも文 wén 体 tĭ 的 de にも妥 tuŏ 当 dāng なものである。
GPT-2は、そのデータセットとアプローチの広 guăng さによって、単 dān 純 chún なテキスト生 shēng 成 chéng にとどまらない幅 fú 広 guăng いタスクに対 duì 応 yīng できるようになった。質 zhí 問 wèn に答 dá えたり、長 cháng 文 wén を要 yaò 約 yuē したり、さまざまな特 tè 定 dìng 領 lĭng 域 yù (英 yīng 語 yŭ 版 băn ) で言 yán 語 yŭ 間 jiān の翻 fān 訳 yì をしたり、一 yī 連 lián の単 dān 語 yŭ の次 cì の予 yŭ 測 cè 方 fāng 法 fă 以 yĭ 上 shàng のことは何 hé も指 zhĭ 示 shì されずに実 shí 行 xíng できる[ 79] [ 80] 。
一 yī 般 bān 化 huà 学 xué 習 xí の一 yī 例 lì は、フランス語 yŭ -英 yīng 語 yŭ 間 jiān の機 jī 械 xiè 翻 fān 訳 yì をするGPT-2の能 néng 力 lì であり、そのために、WMT-14の翻 fān 訳 yì タスクを使 shĭ 用 yòng してGPT-2の性 xìng 能 néng が評 píng 価 jià された。GPT-2の訓 xùn 練 liàn 用 yòng コーパスには、フランス語 yŭ のテキストはほとんど含 hán まれていなかった。訓 xùn 練 liàn 前 qián にデータセットのクリーニングで英 yīng 語 yŭ 以 yĭ 外 waì のテキストを意 yì 図 tú 的 de に削 xuē 除 chú したため、得 dé られた40,000 MBのうちモデルが訓 xùn 練 liàn に使 shĭ 用 yòng できたフランス語 yŭ は10 MBにすぎなかった(ほとんどは英 yīng 語 yŭ の投 toú 稿 gaŏ や記 jì 事 shì に含 hán まれた外 waì 国 guó 語 yŭ の引 yĭn 用 yòng )[ 8] 。それでもGPT-2は、WMT-14の英 yīng 語 yŭ -フランス語 yŭ 間 jiān テストセットで5 BLEUを達 dá 成 chéng した(単 dān 語 yŭ 単 dān 位 weì での置 zhì 換 huàn による翻 fān 訳 yì をわずかに下 xià 回 huí るスコア)。また、フランス語 yŭ から英 yīng 語 yŭ へのテストセットでGPT-2は、当 dāng 時 shí (2017年 nián )の教 jiaò 師 shī なし機 jī 械 xiè 翻 fān 訳 yì ベースラインを上 shàng 回 huí って、11.5 BLEUを達 dá 成 chéng した。これは、33.5 BLEUを達 dá 成 chéng した当 dāng 時 shí (2019年 nián )最 zuì も高 gaō 性 xìng 能 néng な教 jiaò 師 shī なし手 shoŭ 法 fă を下 xià 回 huí るものだった[ 8] 。しかし、他 tā のモデルは、この結 jié 果 guŏ を達 dá 成 chéng するために大 dà 量 liàng のフランス語 yŭ テキストを使 shĭ 用 yòng しており、一 yī 方 fāng のGPT-2は、同 tóng 等 děng の手 shoŭ 法 fă の約 yuē 1/500のサイズの単 dān 一 yī 言 yán 語 yŭ フランス語 yŭ コーパスを使 shĭ 用 yòng したと推 tuī 定 dìng された[ 8] 。
GPT-2は、2019年 nián 2月 yuè 14日 rì に初 chū めて発 fā 表 biaŏ された。2019年 nián 2月 yuè のThe Verge に掲 jiē 載 zaì されたJames Vincentによる記 jì 事 shì では、『(このプログラムが)作 zuò り出 chū す文 wén 章 zhāng は、通 tōng 常 cháng 、人 rén 間 jiān ではないと容 róng 易 yì に判 pàn 別 bié できる』ものの、言 yán 語 yŭ 生 shēng 成 chéng プログラムの『これまでで、もっともわくわくする例 lì の一 yī つ』であることに変 biàn わりはないと述 shù べている[ 79] 。
偽 weì の見 jiàn 出 chū しを付 fù けると、あとは偽 weì の引 yĭn 用 yòng や統 tŏng 計 jì を交 jiaō えた残 cán りを書 shū いてくれる。短 duăn 編 biān 小 xiaŏ 説 shuō の最 zuì 初 chū の行 xíng を入 rù 力 lì すると、登 dēng 場 cháng 人 rén 物 wù に次 cì に何 hé が起 qĭ こるか教 jiaò えてくれる。適 shì 切 qiē なプロンプト (命 mìng 令 lìng )を入 rù 力 lì すれば、ファン・フィクション だって書 shū ける[ 79] 。
ガーディアン 紙 zhĭ はこの出 chū 力 lì を『もっともらしい新 xīn 聞 wén の散 sàn 文 wén 』と表 biaŏ 現 xiàn し[ 7] 、Vox のKelsey Piper は『私 sī がこれまで見 jiàn た中 zhōng で最 zuì もクールなAIシステムの一 yī つは、私 sī を失 shī 業 yè に追 zhuī い込むものかもしれない』と述 shù べている[ 80] 。GPT-2の柔 roú 軟 ruăn 性 xìng は、The Vergeによれば『印 yìn 象 xiàng 的 de 』と評 píng され、具 jù 体 tĭ 的 de には、言 yán 語 yŭ 間 jiān でのテキスト翻 fān 訳 yì 、長 cháng 文 wén の記 jì 事 shì の要 yaò 約 yuē 、雑 zá 学 xué 的 de な質 zhí 問 wèn へ回 huí 答 dá などの能 néng 力 lì が注 zhù 目 mù された[ 79] 。
修 xiū 正 zhèng チューリングテストを用 yòng いたアムステルダム大 dà 学 xué の研 yán 究 jiū では、少 shaŏ なくともいくつかのシナリオで、参 cān 加 jiā 者 zhě はGPT-2が生 shēng 成 chéng した詩 shī と人 rén 間 jiān が書 shū いた詩 shī を見 jiàn 分 fēn けられないことが分 fēn かった[ 81] 。
「Skub」は実 shí 在 zaì する製 zhì 品 pĭn ではないが、DistilGPT2で使 shĭ 用 yòng されている縮 suō 小 xiaŏ サイズのモデルでさえ、賛 zàn 成 chéng と反 făn 対 duì の両 liăng 側 cè からもっともらしい議 yì 論 lùn を作 zuò り出 chū すことができる。
これまでOpenAIのモデルはすぐに一 yī 般 bān 公 gōng 開 kaī されていたが、2019年 nián 2月 yuè の発 fā 表 biaŏ では、悪 è 用 yòng される危 weī 険 xiăn 性 xìng があるとして[ 7] 、GPT-2のソースコード の公 gōng 開 kaī を当 dāng 初 chū 拒 jù 否 foŭ していた[ 7] 。発 fā 表 biaŏ 時 shí には、一 yī 部 bù の報 baò 道 daò 関 guān 係 xì 者 zhě にのみ、モデルへの制 zhì 限 xiàn 付 fù きアクセス(ソースコード自 zì 体 tĭ ではなく、入 rù 力 lì でき、出 chū 力 lì を提 tí 供 gōng するインターフェース)が許 xŭ 可 kě された。よく言 yán われるのは、生 shēng 成 chéng されたテキストは通 tōng 常 cháng まったく新 xīn しいものなので、スパマー (英 yīng 語 yŭ 版 băn ) が自 zì 動 dòng フィルター を回 huí 避 bì するために悪 è 用 yòng する可 kě 能 néng 性 xìng があるという正 zhèng 当 dāng 化 huà の理 lĭ 由 yoú である。OpenAIは、GPT-2を微 weī 調 diaò 整 zhěng して『肯 kěn 定 dìng 的 de または否 foŭ 定 dìng 的 de な製 zhì 品 pĭn レビューを永 yŏng 遠 yuăn に生 shēng 成 chéng する』バージョンを実 shí 演 yăn した[ 7] 。もう一 yī つの問 wèn 題 tí は、GPT-2を使 shĭ 用 yòng すると、わいせつ あるいは人 rén 種 zhŏng 差 chaī 別 bié 的 de なテキストが生 shēng 成 chéng される可 kě 能 néng 性 xìng があることである。ジェレミー・ハワードなどの研 yán 究 jiū 者 zhě は、『この技 jì 術 shù は、Twitterや電 diàn 子 zĭ メール、そしてウェブを、合 hé 理 lĭ 的 de な響 xiăng きを持 chí って文 wén 脈 mò に沿 yán った散 sàn 文 wén で完 wán 全 quán に埋 maí め尽 jĭn し、他 tā のすべての発 fā 言 yán をかき消 xiaō すようなものであり、フィルタリングは不 bù 可 kě 能 néng になる』と警 jĭng 告 gaò した[ 79] 。アレン人 rén 工 gōng 知 zhī 能 néng 研 yán 究 jiū 所 suŏ (英 yīng 語 yŭ 版 băn ) は、GPT-2に呼 hū 応 yīng して「ニューラルフェイクニュース 」を検 jiăn 出 chū するツールを発 fā 表 biaŏ した[ 82] 。
しかし、意 yì 見 jiàn は分 fēn かれた。2019年 nián 2月 yuè のThe Verge の記 jì 事 shì は、GPT-2がもたらす脅 xié 威 weī は誇 kuā 張 zhāng されていると論 lùn じ[ 83] 、カリフォルニア工 gōng 科 kē 大 dà 学 xué の教 jiaò 授 shoù でNvidia の機 jī 械 xiè 学 xué 習 xí 研 yán 究 jiū ディレクターであるAnima Anandkumar は、OpenAIが言 yán うような脅 xié 威 weī をもたらす能 néng 力 lì がGPT-2にあるという証 zhèng 拠 jù はなく、彼 bĭ らがしたことは『オープンとは正 zhèng 反 făn 対 duì 』だと述 shù べ、完 wán 全 quán モデルの公 gōng 開 kaī を拒 jù 否 foŭ したことを「悪 è 意 yì のあるたわごと (英 yīng 語 yŭ 版 băn ) 」とみなした[ 83] 。The Gradient 紙 zhĭ は、OpenAIに対 duì してモデルの公 gōng 開 kaī を促 cù す公 gōng 開 kaī 書 shū 簡 jiăn を発 fā 表 biaŏ し、テキスト生 shēng 成 chéng AIがもたらす脅 xié 威 weī を印 yìn 刷 shuā 機 jī のそれと比 bĭ 較 jiaò し、『混 hún 乱 luàn をもたらす可 kě 能 néng 性 xìng があったにものの、(幸 xìng いにも)現 xiàn 代 daì 社 shè 会 huì を破 pò 壊 huaì しなかった技 jì 術 shù 』としてPhotoshop を例 lì に挙 jŭ げた[ 84] 。
30年 nián 後 hoù 、Photoshopは高 gaō 校 xiaò 生 shēng が使 shĭ えるほど簡 jiăn 単 dān で、動 dòng 詞 cí として広 guăng く使 shĭ われているにもかかわらず、社 shè 会 huì は比 bĭ 較 jiaò 的 de 無 wú 事 shì ですんでいる。なぜか?それは、誰 shuí もがPhotoshopを知 zhī っているからこそである[ 84] 。
OpenAIは、完 wán 全 quán な学 xué 習 xí 済 jì みモデルや、訓 xùn 練 liàn 用 yòng コーパスを公 gōng 開 kaī しなかったが、過 guò 去 qù の出 chū 版 băn 物 wù におけるその手 shoŭ 法 fă の説 shuō 明 míng (および基 jī 礎 chŭ となる技 jì 術 shù の無 wú 償 cháng での入 rù 手 shoŭ 性 xìng )により、GPT-2は自 zì 由 yoú ソフトウェア として他 tā 者 zhě が複 fù 製 zhì することが可 kě 能 néng であった。そのような複 fù 製 zhì の一 yī つ、OpenGPT-2は、OpenWebTextと呼 hū ばれる自 zì 由 yoú ライセンス版 băn のWebTextと組 zŭ み合 hé わせて2019年 nián 8月 yuè に公 gōng 開 kaī された。OpenGPT-2のクラウドコンピューティング費 feì 用 yòng は約 yuē 50,000ドルと提 tí 示 shì された[ 85] 。
2019年 nián 8月 yuè 20日 rì 、OpenAIは、7億 yì 7,400万 wàn のパラメータ(15億 yì パラメータの完 wán 全 quán モデルの約 yuē 半 bàn 分 fēn の規 guī 模 mó )を持 chí つGPT-2の縮 suō 小 xiaŏ 版 băn を公 gōng 開 kaī した[ 2] 。
しかし、GPT-2が広 guăng 範 fàn な悪 è 用 yòng につながるのではないかという当 dāng 初 chū の懸 xuán 念 niàn は、現 xiàn 実 shí のものとならなかった。The Vergeは、『AI技 jì 術 shù がある種 zhŏng の「情 qíng 報 baò 世 shì 紀 jì 末 mò (infopocalypse )」をもたらすという主 zhŭ 張 zhāng には懐 huaí 疑 yí 的 de な理 lĭ 由 yoú がある。まず第 dì 一 yī に、わずかなコストでもっともらしい文 wén 章 zhāng を大 dà 量 liàng に生 shēng 成 chéng できるプログラム、すなわち人 rén 間 jiān が既 jì に存 cún 在 zaì している。』 と述 shù べている[ 86] 。2019年 nián 11月 yuè までに、OpenAIは『これまでのところ悪 è 用 yòng された強 qiáng い証 zhèng 拠 jù は見 jiàn られない』と述 shù べ、2019年 nián 11月 yuè 5日 rì に15億 yì のパラメータを持 chí つ完 wán 全 quán 版 băn を公 gōng 開 kaī した[ 3] [ 14] 。
GPT-2は、さまざまなシナリオに対 duì してテーマに沿 yán ったテキストを生 shēng 成 chéng することができる。たとえば、ドナルド・トランプ がアニメ キャラクターの惣 zŏng 流 liú ・アスカ・ラングレー を賞 shăng 賛 zàn する演 yăn 説 shuō をしたというCNN の記 jì 事 shì のような非 feī 現 xiàn 実 shí 的 de なものでさえ生 shēng 成 chéng することができる。ここでは、1.5Bの完 wán 全 quán モデルであっても、第 dì 2段 duàn 落 luò では文 wén 法 fă の劣 liè 化 huà が始 shĭ まり、最 zuì 終 zhōng 的 de には意 yì 味 weì 不 bù 明 míng な一 yī 文 wén が何 hé 度 dù も繰 qiaō り返 făn される出 chū 力 lì など、出 chū 力 lì が長 cháng くなるにつれて無 wú 意 yì 味 weì で反 făn 復 fù 的 de なテキストを生 shēng 成 chéng する傾 qīng 向 xiàng が見 jiàn られる。
GPT-2の自 zì 然 rán 言 yán 語 yŭ テキストの生 shēng 成 chéng 能 néng 力 lì は、おおむね高 gaō く評 píng 価 jià されているが、特 tè に段 duàn 落 luò 数 shù が2段 duàn を超 chaō える長 cháng いテキストを生 shēng 成 chéng する場 cháng 合 hé には、その欠 qiàn 点 diăn も指 zhĭ 摘 zhaī されている。Vox は『散 sàn 文 wén はかなり大 dà まかで、ときおり非 feī 合 hé 理 lĭ 的 de なこともあり、記 jì 事 shì が長 cháng くなればなるほど一 yī 貫 guàn 性 xìng が失 shī われる』と述 shù べている[ 80] 。The Verge も同 tóng 様 yàng に、GPT-2の文 wén 章 zhāng は長 cháng いサンプルになると『話 huà 題 tí がそれる』傾 qīng 向 xiàng があり、首 shoŭ 尾 weĭ 一 yī 貫 guàn 性 xìng に欠 qiàn けると指 zhĭ 摘 zhaī した[ 79] 。The Register (英 yīng 語 yŭ 版 băn ) は、『それを読 dú んだ人 rén 間 jiān は、しばらくすると、何 hé かが起 qĭ きていることに気 qì づくはずだ』と評 píng し、『GPT-2は、情 qíng 報 baò を抽 choū 出 chū し取 qŭ りだすためにアルゴリズムに依 yī 存 cún する他 tā のシステムと同 tóng 様 yàng 、質 zhí 問 wèn には答 dá えていない』と述 shù べている[ 76] 。
GPT-2を導 daŏ 入 rù するには多 duō くの資 zī 源 yuán が必 bì 要 yaò で、完 wán 全 quán 版 băn モデルの大 dà きさは5ギガバイト を超 chaō えるため、アプリケーションにローカルに組 zŭ み込むことが難 nán しく、また大 dà 量 liàng のメモリー(RAM) を消 xiaō 費 feì する。また、1回 huí の予 yŭ 測 cè を行 xíng うと『CPU を100%の使 shĭ 用 yòng 率 lw で数 shù 分 fēn 間 jiān 占 zhān 有 yoŭ することがある』ほか、GPU 処 chŭ 理 lĭ でも『1回 huí の予 yŭ 測 cè に数 shù 秒 miaŏ かかることがある』[ 6] 。これらの問 wèn 題 tí を軽 qīng 減 jiăn するために、Hugging Face は、知 zhī 識 shì 蒸 zhēng 留 liú を使 shĭ 用 yòng して、『いくつかの品 pĭn 質 zhí ベンチマークで数 shù ポイント低 dī い』ものの、『33%小 xiaŏ さく、2倍 beì 速 sù い』という小 xiaŏ 型 xíng モデルを作 zuò 成 chéng するDistilGPT2を開 kaī 発 fā した[ 6] 。
ジャーナリストによって報 baò じられたGPT-2の応 yīng 用 yòng として、ニュース記 jì 事 shì などの文 wén 章 zhāng を人 rén 間 jiān が書 shū くことを補 bŭ 助 zhù するなどが挙 jŭ げられている[ 7] 。GPT-2は、製 zhì 品 pĭn 版 băn の公 gōng 開 kaī 以 yĭ 前 qián から、さまざまなアプリケーションやサービス、それにエンターテインメントに利 lì 用 yòng されていた。2019年 nián 6月 yuè にはReddit サイト内 neì に、r/SubSimulatorGPT2というコミュニティ(サブレディット )が作 zuò られ、さまざまなサブレディットで訓 xùn 練 liàn したGPT-2の実 shí 例 lì (インスタンス )が投 toú 稿 gaŏ し、互 hù いのコメントに返 făn 信 xìn することで『r/Bitcoinが擬 nĭ 人 rén 化 huà したAIと、r/ShittyFoodPornの機 jī 械 xiè 学 xué 習 xí に由 yoú 来 laí する霊 líng が議 yì 論 lùn する』状 zhuàng 況 kuàng が作 zuò られた[ 86] 。同 tóng 年 nián 7月 yuè までに、GPT-2に基 jī づいて、さまざまなプログラミング言 yán 語 yŭ のコード行 xíng を自 zì 動 dòng 補 bŭ 完 wán するソフトウェアが公 gōng 開 kaī され、ユーザーから「ゲームチェンジャー(トレンドを変 biàn えるできごと)」と評 píng された[ 87] 。
2019年 nián には、GPT-2を利 lì 用 yòng し、ユーザーの入 rù 力 lì に基 jī づいて動 dòng 的 de なテキストアドベンチャー を提 tí 供 gōng するAI Dungeon (英 yīng 語 yŭ 版 băn ) が発 fā 表 biaŏ された[ 88] 。2021年 nián 現 xiàn 在 zaì 、AI Dungeonは、オプションの有 yoŭ 料 liaò アップグレードとしてGPT-3の最 zuì 大 dà リリースAPIへのアクセスを提 tí 供 gōng し、無 wú 料 liaò 版 băn ではGPT-3の2番 fān 目 mù に大 dà きなリリースを使 shĭ 用 yòng した[ 89] 。AI Dungeonを中 zhōng 心 xīn に設 shè 立 lì されたLatitudeは、2021年 nián に開 kaī 業 yè 資 zī 金 jīn (英 yīng 語 yŭ 版 băn ) 330万 wàn ドルを調 diaò 達 dá した[ 90] 。いくつかのウェブサイトでは、GPT-2やその他 tā のTransformerモデルのさまざまなインスタンスの対 duì 話 huà 的 de なデモンストレーションを公 gōng 開 kaī している[ 91] [ 92] [ 93] 。
2021年 nián 2月 yuè 、問 wèn 題 tí を抱 baò えたティーンエージャー向 xiàng けの危 weī 機 jī 管 guăn 理 lĭ センターが、カウンセラーが十 shí 代 daì の模 mó 擬 nĭ 患 huàn 者 zhě と会 huì 話 huà をしてトレーニングするために、GPT-2由 yoú 来 laí のチャットボットの使 shĭ 用 yòng を始 shĭ めると発 fā 表 biaŏ した(この使 shĭ 用 yòng は純 chún 粋 cuì に内 neì 部 bù 目 mù 的 de であり、GPT-2はティーンエージャー自 zì 身 shēn と交 jiaō 信 xìn しなかった)[ 94] 。
^ Piper, Kelsey (2019年 nián 5月 yuè 15日 rì ). “A poetry-writing AI has just been unveiled. It's ... pretty good. ”. Vox . 2020年 nián 11月 yuè 7日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2020年 nián 12月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ a b Johnson, Khari (2019年 nián 8月 yuè 20日 rì ). “OpenAI releases curtailed version of GPT-2 language model ”. VentureBeat . 2020年 nián 12月 yuè 18日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2020年 nián 12月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ a b Vincent, James (2019年 nián 11月 yuè 7日 rì ). “OpenAI has published the text-generating AI it said was too dangerous to share ”. The Verge . 2020年 nián 6月 yuè 11日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2020年 nián 12月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ a b c “Better Language Models and Their Implications ”. OpenAI (2019年 nián 2月 yuè 14日 rì ). 2020年 nián 12月 yuè 19日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2020年 nián 12月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ a b Hegde, Chaitra; Patil, Shrikumar (9 June 2020). "Unsupervised Paraphrase Generation using Pre-trained Language Models". arXiv :2006.05477 [cs.CL ]。
^ a b c Kaiser, Caleb (2020年 nián 1月 yuè 31日 rì ). “Too big to deploy: How GPT-2 is breaking servers ”. Towards Data Science . 2020年 nián 2月 yuè 15日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ a b c d e f Hern, Alex (2019年 nián 2月 yuè 14日 rì ). “New AI fake text generator may be too dangerous to release, say creators ”. The Guardian . 2019年 nián 2月 yuè 14日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2020年 nián 12月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ a b c d e f g Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). Language models are unsupervised multitask learners . 1 . オリジナル の6 February 2021時 shí 点 diăn におけるアーカイブ。. https://web.archive.org/web/20210206183945/https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2020年 nián 12月 yuè 19日 rì 閲 yuè 覧 lăn 。 .
^ a b c d e f g h i j k l m n o p q r s “Improving Language Understanding by Generative Pre-Training ”. OpenAI . pp. 12 (2018年 nián 6月 yuè 11日 rì ). 2021年 nián 1月 yuè 26日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 23日 rì 閲 yuè 覧 lăn 。
^ a b c d e f Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (12 June 2017). "Attention Is All You Need". arXiv :1706.03762 [cs.CL ]。
^ a b c d e Olah, Chris; Carter, Shan (8 September 2016). “Attention and Augmented Recurrent Neural Networks” . Distill 1 (9). doi :10.23915/distill.00001 . オリジナル の22 December 2020時 shí 点 diăn におけるアーカイブ。. https://web.archive.org/web/20201222104024/https://distill.pub/2016/augmented-rnns/ 2021年 nián 1月 yuè 22日 rì 閲 yuè 覧 lăn 。 .
^ a b c d e f Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv :1409.0473 [cs.CL ]。
^ a b c d e f g Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 August 2015). "Effective Approaches to Attention-based Neural Machine Translation". arXiv :1508.04025 [cs.CL ]。
^ a b “GPT-2: 1.5B Release ” (英 yīng 語 yŭ ). OpenAI (2019年 nián 11月 yuè 5日 rì ). 2019年 nián 11月 yuè 14日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2019年 nián 11月 yuè 14日 rì 閲 yuè 覧 lăn 。
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners". arXiv :2005.14165 [cs.CL ]。
^ Arram (2020年 nián 7月 yuè 9日 rì ). “GPT-3: An AI that's eerily good at writing almost anything ”. Arram Sabeti . 2020年 nián 7月 yuè 20日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2020年 nián 7月 yuè 31日 rì 閲 yuè 覧 lăn 。
^ Hao, Karen (September 23, 2020). “OpenAI is giving Microsoft exclusive access to its GPT-3 language model” (英 yīng 語 yŭ ). MIT Technology Review . https://www.technologyreview.com/2020/09/23/1008729/openai-is-giving-microsoft-exclusive-access-to-its-gpt-3-language-model/ 2020年 nián 9月 yuè 25日 rì 閲 yuè 覧 lăn . ""The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases.""
^ Turing, Alan (October 1950), "Computing Machinery and Intelligence", Mind , LIX (236): 433–460, doi :10.1093/mind/LIX.236.433 , ISSN 0026-4423 。
^ Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi :10.1147/rd.33.0210 .
^ a b c Hancox, P.J. (1996年 nián 1月 yuè 26日 rì ). “SEM1A5 – Part 1 – A brief history of NLP ”. University of Birmingham. 2021年 nián 1月 yuè 13日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 12日 rì 閲 yuè 覧 lăn 。
^ a b Nye, Mary Jo (2016). “Speaking in Tongues: Science's centuries-long hunt for a common language” . Distillations 2 (1): 40–43. オリジナル の3 August 2020時 shí 点 diăn におけるアーカイブ。. https://web.archive.org/web/20200803130801/https://www.sciencehistory.org/distillations/magazine/speaking-in-tongues 2018年 nián 3月 yuè 22日 rì 閲 yuè 覧 lăn 。 .
^ Gordin, Michael D. (2015). Scientific Babel: How Science Was Done Before and After Global English . Chicago, Illinois: University of Chicago Press. ISBN 9780226000299
^ John Hutchins. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954 (PDF) (Report). S2CID 132677 。
^ Reifler, Erwin (February 2–5, 1960). “The solution of MT linguistic problems through lexicography.”. Proceedings of the National Symposium on Machine Translation .
^ Hutchins, John (1997). “From first conception to first demonstration: the nascent years of machine translation, 1947–1954. A chronology.”. Machine Translation 12, 195–252 12 (3): 195–252. doi :10.1023/A:1007969630568 .
^ Winograd, Terry (1971-01-01) (英 yīng 語 yŭ ). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language . hdl :1721.1/7095 . オリジナル の2021-01-13時 shí 点 diăn におけるアーカイブ。. https://web.archive.org/web/20210113121007/https://dspace.mit.edu/handle/1721.1/7095 2021年 nián 1月 yuè 12日 rì 閲 yuè 覧 lăn 。 .
^ “SHRDLU ”. Stanford Human-Computer Interaction (HCI) Group . 2020年 nián 8月 yuè 16日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 12日 rì 閲 yuè 覧 lăn 。
^ Weizenbaum, Joseph (January 1966), “ELIZA – A Computer Program For the Study of Natural Language Communication Between Man And Machine”, Communications of the ACM 9 (1): 36–45, doi :10.1145/365153.365168
^ Bassett, Caroline (2019). “The computational therapeutic: exploring Weizenbaum's ELIZA as a history of the present”. AI & Society 34 (4): 803–812. doi :10.1007/s00146-018-0825-9 .
^ Hancox, P.J. (1996年 nián 1月 yuè 26日 rì ). “SEM1A5 – Part 1 – The state-of-the-art ”. University of Birmingham. 2021年 nián 1月 yuè 16日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 12日 rì 閲 yuè 覧 lăn 。
^ Howe, J. (1994年 nián 11月 yuè ). “Artificial Intelligence at Edinburgh University : a Perspective ”. 2007年 nián 8月 yuè 17日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2007年 nián 8月 yuè 30日 rì 閲 yuè 覧 lăn 。 “Lighthill's [1973] report provoked a massive loss of confidence in AI by the academic establishment in the UK (and to a lesser extent in the US). It persisted for a decade ― the so-called 'AI Winter'”
^ a b Russell, Stuart J. ; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, p. 24, ISBN 0-13-790395-2 , オリジナル の2011-02-28時 shí 点 diăn におけるアーカイブ。, https://web.archive.org/web/20110228023805/http://aima.cs.berkeley.edu/ 2021年 nián 1月 yuè 12日 rì 閲 yuè 覧 lăn , ""Overall, the AI industry boomed from a few million dollars in 1980 to billions of dollars in 1988. Soon after that came a period called the 'AI Winter'""
^
Rosenblatt, Frank (1957). “The Perceptron—a perceiving and recognizing automaton”. Report 85-460-1 (Cornell Aeronautical Laboratory).
^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning . Springer. ISBN 0-387-31073-8
^ a b Olazaran, Mikel (1996). “A Sociological Study of the Official History of the Perceptrons Controversy”. Social Studies of Science 26 (3): 611–659. doi :10.1177/030631296026003005 . JSTOR 285702 .
^ Minsky, Marvin; Papert, Seymour (1969), Perceptrons: An Introduction to Computational Geometry , MIT Press, ISBN 0-262-63022-2
^ a b c d Wilson, Bill (2012年 nián 6月 yuè 24日 rì ). “The Machine Learning Dictionary ”. www.cse.unsw.edu.au . 2018年 nián 8月 yuè 26日 rì 時 shí 点 diăn のオリジナル よりアーカイブ。2021年 nián 1月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ a b Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). “6.5 Back-Propagation and Other Differentiation Algorithms” . Deep Learning . MIT Press. pp. 200–220. ISBN 9780262035613 . オリジナル の2018-01-27時 shí 点 diăn におけるアーカイブ。. https://web.archive.org/web/20180127104809/http://www.deeplearningbook.org/ 2021年 nián 3月 yuè 14日 rì 閲 yuè 覧 lăn 。
^ Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting . New York: John Wiley & Sons. ISBN 0-471-59897-6
^ Crevier, Daniel [in 英 yīng 語 yŭ ] (1993), AI: The Tumultuous Search for Artificial Intelligence , New York, NY: BasicBooks, ISBN 0-465-02997-3 。
^ Parker, D.B. (1985). Learning Logic . Cambridge MA: Massachusetts Institute of Technology.
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986a). “Learning representations by back-propagating errors”. Nature 323 (6088): 533–536. Bibcode : 1986Natur.323..533R . doi :10.1038/323533a0 .
^ Fukushima, Kunihiko「位 weì 置 zhì ずれに影 yĭng 響 xiăng されないパターン認 rèn 識 shì 機 jī 構 goù の神 shén 経 jīng 回 huí 路 lù のモデル --- ネオコグニトロン --- 」『Trans. IECE』J62-A第 dì 10号 haò 、1979年 nián 10月 yuè 、658–665頁 yè 、 オリジナル の2021年 nián 1月 yuè 28日 rì 時 shí 点 diăn におけるアーカイブ、2021年 nián 1月 yuè 20日 rì 閲 yuè 覧 lăn 。
^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). “Deep learning”. Nature 521 (7553): 436–444. Bibcode : 2015Natur.521..436L . doi :10.1038/nature14539 . PMID 26017442 .
^ a b c d e Bajpai, Akash (2019年 nián 2月 yuè 23日 rì ). “Recurrent Neural Networks: Deep Learning for NLP ”. Towards Data Science . 2021年 nián 1月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ ゼップ・ホッフライター; ユルゲン・シュミットフーバー (1995年 nián 8月 yuè 21日 rì ), Long Short Term Memory , ftp://ftp.idsia.ch/pub/juergen/fki-207-95.ps.gz , Wikidata Q98967430
^ ゼップ・ホッフライター; ユルゲン・シュミットフーバー (1997年 nián ), “LSTM can Solve Hard Long Time Lag Problems” (英 yīng 語 yŭ ), Advances in Neural Information Processing Systems 9 , Advances in Neural Information Processing Systems, https://papers.nips.cc/paper/1215-lstm-can-solve-hard-long-time-lag-problems.pdf , Wikidata Q77698282
^ Sepp Hochreiter ; Jürgen Schmidhuber (1997). “Long short-term memory” . Neural Computation 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735 . PMID 9377276 . オリジナル の2021-01-22時 shí 点 diăn におけるアーカイブ。. https://web.archive.org/web/20210122144703/https://www.researchgate.net/publication/13853244_Long_Short-term_Memory 2021年 nián 1月 yuè 20日 rì 閲 yuè 覧 lăn 。 .
^ Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (May 2009). “A Novel Connectionist System for Unconstrained Handwriting Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 31 (5): 855–868. doi :10.1109/tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 .
^ Märgner, Volker; Abed, Haikal El (July 2009). “ICDAR 2009 Arabic Handwriting Recognition Competition”. 2009 10th International Conference on Document Analysis and Recognition : 1383–1387. doi :10.1109/ICDAR.2009.256 . ISBN 978-1-4244-4500-4 .
^ Olah, Chris (2015年 nián 8月 yuè 27日 rì ). “Understanding LSTM Networks ”. 2017年 nián 8月 yuè 1日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 22日 rì 閲 yuè 覧 lăn 。
^ “N-gram Counts and Language Models from the Common Crawl ”. pp. 3579–3584 (2014年 nián 5月 yuè ). 2021年 nián 1月 yuè 28日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 22日 rì 閲 yuè 覧 lăn 。
^ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim et al. (2020). “Transformers: State-of-the-Art Natural Language Processing”. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations . pp. 38–45. doi :10.18653/v1/2020.emnlp-demos.6
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books . pp. 19–27. arXiv :1506.06724 . https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html .
^ a b "Our largest model, GPT-2, is a 1.5B parameter Transformer" Radford. (2019)
^ a b Tsvetkov, Yulia (2017年 nián 6月 yuè 22日 rì ). “Opportunities and Challenges in Working with Low-Resource Languages ”. Carnegie Mellon University. 2020年 nián 3月 yuè 31日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 23日 rì 閲 yuè 覧 lăn 。
^ Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015). "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books". arXiv :1506.06724 [cs.CV ]. # of books: 11,038 / # of sentences: 74,004,228 / # of words: 984,846,357 / mean # of words per sentence: 13 / median # of words per sentence: 11
^ “A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference ”. Association for Computational Linguistics (2018年 nián 6月 yuè 1日 rì ). 2020年 nián 2月 yuè 11日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 23日 rì 閲 yuè 覧 lăn 。 “At 433k examples, this resource is one of the largest corpora available for natural language inference (a.k.a. recognizing textual entailment), [...] offering data from ten distinct genres of written and spoken English [...] while supplying an explicit setting for evaluating cross-genre domain adaptation.”
^ Lai, Guokun; Xie, Qizhe; Hanxiao, Liu; Yang, Yiming; Hovy, Eduard (15 April 2017). "RACE: Large-scale ReAding Comprehension Dataset From Examinations". arXiv :1704.04683 [cs.CL ]。
^ “LSDSem 2017 Shared Task: The Story Cloze Test ”. Association for Computational Linguistics (2017年 nián 4月 yuè 3日 rì ). 2020年 nián 11月 yuè 22日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 1月 yuè 23日 rì 閲 yuè 覧 lăn 。 “The LSDSem’17 shared task is the Story Cloze Test, a new evaluation for story understanding and script learning. This test provides a system with a four-sentence story and two possible endings, and the system must choose the correct ending to the story. Successful narrative understanding (getting closer to human performance of 100%) requires systems to link various levels of semantics to commonsense knowledge.”
^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omar; Bowman, Samuel R. (20 April 2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". arXiv :1804.07461 [cs.CL ]。
^ "a new dataset of millions of webpages called WebText ... which emphasizes document quality." Radford. (2019). Language Models are Unsupervised Multitask Learners .
^ "Our approach motivates building as large and diverse a dataset as possible in order to collect natural language demonstrations of tasks in as varied of domains and contexts as possible." Radford. (2019)
^ Trinh, Trieu H.; Le, Quoc V. (7 June 2018). "A Simple Method for Commonsense Reasoning". arXiv :1806.02847 [cs.CL ]。
^ "Common Crawl ... they have significant data quality issues ... We observed similar data issues in our initial experiments with Common Crawl." Radford. (2019)
^ "emphasizes document quality. To do this we only scraped web pages which have been curated/filtered by humans." Radford. (2019)
^ "we scraped all outbound links from Reddit, a social media platform, which received at least 3 karma." Radford. (2019)
^ 他 tā の多 duō くのデータセットに含 hán まれているので、過 guò 剰 shèng 適 shì 合 hé の原 yuán 因 yīn となる可 kě 能 néng 性 xìng があった
^ "a preliminary version of WebText ... which ... contains slightly over 8 million documents for a total of 40 GB of text." Radford. (2019)
^ "Layer normalization ... was moved to the input of each sub-block" Radford. (2019)
^ "an additional layer normalization was added after the final self-attention block." Radford. (2019)
^ "A modified initialization which accounts for the accumulation on the residual path with model depth ... scale the weights of residual layers at initialization by a factor of 1/√N where N is the number of residual layers." Radford. (2019)
^ "The vocabulary is expanded to 50,257." Radford. (2019)
^ "We also increase the context size from 512 to 1024 tokens" Radford. (2019)
^ "a larger batchsize of 512 is used." Radford. (2019)
^ a b Quach, Katyanna (2019年 nián 2月 yuè 14日 rì ). “Roses are red, this is sublime: We fed OpenAI's latest chat bot a classic Reg headline ”. The Register . 2021年 nián 3月 yuè 9日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ a b “The Staggering Cost of Training SOTA AI Models ”. Synced (2019年 nián 6月 yuè 27日 rì ). 2020年 nián 11月 yuè 24日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ Wiggers, Kyle (2020年 nián 3月 yuè 23日 rì ). “Google open-sources framework that reduces AI training costs by up to 80% ”. VentureBeat . 2020年 nián 11月 yuè 26日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ a b c d e f Vincent, James (2019年 nián 2月 yuè 14日 rì ). “OpenAI's new multitalented AI writes, translates, and slanders ”. The Verge . 2020年 nián 12月 yuè 18日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2020年 nián 12月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ a b c Piper, Kelsey (2019年 nián 2月 yuè 14日 rì ). “An AI helped us write this article ”. Vox . 2020年 nián 11月 yuè 8日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2020年 nián 12月 yuè 19日 rì 閲 yuè 覧 lăn 。
^ Köbis, Nils; Mossink, Luca D. (1 January 2021). “Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human-written poetry”. Computers in Human Behavior 114 : 106553. doi :10.1016/j.chb.2020.106553 .
^ Schwartz, Oscar (2019年 nián 7月 yuè 4日 rì ). “Could 'fake text' be the next global political threat?” . The Guardian . オリジナル の2019年 nián 7月 yuè 16日 rì 時 shí 点 diăn におけるアーカイブ。. https://web.archive.org/web/20190716035703/https://www.theguardian.com/technology/2019/jul/04/ai-fake-text-gpt-2-concerns-false-information 2019年 nián 7月 yuè 16日 rì 閲 yuè 覧 lăn 。
^ a b Vincent, James (2019年 nián 2月 yuè 21日 rì ). “AI researchers debate the ethics of sharing potentially harmful programs ”. The Verge. 2021年 nián 2月 yuè 9日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ a b Zhang, Hugh (2019年 nián 2月 yuè 19日 rì ). “OpenAI: Please Open Source Your Language Model ”. The Gradient. 2021年 nián 1月 yuè 28日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 28日 rì 閲 yuè 覧 lăn 。
^ “OpenGPT-2: We Replicated GPT-2 Because You Can Too ”. Noteworthy (2019年 nián 8月 yuè 22日 rì ). 2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ a b Vincent, James (2019年 nián 6月 yuè 6日 rì ). “There's a subreddit populated entirely by AI personifications of other subreddits ”. The Verge . 2021年 nián 2月 yuè 21日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ Vincent, James (2019年 nián 7月 yuè 24日 rì ). “This AI-powered autocompletion software is Gmail's Smart Compose for coders ”. The Verge . 2021年 nián 3月 yuè 9日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ Olson, Mathew (2019年 nián 12月 yuè 17日 rì ). “AI Dungeon 2, the Text Adventure Where You Can do Nearly Anything, Is Now on Mobile ”. 2020年 nián 9月 yuè 20日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ Nelius, Joanna (2020年 nián 8月 yuè 3日 rì ). “This AI-Powered Choose-Your-Own-Adventure Text Game Is Super Fun and Makes No Sense ”. Gizmodo . 2021年 nián 2月 yuè 28日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ Ha, Anthony (2021年 nián 2月 yuè 4日 rì ). “AI Dungeon-maker Latitude raises $3.3M to build games with 'infinite' story possibilities ”. TechCrunch. 2021年 nián 2月 yuè 21日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。
^ “Write With Transformer ”. 2019年 nián 12月 yuè 4日 rì 閲 yuè 覧 lăn 。
^ “Talk to Transformer ”. 2019年 nián 12月 yuè 4日 rì 閲 yuè 覧 lăn 。
^ “CreativeEngines ”. 2021年 nián 6月 yuè 25日 rì 閲 yuè 覧 lăn 。
^ “An AI is training counselors to deal with teens in crisis ”. MIT Technology Review (2021年 nián 2月 yuè 26日 rì ). 2021年 nián 2月 yuè 27日 rì 時 shí 点 diăn のオリジナルよりアーカイブ 。2021年 nián 2月 yuè 27日 rì 閲 yuè 覧 lăn 。