GitHub - cstsunfu/dlk: A PyTorch Based Deep Learning Quick Develop Framework. One-Stop for train/predict/server/demo

Deep Learning toolKit (dlk)

Don't Repeat Yourself

简体中ちゅう文ぶん | English

dlk                                  --
├── adv_method                       -- adversarial training method like free_lb, fgm, etc.
├── callback                         -- callbacks, like checkpoint, early_stop, etc.
├── data                             -- data processor part
│   ├── data_collate                 -- data collate for collate a batch of data from dataset to dataloader
│   ├── datamodule                   -- the datamodule a.k.a lightning.LightningDataModule
│   ├── dataset                      -- the dataset inherit the torch.Dataset
│   ├── postprocessor                -- the tasks postprocessor
│   ├── processor                    -- the default processor, which scheduler the subprocessors
│   └── subprocessor                 -- the subprocessors like tokenizer, token2id, etc.
├── display                          -- the tasks display setting
├── imodel                           -- the integrated model, which a.k.a the lightning.LightningModule
├── initmethod                       -- the initmethod, some classic parameter init methods
├── nn                               -- builtin nn modules
│   ├── base_module.py               --
│   ├── layer                        --
│   │   ├── decoder                  --
│   │   ├── embedding                --
│   │   ├── encoder                  --
│   │   └── token_gen_decoder        --
│   ├── loss                         --
│   ├── model                        --
│   ├── module                       --
│   └── utils                        --
├── token_sample                     -- for text generate, different sample strategies
├── optimizer                        -- optimizers
├── scheduler                        -- learning rate schedulers
├── trainer                          -- the trainer, a.k.a lightning.Trainer
├── utils                            --
├── preprocess.py                    -- preprocess datas for train|predict|demo|etc.
├── train.py                         -- train entry
├── online.py                        --
├── predict.py                       -- just predict a bunch of data using the pretrained model
├── server.py                        -- deploy this to server your pretrained model
├── demo.py                          -- demo main
└── version.txt                      --

虽然最近さいきん的てき一年多通用大模型吸引了大部分人的注意力，但ただし是ぜ相しょう信しん很多人じん已やめ经意识到任にん务导向むこう的てき模型もけい在ざい现阶段だん仍有其不可ふか替がえ代だい的てき一いち面めん，而且这些模型もけい在ざい处理某ぼう些特定とくてい任にん务时具有ぐゆう更さら好このみ的てき可か靠もたれ性せい和わ更さら高だか的てき效率こうりつ，特とく别是这些模型もけい可か以实现一些Agent来らい与あずかLLM进行配合はいごう。

任にん务导向むこう的てき模型もけい开发实际上じょう不ふ像ぞうLLM一いち样可以“一招鲜吃遍天”，而是每ごと个任务的模型もけい都と需要じゅよう针对性せい的てき开发，而在工作こうさく中ちゅう我わが们经常つね需要じゅよう对深度しんど神しん经网络模型がた进行快速かいそく实验，搜索そうさく最さい优结构和参さん数すう，并将最さい优模型がた进行部署ぶしょ，有ゆう时还需要じゅよう做出demo进行验证.

首くび先さき是ぜ不同ふどう任にん务的开发实际上じょう有ゆう很大一いち部分ぶぶん是重これしげ复的，而同一个任务的训练、预测、部署ぶしょ和わdemo这几个步骤的核心かくしん代だい码也是ぜ一致いっち的てき，但ただし是ぜ在ざい实现上うえ都と需要じゅよう一定いってい的てき的てき改あらため动，如果每ごと个步骤都独立どくりつ开发的てき话，会かい使し得とく整せい个过程ほど非常ひじょう割わり裂きれ，而这造成ぞうせい的てき代だい码冗余あまり对于长期的てき代だい码维护是灾难性せい的てき。

DLK是ぜ一いち个使用しようlightning的てきTrainer，intc为config管理かんり系けい统的集しゅう模型もけい训练、参さん数すう（架か构）搜索そうさく、模型もけい预测、模型もけい部署ぶしょ和わdemo为一身いっしん，对于同どう一个模型实现这些功能只需要依赖一份代码，大だい大だい降くだ低てい开发和わ维护成本なりもと.

同どう时DLK作さく为一个通用的训练框架，我わが们的各かく种训练技巧ぎこう和わ增强ぞうきょう方法ほうほう也可以非常ひじょう方便ほうべん的てき用よう于不同ふどう的てき模型もけい, 为此DLK内うち置おけ了りょう很多有用ゆうよう的てき组件。

除じょ了りょう基もと础组件けん之の外そと，DLK还为主要しゅよう的てき任にん务提供ていきょう了りょう丰富的てき示しめせ例れい，更さら多た的てき示しめせ例会れいかい慢慢添加てんか进来

You Can Edit Your DLK Config Like Python Code

基もと于intc 所ところ提供ていきょう的てき强大きょうだい的てきConfig管理かんり能力のうりょく, 你可以像编写python代だい码一样编写你的config文ぶん件けん

Install

pip install dlk == 0.1.0

# or clone this repo and cd to the project root dir
pip install .

Demo

下面かめん是ぜ一いち些基于dlk开发的てき示しめせ例れい:

NOTE: 由よし于我目前もくぜん只ただ有ゆう一いち台だい拥有一いち张AMD Radeon VII 16G的てきGPU和わ32G内うち存そん的てき个人PC，算さん力りょく十じゅう分有ぶんゆう限げん，因いん此这里さと示しめせ例れい的てき参まいり数すう很多都と还没有ゆう优化至いたりSOTA

Grid Search

dlk基もと于intc进行开发，因いん此同样提供ていきょう了りょう参さん数すう搜索そうさく的てき能力のうりょく，而intc的てき_search并不仅限于数值类型がた的てき参まいり数すう搜索そうさく，也可以对整せい个模块进行ぎょう搜索そうさく，因いん此dlk实际上じょう也具有ぐゆう模も块级的てき架か构搜索そうさく能力のうりょく

./examples/grid_search_exp里さと面めん提供ていきょう了りょう一个对超参数进行搜索的示例

训练完かん模型もけい之の后きさき执行：

tensorboard --logdir ./logs

Task Demo

Demo 均ひとし位い于examples目め录下，训练完かん模型もけい后きさき执行：

streamlit run ./demo.py

Usage and Feature

使用しよう方法ほうほう

一般来说一个常见的dlk开发任にん务包含ほうがん两个pipeline，即そく数すう据すえ预处理りpipeline和わ模型もけい推理すいりpipeline. 实际上じょう这两个步骤是可か以放到いた同どう一いち个pipeline中ちゅう的てき, 当とう前まえ示しめせ例れい中ちゅう的てき大だい多数たすう任にん务都需要じゅよう对预处理数すう据すえ的てき复用，因いん此使用しよう两个pipeline

数かず据すえ预处理りpipeline对应的てき内ない置おけ入口いりくち是ぜdlk.preprocess.Process，我わが们需要よう编写process.jsonc config文ぶん件けん来らい对预处理过程(训练、推理すいり、deploy过程全ぜん都と复用同一どういつ个文件けん，因いん此配置はいち文ぶん件けん中有ちゅうう针对不同ふどうstage的てき不同ふどう设置)进行配置はいち并初始はじめ化かProcess, 将しょう数すう据すえ传入并执行ぎょうrun即そく可か按要求ようきゅう输出预处理り好このみ的てき数すう据すえ

模型もけい训练pipeline对应的てき内ない置おけ入口いりくち是ぜdlk.train.Train, 我わが们需要よう编写fit.jsonc config文ぶん件けん来らい对模型がた训练（推理すいり和わdeploy过程也同样复用よう这个文ぶん件けん），使用しよう配置はいち文ぶん件けん初はつ始はじめ化かTrain之これ后きさき执行run即そく可か获得训练好このみ的てき模型もけい。

demo则只需要じゅよう导入训练过程中ちゅう相しょう同どう的てきprocess.jsonc和わfit.jsonc以及训练好このみ的てき模型もけい（由ゆかりcheckpoint callback组件保存ほぞん）即そく可か

模型もけい部署ぶしょ只ただ需将dlk.server.Server实例化か，分ふん发到对应的てき服ふく务器，通つう过Server.fit接受せつじゅ单条或ある一いち个batch的てき数すう据すえ即そく可か（TODO: 示しめせ例れい）

模かたぎ块注册さつ

DLK依よ赖两个注册さつ系けい统，一いち套是intc的てきconfig注ちゅう册さつcregister，一いち套是dlk自己じこ的てき模も块注册さつ，注ちゅう册さつ原げん则是一致いっち的てき，都みやこ是ただし将しょう一いち个模块以module_type和わmodule_name为key注ちゅう册さつ到いた注ちゅう册さつ器き中ちゅう，之これ所以ゆえん选择两层的てき命名めいめい作さく为key是ぜ因いん为这样更方便ほうべん区分くぶん不同ふどう的てき模も块类型がた

以dlk.nn.layer.embedding.static 为例，我わが们将StaticEmbeddingConfig 作さく为StaticEmbedding的てきconfig以("embedding", "static")为key注ちゅう册さつ到いたintc的てきcregister中なか，以同样的key将はたStaticEmbedding注ちゅう册さつ到いたdlk的てき模も块注册さつ器きregister中なか。

使用しよう注ちゅう册さつ器き的てき好こう处是，我わが们可以不必关注ちゅう具体ぐたい类在哪里实现，只ただ要よう知道ともみち注ちゅう册さつ的てき名称めいしょう就可以直接ちょくせつ获取这个类，这使得え我わが们可以非常ひじょう方便ほうべん的てき在ざい任意にんい位置いち扩展embedding的てき类型，对于我わが们在自己じこ的てき项目里さと面めん扩展dlk非常ひじょう重要じゅうよう，注ちゅう册さつ模も块对于intc也同样重要じゅうよう。在ざい我わが们已知ちStaticEmbedding的てき注ちゅう册さつ名めい的てき情じょう况下，获取这个模も块的方法ほうほう非常ひじょう简单，可か以直接ちょくせつregister.get("embedding", "static")即そく可か，而不必关注ちゅう他た的てき实际存そん储位置いち(cregister也有やゆう同どう样的功こう能のう)

部分ぶぶん内ない置おけ模も块介绍

callback

dlk的てきTrainer是ぜ基もと于lightning.Trainer实现的てき，因いん此dlk同どう样可以使用しようlightning提供ていきょう的てきcallback, dlk.callback中ちゅう包含ほうがん一いち些常用じょうよう的てきcallback

虚きょ拟对抗こう训练

Adversarial Training是ぜ一种常见的提升模型效果的技巧，dlk内うち置おけ了りょう一些常用的针对embedding的てきadv方法ほうほう(dlk.adv_method)，./examples/adv_exp是ぜ一个使用示例

复杂训练控ひかえ制せい

dlk的てきdlk.scheduler模かたぎ块提供ていきょう了りょう多た种的训练scheduler， dlk.nn.loss模かたぎ块中的てきmulti_loss同どう样针对多个loss提供ていきょう了りょう自由じゆう控ひかえ制せい各かく种loss的てき能力のうりょく

文ぶん本ほん生成せいせい

dlk还参考さんこうfairseq的てき实现，实现了りょう多た种的token_sample方法ほうほう，为文本ほん生成せいせい提供ていきょう非常ひじょう强大きょうだい的てき控ひかえ制せい能力のうりょく

实现你自己じこ的てき模型もけい

参考さんこう./examples/001_first_example 实现你自己じこ的てき模型もけい

看み完かん例れい子こ之の后きさき。但ただし你可能会のうかい有ゆう疑うたぐ问，这似乎并不ふ比ひ我わが直接ちょくせつ实现一いち个模型がた简单，甚至有ゆう很多概念がいねん让我觉得这看起おこり来らい更さら复杂。是ぜ的てき，如果你只是ぜ想そう训练一个简单的模型，不ふ需要じゅよう考こう虑预测、演えんじ示しめせ等とう，没ぼつ错，但ただし是これdlk提供ていきょう了りょう一个非常统一的框架，让你只ただ需按照あきら步ふ骤来实现相しょう应的组件，就可以获得とく一いち个可用よう的てき模型もけい。并且所有しょゆう的てき工作こうさく都と是ぜ可か重用じゅうよう的てき，包括ほうかつ你刚刚实现的组件。

而且dlk还提供ていきょう了りょう很多优化方面ほうめん的てき工具こうぐ，让你不ふ是ぜ止とめ步ふ于简单模型がた

记住这个包つつみ的てき原げん则是Donot Repeat Yourself

Name		Name	Last commit message	Last commit date
Latest commit History 286 Commits
dlk		dlk
docs		docs
examples		examples
pics		pics
tests		tests
.gitignore		.gitignore
.readthedocs.yaml		.readthedocs.yaml
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
README_en.md		README_en.md
pyproject.toml		pyproject.toml
pytest.ini		pytest.ini
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Deep Learning toolKit (dlk)

Don't Repeat Yourself

简体中ちゅう文ぶん | English

You Can Edit Your DLK Config Like Python Code

Install

Demo

Grid Search

Task Demo

Usage and Feature

使用しよう方法ほうほう

模かたぎ块注册さつ

部分ぶぶん内ない置おけ模も块介绍

callback

虚きょ拟对抗こう训练

复杂训练控ひかえ制せい

文ぶん本ほん生成せいせい

实现你自己じこ的てき模型もけい

More Document

About

Releases

Packages

Languages

License

cstsunfu/dlk

Folders and files

Latest commit

History

Repository files navigation

Deep Learning toolKit (dlk)

Don't Repeat Yourself

简体中ちゅう文ぶん | English

You Can Edit Your DLK Config Like Python Code

Install

Demo

Grid Search

Task Demo

Usage and Feature

使用しよう方法ほうほう

模かたぎ块注册さつ

部分ぶぶん内ない置おけ模も块介绍

callback

虚きょ拟对抗こう训练

复杂训练控ひかえ制せい

文ぶん本ほん生成せいせい

实现你自己じこ的てき模型もけい

More Document

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages