(Translated by https://www.hiragana.jp/)
GitHub - turbo-duck/red-chamber-llm: 🚧 对中国经典名著《红楼梦》处理,并利用该数据对 ChatGLM3-6B 进行微调,通过它来学习微调等。项目包括文本处理、模型训练和应用开发。This project focuses on processing the Chinese literary classic "Dream of the Red Chamber" and fine-tuning the ChatGLM3-6B model using this data. The goal is to enhance the model's capabilities in understanding and generating text related to the novel.
Skip to content

🚧 对中国ちゅうごく经典名著めいちょ《红楼梦》处理,并利用りよう该数すえ对 ChatGLM3-6B 进行ほろ调,つう过它らいがく习微调等。项目包括ほうかつぶんほん处理、模型もけい训练应用开发。This project focuses on processing the Chinese literary classic "Dream of the Red Chamber" and fine-tuning the ChatGLM3-6B model using this data. The goal is to enhance the model's capabilities in understanding and generating text related to the novel.

License

Notifications You must be signed in to change notification settings

turbo-duck/red-chamber-llm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

red-chamber-llm

🚧 对中国ちゅうごく经典名著めいちょ《红楼梦》处理,并利用りよう该数すえ对 ChatGLM3-6B 进行ほろ调,つう过它らいがく习微调等。项目包括ほうかつぶんほん处理、模型もけい训练应用开发。This project focuses on processing the Chinese literary classic "Dream of the Red Chamber" and fine-tuning the ChatGLM3-6B model using this data. The goal is to enhance the model's capabilities in understanding and generating text related to the novel. The project encompasses text processing, model training, and application development.

ほろ调过ほど

これぜんうつしりょう几篇ほろ调的文章ぶんしょうわがいたりょう CSDN とう平台ひらだいのぼる

ちょう级无敌详细,だい码+截图!!!

如果帮到你,记得点とくてん个关ちゅう!!!非常ひじょうかん谢!!! https://blog.csdn.net/w776341482/category_12640329.html?spm=1001.2014.3001.5482

さき起草きそう稿こう きさき整理せいり

01-txt

しも载到red-chamber.txt 红楼梦的しょう说全しゅう

02-split-txt

うつし一个脚本对数据进行切分,目前もくぜん计划すえ“。”进行きりぶん。并保存ほぞんなり一个独立的文件。

# 使用しよう种标てん符号ふごう进行きりぶん
split_pattern = r'[。]'
segments = re.split(split_pattern, cleaned_text)

03-こぼし译对あきら

02 ちゅうてきすうすえまいじょう使用しよう ChatGLM3-6B 进行こぼし译,并整理せいりなり对照てき关系。

{"conversations": [{"role": "user", "content": "袭人いた这个じょう况,知道ともみちまゆずみたまこころさと困惑こんわく,就像宝玉ほうぎょくいち样。于是她对むらさき鹃说:“まゆずみたま刚才びょうりょうわが让秋纹妹いもうと扶她かい休息きゅうそくいち。”"}, {"role": "assistant", "content": "袭人见了这样,知道ともみちまゆずみたま此时心中しんちゅうの迷惑めいわくかず宝玉ほうぎょくいち样,いん悄和むらさき鹃说どう:“姑娘くーにゃんざいこうりょうわがさけべあき纹妹いもうと同着どうちゃく你搀かい姑娘くーにゃん,歇歇去罢"}]}
{"conversations": [{"role": "user", "content": "いん为回头对あき纹说:“你和むらさき鹃姐あねおくはやし姑娘くーにゃん吧,你不能ふのうらん说话哦。”"}, {"role": "assistant", "content": "いんかい头向あき纹道:“你和むらさき鹃姐あねおくはやし姑娘くーにゃん罢,你可别混说话"}]}

04-test

训练结束きさき checkpoint-2500 LoRAてき结果载到模型もけいちゅう进行测试:

  • red-hat.txt しょう红帽原版げんばん
  • red-hat-result.txt ChatGLM3-6B + checkpoint-2500 てき测试结果

原文げんぶん

ゆう一天いってんしょう红帽てきはは亲让她去もちせい病的びょうてき祖母そぼ,并送じょういち篮子食物しょくもつはは亲叮しょく她要小心しょうしん不要ふようざい森林しんりんさと陌生じん说话。
しょう红帽发了,ざい森林しんりんさと,她遇いたりょういちただだいはいおおかみだいはいおおかみ知道ともみちしょう红帽ようもち祖母そぼ,于是决定さき一步到达祖母的家。
そうなりしょう红帽,骗祖はは开了门,しかきさき她吞りょうおおかみ穿ほじうわ祖母そぼてき衣服いふく,躺在床上ゆかうえとうまちしょう红帽てき到来とうらいしょう红帽らいいた祖母そぼてきいた祖母そぼ”躺在床上ゆかうえかんじいた很奇かい。
她问:“祖母そぼ,你的みみ朵怎么这么大?”
おおかみ回答かいとう:“为了さら好地こうち听你说话。”
しょう红帽また问:“祖母そぼ,你的眼睛がんせい怎么这么だい?”
おおかみ回答かいとう:“为了さら好地こうち你。”
さいきさきしょう红帽问:“祖母そぼ,你的くちばしともえ怎么这么だい?”
おおかみ回答かいとう:“为了さら好地こうちども掉你!”
说完,おおかみ从床じょうとべおこりらいしょう红帽也吞りょうこう运的,一个猎人在森林里听到了动静,赶到祖母そぼおおかみてき肚子剖开,救出きゅうしゅつりょうしょう红帽她的祖母そぼ。
猎人おおかみ带走りょう,从此,しょう红帽吸取すいとりょうきょう训,さい也不ざい森林しんりんさと陌生じん说话りょう

译文

一日便叫了小红来问安,またいのちじん一篮子礼物来看祖母。
ははせわししょくどう:“不可ふかざいはやしないあずかなまひとげん语“。
しょう红果便びんおこり往林ちゅうはしぐう见一个老底子大灰狼。
だいはいおおかみ便びん知道ともみちしょう丫头去给老ふとふとはいねんりょう便びん也先进了门。
便びん假作かさくしょう红的样,骗着ろうむすめ开了门,一径吞进去。
说着,だつりょう衣裳いしょう上床うわとこやすし歇,こうしょう丫头。
しょう丫头せわしいた祖母そぼぼうさとらい见,ただ见床じょう躺着个老奶奶。
她便说:“祖母そぼてきみみ怎么せいてき这样だい?“
おおかみどう:“为着こうさけべしょう红便どう:“祖母そぼ,你那眼睛がんせい怎么这样だいおおかみどう:“为着こう瞧你“
说着,便びんまた问道:“祖母そぼてきくちばし儿怎么这だいてき?”
おおかみ便びんどう:“为报应你”
说着,おおかみ便びん从床じょうとべおこり,连同しょう红帽一齐吃去了“
こう亏一猎人从林内经过,听得哭声,赶忙いた祖母そぼ家来けらいはたおおかみ肚割やぶ救出きゅうしゅつしょう红儿あずかろう奶奶。
いんはたおおかみ带来,あずかしょうろうくん说了这番话后,便びん再往さいおうりんちゅうりょう

05-result

LoRAてき训练节点ぶんけん,其实ゆう很多,わが就留りょういち个 2500 てきざい 3090 じょう训练还是非常ひじょうかいてき

  • checkpoint-2500

About

🚧 对中国ちゅうごく经典名著めいちょ《红楼梦》处理,并利用りよう该数すえ对 ChatGLM3-6B 进行ほろ调,つう过它らいがく习微调等。项目包括ほうかつぶんほん处理、模型もけい训练应用开发。This project focuses on processing the Chinese literary classic "Dream of the Red Chamber" and fine-tuning the ChatGLM3-6B model using this data. The goal is to enhance the model's capabilities in understanding and generating text related to the novel.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages