Тэкставы файл

З Вікіпедыі, свабоднай энцыклапедыі
Версія ад 08:13, 30 сакавіка 2023, аўтар Zhuzhal (размовы | уклад) (Функцыя прапаноў спасылак: дададзены 2 спасылкі.)

Тэкставы файл — камп’ютарны файл, які змяшчае тэкставыя даныя, звычайна пададзеныя ў выглядзе радкоў.

Тэкставым файлам супрацьпастаўляюцца двайковыя файлы, у якіх змяшчаюцца даныя, не разлічаныя на іх разгляд у якасці тэксту (напрыклад, файлы, якія захоўваюць гук ці выяву).

У адрозненне ад тэрміна «тэкставы фармат», які апісвае змест даных, тэрмін «тэкставы файл» датычыцца іменна файла і апісвае яго як ёмістасць, што захоўвае такія даныя.

Апісанне

Тэкставы файл уяўляе сабой паслядоўнасць сімвалаў (у асноўным друкавальных знакаў, якія належаць таму ці іншаму набору сімвалаў). Гэтыя сімвалы звычайна згрупаваны ў радкі (англ.: lіnes, rows). У сучасных сістэмах радкі падзяляюцца падзяляльнікамі радкоў, у мінулым мела месца захоўванне радкоў у выглядзе запісаў сталай ці зменнай даўжыні (гл.: Перфакарта). Часам канец тэкставага файла (асабліва калі ў файлавай сістэме не захоўваецца інфармацыя аб памеры файла) таксама адзначаецца адным ці болей адмысловымі знакамі, вядомымі як меткі або маркеры канца файла.

Тэкставы файл можа змяшчаць як фарматаваны, так і нефарматаваны тэкст.

Перавагі і недахопы

Перавагі:

  • Універсальнасць — тэкставы файл можна прачытаць (так ці інакш) на любой сістэме ці АС, асабліва калі гаворка ідзе аб аднабайтных кадыроўках на ўзор ASCіі, якія звычайна не выклікаюць праблемы, якая можа ўзнікаць пры выкарыстанні іншых фарматаў файлаў — для іх не мае значэння розніца ў парадку байтаў ці даўжыні машыннага слова на розных платформах.
  • Устойлівасць — кожнае слова і сімвал у такім файле самадастатковыя, і, калі здарыцца пашкоджанне байтаў у такім файле, то звычайна лягчэй аднавіць даныя і працягнуць апрацоўку астатняга зместу, у той час як у сціснутых ці двайковых файлах пашкоджанне некалькіх байтаў можа прывесці да немагчымасці аднавіць увесь змест файла. Многія сістэмы кіравання версіямі разлічаны на тэкставыя файлы і з двайковымі файламі могуць працаваць толькі як з адзіным цэлым.
  • Фармат тэкставага файла надзвычай просты і яго можна змяняць тэкставым рэдактарам — праграмай, якая ўваходзіць у склад практычна любой АС.

Недахопы:

  • У вялікіх нясціснутых тэкставых файлаў нізкая інфармацыйная энтрапія — гэтыя файлы займаюць больш месца, чым мінімальна неабходна. Хоць гэта лішкавасць і надае павышаную ўстойлівасць да збояў у каналах перадачы даных і пры атрыманні даных з носьбітаў, напрыклад, з магнітнай стужкі.
  • Некаторыя аперацыі з тэкставымі файламі неэфектыўныя. Напрыклад, калі ў файле сустрэнецца лік, вылічальная сістэма да пачатку аперацый з ім павінна будзе перавесці яго ў свой унутраны фармат, ужыўшы адносна складаную працэдуру пераводу ліку; каб перайсці на 1000-ы радок, трэба прачытаць 999 радкоў, якія ідуць перад ім; складана замяніць адзін радок на іншы і г. д. Таму пры рабоце з вялікімі аб'ёмамі даных тэкставыя файлы ўжываюць толькі як прамежкавы фармат.

Фарматы, заснаваныя на тэкставых файлах

З прычыны сваёй прастаты тэкставыя файлы нярэдка выкарыстоўваюцца для захоўвання службовай інфармацыі (напрыклад, файлаў-часопісаў). Тэкставы фармат служыць асновай для многіх адмысловых фарматаў (напрыклад, .іnі, SGML, HTML, XML, TeX, зыходных тэкстаў моў праграмавання).

У тэкставым файле тэкст можна захоўваць як у нефарматаваным, так і фарматаваным ці размечаным выглядзе (напрыклад, Rіch Text Format, HTML), дзе к кожнаму асобнаму сімвалу можна прымяніць фарматаванне (шрыфт, напісанне, памер і інш.).

Пашырэнні імён файлаў

У DOS і Windows для файлаў з нефарматаваным тэкстам звычайна выкарыстоўваецца пашырэнне .txt. Тым не менш, тэкставымі могуць з'яўляцца файлы з любым іншым пашырэннем ці без яго. Напрыклад, зыходныя коды праграм звычайна захоўваюцца ў файлах з пашырэннямі, якія адпавядаюць мове праграмавання, на якой напісаны праграмы (.bas, .pas, .c).

Фарматаваны тэкст (тэкст с разметкай) звычайна захоўваецца ў файлах з пашырэннем, якое адпавядае фармату ці мове разметкі.rtf, .htm, .html.

Кадаванне тэксту

8-бітны тэкст

Гістарычна для кадавання тэкставых файлаў выкарыстоўваўся 7-бітны набор сімвалаў ASCіі, а таксама 8-бітныя EBCDіC і разнастайныя пашырэнні ASCіі. У 8-бітных кодавых старонках агульнапрынята размяшчаць у першай палове кодавай табліцы сімвалы, якія адпавядаюць ASCіі.

Перавагай 8-бітнага падання тэксту з'яўляецца праграмная прастата і незалежнасць ад праблемы парадку байтаў ці даўжыні машыннага слова на розных платформах. Недахоп — вялікая колькасць разнастайных стандартаў, што можа прыводзіць да несумяшчальнасці.

Unіcode ў тэкставых файлах

Выкарыстанне Unіcode ў тэкставых файлах хоць у асноўным вырашае «праблему кадзіровак» і стандартызуе ўжыванне кіруючых сімвалаў, але стварае свае праблемы. У большасці сучасных сістэм найменшай непадзельнай адзінкай інфармацыі у патоку даных ёсць байт (8 біт), а для кадавання аднаго сімвала з Унікода патрэбна некалькі байтаў. Праблема развязваецца шляхам ужывання несумяшчальных паміж сабой сістэм UTF-8 і дзвюх версіі UTF-16 (UTF-16LE і UTF-16BE з процілеглым парадкам байтаў). Часам у пачатак файла дадаюць адмысловы сімвал-метку (U+FEFF[1]), які дазваляе дакладна распазнаць фармат. UTF-8 мае перавагу адваротнай сумяшчальнасці з ASCіі, аднак праграмная апрацоўка тэксту ў UTF-8 паскладняецца зменным памерам сімвала. Таксама, тэксты ў Унікодзе адрозніваюцца яшчэ большай лішкавасцю, чым 8-бітныя.

Кіруючыя сімвалы

Розныя аперацыйныя сістэмы прытрымліваюцца свайго прадстаўлення сімвалаў перавода радка і канца файла. У UNіX перавод радка складаецца з аднаго сімвала LF (код 10), у Mac OS — з сімвала CR (код 13), а ў DOS і Windows перавод радка кадуецца паслядоўнасцю двух сімвалаў: CR і LF.

Апроч названых, у тэкставых файлах ужываюцца такія сімвалы, як табуляцыя (код 9) і перавод старонкі (код 12).

Гл. таксама

Зноскі

  1. Стандарт Unіcode, ч. 2.(недаступная спасылка)