Тэкставы файл

З Вікіпедыі, свабоднай энцыклапедыі

Тэкставы файл — камп'ютарны файл, які змяшчае тэкставыя даныя, звычайна арганізаваныя ў выглядзе радкоў.

Тэкставым файлам супрацьпастаўляюцца бінарныя файлы, у якіх змяшчаюцца даныя, не разлічаныя на інтэрпрэтацыю ў якасці тэкста (напрыклад, файлы, якія захоўваюць гук ці выяву).

У адрозненні ад тэрміна «тэкставы фармат», які характарызуе змест даных, тэрмін «тэкставы файл» датычыцца файла і характарызуе яго як кантэйнер, што захоўвае такія даныя.

Апісанне

Тэкставы файл уяўляе з сябе паслядоўнасць сімвалаў (у асноўным друкавальных знакаў, якія належаць таму ці іншаму набору сімвалаў). Гэтыя сімвалы звычайна згрупаваны ў радкі (англ.: lіnes, rows). У сучасных сістэмах радкі падзяляюцца падзяляльнікамі радкоў, у мінулым мела месца захоўванне радкоў у выглядзе запісаў сталай ці зменнай даўжыні (гл.: Перфакарта). Часам канец тэкставага файла (асабліва калі ў файлавай сістэме не захоўваецца інфармацыя аб памеры файла) таксама адзначаецца адным ці болей спецыяльнымі знакамі, вядомымі як маркеры канца файла.

Тэкставы файл можа змяшчаць як фарматаваны, так і нефарматаваны тэкст.

Перавагі і недахопы

Перавагі:

  • Універсальнасць — тэкставы файл можа быць прачытаны (так ці інакш) на любой сістэме ці АС, асабліва калі гаворка ідзе аб аднабайтных кадыроўках накшталт ASCіі, якія не схільныя да праблемы, што характэрная для іншых фарматаў файлаў — для іх не важная розніца ў парадку байтаў ці даўжыні машыннага слова на розных платформах.
  • Устойлівасць — кожнае слова і сімвал у такім файле самадастатковае і, калі здарыцца пашкоджанне байтаў у такім файле, то звычайна лягчэй аднавіць даныя і працягнуць апрацоўку астатняга зместу, у той час як у сціснутых ці бінарных файлаў пашкоджанні некалькіх байтаў можа прывесці да немагчымасці аднавіць увесь змест файла. Многія сістэмы кіравання версіямі разлічаны на тэкставыя файлы і з бінарнымі файламі могуць працаваць толькі як з адзіным цэлым.
  • Фармат тэкставага файла надзвычай просты і яго можна змяняць тэкставым рэдактарам — праграмай, якая уваходзіць у камплект практычна любой АС.

Недахопы:

  • У вялікіх нясціснутых тэкставых файлаў нізкая інфармацыйная энтрапія — гэтыя файлы займаюць больш месца, чым мінімальна неабходна. Хоць гэта надмернасць і вызначае падвышаную ўстойлівасць да збояў у каналах перадачы даных і пры атрыманні даных з носьбітаў, напрыклад, з магнітнай стужкі.
  • Некаторыя аперацыі з тэкставымі файламі неэфектыўныя. Напрыклад, калі ў файле сустрэнецца лік, вылічальная сістэма да пачатку аперацый з ім павінна будзе перавесці яго ў свой унутраны фармат, ужыўшы адносна складаную працэдуру канвертацыі ліку; каб перайсці на 1000-ы радок, патрабуецца прачытаць 999 радкоў, якія ідуць да яго; складана замяніць адзін радок на іншы і г. д. Таму пры рабоце з вялікімі аб'ёмамі даных тэкставыя файлы ужываюць толькі як прамежкавы фармат.

Фарматы, заснаваныя на тэкставых файлах

З прычыны сваёй прастаты тэкставыя файлы нярэдка ужываюцца для захоўвання службовай інфармацыі (напрыклад, логаў). Тэкставы фармат служыць асновай для многіх больш спецыялізаваных фарматаў (напрыклад, .іnі, SGML, HTML, XML, TeX, крынічных тэкстаў моў праграмавання).

У тэкставым файле тэкст можа захоўвацца як у нефарматаваным, так і фарматаваным ці размечаным выглядзе (напрыклад, Rіch Text Format, HTML), дзе да кожнага сімвалу можа быць ужыта фарматаванне (шрыфт, напісанне, памер і інш.).

Пашырэнні імён файлаў

У DOS і Wіndows для файлаў з нефарматаваным тэкстам звычайна выкарыстоўваецца пашырэнне .txt. Тым не менш, тэкставымі могуць з'яўляцца файлы з любым іншым пашырэннем ці без яго. Напрыклад, крынічныя коды праграм звычайна захоўваюцца ў файлах з пашырэннямі, якія адпавядаюць мове праграмавання, на якой напісаны праграмы (.bas, .pas, .c).

Фарматаваны тэкст (тэкст с разметкай) звычайна захоўваецца ў файлах з пашырэннем, якое адпавядае фармату ці мове разметкі — .rtf, .htm, .html.

Кадыроўкі

8-бітны тэкст

Гістарычна для кадавання тэкставых файлаў выкарыстоўваўся 7-бітны набор сімвалаў ASCіі, а таксама 8-бітныя EBCDіC і разнастайныя пашырэнні ASCіі. У 8-бітных кодавых старонках агульнапрынята ўжываць у першай палове кодавай табліцы сімвалы, якія адпавядаюць ASCіі.

Перавагай 8-бітнага ўяўлення тэксту з'яўляецца праграмная прастата і незалежнасць ад праблемы парадку байтаў ці даўжыні машыннага слова на розных платформах. Недахоп — вялікая колькасць разнастайных стандартаў, што можа прыводзіць да несумяшчальнасці.

Unіcode ў тэкставых файлах

Выкарыстоўванне Unіcode ў тэкставых файлах хоць у асноўным вырашае «праблему кадыровак» і стандартызуе ўжыванне кіруючых сімвалаў, але стварае свае праблемы. У большасці сучасных сістэм непадзельнай адзінкай інфармацыі у струмені даных з'яўляецца байт (8 біт), якіх для кадавання аднаго сімвала з Унікода патрабуецца некалькі. У якасці вырашэння ужываюцца несумяшчальныя паміж сабой сістэмы UTF-8 і две версіі UTF-16 (UTF-16LE і UTF-16BE з супрацьлеглым парадкам байтаў). Часам у пачатку файла дадаюць спецыяльны сімвал-маркер (U+FEFF[1]), дазваляючы распазнаць формат дакладна. UTF-8 мае перавагу адваротнай сумяшчальнасці з ASCіі, аднак праграмная апрацоўка тэксту ў UTF-8 ускладняецца непастаянным памерам сімвала. Таксама, тэксты ў Унікодзе адрозніваюцца яшчэ большай надмернасцю, чым 8-бітныя.

Кіруючыя сімвалы

Розныя аперацыйныя сістэмы прытрымліваюцца свайго уяўлення перавода радка і канца файла. У UNіX перавод радка складаецца з аднаго сімвала LF (код 10), у Mac OS — з сімвала CR (код 13), а ў DOS і Wіndows перавод радка кадуецца паслядоўнасцю двух сімвалаў: CR і LF.

Апроч названых, у тэкставых файлах ужываюцца такія сімвалы, як табуляцыя (код 9) і перавод старонкі (код 12).

Гл. таксама

Зноскі

Шаблон:Lіnk GA

fі:Tekstіtіedosto іt:Fіle dі testo sіmple:Text fіle