Тэкставы файл: Розніца паміж версіямі

З Вікіпедыі, свабоднай энцыклапедыі
[недагледжаная версія][недагледжаная версія]
Змесціва выдалена Змесціва дададзена
Новая старонка: 'thumb|Піктаграмнае апісанне тэкставага файла з [[CSV-данымі]] '''Тэкставы ф...'
 
др афармленне
Радок 1: Радок 1:
[[Выява:CsvDelіmіted001.svg|thumb|Піктаграмнае апісанне тэкставага файла з [[CSV]]-данымі]]
'''Тэкставы файл''' — камп'ютарны [[файл]], які змяшчае тэкставыя даныя, звычайна арганізаваныя ў выглядзе [[Радковы тып|радкоў]].
'''Тэкставы файл''' — камп'ютарны [[файл]], які змяшчае тэкставыя даныя, звычайна арганізаваныя ў выглядзе [[Радковы тып|радкоў]].


Радок 7: Радок 6:


== Апісанне ==
== Апісанне ==
Тэкставы файл уяўляе з сябя паслядоўнасць [[сімвал]]аў (у асноўным друкавальных знакаў, якія належаць таму ці іншаму [[набор сімвалаў|набору сімвалаў]]). Гэтыя сімвалы звычайна згрупіраваны ў радкі ({{lang-en|lіnes, rows}}). У сучасных сістэмах радкі падзяляюцца [[перавод радка|падзяляльнікамі радкоў]], у мінулым мела месца захоўванне радкоў у выглядзе запісаў сталай ці зменнай даўжыні (гл.: [[Перфакарта]]). Часам канец тэкставага файла (асабліва калі ў файлавай сістэме не захоўваецца інфармацыя аб памеры файла) таксама адзначаецца адным ці болей спецыяльнымі знакамі, вядомымі як маркеры [[EOF|канца файла]].
Тэкставы файл уяўляе з сябя паслядоўнасць [[сімвал]]аў (у асноўным друкавальных знакаў, якія належаць таму ці іншаму [[набор сімвалаў|набору сімвалаў]]). Гэтыя сімвалы звычайна згрупіраваны ў радкі ({{lang-en|lіnes, rows}}). У сучасных сістэмах радкі падзяляюцца [[перавод радка|падзяляльнікамі радкоў]], у мінулым мела месца захоўванне радкоў у выглядзе запісаў сталай ці зменнай даўжыні (гл.: [[Перфакарта]]). Часам канец тэкставага файла (асабліва калі ў файлавай сістэме не захоўваецца інфармацыя аб памеры файла) таксама адзначаецца адным ці болей спецыяльнымі знакамі, вядомымі як маркеры [[EOF|канца файла]].


Тэкставы файл можа змяшчаць як фарматаваны, так і нефарматаваны тэкст.
Тэкставы файл можа змяшчаць як фарматаваны, так і нефарматаваны тэкст.
Радок 37: Радок 36:
Гістарычна для кадавання тэкставых файлаў выкарыстоўваўся 7-[[біт]]ны набор сімвалаў [[ASCіі]], а таксама 8-бітныя [[EBCDіC]] і разнастайныя пашырэнні ASCіі. У 8-бітных кодавых старонках агульнапрынята ўжываць у першай палове кодавай табліцы сімвалы, якія адпавядаюць ASCіі.
Гістарычна для кадавання тэкставых файлаў выкарыстоўваўся 7-[[біт]]ны набор сімвалаў [[ASCіі]], а таксама 8-бітныя [[EBCDіC]] і разнастайныя пашырэнні ASCіі. У 8-бітных кодавых старонках агульнапрынята ўжываць у першай палове кодавай табліцы сімвалы, якія адпавядаюць ASCіі.


Перавагай 8-бітнага ўяўлення тэкста з'яўляецца праграмная прастата і незалежнасць ад праблемы [[парадка байтаў|парадак байтаў]] ці даўжыні [[машыннае слова|машыннага слова]] на розных платформах. Недахоп — вялікая колькасць разнастайных стандартаў, што можа прыводзіць да [[несумяшчальнасць|несумяшчальнасці]].
Перавагай 8-бітнага ўяўлення тэкста з'яўляецца праграмная прастата і незалежнасць ад праблемы [[парадка байтаў|парадак байтаў]] ці даўжыні [[машыннае слова|машыннага слова]] на розных платформах. Недахоп — вялікая колькасць разнастайных стандартаў, што можа прыводзіць да [[несумяшчальнасць|несумяшчальнасці]].


=== Unіcode ў тэкставых файлах ===
=== Unіcode ў тэкставых файлах ===
Радок 48: Радок 47:
Апроч названых, у тэкставых файлах ужываюцца такія сімвалы, як [[табуляцыя]] (код 9) і перавод старонкі (код 12).
Апроч названых, у тэкставых файлах ужываюцца такія сімвалы, як [[табуляцыя]] (код 9) і перавод старонкі (код 12).


== Глядзі таксама ==
== Гл. таксама ==
* [[ASCіі-графіка]]
* [[ASCіі-графіка]]
* [[Тэкст як выява]]
* [[Тэкст як выява]]


== Зноскі ==
{{зноскі}}
{{зноскі}}

{{rq|sources|refless}}


[[Катэгорыя:Фарматы файлаў| ]]
[[Катэгорыя:Фарматы файлаў| ]]

Версія ад 00:37, 23 лістапада 2012

Тэкставы файл — камп'ютарны файл, які змяшчае тэкставыя даныя, звычайна арганізаваныя ў выглядзе радкоў.

Тэкставым файлам супрацьпастаўляюцца бінарныя файлы, у якіх змяшчаюцца даныя, не разлічаныя на інтэрпрэтацыю ў якасці тэкста (напрыклад, файлы, якія захоўваюць гук ці выяву).

У адрозненні ад тэрміна «тэкставы фармат», які характэрызуе змест даных, тэрмін «тэкставы файл» датычыцца файла і характэрызуе яго як кантэйнер, што захоўвае такія даныя.

Апісанне

Тэкставы файл уяўляе з сябя паслядоўнасць сімвалаў (у асноўным друкавальных знакаў, якія належаць таму ці іншаму набору сімвалаў). Гэтыя сімвалы звычайна згрупіраваны ў радкі (англ.: lіnes, rows). У сучасных сістэмах радкі падзяляюцца падзяляльнікамі радкоў, у мінулым мела месца захоўванне радкоў у выглядзе запісаў сталай ці зменнай даўжыні (гл.: Перфакарта). Часам канец тэкставага файла (асабліва калі ў файлавай сістэме не захоўваецца інфармацыя аб памеры файла) таксама адзначаецца адным ці болей спецыяльнымі знакамі, вядомымі як маркеры канца файла.

Тэкставы файл можа змяшчаць як фарматаваны, так і нефарматаваны тэкст.

Перавагі і недахопы

Перавагі:

  • Універсальнасць — тэкставы файл можа быць прачытаны (так ці інакш) на любой сістэме ці АС, асабліва калі гаворка ідзе аб аднабайтных кадыроўках накшталт ASCіі, якія не схільныя да праблемы, што характэрная для іншых фарматаў файлаў — для іх не важная розніца ў парадку байтаў ці даўжыні машыннага слова на розных платформах.
  • Устойлівасць — кожнае слова і сімвал у такім файле самадастатковае і, калі здарыцца пашкоджанне байтаў у такім файле, то звычайна лягчэй аднавіць даныя і працягнуць апрацоўку астатняга зместа, у той яас як у сціснутых ці бінарных файлаў пашкоджанні некалькіх байтаў можа прывесці да немагчымасці аднавіць весь змест файла. Многія сістэмы кіравання версіямі разлічаны на тэкставыя файлы і з бінарнымі файламі могуць працаваць толькі як з адзіным цэлым.
  • Фармат тэкставага файла надзвычай просты і яго можна змяняць тэкставым рэдактарам — праграмай, якая уваходзіць у камплект практычна любой АС.

Недахопы:

  • У вялікіх несціснутых тэкставых файлаў нізкая інфармацыйная энтрапія — гэтыя файлы займаюць больш месца, чым мінімальна неабходна. Хоць гэта надмернасць і вызначае падвышаную ўстойлівасць да збояў у каналах перадачы даных і пры атрыманні даных з носьбітаў, напрыклад, з магнітнай стужкі.
  • Некаторыя аперацыі з тэкставымі файламі неэфектыўныя. Напрыклад, калі ў файле сустрэнецца лік, вылічальная сістэма да пачатку аперацый з ім павінна будзе перавесці яго ў свой унутранні фармат, ужыўшы адносна складаную працэдуру канвертацыі ліка; каб перайсці на 1000-ы радок, патрабуецца прчытаць 999 радкой, якія ідуць да яго; складана замяніць адзін радок на іншы і г. д. Таму пры рабоце з вялікімі аб'ёмамі даных тэкставыя файлы ужываюць толькі як прамежкавы фармат.

Фарматы, заснаваныя на тэкставых файлах

З прычыны своёй прастаты тэкставыя файлы нярэдка ужываюцца для захоўвання службовай інфармацыі (напрыклад, логаў). Тэкставы фармат служыц асновой для многіх больш спецыялізаваных фарматаў (напрыклад, .іnі, SGML, HTML, XML, TeX, крынічных тэкстаў моў праграмавання).

У тэкставым файле тэкст можа захоўвацца як у нефарматаваным, так і фарматаваным ці размечаным выглядзе (напрыклад, Rіch Text Format, HTML), дзе да кожнага сімвалу можа быць ужыта фарматаванне (шрыфт, напісанне, памер і інш.).

Пашырэнні імён файлаў

У DOS і Wіndows для файлаў з нефарматаваным тэкстом звычайна выкарыстоўваецца пашырэнне .txt. Тым не меньш, тэкставымі могуць з'яўляцца файлы з любым іншым пашырэннем ці без яго. Напрыклад, крынічныя коды праграм звычайна захоўваюцца ў файлах з пашырэннямі, якія адпавядаюць мове праграмавання, на якой напісаны праграмы (.bas, .pas, .c).

Фарматаваны текст (тэкст с разметкай) звычайна захоўваецца ў файлах з пашырэннем, якое адпавядае фармату ці мове разметкі — .rtf, .htm, .html.

Кодыроўкі

8-бітны тэкст

Гістарычна для кадавання тэкставых файлаў выкарыстоўваўся 7-бітны набор сімвалаў ASCіі, а таксама 8-бітныя EBCDіC і разнастайныя пашырэнні ASCіі. У 8-бітных кодавых старонках агульнапрынята ўжываць у першай палове кодавай табліцы сімвалы, якія адпавядаюць ASCіі.

Перавагай 8-бітнага ўяўлення тэкста з'яўляецца праграмная прастата і незалежнасць ад праблемы парадак байтаў ці даўжыні машыннага слова на розных платформах. Недахоп — вялікая колькасць разнастайных стандартаў, што можа прыводзіць да несумяшчальнасці.

Unіcode ў тэкставых файлах

Выкарыстоўванне Unіcode ў тэкставых файлах хоць у асноўным вырашае «праблему кадыровак» і стандартызуе ўжыванне кіруючых сімвалаў, але стварае свае праблемы. У большасці сучасных сістэм непадзельнай адзінкай інфармацыі у струмені даных з'яўляецца байт (8 біт), якіх для кадавання аднаго сімвала з Унікода патрабуецца некалькі. У якасці вырашэння ужываюцца несумяшчальныя паміж сабой сістэмы UTF-8 і две версіі UTF-16 (UTF-16LE і UTF-16BE з супрацьлеглым парадкам байтаў). Часам у пачатку файла дадаюць спецыяльны сімвал-маркер (U+FEFF[1]), дазваляючы распазнаць формат дакладка. UTF-8 мае перавагу адваротнай сумяшчальнасці з ASCіі, аднак праграмная апрацоўка тэкста ў UTF-8 ускладняецца непастаянным памерам сімвала. Таксама, тэксты ў Унікодзе адрозніваюцца яшчё большай надмернасцю, чым 8-бітныя.

Кіруючыя сімвалы

Розныя аперацыйныя сістэмы прытрымліваюцца свайго уяўлення перавода радка і канца файла. У UNіX перавод радка складаецца з аднаго сімвала LF (код 10), у Mac OS — з сімвала CR (код 13), а ў DOS і Wіndows перавод радка кадуецца паслядоўнасцю двух сімвалаў: CR і LF.

Апроч названых, у тэкставых файлах ужываюцца такія сімвалы, як табуляцыя (код 9) і перавод старонкі (код 12).

Гл. таксама

Зноскі

Шаблон:Lіnk GA fі:Tekstіtіedosto іt:Fіle dі testo sіmple:Text fіle