データ (コンピュータ)

コンピューティングでは、データ（英えい: data）は、1つ以上いじょうのシンボル（記号きごう）の任意にんいの並ならびである。データム（英えい: datum）は、単一たんいつの記号きごうからなるデータである^{[注釈ちゅうしゃく 1]}。データが情報じょうほうと呼よばれるには解釈かいしゃくを要ようする。デジタルデータとは、アナログ表現ひょうげんではなく、1（いち）と0（ぜろ）の二進法にしんほうを使つかって表あらわされるデータである。現代げんだい（1960年ねん以降いこう）のコンピュータシステムでは、すべてのデータはデジタルである。

データは、保存ほぞん中ちゅう（英語えいご版ばん）、転送てんそう中ちゅう（英語えいご版ばん）、使用しよう中ちゅう（英語えいご版ばん）の3つの状態じょうたいで存在そんざいする。コンピュータ内ないでデータは、たいてい並列へいれつデータとして移動いどうする。コンピュータとの間あいだで行いき来きするデータは、たいてい直列ちょくれつデータとして移動いどうする。温度おんどセンサーなどのアナログ機器ききから送おくられたデータは、アナログ-デジタル変換へんかん器きでデジタルに変換へんかんされる。コンピュータが操作そうさする量りょう、文字もじ、または記号きごうを表あらわすデータは、磁気じき的てき（英語えいご版ばん）、光学こうがく的てき（英語えいご版ばん）、電子でんし的てき、または機械きかい的てきな記録きろく媒体ばいたいに保存ほぞんおよび記録きろくされ、デジタル電気でんき信号しんごうまたは光ひかり信号しんごうとして伝送でんそうされる^[1]。データは、周辺しゅうへん機器ききを経由けいゆしてコンピュータに入出力にゅうしゅつりょくされる。

物理ぶつり的てきなコンピュータメモリの要素ようそは、データストレージのアドレスとバイト/ワードで構成こうせいされる。デジタルデータはテーブル、あるいはSQLデータベースのようなリレーショナルデータベースに格納かくのうされることが多おおく、一般いっぱん的てきに、抽象ちゅうしょう的てきなキーと値ねの組くみとして表あらわすことができる。データは、配列はいれつ、グラフ、オブジェクトなど、さまざまな種類しゅるいのデータ構造こうぞうで整理せいりすることができる。そしてデータ構造こうぞうには、数値すうち、文字もじ列れつ、別べつのデータ構造こうぞうなど、さまざまな種類しゅるいのデータを格納かくのうすることができる。

特徴とくちょう[編集へんしゅう]

メタデータは、データに関かんするデータであり、データに意味いみを与あたえて情報じょうほうへ変換へんかんするのに役立やくだつ。メタデータは、暗黙あんもく的てきであったり、指定していされたり、または付与ふよされる場合ばあいがある。

物理ぶつり的てきな事象じしょうや過程かていに関連かんれんするデータには、時間じかん的てきな要素ようそが含ふくまれる。この時間じかん的てきな要素ようそは、暗あんに含ふくまれることもある。その例れいは、温度おんどロガー（自動じどう記録きろく器き）などの機器ききが温度おんどセンサーからデータを受信じゅしんするときである。温度おんどを受信じゅしんすると、そのデータは「今いま」という時間じかん的てきな基準きじゅんを持もつと想定そうていされる。そのため、機器ききは日付ひづけ、時刻じこく、温度おんどを一緒いっしょにして記録きろくする。データロガーが温度おんどを通信つうしんする場合ばあい、温度おんどの測定そくてい値ちごとにメタデータとして日付ひづけと時刻じこくも報告ほうこくする必要ひつようがある。

基本きほん的てきに、コンピュータはデータの形かたちで与あたえられた一連いちれんの命令めいれいに従したがって機能きのうする。与あたえられたタスク（1つか複数ふくすう）を実行じっこうするための一連いちれんの命令めいれいはプログラムと呼よばれる。プログラムは、コンピュータやその他たの機械きかいの動作どうさを制御せいぎょするためのコード化かされた命令めいれいの形かたちをしたデータである^[2]。コンピュータによって実行じっこうされるプログラムは、名めい目的もくてきには機械きかい語ごコードで構成こうせいされる。プログラムによって操作そうさされるが、中央ちゅうおう処理しょり装置そうち（CPU）によって実際じっさいには実行じっこうされない記憶きおく装置そうち上うえの要素ようそもデータである。最もっとも本質ほんしつ的てきなところは、1つのデータム（datum）は特定とくていの場所ばしょに格納かくのうされた値ねということにある。したがって、コンピュータプログラムがそのプログラムのデータを操作そうさすることによって、他たのコンピュータプログラムを操作そうさすることが可能かのうとなる。

データバイトをファイルに格納かくのうするためには、ファイル形式けいしきで直列ちょくれつ化かする必要ひつようがある。一般いっぱんにプログラムは、他たのデータ用ようとは異ことなる特別とくべつなファイルタイプで保存ほぞんされる。実行じっこう可能かのうファイルにはプログラムが含ふくまれ、それ以外いがいのファイルはすべてデータファイルである。ただし、実行じっこう可能かのうファイルは、プログラムで使用しようするデータを含ふくむ場合ばあいもある（プログラムに組くみ込こまれる）。一部いちぶの実行じっこう可能かのうファイルはデータセグメント（英語えいご版ばん）を持もち、名目めいもく上じょうは定数ていすうや変数へんすうの初期しょき値ちが含ふくまれているが、どれもデータと見みなすことができる。

プログラムとデータの境界きょうかい線せんが曖昧あいまい（あいまい）になることがある。たとえば、インタープリタはプログラムである。インタープリタへの入力にゅうりょくデータはそれ自体じたいがプログラムあり、ただ本来ほんらいの機械きかい語ごで表現ひょうげんされていないだけである。インタープリタが解釈かいしゃくするプログラムは、人間にんげんが読よめるテキストファイルであることが多おおく、テキストエディタプログラムで操作そうさされる。同様どうように、メタプログラミングでは、プログラムが他たのプログラムをデータとして操作そうさするものがある。コンパイラ、リンカ、デバッガ、プログラムアップデータ、ウィルススキャナなどのプログラムは、他たのプログラムをデータとして使用しようする。

たとえば、ユーザーはまず、あるファイルからワードプロセッサプログラムをロードするようオペレーティングシステムに指示しじし、次つぎに実行じっこう中ちゅうのプログラムを使用しようして別べつのファイルに保存ほぞんされている文書ぶんしょを開ひらいて編集へんしゅうすることができる。この例れいでは、文書ぶんしょはデータと見みなされる。ワードプロセッサがスペルチェッカも備そなえている場合ばあい、スペルチェッカの辞書じしょ（単語たんごリスト）もデータと見みなされる。スペルチェッカーが修正しゅうせいを提案ていあんするために使用しようするアルゴリズムは、機械きかい語ごデータまたは解釈かいしゃく可能かのうなプログラミング言語げんごで記述きじゅつされたテキストデータのいずれかである。

別べつの用法ようほうとして、人ひとに対たいする可読かどく性せいを持もたないバイナリファイルを、人ひとが読よめるテキストファイルと区別くべつして、データと呼よぶこともある^[3]。

2007年ねんのデジタルデータの総量そうりょうは、2,810億おくギガバイト（281エクサバイト）と推定すいていされている^[4]^[5]。

データのキーと値ね、構造こうぞう、永続えいぞく性せい[編集へんしゅう]

データのキー（key）は、値ね（value）のコンテキスト（文脈ぶんみゃく）を提供ていきょうする。データの構造こうぞうに関係かんけいなく、常つねにキー要素ようそが存在そんざいする。データおよびデータ構造こうぞうにおけるキーは、データ値ちに意味いみを持もたせるために不可欠ふかけつである。値ねもしくは構造こうぞう内ないの値ねの集合しゅうごうと直接的ちょくせつてき／間接かんせつ的てきに関連かんれんするキーがないと、その値ねは無意味むいみとなり、データでなくなる。つまり、データと見みなされるには、値ねの構成こうせい要素ようそにリンクされたキーの構成こうせい要素ようそが必要ひつようである^{[要よう出典しゅってん]}。

次つぎの例れいのように、データはコンピュータの中なかでさまざまな方法ほうほうで表現ひょうげんされる。

RAM[編集へんしゅう]

ランダムアクセスメモリ（RAM）は、CPUが直接ちょくせつアクセスできるデータを保持ほじする。CPUは、プロセッサレジスタまたはメモリ内ないのデータのみを操作そうさすることができる。これは、CPUがストレージ機器きき（ディスクやテープなど）とメモリ間あいだのデータ転送てんそうを指示しじする必要ひつようがあるデータストレージとは対照たいしょう的てきである。RAMは、プロセッサが読よみ込こみまたは書かき込こみ操作そうさのためのアドレスを提供ていきょうすることにより、読よみ込こみまたは書かき込こみができる、直線ちょくせん状じょうの連続れんぞくした場所ばしょの配列はいれつである。プロセッサは、メモリ内ないの任意にんいの場所ばしょを、いつでも、任意にんいの順序じゅんじょで操作そうさすることができる。RAMでは、データの最小さいしょう要素ようそは二に進数しんすうビットである。RAMにアクセスするための機能きのうや制限せいげんはプロセッサによって異ことなる。一般いっぱんに、メインメモリはアドレス 0（16進数しんすうの 0）から始はじまる位置いちの配列はいれつとして配置はいちされる。各かく位置いちには、コンピュータ・アーキテクチャに応おうじて、一般いっぱんに8ビットあるいは32ビットを格納かくのうすることができる。

キー[編集へんしゅう]

データキーは、メモリ上じょうの直接的ちょくせつてきなハードウェアアドレスを指さすものである必要ひつようはない。間接かんせつ的てき、抽象ちゅうしょう的てき、および論理ろんり的てきなキーのコードを値ねと関連付かんれんづけて格納かくのうし、データ構造こうぞうを形成けいせいすることができる。データ構造こうぞうには、その先頭せんとうから所定しょていの偏差へんさ（またはリンクやパス）があり、そこにデータ値ちが格納かくのうされる。したがって、そのデータキーは、構造こうぞう体たいへのキーと、構造こうぞう体たいの内部ないぶでの偏差へんさ（またはリンクやパス）を加くわえて構成こうせいされる。このような構造こうぞうを繰くり返かえして、同おなじ繰くり返かえし構造こうぞう内ないにデータ値ちとデータキーの組くみを格納かくのうすると、その繰くり返かえし構造こうぞうの各かく要素ようそを列れつに、各かく繰くり返かえし構造こうぞうを行くだりに見立みたてた、二に次元じげんの表ひょうのような結果けっかを得えると考かんがえることができる。このようなデータ編成へんせいでは、データキーは通常つうじょう、列れつの値ねの1つ（または複数ふくすうの値ねの複ふく合あい）になる。

編成へんせいされた繰くり返かえしデータ構造こうぞう[編集へんしゅう]

繰くり返かえしデータ構造こうぞうを表おもて形式けいしきで表現ひょうげんすることは、多おおくの可能かのう性せいの1つに過すぎない。繰くり返かえしデータ構造こうぞうはまた、ノード（節ふし）が親子おやこ関係かんけいを持もって互たがいにリンクするように、階層かいそう的てきに編成へんせいすることもできる。これらのノードに、値ねやより複雑ふくざつなデータ構造こうぞうがリンクされる。このように、ノード階層かいそうは、ノードに関連付かんれんづけられたデータ構造こうぞうを扱あつかうためのキーを提供ていきょうする。この表現ひょうげんは、反転はんてん木き（根ねを上うえに、葉はを下したに向むけた樹き形がた図ず）と考かんがえることができる。たとえば、最近さいきんのコンピュータのオペレーティングシステムのファイルシステムが一般いっぱん的てきな例れいであり、XMLもその一ひとつの例れいである。

並ならべ替かえデータまたは順序じゅんじょ付つきデータ[編集へんしゅう]

データをあるキーでソート（整列せいれつ）すると幾いくつかの固有こゆうの特徴とくちょうを生しょうじる。そのキーのサブセット（部分ぶぶん集合しゅうごう）の値ねはすべて一いち群ぐんとして表あらわれる。同おなじキーを持もつデータのグループが順次じゅんじ通過つうかするとき、あるいはキーのサブセットが変化へんかするとき、これをデータ処理しょりの世界せかいではブレークあるいはコントロールブレーク（英語えいご版ばん）と呼よぶ。特とくに、キーのサブセット上じょうのデータ値ちの集計しゅうけいを容易よういにする。

ペリフェラルストレージ[編集へんしゅう]

フラッシュメモリのような大だい容量ようりょうの不揮発ふきはつ性せいメモリが登場とうじょうするまで、永続えいぞく的てきなデータストレージは、磁気じきテープやディスクドライブのような外部がいぶブロックデバイスにデータを書かき込こむことで実現じつげんされていた。これらの装置そうちは通常つうじょう、磁気じきメディア上じょうのある位置いちに磁気じきヘッドを移動いどうし、所定しょていのサイズのデータブロックを読よみ書かきする。この場合ばあい、メディア上じょうの移動いどう位置いちがデータキーで、ブロックがデータ値ちとなる。初期しょきに用もちいられた「ロー・ディスク」データファイルシステムやオペレーティングシステムでは、ディスクドライブ上じょうの連続れんぞくブロック（英語えいご版ばん）をデータファイル用ようとして確保かくほした。このようなシステムでは、すべてのデータが書かき込こまれる前まえにファイルがいっぱいになり、データ領域りょういきが不足ふそくすることがあった。そのため、各かくファイルに十分じゅうぶんな空あき領域りょういきを確保かくほするために、多おおくの未み使用しようのデータ領域りょういきが非ひ生産せいさん的てきに確保かくほされていた。その後ごのファイルシステムでは、パーティションが導入どうにゅうされた。それらは、ディスクのデータ領域りょういきをパーティション用ように確保かくほし、必要ひつように応おうじてパーティションのブロックをファイルに動的どうてきに割わり当あてることで、割わり当あてられたブロックをより経済けいざい的てきに使用しようした。これを実現じつげんするために、ファイルシステムは、カタログまたはファイルアロケーションテーブルによって、データファイルによって使用しようまたは未み使用しようのブロックを追跡ついせきする必要ひつようがあった。これにより、ディスクのデータ領域りょういきをより有効ゆうこうに活用かつようできるようになったが、ディスク全体ぜんたいでファイルの断片だんぺん化かが発生はっせいし、データを読よみ込こむための移動いどう時間じかんが増ふえるために、パフォーマンスのオーバーヘッドが発生はっせいした。最近さいきんのファイルシステムは、断片だんぺん化かしたファイルを動的どうてきに再さい編成へんせいして、ファイルアクセス時間じかんを最適さいてき化かする。ファイルシステムのさらなる発展はってんにより、ディスクドライブが仮想かそう化かされ、論理ろんりドライブを複数ふくすうの物理ぶつりドライブからなるパーティションとして定義ていぎすることが可能かのうになった。

インデックス付つきデータ[編集へんしゅう]

大おおきなデータセットから小ちいさなデータを取とり出だすことは、逐次ちくじ的てきデータ検索けんさくを伴ともなうために非ひ効率こうりつ的てきな場合ばあいがある。インデックス（索引さくいん）とは、ファイル、テーブル、データセットなどのデータ構造こうぞうからキーと位置いちアドレスを写うつし取とり、反転はんてん木き構造こうぞうを使つかってそれらを編成へんせいすることで、元もとのデータのサブセットを取とり出だすのにかかる時間じかんを短縮たんしゅくする方法ほうほうである。そのためには、検索けんさくを開始かいしする前まえに、取得しゅとくするデータのサブセットのキーを知しっていなければならない。最もっとも一般いっぱん的てきなインデックスは、Bツリーと動的どうてきハッシュキーインデックス方式ほうしきである。インデックス作成さくせいは、データの整理せいりと取得しゅとくのためのオーバーヘッドである。インデックスを構成こうせいする方法ほうほうは他ほかにも、キーのソートや、二分にぶん探索たんさくアルゴリズムがある。

抽象ちゅうしょう化かと間接かんせつ化か[編集へんしゅう]

オブジェクト指向しこうでは、データとソフトウェアを理解りかいするために2つの基本きほん的てきな概念がいねんを使用しようする。

プログラムコードクラスの分類ぶんるい学がく的てきなランク構造こうぞう（階層かいそう的てきなデータ構造こうぞうの一いち例れい）。
実行じっこう時じに作成さくせいされる、クラスライブラリからインスタンス化かされたオブジェクトのメモリ内ないデータ構造こうぞうに対たいするデータキー参照さんしょう。

インスタンス化かされた後のちに初はじめて、指定していされたクラスの実行じっこうオブジェクトが現あらわれる。オブジェクトのキー参照さんしょうがNullになると、そのオブジェクトが参照さんしょうしているデータは（データキー参照さんしょうがNullになるため）データでなくなり、したがってそのオブジェクトも存在そんざいしなくなる。そのオブジェクトのデータが保存ほぞんされていたメモリ位置いちはガベージと呼よばれ、再さい利用りよう可能かのうな未み使用しようメモリとして分類ぶんるいされる。

データベース化かデータ[編集へんしゅう]

データベースの登場とうじょうにより、永続えいぞく的てきなデータ保存ほぞんのための抽象ちゅうしょう化かレイヤー（層そう）が導入どうにゅうされた。データベースは、データを永続えいぞく化かする際さいに、メタデータと構造こうぞう化か問とい合あわせ言語げんご（SQL）プロトコルを用もちいて、クライアントとサーバーのシステム間あいだでネットワークを介かいして通信つうしんし、取引とりひきの完全かんぜん性せいを保証ほしょうするために2相そうコミットのログシステムを使用しようする。

並列へいれつ分散ぶんさんデータ処理しょり[編集へんしゅう]

最新さいしんのスケーラブルで高性能こうせいのうなデータ永続えいぞく化か技術ぎじゅつは、高こう帯域たいいき幅はばネットワークに接続せつぞくされた多数たすうの量産りょうさんコンピュータ間あいだにまたがる超ちょう並列へいれつ分散ぶんさんデータ処理しょりに依存いぞんしている。その一いち例れいとしてApache Hadoopがあげられる。このようなシステムでは、データは複数ふくすうのコンピュータに分散ぶんさんされるため、システム内ないの特定とくていのコンピュータを直接ちょくせつまたは間接かんせつ的てきにデータのキーで表あらわす必要ひつようがある。これにより、異ことなるコンピューターで同時どうじに処理しょりされている2つの同おなじデータセットを区別くべつすることができる。

脚注きゃくちゅう[編集へんしゅう]

注釈ちゅうしゃく[編集へんしゅう]

^ 英語えいごでは、dataは単数たんすう形がた、複数ふくすう形がた、または不ふ可算かさん名詞めいしとして扱あつかわれる。また、datumは、明示めいじ的てきな単数たんすう形がたを意味いみする。

出典しゅってん[編集へんしゅう]

^ “Data”. Lexico. 2019年ねん6月がつ23日にち時点じてんのオリジナルよりアーカイブ。2022年ねん1月がつ14日にち閲覧えつらん。
^ “Computer program”. The Oxford pocket dictionary of current english. 2011年ねん11月28日にち時点じてんのオリジナルよりアーカイブ。2012年ねん10月がつ11日にち閲覧えつらん。
^ “file(1)”. OpenBSD manual pages (2015年ねん12月24日にち). 2018年ねん2月がつ5日にち時点じてんのオリジナルよりアーカイブ。2018年ねん2月がつ4日にち閲覧えつらん。
^ Paul, Ryan (2008年ねん3月がつ12日にち). “Study: amount of digital info > global storage capacity”. Ars Technics. オリジナルの2008年ねん3月がつ13日にち時点じてんにおけるアーカイブ。 2008年ねん3月がつ13日にち閲覧えつらん。
^ Gantz, John F. (2008年ねん). “The diverse and exploding digital universe”. International Data Corporation via EMC. 2008年ねん3月がつ11日にち時点じてんのオリジナルよりアーカイブ。2008年ねん3月がつ12日にち閲覧えつらん。

[1] 英語えいごでは、dataは単数たんすう形がた、複数ふくすう形がた、または不ふ可算かさん名詞めいしとして扱あつかわれる。また、datumは、明示めいじ的てきな単数たんすう形がたを意味いみする。

[2] “Data”. Lexico. 2019年ねん6月がつ23日にち時点じてんのオリジナルよりアーカイブ。2022年ねん1月がつ14日にち閲覧えつらん。

[3] “Computer program”. The Oxford pocket dictionary of current english. 2011年ねん11月28日にち時点じてんのオリジナルよりアーカイブ。2012年ねん10月がつ11日にち閲覧えつらん。

[4] “file(1)”. OpenBSD manual pages (2015年ねん12月24日にち). 2018年ねん2月がつ5日にち時点じてんのオリジナルよりアーカイブ。2018年ねん2月がつ4日にち閲覧えつらん。

[5] Paul, Ryan (2008年ねん3月がつ12日にち). “Study: amount of digital info > global storage capacity”. Ars Technics. オリジナルの2008年ねん3月がつ13日にち時点じてんにおけるアーカイブ。 2008年ねん3月がつ13日にち閲覧えつらん。

[6] Gantz, John F. (2008年ねん). “The diverse and exploding digital universe”. International Data Corporation via EMC. 2008年ねん3月がつ11日にち時点じてんのオリジナルよりアーカイブ。2008年ねん3月がつ12日にち閲覧えつらん。

[注釈ちゅうしゃく 1]

[1]

[2]

[3]

[4]

[5]