データベース保存 ほぞん は通常 つうじょう 、データ の初期 しょき 特性 とくせい (文脈 ぶんみゃく ・内容 ないよう ・構造 こうぞう ・外観 がいかん ・動作 どうさ )を失 うしな うことなしに、技術 ぎじゅつ 変化 へんか に応 おう じて、データベース に格納 かくのう された情報 じょうほう を長期 ちょうき 的 てき にアクセス可能 かのう な形式 けいしき へ変換 へんかん することと関係 かんけい する[1] 。
データベースの普及 ふきゅう に伴 ともな い、データベースおよびそのコンテンツの保存 ほぞん を支援 しえん するさまざまな手法 しゅほう が開発 かいはつ されてきた。そうした手法 しゅほう は、データベースの特性 とくせい や保存 ほぞん ニーズによって異 こと なる[2] 。
データベースを保存 ほぞん するには基本 きほん 的 てき にマイグレーション、XML 正規 せいき 化 か 、エミュレーションという3つの手法 しゅほう がある[1] 。データベース保存 ほぞん の取 と り組 く みを支援 しえん するために、SIARD、Digital Preservation Toolkit、CHRONOS、RODAといったツール、ソフトウェア、プロジェクトがこれまで生 う み出 だ されてきた。
データベースの特性 とくせい [ 編集 へんしゅう ]
データベースを保存 ほぞん しようとする際 さい には、対象 たいしょう となるデータベース自体 じたい の特性 とくせい を考慮 こうりょ しなければならない。関係 かんけい データベース は、データをレコードに格納 かくのう した表 ひょう で構成 こうせい され、それらの表 ひょう はレコードに格納 かくのう された共通 きょうつう のデータポイントを通 つう じて互 たが いに結 むす びつけられる[3] 。一方 いっぽう 、ビッグデータの出現 しゅつげん に伴 ともな い、新 あたら しくNoSQLデータベースが生 う まれてきた[4] 。データベースは、開 ひら かれているか閉 と じられているか、静的 せいてき か動的 どうてき かといった点 てん で整理 せいり できる。データベースが開 ひら かれたものとみなされる場合 ばあい は、追加 ついか されるデータに対 たい して開 ひら かれていることを意味 いみ する。データベースが閉 と じられたものとみなされる場合 ばあい は、その逆 ぎゃく を意味 いみ する(そのデータベースは完結 かんけつ したものであるため、新 あたら しいデータに対 たい して閉 と じている)。データベースが静的 せいてき であるとみなされるのは、最初 さいしょ に組 く み込 こ まれたあとに編集 へんしゅう や変更 へんこう がなされていないレコードが含 ふく まれる場合 ばあい である。一方 いっぽう 、将来 しょうらい 編集 へんしゅう される可能 かのう 性 せい のあるレコードが含 ふく まれるのであれば、それは動的 どうてき なデータベースとみなされる。データベースが開 ひら かれていて静的 せいてき なものか、開 ひら かれていて動的 どうてき なものか、閉 と じられていて静的 せいてき なものか、あるいは閉 と じられていて動的 どうてき なものかということによって、保存 ほぞん の方法 ほうほう が変 か わってくる。静的 せいてき なデータベースよりも動的 どうてき なものの方 ほう が、データが変化 へんか し続 つづ けるため保存 ほぞん が難 むずか しく、また、閉 と じられたデータベースよりも開 ひら かれたものの方 ほう が、データが追加 ついか され続 つづ けるため保存 ほぞん が難 むずか しい。データベースが頻繁 ひんぱん に変更 へんこう されればされるほど(レコード内 ない での変更 へんこう またはレコードの追加 ついか による変更 へんこう により)、保存 ほぞん 時 じ には、その変更 へんこう を捕捉 ほそく する手順 てじゅん がより頻繁 ひんぱん に発生 はっせい することになる[2] 。
データベース保存 ほぞん の手法 しゅほう [ 編集 へんしゅう ]
デジタル保存 ほぞん で核 かく となる3つの手法 しゅほう は、データベースの保存 ほぞん にも適用 てきよう 可能 かのう である。それには、マイグレーション、XML正規 せいき 化 か 、エミュレーションが含 ふく まれる[1] 。
マイグレーションとは、旧式 きゅうしき のデータベースプログラムから新 あたら しいフォーマットへデータを移行 いこう することである[3] 。マイグレーションには、後方 こうほう 互換 ごかん 性 せい 、相互 そうご 運用 うんよう 性 せい 、標準 ひょうじゅん への変換 へんかん という3つの方法 ほうほう がある。後方 こうほう 互換 ごかん 性 せい とは、古 ふる いバージョンで作成 さくせい されたファイルを新 あたら しいバージョンのソフトウェアやハードウェアを利用 りよう して開 ひら き、アクセスし、読 よ むことである。相互 そうご 運用 うんよう 性 せい とは、複数 ふくすう のソフトウェアやハードウェアの組 く み合 あ わせで特定 とくてい のファイルにアクセスできるようにして、旧式 きゅうしき 化 か の可能 かのう 性 せい を減 へ らすことである。標準 ひょうじゅん への変換 へんかん というのは、プロプライエタリなフォーマットから、オープンかつ容易 ようい にアクセス可能 かのう な広 ひろ く使 つか われているフォーマットへ移行 いこう することである[1] 。
XML正規 せいき 化 か とは、もとのデータベース情報 じょうほう をXML標準 ひょうじゅん フォーマットに変換 へんかん することである。フォーマットとしてのXMLは特定 とくてい のハードウェアや(テキストエディタ ないしワープロソフト 以外 いがい の)ソフトウェアを必要 ひつよう とせず、人間 にんげん でも機械 きかい でも読 よ むことが可能 かのう なもののため、保存 ほぞん ・保管 ほかん という目的 もくてき からすると持続 じぞく 可能 かのう なフォーマットといえる[1] 。しかし、データをXMLに変換 へんかん すると、検索 けんさく 機能 きのう などのデータベースがもつ双方向 そうほうこう 的 てき な機能 きのう は失 うしな われてしまう[3] 。
エミュレーションとは、古 ふる いコンピュータ環境 かんきょう を新 あたら しい技術 ぎじゅつ やソフトウェアで再現 さいげん することである。それにより、旧式 きゅうしき 化 か したソフトウェア、ハードウェア、ファイルフォーマットであっても、新 あたら しいシステム上 じょう で利用 りよう できるようになる。したがって、古 ふる いデータベースを、そのデータベースがもともと作成 さくせい された環境 かんきょう を模倣 もほう したエミュレータ 上 うえ で実行 じっこう することが可能 かのう となる[1] 。
保存 ほぞん ツールおよび関連 かんれん プロジェクト[ 編集 へんしゅう ]
Software Independent Archiving of Relational Databases (SIARD) はスイス連邦 れんぽう 公文書 こうぶんしょ 館 かん により開発 かいはつ されたツールで、2007年 ねん にバージョン1.0が公表 こうひょう された。SIRADは、特定 とくてい の事業 じぎょう 者 しゃ に依存 いぞん しないフォーマットで関係 かんけい データベースをアーカイブできるように設計 せっけい されている。SIRADアーカイブは、ZIP 形式 けいしき のパッケージで、XMLとSQL :1999を基盤 きばん としている。SIRADファイルには、データベース内 ない の内容 ないよう データだけでなく、データベースの表 おもて 構造 こうぞう とその関係 かんけい を記録 きろく した機械 きかい 処理 しょり 可能 かのう な構造 こうぞう メタデータが含 ふく まれる。ZIPファイルには、データベース構造 こうぞう を記述 きじゅつ したXMLファイル (metadata.xml) と、表 ひょう ごとにまとめられたXMLファイルの集合 しゅうごう (内容 ないよう データ)がひとつ含 ふく まれる。SIRADアーカイブには、データベースの大 だい 規模 きぼ オブジェクト(バイナリ・ラージ・オブジェクト やキャラクタ・ラージ・オブジェクト )であるバイナリファイルやテキストファイルが含 ふく まれる場合 ばあい もある。SIRADでは、ZIPツールを使 つか って個々 ここ の表 ひょう に直接 ちょくせつ アクセスできる。SIRADアーカイブは、実 じつ 運用 うんよう 上 じょう のデータベースではなく、アーカイブされたデータベースを、SQL:1999に対応 たいおう する別 べつ の関係 かんけい データベース管理 かんり システムに再 さい 統合 とうごう するものである。さらにSIRADでは、データベース自体 じたい に記録 きろく されていない記述 きじゅつ ・文脈 ぶんみゃく メタデータをを追加 ついか したり、関連 かんれん 記録 きろく ファイルを同 どう アーカイブ内 ない に埋 う め込 こ んだりすることにも対応 たいおう している[5] 。SIRADバージョン1.0は、2013年 ねん にスイス内 ない で標準 ひょうじゅん eCH-0165として承認 しょうにん された[6] 。
SIRAD保存 ほぞん フォーマットのバージョン2.0は、E-ARKプロジェクトの支援 しえん のもと、スイス連邦 れんぽう 公文書 こうぶんしょ 館 かん により設計 せっけい ・開発 かいはつ されている[7] 。バージョン2.0はバージョン1.0をベースとしており、後方 こうほう 互換 ごかん 性 せい のあるフォーマットを定義 ていぎ している。SQL:2008にも対応 たいおう 済 ず み。
DBML (Database Markup Language) [ 編集 へんしゅう ]
データベースのマークアップ言語 げんご 。関係 かんけい データベースから表 おもて データを抽出 ちゅうしゅつ するためにつくられたXMLスキーマのこと。2007年 ねん に発表 はっぴょう された[8] 。
CHRONOSはデータベース保存 ほぞん ツールとして機能 きのう するソフトウェア製品 せいひん である[4] 。これは2004年 ねん から2006年 ねん にかけて、CSP社 しゃ がドイツのランツフート応用 おうよう 科学 かがく 大学 だいがく と共同 きょうどう で開発 かいはつ したものである[9] 。CHRONOSはデータベース管理 かんり システムからデータを抽出 ちゅうしゅつ し、それらデータをCHRONOSアーカイブにテキストファイルまたはXMLファイルとして格納 かくのう する。したがってすべてのデータは、データベース管理 かんり システム (DBMS) やCHRONOS自体 じたい がなくても、プレーンテキスト のフォーマットなので、アクセス可能 かのう かつ読 よ み込 こ み可能 かのう である。これにより、保存 ほぞん された静的 せいてき なデータベースを読 よ み込 こ む目的 もくてき のためだけにDBMSを維持 いじ 管理 かんり する必要 ひつよう がなくなり、かつ、(潜在 せんざい 的 てき にリスクをはらむ作業 さぎょう である)新 あたら しいデータベースフォーマットにデータベースファイルを移行 いこう する必要 ひつよう もなくなる[9] 。CHRONOSではデータをプレーンテキストで保管 ほかん するが、クエリ機能 きのう は関係 かんけい データベースと同 どう レベルと考 かんが えられている[4] 。
Repository of Authentic Digital Objects (RODA) [ 編集 へんしゅう ]
RODA プロジェクトは、ポルトガル政府 せいふ 機関 きかん が作成 さくせい したデジタルオブジェクトを保存 ほぞん するため、2006年 ねん にポルトガル国立 こくりつ 公文書 こうぶんしょ 館 かん が立 た ち上 あ げたものである。このプロジェクトでは、数種類 すうしゅるい のデジタルオブジェクトを、(関係 かんけい データベースを含 ふく む)ひとつのリポジトリに統合 とうごう することが目的 もくてき とされていた。さまざまな種類 しゅるい のデジタルオブジェクトをひとつのリポジトリとして管理 かんり することで、取 と り込 こ んだオブジェクトの正規 せいき 化 か 、つまり、ドキュメントの保管 ほかん に使用 しよう されるフォーマットの種類 しゅるい を最小限 さいしょうげん に抑 おさ え、同様 どうよう のドキュメントを同様 どうよう のフォーマットで保存 ほぞん することが目指 めざ されていた[10] 。
RODAプロジェクトでは、データベースをデジタルオブジェクトとして保存 ほぞん するための標準 ひょうじゅん 手法 しゅほう を開発 かいはつ することが重視 じゅうし された。データベース保存 ほぞん には、保存 ほぞん プロセスがデータ、構造 こうぞう (論理 ろんり )、意味 いみ (インタフェイス)という3層 そう に分 わ かれているという点 てん で独自 どくじ の課題 かだい が伴 ともな う[11] 。つまり、データベースのデータだけでなく、その構造 こうぞう と意味 いみ 関係 かんけい も保存 ほぞん される必要 ひつよう がある。それら3要素 ようそ すべてを保存 ほぞん するために、RODAプロジェクトではデータベース保存 ほぞん ツールキット (Database Preservation Toolkit) が開発 かいはつ された[10] 。
Database Preservation Toolkit [ 編集 へんしゅう ]
もともとRODAプロジェクトで開発 かいはつ された Database Preservation Toolkit (DBPTK) は、関係 かんけい データベースを正規 せいき 化 か されたフォーマットで取 と り込 こ み、保存 ほぞん するための作業 さぎょう 手順 てじゅん である。アーカイブされたデータベースを保存 ほぞん するとともに、それらへアクセスできるようにするために設計 せっけい されたツールである。関係 かんけい データベースを正規 せいき 化 か するために、このツールを用 もち いてデータをDBMLないしSIARDに変換 へんかん する。どちらもXMLを使用 しよう しており、XMLは特定 とくてい の、あるいはプロプライエタリなソフトウェアやハードウェアを必要 ひつよう としない標準 ひょうじゅん フォーマットであるため、保存 ほぞん 目的 もくてき には最適 さいてき といえる[10] 。
運用 うんよう 中 ちゅう のシステムへの接続 せつぞく を含 ふく め、このツールキットは、データベースのデジタル保存 ほぞん を目的 もくてき として、さまざまなデータベースフォーマット間 あいだ の変換 へんかん を可能 かのう にする。つまり、運用 うんよう 中 ちゅう のデータベースやバックアップされたデータベースを(データベース保存 ほぞん 向 む けに作成 さくせい されたXMLベースのフォーマットである)SIARDなどの保存 ほぞん フォーマットに変換 へんかん する。
^ a b c d e f Digital Preservation Testbed. (2003) (PDF), From digital volatility to digital permanence: Preserving databases. , ICTU Foundation., https://web.archive.org/web/20130531200744/http://en.nationaalarchief.nl/sites/default/files/docs/kennisbank/volatility-permanence-databases-en.pdf
^ a b Ashley, K. (2004). “The preservation of databases.” . VINE 34 (2): 66-70. https://doi.org/10.1108/03055720410551075 .
^ a b c Brogan, Mark and Brown, Justin (PDF). Challenges in digital preservation: Relational databases . Citeseer. https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=0a0eb3727ad66b6663c138748db8abfef70c1339 .
^ a b c Lindley, A. (2013, September 3–5). Database preservation evaluation report - SIARD vs. CHRONOS: Preserving complex structures as databases through a record centric approach? [Paper presentation]. iPRES 2013 - 10th International Conference on Preservation of Digital Objects, Lisbon, Portugal. doi :10.13140/2.1.3272.8005 .
^ “SIARD (Software Independent Archiving of Relational Databases) Version 1.0 ” (2015年 ねん 5月 がつ 30日 にち ). 2024年 ねん 4月 がつ 11日 にち 閲覧 えつらん 。
^ Bruggisser, H., Büchler, G., Dubois, A., Kaiser, M., Kansy, L., Lischer, M., Röthlisberger-Jourdan, C., Thomas, H., & Voss, A. (2015). eCH-0165 SIARD format specification 2.0 (draft) . eCH E Government Standards. https://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
^ “E-ARK Project ”. 2024年 ねん 4月 がつ 11日 にち 閲覧 えつらん 。
^ “Relational Database Preservation through XML modelling ”. Extreme Markup Languages (2007年 ねん 8月 がつ 7日 にち ). 2017年 ねん 4月 がつ 16日 にち 閲覧 えつらん 。
^ a b Brandl, S., & Keller-Marxer, P. (2007, March 23). Long-term archiving of relational databases with Chronos [Paper presentation]. First International Workshop on Database Preservation (PresDB'07), Edinburgh, Scotland. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.459.5158&rep=rep1&type=pdf
^ a b c Ramalho, José Carlos; Faria, Luis; Silva, Hélder; Coutada, Miguel (2014). Database Preservation Toolkit: a flexible tool to normalize and give access to databases . Biblioteca Nacional de Portugal (BNP). hdl :1822/35183 . ISBN 978-972-565-541-2 . https://hdl.handle.net/1822/35183 .
^ Ribeiro, C., & David, G. (2009, March 11). Database preservation . Digital Preservation Europe. https://digitalpreservationeurope.eu/publications/briefs/database_preservation_ribiero_david.pdf