データベース保存ほぞん

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

データベース保存ほぞん通常つうじょうデータ初期しょき特性とくせい文脈ぶんみゃく内容ないよう構造こうぞう外観がいかん動作どうさ)をうしなうことなしに、技術ぎじゅつ変化へんかおうじて、データベース格納かくのうされた情報じょうほう長期ちょうきてきにアクセス可能かのう形式けいしき変換へんかんすることと関係かんけいする[1]

データベースの普及ふきゅうともない、データベースおよびそのコンテンツの保存ほぞん支援しえんするさまざまな手法しゅほう開発かいはつされてきた。そうした手法しゅほうは、データベースの特性とくせい保存ほぞんニーズによってことなる[2]

データベースを保存ほぞんするには基本きほんてきにマイグレーション、XML正規せいき、エミュレーションという3つの手法しゅほうがある[1]。データベース保存ほぞんみを支援しえんするために、SIARD、Digital Preservation Toolkit、CHRONOS、RODAといったツール、ソフトウェア、プロジェクトがこれまでされてきた。

データベースの特性とくせい[編集へんしゅう]

データベースを保存ほぞんしようとするさいには、対象たいしょうとなるデータベース自体じたい特性とくせい考慮こうりょしなければならない。関係かんけいデータベースは、データをレコードに格納かくのうしたひょう構成こうせいされ、それらのひょうはレコードに格納かくのうされた共通きょうつうのデータポイントをつうじてたがいにむすびつけられる[3]一方いっぽう、ビッグデータの出現しゅつげんともない、あたらしくNoSQLデータベースがまれてきた[4]。データベースは、ひらかれているかじられているか、静的せいてき動的どうてきかといったてん整理せいりできる。データベースがひらかれたものとみなされる場合ばあいは、追加ついかされるデータにたいしてひらかれていることを意味いみする。データベースがじられたものとみなされる場合ばあいは、そのぎゃく意味いみする(そのデータベースは完結かんけつしたものであるため、あたらしいデータにたいしてじている)。データベースが静的せいてきであるとみなされるのは、最初さいしょまれたあとに編集へんしゅう変更へんこうがなされていないレコードがふくまれる場合ばあいである。一方いっぽう将来しょうらい編集へんしゅうされる可能かのうせいのあるレコードがふくまれるのであれば、それは動的どうてきなデータベースとみなされる。データベースがひらかれていて静的せいてきなものか、ひらかれていて動的どうてきなものか、じられていて静的せいてきなものか、あるいはじられていて動的どうてきなものかということによって、保存ほぞん方法ほうほうわってくる。静的せいてきなデータベースよりも動的どうてきなもののほうが、データが変化へんかつづけるため保存ほぞんむずかしく、また、じられたデータベースよりもひらかれたもののほうが、データが追加ついかされつづけるため保存ほぞんむずかしい。データベースが頻繁ひんぱん変更へんこうされればされるほど(レコードないでの変更へんこうまたはレコードの追加ついかによる変更へんこうにより)、保存ほぞんには、その変更へんこう捕捉ほそくする手順てじゅんがより頻繁ひんぱん発生はっせいすることになる[2]

データベース保存ほぞん手法しゅほう[編集へんしゅう]

デジタル保存ほぞんかくとなる3つの手法しゅほうは、データベースの保存ほぞんにも適用てきよう可能かのうである。それには、マイグレーション、XML正規せいき、エミュレーションがふくまれる[1]

マイグレーション[編集へんしゅう]

マイグレーションとは、旧式きゅうしきのデータベースプログラムからあたらしいフォーマットへデータを移行いこうすることである[3]。マイグレーションには、後方こうほう互換ごかんせい相互そうご運用うんようせい標準ひょうじゅんへの変換へんかんという3つの方法ほうほうがある。後方こうほう互換ごかんせいとは、ふるいバージョンで作成さくせいされたファイルをあたらしいバージョンのソフトウェアやハードウェアを利用りようしてひらき、アクセスし、むことである。相互そうご運用うんようせいとは、複数ふくすうのソフトウェアやハードウェアのわせで特定とくていのファイルにアクセスできるようにして、旧式きゅうしき可能かのうせいらすことである。標準ひょうじゅんへの変換へんかんというのは、プロプライエタリなフォーマットから、オープンかつ容易よういにアクセス可能かのうひろ使つかわれているフォーマットへ移行いこうすることである[1]

XML正規せいき[編集へんしゅう]

XML正規せいきとは、もとのデータベース情報じょうほうをXML標準ひょうじゅんフォーマットに変換へんかんすることである。フォーマットとしてのXMLは特定とくていのハードウェアや(テキストエディタないしワープロソフト以外いがいの)ソフトウェアを必要ひつようとせず、人間にんげんでも機械きかいでもむことが可能かのうなもののため、保存ほぞん保管ほかんという目的もくてきからすると持続じぞく可能かのうなフォーマットといえる[1]。しかし、データをXMLに変換へんかんすると、検索けんさく機能きのうなどのデータベースがもつ双方向そうほうこうてき機能きのううしなわれてしまう[3]

エミュレーション[編集へんしゅう]

エミュレーションとは、ふるいコンピュータ環境かんきょうあたらしい技術ぎじゅつやソフトウェアで再現さいげんすることである。それにより、旧式きゅうしきしたソフトウェア、ハードウェア、ファイルフォーマットであっても、あたらしいシステムじょう利用りようできるようになる。したがって、ふるいデータベースを、そのデータベースがもともと作成さくせいされた環境かんきょう模倣もほうしたエミュレータうえ実行じっこうすることが可能かのうとなる[1]

保存ほぞんツールおよび関連かんれんプロジェクト[編集へんしゅう]

SIARD[編集へんしゅう]

Software Independent Archiving of Relational Databases (SIARD) はスイス連邦れんぽう公文書こうぶんしょかんにより開発かいはつされたツールで、2007ねんにバージョン1.0が公表こうひょうされた。SIRADは、特定とくてい事業じぎょうしゃ依存いぞんしないフォーマットで関係かんけいデータベースをアーカイブできるように設計せっけいされている。SIRADアーカイブは、ZIP形式けいしきのパッケージで、XMLとSQL:1999を基盤きばんとしている。SIRADファイルには、データベースない内容ないようデータだけでなく、データベースのおもて構造こうぞうとその関係かんけい記録きろくした機械きかい処理しょり可能かのう構造こうぞうメタデータがふくまれる。ZIPファイルには、データベース構造こうぞう記述きじゅつしたXMLファイル (metadata.xml) と、ひょうごとにまとめられたXMLファイルの集合しゅうごう内容ないようデータ)がひとつふくまれる。SIRADアーカイブには、データベースのだい規模きぼオブジェクト(バイナリ・ラージ・オブジェクトキャラクタ・ラージ・オブジェクト)であるバイナリファイルやテキストファイルがふくまれる場合ばあいもある。SIRADでは、ZIPツールを使つかって個々ここひょう直接ちょくせつアクセスできる。SIRADアーカイブは、じつ運用うんようじょうのデータベースではなく、アーカイブされたデータベースを、SQL:1999に対応たいおうするべつ関係かんけいデータベース管理かんりシステムにさい統合とうごうするものである。さらにSIRADでは、データベース自体じたい記録きろくされていない記述きじゅつ文脈ぶんみゃくメタデータをを追加ついかしたり、関連かんれん記録きろくファイルをどうアーカイブないんだりすることにも対応たいおうしている[5]。SIRADバージョン1.0は、2013ねんにスイスない標準ひょうじゅんeCH-0165として承認しょうにんされた[6]

SIRAD保存ほぞんフォーマットのバージョン2.0は、E-ARKプロジェクトの支援しえんのもと、スイス連邦れんぽう公文書こうぶんしょかんにより設計せっけい開発かいはつされている[7]。バージョン2.0はバージョン1.0をベースとしており、後方こうほう互換ごかんせいのあるフォーマットを定義ていぎしている。SQL:2008にも対応たいおうみ。

DBML (Database Markup Language)[編集へんしゅう]

データベースのマークアップ言語げんご関係かんけいデータベースからおもてデータを抽出ちゅうしゅつするためにつくられたXMLスキーマのこと。2007ねん発表はっぴょうされた[8]

CHRONOS[編集へんしゅう]

CHRONOSはデータベース保存ほぞんツールとして機能きのうするソフトウェア製品せいひんである[4]。これは2004ねんから2006ねんにかけて、CSPしゃがドイツのランツフート応用おうよう科学かがく大学だいがく共同きょうどう開発かいはつしたものである[9]。CHRONOSはデータベース管理かんりシステムからデータを抽出ちゅうしゅつし、それらデータをCHRONOSアーカイブにテキストファイルまたはXMLファイルとして格納かくのうする。したがってすべてのデータは、データベース管理かんりシステム (DBMS) やCHRONOS自体じたいがなくても、プレーンテキストのフォーマットなので、アクセス可能かのうかつ可能かのうである。これにより、保存ほぞんされた静的せいてきなデータベースを目的もくてきのためだけにDBMSを維持いじ管理かんりする必要ひつようがなくなり、かつ、(潜在せんざいてきにリスクをはらむ作業さぎょうである)あたらしいデータベースフォーマットにデータベースファイルを移行いこうする必要ひつようもなくなる[9]。CHRONOSではデータをプレーンテキストで保管ほかんするが、クエリ機能きのう関係かんけいデータベースとどうレベルとかんがえられている[4]

Repository of Authentic Digital Objects (RODA)[編集へんしゅう]

RODA プロジェクトは、ポルトガル政府せいふ機関きかん作成さくせいしたデジタルオブジェクトを保存ほぞんするため、2006ねんにポルトガル国立こくりつ公文書こうぶんしょかんげたものである。このプロジェクトでは、数種類すうしゅるいのデジタルオブジェクトを、(関係かんけいデータベースをふくむ)ひとつのリポジトリに統合とうごうすることが目的もくてきとされていた。さまざまな種類しゅるいのデジタルオブジェクトをひとつのリポジトリとして管理かんりすることで、んだオブジェクトの正規せいき、つまり、ドキュメントの保管ほかん使用しようされるフォーマットの種類しゅるい最小限さいしょうげんおさえ、同様どうようのドキュメントを同様どうようのフォーマットで保存ほぞんすることが目指めざされていた[10]

RODAプロジェクトでは、データベースをデジタルオブジェクトとして保存ほぞんするための標準ひょうじゅん手法しゅほう開発かいはつすることが重視じゅうしされた。データベース保存ほぞんには、保存ほぞんプロセスがデータ、構造こうぞう論理ろんり)、意味いみ(インタフェイス)という3そうかれているというてん独自どくじ課題かだいともな[11]。つまり、データベースのデータだけでなく、その構造こうぞう意味いみ関係かんけい保存ほぞんされる必要ひつようがある。それら3要素ようそすべてを保存ほぞんするために、RODAプロジェクトではデータベース保存ほぞんツールキット (Database Preservation Toolkit) が開発かいはつされた[10]

Database Preservation Toolkit[編集へんしゅう]

もともとRODAプロジェクトで開発かいはつされた Database Preservation Toolkit (DBPTK) は、関係かんけいデータベースを正規せいきされたフォーマットでみ、保存ほぞんするための作業さぎょう手順てじゅんである。アーカイブされたデータベースを保存ほぞんするとともに、それらへアクセスできるようにするために設計せっけいされたツールである。関係かんけいデータベースを正規せいきするために、このツールをもちいてデータをDBMLないしSIARDに変換へんかんする。どちらもXMLを使用しようしており、XMLは特定とくていの、あるいはプロプライエタリなソフトウェアやハードウェアを必要ひつようとしない標準ひょうじゅんフォーマットであるため、保存ほぞん目的もくてきには最適さいてきといえる[10]

運用うんようちゅうのシステムへの接続せつぞくふくめ、このツールキットは、データベースのデジタル保存ほぞん目的もくてきとして、さまざまなデータベースフォーマットあいだ変換へんかん可能かのうにする。つまり、運用うんようちゅうのデータベースやバックアップされたデータベースを(データベース保存ほぞんけに作成さくせいされたXMLベースのフォーマットである)SIARDなどの保存ほぞんフォーマットに変換へんかんする。

関連かんれん項目こうもく[編集へんしゅう]

脚注きゃくちゅう[編集へんしゅう]

  1. ^ a b c d e f Digital Preservation Testbed. (2003) (PDF), From digital volatility to digital permanence: Preserving databases., ICTU Foundation., https://web.archive.org/web/20130531200744/http://en.nationaalarchief.nl/sites/default/files/docs/kennisbank/volatility-permanence-databases-en.pdf 
  2. ^ a b Ashley, K. (2004). “The preservation of databases.”. VINE 34 (2): 66-70. https://doi.org/10.1108/03055720410551075. 
  3. ^ a b c Brogan, Mark and Brown, Justin (PDF). Challenges in digital preservation: Relational databases. Citeseer. https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=0a0eb3727ad66b6663c138748db8abfef70c1339. 
  4. ^ a b c Lindley, A. (2013, September 3–5). Database preservation evaluation report - SIARD vs. CHRONOS: Preserving complex structures as databases through a record centric approach? [Paper presentation]. iPRES 2013 - 10th International Conference on Preservation of Digital Objects, Lisbon, Portugal. doi:10.13140/2.1.3272.8005.
  5. ^ SIARD (Software Independent Archiving of Relational Databases) Version 1.0” (2015ねん5がつ30にち). 2024ねん4がつ11にち閲覧えつらん
  6. ^ Bruggisser, H., Büchler, G., Dubois, A., Kaiser, M., Kansy, L., Lischer, M., Röthlisberger-Jourdan, C., Thomas, H., & Voss, A. (2015). eCH-0165 SIARD format specification 2.0 (draft). eCH E Government Standards. https://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
  7. ^ E-ARK Project”. 2024ねん4がつ11にち閲覧えつらん
  8. ^ Relational Database Preservation through XML modelling”. Extreme Markup Languages (2007ねん8がつ7にち). 2017ねん4がつ16にち閲覧えつらん
  9. ^ a b Brandl, S., & Keller-Marxer, P. (2007, March 23). Long-term archiving of relational databases with Chronos [Paper presentation]. First International Workshop on Database Preservation (PresDB'07), Edinburgh, Scotland. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.459.5158&rep=rep1&type=pdf
  10. ^ a b c Ramalho, José Carlos; Faria, Luis; Silva, Hélder; Coutada, Miguel (2014). Database Preservation Toolkit: a flexible tool to normalize and give access to databases. Biblioteca Nacional de Portugal (BNP). hdl:1822/35183. ISBN 978-972-565-541-2. https://hdl.handle.net/1822/35183. 
  11. ^ Ribeiro, C., & David, G. (2009, March 11). Database preservation. Digital Preservation Europe. https://digitalpreservationeurope.eu/publications/briefs/database_preservation_ribiero_david.pdf