(Translated by https://www.hiragana.jp/)
化学データベース - Wikipedia コンテンツにスキップ

化学かがくデータベース

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

化学かがくデータベース(かがくデータベース、chemical database)は、化学かがく情報じょうほう格納かくのうする目的もくてき設計せっけいされたデータベース総称そうしょうである。

概要がいよう[編集へんしゅう]

おおくの化学かがくデータベースは反応はんのう過程かてい一過いっかせいあらわれるようなものではなく、安定あんていしている分子ぶんし情報じょうほう格納かくのうする。化学かがく構造こうぞう表現ひょうげんは、伝統でんとうてきには、原子げんし化学かがく結合けつごうあらわ線分せんぶんとを使用しようして、平面へいめんじょうえがかれる(2D構造こうぞう)。この抽象ちゅうしょうされた表現ひょうげん化学かがくしゃけの表現ひょうげんであり、この表現ひょうげん計算けいさん化学かがくや、とく検索けんさく格納かくのうについていうならば適当てきとう方式ほうしきではない。

化学かがくデータベースは、そのデータ構成こうせいにより化学かがく物質ぶっしつデータベース化合かごうぶつデータベース)と化学かがく反応はんのうデータベースとにけることができる。化学かがく反応はんのうは「反応はんのうぶつ化学かがく物質ぶっしつ」と「生成せいせいぶつ化学かがく物質ぶっしつ」を反応はんのう条件じょうけんとう関連付かんれんづけたデータ構成こうせいになるため、化学かがく反応はんのうデータベースは化学かがく物質ぶっしつデータベースの技術ぎじゅつもと構築こうちくされるのが普通ふつうである。

巨大きょだい化学かがくデータベースはいくひゃくまん化合かごうぶつテラバイトきゅうストレージ格納かくのうしている(2005ねん時点じてんCAS は2,500まん項目こうもく化合かごうぶつ格納かくのうしている)。

表現ひょうげん方式ほうしき[編集へんしゅう]

化学かがく構造こうぞうをデジタルデータベースじょう実装じっそうする方法ほうほうとして、大別たいべつして2つの方式ほうしき存在そんざいする。

  • 連結れんけつテーブル接合せつごうマトリックス/リストを骨格こっかくとして結合けつごう様式ようしき角度かくど)や原子げんし節点せってん)の属性ぞくせい追加ついかする方法ほうほう
    れい) MDL しゃMOL, PDB, CML 記法きほうとう
  • 深度しんど優先ゆうせんあるいは幅優先はばゆうせんリスト構造こうぞうもとにした文字もじれつ表現ひょうげん
    れい) SMILES 記法きほうSMARTS 記法きほうSLN 記法きほうWLN 記法きほう

これらの方式ほうしきもとに、立体りったい化学かがくちがいや有機ゆうき金属きんぞく化合かごうぶつられるような特殊とくしゅ原子げんし表現ひょうげんけられるよう改良かいりょうくわえられている。コンピュータがあつか表現ひょうげん形式けいしきもっと重要じゅうよう評価ひょうかすべきてんはデータのサイズや検索けんさく時間じかん増加ぞうか傾向けいこうフレキシブル検索けんさく可能かのうであるかかというてんにある。

検索けんさく[編集へんしゅう]

化学かがくしゃ部分ぶぶん構造こうぞうIUPAC めい一部いちぶのような属性ぞくせいよる制約せいやくるいする検索けんさく条件じょうけん使つかってデータベース検索けんさく実行じっこうする。化学かがくデータベースは汎用はんようデータベースとことなり、部分ぶぶん構造こうぞう検索けんさく提供ていきょうするてん特徴とくちょうげられる。このたね検索けんさく部分ぶぶんグラフ同形どうけいほうsub-graph isomorphismときとしてたん monomorphismばれる方法ほうほう)やグラフ理論りろん応用おうようにより探索たんさくすることができる。検索けんさくアルゴリズムは計算けいさんりょうO (n3) ないしは O (n4) ばい複雑ふくざつさで増大ぞうだいする(n はふくまれる原子げんしかず)。検索けんさく機能きのう集約しゅうやくしたコンポーネントは atom-by-atom-searching (ABAS) とばれ、検索けんさく対象たいしょう分子ぶんし構造こうぞう原子げんし結合けつごうからなる部分ぶぶん構造こうぞう探索たんさくできるように、検索けんさくできるようにマッピングおこなっている。ABAS 検索けんさくウルマン・アルゴリズムかそのへんほう使つかって通常つうじょう実装じっそうされる。検索けんさく速度そくど向上こうじょう分割ぶんかつ実行じっこうにより実現じつげんされ、ぜん処理しょりにより複数ふくすう検索けんさくタスクに分割ぶんかつされて格納かくのうされる。ぜん処理しょりには、普通ふつう分子ぶんしのフラグメント構造こうぞう有無うむ表現ひょうげんするビット列びっとれつ展開てんかいする作業さぎょうふくまれる。検索けんさく構造こうぞうがフラグメントにあるかどうかつけるには、探索たんさくされる分子ぶんし構造こうぞうと ABAS 比較ひかくされるさい検索けんさく構造こうぞうあらわすフラグメント存在そんざいないものを除外じょがいする必要ひつようがある。この除外じょがい操作そうさスクリーニングばれ、それを実装じっそうするのにビット列びっとれつ使用しようされ、それは構造こうぞうキー(structural keys)ともばれる。このようなキーの検索けんさく効率こうりつはフラグメントを選択せんたく使用しようするキーのかたとデータベースちゅう分子ぶんし構造こうぞうにそのキーが存在そんざいするかくりつ依存いぞんする。種類しゅるいのキー構築こうちく方法ほうほうにフラグメントから算術さんじゅつしき導出どうしゅつされるハッシュもとにする方法ほうほう使用しようされている。この方法ほうほうフィンガープリントともばれるが、ときとしてこのかたり構造こうぞうキーと同義語どうぎごのように使用しようされる。構造こうぞうキーやフィンガープリントを格納かくのうするのに必要ひつよう記憶きおく容量ようりょうりたたみ処理しょりにより低減ていげんされ、キーの比較ひかくする部分ぶぶんをビット単位たんい操作そうさ比較ひかくするのであり、ビット列びっとれつ全体ぜんたい比較ひかくしないことで高速こうそくされる。

類似るいじせい[編集へんしゅう]

分子ぶんし構造こうぞう類似るいじせいについては、これひとつであるとめられるような定義ていぎ存在そんざいしない。そして類似るいじせい概念がいねんはプログラムにおける定義ていぎ依存いぞんしており、しばしば類似るいじせい乖離かいり度合どあいの逆数ぎゃくすう使用しようされる。2つの分子ぶんしくらべて分子ぶんしりょうちがいがちいさい場合ばあい類似るいじせいがあるとする。また、種々しゅじゅ測定そくていりょう変量へんりょう解析かいせき結合けつごうさせて類似るいじせいとすることも見受みうけられる。乖離かいり度合どあいは大別たいべつすると、ユークリッド距離きょりユークリッド距離きょりとに分類ぶんるいされる。

データベースは類似るいじせいもとづいて、「類縁るいえん分子ぶんし構造こうぞう集団しゅうだんクラスターすることができる。階層かいそうてきクラスタリングあるいは階層かいそうてきクラスタリング両方りょうほう方式ほうしきによって、化学かがくてき登録とうろく項目こうもくとその属性ぞくせい区分くぶんすることもできる。これらの化学かがくてき属性ぞくせい分子ぶんし構造こうぞう性質せいしつ実験じっけんてきあるいは計算けいさん化学かがくてき決定けっていされ、デスクリプタ(物質ぶっしつ記述きじゅつ)の導出どうしゅつ利用りようされる。 一般いっぱんてきなクラスタリング手法しゅほうひとつに、Jarvis-Patrick アルゴリズムk 近傍きんぼうほう)がげられる。

登録とうろくシステム[編集へんしゅう]

レコードが化学かがく物質ぶっしつとして重複じゅうふくのないように管理かんりされたデータベースシステムは登録とうろくシステム(registration systems)ともばれる。これらのデータベースは化学かがく物質ぶっしつ目録もくろく特許とっきょシステムあるいは産業さんぎょうようデータベースとしてひろ利用りようされている。 登録とうろくシステムは、通常つうじょう、データベースない化学かがくてき表現ひょうげんらぎを特定とくてい表現ひょうげんルールに沿うように強制きょうせいすることで一意いちいせいたもっている。文字もじれつ表現ひょうげん発生はっせいするさい優先ゆうせんルールを適用てきようすることで、「正規せいき SMILES」のような、固有こゆう/「正規せいき文字もじれつ表現ひょうげん登録とうろくシステムは格納かくのうすることができる。 CASシステムのようなあるしゅ登録とうろくシステムは同一どういつ登録とうろく項目こうもくたいして固有こゆうなハッシュ(CAS 登録とうろく番号ばんごう)を発生はっせいさせるアルゴリズムを採用さいようしている。

登録とうろくシステムでは、しお化合かごうぶつハロゲンイオンのちがいのような相違そうい検索けんさくじょうちがいとして無視むしされるように分子ぶんし構造こうぞうぜん処理しょりする場合ばあいもある。

ツール[編集へんしゅう]

コンピュータの内部ないぶ表現ひょうげんは、通常つうじょう化学かがくしゃにグラフィック表示ひょうじ装置そうちじょうのデータとして提示ていじするように処理しょりされる。データ項目こうもく化学かがく構造こうぞうしきエディタかいして容易ようい編集へんしゅうできるようになっている。このたねのエディタは内部ないぶてき画像がぞうデータとコンピュータの内部ないぶ表現ひょうげんとを変換へんかんしている。

すうおおくの内部ないぶ表現ひょうげんのフォーマットが存在そんざいし、それらのあいだ変換へんかんする多数たすうのアルゴリズムも存在そんざいしている。この変換へんかんのためのオープンソースユーティリティひとつに OpenBabelげられる。

IUPAC めい分子ぶんし構造こうぞう表現ひょうげん変換へんかんしたり、そのぎゃく変換へんかんおこなうアルゴリズムもまた、文書ぶんしょから構造こうぞうしき情報じょうほう抽出ちゅうしゅつするテキストマイニングデータマイニングいち技法ぎほう)で利用りようされる。しかし、いいまわしのちがいで発生はっせいする IUPAC めい別称べっしょう存在そんざい問題もんだい複雑ふくざつにしている。固有こゆうの「IUPAC 標準ひょうじゅんめい」を制定せいていするうごき (InChI) も存在そんざいする。

関連かんれん項目こうもく[編集へんしゅう]

外部がいぶリンク[編集へんしゅう]