Biological database. Primary database, Secondary databaseの違いなど。

Primary Database (2)

バイオインフォマティクスの基本となるデータベースについてまとめます。 データベースの役割と、データベースの理想と現実について。 データベースの分類ではPrimary databaseとSecondary databaseについてまとめていきます。

データベースの役割

データベースの役割は3つあって、
  • Store 蓄積
  • Organize 体系づける
  • Retrieve 引き出す
いいデータというものは以下が満たされるものです。
  • Structured 構造的で
  • Update 更新されて
  • Cross-referenced 互いに参照しあえて
  • Minimum redundancy 重複が少ない
データベースを作る中で、以下の事項が全て満たされるものが理想だが今現在は不可能である。
  • Sensitivity 精度
  • Selectivity or specificity 選択性、特殊性
  • Speed 速さ
よって、この3つのバランス良く満たせるものがいい。

データベースの分類

データベースは、データの種類によって以下2つのデータベースに分けられる。
  • Primary Database
  • Secondary Database

Primary Database

Primary Database

Primary Databaseにはどのようなデータが収められているのか。このデータベースには、実験データが収められる。このデータは実験を行った人によって直接提出される。つまり、第三者からのチェックなどを受けずに提出されるため、そのデータが正しいかどうかは議論の余地がある。例えば、DNAシーケンスなどを行ったデータそのものはここに提出される。またこのデータは日々更新される。 代表的なデータベースには以下のようなものがある。 Genbank(アメリカ)、DDBJ(日本)、EMBL(ヨーロッパ)のDNAデータベースである。 これらのデータベース間でデータを参照しあっている。

Secondary Database

Primary Database (1)

Secondary DatabaseはPrimary Dataをもとに詳しく調べた生データが収められる。Annotationや、機能的な繋がりなどと関連付けられる。Primary Databaseよりは他のデータとの繋がりなどが整理された質の高いデータが収められている。 代表的なデータベースには以下のようなものがある。

最後に

簡単にデータベースについてまとめてみました。正確でないところ、間違っているところがありましたら指摘してもらえるとありがたいです。生物系の研究するにあたってこれらのデータベースをうまく使うことは大事なことかなと思います。アメリカ、ヨーロッパに並んで日本もデータベースを持っているのはなかなかやるなあと個人的には感じました。