アキタの雑記

博士後期課程の雑記ブログ。 読んだ本、コンピューター系のメモ、愛猫の写真、勉強のこととか。

カテゴリ:科学 > Bioinformatics

Biological database. Primary database, Secondary databaseの違いなど。

Primary Database (2)

バイオインフォマティクスの基本となるデータベースについてまとめます。 データベースの役割と、データベースの理想と現実について。 データベースの分類ではPrimary databaseとSecondary databaseについてまとめていきます。

データベースの役割

データベースの役割は3つあって、
  • Store 蓄積
  • Organize 体系づける
  • Retrieve 引き出す
いいデータというものは以下が満たされるものです。
  • Structured 構造的で
  • Update 更新されて
  • Cross-referenced 互いに参照しあえて
  • Minimum redundancy 重複が少ない
データベースを作る中で、以下の事項が全て満たされるものが理想だが今現在は不可能である。
  • Sensitivity 精度
  • Selectivity or specificity 選択性、特殊性
  • Speed 速さ
よって、この3つのバランス良く満たせるものがいい。

データベースの分類

データベースは、データの種類によって以下2つのデータベースに分けられる。
  • Primary Database
  • Secondary Database

Primary Database

Primary Database

Primary Databaseにはどのようなデータが収められているのか。このデータベースには、実験データが収められる。このデータは実験を行った人によって直接提出される。つまり、第三者からのチェックなどを受けずに提出されるため、そのデータが正しいかどうかは議論の余地がある。例えば、DNAシーケンスなどを行ったデータそのものはここに提出される。またこのデータは日々更新される。 代表的なデータベースには以下のようなものがある。 Genbank(アメリカ)、DDBJ(日本)、EMBL(ヨーロッパ)のDNAデータベースである。 これらのデータベース間でデータを参照しあっている。

Secondary Database

Primary Database (1)

Secondary DatabaseはPrimary Dataをもとに詳しく調べた生データが収められる。Annotationや、機能的な繋がりなどと関連付けられる。Primary Databaseよりは他のデータとの繋がりなどが整理された質の高いデータが収められている。 代表的なデータベースには以下のようなものがある。

最後に

簡単にデータベースについてまとめてみました。正確でないところ、間違っているところがありましたら指摘してもらえるとありがたいです。生物系の研究するにあたってこれらのデータベースをうまく使うことは大事なことかなと思います。アメリカ、ヨーロッパに並んで日本もデータベースを持っているのはなかなかやるなあと個人的には感じました。

Linuxコマンドメモ mv

mv

前回、catでカレントディレクトリ内のすべての.fastaの拡張子のファイルを統合するときに*.fastaと打ちました。

これがmvコマンドでも使えたというメモです。

今回はダウンロードというディレクトリ内にある.fastaのファイルを画像一枚目のディレクトリに移動させるときの手順を説明します。


ディレクトリの確認: ls

まずはディレクトリの確認です。

ls

で確認です。
2018-12-15 07.08.31 からのスクリーンショット

ダウンロードディレクトリへの移動: cd

ダウンロードという名前のディレクトリに行きたいので、

cd ダウンロード

で移動します。

ls

でディレクトリ内の確認です。.fasta形式のファイルがあるのがわかります。
download

FASTAファイルの統合: cat

ここで、.fastaという拡張子が付いているファイルをp9という名前の1つのファイルに統合したいので、

cat *.fasta p9

としました。名前は何でもいいです。p9はPractical study 9の略です。

(ここでちょっと間違ったなあと思うのが、名前をp9.fastaにするべきでした。.fastaで保存したかったので。後で拡張子付けました。)

ちゃんと作られているかの確認で

ls

p9というファイルが作られていますね。
cat

ファイルの移動 :mv

この作ったp9というファイルをこのダウンロードというディレクトリの前にあるディレクトリに移動させたいので、

mv p9 ..

と入力しました。mvコマンドはディレクトリ間の移動やファイルの移動とかに使うコマンドです。

..は前のディレクトリを指定します。(カレントディレクトリの移動の時とかはよくcd ..とかで使います。)

ダウンロードディレクトリ内にp9がないことを確認します。

ls

ないですね。成功です。
mvp9

最終確認

前のディレクトリにp9が移動したかを確認します。

まずは移動

cd ..

からの確認

ls

p9というファイルがありますね。オッケーです。
cd..


バイオインフォマティクスと創薬

バイオインフォマティクスの授業で創薬についてのイントロがあって、ちょっと面白かったので講義メモです。

なお、ここに書くことは私が理解していることを私の(不自由な)言葉で書くので間違い、誤解などが生じる可能性があることをここに書いておきます。ご了承ください。

バイオインフォマティクスとは

バイオインフォマティクスとは生物学と情報科学のミックスみたいなイメージだと思ってもらえればいいのかなと思
います。

もう少し詳しく書くとするなら

コンピュータ、アルゴリズム、データベースなどをツールとして使って、生物の持つ情報を扱う学問。
という感じですかなあ。


情報としてのDNA、タンパク質


生物はDNAに書かれている情報を元に作られています。

DNAには4種類の文字が存在してそれぞれアデニン(A)、チミン(T)、シトシン(C)、グアニン(G)といいます。

これらの文字を塩基と呼びます。

塩基は4種類あってこの4種類の塩基の組み合わせで私たち生物は作られているわけです。

そして、この4種類の塩基が3つ並ぶと1つのアミノ酸を指定します。

生物に使われているアミノ酸は20種類あります。

つまり、生物は4種類の塩基を3つずつ組み合わせることで20種類のアミノ酸の組み合わせを作ることができます。

このアミノ酸を組み合わせることでタンパク質が作られます。

つまり、これまでの流れを整理すると

DNA→アミノ酸→タンパク質

と生物は生物内の情報を変換していっているわけですね。

バイオインフォマティクスはこのように生物の情報、DNAの情報やアミノ酸の情報、タンパク質の情報を扱う科学ということもできるかもしれません。

Drugとは


生体内の分子(タンパク質とか)を活性化または抑制する小さな分子のことです。

ドラッグは生体内でどう作用するか


生物の勉強を高校でした人は覚えているかもしれませんが、酵素と基質の関係を思い浮かべてください。

酵素と基質の関係は、鍵と鍵穴の関係によく例えられます。正しい形のものが正しいところに収まってこそ作用するということです。

つまり薬を作るときにも、その目標となる分子、例えばタンパク質と結合、作用できるような形の分子を作る必要があります。

しかし、基本的に鍵穴は動かないのに対して、生物の体内の酵素は動き回っているのでより複雑です。

Drugができるまで


簡単にDrugができるまでの過程を箇条書きしてみます。
  • 病気を特定

  • その病気の原因となるタンパク質を発見

  • そのタンパク質の研究(3Dモデルの作成とか)

  • 病気の原因となるタンパク質に有効なDrugを探すか作る

  • Drug発見

  • 動物実験(マウスとかで)

  • 新薬の申請

  • 人で治験

  • オッケー

  • 世に出る

  • バイオインフォマティクスの貢献

    バイオインフォマティクスは創薬のスピードを上げました。大昔と比べての話ですが。 大昔は、薬になるものの発見は偶然による所が大きかったのです。

    アスピリンの発見の話とかは有名ですね。

    バイオインフォマティクスによってタンパク質の構造決定、有効な物質の予想などができるようになったため、偶然を待つ必要がなくなったのです。

    まあすごく大変みたいですけどね。

    最後に

    私は、バイオインフォマティクス、薬学部、医学部の人でもないのは強調しておきます。

    間違いがあればご指摘お願いします。

    Bioinfomaticsの関連記事

    Bioinformatics FASTAファイルの結合

    mv (1)

    こんにちは。

    複数のFASTA形式のファイルを1つのファイルに統合しなさいというバイオインフォマティクスの授業の課題が出たのでそのまとめを書いておきます。

    最終的な目的は、指定された複数のシーケンスをデータベースから取ってきてMSA(Multipul Sequence Alignment)することです。

    ここではLinuxのターミナル使って複数のFASTA形式のファイルを1つのファイルに統合することを説明します。

    MSAまでの流れ


  • データベース(NCBI)にアクセス

  • 与えられたaccesion numberを入力

  • FASTA形式のシーケンスデータを取得

  • 1つのファイルに複数のシーケンスデータを格納

  • MSA


  • 準備したもの


  • FASTA形式のシーケンスデータ(他にも使える形式はあるみたい)

  • Linux


  • 手順


  • Linuxのターミナル起動

  • FASTAファイルが格納されているディレクトリに移動(cd)

  • カレントフォルダ(FASTA)にて画像のコマンドを入力

  • fastaconbime

    このようにコマンドを打つと以下のようにシーケンスデータが統合されます。画像内だと4つしか見えませんが、実際には6つのファイルを統合しました。
    2018-12-14 20.01.31 からのスクリーンショット

    コマンドメモ


    cat


    catは指定したファイルの統合をします。例えば、cat ファイル名1 ファイル名2で ファイル名1 ファイル名2という2つのファイルを統合。統合したいファイルを並べればいいんですね。

    *.fasta


    catで統合したいファイル名。この場合はカレントフォルダ内にある.fastaの拡張子が付いているファイルすべてを指定という意味。*は拡張子名で指定できるので多くのファイルを扱うときに便利そうですね。

    *はワイルドカードというみたいです。「*なんとか.ホニャララ」でホニャララという拡張子を指定できます。

    >Bioinfo7


    >ファイル名で統合したファイルを指定したファイル名で保存します。この場合は統合したファイルはBioinfo7という名前ですね。

    最後に


    ド素人の自分が後に見た時にわかるように丁寧に書いたつもりですがどうでしょう。

    ところでLinux入れてなかったら、どうやって解析してたんですかね。

    では。

    Bioinformaticsの関連記事

    統合TVのご紹介

    こんにちは。勉強のメモがてら、バイオ系のウェブツールの活用法を紹介している統合TVのご紹介。

    現在私はバイオインフォマティクスの授業を取っているのですが、豊富に存在するバイオインフォマティクス系のツールを持て余しぎみになっております。そこで日本語のサイトでバイオインフォマティクス系の参考になるサイトを探していたところこのサイトを見つけました。

    統合TVの概要

    統合TVではバイオ系のウェブツールの活用法をYouTubeで紹介しています。左のバーから検索したいトピックを選んで眺めるだけでも面白いかと思います。

    文献・辞書・プログラミング

    ここに書いてあるのは、卒業研究なり文献講読に有用なような気がします。文献の調べ方とか、パワポの資料作成とか。最近はあまり更新されてないようですけど、学部生にはまだまだ有用っぽいので利用してみては。

    パワーポイントの図形描画機能でイラストをつくる方法

    これは今度パワポを作るときにやってみようと思います。書きたいものの画像を用意してそこから写し絵のように書いていく方法ですね。

    ↑このページのトップヘ