Bioinformatics FASTAファイルの結合

mv (1)

こんにちは。

複数のFASTA形式のファイルを1つのファイルに統合しなさいというバイオインフォマティクスの授業の課題が出たのでそのまとめを書いておきます。

最終的な目的は、指定された複数のシーケンスをデータベースから取ってきてMSA(Multipul Sequence Alignment)することです。

ここではLinuxのターミナル使って複数のFASTA形式のファイルを1つのファイルに統合することを説明します。

MSAまでの流れ


  • データベース(NCBI)にアクセス

  • 与えられたaccesion numberを入力

  • FASTA形式のシーケンスデータを取得

  • 1つのファイルに複数のシーケンスデータを格納

  • MSA


  • 準備したもの


  • FASTA形式のシーケンスデータ(他にも使える形式はあるみたい)

  • Linux


  • 手順


  • Linuxのターミナル起動

  • FASTAファイルが格納されているディレクトリに移動(cd)

  • カレントフォルダ(FASTA)にて画像のコマンドを入力

  • fastaconbime

    このようにコマンドを打つと以下のようにシーケンスデータが統合されます。画像内だと4つしか見えませんが、実際には6つのファイルを統合しました。
    2018-12-14 20.01.31 からのスクリーンショット

    コマンドメモ


    cat


    catは指定したファイルの統合をします。例えば、cat ファイル名1 ファイル名2で ファイル名1 ファイル名2という2つのファイルを統合。統合したいファイルを並べればいいんですね。

    *.fasta


    catで統合したいファイル名。この場合はカレントフォルダ内にある.fastaの拡張子が付いているファイルすべてを指定という意味。*は拡張子名で指定できるので多くのファイルを扱うときに便利そうですね。

    *はワイルドカードというみたいです。「*なんとか.ホニャララ」でホニャララという拡張子を指定できます。

    >Bioinfo7


    >ファイル名で統合したファイルを指定したファイル名で保存します。この場合は統合したファイルはBioinfo7という名前ですね。

    最後に


    ド素人の自分が後に見た時にわかるように丁寧に書いたつもりですがどうでしょう。

    ところでLinux入れてなかったら、どうやって解析してたんですかね。

    では。

    Bioinformaticsの関連記事