*生物情報科学 第3回 [#u1524b65] ''レポート課題は変更するかもしれないので、授業中の指示があるまで提出しないでください。'' **ホモロジーサーチの使用準備 [#af19d56c] ホモロジーサーチプログラムの一つである FASTA プログラムを 自分の計算機で実行できるようにしてみよう。 + FASTA のソースコードを入手する。~ 配布元: http://faculty.virginia.edu/wrpearson/fasta/ ~ ただしネットワーク負荷軽減のため、以下からダウンロードする。~ &ref(fasta-36.3.7a.tar.gz); または [[fasta-36.3.7a.tar.gz:http://ftp.gen-info.osaka-u.ac.jp/biosoft/fasta/fasta-36.3.7a.tar.gz]] ~ ダウンロードして、linuxhomeディレクトリに保存する。~ ~ + tar.gz は複数のファイルが一つのファイルにまとめられ (tar アーカイブ)、gzip コマンドでさらに圧縮されていることを意味している。 + ディスク容量の問題があるため、まず、一時作業領域に作業ディレクトリを変更する。 cd /tmp + 圧縮アーカイブされているファイルを展開する。 zcat ~/fasta-36.3.7a.tar.gz | tar xvf - ~ + ls コマンドでfasta-36.3.7aディレクトリが出来ていることを確認する。 ls ~ + fasta-36.3.7aディレクトリに移動する。 cd fasta-36.3.7a ~ + READMEファイルを読む。実行形式プログラムの作成方法が書いてある。~ ~ + srcディレクトリに移動する。 cd src ~ + make コマンドを用いて、実行プログラムに変換する。 make -f ../make/Makefile.linux64_sse2 all ~ + binディレクトリに移動する。 cd ../bin ~ + ls コマンドで作成された実行形式プログラムを確認する。 ls ls -F ~ + 実行ファイルのサイズを小さくするため、デバッグ情報を削除する。 pwd /tmp/fasta-36.3.7a/bin と表示された事を確認してから、以下を実行。~ strip * (ここで"strip:README: File format not recognized"というメッセージが出るが、問題はない。READMEというファイルは実行ファイルではないため処理されなかったという意味。)~ (ここで"strip:README: File format not recognized"というメッセージが出るが、問題はない。READMEというファイルは実行ファイルではないため処理されなかったという意味で、他のファイルの処理は完了している。)~ ~ + fasta プログラムを実行してみる。 ./fasta36 すると、使い方に関するメッセージが表示される。 USAGE fasta36 [-options] query_file library_file [ktup] fasta36 -help for a complete option list DESCRIPTION FASTA searches a protein or DNA sequence data bank version: 36.3.7a Jan, 2015 COMMON OPTIONS (options must preceed query_file library_file) -s: scoring matrix; -f: gap-open penalty; -g: gap-extension penalty; -S filter lowercase (seg) residues; -b: high scores reported (limited by -E by default); -d: number of alignments shown (limited by -E by default); -I interactive mode; ~ + 以下で一時作業領域からホームディレクトリに必要なファイルをコピーするが、それに先立って、コピー先であるホームディレクトリにディレクトリ(フォルダ)を作成しておく。 cd ~ mkdir fasta-36.3.7a + 再度、一時作業領域に移動してから、コピーを行う。 cd /tmp/fasta-36.3.7a ~ cp -a bin data doc seq ~/fasta-36.3.7a/ 利用者領域に5MB程度の空き領域が必要である。(成功した場合には何もメッセージが出ず、失敗した場合のみメッセージが出る。) ~ + 最後に、cd してホームディレクトリに戻る。 cd ~ **ホモロジーサーチ用データベースの準備 [#af19d56c] fastaを使用して、ホモロジーサーチを実行してみる。~ そのためには、アミノ酸配列データベースを利用できるようにする必要がある。 ***実習用配列データファイルのシンボリックリンクを作成する。 [#fa2e1e31] ln -s /home/toyonaka/rimd/staff/u762406a/linuxhome/uniprot_sprot.fasta . これは、教師側の用意したファイル(/home/toyonaka/rimd/staff/u762406a/linuxhome/uniprot_sprot.fasta)に対して、シンボリックリンクと呼ばれる別名を各自のホームディレクトリに作成する操作である。ファイルのサイズが大きいため、コピーすると各自の割り当てディスク容量を越えてしまうかもしれないので、かわりにシンボリックリンクを作成している。 ~ less uniprot_sprot.fasta ~ less はファイルの中身を閲覧するコマンドである。矢印キーでファイル内を移動することができる。~ less コマンドを終了するには、アルファベット小文字「q」を入力する。 *** シンボリックリンク作成に失敗した場合 [#ne952f53] (注: うまくいっている場合はこの項を実行しないこと。) rm uniprot_sprot.fasta として、いったん間違えて作成したシンボリックリンク(またはファイルなど)を消してから、再度、上記のとおり作成する。 ** FASTA の実行 [#la2fbc10] [[この例>FASTA実行例]]を参考にして、実際に FASTA を実行してみよう。 *** 例題: ヒト Cytochrome C の例 [#b3f69d11] ヒト Cytochrome C の配列 &ref(P99999.fst); を使用して FASTA を実行する。 fasta-36.3.7a/bin/fasta36 P99999.fst uniprot_sprot.fasta > P99999.fasta36 結果を less コマンドにて確認する。 less P99999.fasta36 less はファイルの中身を閲覧するコマンドである。矢印キーでファイル内を移動することができる。~ less コマンドを終了するには、アルファベット小文字「q」を入力する。 *** 演習課題 [#z11a5699] 以下の配列が何のタンパク質であるかを調べる。 + &ref(ex301.fst); + &ref(ex302.fst); + &ref(ex303.fst); + &ref(ex304.fst); + &ref(ex305.fst); 注意点: -fasta36実行結果ファイルを丸ごと添付してはならない。 レポート課題は変更するかもしれないので、授業中の指示があるまで提出しないこと。