次世代シークエンサ(NGS)解析で使われるソフトの簡単なまとめ
- 2010/5/25.EST assemblerのViewerに関して追記
- 2010/6/9. ちょいちょい追記しています.
- 2010/7/26. ちょいちょい編集しました.
少し調べたのでまとめを晒してみる.比較的よく使われて沿うなソフトをまとめてみました.既に解析をガシガシやられている先人の方から,こんなソフト使ってるよーとか,そんなん使わん,とか突っ込み歓迎です.あとソフトが見つからないところが有るので,補完コメントいただけると助かります.
主に2つの用途があると思います.
- ゲノム配列既知の種にNGSで読んだshort readをmapping
- ゲノム配列未知の種からNGSで読んだshort readのESTをアセンブル
(注)NGSの機材のメーカーIllumina/SOLiD/454によっても利用できるソフトウエアが変わります*1が,以下では一緒くたにして書いてあるので注意してください.454は配列が長いので従来のSanger法でのソフトが使えるケースがあります.SOLiDはcolor-space(http://seqanswers.com/forums/showthread.php?t=10 など参照)に対応しているか否かで使えるソフトが分かれます.(みゃー@ゲノムさん,ご指摘有り難うございます)
順に並べます(ソフトウエアはメーカ謹製のものではなく,アカデミアで自由に使えるものを中心に選んであります).
- ゲノム配列既知の種にNGSで読んだshort readをmapping
- 目標は各short readが,ゲノムのどの位置から出てきたか.手順は,ゲノムへのマップ,形式変換,可視化.
- mappingソフト(BLASTとかBLATだと遅かったりセンシティビティが問題だったり,出力ファイルが軽く数ギガ超えたりするので専用が用いられる)
- Bowtie(http://bowtie-bio.sourceforge.net/index.shtml).とりあえず,これ使っとけ,なソフト.BWAに比べると遅いがHadoop対応版であるCrossBowが存在する(http://bowtie-bio.sourceforge.net/crossbow/index.shtml)事や,RNA-seq解析のソフトも用意されている事から使いやすい.
- MAQ(http://maq.sourceforge.net/)を使った説明が多いよう.でも1世代前のアルゴリズムになっているのと開発が止まっているので,同じ作者による下記のBWAの方を使う
- BWA(http://bio-bwa.sourceforge.net/bwa.shtml). 汎用,高速.並列化に対応していないのが難点.とりあえず使うには十分.
- 上記MAQ&BWAの作者による様々なソフトの比較&まとめ(http://lh3lh3.users.sourceforge.net/NGSalign.shtml).利点と欠点など良くまとめられている.あんまり並列化に言及が無いのはなぜだろう.
- 形式変換
- 各mappingソフトから出てきた出力の形式変換
- GFFとかだと激しく重くて使い勝手悪いので,SAM/BAMもしくは独自形式が利用される.Bowtieは,何も指定しないと独自形式を吐く(オプションでSAMを吐ける).
- SAMtools(http://samtools.sourceforge.net/)
- 可視化
- Gbrowseの次世代シークエンサデータ用チュートリアル.http://gmod.org/wiki/GBrowse_NGS_Tutorial (takeshi kawashimaさん,ありがとうございます).
- ショウジョウバエに対しRNA-Seqの結果をGbrowseを使って可視化した例があります.http://flybase.org/cgi-bin/gbrowse/dmelrnaseq/
- GbrowseやUSCS genome browserとか今まで使われてたブラウザも使われているっぽいようですが,細かいレベルの塩基の置換とか見るのには適してないような気もします(私見).ブラウザがインタラクティブに扱える情報量の限界超えているかなぁと.
- IGV(http://www.broadinstitute.org/igv/home) が使われそうな予感?
- MapView(http://evolution.sysu.edu.cn/mapview/):シンプル.
- EST assembly (ゲノム配列未知の種からNGSで読んだshort readのESTをアセンブル)
- Assembly
- BLASTClust. Blastの中に入っているソフト.最短距離法で近い配列を集める.各クラスタに属しているreadは分かるけどalignmentはしてくれない.
- MIRA3(http://sourceforge.net/apps/mediawiki/mira-assembler/index.php?title=Main_Page). ACE形式にしてViewerでalignmentを見られるっぽい.
- CAP3...古すぎるよなぁ...
- ABySS(http://www.bcgsc.ca/platform/bioinfo/software/abyss). MPI使用の並列化も可能。
- Velvet(http://www.ebi.ac.uk/~zerbino/velvet/).
- Assembly
short readのassemblyが可能.マニュアルでは454対応と書いてあるが,ちょっときつそう.
-
- 可視化
- Tablet(http://bioinf.scri.ac.uk/tablet/). ACEファイルだけでなくSOAPdenovoの入力も可能っぽい.
- GAP5. 使えるかもしれない.要チェック.
- 可視化
- 様々なソフトへのリンク
- 三菱スペースソフトの提供している情報。このページよりまとまっているなぁ^^;。http://www.mss-bio.net/ngs/index.html
- 次世代シークエンサそのもの,何が難しいの?っていう方はこちらのNature Methods 2009年11月のCommentary等参照.http://www.nature.com/nmeth/journal/v6/n11s/full/nmeth.f.268.html
- Mapping以後の扱い(RNA-seq等)に関しては,上記では記述していません.
*1:454は400塩基位とSangar法に近い長さの配列を出力するのに対し,IlluminaやSOLiDは現状では100塩基以下の短い連続配列のみが読めます