情報系の人が生命科学者のモチベーションを知るのに有用かもしれない統合TV 10選

  1. Entrez SNP を使い倒す(前編)PubMed/OMIMへの扉をひらく
  2. Entrez SNP を使い倒す(後編)下戸遺伝子の多型をさぐる
  3. 新たなる有用遺伝子候補を探索する
  4. 高速アラインメントツールBLATをプライマー設計支援ツールとして使い倒す2009
  5. 遺伝子発現データの活用事例
  6. biomartを使い倒す〜遺伝子の上流配列を取得する〜2009
  7. Biomartを使い倒す-マイクロアレイprobeIDの対応表を作る
  8. Gene Ontologyを使って特定遺伝子の機能情報を検索する
  9. OMIMを使い倒す 家族性乳がんの関連遺伝子をさぐる
  10. RCSB PDBを使ってタンパク質の立体構造を調べる

おまけ.

  1. Galaxyを使い倒す-特定の転写因子予測結合領域と遺伝子上流領域の「交差点」をリストアップする
  2. 自然言語処理技術の活用実例

TM値計算用スクリプト

BioRubyの中に見つからなかったので,書きました.
BioPHPのhttp://www.biophp.org/minitools/melting_temperature/を参照,というかコピーしています.(ライセンスはGPL)
コマンドラインから引数に配列を与えます.

% ruby tm.rb TTGCTTTCGAACAGTAGACAACATTTGAGCGTTTACATCATTTAGACACAGAAGAAACAT
{:tm=>67.6759141696788, :enthalpy=>-479.6, :entropy=>-1375.14333912341}
#!/usr/bin/ruby

require 'pp'

def nnmethod(seq, conc_primer, conc_salt, conc_mg)
  array_h = Hash.new
  array_s = Hash.new
  
  # enthalpy values
  array_h = {
    "AA" => -7.9, "AC" => -8.4, "AG" => -7.8, "AT" => -7.2,
    "CA" => -8.5, "CC" => -8.0, "CG" => -10.6, "CT" => -7.8,
    "GA" => -8.2, "GC" => -10.6, "GG" => -8.0, "GT" => -8.4,
    "TA" => -7.2, "TC" => -8.2,  "TG" => -8.5, "TT" => -7.9 }
  
  # entropy values
  array_s = {
    "AA" => -22.2, "AC" => -22.4, "AG" => -21.0, "AT" => -20.4,
    "CA" => -22.7, "CC" => -19.9, "CG" => -27.2, "CT" => -21.0,
    "GA" => -22.2, "GC" => -27.2, "GG" => -19.9, "GT" => -22.4,
    "TA" => -21.3, "TC" => -22.2, "TG" => -22.7, "TT" => -22.2 }

  # effect on entropy by salt correction; von Ahsen et al 1999
  # increase of stability due to presence of Mg
  salt_effect = (conc_salt/1000.0) + ((conc_mg/1000.0)*140)
  # effect on entropy
  h = 0.0
  s = 0.368 * (seq.length-1) * Math.log(salt_effect)

  # terminal corrections. Santalucia 1998
  firstnucleotide = seq[0,1]
  if firstnucleotide == "G" || firstnucleotide == "C"
    h += 0.1
    s += -2.8
  elsif firstnucleotide == "A" || firstnucleotide == "T"
    h += 2.3
    s += 4.1
  end
  lastnucleotide = seq[-1,1]
  if lastnucleotide == "G" || lastnucleotide == "C"
    h += 0.1
    s += -2.8
  elsif lastnucleotide == "A" || lastnucleotide == "T"
    h += 2.3
    s += 4.1
  end
  # compute new H and s based on sequence. Santalucia 1998
  0.upto(seq.size-2) do |n|
    nn = seq[n,2]
    h += array_h[nn]
    s += array_s[nn]
  end
  tm = ((1000.0*h)/(s+(1.987*Math.log(conc_primer/2000000000.0))))-273.15
  return {:tm=>tm, :enthalpy=>h, :entropy=>s}
end

pp nnmethod(ARGV.shift, 200, 50, 0)

IEEE BIBM 2009 の講演内容メモ

ちなみに来年は,香港, 12/18-21 です.http://www.math.hkbu.edu.hk/BIBM2010/

ーーーーーーーー
Chris Sander

  • 物理からガンの生物学へ- ガンの細胞動態は複雑である.
  • 複雑なデータから単純なモデルを導出したい.
    • http://www.ncbi.nlm.nih.gov/pubmed/18766176
    • タンパク質の量を観測.
    • Network Phrarmacology: design combinatorial therapy
      • Wei Quing Wang, Rosen Lab. 2007-2008 (MCF7 cell, combination of 7 drugs)
    • 実験と理論の中庸をnon-liner function'の最小化問題として解く
  • 薬の組み合わせ % by Niklasu Schultz
    • the cancer genome atlas (TCGA)を利用
    • sequencing, copy number, methylation, expression, miRNA, data storage and distribution
    • 〜5 years のプロジェクト
    • 著者の順番に寄らない,電話すれば全てのデータを渡すコラボレーションを作る
    • 25 samples, 3billion datapoints
    • coding regionのSNPsは,タンパクの3次元構造を調べる.
  • Biological knowledge を,計算に入れる. 計算結果と何が同じで,何が違うのか
    • BioPAX, GO representations
    • copy number を pathway に入れる
    • www.cbio.mskcc.org/cancergenomics
    • 部分パスウエイの変化によるガンの発生
    • ガン特異的に働くネットワーク
    • 論文に出たネットワークを基にネットワークを描く

ーーーーーーーーーーーーー
Mark Gastein

スライドを飛ばしながら講演していたので,追てない.

  • コストとテクノロジー問題.コストをかければできるけど,技術を使って安く済ませたい.どれだけ効率よくできるか.
  • ショートリードの三つの利用法:pair read, split read (intron-exonの境界を跨いだリード),depth
  • プログラム紹介:seqnode
    • HMMでsequenceをパラメータ化
    • sequence biasが変化している所を計測
  • プログラム紹介:ArrayCGH
    • 統計量を定義してcopy numberのmean shift を観測
  • プログラムの紹介:PEMer
    • simulationからsequence biasを計測する

ーーーーーーーーーーー
Trey Ideker

  • Working Map
    • 入力:進化,分子プロファイル,転写,"進化とタンパク質ネットワークのアラインメント"
    • 出力:病気,病理,遺伝子ファミリーの病気,"ネットワーク形式のGWAS"
  • Double deletionの影響を予測し,コロニーサイズを調べた (Kelly, Nature Biotech, 2005)
    • 発展系:Functional maps of protein complexes. PLoS Comp 2008
      • Comparison of genetic interaction network across budding and fission yeast
  • NWAS:GWASのネットワーク解析
    • Network-based approaches to identify genetic interactions in gene association studies
    • NY Timesの記事: A dissenting voice as the genome is shifted to fight disease
    • GWASをネットワークに
    • SNPsの相関を調べる -> 相関有るSNPsのペアを作成 -> networkに
    • 相関のある領域は飛び飛び.補完のために,chromosome vs chromosome で図を書いて相関する領域の補完をする.
      • 領域にかぶる遺伝子に着目.
      • 補完した領域の中にSNPsの関係が予測できる場所があるだろう
      • 2005 年の論文の図と,似たもの(PPIのmoduleとgenetic)が出てくる
        • 遺伝的な相関blue: genetic interaction, black protein interaction
    • higher level maps of GWAS genetic interactions
      • 発見できいる内容が,mitochondrial, ribosomalだけ?
      • 実験はYeast.120個体 (だからmitochondrionとかribosomalが多いのだろう). trait は何だろう?->今は使ってない.
                                                                      • -

Stephen TC Wong from Texas Medical Center

  • ゲノムから治療までは遠い.
  • 画像などの高次の情報からゲノムへ
  • Hoplins , Nature Reviews Drug discoverry 2002
    • 薬が設計できるのは3000遺伝子,疾患に関連するのは3000遺伝子.両者の積集合は600-1500遺伝子.
      • ターゲットに制約があるので,薬を組み合わせて処方する.
      • 薬を組み合わせて処方する事が多い.組み合わせを決めるのは医者の芸術.
  • Deng X. comput methods progrms biomed, 2009
    • 数遺伝子から成る全てのネットワークモチーフを作成し,ネットワークモデル
    • G, Jin H Zhao, K. Cui TMHRI. 14 different cancers
      • 101 genes and 900 network path
    • Nature 2009, Genes that mediate breast cancer metastasis to the brain
    • Bloodの論文で検証.
    • 25個の乳がん以外のガンの薬が認可.4つの候補が1.5年以内.
    • 薬の組み合わせの発見は,SVMペトリネットで.
  • Drug interaction by bioluminecense, Ziao
  • 神経軸索の動的なモデルを作成.3Dの画像を見られるようにした(Axon Tracker)
  • Cancer stem cell
    • cencer stem cell があると,爆発的に増加する
    • stem cell を減らせれば直る?-> ccaner sterm cell を 普通のcellに
    • high drug-efflux cancer cells
    • bioimage -> detect cells -> screening
                                                              • -

Owen White

Towards a consensus annotation system.
Q

  • What if annotation generation can be easily out-sourced?
  • How Would multiple centers rationally contribute annotation >
  • What is the role of the increasing number of closely related species ?

TIGRFam HMM

  • annotation sources to functional names, GO assignments, genetic names, EC numbers.
  • 予測のannotationは"hypotheticalに"
  • 予測精度は良く知られた遺伝子でも低い.ribosomal proteinとかhisAとか.
  • siteによって,completenessにバラツキがある.
  • completeness と consistencyのバランス
  • completeness と consistencyでソートして,よさげな物から取っていく
  • Refinement of annotation data
    • assign assertions and describe evidence code (GO based)
    • Rich data types can be combined, to:
      • improve annotations
      • present an audit trail for users
      • cooperative model of annotation
      • aid addition of old annotation on top of new
      • make exchange of data possible
  • Minimal data types
    • Defines what we guarantee.
    • Simplify conversion to ontologies
  • Critical assessment of functional annotation experiments (CAFAE) by DOE/NIH, GSC
    • annotation の casp?
    • international consortium, fair and open evaluation
  • paper: toward an online repositoy of standard...
    • dataのDOI
    • pipe line by XML file
    • crowd computing. Free science cluuds
      • Terragrid, U. of Chicago, U. of Florida
  • M5
    • datashar. share search result ?
    • run data-intensive workflows on cloud based systems

MacBook Pro 13インチのHDDをSSDに換装

CPU/HDD的にヘビーな仕事が続くので、MacBook Pro 13インチを購入してSSDに換装しました。

  • やってきましたSSDSAMSUNGの256GB、MLCのものです。外側にICチップとか全く無いのがかっちょよい(後のSSD装着後の写真参照)

  • まずは、USBで外に付けてHDDの中身を初期化。その後コピーします。Disk UtilityのRestoreを使ってコピー。

  • HDDを外します。今までのMacBookと違ってバッテリが交換できないため、背面には切れ目がありません。周囲の10本のネジを外します。ネジは2種類。ヒンジの近くの3本が長いネジで残りは短いネジです。全てプラスのネジです。

  • カバーは簡単に外れて、メモリやHDDが見えます。

  • HDDを取り出したところ。HDDの周囲に4本のネジ(プラス)があるので、それを外して、次に、プラスチックのベロを持ち上げると取り出せます。本体内側(ベロのある方)は、HDDのネジを挟み込む感じでプラスチックの棒があって、ベロを持ち上げると同時に外れます。

  • HDDには最近のMacでおなじみのT6のトルクスネジが刺さっています。しかもHDDに直接刺さっていて、下の写真の様な穴に(暗くて済みません)頭の大きなT6のネジが入り、支えます(うーん、表現が難しい)。HDDが空中に浮いて、衝撃が伝わらないようになっています。

  • 換装後。ラベルの向きが反対だったらしく、SSDの型番が入っていない方が表側になりました。ICチップやモーターが表に出ていないので綺麗。

  • 後はふたを閉めて完了。

さて、起動。リンゴマークが終了して、ログインプロンプトが出るまでや、全てのアプリが起動するまでが爆速。CPU200%使い切って、起動します。HDDのカツカツ言う音がないので、音で動作を判定していた私には動作しているか不安もありますが、動作中に持ち上げても壊れない安心感があります。

Rubyで翻訳

Google AJAX APIを叩いて翻訳するライブラリを使うと、簡単に翻訳できます。(信頼性は保証しません:p)

  • 準備
    • 1.3.1以上のgemを用意します。1.2以前のバージョンの場合は以下を行ってバージョンアップ(今は1.3.4)します。
% sudo gem install rubygems-update
% sudo update_rubygems
    • 後で必要なものをインストールします。
% sudo gem install hpricot
% sudo gem install json
% sudo gem install hoe
    • rtranslateをインストールします
% git clone git://github.com/Pistos/rtranslate.git 
% gem build rtranslate.gemspec
% gem install rtranslate --local
  • プログラム
    • ttest.rb
#!/usr/bin/env ruby
# -*- coding: utf-8 -*-

require 'rubygems'
require 'rtranslate'

puts Translate.t("Hello world", "ENGLISH", "JAPANESE")
puts Translate.t("こんにちは世界", "JAPANESE", "ENGLISH")
    • 実行結果
% ruby ttest.rb
こんにちは世界
Hello World

OMIMのエントリを自動翻訳するスクリプト

遺伝病辞典のOMIMは私の様なnon-native かつ門外漢な人には、ひじょーに理解じにくい。でも、大量にざーっとチェックしたいな−と思うときがあるので、日本語になっていると便利かも?というわけで、OMIMをひたすら機械翻訳するスクリプト作りました。
このエントリのテクニックは、以下の2つのエントリを合わせた物です。

準備する物

  • 上の2つのエントリに書かれているgemライブラリ群
  • ネットワーク
  • 知りたいOMIMエントリのID

使い方
知りたいOMIMのエントリIDが265850(PYGMY) と、608747(INSULIN-LIKE GROWTH FACTOR I DEFICIENCY)とすると、

% ruby omim_translate.rb 265850,608747

元の文章と翻訳後の文章が併記されます。こんな感じ(都合上改行していますが、実際はタブ区切りで吐かれます)。

265850
1
CLINICAL FEATURES
Efe Pygmies from the Ituri forest of northeast Zaire have the shortest mean adult stature of any population on earth, with a mean adult male height of 4 feet, 8 inches, and a mean adult female height of 4 feet, 5 inches ({4:Diamond, 1991}).
Efe Pygmiesザイール北東部のイトゥリの森は、 4フィートの高さは成人男性で、 8インチ、 4フィートの高さを意味する、大人の女性、 5インチ( ( 4地球上の任意の成人人口の最短の平均身長がある:ダイヤモンド、 1991 ) ) 。

出力はUTF8なので、そのままではExcelとかで見られません。必要に応じて、nkfとか通してください。

ruby omim_translate.rb | nkf -s > omim_translated.xls

ソース

#!/usr/bin/env ruby
# -*- coding: utf-8 -*-

require 'rubygems'
require 'rtranslate'
require 'xmlsimple'
require 'open-uri'
require 'pp'

omim_ids = ARGV.shift.split(",").uniq.sort

count = 0
omim_ids.each do |omim_id|
  count += 1
  url = "http://www.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?" + 
    "db=omim&id=#{omim_id}&mode=xml"
  xml = open(url).read
  omiminfo = XmlSimple.xml_in(xml)
  omiminfo["Mim-entry"].each do |omim_entry|
    mim_no = omim_entry["Mim-entry_mimNumber"][0]
    mim_title =  omim_entry["Mim-entry_title"][0]
    jp_title = Translate.t(mim_title, "ENGLISH", "JAPANESE")  
    puts "#{mim_no}\tTitle\t#{mim_title}\t#{jp_title}"
    STDERR.puts "#{mim_no}\tTitle\t#{mim_title}\t#{jp_title}"
    num = 0
    textfield = nil
    # 2種類のXMLがあるようなので、分岐。
    if omim_entry["Mim-entry_textfields"].nil?
      textfield = omim_entry["Mim-entry_text"][0]["Mim-text"]
    else
      textfield = omim_entry["Mim-entry_textfields"][0]["Mim-text"]
    end
    textfield.each do |text|
      num += 1
      label = text["Mim-text_label"][0]
      en_txt = text["Mim-text_text"][0]
      jp_txt = Translate.t(en_txt, "ENGLISH", "JAPANESE")
      puts "#{mim_no}\t#{num}\t#{label}\t#{en_txt}\t#{jp_txt}"
      #    pp jp_txt
      sleep(1)
    end
  end
end

欠点
文章が長すぎると、Google AJAX APIに拒絶されます。

BioGPS(SymAtlas)組織名の日本語版を作ってみました

Wikipediaの遺伝子発現量表示(e.g. http://en.wikipedia.org/wiki/P53 )にも使われているBioGPS ( http://biogps.gnf.org/ )の組織名を日本語にしてみました(Humanのみ)。門外漢なので、突っ込み歓迎です!
あと、勝手に組織の系統を付けてみました。

翻訳にはALCの英和、googleの検索、統合DBのアナトモグラフィ http://lifesciencedb.jp/ag/ を、
組織の系統には、Wikipedia、アナトモグラフィを参考にしました*1

一番左の番号が奇数番だけですが気にしないでください。(もとのデータが、同じ組織から2回ずつサンプルされたものなので、重複があるため、1つ飛びになっています)

No Cell Name 細胞(組織)名 Tissue Group 器官系
1 Colorectal Adenocarcinoma 結腸直腸腺癌 alimentary system 消化器系
3 WHOLEBLOOD 血液 blood 血液
5 BM-CD33+Myeloid 骨髄(BM-CD33+) blood 血液
7 PB-CD14+Monocytes 単球(PB-CD14+) blood 血液
9 PB-BDCA4+Dentritic_Cells 樹状細胞(PB-BDCA4+) blood 血液
11 PB-CD56+NKCells NK細胞(PB-CD56+) blood 血液
13 PB-CD4+Tcells T細胞(PB-CD4+) blood 血液
15 PB-CD8+Tcells T細胞(PB-CD8+) blood 血液
17 PB-CD19+Bcells B細胞(PB-CD19+) blood 血液
19 BM-CD105+Endothelial 内皮細胞(BM-CD105+) stem cell 幹細胞
21 BM-CD34+ CD34陽性細胞(幹細胞多) stem cell 幹細胞
23 leukemialymphoblastic (molt4) リンパ性白血病 blood 血液
25 721_B_lymphoblasts B-リンパ球 blood 血液
27 lymphomaburkittsRaji バーキットリンパ腫 blood 血液
29 leukemia promyelocytic 前骨髄球性白血病 blood 血液
(hl60)
31 lymphomaburkittsDaudi リンパ腫Daudi細胞 blood 血液
33 leukemia chronic myelogenous 慢性骨髄性白血病 blood 血液
(k562)
35 thymus 胸腺 immune system 免疫系
37 Tonsil 扁桃 immune system 免疫系
39 lymphnode リンパ節 immune system 免疫系
41 fetalliver 胎児肝臓 alimentary system 消化器系
43 BM-CD71+EarlyErythroid 赤血球造血因子 blood 血液系
45 bonemarrow 骨髄 blood 血液系
47 TemporalLobe 側頭葉 brain
49 globuspallidus 淡蒼球 brain
51 Cerebellum Peduncles 小脳脚 brain
53 cerebellum 小脳 brain
55 caudatenucleus 尾状核 brain
57 WholeBrain 脳全体 brain
59 ParietalLobe 頭頂葉 brain
61 MedullaOblongata 延髄 brain
63 Amygdala 扁桃体 brain
65 PrefrontalCortex 前頭前野 brain
67 OccipitalLobe 後頭葉 brain
69 Hypothalamus 視床下部 brain
71 Thalamus 視床 brain
73 subthalamicnucleus 視床下核 brain
75 Cingulate Cortex 帯状回皮質 brain
77 Pons 橋(脳) brain
79 spinalcord 脊髄 nurvous system 神経系
81 fetalbrain 胎児脳 nurvous system 神経系
83 adrenalgland 副腎 endocrine system 内分泌系
85 Lung lung
87 Heart 心臓 heart 心臓
89 Liver 肝臓 alimentary system 消化器系
91 kidney 腎臓 urinary system 泌尿器系
93 Prostate 前立腺 genital system 生殖器
95 Uterus 子宮 genital system 生殖器
97 Thyroid 甲状腺 endocrine system 内分泌系
99 fetalThyroid 胎児甲状腺 endocrine system 内分泌系
101 fetallung 胎児肺 respiratory system 呼吸器系
103 PLACENTA 胎盤 endocrine system 内分泌系
105 CardiacMyocytes 心筋細胞 muscular system 筋肉系
107 SmoothMuscle 平滑筋 muscular system 筋肉系
109 bronchial epithelial cells 気管支上皮細胞 respiratory system 呼吸器系
111 ADIPOCYTE 脂肪細胞
113 Pancreas 膵臓 alimentary system 消化器系
115 PancreaticIslets 膵島細胞 endocrine system 内分泌系
117 testis 精巣 genital system 生殖器
119 TestisLeydig Cell ライディッヒ細胞 genital system 生殖器
121 TestisGermCell 精巣胚細胞 genital system 生殖器
123 TestisInterstitial 精巣間質細胞 genital system 生殖器
125 Testis Seminiferous Tubule 精細管 genital system 生殖器
127 salivarygland 唾液腺 alimentary system 消化器系
129 trachea 気管 respiratory system 呼吸器系
131 AdrenalCortex 副腎皮質 endocrine system 内分泌系
133 Ovary 卵巣 genital system 生殖器
135 Appendix 盲腸 alimentary system 消化器系
137 skin 皮膚 sensory system 感覚器系
139 ciliaryganglion 毛様体神経節 nurvous system 神経系
141 TrigeminalGanglion 三叉神経節 nurvous system 神経系
143 atrioventricularnode 房室結節 nurvous system 神経系
145 DRG 後根神経節 nurvous system 神経系
147 Superior Cervical Ganglion 上頚神経 nurvous system 神経系
149 SkeletalMuscle 骨格筋 muscular system 筋肉系
151 UterusCorpus 子宮体部 genital system 生殖器
153 TONGUE sensory system 感覚器系
155 OlfactoryBulb 嗅球 sensory system 感覚器系
157 Pituitary 下垂体 endocrine system 内分泌系

*1:アナトモグラフィ使ったら簡単に翻訳も系統分けもできるとおもってたのですが、実はほとんど組織にかぶっているものがなくて、意外と大変でした・・・