KEGGのXMLを少し調べてみた
NM番号の付いた遺伝子をKEGGにmapしたかったので調べたメモ.
PathwayのXML
/pathway/{entry,relation} の見方
- XMLのPathは,pathwayのXML内のPathとする
- 各 /pathway/entry がPathway内の四角(遺伝子,complex),角丸(別のPathway),丸(compondなど)を示す.
- /pathway/entry/@name の中身は各種のKEGG内での遺伝子の名前(*1)
- /pathway/entry/@link のリンク先も各種の遺伝子へのリンク
- 例
<entry id="48" name="path:hsa04110" type="map" link="http://www.genome.jp/kegg/pathway/hsa/hsa04110.html"> <graphics name="Cell cycle" fgcolor="#000000" bgcolor="#FFFFFF" type="roundrectangle" x="1053" y="508" width="102" height="38"/> </entry> <entry id="49" name="hsa:5594 hsa:5595" type="gene" link="http://www.genome.jp/dbget-bin/www_bget?hsa+5594+5595"> <graphics name="MAPK1..." fgcolor="#000000" bgcolor="#BFFFBF" type="rectangle" x="795" y="251" width="46" height="17"/> </entry>
- /pathway/entry/@link は,その要素(entry)のリンク先
- /pathway/entry/@name に,対応する遺伝子,pathwayなどが入る.複数の要素(遺伝子など)が含まれる場合にはスペース区切りで描かれている.
- 子要素が存在する場合には,/pathway/entry/component/@id に子要素のidが描かれている.
- このidは,同一XML内の/pathway/entry/@id に対応
- 例(id=53の子要素として,32, 33, 34 がある)
<entry id="53" name="undefined" type="group"> <graphics fgcolor="#000000" bgcolor="#FFFFFF" type="rectangle" x="377" y="152" width="66" height="71"/> <component id="32"/> <component id="33"/> <component id="34"/> </entry>
- 要素間の関係は/pathway/relation に描かれている.
- /pathway/relation/@entry1から/pathway/relation/@entry2 への作用.
KEGG内での遺伝子名とNCBIの遺伝子の対応
- 対応は,ftp.genome.ad.jp:/pub/kegg/linkdb/genes/以下にある
不明な点
- KEGGのホームページの各pathway上で四角や角丸(entryタグの内容)の中にある文字列は,どこにある?
- /pathway/entry/graphics/@name では,四角の中に書かれている文字と一致しないことがある.(特に,複数の遺伝子が関与していて,名前が長くなるもの)
- 下のentryはhttp://www.genome.jp/dbget-bin/get_pathway?org_name=hsa&mapno=05220では,BCR-ABLと書かれているが,nameはABL1,ABL... である.
- EntrezGeneからKEGG pathwayへの対応はどこにある?
- 次の対応では,EntrezGeneからKEGG pathwayへの対応で,ErbB signaling pathwayが足りない(KEGGの情報 http://www.genome.jp/dbget-bin/www_bget?hsa+25 と を見ると ErbB signaling pathwayが存在する) .