KEGGのXMLを少し調べてみた

NM番号の付いた遺伝子をKEGGにmapしたかったので調べたメモ.

データの在処

PathwayのXML

  • xml/map/
    • reference pathwayのもの
    • ファイル名は "map" + $pathway_id + ".xml"
  • xml/ko/
    • reference pathway(KO)のもの
    • XML上のmapとの違いは,/pathway/entry/graphics/@name が 遺伝子名かKO番号かと,/pathway/entry/@link がkoにはある(orgthologな遺伝子へのリンクが存在する)が,mapには無い(少ない.別のpathwayへのリンクなどのみ).
    • ファイル名は "ko" + $pathway_id + ".xml"
  • xml/organisms/$spiece_name
    • $specie_name(hsa,mmu,sce,ecoなど)の種に対応したPathway
    • ファイル名は $spiece_name + $pathway_id + ".xml" (e.g. hsa05220.xml)
    • このファイルが表すPathwayの図は,/pathway/@link と /pathway/@image に記述

/pathway/{entry,relation} の見方

  • XMLのPathは,pathwayのXML内のPathとする
  • 各 /pathway/entry がPathway内の四角(遺伝子,complex),角丸(別のPathway),丸(compondなど)を示す.
    • /pathway/entry/@name の中身は各種のKEGG内での遺伝子の名前(*1)
    • /pathway/entry/@link のリンク先も各種の遺伝子へのリンク
    <entry id="48" name="path:hsa04110" type="map"
        link="http://www.genome.jp/kegg/pathway/hsa/hsa04110.html">
        <graphics name="Cell cycle" fgcolor="#000000" bgcolor="#FFFFFF"
             type="roundrectangle" x="1053" y="508" width="102" height="38"/>
    </entry>
    <entry id="49" name="hsa:5594 hsa:5595" type="gene"
        link="http://www.genome.jp/dbget-bin/www_bget?hsa+5594+5595">
        <graphics name="MAPK1..." fgcolor="#000000" bgcolor="#BFFFBF"
             type="rectangle" x="795" y="251" width="46" height="17"/>
    </entry>
  • /pathway/entry/@link は,その要素(entry)のリンク先
  • /pathway/entry/@name に,対応する遺伝子,pathwayなどが入る.複数の要素(遺伝子など)が含まれる場合にはスペース区切りで描かれている.
  • 子要素が存在する場合には,/pathway/entry/component/@id に子要素のidが描かれている.
    • このidは,同一XML内の/pathway/entry/@id に対応
    • 例(id=53の子要素として,32, 33, 34 がある)
    <entry id="53" name="undefined" type="group">
        <graphics fgcolor="#000000" bgcolor="#FFFFFF"
             type="rectangle" x="377" y="152" width="66" height="71"/>
        <component id="32"/>
        <component id="33"/>
        <component id="34"/>
    </entry>
  • 要素間の関係は/pathway/relation に描かれている.
    • /pathway/relation/@entry1から/pathway/relation/@entry2 への作用.

KEGG内での遺伝子名とNCBIの遺伝子の対応

  • 対応は,ftp.genome.ad.jp:/pub/kegg/linkdb/genes/以下にある

不明な点

  • KEGGのホームページの各pathway上で四角や角丸(entryタグの内容)の中にある文字列は,どこにある?
    • /pathway/entry/graphics/@name では,四角の中に書かれている文字と一致しないことがある.(特に,複数の遺伝子が関与していて,名前が長くなるもの)
    • 下のentryはhttp://www.genome.jp/dbget-bin/get_pathway?org_name=hsa&mapno=05220では,BCR-ABLと書かれているが,nameはABL1,ABL... である.