2008-04-24
パスウェイ データベース
最近、Webで利用できるパスウェイ情報が増えてきて、解析者としては幅が広がってうれしい限り。自分が知っている/使っているDBとしては・・・
> Gene Assist Pathway Atlas: 350以上のパスウェイが登録されています。絵はきれい。パスウェイ上の遺伝子リストをDL可能。Entrez Gene IDがアサインされているのがよい。
> Pathway Interaction Database: 70弱のNCI-Nature curated pathwayが登録されています。絵はいまいち。BioPAXやXMLでパスウェイ毎DLできるのでインタラクションも活用でききる。また、BioCartaやReactome(後述)もインテグレートされている。
> BioCarta: 複数の機能分類でベーシックなパスウェイが登録されています。絵は見やすくきれい。コンテンツはざっくりした感じでシンプルな印象を受ける。複数の生物種のデータが登録されている。
> Reactome: 黎明期は代謝系を中心としていた感がありましたが、今やシグナル伝達系や様々な相互作用が登録されています。生物種は幅広くカバーしており、解析機能・提供されるフォーマット等もかなりシステム化されている。
> KEGG: いわずと知れた日本初のパスウェイDB。パスウェイDBのさきがけでしょうか。昔は教科書にあるような基本的な代謝MAPのイメージがありましたが、今では広範囲なカテゴリー・生物種が登録されています。提供されているサービスも豊富です。
> NetPath: シグナル伝達系を中心にコンテンツは少なめ。BioPAXやSBMLフォーマットでDL可能。
> Intatactive Pathways: シグナル伝達系を中心にコンテンツは少なめ。教科書の図表の印象。
> GeneGO MetaCore: コンテンツリッチなWeb・Flashで提供されるパスウェイDB。非常に多数の相互作用を精査して収録している。病気に関する情報も多数あるので医学系研究や創薬向けな感じがする。世界2大パスウェイDBの1つ(と私は思う)。ただ、プログラマーとしては全データを引っこ抜いてバッチで解析したくなる代物。
> Pathway Studio: 商用パスウェイDBの先駆け、自然言語処理でPubMedを解析しDB化するという高等な機能を核としている。インターフェースが優れ、コンテンツのハンドリングの自由度が高いのでプログラマーとしては好ましい一品。品質はトレードオフ?
> Ingenuity Pathway Analysis: これも商用パスウェイDBの先駆け、世界的知名度は高い。世界2大パスウェイDBの1つ(と私は思う)。個人的には使用したことがないので?。
紫色は商用ソフトウェアです。DBによって特色も違い、収録量・内容も異なっていると思われます(定量的に示してはいませんが)。フリーのパスウェイDBを相互作用をすべて統合して整備するのは、少々面倒そうですが、遺伝子セットの定義はできそう。GSEAのMSigDBに追加できますね。
> Gene Assist Pathway Atlas: 350以上のパスウェイが登録されています。絵はきれい。パスウェイ上の遺伝子リストをDL可能。Entrez Gene IDがアサインされているのがよい。
> Pathway Interaction Database: 70弱のNCI-Nature curated pathwayが登録されています。絵はいまいち。BioPAXやXMLでパスウェイ毎DLできるのでインタラクションも活用でききる。また、BioCartaやReactome(後述)もインテグレートされている。
> BioCarta: 複数の機能分類でベーシックなパスウェイが登録されています。絵は見やすくきれい。コンテンツはざっくりした感じでシンプルな印象を受ける。複数の生物種のデータが登録されている。
> Reactome: 黎明期は代謝系を中心としていた感がありましたが、今やシグナル伝達系や様々な相互作用が登録されています。生物種は幅広くカバーしており、解析機能・提供されるフォーマット等もかなりシステム化されている。
> KEGG: いわずと知れた日本初のパスウェイDB。パスウェイDBのさきがけでしょうか。昔は教科書にあるような基本的な代謝MAPのイメージがありましたが、今では広範囲なカテゴリー・生物種が登録されています。提供されているサービスも豊富です。
> NetPath: シグナル伝達系を中心にコンテンツは少なめ。BioPAXやSBMLフォーマットでDL可能。
> Intatactive Pathways: シグナル伝達系を中心にコンテンツは少なめ。教科書の図表の印象。
> GeneGO MetaCore: コンテンツリッチなWeb・Flashで提供されるパスウェイDB。非常に多数の相互作用を精査して収録している。病気に関する情報も多数あるので医学系研究や創薬向けな感じがする。世界2大パスウェイDBの1つ(と私は思う)。ただ、プログラマーとしては全データを引っこ抜いてバッチで解析したくなる代物。
> Pathway Studio: 商用パスウェイDBの先駆け、自然言語処理でPubMedを解析しDB化するという高等な機能を核としている。インターフェースが優れ、コンテンツのハンドリングの自由度が高いのでプログラマーとしては好ましい一品。品質はトレードオフ?
> Ingenuity Pathway Analysis: これも商用パスウェイDBの先駆け、世界的知名度は高い。世界2大パスウェイDBの1つ(と私は思う)。個人的には使用したことがないので?。
紫色は商用ソフトウェアです。DBによって特色も違い、収録量・内容も異なっていると思われます(定量的に示してはいませんが)。フリーのパスウェイDBを相互作用をすべて統合して整備するのは、少々面倒そうですが、遺伝子セットの定義はできそう。GSEAのMSigDBに追加できますね。
2008-04-24
Pathway Enrichment
あるphenotypeに注目して群設定を行い、発現差を示す遺伝子・タンパク質のリストを同定することはよく行われる解析です。また、クラスタリングによって類似した発現パタンを示す分子のリストもしばしば設定されます。このようにして得られたリストに対する意味付け・落としどころはいくつか考えられますが、ひとつの切り口としてパスウェイがあげられます。ここ数年でフリー・商用のパスウェイDBが整備されてきています。自然言語処理によりPubMed のAbstractを構文・形態素解析し分子間相互作用をDB化するソフトウェアやキュレーターと呼ばれる生物学がバックグラウンドのPhDがせっせと論文を読みDB整備を行うソフトウェアが存在します。これらのパスウェイDBは特定の機能単位毎にまとめられています。例えば、TCA cycleやWnt signaling pathwayのように。上述の分子リストが特定のパスウェイに偏って存在していれば、pahenotypeがpathwayと関連するといった具合です。方法としては超幾何分布をベースとした検定やGene Set Enrichmentのような順位統計の並び替え検定みたいなものがあります。遺伝子単位で見えてこないけど”Set”として考えるりことで検出力が上がるといった方法が最近の流行です。ただ、これらは”Set”だけに注目していて分子間の関係性を考慮していないためパスウェイ解析法としては不完全だと思います。この辺のギャップに関してはまた別の機会で。

