まめトーーク!

バイオマーカー開発やパスウェイ解析のための統計解析・インフォマティクス技術に関するメモ。

2008-04-30

バイオマーカー候補

タンパク質のがんマーカーに関する興味深いレポート。

A List of Candidate Cancer Biomarkers for Targeted Proteomics
Malu Polanski and N. Leigh Anderson Biomarker Insights 2: 1-48 (2006)

がんのバイオマーカー開発が始まっておよそ160年間でFDA承認を得たものは、9つしかない。特に近年のオミクス解析技術によりがんのバイオマーカー候補は数多と報告されているが、その臨床的評価は十分とはいえない。筆者らはPubMedのキュレーションにより1261のタンパク質をがんマーカー候補としてリストしている。それらの候補タンパク質群に対して、引用の状況やabundnce、GeneOntologyの全タンパクとの分布の違いを検討しています。GOの解析はそれほど明確な結果にはなっていませんが、Biological Processではapoptosis, cell cycle, proliferation関連タンパクがマーカー候補で増加し、metabolism, catabolism, transport proteinsが減少しているとしています。まあ、それらしいですね。Cellular Componentではやはりextracellularが明らかにマーカー候補で増加しています。1261の候補タンパク質には市販抗体があるタンパクも複数存在し、臨床で評価するための叩き台としてリストを整備したという意図があります。私のお仕事:バイオマーカー探索でも発現解析で得られたリストに対して、この候補タンパク質群のマッピングを行っています。
2008-04-29

Reciprocal Nearest Neighbor

前回の階層型クラスタリングの話で変数の数が数万の場合、普通のPCではメモリ不足になると書きました。距離行列の空間オーダーはO(N^2)です。もう少し細かく計算すると距離行列は対象行列なのでN(N-1)/2個の要素で記述できます。double型は8byteなのでN変数に対して、4N(N-1)byteのメモリ空間が要求されます。

memory.jpg

図の横軸は変数の数N、縦軸は対応するメモリ量です。2万くらいまでは、普通のPCで計算できそうですが、マイクロアレイのプローブは4万くらいのものもあるので、その類いは厳しそうです。※もっとも、最近はメモリも安いので64bitコードで8Gぐらいメモリを積めばいけますが...。さて、メモリが足りないときどうしようか?前回も書きましたが、簡単に思いつくのは以下。

1. 変数の数を減らす
2. K-means等の非階層型クラスタリングを使う
3. Reciprocal Nearest Neighbor (RNN)法を使う

1 は解析対象にバイアスをかけるのでできれば使用したくない手です。※ただ、マイクロアレイの場合、probe to geneで遺伝子単位で解析するのは有効かと思います。2はクラスタ数を指定する必要があり、一般にクラスタ数は未知です。階層型クラスタリングでの結果を求めれば、3を選択するのがよいと思います。多変数のクラスタリングのときよく使っています。ということでRNNですが"Reciprocal"とは" 相互"という意味です。つまり、お互いにNNということです。NN(i)=j, NN(j)=i:iのNNはjでjのNNはiということになります。RNNを用いたクラスタリングは以下の通り(Ward法の結果と一致します)。

1. NN-chianを構築する。NN-chianとはNN(i)=j, NN(j)=k, NN(k)=l, ...とNNの数珠つなぎの構造です。
2. NN-chianを作っていくと末尾にRNNが現れます。これを統合し新クラスタとします。このとき新クラスタのデータをDk=(Ni*Di+Nj*Dj)/(Ni+Nj)で更新します。
3. NN-chainを再構築します。これを繰り返します。

※ 距離行列を使わない事がミソです。データの更新のみでクラスタリングが完遂されるので必要なメモリオーダーはO(N)です。おおよそ最初に入力したデータ領域があればよいことになります。この方法はNN-chainがreducibilityを満たす事により成立します。reducibilityとは、 NN-chainの順番に2変数の距離が単調増加することを意味します。簡単にいえば、先頭のペアは最も近く、次のペアは2番目に近く...といった具合です。RNNを統合して1つのクラスタにしてもこの法則は崩れません。この手法であれば数万変数のクラスタリングも少ないメモリで計算できます。この手法は化合物のクラスタリング"BCI Ward"のような数万〜十万変数を扱う分野で使用されています。
2008-04-29

階層型クラスタリング

階層型クラスタリングの代表的な手続きは以下の通り:

1. 距離を定義
2. クラスタリング手法を定義
3. 1.に基づきNearest Neighbor Pair (最も距離が近いクラスタペア) をサーチ
4. 3.をマージし1つのクラスタとする
5. 4.と他のすべてのクラスタとの距離を2.の方法で更新する
6. 3-5をクラスタが1つになるまで繰り返す

クラスタリング手法は複数知られていますが、距離更新の方法は以下の式で一般化されます。

distance.gif

クラスタiとクラスタjをマージしてクラスタkとしたときのk以外のクラスタhとの距離を表します。Dは2つのクラスタの距離を表します。係数α, β, γを以下のように設定することが種々のクラスタリング手法に対応します。

table.jpg

nはクラスタの要素数です。beta-Flexibleではβをパラメータとしています。
この一般式により任意の距離行列を与えることで各クラスタリング法が適用可能となります。しかし、網羅解析データのクラスタリングにはしばしば距離行列のストアに問題が発生します。計算に必要なメモリ空間のオーダーは O(N^2) となります。マイクロアレイなどのように数万プローブが解析対象である場合、実メモリが足りなくなってしまいます。その場合...

1. 変数の数を減らす
2. K-means等の非階層型クラスタリングを使う
3. Reciprocal Nearest Neighbor (RNN) 法を使う

1は解析対象にバイアスをかけるのでできれば使用したくない手です。2はクラスタ数を指定する必要があり、一般にクラスタ数は未知です。階層型クラスタリングでの結果を求めれば、3を選択するのがよいと思います。RNNについては次回。
2008-04-28

北海道物産展

北海道物産展に行ってきました。北海道出身なので郷愁からかいつも行きたくなります。東京で開催される北海道物産展はいつも盛況です。買うものはいつも決まっています。海鮮弁当を買う:このとき中身はカニ・いくら・ウニが入っている必要があります。ラーメンを買う:みそラーメンは必ず入れる。六花亭でバターサンドを買う:新作を数種買う。ソフトクリームを食べる:嫁の好物。北菓楼の開拓おかきを買う:いか味がおいしい。カネダイのシシャモを買う:ここのシシャモは絶品です。高いけどたらふく買います。オスのでっかいのが最高です。数ある魚の中で質にもっともばらつきがあるのがシシャモだと思います。一回食べてみて。
さて、ひととおり回って試食します。地ビールを立ち飲みする:コーナーの隅っこにビールスタンドがあります。疲れたら一服します。おつまみを持ち込んで飲んでいる強者もいます。ちなみにイートインは並んでいるので行きません。魚を試食してビールを飲んで、しめにラーメンを試食して...楽しいです。
2008-04-28

エンリッチメント

発現差解析等で得られた分子リストがどのような特性を共有しているか、例えば、染色体上で近隣に位置している、同一パスウェイのメンバーである、生物学的イベント・分子機能・局在 (Gene Ontology) が同一である等、を分析することがあります。最近ではGSEAやGSAなどのset enrichmentを評価する手法が提案されていますが、早くに適用された簡便法として超幾何分布を用いた検定法があります。
超幾何分布とは母集団がN個の要素を持ち、その中にある属性を持つ要素がM個存在する状態で、この母集団からn個の要素を取り出したとき、その属性を持つ要素がx個含まれている確率を表す分布。GOの検定 (GOTermFinder) の言葉に置き換えると、ヒト遺伝子N個、そのうち"apoptosis"がアサインされている遺伝子M個、今、n個の遺伝子リストが得られたとき、"apoptosis"の遺伝子がx個得られる確率という具合になる。計算式は

hyperGeometric.gif

となり、nCrはn個の中からr個を選ぶ組み合わせ数を表し

factorial.gif

のように計算します。※階乗の計算でのオーバーフローを避けるため、対数をとって計算します。実際は、x個の確率ではなく、偶然x個以上観測する確率に興味があるのでxからnまでの確率の和をとります。

hyperGeometricSum.gif

このP値はゲノム上から無作為に遺伝子をn個抽出したとき、"apoptosis"がアサインされている遺伝子数がx個以上ある確率を表します。この値が0 に近いほど、リストに存在する"apoptosis"の頻度は不自然に高いといえます。GOTermの検定においては"apoptosis"以外のすべてのGOTermについて検定を繰り返すので多重検定になります。bonferroniのようなFWER (Family Wise Error Rate) やFDR (False Discovery Rate) が適用されます。※ただ、GOTermは階層構造だし、アサインされている遺伝子の多くは重複していて各Termが独立とは考えられないので多重補正によりType I errorが増加していると思うのですが... FDR=25%位でゆるくみとくのがいいのではないかと個人的には思います。
この方法はパスウェイにも適用できるので、以前書いたフリーパスウェイDBを整備して適用しています。

※超幾何分布による検定はこちらで計算できます。
2008-04-27

MAQC

マイクロアレイの品質管理のプロジェクト:MicroArray Quality Contorol (MAQC) projectがFDA主導で展開されいます。マイクロアレイ解析のクオリティコントロールや解析方法のガイドライン制定が目的です。

Nature Biotechnology - 24, 1151 - 1161 (2006)
Published online: 8 September 2006; | doi:10.1038/nbt1239
The MicroArray Quality Control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements

この報告によるとクロスプラットフォーム・クロスサイトで一貫性のある解析結果の再現が可能ということでした。マイクロアレイ解析者にとって朗報でしょう。特にsupplementary informationが非常に有用です。表4では各プラットフォームにおいて"One Probe to One Gene List for ALL Genes"、つまりどのプローブが遺伝子の転写物を代表であるかのリストを与えています。また、表5では"One Probe to One Gene List for 12091 Common Genes"、10のプラットフォームのプローブ互換性/遺伝子対応表を示しています。
このリストを用いると過去に実施された異なるプラットフォームの結果を利用できることになります。前回書いたメタアナリシスが可能になります。バイオマーカーの開発によく利用しています。私の感覚ではMAQC probeは確かに安定した結果を示す傾向にあります。MAQC IIの結果も注目です。
2008-04-27

DIGE道場

共同研究でバイオマーカー開発を行っている国立がんセンター研究所近藤先生がGE Helthcare社のサイトに"DIGE道場"なる2次元電気泳動法の指南道場を開設された。先生のラボは2次元電気泳動に関して世界でもトップクラスの技術レベルにある(プロトコールはNature Protocolsに掲載されている)。プロトコールは秀逸で数ヶ月のトレーニングで高品質の解析が可能になる。私の少ない経験からみてもプロテオームデータでここまで高品質のデータをみた事がない。しかし、技術は完成ということは無い、目的に応じて測定系はリファインする必要がある。網羅的プロテオームデータから臨床での実用化を目指して微力ながら貢献したいと考えています。
2008-04-26

バイオ関連比較サイト

以前、NCC近藤先生と抗体の比較サイトあるといいなぁと話していました。あるタンパク質のモノクローナル抗体は複数メーカーから発売されていますが、”当たり”かどうかは試してみないとわからないとう実情のようです。エピトープが異なる抗体はアフィニティーも異なるわけで、使用状況によってはうまくいくものもあればいかないものもあるのでしょう。メーカーのカタログを信じるしかないのです。抗体に限らずバイオ研究に用いる機器・試薬は安くないものも多いので口コミや比較が欲しいということです。Webの普及で価格.comのような比較サイトが成功をおさめています。バイオ関連でこういうのないかと探してみたらありました。アメリカではBiocompareというサイトがあります。copyrightをみると1999年から始めているようです(結構前からやってますね)。かなり広範囲にコンテンツを整備しています。メーカーのスポンサーも結構ついているようですが、まだまだでしょうか。日本にはこんなサイトがありました。Biocompareとまんまかぶっていますが偶然?小売りに比べて市場が小さいのでうまくいくかは微妙なところでしょうか。
2008-04-26

メタアナリシス

transcriptome, proteome, metabolomeにおける網羅解析では〜数十のデータサイズで数百〜数千の分子の発現差を検討します。種々の統計検定により分子をランキングし、FWER, FDRで擬陽性をコントロールしますが、代表的な閾値(1%, 5%)をクリアするためには、相当はっきりした傾向を示すデータが要求されますし、逆に小さな差を検出するためには相当多くのサンプル数が要求されます。また、少ないサンプル数で検出された分子リストの安定性には一抹の不安を感じます。かといって、この手の網羅解析は測定にお金がかかる場合が多く、測定対象のサンプル数を増やすことが困難な場合もしばしば起こります。このような状況で有効な統計解析法として、メタアナリシスがあります。メタアナリシスは独立に実施された試験における統計量やP値を統合する方法です。具体的な方法はいくつかありますが、私はFisher Cをよく使います。同じ帰無仮説を設定する検定を統合するときに大変便利です。検定回数が自由度となり、統合されたP値の検定をうまく調整しています。よって、多重補正を考えなくてもよいのが便利です。CGHアレイによるゲノムコピーの解析時、染色体上で連続したブロックのコピー増減を示す際、平均値で議論せず、ブロック中の個々のプローブ毎にP値を算出しメタアナリシスで統合することで示す事ができました。私がこの解析に参加する前は、多重補正の不備に起因してリジェクトされていましたが、この技でアクセプトされました(※もちろんこれが修正のすべてではないですが)。非常に便利なメタアナリシスですが、遺伝子データへの適用には問題もあります。遺伝子単位で解析する場合、アレイプラットフォームの違いやバージョンの違いが深刻です。プローブの設計が大きく異なるので、統合すべき同一遺伝子の定義が困難です。この問題については続きで。
2008-04-26

d-sep test

前回、graphical modelについて書きましたが、GMにより因果関係をグラフとして表すことができます。AがBの原因だと考えられれば A→B と表すのです。この二項関係を積み重ねていくとグラフになります。
さて、今、いくつかの観測(測定)可能な対象があって、それらの因果関係を知りたいとします。それらの対象(変数)の背景や事前知識から変数間の因果関係をグラフで表現します。このグラフが仮説となります。仮説を検証するために各変数のデータをとります。例えば、3遺伝子A, B, C間の転写制御関係を考えます。各遺伝子に対する事前知識よりA→B, A→Cといった仮説をたてることができます。3遺伝子の発現を測定しデータを得ます。この転写制御の仮説は正しいか統計的に検証しようという具合です。
このような状態でグラフが表す因果関係が正しいかどうか統計的に評価する方法は種々あります。その1つに"d-sep test"があります。d-sep testはグラフ構造上における条件付き独立性を検定する手法です。アルゴリズムは以下の通りです。

1. エッジがないノードペア i, j について
2. iとjのip, jpに対する条件付き独立性を検定しp値を算出する (ipはノードiのすべての親ノード)
3. 1.を満たすすべてのノードペアについて2.によりp値を算出する
4. 算出されたp値の個数をNとする
5. すべてのp値の対数をとり、その総和をとり-2倍する (C=-2Σlog(p))
6. Cを自由度2Nでカイ二乗検定しp値を得る
※3.のp値の算出法は変数が連続変数か離散変数かで異なる。連続変数の場合、i,j,ip,jpで偏相関係数行列を算出し、i-j要素をZ変換し正規分布で検定する。離散変数の場合、ip,jpで層別したi-jの分割表をカイ二乗検定する。
※5.はメタアナリシスのテクニックでFisher Cと呼ばれる複数のp値を統合する方法。

d-sep testは比較的簡単な検定により高速にグラフの整合性 (graph consistency) をチェックできる方法です。この手法はB Shipleyにより提案され、生物統計データに活用されています。
詳細は以下の書籍を参照ください。

Cause and Correlation in Biology: A User's Guide to Path Analysis, Structural Equations and Causal Inference

本書籍は生物データ解析における関連・因果解析の方法論を丁寧に説明してある良書です。具体例が多く、わかりやすく、即実践できます。是非一読を。
2008-04-26

Graphical Modeling

グラフィカルモデリングとは変数をノード、関連の有無をエッジで表現し、グラフにより変数間の (因果) 関係性を記述する手法です。よく使われる Graphical Model (GM) は非巡回有向グラフ:Directed Acyclic Graph-DAGで表現されます。GMは一般的に因果関係性の分析や予測に用いられますが、マイクロアレイ解析では遺伝子ネットワークのモデリングに使われました。ノードを遺伝子、エッジを遺伝子間の関連の有無として表現します。一般的には、事前知識や分析者の考えに基づいてGMの構造を設計し、変数に対応するデータを用いて、エッジをパラメタライズします。つまり、関係の有無に加えて関係の強さ・方向性 (正負) を推定します。これを条件付き確率で表現したのがBayesian Network (BN) です。構築されたBN上で上流ノードに観測値を入力することにより下流ノードの取る値が確率的に評価できます。遺伝子ネットワークのような遺伝子間の関係性 (ここでは生物学的に陽な関係ではなく転写量が連動するに過ぎない関係性) をモデリングする場合、遺伝子間の明示的な構造が明らかでないため (というかこれが知りたい) GMの構造自体をデータから推定します。これを構造学習:structure learningといいます。前述のBNではgreedy searchのように尤度を評価基準として局所で大きな尤度をとるグラフ構造を探索します。計算量はノード数に対して指数的で容易には解けません。別の構造学習の概念として"条件付き独立"を用いた方法があります。DAGの場合、2変数の共通の親ノードを固定 (条件付け・層別) すると独立になります。構造学習の方法としては初期モデルとして完全グラフ(すべての変数間にエッジがあるモデル)を与え、変数間の条件付き独立性を検討し、エッジを削除していくといったものです。こちらも大域解を得るのは難しいです。この方法の一つに多次元正規性を仮定したGraphical Gaussian Modeling (GGM) やPath Consistency Algorithmがあります。正規分布においては偏相関係数の検定により条件付き独立性を判定できます。条件付き独立性を利用したモデルは、相関係数等の2変量間の関係性で構築されたモデルよりもシンプルでデータ構造の骨格的な関係性を表現しているように感じます。個人的には、GMにはデータに潜む関係性を記述する方法として、とても優れていると考えています、生物学領域の解析のために様々な応用を考えています。
2008-04-25

ぴらてぃす

極度の運動不足から健康に不安を覚える日々ですが、先日はじめてフィットネスに行ってみました。”ぴらてぃす”なるものをやってみましたが、とんでもなく苦しい思いをいたしました。同時にすごく効くかもと思ったのです。腹筋に力を入れ続けて呼吸し、手足のゆっくりとした運動を行うのですが、当然お腹にきます。筋肉痛です。ただ、その気にならないと、また苦しむ気になりません。毎日、通勤で歩いているときに、ふと思ったのですが、腹筋に力を入れ続けて歩けば”ぴらてぃす”効果を近似できるのではないか。なので、最近やってます。効果検証はこれからです。
2008-04-24

パスウェイ データベース

最近、Webで利用できるパスウェイ情報が増えてきて、解析者としては幅が広がってうれしい限り。自分が知っている/使っているDBとしては・・・

> Gene Assist Pathway Atlas: 350以上のパスウェイが登録されています。絵はきれい。パスウェイ上の遺伝子リストをDL可能。Entrez Gene IDがアサインされているのがよい。
> Pathway Interaction Database: 70弱のNCI-Nature curated pathwayが登録されています。絵はいまいち。BioPAXやXMLでパスウェイ毎DLできるのでインタラクションも活用でききる。また、BioCartaやReactome(後述)もインテグレートされている。
> BioCarta: 複数の機能分類でベーシックなパスウェイが登録されています。絵は見やすくきれい。コンテンツはざっくりした感じでシンプルな印象を受ける。複数の生物種のデータが登録されている。
> Reactome: 黎明期は代謝系を中心としていた感がありましたが、今やシグナル伝達系や様々な相互作用が登録されています。生物種は幅広くカバーしており、解析機能・提供されるフォーマット等もかなりシステム化されている。
> KEGG: いわずと知れた日本初のパスウェイDB。パスウェイDBのさきがけでしょうか。昔は教科書にあるような基本的な代謝MAPのイメージがありましたが、今では広範囲なカテゴリー・生物種が登録されています。提供されているサービスも豊富です。
> NetPath: シグナル伝達系を中心にコンテンツは少なめ。BioPAXやSBMLフォーマットでDL可能。
> Intatactive Pathways: シグナル伝達系を中心にコンテンツは少なめ。教科書の図表の印象。
> GeneGO MetaCore: コンテンツリッチなWeb・Flashで提供されるパスウェイDB。非常に多数の相互作用を精査して収録している。病気に関する情報も多数あるので医学系研究や創薬向けな感じがする。世界2大パスウェイDBの1つ(と私は思う)。ただ、プログラマーとしては全データを引っこ抜いてバッチで解析したくなる代物。
> Pathway Studio: 商用パスウェイDBの先駆け、自然言語処理でPubMedを解析しDB化するという高等な機能を核としている。インターフェースが優れ、コンテンツのハンドリングの自由度が高いのでプログラマーとしては好ましい一品。品質はトレードオフ?
> Ingenuity Pathway Analysis: これも商用パスウェイDBの先駆け、世界的知名度は高い。世界2大パスウェイDBの1つ(と私は思う)。個人的には使用したことがないので?。

紫色は商用ソフトウェアです。DBによって特色も違い、収録量・内容も異なっていると思われます(定量的に示してはいませんが)。フリーのパスウェイDBを相互作用をすべて統合して整備するのは、少々面倒そうですが、遺伝子セットの定義はできそう。GSEAのMSigDBに追加できますね。
2008-04-24

Pathway Enrichment

あるphenotypeに注目して群設定を行い、発現差を示す遺伝子・タンパク質のリストを同定することはよく行われる解析です。また、クラスタリングによって類似した発現パタンを示す分子のリストもしばしば設定されます。このようにして得られたリストに対する意味付け・落としどころはいくつか考えられますが、ひとつの切り口としてパスウェイがあげられます。ここ数年でフリー・商用のパスウェイDBが整備されてきています。自然言語処理によりPubMed のAbstractを構文・形態素解析し分子間相互作用をDB化するソフトウェアやキュレーターと呼ばれる生物学がバックグラウンドのPhDがせっせと論文を読みDB整備を行うソフトウェアが存在します。これらのパスウェイDBは特定の機能単位毎にまとめられています。例えば、TCA cycleやWnt signaling pathwayのように。上述の分子リストが特定のパスウェイに偏って存在していれば、pahenotypeがpathwayと関連するといった具合です。方法としては超幾何分布をベースとした検定やGene Set Enrichmentのような順位統計の並び替え検定みたいなものがあります。遺伝子単位で見えてこないけど”Set”として考えるりことで検出力が上がるといった方法が最近の流行です。ただ、これらは”Set”だけに注目していて分子間の関係性を考慮していないためパスウェイ解析法としては不完全だと思います。この辺のギャップに関してはまた別の機会で。
2008-04-23

バイオマーカーを作るおしごと

仕事でバイオマーカー開発を行っています。

対象は、がんの転移・予後予測マーカーや抗がん剤の奏効性予測マーカーです。
私は国立がんセンター研究所 (NCC) の外来研究員でインフォマティクス担当です。
マイクロアレイや2D-DIGE等の発現データを対象として統計検定による発現差解析・pathway enrichment・メタアナリシス等により候補マーカーのスクリーニングを行っています。
腫瘍の種類毎に数百検体の網羅的発現データを扱います。複数の臨床因子を考慮して2群・多群の発現差検定、fold change、GSEA等を用い数十のマーカー候補タンパク質/遺伝子を同定しています。候補タンパク質 (スポット) はNCCの先生方が質量分析による同定および免疫染色によるバリデーションを行い、過去の文献やパスウェイ解析により機能の推定・解釈を行い論文発表となります。
同定されたマーカーは非常に性能の高いものが多く、どれも臨床で有用だと思っています。 論文発表に留まらず、市場に展開して臨床で実用となる事を目指し日々解析にいそしむわけであります。
2008-04-23

自己紹介

SAIX (sh.saix at gmail.com)

研究分野:Research Area

> グラフィカルモデルに関する研究
> がんバイオマーカー探索・がん治療標的探索

開発言語・アプリ:Development Language・Developed Application


> Pearl, Shell Script, C/C++, JAVA, R
> Hierarchical Clustering, Graphical Gaussian Modeling, PC-Algorithm, Bayesian Network, d-Sep Test, Recursive Feature Elimination, Neighborhood Analysis+Weighted Vote, FWER & FDR, Z-Test, Hypergeometric-Test

論文:Journal & Proceedings


> Katoh H, Ojima H, Kokubu A, Saito S, Kondo T, Kosuge T, Hosoda F, Imoto I, Inazawa J, Hirohashi S, Shibata T: Genetically distinct and clinically relevant classification of hepatocellular carcinoma: putative therapeutic targets. Gastroenterology. 133:1475-86, 2007
> Aburatani S, Sun F, Saito S, Honda M, Kaneko S, Horimoto K: Gene systems network inferred from expression profiles in hepatocellular carcinogenesis by graphical Gaussian model. EURASIP Journal on Bioinformatics and Systems Biology. accepted, 2007
> Saito S, Aburatani S, Horimoto K: Modification of Path Consistency Algorithm to Detect Co-Expression Genes. Proceedings of the 10th World Multiconference on Systemics, Cybernetics and Informatics. accepted, 2006
> Aburatani S, Saito S, Toh H, Horimoto K: A Graphical Chain Modeling Approach for Analyzing Gene Expression Profiles. Statist. Method. 3:17-28, 2006
> Aburatani S, Saito S, Horimoto K: Graphical Models for Gene Expression Profile Analyses. Proceedings of the First International Conference on Algebraic Biology. 1, 2005
> Aburatani S, Goto K, Saito S, Toh H, Horimoto K: ASIAN: a Web Server for Inferring a Regulatory Network Framework from Gene Expression Profiles. Nucl. Acid. Res. 33:W659-W664, 2005
> Saito S, Aburatani S, Horimoto K: Network Inference Tool on Personal Computer. Proceedings of the 9th World Multiconference on Systemics, Cybernetics and Informatics. 8:21-24, 2005
> Aburatani S, Goto K, Saito S, Fumoto M, Imaizumi A, Sugaya N, Murakami H, Sato M, Toh H, Horimoto K: ASIAN: a web site for network inference. Bioinfomatics. 20:2853-2856, 2004

本:book

> マイクロアレイデータ統計解析プロトコール 〜 Excelを中心としたデータの標準化から有意差解析,クラスタリング, ネットワーク解析法のすべて. 羊土社, 2008
> Bioinformatics for Systems Biology 〜second edition to Introduction to Bioinformatics〜" ASIAN: Network Inference Web Server", Humana Press, in press (2009)

特許:Patents


> 特願2006-27247, 特開2007-207101: グラフ生成方法、グラフ生成プログラム並びにデータマイニングシステム
> 20070239415: GENERAL GRAPHICAL GAUSSIAN MODELING METHOD AND APPARATUS THEREFORE
> 20070203870: GRAPH GENERATING METHOD, GRAPH GENERATING PROGRAM AND DATA MINING SYSTEM

 | HOME | 


PROFILE

CALENDAR

MONTHLY

RECENT ENTRIES

にほんブログ村 科学ブログへ にほんブログ村 科学ブログ 自然科学へ

CATEGORIES

OTHERS


ホームページ アフィリエイト レンタルサーバーFC2ブログ 専門学校

検索エンジン登録.com

検索エンジン Mono Search