読者です 読者をやめる 読者になる 読者になる

まっどさいえんちすと

日本語が苦手なのでブログで練習します。パエリアが大好き

Google Genomicsを紹介~その1

久々の更新でGoogle Genomicsを紹介してみたいと思います。

Google Genomicsは、全て遺伝子配列データをGoogleにcloud上で保存したりシェアしたりして、Big Queryを叩いてみましょうということです。

公式サイトでは

Google Genomics provides an API to store, process, explore, and share DNA sequence reads, reference-based alignments, and variant calls, using Google's cloud infrastructure.

と書いてあります。

f:id:keivard:20140804102038j:plain

既にGoogle側がデータとして1000Genome Projectと、Personal Genome Projectのvariant callされた結果などを提供してくれています。

(VCFとは、Variant Call Fileといって、変異を検出したリストファイル)

とりあえずそういう変異が大量に検出されるんですが、クエリを投げると数秒で帰ってくるのが最大のポイントですね。もう数秒。ほんと数秒。それでグラフまで出てくる。

クエリを投げるのも非常に簡単

投げたら下記のように可視化もできるわけです。

f:id:keivard:20140804102223p:plain

 

とここまでは、まあGoogle Genomicsを調べれば出てくる内容です。

 

とまあ例えば、ヒトのゲノムを解析している研究室では、ちょっと使うのに一番困るのが、VCFファイルですら、cloundに上げられないです。。

 

あと基本的に単一遺伝子で疾患を起こす常染色体劣性遺伝子、常染色体優性遺伝子というのは、もう90%以上発見されてしまっていて、variant callのリストだけ見ていて怪しい遺伝子を発見するなんてことは、もうありえないでしょう。

その点Google Genomicsは、大量の変異を検出するだけではなく、その後いろいろと分析にまわせそうなので、組み合わせると便利だと思います。(次のブログで実践してみたいかも)

 

あと基本的にDeNAなど遺伝子解析サービスを始めようとしていますが、Common Variant, Low-Frequencyという概念があまり知られてないように思います。

f:id:keivard:20140804102216j:plain

 

MAF値とは、Minor Allele Frequencyのことで、ようは、どれだけ珍しい変異か、ということ。

求め方は、こちらとかを参照してください

 

この図の見方は簡単で、

めずらしい変異で大きな影響を与えるケースが左上です。

Rare Disease, Rare Variantと言われます

 

一方右下は、よくある変異だが小さな影響しか与えないケースです。

Common Diesease , Common Variantと言われます。

 

遺伝病、先天性筋ジストロフィーなどは、左上です。

一方で右下は、高血圧、糖尿病、アトピー性皮膚炎など発生頻度の高い疾患が当てはまります。

f:id:keivard:20140804103443g:plain

(From ここ)

上の図が今までとってきたアプローチということです。

 

GWASはご存知のようにあまりうまく行きませんでした。その辺の話は次ですね。

今日は、Google Genomicsの紹介だったんですが、紹介したかったことは。

  • Google Genomicsは爆速
  • しかし倫理上の問題をどう解決するか
  • ただVariant Callのリストを見るだけではなく、いろんな手法とBig Queryを組み合わせれば面白いことができそう
  • Common Disease とCommon Variantの考え方の紹介。
  • 単一遺伝子変異の発見する時代はもう終わり
  • 相変わらずまとまってないブログで反省すぎる。