2008年12月16日火曜日

全ゲノムSNPのPCA解析

近頃の技術の進歩により,一度の実験で200,000~500,000程度の個人のSNPを安価に決められるようになりました.それらのデータから人類遺伝学的な考察を行うために最近盛んにつかわれている方法が主成分分析です.

もちろん,主成分分析(PCA)自体は多次元データを直感的に理解するための古典的な手法で,集団内のサンプルを階層化する目的でつかわれてきました.が,それをヨーロッパのサンプルにあてはめた時の論文が衝撃的でした.第一主成分と第二主成分を使ってデータを2次元平面上に落とし込むと,個人の分布が地図とピタリと重なります.

同じ方法で日本人のサンプルを解析した論文もありますが,今回のPLoS ONEの論文ではより広いアジアのサンプルを扱っています.相変わらず美しい絵です.

一連の解析でわかる重要なことは何でしょうか.もちろん,個人の出生地をかなりの割合で推定できる,ということは重要なことでしょう.さらに,「距離による隔離でヒトのランダムではないSNPパターンはほとんど説明できる」ということがあるかもしれません.

ただ,主成分分析の性質を理解したうえでこのことを議論しないといけないでしょう.主成分と地図が一致したのはやってみたらたまたまそうだっただけであって,理論的根拠は少ないのです.移住率の偏りとか遺伝子にかかる淘汰などによってこのパターンがどのように変わるのか,第三主成分以降に含まれている情報は何なのか.色々と検討すべきことがあるのではないでしょうか.

2008年12月16日追記

「距離による隔離でヒトのSNPパターンはほとんど説明できると書いてしまいましたが,たぶん不正確なので少しいじりました.

余談ですが,こういった研究は非常に面白いと思いますが,僕は主成分分析はあまり好きではないのです.主成分分析はデータからヒストグラムを書いて眺めてみるのを高級にしたような感じで,記述的な印象があります.もちろんデータの記述は重要な要素ですが,そこから先にもう一歩欲しいと思ってしまいます.


2008年12月17日追記

このブログでは図版についての版権はきちんと守ろうと努めています.PLoSシリーズの素晴らしいところは,論文の図もパブリックドメインになっていることです.逆に,PLoSに投稿する場合にはその図がどこからかパクッたものではないことが求められます.