2011年6月13日月曜日

単座位多サンプルの解析

Maruvka YE, Shnerb NM, Bar-Yam Y, Wakeley J (2011) Recovering population parameters from a single gene genealogy: An unbiased estimator of the growth rate. Mol Biol Evol 28: 1617-1631.

先日の続きです.座位数が少ない場合に,塩基多様度などの所謂summary statisticsの分散はサンプル数が多かったとしてもとても大きくなることはわかっていますが,サンプル数を増やすことで別の情報が得られないかというのがこの論文です.

もちろんアイデア自体は昔からあるのですが,この論文ではnumber of lineages as a function of time (NLFT)というsummary statistics(のようなもの)を提案しています.これはある時間における系統の数を表しています.

実際の内容は論文を読んでもらえばわかるとして(細かい計算はともかく,イントロはうまくまとまっています),直感的には単位時間当たりのcoalescent rateは集団サイズと負の相関を示すので,サンプルが多ければ多いほど単位時間あたりに存在する系統が多くなり,coalescent simulationを用いずにわりと正確にその時の集団サイズが推定できるはずです.