前回の続き。
説明が長くなってしまいましたが、論文の説明に戻ります。ヒトのゲノムの中には、いろんな祖先のものが混ざっていると書きました。その状態をHidden Markov Model(HMM)をもとに解析したというのが最初に紹介した論文の内容です。
HMMとは、ある状態が他の状態に変わる確率をモデル化し、実際のデータの状態を推測する方法です。バイオインフォマティクスの領域ではタンパク質のドメインの予測など、様々なものの推測に用いられている方法です。この場合の状態とはDNAの系統関係を指します。たとえば、ある塩基配列が、ヒトでA、チンパンジーでA、ゴリラでT、オランウータンでTだとすると、ヒトとチンパンジーがその塩基配列に関しては一番近縁である確率が高くなります(前回の図Bの赤の部分)。組み換えが何度も起こった場合に、その断片の長さは負の指数分布を取ることが知られているので、状態はそれを条件に切り替わります。
そのようにして計算した場合、ヒトとオランウータンの分岐を1800万年とすると、ヒトとチンパンジーは410万年に分岐したのだろうと結論付けています。この年代は今までの予測と比べても随分近い年代です。また、ヒトとチンパンジーの共通祖先の集団サイズは約65,000で特別に大きい数ではないとしています。