2011年6月11日土曜日

モデルに基づいた検証の重要性

Beaumont MA, Nielsen R, Robert C, Hey J, Gaggiotti O, et al. (2010) In defence of model-based inference in phylogeography. Mol Ecol 19: 436-446.

少し前の論文ですが取り上げます.これは,名だたる統計生物学者のオールスターズが連名である人のある方法をフルボッコにする論文です.

生物の集団内の構造と歴史,近縁種との関係などを現在の地理的分布などと絡めて研究する分野をphylogeographyと呼びます.有名なところではJ.C.Avise(c.f., 生物系統地理学―種の進化を探る)の一連の研究があります.こういった研究が生物の歴史を知るのにとても重要なことであることは確かでしょう.

ただし,こういった研究の多くはその簡便さから一座位(多くはミトコンドリア座位)のデータを使うことが多く,Genetic Driftの効果が大きいということは指摘されていますし,僕も以前のエントリーや学会の発表などで指摘させてもらっています.

で,こういった研究の多くは,数学的に厳密なモデルにしたがって歴史を推定するのではありません.例えば,距離的に生息域の近い種がより近いクラスターを系統樹で形成すれば,Isolation by Distance(距離による隔離)であると推定し,ある一つの集団が他と比べて少ない多様性を持っているようであれば,Bottleneckがあったと推定する,といったように観測者の主観が入り,人によって得られる結論が違ってくる可能性があります.

恐らくそこを克服するために考えられたのが,A.TempletonのNCA(Nested Clade Analysis)と呼ばれる方法とその派生法です.僕は実際には使ったことがないので,細かいところは間違っているかもしれませんが,サンプルの系統樹と地理的条件(サンプル場所)を組み合わせてチャート式に解析していくと,Templetonが考えたパターンを導くことができ,「地理的隔離があり,生息域が広がった集団がボトルネックを経験した」のような結論が得られるものです.確かに主観的な要素は少ないような気がします(といってもTempletonの主観に基づくわけですが).

この方法はしばしば批判の的にされています.一つの大きな理由は,Templetonはシミュレーションをほとんど行わないということです.系統樹の一座位のあるパターンは様々なdemographyのモデルのもとに起こりえます.それに反してモデルベースの考え方では,まずdemographyのモデルを考え,その中でどのような系統樹がどのような確率で起こりうるかということを考えます.したがって,推定したパラメータ(移住率や集団サイズ)がどれくらい確からしいかということに対しての検証ができます.

Templetonは自分の方法によほど自信があるのか(確かにNCAはものすごく良く使われてきた方法です),モデルベースの研究への批判,特にABC(Approximate Bayesian Computation)をしばしば論文で批判してきました.その内容は特にABCに限定せず,モデルベースの方法全般を批判しているものが多いのです.

Templetonの主張はわからないわけでもありません.モデルを用いた方法はあくまでもモデルがある程度正しいときにのみ意味があり,まったく的外れなモデルから得られる結果は何の意味もありません.扱っているモデルに妥当性があるかは議論の余地が残るところでしょう.しかし,だからと言ってモデルベースの研究すべてがおかしいという主張にはなりません.また,現在の方法の限界として,パラメータ数の増加による複雑なモデルの検証が不可能ということがありますが,今後計算速度が飛躍的に伸びれば,異なった複雑なモデル間をジャンプするような方法も実用的になってくると思いますので,原理的に間違っているわけではありません.

実際の論文では,NCA(ここではNCPA(改良版なのか名前が変わったのかは僕はチェックしていません))に対してあらゆる角度から批判を行っています.NCPAのカイ二乗検定は統計的に間違っているといった細かいものから,前述のシミュレーションに対する問題など様々です.最終的にはデータをどう捉えるかという統計哲学的な議論になってしまうので答えが出るような形のものではないのかもしれませんが,現在のところモデルベースな考え方の方が色々な点で有効な方法であるというという点は明らかでしょう.

個人的な意見では,ミトコンドリアを用いた集団構造の研究なんかは,データが限られていた時にやむなく使われていた方法であって,これから非モデル生物で多座位(もしくはゲノム全体)の多様性のデータが得られれば,わざわざミトコンドリアのみを用いる理由はなくなってくるはずです.

ただ,前述のように,モデルが自分が現在調べている集団にとって妥当かどうかというのは常に気を付けなければいけません.モデルベースの研究のために多くの既存のソフトウェアがあります.その中身はベイジアンやCoalesenceやマルコフ過程などについての知識がないと理解できない高度なものです.ソフトを使う人すべてがそれを理解することは期待できないでしょう.ただ,少なくともどのような仮定でそのソフトは動いているのか,それを知らないととんでもない結果をつかまされるかもしれないことは意識しておくべきです.

ところで,単座位の解析の信頼性について僕は割と批判的なのですが(もちろん研究自体を否定するわけではありません),別の点から見て単座位でも信頼性のある結果が得られるという面白い論文が最近ありましたのでそれはまたの機会に紹介したいと思います.