2007年5月10日木曜日

遺伝子の参照名を使おう

Natureのコメント
Human reference sequence makes sense of names. Douglas L. Crawford

遺伝子にはいくつもの名前があります。なぜかというと、遺伝子を発見した人がそれぞれ好きな名前をつけてきたからです。ある人はタンパク質の結合性からX結合タンパクと呼ぶかもしれませんし、ある人は細胞内の代謝系に注目してX化合物リン酸化酵素と呼ぶかもしれませんし、またある人は遺伝子の変異体が行動へ影響を与えるので「恥ずかしがり屋」遺伝子とか呼ぶかもしれません。

ところが、研究がどんどん進んでくると色々な人が研究した遺伝子が実は同じ遺伝子であることがわかってきます。「同じ遺伝子」という定義は厳密には難しいですが、ここでは、「ゲノムの同じ場所から転写されている機能ユニット」としましょう。この概念は、色々な生物のゲノム配列が解読されたことにより決定的になります。ゲノム配列の決定とは、それぞれの遺伝子に住所と番地を与えるものです。つまり、今まであかの他人だと思っていた人たちが実は一つ屋根の下で暮らす家族の一員であったということがわかってきます。そうであれば、個々の家を個人の名前ではなく表札の名前で呼んで住所と一対一で対応させることによって色々な研究者が情報を交換できるようになります。

しかし、この考えはゲノム指向の研究者には受け入れやすい提案ですが、遺伝子指向の研究者にはなかなか受け入れられません。やはり、自分で見つけて名づけた遺伝子や慣れ親しんだ遺伝子の名前には愛着があります。実際のところ、論文では統一的な名前よりも、昔から使われている名前を使われることがよくあります。そもそも、統一名が何なのかすら知らない研究者は数多く存在します。

遺伝子の統一的な命名は、HUGOという組織が古くから推進しています。実際は「統一」という言葉よりも「参照」という言葉が適切でしょう。遺伝子の色々な名前はそれぞれの一面を示していますから、どれが本物でどれが間違いであるかという問題ではありません。ある参照をデータベースで引けば、それがどのような別名を持っているのかがすぐにわかります。中立的には単なる番号で呼べば良いのでしょうが、便宜的に代表的な名前の
アルファベット3~5文字程度になる省略形が用いられています。

また、現在はNCBIがEntrez Geneというデータベースを作製しており、基本的にHUGOの名称に基づいて独自のIDを振り、PubMed、RefSeq、OMIMなどのNCBIデータベースと統合されています。他にもヨーロッパのEnsemblや日本のH-Invなどが代表的な統合データベースとして知られています。これらの大規模なデータベースは相互の関係もしっかりと構築され、どれとどれが対応するのかが整理されています。

一つの遺伝子の機能を追い求めることも重要ですが、その生物学的意義はその遺伝子だけを見ていてもわかりません。読者の立場を考えても、パブリックな論文に身内だけの名前を使うことはお勧めできませんし、将来の発展の可能性も失うでしょう。ただ、どうしてもHUGOの遺伝子名が気に入らない場合は申し立てもできるようです。