Posts 잃어버린 유전 가능성(Missing heritability)에 대해 #
Find similar titles

2017-09-15 08:50:16 (rev. 21)
2014-06-11 16:32:31 (published)
Hyungyong Kim
Google

Structured data

About: GWAS; Heritability

며칠전, 유전체학과 예방의학(Genomics and Precision Medicine) 코세라(Coursera) 강의를 이수했다. 꽤 쉽지 않았는데, 이곳 Ecogwiki에 요약 기록하는 것과 이해될 때 까지 반복 시청하는 습관이 주효했던 것 같다. 유전체 의학 분야에 대해 체계적으로 소개받을 수 있었다는 점에 대해 매우 만족하고 있다.

유전체학 관련한 몰랐던 많은 이야기들을 이번 강의를 통해 알 수 있었는데, 그 가운데 잃어버린 유전 가능성(Missing Heritability) 부분이 특히 기억에 남아 따로 정리해 본다. 의학 혹은 육종 관련 세미나를 듣다보면 늘 나오는 이야기, 잃어버린 유전 가능성이란 무엇을 말하며, 왜 그런 것일까? 그리고 개인유전체시대 맞춤의료(Personalized medicine)를 위해 어떻게 극복할 수 있을까?

개요
이유
어떻게 극복할 수 있을까
Suggested Pages
Other Posts

개요 #

잃어버린 유전 가능성이란, 좁게는 특정 형질의 유전 가능성은 전장유전체 연관분석(GWAS) 연구에 사용된 단일염기다형(SNP)으로 모두 설명할 수 없다는 의미로 사용된다. 넓게는 유전자만으로 설명할 수 없는 표현형질의 복잡성이란 의미로 쓰이는 듯. 미국의 NHGRI와 유럽의 EMBL-EBI는 공동으로 인간 GWAS 연구결과가 실린 문헌들로 부터, 특정 형질과 유의한 (p < 5*10^-8) 관계가 있는 SNP 카다로그를 만들었다. (2014-03-13 현재 1836개의 문헌이 포함됨) 이 카다로그로 부터, 특정 형질에 관련된 SNP이 어떤 것들이 있고, 다음세대로 얼마의 확률로 유전되는지를 계산했는데, 이 확률은 생각처럼 크지 않다.

(Image from Catalog of Published Genome-Wide Association Studies)

질병(형질)	GWAS 좌위 수	유전가능성
Type 1 diabetes	41	~ 60%
Fetal hemoglobin	3	~ 50%
Macular degeneration	3	~ 50%
Type 2 diabetes	39	20-25%
Crohn’s disease	71	20-25%
LDL/HDL levels	95	20-25%
Height	180	~ 12%

제1형 당뇨(Type 1 diabetes) 같은 경우는 41개의 좌위를 확인하여 약 50% 확률로 해당 질병이 있을지 아닐지를 알 수 있는데 비해, 키(Height)의 경우는 180개의 좌위를 확인하여 단지 12%만을 설명할 수 있다. 여기서 나머지 88%는 어디갔는가가 보통 이야기하는 잃어버린 유전 가능성이다. 키라는 형질이 유전되는 건 맞는데, SNP으로 확인했을 때, 왜 12%밖에 설명하지 못하는 것일까?

이유 #

GWAS 연구로 잃어버리는 유전 가능성은 다음 때문이라고 이야기되곤 한다. (코세라 강의의 Peer assignment 문제이기도 했다.)

비적절한 공통변이 (Common SNPs not tagged well) #

해당 형질이 SNP array에 사용된 공통변이 좌위만으로 잘 설명되지 않을 수 있다. 좀 더 연관된 다른 좌위가 있을 수 있다는 의미. 유전자 부근이면서 하플로타입(Haplotype) 조합을 고려하고 전체 유전체를 커버하는 최적의 좌위들을 다시 잘 설계해 볼 수 있겠다. 23andMe는 최근 자신들의 SNP array 좌위들을 새로 디자인 하고, 유전자 검사(Genetic testing)를 업그레이드 한 바 있다. (2013-11-18, 23andMe’s New Custom Chip) 비슷한 노력이라고 볼 수 있겠다.

전장유전체 서열결정(WGS)이나 엑솜서열결정(Exome sequencing)으로 변이를 찾을 수도 있다. 이 경우 너무 많은 변이들 가운데, 어떻게 의미있는 것을 찾는가가 중요한 문제이다. (본 코세라 강의엔 방대한 변이들을 어떻게 위험도 위주로 구분하는지에 대한 언급도 있다. 이 이야기는 다음에.)

희귀변이 (Rare variants) #

해당 형질에 희귀변이가 관여한다. 희귀변이는 보통 SNP array 좌위로 사용되지 않으므로, 일반 GWAS 연구로는 알 수 없다. 이 역시 NGS로 전체를 서열결정하는 방식을 쓸 수 있고, 방대한 변이 정보를 체계적으로 이해하는 일이 필요하다.

왠지 전체 서열결정해서 희귀변이를 모두 확인해보면 많은 의문들이 풀릴 것 같은데 꼭 그렇지만은 않은 듯. HGV2014에서 특정 표현형질에 대해 공통변이와 희귀변이의 설명력이 약 50:50 정도 된다고 들은 바 있다. 그렇담 희귀변이까지 분석할 때 어림잡아 키의 유전가능성은 두배가 되어 24%가 되는 듯.

그밖의 다른 변이들 (Other types of variants) #

SNP 말고도 다른 변이들도 있다. 유전자 복제수 변이(CNV) 혹은 구조변이(SV, Structural variation) 등이 해당된다. SV는 염색체 전좌같은 커다란 구조적 변화들을 모두 포함하는데, 이것 역시 HGV2013에서 들은 바에 의하면, 일반 멘델유전병의 경우, SV가 SNV 보다 더 많은 영향을 미치는 요인으로 작용한다고 한다.

CNV나 SV를 제대로 알기 위해선 WGS를 해야 할 것이다. 우리가 이미 알고 있는 SV들은 일종의 공통변이 일 것이고, 이 역시 희귀한 SV 변이들과 함께 전반적으로 표현형질에 관여할 것이다. 개인유전체 데이터로 부터 SV 정보를 분석해주는 일은 쉽지 않겠지만 생물정보가 해결해야 할 중요한 부분임엔 틀림없다.

에피스타시스 (Epistatic effects) #

에피스타시스(Epistasis)란 유전자-유전자 상호작용에 의한 시너지 효과를 의미한다. A라는 변이가 10만큼 작용하고, B라는 변이가 5만큼 작용하는데, A, B가 동시에 있으면 20만큼 작용한다면, 여기서 추가된 5는 A-B 상호작용에 의한 것이다. 보통의 일반적인 GWAS 연구는 이러한 시너지 효과를 반영하지 않는다. 이를 반영하려면, 다양한 조합을 계산해야 한다는 계산 부담과, 대량 분석이기 때문에 필수적으로 갖게되는 오차들이 조합 계산시 더 커진다는 문제로 인해 실제 연구가 쉽지 않은 듯 하다. 어떤 통계를 써서 상호작용을 반영할 수 있을지 이론적인 기반도 더 필요해 보인다. 실험계획법(Experimental design) 가운데에 이러한 상호작용 (교호작용이라고도 번역하는 듯)들을 적절하게 계산해내는 방법을 본 기억이 있는데, 어쩌면 이를 응용해 볼 수도 있겠다.

환경과의 상호작용 (Effects of Gene-environment interaction) #

책 우리 아이 머리에선 무슨 일이 일어나고 있을까(What's Going on in There)에 보면 쌍둥이들로 IQ와 환경과의 관계를 연구한 이야기가 있는데, 그 결과에 의하면 유전과 환경은 대략 50:50으로 영향을 미친다고 한다. 그렇다면 표현형질은 환경요인의 영향을 대략 반정도 받는다고 봐야겠다. 환경요인을 적절하게 선별하고 이 정보와 함께 GWAS 분석하고, 에피스타시스 처럼 유전자-환경 상호작용도 분석해 낼 수 있다면, 좀 더 정확한 맞춤의료정보를 제공할 수 있을 것이다.

어떻게 극복할 수 있을까 #

NGS 시대가 되고 서열결정 비용이 낮아지면서, 개인유전체 분석을 하고, 이를 통해 맞춤의료를 할 수 있을 것이란 기대가 높다. 하지만 아직까진 이 잃어버린 유전 가능성 때문에 유전변이의 영향을 충분히 예측해내고 있지 못한 듯 하다. 쉽진 않겠지만 대규모 GWAS 연구시 환경요인을 함께 분석하는 것이 중요한 포인트가 될 것 같다. 상호작용에 대한 분석 기법을 에피스타시스로 연구하고, 이를 환경요인까지 적용해 본다면 꽤 괜찮은 개인유전체 맞춤의료 서비스를 할 수 있을 것 같다. 예를 들어, 당신의 유전체는 질병 A에 걸릴 확률이 다른 사람들에 비해 2배정도 높은데, 만일 담배를 끊는다면 1.5배 정도로 낮출 수 있다 혹은 잠을 9시간 이상 자면 1.7배로 떨어진다 처럼 권고해 줄 수 있다면 꽤 유용할 것이다. 개인에게 그냥 분석 결과만을 알려주는 것이 아니라, 예방 지침까지 알려주니 말이다.

개인 WGS 데이터로 부터 얻은 방대한 SNV, SV의 위험도를 체계적으로 알려주는 것 또한 꽤 중요한 연구 수단이 될 것이다. 지금은 주로 공통변이의 GWAS 실험결과를 바탕으로 오즈비(Odd ratio)를 알려주는 것 밖에 없지만, 희귀변이의 위험도도 같은 비중으로 계산해 줄 수 있다면 유용할 것이다.

축적된 데이터의 공유도 매우 중요하다. 만일 개인유전체 데이터와 표현형 데이터, 환경요인 데이터를 익명으로 공개하고 함께 축적한다면 이 데이터(이런게 또 빅데이터)로 다른 사람의 표현형질 예측을 좀 더 정확하게 하는데 사용할 수 있을 것이다. 개인 프라이버시가 매우 중요한 유전정보, 표현형질정보, 환경요인정보라서 이를 어떻게 가능하게 할 수 있을지 쉽지 않겠지만은.

5년뒤, 10년뒤 미래엔 어떨까를 상상해 보고, 바로 그 상상을 실현시키는 기술을 만들면 성공할 것이라는 이야기가 있다. 개인유전체 맞춤의료의 미래는 어떤 모습일까? 내 유전정보를 바탕으로 건강을 유지할 수 있는 생활습관을 계속 조언해주기? (유전정보를 바탕으로 치료하는 건 당연하고.) 진정한 명의는 병에 걸리기도 전에 미리 안걸리게 하는 거라던데 어쩜 이 기술이 그 역할을 할 수도 있을 지도 모르겠다.