Hanyang University
맞춤의료학세미나1
#
Find similar titles
- (rev. 15)
- Hyungyong Kim
Structured data
- End Date
- Location
- Hanyang University
- Start Date
한양대 대학원 맞춤의료학과 오픈세미나. 매주 수요일 오후 11시 제1의학관 508-1호
Table of Contents
강연 #
Genome-wide identification of A-to-l RNA editing sites in humn #
(, 경희대 이재형 교수)
Revisiting mRNA tailing by 3'-terminome sequencing #
(, 서울대 RNA연구단 장혜식 박사)
일부 유전자의 mRNA의 poly(A) 길이는 발생단계별로 짧아짐과 길어짐을 반복한다. 또한 이 길이가 길수록 안정하므로, 뉴런세포의 긴 세포사이를 이동하려면 길어야 한다. 이 길이가 어떤 생물학적 의미가 있는지 직접 확인해 보기로 함.
NGS 장비로 poly(A) 3'-terminal에 프라이머를 붙혀 직접 시퀀싱 해 보았으나, Homopolymer인 관계로 오류가 많음. 이를 직접 NGS 로우 데이터로 신호를 추출하고, 패턴을 비교하여, 이를 보정하는 HMM 알고리즘을 구현함. 이 방법으로 poly(A)를 재면 매우 정확하게 잴 수 있음.
poly(A) 끝에 U가 붙는 경우가 있는데, 이는 decay와 관련있음. 즉 U가 앞뒤로 붙으면서 decay하는 것으로 보여짐.
질문
- NGS 로우 데이터는 직접 엑세스가 가능한가? - 이미지는 바로 삭제하며, 중간 파일이 있다고 함. 이마저도 최신 장비에서는 지원하지 않는다고.
De Novo Assembly of the First Human Diploid Genome with Single-molecular Sequencing for Asian Genome Project #
(, 마크로젠 양갑석 박사)
Asian Genome Project
- Phase 1 (2013-2014) 1K
- Phase 2 (2015-2017) 10K
Asian specific SNV 찾고, 일부는 Cancer therapy에 관련있는 BIM 유전자의 Imatinib 활성과 관련있었다고 함.
Medical grade를 위해서는 de novo assembly가 필요하다고 판단함.
Falcon with Daligner으로 빠르게 어셈블리했더니 GRCh38과 91% 매핑됨. GRCh38에는 604개의 gap이 있음. 이를 70%정도 채우거나 확장함
GRCh38에는 왜 Gap이 있는가 - 대부분 Repetitive 임. non repetitive도 일부 있음. 특정 기능 서열이 있을 수 있기에 주의깊게 분석함.
Disease related SV 확인했더니 NINL 유전자가 Asian specific SV임을 확인함. 아무래도 표준 서열에 없던게 나타나게 되는 insertion을 주의 깊게 보고 있다고.
질문 목록
- 갭이 매꿔진다는 얘기는 미래에 AK1이 GRCh38에 합쳐진다는 의미인가?
- Asian CNV 랑 비교 해 보셨는지. 한국 특이 CNV가 있는지. 본 연구에서도 일치하는지.
- AK1은 누구?
Cloud computing for Genomics #
(, KT 홍창범 박사)
유전체학 연구자를 대상으로 5년전 설문조사시 컴퓨팅파워, 소프트웨어, 알고리즘이 문제가 될 것이다 라고 함. 최근 또 했더니, 데이터 스토리지, 컴퓨팅이 가장 장벽임. 클라우드 컴퓨팅은 적절한 해결방안을 제시함.
Baylor College of Medicine는 3000여개의 지놈 분석을 DNANexus Cloud Computing을 이용해서 분석했다. Mercury라는 자체 작성 파이프라인을 이용했다. ICGC는 SeqWare를 이용, 클라우드 환경에서 데이터 분석한다.
Google Genomics는 API를 잘 갖추고, 몇줄 안되는 코드로 분석 기능 수행한다. NCI도 SevenBridge와 함께 클라우드 저장 및 분석 수행 중이다.
Google BigQuery는 대용량 데이터 저장소를 제공하는데, 1000 Genomes Project 분석데이터를 올려두고 분석할 수 있다. 인종별 allele frequency 구하고 차트그리기를 짧은 코드만으로 구현할 수 있다. (R 모듈 bigrquery 이용)
지놈 데이터를 병렬로 분석할때는 염색체별 혹은 지역별로 쪼개고 분석 후 합치기를 주로 하게 된다. 이때 안전하게 쪼개는 일이 중요함 - low complexity regions (LCRs) 혹은 Potential disassembly regions 방벙을 이용함.
지금은 Docker 이미지를 논문과 함께 제출하는 시대임. 가상화 환경을 통해 데이터 분석환경을 편리하게 만들 수 있다.
Identification of Low-Frequent Somatic Mutations for Clinical Genome Research #
(, 연세대 김상우 교수)
NGS 데이터 분석 파이프라인은 보통 다음과 같다.
- Data processing and quality control
- Variant discovery and genotyping
- Germline / somatic mutation
- Indel detection
- CNV detection
- Structural variation detection
- Repetitive DNA
- Integrative analysis
- Functional prediction
- Driver mutation
- Variant annotation
위 과정 중 variant calling 정확도는 매우 중요함. 보통의 Allele fraction distribution에 의하면 이는 Binomial distribution을 따르며, 95% 유의수준에서 35~65 사이의 값을 갖는다. 하지만 실제로 다음과 같은 원인에 의해서 low frequant 할 수 있다.
- Sample contamination
- Tumor heterogeneity
- Extreme environment
- Somatic mosaicism
그래서 만일 2/15 (read depth 15중 2개가 다른 염기일때) 다음과 같이 결론내릴 수 있다.
- 2/15: No mutation, Two errors
- 2/15: Heterozygous somatic mutation
이러한 low frequent variant에 대해 CountEst, PurityEst, Virmit와 같은 프로그램을 만들고 보고하였음.
Heterogenity alpha를 정하고, 이것이 1이면 순수 정상, 0이면 모두 암세포라고 할 때 이 alpha를 구하는 방법을 사용함. Germline + Somatic mixture model을 세우고 deletion을 확인할 수 있음 (SoloDel 프로그램)
1% 미만의 AF도 liquid biopsy로 알 수 있는가? 이는 Cell-Free DNA로 태아의 이상유무를 감별하는데도 활용될 수 있다. 하지만 생어 시퀀싱도 1% 미만은 못찾는다. depth를 충분히 높히면 가능한가? 이것만으로는 부족하다. 이를 확인하고자 확실한 데이터로 실험한 결과 0.3%의 technical artifact는 항상 나타난다. 특히 FFPE 보관 시료의 경우, G>A, C>T 변이가 많이 발견된다.
보통 이런 오류는
- library preparation (intractable)
- sequencing (quantitive)
- mapping (quantitive)
때문인데, library preparation 문제인 경우 극복이 불가능하다.
현재, 임의 두명의 deep WES 각각에서 500여개의 개인간 SNV를 찾았고, 이를 섞어서 시퀀싱하면서 낮은 빈도 allele이 어떻게 나타나는지 보는 연구를 진행중에 있음. 또한 passenger mutation for tumor immunogenetic neopeptide로 survival이 좋아지는 현상을 추가 연구중에 있음.
질문
- Haplotype phasing 처럼 섞인 AF 빈도데이터를 기반으로 암세포를 clone 별로 구분할 수 있을까? -- 있음. 관련 연구가 바로 PyClone 임.
우리는 왜 RNA-seq을 사용해서 연구해야 하는가? #
식물유전체연구는 특히 어렵다. 배체수(plodity)가 다양하고 유전체 크기도 크며, 반복서열도 매우 길다. RNA-seq 방법은 표준서열이 없어도 가능한 대표적인 전사체 연구 방법이다. 예전에는 Microarray 방식으로 수행했으며, 지금도 장단점이 있다.
Rice blast fungus(벼돌병)은 쌀에 있어서 매우 중요한 질병임. 가끔 한번씩 일어나면 큰 피해를 줌. 이를 연구하기 위해 병원체인 M. oryzae 전사체를 시퀀싱함.
M. oryzae의 질병 사이클이 잘 알려져 있음. 잎에 안착 후 침투할 수 있는지 확인 후, penetration, invasive growth 후 다시 포자를 퍼뜨림. 이를 5 단계로 나눠서 각 단계를 RNA-seq 분석함
BWA로 두 종을 분리하고, TopHat, Cufflinks로 분석 함. 곰팡이 유전자를 기준으로 연구함. 침입 후, 자기가 살기 좋도록 만드는데 관련된 유전자 탐색. Scretome, Effectors. 또한 Salicylic acid pathway 관련 유전자들을 별도로 확인
지의류(Lichen)도 공생(symbiotic relationship)의 대표적인 사례임. 곰팡이와 조류, cyanobacteria가 서로 공생함. fungi는 질소원을 제공하며, 조류, cyanobacteria는 탄소원을 제공함. 실제로 fungus가 algae, cyanobacteria를 보호하는 구조를 띠고 있음.
질문
- 곰팡이 분리는 어떻게 하는가, 분리하면 RNA-seq 의미가 없을텐데. 별도로 분리하지 않고 그대로 시퀀싱한 후, 곰팡이 유전체에 맞춰봐서 맞는 리드들만 이용함
Plant genomics for molecular breeding #
식물이라고 하면 보통 조류와 육상식물을 통칭한다. 조류, 선태류, 겉씨식물, 속씨식물 등으로 구분한다. 식물 유전체학 분야도 NGS 시퀀싱 기술에 의한 연구가 활발하다. 최초에는 BAC by BAC 시퀀싱이였으나, NGS로 확장되고 있다. 다만 식물의 경우, 지놈사이즈가 커서 유전체 분석이 쉽지 않다. RNA-seq도 유용한 연구 방법 가운데 하나이다.
식물 유전체학은 SNP 분자마커 개발, 유용유전자 동정, 표현형 분석으로 Plant breeding 기술에 기여한다.
미래농업은 다음과 같은 이유로 육종 기술의 발전이 필요하다.
- 기후 변화 - 재배 조건의 변화
- 이용 가능한 토지의 감소
- 재생가능한 자원의 투입 경비 증가
- 소비자의 요구 변화
작물요구량 증가폭이 지난 십년간 인구 12%인데 비해, 콩 소비 증가율 39%이고, 경작지 증가율은 4% 밖에 되지 않는다. 관련 기술 개발이 꼭 필요한 이유이다.
선발(selection)에는 다음과 같은 방법이 있다.
- 전통육종: 표현형 의존 선발
- 분자육종: 표현형과 효소 의존 선발, MAS
- 유전체육종: eQTL, 발현체 분석, 유전체 기반
책 식물 분자 육종 최신 기술(차세대바이오그린사업)을 참고하면 유용하다.
선도 유전체 조립 기술과 그 응용 #
선도 유전체 조립 기술은 Whole Genome de novo assembly를 의미한다. 최초 레퍼런스를 만들기 위해 하는 de novo assembly이다. 선도 유전체 관련 기술은 다양한 관련 분야 발전 등 그 기여하는 바가 크다.
다음과 같은 다양한 선도게놈프로젝트가 있다.
- G10K project
- 1000 Plant & animal genome project
- 1KP
- 1001 Genome project: 애기장대
국내 연구 사례로 다음 생물종이 있다.
- 2013 호랑이
- 2014 고래
- 2014 고추
- 2014 남극대구
밍크고래의 경우, 수명도 길고 잠수병도 없고 포유류이고 해서 중요하다. Gene family에서 카피수를 종별로 비교하는 것도 진화적 중요성이 있다.
de novo assembly는 중간 insert size를 다양하게 조절하면서 라이브러리를 만드는 것이 중요하다. BGI에서 처음으로 좋은 결과를 만들어 냈으며, 지금은 Long-read sequencing 기술을 합쳐져 더 발전중에 있다.
아메바 지놈 사이즈는 인간의 300배 정도된다.
선도지놈과제를 통해, 수명, 노화, 환경진화 연구를 할 수 있다.
variant calling 시, indel은 어렵다. local de novo assembly로 할 수 있다.
일부 종(선모충)은 염색체가 유전자 하나로 되어 있는 경우도 있다.
질문
- 밍크 고래 7종을 했다고 되어 있는데, 섞어서 하는가? - de novo assembly는 단일 개체를 기준으로 수행한다. 밍크고래도 1종을 de novo로 했고, 나머지는 이것에 맞춰서 reference mapping 했다.
NGS 기반의 맞춤형 항암 진단 마커의 개발 #
(, 바이오에이지 김양석 박사)
Issues of genomics approaches in the targeted cancer therapeutics #
(, 가톨릭대 김태민 교수)
올해 1월 오바마 Precision Medicine Initiative 시작 $215M을 연구비로. 케네디는 달정복 성공. 반면 닉슨의 전쟁 실패 - 베트남전, 암정복 실패.
암치료에는 Surgery, Chemotherapy, Radiotherapy 세가지 방법이 있으며, Precision medicine으로 발전중이다. 종합 Survival Curve가 Precision medicine에 이르러서 급격히 증가하고 있다. (20~30년) 폐암의 경우에도 환자가 맞기만 하면 Gefinitib으로 완치 가능함.
Targeted cancer therapeutics as
- Individualized medicine (not 'all-or-none')
- Precision medicine (benefit from 'genomics')
Genome-based personalized medicine - "Right Target, Right Drug for Right Patient"
NGS-Driven drugs
- BCR-ABL inhibition - Gleevec
- ERBB2 inhibition - Heceptin
- PARP inhibition (olaparib, iniparib, MK-4827, others)
- BRAF inhibition (PLX-4032)
- ALK inhibition (crizotinib)
Beyond TKI (oncogene-targeting)
- 가장 연구가 많이 됨
- Tumor suppressor gene은 타겟을 잡기 어렵다
PARP inhibitors exploting 'synthetic lethality'
Immune-theraphy 치료 반응이 다르다 - 변이 갯수로 나눠 생존분석했더니 크게 나뉨
Signatures guide drug choice (Cancer Biology Julian Downward)
TKI가 제일 잘 알려졌고 그 업스트림, 다운스터림 각각 antibody 들이 있다. RAS 가 antibody가 없음. RAS의 반대쪽 경로 약이 없음.
Glivac 이후, EGFR 타겟을 경쟁적으로 만들다.
Trends after TCGA projects --> Now the trend is "genotype-to-genotype" to "phenotype-to-genotype"
변이들을 보면 Long tail distribution.
중요한 변이는 early clonal 함.
A Big Bang model of human colorectal tumor growth - 처음에 변이가 확 생겼다가 주욱 유지됨
Computational Approaches for microRNA Studies #
(, 상명대 김기봉 교수)
1980's Ribozymes의 발견으로 RNA의 중요성이 각광받기 시작함.
ncRNAs
- microRNA - gene regulation
- long noncoding RNAs (lncRNAs) seem to be a rich source of novel function
- hidden layer of regulation
상세 구분
- Housekepping RNAs
- Small ncRNAs (200bp or less in size)
- Long cRNA (over 200bp in size)
RNA-seq으로 많이 알게 됨. 왜 ncRNA 연구가 필요한가?
- ncRNAs involve sequence specific recognition of other nucleic acids
- ncRNA is an ideal material for this role
Overview of lincRNA
- Our genome contains > 10,000 lncRNA
최근 GENCODE 보면 lnc - 15900개, Small ncRNA - 9804
인간 유전자의 약 50%가 miRNA에 의해 조절됨
microRNAs - 타겟 유전자의 3' UTR 부분에 결합하여 조절
- 1993: lin-4
- 2000: let-7
microRNA target site 유형
- 8mer site - Seed match + A1 and m8
- 7mer-m8 site - Seed match + match at position 8
- 7mer-A1 site - Seed match + A at position 1
- 6mer site - Seed match
- 3'supplementary site - Seed match with supplementary pairing
- 3' compensatory site - Seed mismatch with compensatory pairing
질문꺼리
- 서열만 보고 단백질을 코딩하는지 아닌지 알 수 있는가? 즉 ncRNA는 어떻게 예측하는지.
- 현재 수준에서 lncRNAs 2nd, 3rd 구조는 정확한가
- miRNA와 후성유전학과 직접적인 관계?
Pathway and network analysis in Genomics era #
(, Insilicogen, Inc. 노승재 박사)
http://bioinformatics.ca 에 관련 교육 내용들이 많음
2차 분석을 위한 세가지 전략
- Functional Pathway Analysis - DAVID
- Function class analysis - GSEA
- PARADIGM
DAVID - Theory component
- Hypergenometric test for calculating enrichment P-values
- Multiple test corrections
- Bonferroni
- Benjamini-Hochbrg (FDR)
hypergenometric test - Fisher's exact test (검은 공, 빨간공 뽑기)
Multiple test corrections - Simple P-value correction: Bonferroni
Benjamini-hochberg - Sort P-values of all tests, adjust p-value (divide by rank)
Q-value = minimum adjusted P-value at given rank or below
GSEA - 미리 잘 정의된 gene set 정보 MSigDB를 이용함
일반적인 경우, p-value와 q vlaue는 다음 조건에서 유의함
- FDR <= 0.25
- NORM p-value <= 0.05
Suggested Pages #
- 0.050 Hidden Markov model
- 0.025 Bioinformatics
- 0.025 June 4
- 0.025
- 0.025 March 13
- 0.025 BRIC
- 0.025 Gene set enrichment
- 0.025
- 0.025 Giyong Lee
- 0.025 Meerkat
- More suggestions...