3.5세대 유전자 가위(CRISPR/Cpf1) 논문 분석 5

- 김진수 교수 팀, Cpf1의 정확성 입증

요약: 생명과학자들은 최근 3세대를 넘어 보다 정확하고 표적에 특이적인 3.5세대 유전자 가위(CRISPR/Cpf1)를 발견하고 개발했다. 인간세포와 동식물세포의 유전자를 마음대로 교정하는데(Editing) 사용한다. 표적 DNA를 자른 후 세포 내 복구 시스템에 의해 다시 연결되는 과정에서 유전자 교정과 원하는 변이가 일어난다. 이 방식을 활용해 암과 AIDS 등뿐만 아니라 더 나아가 희귀난치병 치료나 작물•가축개량•미래식량(Clean meat) 분야에서 유전자 가위 혁명이 빠르게 확산되고 있다. 특정 유전자 부위를 정확하게 잘라 내 그 기능을 알아내는 데에도 사용되고, 쥐를 대상으로 특정 유전자를 제거/억제하거나(Knock-out) 특정 유전자를 삽입하여(Knock-in) 희귀 병을 가진 쥐를 만들기도 하는데, 종전에는 수 개월~수 년이 걸렸지만 유전자 가위를 이용하면 시간과 비용을 획기적으로 줄일 수 있기 때문이다. 이렇듯 인류는 세포 안에 있는 특정 유전자나 염기를 골라서 제거하거나 정상으로 바꿀 수 있는 유전자 가위 기술을 보유했다. 

본 보고서에서는 3.5세대 유전자 가위에 대한 논문 공개 순으로 내용을 살펴보고 분석해 인사이트를 제공하고자 한다. 아울러 논문분석이기 때문에 오류가 있을 수도 있다는 점을 알려드리는 바이다.

글 싣는 순서
1장. Cpf1 발견의 과정 
2장. 펭 장 교수 팀, 새로운 CRISPR/Cpf1의 발견과 인간 세포대상 연구결과(2015) 

3장. CRISPR/Cpf1유전가 가위 전쟁(2016)
3-1. 김진수 교수 팀, 쥐의 표적 돌연변이유도와 털 색이 다른 쥐의 생성
3-2. 서울아산병원 및 울산의대, 녹아웃(Knockout) 마우스의 생성

3-3. 김진수 교수 팀, Cpf1의 정확성 입증 
3-4. 하버드대 케이스 정 박사 팀, Cpf1의 정확성 입증
4장. 네이처 바이오테크놀러지의 Cpf1의 정확도를 다트게임으로 묘사(2016)
5장. Discussion


3장. CRISPR/Cpf1유전가 가위 전쟁(2016)

2016년 8월, 유전자 교정에 대해 10년 가까이 논문을 다룬 생명과학 및 화학분야 국제학술지 ‘네이처 바이오테크놀로지(Nature biotechnology)’에는, 앞서 살펴본 펭 장 교수가 밝힌 3.5세대 CRISPR/Cpf1의 메커니즘(Zetsche et al., Cell, 25 Sep 2015)을 활용한 연구성과 3편이 실렸는데, 공교롭게도 모두 우리나라 연구팀의 연구성과였다.

기초과학연구원(IBS) 유전체교정연구단 김진수단장(서울대 화학과 교수) 연구팀의 논문이 2편, 그리고 서울아산병원 아산생명과학연구원 및 울산의대의 연구팀의 논문이 1편 등이다. 3편의 논문들 중 2편은 807~808페이지와 808~810페이지에 실린 2페이지의 논문들이고, 863~868 페이지에 실린 논문은 김진수 교수 팀의 논문이다. 이들 3편은 2016년 6월 6일에 온라인판에 공개되었던 논문들이다. 

3-3. 김진수 교수 팀, Cpf1의 정확성 입증 

기초과학연구원(IBS) 유전체교정연구단 김진수 단장(서울대 화학과 교수, 교신저자)을 중심으로 서울대의 연구팀이 계속해서 “전체-게놈 분석을 통한 사람 세포에서의 Cpf1 엔도뉴클레아제의 특이도 검증(Genome-wide analysis reveals specificities of Cpf1 endonucleases in human cells)”(Kim et al., Nature Biotechnology, Aug 2016)이란 논문을 발표했다. 새로운 절단효소를 장착한 신형 유전자가위인 크리스퍼 Cpf1(CRISPR Cpf1)의 정확한 성능을 자체 개발한 실험방법으로 처음 입증한 것이다. Cpf1 단백질은 Cas9 단백질과 다른 여러 특성으로 학계에서 크게 주목을 받고 있으나 표적 위치를 정확히 자르는지, 비표적 위치에서 오작동하지 않는지는 전혀 알려지지 않았었다. 앞서 살펴본 펭 장 교수 팀도 이를 정확히 밝히지는 못했었다(Zetsche et al., Cell, 25 Sep 2015) 

논문 요약 – crRNA와 표적 DNA사이의 불일치(mismatches)를 분석한 결과 3’ PAM-먼 영역(3′ PAM-distal region)에서는 Cpf1은 1~2개의 미스매치를 허용할 수 있는 반면, 5’ PAM-근접 영역(5′ PAM-proximal region)에서는 허용이 안 된다는 것을 발견했다. 이것은 앞서 살펴본 펭 장 교수 팀이 밝힌 내용과 얼핏 보면 같은 것 같지만(Zetsche et al., Cell, 25 Sep 2015) 다른 내용이다.

펭장교수팀은5’-말단에 위치한 PAM으로부터 대략 처음 5-nt 내에 매치가 있어야 절단 효율이 좋다는 것을 발견했지만, 김진수 교수 팀은 PAM으로부터 1-17 번 염기들에서 단일(single) 불일치를 허용하지 않았으며, 1-18 번 염기들에서는 이중(double) 불일치를 허용하지 않아 절단 능력이 완전히 손실되었다는 것이다.

따라서 펭 장 교수 팀이 제안한 5-nt를 얼기설기 잘라(a 5-nt staggered cut, 엇갈림 절단), 만약 표적 유전자가 표적 사이트에서 돌연변이 되었다면, 아직도 다시 자를 수 있는(re-cut) 여지가 남아, 보다 정확한 교정이 일어나도록 다양한 방법과 기회들을 제공한다는 제안은 사실이 아님을 입증한 것이다. 

돌연변이가 1-17 또는 1-18 위치에서 단일 혹은 이중으로 일어나면 다시 자를 수 없는 Cpf1의 특이성을 발견한 것이다. 이와 더불어 3’-말단의 먼 영역에서는 1~2개의 미스매치가 허용되는 것을 추가로 발견했다. in vitro 에서 8개의 Cpf1 뉴클레아제들을 사용하여 절단한 사이트들의 * 전체-게놈 분석을 절단게놈 시퀀싱 기법(Digenome-seq)을 이용하여 분석한 결과, 인간게놈(human genome)에서 하나의 crRNA가 절단하는 사이트들은 LbCpf1이 6 사이트들을 자르고, AsCpf1가 12사이트들을 자른다는 것을 발견했는데, 이는 Cas9이 90 곳 이상을 자르는 것보다 훨씬 적은 것이다. 그만큼 Cas9보다 정확한 표적 사이트들을 자른다는 것을 시사하는 것이다.

* 전체 유전체(게놈) 시퀀싱(Whole Genome Sequencing, Genome-Wide Sequencing) 및 절단유전체(게놈) 시퀀싱(Digenome-seq) – DNA는 아데닌(A), 시토신(C), 구아닌(G), 티민(T), 4종류의 염기로 구성되어 있다. 전체 유전체 시퀀싱은 DNA의 전체 염기서열 순서를 규명하는 기법이다. 참고로 쥐는 20쌍의 염색체에 약 25억개의 염기 쌍을 가진 반면 사람은 23쌍의 염색체에 약 32억개의 염기 쌍으로 구성되어 있다. 절단유전체 시퀀싱 기법은 표적 유전자 가위 처리 전과 후를, 유전체 시퀀싱 혹은 전체 유전체 시퀀싱 방법으로 비교해, 표적 유전자의 잘린 위치의 염기서열과 비-표적 위치의 잘린 염기서열을 구별하는 방식이다. 따라서 표적 유전자가 정확히 잘렸는지 비-표적 유전자까지 잘렸는지 정확성 혹은 특이성 및 오작동 확률을 판단할 수 있다.

또한 앞서 살펴본 펭 장 교수 팀이 AsCpf1과 LbCpf1이 인간배아신장 HEK293FT 세포들에서 게놈 교정을 활발하게 매개하고 있다는 것을 발견했지만(Zetsche et al., Cell, 25 Sep 2015), 보다 구체적으로 몇 사이트들을 자르는지 밝혀낸 것이다. 또한 플라스미드 대신 사전에 조립되고 재조합된 Cpf1 리보핵산단백질(RNP, ribonucleoproteins)이란 혼합체를 주입하여 비-표적 효과들(Off-target effects)을 획기적으로 줄일 수 있었다는 연구 내용이다.

따라서 앞서 살펴 보았던 김진수 교수팀의 논문(Hur et al., Nature Biotechnology, Aug 2016)에서도 RNP를 사용했는데, 2016년 6월 6일의 NBT 온라인판으로 동시에 발표되었다는 시점에서 새로운 연구방법론이라 할 수 있다. 

특히 김진수 교수 팀은 그전의 논문에서도 밝혔듯이 이번 논문에서도 유전자 가위를 RNA가 가이드하는 인공 뉴클레아제(RNA-guided engineered nucleases, RGENs) 혹은 RNA가 가이드하는 인공 엔도뉴클레아제(RNA-Guided ENdonucleases, RGENs)라고 소개하고 있는데, 이것이 바로 ‘RNA유전자가위’이다. 

우선 김 교수 팀은 Cpf1의 잠재력을 이용하기 위해, 이 RGEN의 전체-게놈에 걸친 표적 특이성을 특성화 할(char­acterize the genome-wide target specificities) 필요가 있었다. 첫째, crRNA를 엔코딩한 플라스미드 혹은 PCR 증폭산물로 형질 주입된 HEK293 세포들에서 Cpf1 매개 게놈 교정의 효율성을 비교했다(<그림 1a>). 그 결과 표적 돌연변이유도의 빈도(frequency of targeted mutagenesis)가 증폭산물보다는 플라스미드를 사용했을 때 3 개의 내인성 표적 사이트들에서 2 ~ 30 배 증가한다는 것을 발견했다. 이것은 증폭산물이 부정확한 가이드 RNAs를 만들어 내고 그 결과 비-표적 DNA를 절단할 수 있는 가능성이 있으므로, 연구팀은 crRNAs를 엔코딩한 플라스미드를 사용했다. 

1▲<그림 1a> Cpf1을 이용한 인간 세포에서의 게놈 교정. (a) crRNA를 엔코딩한 플라스미드 또는 PCR 증폭산물을 사용해 HEK293T 세포에서의 게놈 교정의 예. Indel 빈도는 T7E1 분석 및 차세대 시퀀싱(NGS, next-generation sequencing)으로 측정됨. 증폭산물보다는 플라스미드를 사용했을 때 3 개의 내인성 표적 사이트들에서 2 ~ 30 배 증가한다는 것을 발견. 화살표는 절단 DNA 밴드들을 나타냄. Image: Kim et al., Nature Biotechnology, 2016

그 다음 종분화적 상동성들(오솔로지, orthologs)을 조사하여 펭 장 교수 팀이 제안한 4개의 Cpf1을 찾았는데, Lachnospiraceae bacterium (LbCpf1), Acidaminococcus sp. (AsCpf1), Francisella novicida (FnCpf1)와 Moraxella bovoculi 237 (MbCpf1)이다(<그림 1b>). 이 4가지 Cpf1 중 LbCpf1과 AsCpf1은 5′-TTTN-3′ PAMs을 인식하여 인간 세포들에서 게놈 교정을 성공적으로 이끄는 반면, FnCpf1과 MbCpf1은 5′-TTN-3′ PAMs을 인식하지만 비-효율적이라고 펭 장 교수가 제안했었는데(Zetsche et al., Cell, 25 Sep 2015), 이것을 이번에 보다 확실히 검증한 것이다. 

연구팀은 4개의 Cpf1과 crRNA를 엔코딩한 플라스미드들을 모두 함께 다양한 조합 형태로 HEK293 세포 내로 공동-형질 주입시켰다(co-transfected). 다시 말해 4개의 AsCpf1+LbCpf1+ FnCpf1+MbCpf1과 crRNA를 동시에 엔코딩한 플라스미드들을 멀티 조합으로 모두 함께 세포 내로 주입한 것이다. 그러면 각각의 Cpf1은 동족의 crRNA와 짝을 이룰 때 가장 효율이 좋았다. 하지만 AsCpf1와 LbCpf1이 가장 효율적인 엔도뉴클레아제 역할을 했다(<그림 1b>).

2▲<그림 1b> crRNA 직교성을 이루는 4 개의 Cpf1 오솔로지들(crRNA orthogonality with four Cpf1 orthologs). 4개의 Cpf1 오솔로지들을 엔코딩한 플라스미드와 crRNAs를 엔코딩한 플라스미드를 다양한 조합으로 HEK293T 세포들에 형질 주입함. 인델 빈도는 표적 심층 시퀀싱(targeted deep sequencing)으로 측정. 오류 막대는 평균의 표준오차(SEM, s.e.m., Standard Error of the Mean)를 나타냄. Image: Kim et al., Nature Biotechnology, 2016

연구팀은 계속해서 염색체 19번의 DNMT1, 염색체 2번의 EMX1, 염색체 3번의 CCR5, 염색체 11번의 HBB 등 10 개의 염색체 표적 사이트들에서 LbCpf1, AsCpf1 및 SpCas9에 의한 표적 돌연변이의 빈도들을 비교했다. 각 사이트에는 Cpf1(5'-TTTN-3') 및 SpCas9(5'-NGG-3')에 의해 인식되는 두 개의 PAM 서열들을 포함하고 있는 곳이다. 그 결과 각각의 RGEN은 HEK293 세포들의 10개의 사이트들에서 광범위한 돌연변이 빈도들을 보였다. SpCas9는 평균 32 ± 4 %의 돌연변이 율(mutation rate)로 Cpf1보다 효과적이었다. AsCpf1과 LbCpf1은 SpCas9과 거의 동일한 빈도로 각각 19 ± 6 %와 20 ± 5 %의 돌연변이 빈도들을 보였다(<그림 1c>). 

따라서 돌연변이유도(mutagenesis)의 효율 관점에서 보면, 인델 빈도가 가장 높은 Cas9이 가장 우수한 유전자 가위가 될 것이고 그 다음 LbCpf1 -> AsCpf1 순이라고 평가할 수 있을 것이다. 그러나 이것은 어디까지나 식물이나 곤충 등의 관점에서 말하는 것이고, 사람의 유전자 교정용으로 사용한다면 효율도 중요하지만 정확하게 잘라야 할 곳만 잘라내는 특이도(Specificity)가 더욱 중요한 것이다. 유전자 가위에 그러한 선택적 특이도가 확보되지 못한다면 엉뚱한 곳에 돌연변이를 유도해서 오히려 부작용을 겪게 될 수도 있기 때문이다. 암을 치료하는 항암제를 생각하면 특이도가 왜 중요한지 금방 이해할 수 있다. 그래서 중요한 것은 인델의 빈도가 아니라 정확성과 특이성이다.

3▲<그림 1c> HEK293T 세포들 내 10 개의 내인성 표적 사이트들에서 LbCpf1, AsCpf1 및 SpCas9로 얻은 돌연변이 빈도들. 각각의 표적 사이트에는 두 개의 PAM 서열들을 포함하고 있는데, 하나는 Cpf1에 의해 인식되고 다른 하나는 SpCas9에 의해 인식됨. 인델 빈도들은 표적 심층 시퀀싱으로 측정. 평균 인델 빈도들은 ± s.e.m.으로 표시(n = 10개의 표적 사이트들). Image: Kim et al., Nature Biotechnology, 2016

LbCpf1과 AsCpf1은 5'-TTTN-3' PAM 서열을 포함한 27-뉴클레오티드(nt) 표적 DNA 서열들을 인식하고 절단하는데, 5'-TTTN-3' 다음에는 crRNA 서열들과 매치되는 23-nt의 프로토스페이스 서열들이 뒤 따른다. 

그 다음 연구팀은 임의로 3 개의 내인성 표적 사이트들을 선택하고, 하나(single) 또는 두 개(double)의 불일치들(돌연변이, mismatches)이 있는 crRNA를 엔코딩한 일련의 플라스미드를 HEK293 세포에 형질 주입시켜 Cpf1이 표적 DNA 서열들과 crRNA 서열들 사이의 불일치를 허용할 수 있는지(tolerate) 여부를 조사하였다. 

그 결과 특히, DNMT1-4 사이트의 경우, Cpf1은 1-17 번 위치들에서 단일 불일치를 용납하지 않았다(5'->3' 방향으로 1-23 번 염기들 중). 위치 1-18 번에서의 이중 불일치에서는 Cpf1 절단 활동이 일어 나지 않아, 절단 능력이 완전히 손실되었다(<그림 2b>). 이러한결과는 Cpf1이 인간 세포에서 매우 특이적이지만(highly specific), PAM-에서 먼 말단(PAM-distal end)에서는 미스매치가 허용되고 있다는 것을 시사하는 것이다.. 

4▲<그림 2b> Cpf1의 특이도(Specificity of Cpf1). DNMT1-4 사이트의 경우, Cpf1은 1-17 번 위치들에서 단일 불일치를 용납하지 않음(5'->3' 방향으로 1-23 번 염기들 중). 위치 1-18에서의 이중 불일치에서는 Cpf1 절단 활동이 일어 나지 않아, 절단 능력이 완전한 손실을 초래함. 빨강색으로 표시된 염기들이 불일치(돌연변이). 인델 빈도들은 표적 심층 시퀀싱으로 측정. 오류 막대는 평균의 표준오차(SEM, s.e.m.)를 나타냄. Image: Kim et al., Nature Biotechnology, 2016

그 다음 연구팀은 2014년에 자체 개발한 비-표적 사이트들을 검색해내는 빠르고 다재 다능한 알고리즘인 Cas-OFFinder(Bae et al., Bioinformatics, 2014)를 사용하여, 앞서 살펴본 10 개의 표적 사이트들과는 다른 인간 게놈 내의 모든 잠재적인 표적 사이트들을 찾아냈다. 그 결과 총 130 개의 비-표적 사이트들을 발견하였다. 그리고 표적 심층 시퀀싱을 이용하여 HEK293 세포들에서 이들 비-표적 사이트들이 절단되었는지의 여부를 측정했다. 

그 연구결과 중, 예를 들면 2개의 표적 사이트인 DNMT1-3와 다른 서열을 가진 69개의 비-표적 사이트들과, 표적 EMX1-2와 다른 서열을 가진 18개의 비-표적 사이트들을 찾아 냈고, 이 둘을 합친 총 87개의 비-표적 사이트들에서 3개에서 많게는 5개까지의 뉴클레오티드 미스매치들(돌연변이들)이 일어나, 비-표적 인델을 유도했는데, 그 인델의 빈도를 보면 0.04~0.7%로, 2개의 표적 사이트들에서의 절단 결과인 인델 빈도보다 훨씬 적은 수치이다. 표적에서의 인델 빈도는 LbCpf1이 34%(DNMT1-3)와 25%(EMX1-2)이었고, AsCpf1이 47%(DNMT1-3)와 13%(EMX1-2)였다. 

Cpf1은 다른 두 개의 표적 사이트들(CCR5-1 및 HPRT-1)의 서열과 다른 비-표적 사이트들에서 단 하나의 미스매치 만을 보였다. 따라서, LbCpf1은 두 개의 표적 사이트들에서 각각 19.32%(CCR5-1) 및 10.39%(HPRT-1)의 인델 빈도를 보인 반면, 단 하나의 미스매치 비-표적 사이들에서는 각각 0.42%(CCR5-1) 및 0.04%(HPRT-1)의 인델을 유도하여, 48 배(19%/0.4%)와 250 배로(10%/0.04%), 표적과 비-표적을 판별해냈다. 전체적으로는 130개의 비-표적 사이트들 중 9개 비-표적 사이트들에서 1% 미만의 인델 빈도가 검출되었다. 이것은 Cpf1이 인간 세포들에서 매우 특이적이라는 것을 확인하는 것이다.

5▲<사진2> Cpf1 단백질과 크리스퍼 RNA 혼합체인 RNP를 이용한 정확성 증가. 본 연구에서는 크리스퍼 Cpf1 유전자 가위를 세포에 효율성을 높여 전달할 수 있는 방법을 발견함. 연구진은 크리스퍼 Cpf1을 플라스미드 DNA를 통해 세포 내에 주입하여 세포 내에서 단백질 및 RNA형태로 발현되게 하는 기존의 방법(좌) 대신, Cpf1 단백질과 크리스퍼 RNA 혼합체 형태인 RNP로 직접 세포에 전달하는 방법(우)을 통해 비표적 위치를 자르지 않고 표적 위치만 정교하게 자를 수 있음을 입증하였음. Image: Kim et al., 기초과학연구원(IBS) 보도자료, "크리스퍼 유전자가위 교정 성능 높아졌다 – IBS, 새로운 절단 효소 ‘Cpf1 ’장착한 신형 유전자가위 정확성 입증-"(7 Jun 2016).

그 다음 연구팀은 시험 관내(in vitro) 모든 전체-게놈 Cpf1 비-표적 사이트들을 비-편파적인 방법으로 확인하기 위해, 총 8 개의 효율적인 Cpf1 뉴클레아제를 사용하여 절단게놈시퀀싱(Digenome-seq) 기법으로 분석하였다. HeLa 세포로부터 분리된 무-세포 게놈 DNA(Cell-free genomic DNA)를, 고농도(300 nM Cpf1 및 900 nM crRNA)에서 AsCpf1 및 LbCpf1를 사전 조립되고 재조합된 혼합체인 리보핵산단백질(RNPs)을 주입하고 분해한 다음, 그 다음 전체-게놈 시퀀싱(WGS, whole-genome sequencing)으로 비교 분석했다. In vitro 내 표적과 비-표적 절단 사이트들에 상응하는, 서열 판독의 무작위 정렬이 아닌 균일한(uniform) 정렬이 컴퓨터 계산적으로 확인되었다.

그 결과 Cpf1은 in vitro 내에서 1번에서 23번까지의 염색체 DNA의 절단 효율이 1~46개 사이트들에서 매우 특이적임을 나타냈다(<그림 3a.b>). 특히, 심층 서열 분석으로 확인된 8 개의 모든 표적과 8개의 모든 비-표적 사이트들이 절단게놈 시퀀싱에 의해 포착되었다(<표 S2>).

6▲<그림 3a.b> 절단게놈 시퀀싱(Digenome-seq)을 사용하여 Cpf1 및 SpCas9 RGENs의 전체-게놈 특이성 분석. Cpf1의 정확성을 측정하기 위해 전체-게놈 시퀀싱과 절단게놈 시퀀싱을 이용해 각 유전자 가위의 표적 위치와 비-표적 위치를 찾고 비교했음. 과녁처럼 생긴 이미지는 각각 다른 표적의 위치를 나타냄. 그래프 내의 회색은 대조군이고, 바깥쪽 노란색은 기존에 사용했던 SpCas9, 그 안 쪽 빨간색(주황색)은 AsCpf1, 더 안쪽의 파란색(하늘색)은 LbCpf1임. 그래프에서 검은색 막대가 의미하는 것은 유전자 가위의 표적 위치 혹은 비-표적 위치의 후보인데, 파란색(LbCpf1)과 주황색(AsCpf1)은 왼쪽 상단의 빨간색 화살표로 표시된 염색체 19번의 DNMT 표적 위치에만 그래프 피크가 있는 것을 확인할 수 있음. 반면, 노란색의 경우 상대적으로 검은색 막대가 높게 표시된 곳이 여러 곳임. 이는 곧 Cas9 단백질에 비해 Cpf1 단백질이 표적 위치에 좀 더 특이적으로 작용함을 알 수 있고, 정확성이 더 높다고 할 수 있음. 맨 안쪽 회색의 별표는 손상되지 않은 게놈 DNA(the intact genomic DNA)에서 발견된 하나의 가짜-양성 위치(one false-positive site)를 나타냄. Image: Kim et al., Nature Biotechnology, 2016

In vitro에서 절단 사이트들의 숫자는, 모노플렉스 절단게놈 분석(monoplex Digenome-seq analysis)을 통해, LbCpf1이 표적과 비-표적에서 6 ± 3 사이트를, 그리고 AsCpf1이12 ± 5 곳들을 자르는 것으로 검증 되었는데, 이는 연구팀이 그전에 연구한 멀티플렉스 절단게놈 분석을 통해 밝힌 SpCas9이 90 ± 30 곳들을 자르는 숫자 보다 훨씬 적은 숫자이다. 그만큼LbCpf1이 적은 곳들을 자르지만 정확하게 6개의 표적 사이트들을 자르고 3개의 비-표적 사이트들을 잘라 보다 더 특이적으로 자른다는 것을 의미하는 것이다(<그림 S3>).

7▲<그림 S3> 절단게놈 시퀀싱에 의해 포착된 LbCpf1, AsCpf1, SpCas9의 각각의 표적과 비-표적을 포함한 절단 사이트들. LbCpf1이 가장 정확함. 그래프를 보면 Cpf1 단백질이 그래프에서 차지하는 수치와 Cas9 단백질이 보여주는 수치가 큰 차이가 난다는 것을 확인할 수 있음. 이는 Cpf1 단백질이 Cas9 단백질에 비해 정확성이 높음을 볼 수 있음. 이번에 연구한 절단 사이트들은 LbCpf1 (n = 8), AsCpf1 (n = 8), SpCas9 (n = 2)와 그 전의 SpCas9 (n = 11). Image: Kim et al., Nature Biotechnology, 2016

자 이번에는 비-표적 효과를 줄이기 위해 플라스미드와 Cpf1 RNPs들의 효과를 비교했다. 그 전의 연구결과인 Cas9 RNP를 바탕으로 Cpf1과 crRNA를 혼합한 RNP 형태로 사용하면, 세포 내에 들어 있는 단백분해효소(endogenous protease)나 RNA 분해효소(RNase)에 의해서 신속히 분해가 가능해져, 비-표적(off-target) 확률을 낮출 것이란 가설이었다. Cpf1 단백질은 DNA보다 빨리 분해되기 때문에 DNA를 자를 충분한 시간적 여유가 없어, 표적 사이트 이외의 비-표적 사이트를 자를 시간이 없으므로, 비-표적(표적 이탈) 효과를 줄일 수 있다. 연구결과 Cpf1 RNPs들은 4개의 비-표적 사이트들(OT 3-6-12-16)에서 기본적인 서열 오류를 넘지 않는 수준으로(<0.01%, basal sequencing error levels) 인델을 유도하지 않았다(<그림 3f>). 

Cpf1을 플라스미드 DNA 형태로 세포 내에 주입하는 방법 대신에 Cpf1 단백질과 crRNA 혼합체 형태인 RNPs로 직접 세포에 전달하면 비-표적 위치를 자르지 않으면서 표적 위치에서만 7.5배에서 최대 141.9배 더 정교하게 자를 수 있음을 입증하였다. 

8▲<그림 3f> 플라스미드 형태로 도입시켰을 때 보다 RNPs로 주입했을 때 비-표적 인델 수치가 훨씬 낮아지는 것을 볼 수 있음. Image: Kim et al., Nature Biotechnology, 2016

9▲<그림 4d> Cpf1 돌연변이에서는 Cas9과 비교해서 한 개의 뉴클레오티이드 단위의 삽입이 거의 일어나지 않음. 특히 Cpf1에서는 뉴클레오타이드의 삽입보다는 주로 제거가 일어남. (n = 10 target sites). Image: Kim et al., Nature Biotechnology, 2016

연구팀은 또한 LbCpf1, AsCpf1 및 Cas9이 서로 다른 교정된 서열을 유도하고 있음을 발견하고, 단일 염기 삽입(insertions)은 Cpf1 에서는 매우 드물게 유도되고 있다는 것을 발견했다. 유전자 가위 작동 결과에 따른 차이가 고스란히 DNA에 남아 있게 되는데, 이러한 특성이 마치 서명처럼 고유한 패턴으로 보이기에 이를 돌연변이서명(mutation signature)이라고 부른다. 그런데 그러한 돌연변이 서명이 Cpf1 또는 Cas9이냐에 따라서도 다르게 나타날 수 있다. <그림 4d>는 이러한 경향을 분석한 자료로 Cas9에 비해 Cpf1에서는 주로 유전자의 결실(제거)가 일어나는 것을 볼 수 있다. 전반적으로 보면 제거가 우세적임을 알 수 있는 내용이다. 

마지막으로 단백질을 만드는 유전자의 시퀀스에서 3-nt, 6-nt, 9-nt의 뉴클레오티드 변동이 프레임 맞게 돌연변이가 생기는지(in frame) 그렇지 않은지도(out of frame) 단백질 코딩 유전자를 제어하는데 매우 중요한 부분이다. 연구팀은 3-nt, 6-nt, 9-nt 또는 다른 트리플 뉴클레오티드 조합 결실들(other triple nucleotide combination deletions)에 의해 야기된 인-프레임(in-frame) 돌연변이들은 Cas9 보다는 Cpf1에 의해 유도될 가능성이 더 높다는 것을 발견했다. 다시 말해 Cpf1은 Cas9에 비해 프레임이 맞게 잘려질 확률이 높다는 것이다. 특정단백질을만들수있는유전자를단순히불활성시킬것인지, 프레임에 맞춰 새로운 단백질로 치환할 것인지에 따라 프레임과 관련된 유전자 가위의 돌연변이 서명은 매우 중요한 고려사항이 될 수 밖에 없다는 것이다.

10▲<그림 4e> Cas9에 비해 Cpf1에서 상대적으로 프레임에 맞게 잘려서 야기되는 돌연변이(indels) 비율이 높음. (n = 10 target sites). Image: Kim et al., Nature Biotechnology, 2016

 

크기변환_사본-10632695_637493523030856_2757249799481243589_n차원용 소장/교수/MBA/공학박사/미래학자

아스팩미래기술경영연구소(주) 대표, (전)국가과학기술심의회 ICT융합전문위원회 전문위원, 국토교통부 자율주행차 융복합미래포럼 비즈니스분과 위원, 전자정부 민관협력포럼 위원, 국제미래학회 과학기술위원장