DNA에 ‘PC OS’와 ‘영화’를 디지털로 저장하다

- 디지털 코드와 DNA 코드의 새로운 융합 알고리즘 시대 열어

미국 콜롬비아 대의 컴퓨터과학과, 공대, 시스템생물학과와 뉴욕의 뉴욕게놈센터의 과학자들이 컴퓨터 운영시스템(OS)과 영화를 DNA에 저장하는데 성공했다. 

이 새로운 코딩 방법은 DNA분자의 저장 능력을 극대화하여, 앞으로는 스마트폰이 아닌 DNA에 스트리밍 비디오나 게임을 코팅하는 새로운 알고리즘 시대를 열 것으로 기대하는데, 바로 DNA를 이루는 아데닌(A), 시토신(C), 구아닌(G), 티민(T)이라는 4개의 염기에 분산 저장한다면 보다 많은 정보들을 코딩 할 수 있을 것으로 기대하고 있다. 

과학자들은 DNA의 A-C-T-G에 저장하는 기술을 데모했는데, 신뢰도도 높은 것으로 나타났다. 연구 결과는 사이언스 지에 <DNA샘(분수)은 강건하고 효율적인 스토리지 구성을 가능케 해(DNA Fountain enables a robust and efficient storage architecture)>라는 논문을 발표했다(Yaniv Erlich, Dina Zielinski, Science, 03 Mar 2017; Science Daily, 2 Mar 2017).

▲ 엘리치(Yaniv Erlich)와 지에린스키(Dina Zielinski) 두 연구원들이 DNA분자의 저장 능력을 극대화하는 새로운 코딩 기술을 설명하고 있다. Credit: New York Genome Center. 
▲ 엘리치(Yaniv Erlich)와 지에린스키(Dina Zielinski) 두 연구원들이 DNA분자의 저장 능력을 극대화하는 새로운 코딩 기술을 설명하고 있다. Credit: New York Genome Center. 

따라서 인간은 조만간 하드드라이브나 마그네틱 테이프에 저장하는 것보다 더욱 많은 데이터를 저장할 수 있을 것으로 기대되는데, 바로 자연의 오래된 숙원인 대용량의 정보저장의 문제를 바로 DNA가 그 최적의 해결책(솔루션)으로 등장하고 있다. 

DNA는 가장 최적의 정보 스토리지이다. 왜냐하면, 최근 스페인의 한 동굴에서 발견된 430,000년 전의 인간 조상의 뼈나 그 이외의 동굴에서 발견된 조상의 뼈에서 잘 보여주듯이, 신선하게, 냉동으로, 건조하게 잘 보관된다면 DNA에 저장된 유전 정보들은 수십만 년이 흐른다 해도 그대로 보존되기 때문이다. 

엘리치(Yaniv Erlich)는 “DNA는 시간이 지나도 카세트 테이프나 CDs처럼 퇴화하지 않는다. 더군다나 쓸모가 없어지지 않는다”라고 말했다. 그래서 최적의 정보 저장 매체라는 것이다.

엘리치(Yaniv Erlich)와 지에린스키(Dina Zielinski) 두 연구원들은 DNA에 엔코딩(encode or write) 하기 위해 6개의 파일을 선정했다. (1) 컴퓨터 OS, (2) 많은 사람들이 최초의 영화로 알고 있는 ‘시오타 역에 도착하는 기차(Arrival of a Train at La Ciotat, 1895)’라는 1896년에 상영된 프랑스 영화(필름), (3) 50달러짜리 아마존 선물 카드(a $50 Amazon gift card), (4) 컴퓨터 바이러스, (5) 1972년과 1973년에 발사된 우주 탐사선 파이어니어 10호와 11호에 장착된 금속판으로, 인류로부터의 메시지를 그림으로 적은 파이어니어 금속판(Pioneer plaque)에 새긴 정보들, (6) MIT에서 정보 이론(information theory) 창시자 중의 하나인 클로드 섀논(Claude Shannon)의 1948년 연구 등 6가지다.

F1.large

연구원들은 6개의 파일들은 마스터 파일로 압축하고, 그 다음 데이터를 0과 1의 이진 코드의 짧은 줄들(short strings of binary code)로 나눴다. 그리고 파운틴(분수) 코드(fountain codes)라 불리는 삭제수정코드 알고리즘(an erasure-correcting algorithm)을 사용해, 무작위로 짧은 줄들을 소위 말하는 작은 물방울들(droplets)로 포장했다. 그리고 각각의 물방울 안에 있는 0s과 1s들을 DNA를 이루는 네 개의 문자들, 즉 염기들(A-C-T-G)로 맵핑했다. 이 과정에서 삭제수정코드 알고리즘은 A-C-T-G 합성에서 에러를 일으키는 염기를 삭제시켰고, 나중에 파일들을 다시 모으기 위해 각각의 물방울에 식별 기호(줄무늬)의 바코드를 붙였다.   

이렇게 해서 연구원들은 72,000개의 DNA 가닥(strands)의 디지털 리스트를 만들었는데, 각각의 가닥은 200개의 염기들로 구성된 긴 길이로, 이것을 텍스트 파일로 변환해 샌프란시스코의 DNA-합성 스타트업 기업인 트위스트 바이오사이언스(Twist Bioscience)로 보냈다. 바이오사이언스는 디지털 데이터를 바이오 데이터(biological data)로 전환하는 전문기업이다. 2주 후에 연구원들은 미세한 DNA 분자들로 구성된 작은 병을 받았다. 

연구원들은 파일들을 불러내고 DNA가닥을 읽기 위해 최근의 서열분석기술을 사용했으며, 동시에 소프트웨어를 사용했는데 이는 유전 코드를 다시 이진 코드로 번역해주는 것이다. 그 결과 연구원들은 오류 하나 없이 그들의 파일들을 100% 불러내고 읽었다고 논문은 적고 있다. 

연구원들은 또한 중합효소연쇄반응(PCR, Polymerase chain reaction)을 통해 DNA 샘플을 증폭시키는 코딩 기술로 파일을 무한대로 복사할 수 있는 연구도 데모했는데, 이렇게 해서 생성된 복사한 파일들, 설사 복사본의 복사본도, 무제한으로 복사된 파일들도 오류 없이 다 불러내어 읽는데 성공했다. 

결국 연구원들은 한 그램의 DNA 위에(a single gram of DNA) 215페타바이트의(페타는 테라의 1000배)의 데이터를 저장 할 수 있었는데, 이는 그 전에 논문을 발표한 선구자들인 하버드대의 조지 처치(George Church)나 유럽생물정보학연구소(European Bioinformatics Institute)의 닉 골드만(Nick Goldman)과 이완 비르니(Ewan Birney)의 연구결과보다 100배 이상 많은 데이터이다. 엘리치(Yaniv Erlich)는 “우리는 이것이 여태까지 개발된 최고 집적도의 데이터-스토리지 디바이스(highest-density data-storage device ever created)라고 믿습니다”라고 말했다.

(참고) 2015년 10월말까지 전세계의 디지털 데이터를 다 합치면 얼마나 될까? 과학잡지 사이언스 데일리는 영국 셰필드대(University of Sheffield)가 개발한 소리(Sound)에 저장하는 소리 디스크(Dean & Hayward et al., Applied Physics Letters, 08 Oct 2015)를 소개하면서 전세계의 데이터는 2.7 제타(10의 21승)라고 보도했다(Science Daily, 3 Nov 2015). 이것은 전세계의 빅 데이터이다.

그러나 약점도 있다. DNA는 4개의 문자(A-C-T-G)로 이루어져 있는데, 여기에 0과 1의 이진수를 코딩하는 것이다. 아예 4진수의 알고리즘이 개발되지 않는 한 확장하는데 한계가 있다. 그 전 논문에서 각각의 염기에 저장할 수 있는 최대치는 1.8 비트이다. 이번에 발표한 논문의 캐퍼는 1.6비트이다. 이를 더 늘리는 방법이 고안되어야 한다. 비용 또한 문제이다. 연구원들은 DNA를 합성하는데 7,000달러나 사용했고, 그것을 읽어내는데 2,000달러를 추가로 사용했다. 그러나 도전이 창의요 창조다. 언젠가는 우리 몸의 세포 전체가 기억 장치인 만큼, 생물학적 메커니즘을 밝혀 생물학 알고리즘의 전혀 다른 스토리지이지만, 지금의 이진수와 호환되는 하이브리드에 도전해야 한다. [정리 김들풀 기자  itnews@itnews.or.kr]

 

크기변환_사본-10632695_637493523030856_2757249799481243589_n차원용 소장/교수/MBA/공학박사/미래학자

아스팩미래기술경영연구소(주) 대표, 국가과학기술심의회 ICT융합전문위원회 전문위원, 국토교통부 자율주행차 융복합미래포럼 비즈니스분과 위원, 전자정부 민관협력포럼 위원, 국제미래학회 과학기술위원장