[애플 AI칩] 1. 뉴럴엔진의 인공지능 칩(A11 Bionic Chip)

- 애플(Apple) AI칩 개발동향과 3년 내 출시할 제품/서비스 예측

[요약] 구글(Google)이 알파고(AlphaGo)라는 인공지능(AI) 컴퓨터 프로그램 덕분에 AI 기술의 선두주자로 알려져 있지만, 구글의 단점은 클라우드 베이스의 AI이다(이를 Edge->Cloud AI라 함). 반면 애플(Apple)은 온디바이스(on-device)의 AI 제품을 개발하고 실제 제품에 적용하고 있다는 점에서 구글을 능가하고 있다. 왜냐하면 이제 블록체인 개념의 Cloud->Edge가 도래하고 있기 때문이다. 

2017년에 애플이 자체 개발하고 디자인한 ‘Neural Engine + 최초로 애플이 디자인한 GPU(그 전까지는 Imagination Technologies가 디자인) + M11 + Face ID + Touch ID를 지원하는 네 개의 에너지효율 요소’를 통합한 A11 Bionic Chip을 iPhone X에 탑재해 런칭했다. (1) 많은 기업들이 AI칩에 도전하고 있지만 이는 업계 최초로 애플이 AI칩 분야의 선두주자임을 증명한 것이다. (2) 그 결과 애플은 어느 날인가 퀄컴(Qualcomm)과 인텔(Intel)과 삼성(Samsung)을 위협할 수도 있을 것이다. 

애플은 HAS(Hardware+AI+Software)라는 개념의 독자적으로 디자인하고 통합된 하드웨어와 독자적인 뉴럴엔진의 A11 Bionic Chip과 독자적인 OS 플랫폼을 구축한 유일한 기업이다. 따라서 현재 TrueDepth 카메라와 Dot Projector 기반으로 서비스하고 있는 Face ID와 Animoji를 뛰어넘어 향후 Cloud<->Edge를 선도할 수 있을 것으로 전망된다.

애플과 애플이 인수한 프라임센스의 특허를 분석한 결과, 앞으로 3년 이내에 애플은 뉴럴엔진·AI Chip 베이스의 트루뎁스 카메라 기술과 도트 프로젝트 기술을 활용해 (1) 3D 애니모지(Animoji)를 2018년에 나만의 Memoji로 업데이트하고 최종 3D Avatar/Model로 업그레이드하여 출시할 것으로 예측되고, (2) 다양한 콘텐츠와 서비스(Mac, TV, 전기차(EV)/자율차(AV) 등) 중심의 3D UI/UX의 AR/VR로 확대 출시 될 것으로 예측되며, (3) Mac OS/iOS가 3D GUI의 OS/App/Safari로 업그레이드 될 것으로 예측된다. 

[글 싣는 순서]
1. 뉴럴엔진의 인공지능 칩(A11 Bionic Chip)
1-1. 배경(Background) – Edge<->Cloud를 위한 AI Chip 개발이 필요
1-2. 애플(Apple)의 뉴럴엔진/네트워크와 A11 Bionic Chip
1-2-1. 애플과 애플이 인수한 프라임센스의 특허분석 
1-2-1-1. Face ID와 뉴럴 네트워크
1-2-1-2. 트루뎁스(TrueDepth) 적외선 카메라
1-2-1-3. 3차원 맵을 위한 도트 프로젝터(Dot Projector)

1-2-2. 2017년 9월 WWDC에서 공개된 A11 Bionic Neural Engine 
1-2-3. 유럽특허청에 등록한 상표 – 뉴럴엔진(Neural Engine)
1-2-4. 애플의 아이폰 8/8 플러스/X에 탑재된 A11 Bionic Chip
1-2-5. A11 Bionic Chip이 탄생하기 전까지의 여정
1-3. 인사이트 종합

2. 특허분석으로 예측하는 3년 내 애플이 출시할 제품과 서비스
2-1. 애플의 3D Avatar/Model
2-2. 애플의 3D UI/UX의 AR/VR
2-2-1. 3D UI/UX의 AR/VR for Mac/TV
2-2-2. 3D UI/UX의 AR/VR for Car/EV/AV
2-3. 애플의 3D GUI의 OS/App/Safari
2-3-1. 3D GUI의 OS/App
2-3-2. 3D GUI의 브라우저(Safari)


1. 뉴럴엔진의 인공지능 칩(A11 Bionic Chip)
1-1. 배경(Background) – Edge<->Cloud를 위한 AI Chip 개발이 필요

기존 APU는 한 번에 하나씩 순차적으로 정형화된 데이터를 빠르게 처리했지만, 인간의 뉴런과 시냅스의 신경망을 모방하는 인공지능 칩은 기기(Edge) 내의 이미지처리, 음성인식 등 다양한 비정형 데이터를 빠르게 처리할 수 있다. 현재 아마존의 에코를 비롯 구글의 홈 등 AI 스피커들은 AI 스피커에 입력된 음성을 클라우드(Cloud)로 보내 답변을 찾은 뒤(이를 Edge to Cloud라 함) 다시 스피커로 전송하는 방식을 채택하고 있어(이를 Cloud to Edge라 함), 그 결과 음성인식 AI 비서가 사람의 말을 알아 듣는 데 최소한의 시간이 걸린다. 이러한 문제를 해결하기 위해 등장한 것이 AI칩이다. AI칩이 발전할수록 기기 자체에서 처리할 수 있는 데이터량이 늘면서 데이터 처리 속도가 빨라져 사용자의 서비스 만족도도 늘어난다. 

이러한 개념은 많은 자동차/드론 관련 컨설팅 업체들의 최근 보고서를 보면 파악할 수 있는데, 그것은 ‘클라우드에서 온프레미스로 이동한다(the shift is moving back from the cloud to on premise)’는 것이다. 이때 ‘on-prem’이란 부분적으로 자동차나 드론을 말하는데, 좀 더 구체적으로 얘기하면 디바이스 자체인 기기(Edge)를 말하는 것이다. 이를 가장 빨리 이해한 기업은 A16Z인데, 이들은 ‘클라우드 컴퓨팅의 종말(The End of Cloud Computing)’(a16z.com, 16 Dec 2016)이란 프레젠테이션에서, “하늘에 있는 클라우드는 종말이 오고, 바퀴와 날개를 가진 셀프-드라이빙 카나 드론 자체가 데이터 센터가 된다는 것(where self-driving cars and drones are really data centers with wheels or wings)”이다. 

이것이 바로 블록체인(Block Chain)의 원리이다. 중앙화 중심의 클라우드(Centralized Cloud-Centric)로 그간 구글, 애플, 페이스북 등은 데이터의 독점과 경제의 독점으로 거대 제국을 이루었다. 최근 페이스북의 개인정보 유출 등 그 피해 사례가 점점 가시화되고 있다(The Guardian, 18 Mar 2018). 내가 글을 써서 올리는데 내 데이터로 떼돈을 벌고 있는 기업들은 바로 구글, 애플, 페이스북 등이다. 그래서 탈-중앙화된(Decentralized) 디바이스(Edge)로 데이터를 분산시켜 데이터와 경제의 주권화를 찾자는 것이다. 블록체인은 분산원장(Distributed Ledger) 기술로 거래정보를 기록한 원장을 금융기관 등 특정 기관의 중앙서버가 아니라 P2P(Peer-to-Peer, 개인간) 네트워크에 분산해 참가자가 공동으로 기록하고 관리하는 기술이다. 

이 개념의 출처는 아마존(Amazon)이 비밀리에 개발하고 있는 자율차 개발 프로젝트인 코드명 보그(Borg)에서 나온 것으로 보인다(Humanizing Tech, 12 Jan 2017). 코드명 보그란 무엇인가? 바로 영화 ‘스타 트렉(Star Trek)’에 등장하는 보그이다. 아마존의 CEO 제프 베조스(Jeff Bezos)는 스타 트랙 재방송을 빠짐없이 챙겨볼 정도로 스타트랙 광팬이었다고 한다. 아마존 설립 당시에 스타 트랙에 나오는 장 뤽 피카드(Jean-Luc Picard) 선장의 대사를 인용해 회사명을 Amazon MakeItSo.com 으로 검토했을 정도다. 스타 트렉에 등장하는 보그는 AI로 제어되는 집단의식(AI-controlled collective consciousness)을 이용해 보다 빠르게 보다 낫게 의사결정을 한다. 다시 말해 기업들이 최상의 방법으로 공유할 수 있는 그룹사고(groupthink)이다. V2V/V2I/V2P가 되든 V2X가 되려면 모든 자율차나 자율트럭들이 센서 데이터나 매핑 데이터베이스의 AI 알고리즘으로 실시간으로 학습하고 공유해야 하는데, 아마존이 바로 이것을 개발하는 것이다. 

예를 들어 20대의 자율차 혹은 20대의 드론이 광화문을 주행/비행한다고 하자. 그런데 광화문이 갑자기 테러집단에 의해 공격을 받고 있는 상황이다. 테러집단들이 제일 먼저 하는 것은 광화문 일대의 통신을 마비시키는 것이다. 따라서 이미 클라우드로 데이터를 보낼 수 없는 상황이다. 이럴 경우 20대의 자율차와 드론들이 별도의 특별 통신, 예를 들면 레이저 통신을 통해 협력하여 최적의 판단/결정을 내려 테러집단을 물리친 후 통신망을 복구시킨 후 클라우드로 보내면 클라우드는 하늘에서 전체 글로벌 데이터를 수집해 글로벌로 어느 지역에서 테러가 일어났고 일어날 것이란 것을 예측해 예방할 수 있다. 

이것이 바로 AI칩 베이스의 기기(Edge)에서 우선 판단을 하고 차후에 클라우드에 알려 부분과 전체를 파악하는 Edge<->Cloud의 개념이다. 물론 필자가 보기엔 클라우드의 종말이 아니라 디바이스 자체가 데이터 센터이므로 당분간은 양립하고 협력하는 하이브리드 형태로 갈 것으로 보인다(차원용, DigiEco, 13 Feb 2017; IT News, 16 Mar 2017). 마찬가지로 지금은 Cloud->Edge 개념의 퍼블릭 블록체인도 결국 Cloud<->Edge 개념의 하이브리드 블록체인으로 갈 것으로 예측하고 있다.

따라서 기존의 삼성전자 등 칩 제조사들은 그간 고객의 데이터를 구글·애플·페이스북의 클라우드에 독과점을 허용했지만, 조만간 Cloud->Edge로 데이터가 분산되기 때문에 AI칩을 개발하는데 박차를 가하는 것이다. 칩 제조사들의 CES 2018 주제를 보면 ‘우리는 데이터 회사이다’를 천명하고 있는 이유가 이 때문이다. 게다가 향후 Cloud<->Edge의 쌍방향 소통과 분석을 위해 구글·애플·아마존·알리바바·페이스북까지 AI칩 개발에 뛰어들고 있는 실정이다(한국경제, 7 May 2018).

따라서 향후 10년간은 누가 먼저 획기적인 AI칩을 개발하는가에 따라 제4차 산업혁명이 판가름 날 것으로 보인다. 더욱이 AI칩은 기본이고 모든 제4차 산업혁명을 주도하는 공통적인 핵심기술이자 융합기술이기 때문에 AI칩을 선점하는 기업이 나머지 제4차 산업혁명 기술들을 모조리 선점할 가능성이 높다. 

따라서 첫째 주제가 AI칩으로 글로벌 기업들의 특허분석과 제품/서비스 개발 동향을 통해 그 기술 경쟁력과 관련 인사이트를 주고자 한다. 단, 특허분석은 미국특허청(USPTO.GOV)에 공개되거나 등록된 특허들만을 분석하기로 한다.

1-2. Apple(애플)의 뉴럴엔진/네트워크와 A11 Bionic Chip 
1-2-1. 애플과 애플이 인수한 프라임센스의 특허분석 
1-2-1-1. Face ID와 뉴럴 네트워크

얼굴인식(Facial Recognition) + 모션인식(Motion Recognition) – 애플의 얼굴인식(Facial Recognition) 기술 개발은 2011년으로 거슬러 올라간다. ‘얼굴인식 기술을 이용한 모바일 디바이스의 잠금과 잠금 해제(Locking and Unlocking a Mobile Device using Facial Recognition)’라는 기술을 2011년 3월 16일에 미국특허청에 출원하여(13/049,614), 2012년 9월 20일에 출원서가 공개되고(20120235790), 2015년 3월 31일에 특허(8,994,499)를 취득했다. 

다시 이 특허를 2015년 2월 17일에 개량 출원(Continuation application)하여(14/624,443), 2015년 7월 9일에 출원서가 공개되고(20150193611), 2016년 10월 25일에 특허(9,477,829)를 취득했다. 그 다음 기존에 청구한 1~23번의 청구항들(Claims)을 전부 취소하고 24~50번의 새로운 청구항들로 변경하고 2016년 9월 26일에 출원하여(15/276,732) 2017년 3월 16일에 출원서가 공개되었다(20170076077).

2016년에 애플은 이모티언트(Emotient)와 리얼페이스(RealFace)라는 두 개 기업을 인수했는데, 기존의 이 얼굴인식 기술이 향후 대단할 것으로 판단하여 청구항을 수정한 것으로 보인다. 지문인식과 함께 얼굴인식이 차세대 대안으로 떠오를 수 있다는 것을 간파한 것이다. 특히 청구항 24번을 보면 하나 이상의 프로세서가 등장하고 하나 이상의 센서가 등장하며 하나 이상의 이미지가 나타나지 않을 때 자동으로 잠근다고 기술하고 있는데, 이는 센서 융합 알고리즘이다.

▲ 애플의 공개된 출원서의 Fig.1 &amp; 2(20170076077, 16 Mar 2017). Image: USPTO

얼굴인식(Facial Recognition) + 출현인식(Presence Recognition) + 모션인식(Motion Recognition) + 근접인식(Proximity Recognition) + 뉴럴 네트워크 – 애플은 더 나아가 사람의 얼굴인식 + 출현인식 + 모션인식에 뉴럴 네트워크 알고리즘을 융합해 Mac이 절전모드(Reduced power mode)에 있을 때 사용자가 출현하면 자동으로 켜는 기술을 개발하고 있다. 

본 기술도 2011년으로 거슬러 올라간다. 2011년 7월 1일에 ‘출현 센싱(Presence Sensing)’이라는 특허를 가출원하고(Provisional application, 61/504,026), 2011년 5월 12일에 다시 가출원하고(61/485,610), 2011년 8월 26일에 이를 개량 출원하고(13/219,573), 2017년 2월 28일에 이를 개량 출원하여(15/445,623), 마침내 2017년 7월 6일에 출원서가 공개되었다(20170193282). 

특히 애플은 카메라와 근접 센서 등 센서 융합(Sensor fusion) 알고리즘과 감지(검출) 로직(detection logic)은 뉴럴 네트워크를 사용하는데, 벡터 머신(vector machines)과 알고리즘 베이스의 확률적 기계 학습을 지원하여 사람이 출현했는지를 결정하는데, 컴퓨터와 사람의 출현 거리인 한계거리(Threshold distance)를 정하여 이 한계거리 내에서 센서들이 인식이 되면 컴퓨터를 자동적으로 켤 수 있다고 기술하고 있다.

▲ 애플이 공개한 출원서의 Fig.6(20170193282, 6 Jul 2017). Image: USPTO

1-2-1-2. 트루뎁스(TrueDepth) 적외선 카메라

Face ID의 핵심은 트루뎁스(TrueDepth) 적외선 카메라인데, 이는 애플이 2013년 11월 17일에 이스라엘 기업인 프라임센스(PrimeSense)를 3억4천500만 달러에 인수(Patently Apple, 17 Nov 2013)한 결과로, 프라임센스가 트루뎁스 카메라를 개발하는데 지대한 공헌을 했다. 

프라임센스는 3D 센싱(Sensing) 기업이며 3D 환경, 즉 3차원 증강현실과 가상현실(3D AR/VR)을 구축하는 원천기술을 확보한 기업으로, 3D 동작을 감지하는 칩이 주특기인 회사이다. 마이크로소프트의 동작인식 기술인 키넥트(Kinect)와 유사하다. 프라임센스는 또한 페이스북이 2014년 3월 25일에 20억 달러를 주고 인수한 헤드마운티드 디스플레이(HMD) 베이스의 VR을 구축하는 오큐러스 리프트와(Oculus Lift)도 유사하다. 페이스북은 오큐러스 리프트를 이용하여 차세대 3차원 게임, 3차원 스포츠, 3차원 원격 교육, 3차원 원격 진료에 활용하고자 한다. 

특히 프라임센스의 3D AR/VR 원천 기술과 헤드셋(headset) 기술이 오늘날의 Face ID를 낳게 했다. 참고로 필자가 2014년에 <애플이 프라임센스를 인수한 이유, 3D AR/VR로 간다>라는 보고서를 썼는데, 프라임센스의 주요 특허를 분석했으니 참고 하시기 바란다.
 
애플, 즉 프라임센스의 트루뎁스(TrueDepth) 카메라를 개발하는 팀의 리더가 바로 이탄 허쉬(Eitan Hirsh)인데, 그는 2018년 3월 6일에 이스라엘에서 개최된 ‘IMVC2018 tech conference’에서 ‘Depth Sensing @ Apple: TrueDepth Camera’라는 주제로 강연을 했는데, 카메라 시스템, 디자인, 기능, 알고리즘 레이어들(algorithmic layers)을 개발자들에게 소개하기도 했다. 

스캐닝 뎁스 엔진(Scanning Depth Engine) – 이 프라임센스의 기술은 적외선을 이용해 트루뎁스(TureDepth) 카메라나 스캐너에 적용할 수 있는 기술로, 기술 개발은 2012년으로 거슬러 올라간다. 2012년 2월 15일에 가출원하고(61/598,921), 2013년 8월 15일에 출원서가 공개되고(20130207970), 2013년 2월 14일에 다시 개량 출원하여(13/766,801), 2017년 5월 16일에 특허를 획득하고(9,651,417), 2017년 3월 30일에 다시 개량 출원하여(15/473,653), 2017년 7월 20일에 출원서가 공개되고(20170205873), 2018년 2월 20일에 특허를 획득하고(9,898,074),  2017년 12월 18일에 다시 개량 출원하여(15/84,4651), 2018년 5월 3일에 출원서가 공개되었다(20180120931).

특허의 요약을 보면 장면(얼굴, 몸, 손, 사물, 배경 등)의 수많은 점들(spots)로 향하는 적외선 빛의 일련의 파동을 가진 빔을 방출하는 송신기(transmitter)가 있고, 그 다음 반사되어 오는 빛을 수신하는 수신기(receiver)가 있는데, 이때 수신기는 반사되어 오는 빛의 파동 여행 시간(a time of flight of the pulses)을 나타내는 데이터를 생성한다. 그 다음 프로세서가 수신기에서 출력한 데이터를 프로세싱하여 장면을 3차원 맵으로 그려내는 것이다. 

객체에 광원의 빔을 쏘아(주사) 그 객체의 광원 이미지(optical image)를 처리하여 객체 표면의 3차원 프로파일(3D profile)을 생성하는 것을 3차원 맵(3D Map)이라 하는데, 애플은 이를 3D Profile 혹은 depth map 혹은 depth image 혹은 3D mapping 혹은 depth mapping이라 한다. 그리고 3D Map을 생성하는 장치가 바로 트루뎁스(TureDepth) 카메라나 스캐너 또는 도트 프로젝터(Dot Projector)이다.

▲ 애플 특허의 Fig.1(20180120931, 3 May 2018). Image: USPTO

Fig.1은 매핑 시스템 20을 설명하는 그림으로, 22가 바로 스캐닝 뎁스 엔진(Scanning Depth Engine)으로 하나 이상의 객체(얼굴, 몸, 사물, 장면, 배경 등)를 포함한 관심볼륨(VOI, Volume of Interest) 안을 3차원으로 매핑하는 것이다. 28은 게임이나 컴퓨터 앞에서 동작하는 사람의 움직임(모션)이다. 24는 컴퓨터 혹은 콘솔이고, 26은 디스플레이다. 이때 컴퓨터와 스캐닝 뎁스 엔진에는 프로세서가 내장되어 있고, 뎁스 엔진에는 장면에 38의 방향으로 방출하는 적외선 송신기와 반사되어 오는 빛의 파동을 수신하는 수신기가 있어, 프로세서가 스캐닝 뎁스 엔진이 수집한 데이터를 처리하여 3D 뎁스 매핑을 하는 것이다. Z-축은 깊이를 X와 Y축은 XY 좌표이다. 이때 컴퓨터(24)는 사용자(28)를 인식하고 뎁스 엔진(22)에게 윈도우 32-34-36에 맞추어 줌인-줌아웃 하라고 지시를 내려 스캔하고자 하는 영역의 해상도를 높인다.

▲ 애플 특허의 Fig.2(20180120931, 3 May 2018). Image: USPTO

Fig.2는 뎁스 엔진(22)의 구성요소들로, 40은 광학헤드(optical head), 42는 ASIC(application-specific integrated circuit) 콘트롤러 혹은 프로세서이다. 44는 적외선 등의 광학 송신기로 여기서 나오는 빔은 46의 스캐닝 미러(scanning mirror)로 곧장 나가 38 방향의 장면을 스캐닝하게 된다. 그 다음 반사되어 오는 적외선을 48의 수신기에서 수집한다.    

1-2-1-3. 3차원 맵을 위한 도트 프로젝터(Dot Projector)

객체에 광원의 빔을 쏘아(주사) 그 객체의 광원 이미지(optical image)를 처리하여 객체 표면의 3차원 프로파일(3D profile)을 생성하는 것을 3차원 맵(3D Map)이라 하는데, 이 3D Map을 생성하는 장치가 바로 도트 프로젝터(Dot Projector)이다.

도트 프로젝터의 기본은 애플이 2013년 11월 17일에 인수한 이스라엘 기업인 프라임센스(PrimeSense)의 기술에 바탕은 둔다. 이 기술은 그간 혁신을 거듭한 결과 소형화(miniaturized) 되어 iPhone X에 탑재되었다. 프라임센스의 미국 특허청에 등록한 특허에는 스폿 프로젝트 혹은 스캐너(Spot Projector or Scanner)와 적외선 뎁스 카메라(Depth Camera)를 이용하는 방법을 기술하고 있는데, 애플은 지금 이를 투르뎁스(TrueDepth) 카메라와 도트 프로젝트라 부르고 있다. 핵심은 주제/얼굴/사물/장면 등을 3D로 매핑하는 기술적 방법론을 기술하고 있다. 결국 이 특허기술이 iPhone X에 100% 구현된 것이다.

렌즈 어레이 프로젝터(Lens array projector) – 이 프라임센스의 기술은 2011년 8월 9일에 가출원하고(61/521,395), 2012년 8월 6일에 개량 출원하고(13/567,099), 2013년 2월 14일에 출원서가 공개되고(20130038941), 2014년 12월 9일에 특허를 획득(8,908,277)한 렌즈가 정렬된 광학 프로젝터에 관한 것이다.

▲ 애플 특허의 Fig.1(8,908,277, 9 Dec 2014). Image: USPTO

Fig.1은 20의 3D 매핑 시스템의 측면도(side view)로 시스템 20은 30의 투영 어셈블리(projection assembly)로 구성되는데, 투영 어셈블리는 패턴화된 빔(patterned beam)을 38의 각도로 28의 사물(손, 얼굴, 사물, 장면 등) 표면으로 투영한다. 34는 광학 패턴 생성기(optical pattern generator)로 패턴화된 조명 빔을 방출하는데, 36의 투영 렌즈를 통해 28의 손으로 투영(주사) 된다. 

32는 이미징 어셈블리(imaging assembly)로 손에서 반사되어 오는 빔의 이미지를 수집하고 3차원 맵을 추출하기 위해 이미지를 프로세스 한다. 40은 광학 객체(objective optics)이고 42는 이미지를 센싱하는 이미지 센서이다. 

Fig.2는 30의 투영 어셈블리(projection assembly)의 측면도로 44는 빔을 방출하는 방출기(emitter)인데, 적외선(IR), 가시광선, 극자외선 등이 사용될 수 있으나 여기서는 객체가 손이나 얼굴이므로 적외선을 사용한다. 46은 빔을 날카롭게 만드는 빔 샤퍼(Beam Shaper)로 빔을 균질하게(homogenizes) 만들고 초점을 맞추도록 하며 넓은 영역을 조사하도록 한다.

이 빔은 48의 패터닝 요소(patterning element)를 지나가는데, 사전에 정의된 패턴이 빔에 적용되도록 한다. 패터닝 요소는 비-균일적인 마이크로렌즈 어레이(non-uniform microlens array)로 구성되는데, 각각의 마이크로렌즈는 패턴 속에서 각각의 스폿(respective spot)을 만들어 낸다. 36은 프로젝션 렌즈(projection lens)로 패턴화된 빛(빔)을 출구인 50의 눈동자(exit pupil)를 통해 손의 표면으로 나아가게 한다. 

▲ 애플 특허의 Fig.2(8,908,277, 9 Dec 2014). Image: USPTO

광학 프로젝션을 위한 통합 포토닉스 모듈(Integrated photonics module for optical projection) – 이 프라임센스의 기술은 도트 프로젝터의 핵심원천기술로 2010년 2월 2일에 가출원하고(61/300,465), 2010년 4월 19일에 개량 출원하고(12/762,373) 그 다음 포기 했으며(abandoned), 2011년 1월 18일에 다시 출원하고(13/008,042) 그 다음 포기 했으며, 2014년 4월 1일에 다시 개량 출원하여(14/231,764), 2014년 7월 31일에 출원서가 공개되고(20140211084), 마침내 2015년 7월 28일 특허를 획득했다(9,091,413).

특허 요약을 보면 광학장치 혹은 시스템은 하나의 반도체 물질(a semiconductor substrate)과 반도체 물질 위에 탑재된 하나의 에지(Edge)에서 방출되는 방사선 소스(an edge-emitting radiation source)가 있는데, 방사선 혹은 광선(빔)이 장면(얼굴, 손, 몸, 사물, 배경 등)의 표면에 방출(주사)되면, 그 다음 반도체 물질에 고정된 하나의 반사체(a reflector) 혹은 수신기가 있어 반사되어 오는 방사선이나 광선을 잡아내는 것이다. 따라서 도트 프로젝터를 구성하는 핵심 통합 포토닉스 모듈을 구성하는 방법을 기술하고 있다.

▲ 애플 특허의 Fig.1(9,091,413, 28 Jul 2015). Image: USPTO

Fig.1은 이미징 시스템인 20을 설명하는 그림으로 X-Y-Z축이 등장하는데 X-Y축은 이미징 시스템(20) 앞면과 수평과 수직의 방향이며 Z축은 사물과의 거리 또는 깊이를 나타낸다. 22는 조명 어셈블리(illumination assembly), 32는 빔을 투영하는 투영 어셈블리(projection subassembly), 34는 거울과 같은 광학 투영장치(projection optics)로, 빔이 26의 손(사물, 얼굴 사물, 장면 등)을 향해 24의 각도로 쏘아지게 된다. 그러면 28의 이미징 어셈블리(imaging assembly)가 30의 각도에서 반사되어 오는 빔의 이미지를 수집한다. 그 다음 31의 콘트롤러 혹은 프로세서가 데이터를 처리하여 26의 손을 3차원 depth map으로 생성한다. 28의 이미징 어셈블리(imaging assembly)는 26의 손을 광학 이미지로 전환하는 36의 광학 객체(objective optics)와 이 이미지를 센싱하는 38의 이미지 센서(CMOS)로 구성되어 있다.

Fig.11은 IPM 180의 측면도(side view)로 IPM 180은 184 반도체 물질에 정렬된 2차원 매트릭스의 182 형태의 광전자 요소들(optoelectronic elements)로 구성되어 있다. 이 광선들은 수직으로 Z 방향으로 방출된다. 여기서는 X축 방향으로 8개의 요소들이 단 한 줄로 배열되어 있지만 멀티로 구성할 수도 있다. 182는 레이저 다이오드, LED, VC-SEL(vertical-cavity surface-emitting laser) 등으로 구성된다. 186은 마이크로렌즈 어레이, 188은 적당한 패턴 요소(suitable patterned element)로 190의 투영 렌즈(projection lens)와 함께 특정 패턴의 빛을 장면에 투영하게 된다.

▲ 애플 특허의 Fig.11(9,091,413, 28 Jul 2015). Image: USPTO

‘3D 매핑을 위한 스캐닝 프로젝터와 이미지 캡쳐 모듈(Scanning projectors and image capture modules for 3D mapping) – 이 프라임센스의 기술개발도 2010년으로 거슬러 올라간다. 2010년 8월 11일에 가출원하고(61/372,729), 다시 개량하여 2010년 12월 22일에 가출원하고(61/425,788), 2011년 8월 10일에 개량하여 정식으로 출원하고(13/810,451), 2013년 5월 23일에 특허출원서가 공개되고(20130127854), 마침내 2015년 8월 4일에 특허를 획득했다(9,098,931).  

Fig.1에서 20은 3D Mapping을 위한 장치(apparatus) 혹은 시스템으로 22는 매핑 디바이스(Mapping device) 혹은 3D 이미지 스캐너(3D Image Scanner)와 30의 하나의 조명 모듈(an illumination module)을 포함하고 있는데, 이 조명 모듈은 32의 다이오드 레이저나 LED같은 광원 혹은 방사선 소스(radiation source)를 포함하고 있어, 광원 빔이나 방사선 빔을 방출한다. 여기서는 가시광선이나 극자외선을 사용할 수도 있으니 특허의 대상이 손이나 얼굴이므로 적외선(IR)을 사용한다. 34는 스캐너로 빔을 받아 50의 스캐닝 미러로 28의 손(얼굴 등의 객체) 영역의 각도로 주사한다. 35는 광학 조명(Illumination Optics)으로 빔을 투영시켜 28 손 영역의 스폿 패턴(a pattern of spots)을 생성한다. 

▲ 애플 특허의 Fig.1(9,098,931, 4 Aug 2015). Image: USPTO

38은 이미징 모듈로 28의 손에 투영된 스폿 패턴의 이미지들을 42의 광학 객체(Objective Optics)를 통해 수집하고 디코딩한다. 이때 스폿 패턴 이미지 속에 있는 각 픽셀을 위해 하나의 디지털 시프트 값(a digital shift value)을 생성하기 위해 손표면 위에 있는 패턴의 이미지를 수집하고 디코딩한다. 40은 CMOS 이미지 센서로 검출기 요소들(detector elements)인 41의 2차원 매트릭스로 구성된다. 2차원의 행들과 열들(rows and columns)은 X와 Y 좌표와 같다.  

최종적으로 46의 프로세스가 이들 디지털 시프트 값을 처리하여 손(얼굴 등의 객체)의 3차원 맵 혹은 Depth map을 구축하는 것이다. 이때 Depth map은 깊이를 나타내는 Z와 손 표면의 XY 좌표(픽셀)로 나타내는데, 삼각측정법(triangulation)을 사용해 나타낸다. 그리고 X-축은 시스템인 22와 수평 방향이고 Y-축은 수직방향이며 Z-축은 일반 거리와 깊이 방향으로 멀리 떨어져 있다.

Fig.6는 90의 오페레이션상의 3D 매핑 시스템을 그림으로 나타낸 것이다. 22는 매핑 디바이스(Mapping device) 혹은 3D 이미지 스캐너(3D Image Scanner)로 92의 게이밍 콘솔(Gaming Console) 혹은 노트북(컴퓨터)과 함께 사용되는데, 이는 Microsoft 사의 키넥트(Kinect) 혹은 닌텐도의 Wii와 같은 것으로 쌍방향 게임을 하기 위함이다.

이 때 두 사람이 등장하는데 94의 사람과 96의 사람이 게임 참여자이다. 이를 위해 22의 3D 이미지 스캐너는 94 사람과 98 배경(예컨대 벽 등)의 다양한 점들의 100의 패턴들을 시야에 투영해, 장면의 참여자와 배경 사물들을 3D 맵으로 생성하는 것이다. 반면 92의 콘솔은 참여자 몸의 움직임에 따라 반응하는데, 그 결과 3D 맵에서 다양한 움직임 변화들을 스캐너와 콘솔이 감지하여 나누고 분석하는 것(segmenting and analyzing changes)이다.

▲ 애플 특허의 Fig.6(9,098,931, 4 Aug 2015). Image: USPTO

 

 

크기변환_사본-10632695_637493523030856_2757249799481243589_n차원용 소장/교수/MBA/공학박사/미래학자

아스팩미래기술경영연구소(주) 대표, (전)국가과학기술심의회 ICT융합전문위원회 전문위원, 국토교통부 자율주행차 융복합미래포럼 비즈니스분과 위원, 전자정부 민관협력포럼 위원, 국제미래학회 과학기술위원장

 

 

[정리 이새잎 기자  ebiz@itnews.or.kr]