닫기

테크노트

[TECHNOLOGY FOCUS_다이내믹스와 기계학습 융합-②] 계측·모델·데이터 과학은 어떻게 협조할 수 있을까?

  • 등록 2019.07.08 13:32:42
URL복사

[첨단 헬로티]


이미지 계측 기술의 진보에 의해 자연과학의 여러 분야에서 동태 이미징이 새로운 연구의 조류를 형성하고 있다. 예를 들면 생물학 주변 분야에서는 현미경 기술의 발전에 따라 이미징 데이터의 고정세화, 다차원화(공간, 시간, 파장)가 추진되어, 각 연구기관에서 매일 축적되는 데이터량은 계속 증가하고 있다. 이러한 많은 이미징 데이터 세트에서 생물학적으로 중요한 정보를 정량화하는 정보과학적·수리통계학적인 방법의 확립을 목표로 하는 연구는 바이오 이미지 인포매틱스라고 불리며, 2000년경부터 생물학의 새로운 구동력으로 주목을 받게 됐다. 생물학 분야뿐만 아니라, 기존의 수작업에 기초한 해석으로는 도달할 수 없는 과학적 발견을 이끌어내는 것은 현대의 데이터 과학에 부여된 중요한 과제이다.



한편, 화상공학 분야에서는 디플래닝을 비롯한 지도 기계학습이 다양한 인식 작업으로 브레이크스루를 창출하고 있다. 이러한 방법론은 자연과학 분야의 데이터 해석, 특히 앞에서 말한 동태 이미지 해석에도 널리 응용될 것으로 기대된다. 그렇지만 데이터로부터의 귀납적 접근은 현상의 시공간 발전을 지배하는 원리의 해명을 목표로 하는 자연과학 분야와는 문제 설정이 일치하지 않는 부분이 존재한다. 또한, 디플래닝은 추정해야 할 파라미터 수가 많아, 입출력의 지도 데이터를 대량으로 준비할 필요가 있다. 자연과학 분야에서는 ‘정답’의 기준이 명쾌하지 않은 경우도 있어, 데이터 구동적인 접근을 쉽게 도입할 수 있다고는 할 수 없다. 자연과학과 데이터 과학이 일치하기 위해서는 모델과 계측을 포함한 의논이 필요하다.


이 글에서는 디플래닝뿐만 아니라 데이터 과학의 보다 넓은 시점에서 데이터 과학, 모델, 계측이 자연과학과 어떻게 협조해 갈 수 있는지, 신경과학의 이미지 해석을 예로 해설한다.


데이터의 역추론 


1. 계측과 데이터 과학 


그림 1에 계측과 데이터 과학의 관계성을 모식적으로 나타냈다. 어떤 나무의 3차원 구조를 아는 것이 목적이라고 하자. 그리고 나무의 구조는 모르지만, 어떠한 모델을 가정할 수 있다고 하고 그 파라미터를 δ로 한다. δ는 나무의 구조와 같은 정적인 정보뿐만 아니라, 다이내믹스의 내부 상태나 모델의 파라미터, 수치 시뮬레이션의 초기 상태와 경계 조건 등 해명하고 싶은 정보 모두를 생각하기 바란다.


우리들은 δ에 대해 어떠한 정보를 얻기 위해 대상에 빛을 비춘다. 즉 계측을 한다. 그 결과 그림자와 같은 정보 D를 얻는다. 이 부분적인 정보로부터 진짜 구조를 추정하는 것이 데이터 과학의 역할이다. 이 추론은 결과인 D로부터 그 결과를 창출하는 원인인 δ를 추론하는 문제이며, 역행하는 예측(역추론)이다. 


2. 베이즈 추론과의 관련 


이 관계성을 베이즈 추론의 말로 바꾼 것이 그림 2이다. 지금 진짜 구조에 관한 어떠한 사전 정보가 부여되었다고 하고, δ이 어떤 값을 취할 확률을 π(δ)로 나타내기로 한다. 나무라면 임의의 각도나 길이로 가지가 생기고 있는 것이 아니라, 일정한 규칙이나 경향이 있을 것이다. 가령 랜덤 그래프와 같은 구조가 추정됐다고 하면, 나무의 그림자로서는 아무리 계측 데이터와 일치하고 있어도 그 가설을 믿는 사람은 없을 것이다. 상식적으로 생각해, 너무나 ‘부자연’적인 결과이기 때문이다. 이것은 물리현상이라면 물리학의 기본 법칙에서 크게 벗어난 결과에 해당된다. π(δ)를 적절히 설정하면, 이와 같은 비합리적인 시나리오가 추론될 가능성을 억제할 수 있다. 계측에 의해 얻은 δ의 지견을 이용하지 않는다는 의미에서, π(δ)는 사전 분포라고 부른다.



δ에 관한 사전 확률이 설정되면, δ의 조건부 확률로서 D에 대한 적합도를 L(D|δ)로 평가할 수 있다. 이것을 우도라고 부른다. 여기서 베이즈의 정리를 이용하면, 다음과 같이 조건부 확률의 관계를 반전시킬 수 있다.



왼쪽 변은 D가 주어진 하에서 δ가 어떤 값을 취할 확률로, δ의 사후 분포라고 부른다. 결과인 D에 조건 지어진 원인 δ의 확률이기 때문에, 역확률이라고도 부른다. 이 역확률이 커지는 δ를 구하는 것으로 계측 D를 잘 설명할 수 있고, 또한 합리성도 갖춘 추정값 δ을 얻을 수 있다.


그림 3에 사후 분포의 추론 개념을 나타냈다. 사후 분포의 모드 부근에 유망한 시나리오가 있다고 기대되지만, 그림 3 (a)에 나타냈듯이 사후 분포가 멀티모달인 것도 드물지 않다. 그런 때에는 MCMC(Markov chain Monte Carlo)로 불리는 랜덤 샘플링법으로 사후 분포의 로컬 모드를 차례로 방문하는 방법이 이용된다. 이것에 의해 유망한 시나리오 δ를 여러 개 열거할 수 있다. 



이 랜덤 샘플링은 δ의 차원을 바꾸면서 할 수도 있다. 그것에 의해 그림 3 (b)의 예와 같이 데이터에 대응한 적절한 모델의 복잡함도 동시에 추론할 수 있다. 이와 같이 베이즈 추론은 단순한 미지 파라미터의 추정 문제가 아니라, 모델 선택까지 포함한 보다 범용적인 개념인 것에 주의하기 바란다.


동태 계측과 이미지 해석 : 신경과학의 예 


1. Ca2+ 이미징 데이터 


계측과 데이터 과학의 관련성을 말하는데 있어, 신경과학의 동태 계측을 예로 이미징 데이터 해석의 전형적인 과제를 설명한다. 그림 4는 고속 공초점 현미경에 의한 Ca2+ 이미징 시스템으로, 선충 C.elegans라는 모델 생물의 어떤 감각 뉴런의 신경 활동 동태를 계측했다. Ca2+ 이미징 시스템에서는 GCaMP라는 Ca2+ 센서의 형광을 이용, 세포 내막 전위가 간접적으로 이미징된다. 모델 생물인 선충은 성충 몸길이가 약 1mm로 작아서 전극을 꽂아 세포 내막 전위를 측정하는 것이 어렵기 때문에 이러한 방법이 이용된다.



그림 4의 윗 그림과 아래 그림은 계측된 시간이 다르다. 2개의 이미지를 비교하면, 형광량과 자세가 변화하고 있다는 것을 알 수 있다. 형광량의 변화는 냄새 자극을 더함으로써 세포 내막 전위가 상승한 것을 나타내고 있다. 한쪽의 자세 변화도 외적 자극으로 유발된 것으로 생각된다. 이와 같이 측정 중에 자세가 변화하는 것은 생물이 살아있는 상태에서 다이내믹스를 계측하는 라이브 셀 이미징에서는 드문 일이 아니다. 


2. 동태를 구성하는 2가지 요소 


앞에서 말한 예에 근거하면, 동태 계측 이미징 데이터 해석의 일반적인 작업이 보이게 된다. 그림 5에 나타냈듯이 일반적으로 우리가 동태라고 부르는 정보에는 움직임이나 변형 등의 불가시 정보와, 형광량이나 발광량의 시공간 발전이라는 가시 정보가 포함되어 있다고 해석할 수 있다. 전자는 인접하는 시각의 화상에서 추측할 수밖에 없는 정보로, ‘정답’을 준비하는 것이 어렵다. 화상처리는 물체 추적, 흐름장 추정, 역장 추정, 변형 보정 등의 작업에 해당된다. 후자는 화상의 픽셀 휘도로서 직접 ‘보이는’ 정보이다. 다이내믹스의 시공간 발전을 화상으로부터 정량화할 떄는 물체 검출, 물체 인식, 영역 분할, 노이즈 제거, 결손 보간, 화상 초해상 등의 화상처리 작업이 발생한다.



이와 같이 동태 이미지의 데이터 해석에는 (a) 보이지 않는 정보의 추정과, (b) 보이는 정보의 정량화라는 2가지 측면이 있다. 예를 들면 신경과학의 이미징에서는 뉴런 내의 신경활동도의 시공간 발전이 중요한 정보이다. 따라서 측정 중의 자세 변화는 가능한 한 사전에 제거 혹은 보정하는 것이 바람직하다. 한편, 신경 활동과 몸의 움직임의 관계성을 해명하고 싶은 경우에는 몸의 움직임을 정확히 추정하는 것이 화상 해석의 주요한 작업이 된다. 이와 같이 (a)와 (b)의 어느 쪽에 초점을 맞추는지는 연구의 타깃에 따라 다르며, 대응하는 데이터 과학의 방법도 크게 다르다. 그 판별이 제1 단계이다. 이하에서는 동태 이미징 데이터 중의 ‘보이지 않는 정보’를 추정하기 위한 베이즈 추론의 응용 예를 소개한다. 


3. 밀집하는 세포 집단의 동시 추적 


이미징 데이터 중의 보이지 않는 정보를 추정하는 문제로서 밀집하는 세포 집단의 동시 추적의 예를 든다. 그림 6은 선충의 중추신경계를 mCherry라는 적색 형광 단백질을 이용해 이미징한 화상이다. 이 화상 중에서 타원상으로 형광하고 있는 물체가 신경세포의 핵이다. 이러한 타원상의 핵이 3차원 공간에 150개 정도 계측되고 있으며, 장소에 따라서는 상당히 조밀하게 분포되어 있다. 실제 계측에서는 이와 같은 이미징 데이터가 시시각각으로 얻어지는데, 그림 4에 나타냈듯이 계측 중에 자세가 변화해 버린다. 따라서 이와 같은 화상에서 뉴런마다 활동도의 시간 변화를 정량화하기 위해서는 각 뉴런의 위치를 화상에서 비치도록 추적할 필요가 있다.


이러한 다세포 추적의 문제에서는 그림 7에 나타낸 것 같은 switching이나 merging 등의 트래킹 에러를 피하는 것이 과제가 된다. 안타깝게도 선충의 세포핵 외관은 개성이 부족하기 때문에 형상이나 사이즈에 관한 특징은 도움이 되지 않는다. 그래서 신경핵의 대국적인 움직임을 모델화하고, 베이즈 추론으로 가져가는 것을 생각한다.



4. 베이즈 추론에 기초하는 다세포 동시추적법 


베이즈 추정을 이용한 일반 물체 추적법으로서는 예를 들면 파티클 필터를 이용한 방법이 잘 알려져 있으며, 세포 추적 문제에도 이용되고 있다. 그러나 이번 데이터와 같이 추적 대상이 밀집해 있는 경우는 새로운 고안이 필요하다. 이 연구에서는 성충의 선충을 이용하면, 세포 분열이나 소멸 등의 문제는 발생하지 않는다. 따라서 세포핵끼리 확률적인 공변동을 가정할 수 있다.


그림 8에 세포 간 공변동을 가정한 천이 모델을 나타냈다. 시각 t의 화상에 포함되는 세포핵의 위치가 동정되어 있다고 하고, 어떠한 규칙으로 세포핵에 번호가 부여되어 있다고 한다. 시각 t의 화상에 포함되는 j번째의 세포핵 위치좌표를 ψt, j로 할 때, 각 시각의 세포핵끼리에 다음과 같은 공변동을 가정한다.




여기서 Cj는 j번째 세포의 근방에 위치하는 세포핵의 집합이다. (2) 식의 천이 모델에서는 j번째 세포핵의 움직임은 그 근방에 있는 세포핵 움직임의 선형합과, 정규 분포를 따르는 노이즈로 구성되어 있다고 간주하고 있다. 이 때, j번째 세포핵의 위치는 그 근방에 있는 세포 핵 위치의 조건부 분포로서 정해진다(이러한 공간 모델은 마르코프 확률장이라고 부른다). 공변동의 강도는 노이즈가 되는 정규 분포의 분산 λj,k ∈ R1+에 의해 제어되고, λj,k가 큰 값일 때 공변동은 약해진다. 이 λj,k의 값은 예를 들면 다음과 같이 시각 t−1의 세포핵 간의 마할라노비스 거리에 기초해 부여할 수 있다.



이 경우, 시각 t−1에서 근처에 위치하는 세포일수록 단단한 스프링으로 구속되어 있는(동일하게 움직이는) 것을 의미한다. 세포핵의 공간 배치는 시간과 함께 변화하므로 근방의 집합도 순차적으로 갱신하면 된다. 


이와 같이 확률적인 표현으로 부여된 세포핵 공변동 모델을 ψt,j에 대한 사전 분포로서 베이즈 추론에서 이용한다. 우도는 ψt,j가 주어졌을 때에, 세포핵의 중심이라고 생각되는 장소에 있는지의 여부를 평가하는 함수를 부여해 주면 좋다. 예를 들면, 보통은 세포핵의 중심 부근일수록 형광량이 크므로 ψt,j의 픽셀 휘도에 기초해 설정하는 방법을 생각할 수 있다. 이때, 사전 분포와 우도함수의 분산 비에 의해 공변동의 가정과 이미징 데이터 중 어느 쪽에 무게를 두고 ψt,j를 추정하는지를 제어할 수 있다. 공변동의 가정을 강하게 포함시키고 싶을 때는 사전 분포의 분산을 작게, 반대로 우도함수의 분산을 크게 설정하면 된다.


이와 같이 베이즈 추론에 의한 접근에서는 모델과 측정 데이터의 신뢰도를 고려하면서 그들을 통합해 직접 계측할 수 없는 정보를 추정할 수 있다. 사전 분포와 우도함수가 정해지면, 베이즈의 정리에 기초해 사후 확률 p(ψt|ψt−1, Dt)을 계산할 수 있다. 여기서 Dt는 각 시각에 계측된 이미징 데이터이다. 다음은 이 사후 확률을 최대로 하는 ψt,j를 구하는 작업이 된다. 이에 대해 자세한 설명은 생략하지만, 비선형 최적화에 기초하는 방법이나 파티클 필터에 기초하는 방법 등이 제안되어 있다.


5. 데이터 동화와의 관련 


베이즈의 정리에 기초하는 역추론은 선견적 지식을 적극적으로 도입함으로써 귀납과 연역을 상보적으로 이용하는 추론이라는 견해도 가능하다. 단, 연역적이라고 해도 위의 예는 데이터의 표면적인 거동을 모델화한 것으로, 현상의 다이내믹스를 지배하는 원리를 도입한 것은 아니다. 이에 대해 소과정(elementary process)에 기초해 사전 분포를 설정하는 방법은 데이터 동화라고 부르며, 기상학이나 해양학을 중심으로 발전해 왔다. 이러한 계에서는 현상의 시공간 발전은 편미분방정식으로 기술되는 경우가 많다. 신경과학이면 컨덕턴스 베이스 모델, Hodgkin-Huxley 방정식, FitzHugh-Nagumo 방정식, Integrate-and-Fire 모델, Hindmarsh-Rose 방정식 등이 해당된다. 지배 법칙을 직접 도입해서 추론함으로써 관측에 의해 얻은 정보가 스파스라도 계측할 수 없는 내부 상태나 경계 조건을 추론할 수 있다. 


그러면 현상의 소과정을 알고 있을 때는 항상 그것을 추론에 도입해야 하는 것일까. 예를 들면 선충의 세포를 추적하는데 신경회로의 동작 원리를 세포 수준·분자 수준으로 재현할 필요가 있을까. 아마 그럴 필요는 없고, 몸이나 세포군의 움직임까지 모델화해 추정에 도입할 수 있으면 목적을 달성할 수 있다. 베이즈 추정은 원리나 경험칙에서 상식·직감에 이르는 다양한 계층의 모델을 데이터와 통합할 수 있다. 즉, 연구의 목적과 성질에 맞춰 다양한 대응 방식이 가능하다. 


6. 지도 기계학습과의 관련 


그림 5의 보이는 정보에 대해서는 작업에 따라서는 정답이 되는 지도 데이터를 준비할 수 있다. 예를 들면 세포의 수나 위치를 동정하는 태스크에서는 작업 코스트의 문제는 있지만, 각 시각의 화상에 대해서 수작업이나 반자동적인 절차로 지도 데이터를 작성할 수도 있다. 이러한 문제에서는 디플래닝과 같은 지도 기계학습의 응용도 이루어지고 있다.


혹은, 이미징 기술의 발달에 의해 계측의 사이클이 짧아짐으로써 동일한 대상을 계측 모드를 바꿔 다시 이미징하는 것도 현실적인 코스트로 가능해지고 있다. 이것에 의해 지도 기계학습을 위한 예비 데이터를 미리(대량으로) 계측하는 것도 선택지로서 얻을 수 있다. 예를 들면 저시간 분해능·고시간 분해능으로 예비 데이터를 대량으로 이미징해 두고, 저공간 분해능 화상에서 고공간 분해능 화상으로 사상을 학습한다.


본 계측에서는 고시간 분해능·저공간 분해능으로 이미징하는데, 공간해상도는 기계학습에 의해 복원하면 단일의 측정으로는 얻을 수 없는 고시간 공간 분해능으로 이미징할 수 있는 가능성도 있다. 동일한 개념은 스펙트럼 구조의 복원(단파장 화상에서 다파장 화상으로 변환) 등으로도 전개할 수 있다. 복수의 계측 모드로 얻은 이미징 데이터를 기계학습으로 통합하는 접근은 전이학습이나 Generative Adversarial Network(적대적 생성 네트워크) 등의 기계학습 기술의 발전, 그리고 계측 기술의 발전에 의해 아이디어에 따라서는 자연과학에서도 강력한 개념이 될 것이다. 


맺음말 


이 글에서는 자연과학의 이미지 계측을 예로, 계측·모델·데이터 과학의 협조관계에 대해 설명했다. 우선 베이즈 추론은 그 자체가 데이터와 모델을 협조시키는 구조로, 원리에 기초하는 모델에서 데이터의 거동을 추상화한 모델까지 목적에 따라 역추론에 도입하는 것이 가능하다. 결과로부터 원인을 역추론하는데 있어, 데이터 과학이 반드시 단순한 귀납적 추론은 아닌 것을 이해했을 것이다.


한편 디플래닝 등은 최근에는 해석성에 관한 연구도 주목받고 있지만, 예측 과정은 기본적으로 블랙박스이다. 그렇기 때문에 데이터 구동적 성질이 특히 강하고, 자연과학에서는 모델화가 곤란한 문제야말로 활약할 수 있는 분야이다. 또한, 목적에 따른 확장이 용이하고, 계측과의 융합 방법도 다양하다. 중요한 것은 데이터 구동적에서 가설 구동적까지 데이터 과학에는 폭넓은 선택지가 있다는 것이다.


그리고 계측과 모델, 데이터 과학의 고도에 자극적인 협조와 융합을 목표로 하면, 데이터 과학을 최대한 활용하는 것을 가정한 빛을 비추는 법을 디자인하는 연구가 계측, 모델, 데이터 과학의 새로운 프런티어가 될 것으로 생각된다. 실제로 데이터 과학과 최첨단 계측 기술의 새로운 관계성을 모색하는 기운이 높아지고 있다. 예를 들면 물질과학의 주변 분야에서는 계측 인포매틱스라는 말이 생겼으며, 인공지능학회에서는 그 흐름을 이어받은 연구회가 발족됐다. 또한 저자도 관계되어 있는데, 과학기술진흥기구의 전략적 창조연구 추진사업(CREST/SAKIGAKE 합동)의 하나로 ‘계측 기술과 고도 정보 처리의 융합에 의한 인텔리전트 계측·해석 방법의 개발과 응용’ 영역이 진행 중이다. 앞으로 여러 분야에서 계측과 데이터 과학의 새롭고, 보다 자극적인 협력관계가 확대되어 갈 것으로 생각한다. 


徳永 旭将, 규슈공업대학 대학원 정보공학연구원



















주요파트너/추천기업