닫기

테크노트

[스마트 소사이어티 시스템-③] 미래 사회에서 인간과 기계의 실제 커뮤니케이션 실현 위해

  • 등록 2018.12.11 09:36:17
URL복사

[첨단 헬로티]


심층 학습(딥 러닝)에 의한 인공지능 기술의 발달은 실제 정보처리에 큰 발전을 가져왔다. 이것은 다단의 뉴럴 네트워크에 의해 인간 설계자가 규칙으로 설명할 수 없는 연속적인 정보처리를 계층적 패턴 처리의 출현에 의해 실현한다. 차례차례로 만들어지는 성과 중에서 ‘이대로 인간 수준의 지능이 실현된다’, ‘싱귤래리티가 온다’ 등과 같이 피상적인 논의가 이루어지는 경우도 있지만, 이것은 아니다.


또한, 반대로 ‘심층 학습은 많은 데이터가 필요하기 때문에 안돼’, ‘나는 심층 학습으로 이것저것 무턱대고 하는 것에는 반대다’ 등의 주장을 하는 연구자도 있지만, 이것도 아니다. 심층 학습은 다단으로 반복해 쌓은 심플한 비선형 처리의 각 처리 단계의 동시 최적화에 의해 적절한 실제 패턴 처리를 하는 것으로, 그 수학적 일반성은 매우 높다. 그러나 거기서 주된 문제가 되는 것은 실제 패턴의 정보처리이며, 기본적으로는 함수에 의한 정보처리를 지능의 요소라고 파악해 모델화하는 센트럴 도그마 상의 성공이다. 이 성공을 신중하게 파악해 발전시키고, 배우고, 미래 사회에서 인간과 기계의 실제 커뮤니케이션 실현을 위해 활용할 필요가 있다. 


이러한 시대 배경 속에서도 우리들은 자신들의 생활공간에 인간과 커뮤니케이션하고 활동하는 로봇을 도입하지 못하고 있다. 여기에서 로봇이란 센서(감각계), 모터(운동계)를 가지며, 내부에 정보처리장치를 가지고 행동하는 기계 시스템을 지칭하기로 한다.


인간의 커뮤니케이션에는 ‘함수에 의한 패턴 정보처리를 지능의 요소로 파악해 모델화하는 센트럴 도그마’ 상으로는 파악할 수 없는 측면이 있다. 이것은 20세기의 시스템론 발전에 있어 제1차부터 제3차 사이버네틱스로 시스템관이 진화해 간 것과 부합한다.


이 글에서는 이러한 배경 하에 개별 기술 개발에 비하면 메타적 시점에 서서, 미래 사회에서 인간과 기계의 실제 커뮤니케이션의 실현을 위해 부감적인 논의를 전개하려고 한다. 또한, 심층 학습에 관련된 인공지능의 발전, 조사 등에 대해서는 많은 해설이 있으므로 이 글에서는 다루지 않는다.


로봇에 의한 언어 이해


1. 의미 이해에 대한 공학적 접근

인간 말의 ‘의미 이해란 무엇인가?’하는 문제는 인간과 기계의 실제 커뮤니케이션 실현을 위해서는 본질적인 문제이다. 그러나 그 광범위하고 말의 의미를 말로 논의할 수밖에 없는 학술적 활동상의 제약 등으로, 그 논의는 수렁에 빠지기 쉽다. 지금까지 인공지능의 대부분의 연구는 이러한 논점을 최대한 피해서 ‘인간과 기계의 실제 커뮤니케이션 실현’에 공헌하는 기술을 개발해 왔다.


예를 들면 음성 인식, 음성 합성, 화상 인식, 자연언어 처리(형태소 해석이나 구문 해석) 등이다. 이들은 모두 인간과 기계의 커뮤니케이션 실현에는 필요한 패턴 정보처리이며, 희한하게도 이들 모든 분야가 심층 학습의 혜택을 받아 크게 발전하고 있다. 의미 이해는 재껴두고, 정보처리에 집중함으로써 기술 개발은 발전해 왔다. 정보공학의 기념비적인 논문인 Shannon의 ‘A Mathematical The-ory of Communication’에 ‘(정보)통신의 의미론적 측면은 공학 문제로서 부적절하다(注1)’라고 쓰여 있는 것은 유명한 이야기다. 이것은 학문적으로는 매우 훌륭한 선긋기로, 그렇기 때문에 오늘날의 발전이 있다. 그러나 커뮤니케이션의 전체상을 파악, 인간과 기계의 커뮤니케이션을 근본적으로 실현하기 위해서는 한걸음 더 앞으로 나아가야 한다. 즉, Shannon이 펼친 보자기의 건너편에 가지 않으면 안 된다.


자연언어 처리에서 의미 이해, 언어 이해는 매우 어려운 문제이다. 그 곤란성의 이유는 여러 가지가 있지만, 여기에서는 ①그 자체를 단일적인 문제로서 설정할 수 없는 점, ②실제 세계에 관련되어 있는 점 ③말의 의미에 진정한 의미가 존재하지 않는 점 등을 논의하려고 한다.


2. 통합적 문제로서의 의미 이해

문장의 이해란 무엇일까. 이에 대해 공학적 관점에서 단일 태스크로 설명을 해주는 것은 불가능하다고 생각된다. ‘그것은 문장에서 그 이미지를 떠올리는 것이다’라고 하는 연구자도 있을지도 모른다. 최근 화상 생성에 관한 연구는 자연언어문에 대응하는 화상을 출력하는 뉴럴 네트워크를 실현하고 있다.


그러나 화상이 떠올라도 ‘페트병을 가져와’라고 말했을 때에 그것을 실행할 수 있는 지식은 준비되어 있지 않다. 실제로 페트병을 가져올 수 없는 로봇은 그 의미를 이해했다고는 볼 수 없을 것이다. 또한 ‘조금 냄새 나지 않아?’, ‘춥네요 ......’ 등의 시각적이지 않은 감각 모달리티를 동반하는 말이나, ‘그거 집어줘’, ‘그 이야기말인데’ 등의 지시어를 포함하는 말은 원래 시각적으로 표현할 수 없다. ‘이 곡, 정말로 뜨겁군요’ 등의 비유적 표현도 일상 대화 속에는 무의식중에 많이 있다.


그러나 화상을 떠올릴 수 있다면, 어떤 종류의 의미 이해가 가능하다는 것도 부정할 수 없을 것이다. 시각 정보를 통한 이해라는 것은 그 일부를 형성하지만, 전부가 될 수는 없다. 화상 생성이 아니라, 이것을 다른 태스크로 해도 마찬가지다. 기계 번역이나 로봇이 실제 명령 실행 등이 각각 가능했다고 해도 그 태스크 실현만으로 ‘이 기계는 인간의 말에 대한 의미를 이해할 수 있게 됐다’고 단언할 수는 없다. 또한, 위에 제시한 예문은 모두 가정용 로봇이 도입됐을 때에는 그 로봇이 가정 속에서 자연스럽게 듣게 되는 말이라는 것을 덧붙여 둔다.


3. 실제 인지로서의 의미 이해

다음으로 의미 이해가 실제 세계에 관련되어 있는 점이다. 예를 들면, ‘냉장고에서 페트병을 가져와’라는 말을 이해하기 위해서는 ‘냉장고’나 ‘페트병’이 무엇인지(물체 이해), ‘가져와’가 어떤 행동인지(행동 이해), 그리고 그것이 집의 어디에 있는지(공간 이해)를 알아야 한다. 가정용 로봇이 요구받는 실제 태스크에 관한 사용자의 발화는 현실 세계에 관한 것이 많다. 그러나 말의 의미가 단순히 물체나 행동, 공간 등에 관련되지 않는 예도 있다. 예를 들면 ‘이 곡, 정말로 뜨겁네요’라고 했을 때에는 이 ‘뜨겁다’는 피부로 느끼는 실제 온도 감각에서 동떨어진 것으로, 실제 감각 정보를 직접적으로 표현하는 것은 아니다. 그러나 이 ‘뜨겁다’의 비유적 표현은 원래 의미를 더듬어가면 우리들의 멀티모달 감각 통합 하에 성립되어 있으며, 실제 경험과 감각 통합을 통해 이해될 수 있다. 


언어 이해의 논의에 실제 정보를 관여시켜야 한다는 것은 언어 이해를 생각하는 학문 분야의 큰 도전이다. 텍스트 데이터만을 취급하는 자연언어 처리 연구의 사정에는 한도가 있는 것은 당연히 분명하다. 이런 의미에서 센서와 모터를 가지고, 실제로 행동할 수 있는 로봇은 언어 이해를 연구하는 데에 매우 중요한 플랫폼이 된다. 


4. 국소적이고 동적인 의미 이해

다음으로 말의 의미에 ‘진정한 의미’가 존재하지 않는 점이다. 기호론의 선조인 Pierce는 이 점을 강조하기 위해 기호의 구성 요소로서 사인(Sign)과 대상(Object)을 연결하는 제3항으로서 해석항(Interpretant)을 도입했다. 기호란 원래 인간(해석자)이 사인(혹은 신호)을 보고, 듣고, 그로 인해 생기는 해석이나 연상, 행동에 의해 지지된 동적인 과정으로, 물리적, 객관적으로 존재하는 대응 관계는 아니다. 이 점도 강조하기 위해 Pierce는 기호 과정(Semiosis)이라는 말을 도입하고 있다.


해석이 공시적으로, 또한 경시적으로 안정된 기호도 있지만, 그것도 정도 문제이다. 커뮤니티나 문화, 문맥에 따라 실제로 말의 해석은 극단적으로 변한다. 또한, 발언의 함의(내포된 의미)까지 생각하면, 그 문제는 무시하기 어려운 것이 된다. 이것도 역시 우리들의 일상생활 공간에서는 실제로 매우 자주 일어난다.


일상 대화에서는 개별 단어의 의미가 어떤지 보다도 무엇을 전달하고자 하는지(무엇을 원하는지), 그리고 그것이 상대방에게 이해됐는지(해줄 수 있는지)가 우선한다. 예를 들면 상사가 부하에게 ‘야, 이 회의실 덥네’라고 말하면, 그것은 ‘에어컨을 틀어 달라’고 하는 의미인 경우가 있다. 그것에 대해 부하가 ‘그러네요. 네, 덥습니다’라고 대답하면, 상사는 ‘의미를 알아듣지 못했구나”하고 느낄 것이다.


가정용 로봇도 동일하다. ‘기계에게는 그런 말투로 하지 않고, 직접적인 명령을 구체적이며 단적으로 말하면 되는 것 아닌가’라고 할지도 모르지만, 우리들은 인간의 자연스러운 커뮤니케이션에 들어갈 수 있는 기계를 만들고 싶은 것이며, 인간이 기계와 커뮤니케이션하기 위해 ‘기계를 위한 말’을 사용자가 생각해야 한다면, 그것은 진정한 언어 이해를 할 수 있는 로봇이라고 할 수 없다. 자연언어 이해를 포기하고 프로그래밍 언어로 로봇을 다루는 것과 정도 문제의 차이밖에 없다. 


국소성에 대해 말하면 로봇이 가정에서 작동할 때, 가정에는 그 가정만의 사람, 물체, 장소나 태스크가 존재한다. 가령 청소 로봇을 예로 든다. ‘타로의 방을 청소해줘’라고 사용자가 지시했을 때, 로봇이 청소해야 할 공간적 영역, 얻어지는 시각 정보, 해야 할 청소 방법은 가정에 따라 다르다.


이 문제는 오늘날의 심층 학습 성공과 기술적 트렌드와도 관련된다. 심층 학습의 발전은 대규모 입출력 데이터를 이용한 지도 학습에 지지되어 왔다. 이를 지지하고 있는 것은 대규모로 수집된 훈련 데이터다. 지도 학습이란 일반적으로는 사람 손으로 부여된 정답 라벨의 일반화가 목적이며, 심층 학습은 학습 가능하고 계층적인 특징 추출에 의해 각종 성능을 비약적으로 향상시켰다. 이것을 바탕으로 현재 인공지능(심층 학습) 응용 기술의 개발 현장에서 문제가 되고 있는 것은 라벨을 어떻게 저코스트로 모으는가 하는 문제이다. 가정용 로봇에 관해서도 만약 타니구치 집의 태스크를 하기 위해 각종 심층학습기를 훈련하는데, 라벨 데이터를 작성하는 코스트가 백 명의 노동자가 라벨을 붙이는데 백일 정도 소요되어 합계로 지불 금액이 수 백만엔이 소요된다면, 현실적인 문제로서 타니구치 집은 가정용 로봇을 사지 않을 것이다. 원래 가정에 그런 타인을 넣고 싶어 하는 사람은 적다. 국소적인 지식에 대한 적응은 인공지능 연구 전체의 과제이기도 하다. 


5. 비지도 학습에 의한 인지 아키텍처와 내부 표현 학습

인간의 아이가 새로운 말을 기억하고 집 안의 물건 배치와 그 이름, 말의 의도 이해 방법을 배워가는 프로세스에서는 대량의 훈련 데이터는 물론 이용되지 않으며, 자신의 감각운동 정보로부터 학습해 간다. 이것은 이 세계에 감각운동 정보만으로 언어를 획득하고, 국소적인 지식을 몸에 익혀 가는 계산 다이나믹스가 존재하고 있음을 나타내고 있다. 인지 발달의 기술에는 지도 학습보다 비지도 학습의 시스템이 적절할 것이다.


심층 학습의 맥락에서도 비지도 학습이 주목되어 왔다. 비지도 학습은 기본적으로는 입출력이라는 구별 없이 관측 정보를 통계적으로 모델화하는 사고이다. 내부 표현(혹은 표상)을 학습하는 시스템이라고도 할 수 있다.


통계적으로는 X와 Y라는 관측 정보가 있었을 때에는 동시 분포 P(X,Y)=P(Y|X)P(X)를 모델화하는 것이 비지도 학습이며, 직접 사후 확률 P(Y|X)를 모델화하는 것이 지도 학습이 된다. 그런 의미에서 지도 학습보다 비지도 학습 쪽이 일반적인 개념이다. 또한, 강화 학습도 본질적으로는 보상이라는 특수한 관측 데이터를 더한 통계적 모델화의 추론 문제로 간주할 수 있으며, 기본적으로는 비지도 학습의 일종으로서 해석할 수 있다.


언어 이해는 단지 입출력의 사상 관계를 학습하면 되는 것이 아니라, 실제 감각운동 정보에 기초해 이종 모달리티를 통합해 문맥 정보를 활용하고 인간의 행동 이해를 실현해야 한다. 미래 사회에서 인간과 기계의 실제 커뮤니케이션 실현을 위해 음성 인식이나 화상 인식, 언어 처리, 운동 학습 등의 각 인지 요소를 비지도 학습으로 통합, 통합적인 내부 표현에 의해 이들을 매개하는 인지 아키텍처의 구축이 중요해진다.


여기에서 비지도 학습이라는 경우에는 확률적 생성 모델을 가상하고 있지만, 심층 학습도 VAE(Variational Auto Encoder)와 그것에 연속하는 연구가 나타내듯이 확률적 생성 모델 중에 심층 학습도 받아들일 수 있는 흐름이 있고, 이러한 사고는 현재의 심층 학습 성공과 발전에 전혀 모순되지 않는다.


기호 창발 로보틱스


1. 기호 창발 시스템 이론

지금까지 서술했듯이 정보통신이나 패턴 정보처리의 연장에으로는 인간 언어의 의미를 파악할 수 없으며(注2), 인간의 인지나 발달, 그리고 동적 추론에 기초하는 기호 과정을 포함해 생각할 필요가 있다. 기호 과정은 인간의 뇌에서 얻어지는 내부 표현으로서의 기억을 활용해 이루어지는데, 그 형성 과정은 감각운동 정보에 기초하는 보텀업의 자기조직화 현상으로서 파악할 수 있다.


언어 이해를 생각하기 위해서는 이것에 더해, 의미 이해에 대한 사회적 제약을 고려에 넣을 필요가 있다. Shannon적인 정보관의 한계를 지적하고, ‘정보란 무엇인가?’에 관한 새로운 기초 만들기를 부여하려고 한 니시가키의 기초정보학에서는 사회적 제약을 중심적으로 파악하고 논의를 구축하고 있다. 이들을 바탕으로 의미 이해를 생각하는데 있어 최소한의 틀로서 필자가 제시해 온 것이 기호 창발 시스템이라는 것이다.


각각 사람과 환경의 상호 작용에 기초하고 형성되는 내부 표현에 기인해 얻어진 해석이나 발화는 사회 속에서 사용되는 기호계를 형성한다. 이 기호계(어휘, 문법, 관습, 규약 등의 문화를 포함한다)에 제약된 가운데 우리들은 커뮤니케이션을 하고, 그것이 미크로한 커뮤니케이션과 사회의 매크로한 언어 사양의 규칙에 계속 상호 영향을 준다. 이것은 정말로 창발성을 가지는 복잡 시스템(창발 시스템)의 미크로·매크로 루프 그 자체이다(그림 1). 


▲ 그림 1 기호 창발 시스템의 개관도


기호 접지 문제라는 말이 있는데, 그 말을 논의할 때에 많은 사람은 사전에 존재하는 기호 시스템을 순수하게 가정해 버리고, 그 논의는 기호 시스템이 가지는 동적, 국소적, 창발적 성질을 잊어버리기 쉽다. 기호 접지 문제는 기호 창발 문제로 대체될 필요가 있다.


2. 기호 창발 로보틱스

기호 창발 로보틱스는 로봇을 이용한 기호 창발 시스템에 대한 구성론적 접근이다. 기호 창발 로보틱스란 로봇을 사용해 기호를 창발시키는 연구를 한다는 의미가 아니라, 언어의 의미 이해나 인간의 인지 이해에는 기호 창발 시스템이라는 시점을 가지는 것이 중요하다는 것을 전제로 한 후에, 방법론으로서 로봇, 즉 실제 정보를 논의에 포함할 수 있는 장치를 이용해 연구를 추진하려고 하는 연구 분야이다. 


현재 일본 국내에서는 JST CREST ‘기호 창발 로보틱스에 의한 인간 기계 콜라보레이션 기반 창성’(대표 나가이 타카유키)이 진행되고 있는 외에, 많은 연구 프로젝트가 진행되고 있다. 그 연구 내용은 Google DeepMind 등이 내거는 범용 인공지능의 실현과 부합하는 점도 많고 방향성에 겹치는 점도 많다.


성과로서는 로봇에 의한 음성 데이터만의 음소나 단어의 획득, 동작의 분절화를 포함한 인간 교시의 동작과 언어의 동시 학습, 자기 위치와 지도와 어휘와 멀티모달 장소 개념의 동시 추정 등 많은 비지도 학습에 기초한 성과를 얻을 수 있다. 그러나 앞에서 말한 문제에 대해서는 현재의 인공지능, 인지 로보틱스의 수준은 아직 기초적인 단계에 머무른다고 할 수 있을 것이다. 범용 인공지능의 실현을 위해서도 인간의 언어적 커뮤니케이션의 이해를 위해서도 기호 창발 로보틱스는 추진해야 할 분야이며, 앞으로 미래 사회에서 인간과 기계의 실제 커뮤니케이션이 실현될 것으로 생각된다.


언어와 로보틱스


미래 사회에서 인간과 기계의 실제 커뮤니케이션 실현을 위해서는 언어적 커뮤니케이션에 관한 연구와 인공지능 및 로보틱스 연구의 융합이 필요하다. 필자는 주사로서 계측자동제어학회 시스템·정보 부문에서 ‘기호 창발 시스템론 조사연구회’를 주재하고, 논의를 거듭해 2017년도부터 Language & Robotics 연구회(언어와 로보틱스의 연구회)를 자연언어 처리 및 기계 학습 연구자와 로보틱스 연구자의 콜라보레이션 장으로서 이끌어 왔다.


또한, 최고 국제회의에서도 수많은 워크샵과 또한 국제 잡지 특별호 등을 기획해 왔다. 필자는 또한 연구 대표로서 리츠메이칸대학 거점형성형 R-GIRO 연구 프로그램 ‘차세대 인공지능과 기호학의 국제 융합 연구 거점’을 추진하고 있다.


이 글에서는 미래 사회에서 인간과 기계의 실제 커뮤니케이션 실현을 위해 인공지능 연구와 로보틱스 연구의 현황을 바탕으로, 앞으로 10~20년을 봤을 때에 대응해야 할 방향성에 대해 서술했다. 언어 이해는 통합적인 문제로, ‘언어의 문제’로서 분리할 수는 없다. ‘언어의 문제’는 인지 시스템의 문제인 동시에, 사회 시스템의 문제이기도 하다. 로보틱스 관련 기술과 심층 학습 기술 발전 등을 거쳐, 드디어 논의를 위한 모든 준비가 갖추어졌다. 도전은 지금부터다. 


---------------------

(注1) “ These semantic aspects of communication are irrelevant to the engineering problem.”

(注2) 그런 의미에서 Shannon이 전적으로 옳다.


谷口 忠大

리츠메이칸대학 정보이공학부


本 記事는 日本 「計測自動制御學會」가 發行하는 「計測と制御」誌와의 著作權協定에 依據하여 提供받은 資料입니다.



















주요파트너/추천기업