닫기

테크노트

[Technical Report] 새로운 시대로 진입하는 실시간 AI 서비스 및 컴퓨팅

URL복사

[헬로티]

 

실시간 서비스들이 일상생활 곳곳으로 확대됨에 따라 컴퓨팅 인프라가 크게 변화하고 있다. 자연언어를 사용하여 즉시 정보를 제공하는 지능형 개인비서를 비롯해 매장 내 분석을 통해 고객의 쇼핑 행동에 대한 정보를 생성하는 소매점에 이르기까지 실시간 서비스들이 확장하면서 서비스 제공업체들에게 엄청난 시장 기회를 제공하고 있다.


이러한 서비스로부터 가치를 도출하기 위해서는 데이터 및 통찰력에 즉시 액세스할 수 있어야 하며, 이는 대부분 AI(Artificial Intelligence) 지원 서비스를 통해 추진되고 있다. 이에 따라 AWS(Amazon Web Services), 마이크로소프트(Microsoft), 알리바바(Alibaba), SK텔레콤 등과 같은 세계적 수준의 서비스 제공업체들은 관련 솔루션 개발에 주력하고 있다.

 

 

 

이러한 엄청난 기회가 실현되기 위해서는 데이터센터가 실시간 응답 요건을 충족할 수 있는 최적화된 컴퓨팅을 구축해야 한다. 또한 AI로 구동되는 매우 빠르고, 다양하게 발전하는 작업부하 및 알고리즘을 처리할 수 있고, 스토리지 및 네트워킹에서 점차 증가하는 컴퓨팅 통합 요구를 수용할 수 있는 아키텍처가 필요하다.

 

이와 더불어 서비스 제공업체들은 처리량과 짧은 지연시간은 물론, RNN/LSTM, CNN, 스파크 쿼리(Spark Query) 가속화와 같은 다양한 알고리즘을 처리할 수 있는 매우 유연한 소프트웨어 및 하드웨어 스택을 지원하여 상당한 규모의 차별화와 성능을 제공할 수 있는 인프라 플랫폼이 필요하다. 이러한 수준의 차별화를 달성하기 위해 서비스 제공업체들은 자체적인 하드웨어 및 소프트웨어 스택을 구현하는데 투자하고 있다.

 

예를 들어, AWS의 AQUA(Advanced Query Accelerator)는 맞춤형 소프트웨어 및 프로그램이 가능한 하드웨어 스택을 사용하여 데이터 분석 플랫폼을 구축했다. 또한 SK텔레콤은 최근 커스텀 소프트웨어 및 프로그램이 가능한 하드웨어 스택을 기반으로 AI 지원 음성 및 비디오 분석 시스템을 개발했다.


분명한 것은, 차세대 컴퓨팅은 실시간 성능과 최대 처리량, 짧은 지연시간 및 전력 효율을 달성할 수 있도록 소프트웨어와 하드웨어가 통합되고, 하드웨어와 소프트웨어를 모두 프로그램할 수 있는 적응형이 되어야 한다는 것이다. 실시간 솔루션의 증가와 AI의 발전, 그리고 갈수록 복잡해지는 작업부하와 비정형 데이터의 폭발적 증가로 인해 데이터센터는 컴퓨팅, 스토리지, 네트워킹의 적응형 가속화에 중점을 두고 전환이 이뤄지고 있다.

 

▲ 실시간 서비스들이 확장하면서 데이터센터는 실시간 응답 요건을 충족할 수 있는 최적화된 컴퓨팅을 구축해야 할 필요가 생겼다.

 

실시간 예측을 위한 적응형 컴퓨팅

 

오늘날의 연구 팀들은 새로운 발견을 위한 툴로써 또는 세계에서 가장 획기적이고, 복잡한 문제를 해결하는 경로로써 고성능 컴퓨팅(HPC: High Performance Computing)을 활용하고 있다. 통찰력을 확보할 수 있는 시간을 단축하고, 적정 규모의 HPC를 구축하기 위해서는 엄청난 수준의 기본 컴퓨팅 성능과 에너지 효율 및 적응성이 필요하다.


실제로 FPGA로 가속화된 애플리케이션은 성능이나 에너지 효율을 저하시키지 않고 변화하는 요건에 유연하게 적응할 수 있는 최적화된 하드웨어와 소프트웨어를 구현할 수 있다.

 

CERN이 수행하고 있는 작업을 예로 들어보자. 세계에서 가장 어려운 과학적 의문에 해답을 제시하기 위해 설립된 유럽 입자물리 연구소인 CERN은 약 2만여 명의 과학자로 구성된 컨소시엄으로, 우주의 기원을 재구성하기 노력하고 있다. 그러나 이를 위해서는 연구원들이 기술의 한계를 뛰어넘어야 한다. 


스위스 제네바의 지하에 구축된 LHC(Large Hadron Collider)는 세계에서 가장 큰 입자 가속기이다. 27km에 이르는 링은 초전도 자석으로 구성되어 있으며, 전례없는 수준의 에너지를 이용해 입자를 가속시킨다. 각 양성자는 1초에 11,000회 링을 통과하는데, 이는 거의 빛의 속도에 가깝다. 이 양성자들은 링의 서로 다른 4개의 지점에서 25나노초마다 충돌한다. 충돌 상태는 입자 탐지기에 의해 포착되며, 이러한 입자 탐지기 중 하나를 CMS 탐지기라고 부른다.


트리거 시스템은 두 개의 레이어로 구현되어 있으며, 레벨 1 트리거는 대규모 대역폭과 이벤트당 고정된 약 3마이크로초의 매우 짧은 지연시간의 AI 추론 성능을 필요로 하는 가장 까다로운 조건을 가지고 있다. CPU 및 GPU는 이러한 요구사항을 충족할 수 없다. 따라서 방사선 영역으로부터 차폐된 지하 100미터에 FPGA 네트워크를 구축하여 새로운 입자 하부구조를 암흑물질의 존재 및 다른 물리적 현상의 징후와 식별하고, 생성된 데이터를 순간적으로 필터링할 수 있도록 설계된 알고리즘을 실행한다.

 

이러한 FPGA는 이벤트 데이터를 포맷하고 전달하기 전에 센서 데이터를 수신 및 조정하고, 추적 및 클러스터링을 수행하고, 머신러닝 객체 식별 및 트리거 기능을 실행하기 위해 전통적인 신경망과 CNN(Convolutional Neural Network)을 모두 실행한다. 결과는 100나노초 대의 매우 짧은 지연시간의 추론을 달성했다.


컴퓨팅에서 추가로 고려해야 할 사항은 실시간 비디오 스트리밍과 같은 특정 작업부하가 데이터센터 인프라에 상당한 스트레스를 줄 수 있다는 점이다. 이를 해결하기 위해 서비스 제공업체는 하드웨어 가속화 및 FPGA 적응형 컴퓨팅으로 전환하여 인프라를 단순화하고 비용을 절감하고 있다. 예를 들어, 세계적인 실시간 스트리밍 게임 플랫폼 선도업체인 트위치(Twitch)는 이러한 작업을 수행하여 실시간 스트리밍 비용을 줄이고, 전 세계 수백만 명의 시청자에게 서비스를 제공할 수 있는 규모를 확장했다.

 

▲ 가상화 컴퓨팅과 컨테이너 기반 작업부하가 등장하면서 네트워킹은 훨씬 더 복잡해졌다.

 

실시간 데이터 분석을 위한 컴퓨팅 스토리지

 

고속 스토리지가 광범위하게 채택되고, 데이터 집약적 애플리케이션의 성능 요건이 증가하면서 전통적인 아키텍처는 CPU, 메모리, 스토리지의 병목현상을 유발하고 있다. 따라서 주요 관심사는 컴퓨팅에서 컴퓨팅 스토리지를 통한 데이터로 옮겨가고 있으며, 또한 향상된 애플리케이션의 성능 및 전체 인프라의 효율에 미치는 영향에 중점을 두고 있다.


실행 가능한 솔루션은 컴퓨팅을 데이터에 더 근접하게 이동시키는 것이다. 데이터 분석을 예로 들면, 컴퓨팅을 스토리지 바로 옆에 통합함으로써 시스템 레벨의 데이터 병목현상을 크게 줄이고, 병렬처리를 향상시키는 것은 물론, 전반적인 전력 요건을 낮출 수 있다. 이러한 접근방식은 데이터 주변에 프로세싱을 배치해야 하는 가속 스토리지 및 컴퓨팅 스토리지 제품을 개발하는 IBM 및 마이크론(Micron)과 같은 주요 공급업체들의 관심을 끌었다. 


또한 삼성전자는 플래시 스토리지에 더 근접하게 고성능 가속화 컴퓨팅을 구현하여 CPU 및 메모리 한계를 우회할 수 있는 SmartSSD를 출시했다. 삼성의 SmartSSD는 속도 및 효율을 높이고, 지능형 실시간 데이터 처리로 운영비용을 절감할 수 있도록 해준다.

 

네트워킹

 

가상화 컴퓨팅과 컨테이너 기반 작업부하가 등장하면서 네트워킹은 훨씬 더 복잡해졌다. 이러한 환경은 단일 서버 이상으로 확장되어야 하기 때문에 정교한 오버레이 네트워크(Overlay Network)를 채택해야 한다.


오버레이 네트워크는 패킷 캡슐화 개념을 사용하여 동적으로 생성 및 유지관리가 이뤄지는 가상화 시스템이다. 그러나 이러한 캡슐화를 처리하기 위해 OS나 가상화 커널에 부담이 가중되고, 기존의 네트워킹 작업과 결합하는 경우, 서버의 기본 CPU 주기를 거의 30%까지 소비하게 된다.

 

오버레이 네트워크를 관리하는데 사용되는 가장 일반적인 방법 중 하나는 OvS(Open vSwitch) 프로토콜을 활용하는 것이다. FPGA 기반 SmartNIC은 앞에서 언급한 30%의 오버헤드로부터 호스트 CPU를 오프로드할 수 있는 컴퓨팅 성능을 가지고 있다. 간단히 말해서 OvS를 처리하는 SmartNIC 기반 3대의 서버는 표준 NIC 기반 4대의 서버에 해당하는 컴퓨팅 성능을 제공한다.


또한 FPGA 기반 SmartNIC은 일반적으로 서버의 CPU 상에서 실행되는 보안 및 암호화 작업을 오프로드하는데 활용할 수 있다. 보안은 심층 패킷 검사의 형태로 제공되며, 위협에 노출된 패킷은 삭제된다. 이를 통해 기업들은 서버에서 실행되는 기존의 방화벽 소프트웨어를 보강하거나 대체할 수 있다. 또한 SmartNIC은 IPSec이나 TLS에서 수행되는 암복화 작업을 쉽게 오프로드할 수 있다.

 

▲ FPGA 기반 SmartNIC로 인해 기업들은 서버에서 실행되는 기존의 방화벽 소프트웨어를 보강하거나 대체할 수 있게 됐다.

 

실시간 서비스를 위한 새로운 세계 질서

 

CPU 또는 멀티코어 CPU를 사용하여 새로운 실시간 서비스 시대의 요구를 충족시키기에는 비용, 전력소비, CPU 전용 솔루션의 규모 측면에서 실용적이지 않다. 또한 다양한 작업부하의 경우, 이러한 문제를 해결하기 위해 더 많은 CPU 기반 서버를 배치하더라도 필요한 성능을 제공하지 못한다.


무어의 법칙이 더 이상 작용하지 않으면서 차세대 CPU 또한 희망을 주지 못하고 있다. 적응형 컴퓨팅 가속기는 광범위한 컴퓨팅 요구를 충족하고, 확장 및 운영 비용을 관리할 수 있는 실행 가능한 솔루션이다.

 

글 / 자일링스(Xilinx)



















주요파트너/추천기업