오라클 MySQL 히트웨이브, 머신러닝 통합 “ETL 필요 없어”

쉽고 빠르게 MySQL 애플리케이션에 머신러닝 기능 추가 가능
모델 학습과 추론, 설명 완전 자동화
“아마존 레드시프트 ML 대비 1% 비용으로 25배 더 빠른 성능 제공” 주장

오라클 MySQL 히트웨이브(Oracle MySQL HeatWave) 데이터베이스 내 머신러닝(ML) 기능이 추가됐다. 머신러닝 모델을 만들기 위해 데이터를 다른 서비스로 옮기는 ETL 과정이 필요 없어 속도와 비용 효율성 모두 크게 향상시켰다는 설명이다. 특히 아마존 레드시프트 ML과 비교하면 단 1% 비용으로 25배 더 빠른 성능을 제공한다는 게 한국오라클의 주장이다.

오라클 MySQL 히트웨이브는 오라클 클라우드 인프라스트럭처(OCI) 상에서 MySQL 데이터베이스 서비스를 지원하는 인메모리 쿼리 가속기로, 이번에 ML 기능을 기본 통합한 MySQL 히트웨이브 ML은 머신러닝의 수명 주기를 완전 자동화하고 학습된 모델 모두를 MySQL 내에 저장해, 외부의 머신러닝 도구나 서비스로 데이터와 모델을 이동하지 않아도 된다. ETL(추출, 변환 및 적재) 작업이 필요 없어져 애플리케이션 복잡성과 비용을 크게 낮추고 머신러닝 모델과 데이터의 보안성을 개선할 수 있게 됐다.

일반적으로는 MySQL 애플리케이션에 머신러닝 기능을 추가하려면 먼저 데이터베이스에서 자료를 추출하여 다른 시스템에 옮긴 후 머신러닝 모델을 만들고 구축하는 과정을 거쳐야 한다. 이후 애플리케이션 데이터가 머신러닝에 적용되는 과정에서 다수의 데이터 사일로 현상이 나타나고 데이터 이동으로 인해 지연 시간이 발생하게 된다.

또 급증하는 데이터로 인해 데이터베이스의 보안 취약점이 증가하고 개발자가 프로그램을 작성하는 환경이 다양해져 복잡성이 증가한다. 기존 서비스를 고려하여 머신러닝 모델을 학습시키는 과정에는 개발자의 전문적인 지식도 필요하다. 이를 만족하지 못할 경우 최적화된 모델을 보장할 수 없기에 예측의 정확성은 감소한다. 이러한 노력에도 불구하고 대부분의 머신러닝 솔루션은 개발자가 구축한 모델이 어떻게 그러한 결과를 예측하게 되었는지 이유를 설명해주지 않는다.

오라클 MySQL 히트웨이브 ML은 고객이 머신러닝 데이터베이스를 코어 데이터베이스와 별도로 관리해야 하는 수고를 덜어준다. 완전 자동화된 히트웨이브 ML의 모델 학습 프로세스는 주어진 데이터 세트에서 지정된 작업에 최적화된 특징(feature)과 초매개변수(hyper-parameter), 알고리즘을 갖춘 모델을 생성한다. 히트웨이브 ML에서 생성한 모든 모델과 예측 결과에는 설명도 함께 제공된다.

오라클은 뉴머라이(Numerai), 노마오(Nomao), 은행권 마케팅(Bank Marketing) 등의 데이터 세트를 비롯 분류 및 회귀 분석 작업을 위해 일반에 공개된 다양한 머신러닝 데이터의 벤치마크 결과를 공개하였다. 가장 작은 클러스터로 구성된 머신러닝 모델의 경우 히트웨이브 ML은 아마존 레드시프트 ML 대비 평균 1%의 비용으로 25배 빠른 학습이 가능하다. 더 큰 규모의 히트웨이브 클러스터에서 학습할 경우 레드시프트 ML 대비 성능 향상폭이 더욱 증가한다고 한국오라클은 주장했다.

오라클 MySQL 히트웨이브 ML은 머신러닝 수명 주기 전반에 걸쳐 자동화 기능을 적용했다.

한국오라클은 “MySQL 히트웨이브 이용자들은 기존에 많은 시간이 소요되던 훈련을 빠른 시간 안에 효율적으로 완료할 수 있기에 주기적인 모델 재학습을 통해 잦은 데이터 변경 사항도 반영할 수 있어 모델을 최신 상태로 유지할 뿐 아니라 예측의 정확성 또한 향상시킨다”고 강조했다.

MySQL 히트웨이브 ML 기능은 전 세계 37개의 모든 오라클 클라우드 인프라스트럭처(OCI) 리전에서 MySQL 히트웨이브 데이터베이스 클라우드 서비스에 포함되어 제공된다. 이번 발표로 오라클은 자사가 MySQL 클라우드 데이터베이스 서비스에서 트랜잭션 프로세싱과 분석, 머신러닝 기능까지 제공하는 유일한 업체라고 주장했다.

머신러닝 기능 외에도 실시간 탄력성(real-time elasticity), 데이터 압축(data compression) 기능 등이 추가됐다. 노드 숫자에 상관없이 클러스터의 크기를 확대, 축소할 수 있도록 지원하는데 이 과정에서 시스템 운영이나 쓰기 작업이 중단되지 않으며 클러스터의 리밸런싱(rebalancing)도 불필요하다. 데이터 압축 기능은 노드 당 데이터 처리량을 2배로 늘리고 비용은 50% 가까이 줄이면서도 가격 대비 성능을 동일하게 유지할 수 있게 해준다.

비용 절감을 위해 고객이 히트웨이브를 잠시 중지할 수 있는 일시 정지 및 재가동(pause-and-resume) 기능도 새롭게 추가되었다. 재가동 시에는 MySQL 오토파일럿에 필요한 데이터와 통계가 히트웨이브에 자동으로 로드된다.

오라클 MySQL 히트웨이브 ML와 스노우 플레이크의 성능비 비교 (자료:오라클)

기타 클라우드 데이터베이스 서비스 대비 히트웨이브 ML 기능의 장점은 다음과 같다.

▷완전 자동화된 모델 교육(Fully Automated Model Training): 히트웨이브 ML은 모델을 생성하는 모든 개별 단계가 완전히 자동화되어 개발자의 개입이 필요 없다. 이는 별도의 수작업 없이도 완료되는 훈련 프로세스와 더욱 정확한 결과를 얻을 수 있도록 잘 훈련된 모델로 이어진다.

▷모델 및 추론 설명(Model and Inference Explanations): 모델과 함께 설명이 제공되어 개발자가 머신러닝 모델의 행동을 이해할 수 있도록 돕는다. 예를 들어 은행에서는 고객의 대출이 거부된 경우 모델이 어떠한 매개변수를 고려했는지, 모델에 편향된 부분이 존재하는지를 확인할 수 있어야 한다. 예측의 설명가능성(explainability)은 머신러닝 모델이 특정 결과를 예측한 이유를 알려주는 기술이다.

오늘날 머신러닝 모델을 기반으로 내린 결정에 대한 기업의 설명이 필수화되면서 예측 설명의 중요성이 커지고 있다. 히트웨이브 ML은 모델 학습 과정의 일부로서 모델 설명과 예측 설명을 통합한다. 따라서 히트웨이브 ML에서 생성된 모든 모델은 모델뿐 아니라 추론 설명을 함께 제공하고, 이 덕분에 추론 설명을 위해 데이터를 학습하는 시간이 별도로 필요하지 않다.

▷초매개변수 조정(Hyper-Parameter Tuning): 히트웨이브 ML은 초매개변수를 조정하기 위해 경사탐색(gradient search-based) 기반의 새로운 환산 알고리즘(reduction algorithm)을 구현한다. 이는 모델의 정확도를 훼손하지 않으면서도 초매개변수의 병렬 탐색이 가능하다. 초매개변수 조정은 머신러닝 모델 훈련에서 가장 많은 시간을 소요하는 작업으로, 이 기능으로 머신러닝 모델 구축 속도가 더욱 빨라졌다.

▷알고리즘 선택(Algorithm Selection): 프록시 모델(proxy model)은 복합적인 모델 전체의 특징들을 보여주는 단순한 모델을 말한다. 히트웨이브 ML은 이러한 프록시 모델 개념을 사용하여 학습을 위한 최적의 머신러닝 알고리즘을 결정한다. 간단한 프록시 모델을 이용해 정확도의 손실 없이 알고리즘을 효율적으로 선택할 수 있다. 다른 데이터베이스 서비스의 경우 머신러닝 모델 구축을 위한 프록시 모델 기능은 없다는 게 한국오라클의 주장이다.

▷지능형 데이터 샘플링(Intelligent Data Sampling): 히트웨이브 ML은 모델 훈련 과정에서 적은 비율의 데이터를 샘플링하여 성능을 향상시킨다. 이러한 방식은 데이터 세트에서 대표적인 데이터 지점을 모두 수집할 수 있다.

▷특징 선택(Feature Selection): 특징 선택은 머신러닝에서 학습하고자 하는 데이터의 특징을 선택할 때 도움을 주며 이는 예측을 생성하는 머신러닝 모델의 행동에 영향을 미친다. 해당 기능을 위해 히트웨이브 ML에서 사용된 기술은 다양한 분야와 애플리케이션에서 광범위한 데이터를 대상으로 훈련되었다. 히트웨이브 ML은 이렇게 수집된 통계와 메타정보에서 새로운 데이터 세트에서도 관련 특징을 효율적으로 판별할 수 있다.

상단영역

본문영역