많은 기업들이 비즈니스 혁신을 도모할 수 있는 거대한 양의 잠재적 데이터를 보유하고 있으나 극히 일부만 활용할 뿐이다. 이는 기업 내 데이터 사이언스 조직이 올바른 데이터에 접근하여 머신러닝 모델을 효과적으로 개발하고 구축할 수 있는 도구가 없었기 때문으로 분석된다. 때문에 모델 개발에 장시간이 소요고 정확도와 안정성이 떨어져 실제 업무 환경에까지 적용하지 못하는 경우가 대다수였다.

오라클이 기업의 데이터 사이언스 활용을 지원하는 오라클 클라우드 데이터 사이언스 플랫폼(Oracle Cloud Data Science Platform)을 출시했다. 오라클 클라우드 인프라스트럭처 데이터 사이언스(Oracle Cloud Infrastructure Data Science)가 핵심 솔루션으로, 기업 내 협력 기반의 머신러닝 모델 개발과 교육, 관리 및 구축을 통해 데이터 사이언스를 수행한다.

오라클 클라우드 인프라스트럭처 데이터 사이언스는 개별 데이터 과학자(Data Scientist)에 중점을 두지 않고 기업 내 공유 프로젝트와 모델 카탈로그, 팀 보안정책, 재현성 및 감사성(auditability) 등 데이터 사이언스 조직이 다루는 주요 기능에 집중한다. 자동 머신러닝(AutoML) 알고리즘 선택과 튜닝, 모델 평가 및 모델 설명으로 최적의 데이터세트틀 자동으로 선택해준다.

이미지제공=게티이미지뱅크
이미지제공=게티이미지뱅크

AutoML 자동화 알고리즘 선택 및 튜닝으로 복수 알고리즘 및 하이퍼파라미터(hyperparameter) 구성을 위한 테스트 진행 프로세스를 자동화한다. 정확도 결과를 체크하고 사용을 위해 선택된 최적 모델과 구성을 확정한다. 데이터 과학자들의 작업 시간을 대폭 절감하고, 모든 데이터 과학자들이 가장 숙련된 실행전문가의 수준과 동일한 결과를 달성할 수 있도록 설계되었다.

자동화된 예측형 특징(predictive feature) 선택으로 방대한 양의 데이터세트로부터 자동적으로 주요 예측형 특징들을 식별해 데이터 도메인 지식을 활용해 특징을 만들어내는 과정을 단순화한다.

모델 평가 기능은 새로운 데이터에 대해 모델이 얼마나 좋은 성능을 보일지 평가하기 위한 종합적인 평가 매트릭스와 시각화 기능들을 포함한다. 시간에 따라 실제 데이터 활용을 위해 가장 최적의 모델에 순위를 매길 수 있다. 모델 평가는 기초 성능을 넘어, 예측할 수 있는 기본 행동을 고려하고 비용 모델을 활용해 결과도출에 있어 거짓 양성(false positives)과 거짓 음성(false negatives)의 다양한 영향들이 서로 통합될 수 있다.

예측결과를 도출하는데 있어 상대적인 가중치와 관련 평가 요소들의 중요성을 설명해 주는 기능이 자동화되어 있다. 예를 들어 데이터 과학자가 탑재된 범죄 방지 모델을 활용하면 이러한 범죄를 유발하는 요인들에 대해 설명할 수 있다. 이를 기반으로 필요한 비즈니스 과정을 수정해 나가거나 보호장치 또한 적용할 수 있다.

오라클 클라우드 데이터 사이언스 플랫폼은 오라클 클라우드 인프라스트럭처 데이터 사이언스,
오라클 자율운영 데이터베이스 상의 머신러닝, 오라클 클라우드 인프라스트럭처 데이터 카탈로그, 오라클 빅데이터 서비스, 오라클 클라우드 SQL, 오라클 클라우드 인프라스트럭처 데이터 플로우, 오라클 클라우드 인프라스트럭처 가상머신 서비스가 포함돼 있다.

그렉 파블릭(Greg Pavlik) 오라클 데이터 및 AI서비스 제품 개발 부문 수석부사장은 “오라클 클라우드 인프라스트럭처 데이터 사이언스는 개별 데이터 과학자의 전체 업무를 자동화하여 개인 생산성과 팀간의 협업이 향상돼 데이터 사이언스 프로젝트가 실질적인 기업의 비즈니스 가치로 높일 수 있도록 지원한다”고 밝혔다.

이향선기자 hslee@nextdaily.co.kr

관련기사

저작권자 © 넥스트데일리 무단전재 및 재배포 금지