데이터 시대에 기업 성패는 데이터 경쟁력에 달렸다. 국내는 물론 세계 기업이 조직 내 다양한 환경에서 발생하는 각양각색 수많은 데이터를 유기적으로 결합하고 분석해 이를 비즈니스 인사이트로 도출하는 빅데이터 전략과 방법론 찾기에 분주하다. 해외 빅데이터 선진국은 다양한 빅데이터 에코 시스템으로 연결성과 확장성을 높여 빠르고 효율적인 활용으로 비용과 시간을 줄이고 있다. 많은 기업이 주도권 쟁탈에 뛰어들고 있는 가운데 빅데이터 통합 분석 플랫폼은 필수요건이 되고 있다.

지금 기업에 필요한 빅데이터 전략은?

빅데이터 통합이 필요한 이유는 기존 ERP, 오라클 등 데이터뿐만 아니라 생산 환경에서 설비 관련 데이터, 온도와 습도 등 기업이 통합 방법을 찾아야 하는 새로운 데이터 소스가 점점 많아지기 때문이다. 기업은 생산 과정 문제 해결, 생산량과 손실 예측 등 일반적인 빅데이터 분석 결과 이외 새로운 분석 인사이트를 얻어 업무 효율과 비즈니스를 향상시키는 과제를 해결해야 한다. 거의 모든 산업 부문에서 빅데이터 분석으로 비즈니스 프로세스 효율화, 새로운 수익원 창출, 의사결정 결과 예측을 통한 비즈니스 리스크 최소화를 위해 산재된 많은 양의 데이터를 통합해 단일 빅데이터 시스템 구축에 박차를 가하고 있다.

그러나 안타깝게도 많은 기업은 '빅데이터로 무엇을 할 것인가' '빅데이터로 어떤 목표를 달성하고자 하는가'에 대한 제대로 된 방향 설정이 부재하다. 게다가 빅데이터 전략이나 전문 인력도 부족한 상황이다. 현업에서 IT 부서 도움 없이 분석 업무에 집중하려면 자동화된 데이터 통합 및 분석 플랫폼이 절실하다. 이에 빅데이터를 효율적으로 분석하기 위해 데이터 통합 및 준비 과정을 간소화하고 그 과정을 연계한 엔드-투-엔드 빅데이터 통합 분석 솔루션이 주목받고 있다. 솔루션 중 '데이터 통합'과 '데이터 분석'이 함께 녹아 든 히타치 밴타라 및 효성인포메이션시스템 펜타호(Pentaho)가 다양한 산업군에서 성공적으로 안착하며 이 시장을 견인하고 있다.

빅 데이터 통합과 분석 판도를 바꾸는 '펜타호'

펜타호는 세계 1800여 고객을 확보한 빅데이터 통합과 분석 플랫폼이다. 하이브리드 및 멀티 클라우드 환경 연동이 쉽고 정형 및 비정형 데이터에 대한 실시간 수집 및 통합 작업부터 머신러닝 모델 구축 및 업데이트, 모델 기반 고급 분석, 시각화와 리포팅까지 일련의 과정을 모두 제공한다.

빅데이터 통합 분석 플랫폼 펜타호 구조도
빅데이터 통합 분석 플랫폼 펜타호 구조도

① 강력한 빅데이터 통합·처리 및 실시간 데이터 처리

펜타호는 어떤 환경에서든지 데이터를 수집해 가치를 찾아낼 수 있다. 전통적인 DBMS를 비롯해 웹에서 발생하는 Json, xml, 각종 로그, 빅데이터 환경인 하둡(Hadoop) 또는 S3 (클라우드 볼륨), AWS, Azure 클라우드 환경에도 연결해 데이터를 끌어올 수 있다(60여개 이상 DB 커넥션 지원). 여러 형태 데이터를 수집한 뒤 통합 및 전처리 과정을 거치면서 분석 가능한 데이터로 가공한다.

OLAP 배치 작업뿐만 아니라 실시간 데이터 처리도 원활하게 지원한다. 데이터 메시징 큐인 카프카(Kafka) 또는 MQTT, JMS에서 스트리밍 데이터를 받아와 실시간으로 처리하고, 원하는 형태로 적재할 수 있다. 이를 활용해 실시간 지표 및 공정 현황 등도 파악할 수 있다. 스파크(Spark)를 포함한 다양한 처리 엔진을 지원한다. 펜타호 GUI 기반 워크플로로 코딩 없이 원하는 데이터 전처리 과정을 설계하고, 이를 스파크 환경에서 실행해 펜타호 처리 엔진뿐만 아니라 빅데이터 분산 처리 환경을 이용할 수 있다.

② 데이터 블랜딩 및 머신러닝·AI 포함한 고급 분석의 유기적 결합

펜타호 플랫폼에서는 다양한 소스에서 수집된 데이터를 블랜딩(전처리, 변환작업 등)하는 과정을 하나의 워크플로로 구현한다. 또 R과 파이선(Python) 등 오픈소스 분석엔진 라이브러리를 직접 사용해 머신러닝 및 딥러닝 알고리즘 기반 분석·예측 모형을 개발할 수 있다. 머신러닝 기반 모형 구축부터 실시간 업데이트까지 전 과정 자동화를 구현한다. 따라서 데이터 소스 추가 및 분석 알고리즘 적용 등 새로운 업무 프로세스를 즉각적으로 플랫폼 상에서 구현할 수 있어 비즈니스 상황 변화에 신속하게 대응하도록 지원한다.

③분석 업무 프로세스 자동화

빅데이터 분석 시스템을 구축한 뒤 스케줄링으로 데이터·분석 모델을 자동 업데이트할 수 있으며, 실시간으로 분석 결과를 얻고 활용할 수 있다. 데이터 수집 단계부터 블랜딩을 거쳐 머신러닝 기반 모형 개발 및 실시간 업데이트까지 전체 과정 자동화가 가능하다.

④ 보안 운영 강화

펜타호는 기존 워크플로 단계별 엔터프라이즈 레벨의 보안 및 관리가 가능하다. 버전관리, ACL(Access Control Lists), 권한 설정 등으로 직무 및 사용자에 따라 보안을 서로 다르게 설정해 관리할 수 있고, AD 및 LDAP 등 외부 인증 시스템과 연동해 보안을 강화할 수 있다. 데이터 레벨에서도 하둡(Hadoop)의 커버로스(Kerberos) 환경 및 녹스(Knox) 등과 연동해 보안 레벨을 강화한다.

다양한 산업군에서 빛을 발하는 빅데이터 통합 분석 플랫폼의 활용

펜타호는 국내외 다양한 분야 기업에 활용되고 있다. 플랫폼 상에서 데이터 통합이 쉽고 빠르게 자동화된다. 기존에 분절돼 있던 데이터 통합 및 분석 과정을 연계해 빠르게 인사이트를 도출, 기업 데이터 경쟁력을 높인다.

■국내 게임기업

국내 게임 기업에서는 실시간 대용량 스트리밍 데이터를 GUI 기반 자동화로 처리하고 있다. 10분에 약 200만건 카프카 데이터를 저장하고, 빅데이터 시스템을 ODS(Operating Data Store)로 활용해 기존 코딩과 비교해 빅데이터 처리 속도 및 정확도를 대폭 향상시켰다. 데이터 처리 및 적재 시간을 단축시켰을 뿐 아니라 데이터 업무 프로세스를 실시간 모니터링해 생산성 증대 효과까지 얻었다. 클라이언트 컴퓨터와 OS가 OS X(Mac)임에도 추가 설치 없이 진행할 수 있다.

■금융기관 나스닥

세계에서 두 번째로 큰 거래소인 나스닥에는 매일 100억개가 넘는 재무 정보 데이터 관리와 활동 내역 평가에 어려움이 있었다. 나스닥은 주식시장 인사이트 도출을 위해 월별 자산 시세 모델을 펜타호로 구축했다. 이를 통해 수익 20%를 차지하는 데이터 기반 분석 모델을 수익화해 업계 최고 이윤을 창출했을 뿐만 아니라 축적된 과거 데이터를 활용, 예측 분석을 효율적으로 구현했다.

■중국의 지역 철도청

중화인민공화국 철도공사가 관할하는 지역 철도청 BRB는 철도 운영 시스템 전반에 걸친 1600만개 이상 레코드 관리·처리를 위해 오라클DB 및 클라우데라 하둡 플랫폼이 필요했다. 3000마일이 넘는 선로에서 생성되는 데이터의 효율 관리 및 활용 방안 부재가 문제였다. 펜타호 도입 이후 안전 위험도를 최소화하고 사전 대응 지원이 가능해 연간 승객 여행 증가율 30%를 달성했다. 기존 데이터를 기반으로 사고 발생 패턴을 분석, 잠재적 위험요소를 파악하고 대처 방안도 수립할 수 있게 됐다.

■산업 기계 및 중공업

카터필러 마린 애셋(Caterpillar Marine Asset)은 펜타호 도입으로 8척 선박을 소유한 고객의 예인선 엔진 고장을 차단해 수명을 연장시켜 매년 낭비되는 연료 비용 2백만달러를 절감했다. 자체 대시보드 기능 개발에 필요한 시간과 비용 절감, 수집·적재·변환 기능으로 데이터 품질 및 무결성 보장을 위한 보안 및 업무 감독 개선 효과가 있었다. 펜타호 플랫폼 기반 자동화 데이터 통합 프로세스를 구현하고, 머신러닝 기능으로 예측적 유지보수를 향상시켰다.

차세대 빅데이터 분석 플랫폼이 가야할 길

국내 많은 기업은 데이터 통합에 쉽게 접근하지 못해 빅데이터 단편적 활용에 머무는 사례가 많다. 기업 빅데이터 활용 효율을 높이려면 빅데이터 프로젝트에 기업과 정부가 협력해야 한다. 또 데이터 생성, 수집, 접근, 사용, 외부 데이터와의 연계뿐만 아니라 데이터 사용과 관련한 법적 규제에 대해 깊은 이해가 필요하다.

효성인포메이션시스템은 2017년 DATA사업팀을 꾸리고 히타치 밴타라의 펜타호 기반 빅데이터 사업, 루마다 기반 IoT 플랫폼 사업, 그리고 HVMP(Hitachi Video Management Platform) 기반 영상 빅데이터 사업을 통합적으로 운영하고 있다. 펜타호를 통해 다양한 분야에서 쉽고 빠른 빅데이터 통합과 분석으로 기업이 인사이트를 제공하는 것을 목표로 한다.

올해는 빅데이터와 영상분석 및 IoT 분야를 결합하고 인프라를 통합해 산업에 적용할 수 있는 솔루션을 시장에 제공할 예정이다. 고객사 업무 환경 및 수요에 맞는 솔루션 공급을 위해 맞춤형 컨설팅과 프로젝트를 지원하는 데이터 전문 인력을 보유해 고객 빅데이터 분석 역량을 갖추도록 지원할 방침이다.

이향선기자 hslee@nextdaily.co.kr

관련기사

저작권자 © 넥스트데일리 무단전재 및 재배포 금지