[기고] '데이터레이크'…AI·고성능 컴퓨팅 빅데이터 향한다


효성인포메이션시스템 데이터솔루션팀 김도진 차장

최근 데이터가 폭증하면서 산재한 데이터를 한곳에 모으고 분석을 통해 인사이트를 창출하려는 기업이 늘고 있다. 데이터 저장과 관리를 위한 전략인 '데이터 레이크(Data Lake)'는 데이터 사일로(silo) 현상을 방지하고 분석을 위한 모든 종류의 기업 데이터를 취합하는 '데이터 중앙공급소' 역할을 하며, 데이터 경제 시대 핵심으로 부상하고 있다.

데이터 분석 요구사항은 다양하고 복잡하며 비용이 많이 든다. 각 워크플로 단계마다 고유한 컴퓨팅, 스토리지, 네트워크 요구사항이 존재하고, 데이터 관리 및 통합 문제로 사일로가 발생하기도 한다. 데이터 분석, 관리를 위해서는 다양한 응용 프로그램과 프로토콜 지원이 필요하고 대용량에 대한 확장성도 보장돼야 하며, 고성능과 짧은 지연 시간도 요구된다.

이를 해결하기 위해 새로운 저장소가 필요할 때마다 레거시 시스템에 연결하지 않고 데이터 유형에 상관없이 한 곳에 데이터를 저장할 수 있는 데이터 레이크의 중요성이 높아지고 있다.

데이터 레이크를 활용하면 미리 정한 목적 없이도 정보를 저장하고, 셀프서비스 분석 플랫폼으로도 사용 가능하다. 특히 데이터 레이크는 제조, 통신 산업 등 현장에서 생성되는 실시간 데이터까지 결합할 수 있어 데이터 혁신에 중요한 역할을 한다.

우선 데이터가 늘면 인프라 비용 부담도 덩달아 커진다. 이에 기업들은 유연성과 확장성이 뛰어난 클라우드로 데이터를 이전하기 시작했지만, 데이터 관리의 복잡성과 제조 및 통신 등 산업 현장에서 쏟아지는 엣지 데이터 관리가 걸림돌이었다. 필요한 장소에서 바로 데이터를 쓰고, 데이터 저장 및 관리 비용이 과도하게 커지는 것을 방지할 수 있는 인프라가 절실했다.

대규모 데이터를 처리하면서 전체 데이터를 한 곳에 담아 놓고 필요할 때 꺼내 쓸 수 있는 가장 비용 효율적인 솔루션은 오브젝트 스토리지다. 오브젝트 스토리지는 데이터를 파일이나 블록이 아닌 객체 단위로 관리하고, 모든 유형의 정형·비정형 데이터를 지원한다.

오브젝트 스토리지를 활용하면 사물인터넷(IoT) 센서 데이터나 동영상, 이미지 같은 새로운 유형의 데이터와, 기업 내에 쌓인 방대한 과거 데이터를 적절하게 활용함으로써 필요한 가치와 인사이트를 찾아낼 수 있다. 이런 이유로 최근 기업들의 수요 역시 크게 늘고 있다.

일례로, 데이터의 실시간 처리가 가능한 금융산업에 비해 제조산업에서는 ‘실시간 처리 및 분석’이 어려운 영역이었다. 그러나 오브젝트 스토리지 기반의 ‘데이터 레이크’를 통해 생산 활동 중 라인을 멈추지 않고, 간단한 분석을 통해 데이터를 바로 활용할 수 있는 길이 열렸다.

HCP 포트폴리오의 활용방안 [사진=효성인포메이션시스템]

아울러 데이터 폭증으로 한 번에 분석해야 할 데이터 양이 최소 수백 테라에서 페타바이트 이상으로 넘어가는 추세다. NVMe 기반 병렬처리 시스템은 수십 기가바이트 이상의 데이터 처리를 위한 분석 환경을 최적화 하기 때문에 폭증하는 데이터 처리에 효과적이다.

하지만 고가의 NVMe 스토리지는 페타바이트 이상을 저장하기에 비용 부담이 크고, 대부분 데이터는 초기에 많은 I/O를 소요하지만 시간이 지날수록 액세스 빈도가 급격히 낮아지는 특성이 있다. 이를 해결하기 위해 NVMe 기반의 초고성능 병렬 파일 시스템과 대용량 오브젝트 스토리지가 하나로 통합된 솔루션이 등장했다. 필요할 때만 고속으로 데이터를 가져와 분석에 활용할 수 있기 때문에 진정한 데이터 레이크 스토리지 환경을 구축할 수 있다.

오브젝트 스토리지는 대규모의 콜드 데이터(Cold Data, 사용 빈도가 낮은 데이터)를 안전하고 비용 효율적으로 저장하고 관리한다. 일반적으로 기업 내 핫(Hot) 데이터의 비율은 10~20% 정도이며, 콜드 데이터는 80~90%를 차지한다. 이들 데이터는 고성능 파일 스토리지와 오브젝트 스토리지가 분산 관리한다. 스토리지에서 핫 데이터를 처리하다 분석이 끝나고 콜드 데이터가 되면, 파일 스토리지에서 제공하는 티어링을 통해 안정적으로 오브젝트 스토리지로 이동시킨다. 고성능 파일 스토리지 영역은 NVMe 기반의 스케일아웃 방식으로 확장이 가능하다.

효성인포메이션시스템은 데이터 레이크 전략을 위해 데이터 타입에 상관없이 다양한 데이터를 저장하는 오브젝트 스토리지 ‘HCP’부터 데이터의 체계적인 관리를 지원하는 ‘루마다 데이터 카탈로그’, 빅데이터 통합 분석 플랫폼 ‘펜타호’를 기반으로 컨설팅부터 인프라, 솔루션 구축, 운영 서비스까지 올인원 서비스를 제공하고 있다. 여기에 고성능 컴퓨팅, 인공지능(AI), 머신러닝(ML) 등에 최적화된 스토리지 'HCSF'를 통해 시장 영역을 크게 넓히고 있다.

HCSF를 도입해 성공적으로 데이터 레이크 환경을 구현한 사례도 증가하고 있다. 한 글로벌 카드사는 실시간 부정거래 방지 시스템, 고성능 데이터 보호 등 새로운 분석 워크로드를 위한 고성능 스토리지로 HCSF를 활용하고 있다. 국내 한 대형 제조기업은 HCSF를 기반으로 데이터의 수집과 활용, 관리를 위한 데이터 레이크 및 통합 운영체계를 구축했다. 대용량 데이터 증가 시 선형적으로 확장 가능한 아키텍처와 고성능 데이터 자동 티어링을 통해 IT 비용 절감까지 기대하고 있다. 이 밖에도 신약 개발, 자율주행, 반도체 기업 등도 HCSF 도입 후 데이터 분석 성과를 높이고 있다.

효성인포메이션시스템은 한층 강화된 기술력과 다양한 사업 구축 경험을 토대로 데이터 레이크 시장을 적극 공략하고 있다. 효성인포메이션시스템의 ‘데이터 레이크’ 전략과 솔루션은 기업이 완벽한 데이터 혁신의 밑그림을 그리고 현실화할 수 있는 길을 활짝 열어줄 것이다.

효성인포메이션시스템 데이터솔루션팀 김도진 차장 [사진=효성인포메이션시스템]

/효성인포메이션시스템 데이터솔루션팀 김도진 차장








포토뉴스