솔루션

[금융IT이노베이션] 효성인포메이션 “생성형 AI의 활용, 고성능 스토리지가 뒷받침돼야”

이종현 기자
12월7일 서울 중구 롯데호텔에서 디지털데일리가 개최된 '제19회 2024년 전망, 금융IT 이노베이션' 행사 전경
12월7일 서울 중구 롯데호텔에서 디지털데일리가 개최된 '제19회 2024년 전망, 금융IT 이노베이션' 행사 전경

[디지털데일리 이종현기자] 오픈AI의 ‘챗GPT’로 대표되는 생성형 인공지능(AI)이 등장은 정보기술(IT) 업계에 적잖은 충격을 가져왔다. 최초 등장 이후 1년의 시간이 흘러 기업들은 생성형 AI를 자사의 비즈니스에 어떻게 녹여낼지에 대한 고민을 이어가고 있다. 그 과정에서 생성형 AI를 위한 데이터, 그리고 그 데이터를 처리할 고성능 스토리지에 대한 관심도 커지는 중이다.

효성인포메이션시스템(이하 효성인포메이션) 데이터사업팀의 권동수 전문위원은 <디지털데일리>가 7일 소공동 롯데호텔에서 진행한 ‘제19회 금융IT 이노베이션 콘퍼런스’에서 ‘생성형 AI 환경을 위한 데이터 레이크하우스 전략’을 주제로 생성형 AI를 위한 스토리지 트렌드와 사례를 공유했다.

권 위원이 주안점을 둔 것은 AI의 근간이라고 할 수 있는 데이터(Data)다. 그는 “우리는 많은 데이터를 투입할수록 AI가 더 똑똑한 결과를 만들어 낸다는 것을 알고 있다. 그리고 챗GPT는 원본 데이터를 가공해 분석용 데이터를 만들고, 분석용 데이터를 더 빠르게 돌릴 수 있는 환경이 필요하다는 것을 확실학 인식시켜준 사례”라고 말했다.

생성형 AI 시장이 빠르게 성장하는 가운데 생성형 AI와 같은 퍼블릭 클라우드 기반의 시스템이 아닌 온프레미스에서 생성형 AI를 활용하는 방법에 대한 고민도 이어지고 있다. 데이터를 외부망에 연계하지 말고, 내부망에서 활용코자 하는 ‘프라이빗 AI’의 형태가 대표적이다.

이에 대한 해답은 오픈소스로 공개되는 대규모언어모델(LLM)에 있다. 권 위원은 “기업들이 무료로 사용할 수 있는 파운데이션모델(FM)이 굉장히 많이 나오고 있다. 구글의 람다(LamDA)2, 메타의 라마(Llama)2, 아랍에미리트(UAE)의 팰컨 등. 온프레미스에서 오픈소스의 챗GPT만 사용하는 것이 아니라, 내부에서 파인튜닝을 할 수 있는 모델이 생겨난 상황”이라고 전했다.

효성인포메이션은 이런 수요 증가의 수혜를 누리는 중이다. 기업들이 내부 데이터 유출에 대한 고민 없이 온프레미스에서 프라이빗 클라우드를 구축하는 프로젝트를 진행함에 따라 올해 여러 데이터베이스(DB) 및 대규모언어모델(LLM) 프로젝트를 수주하는 성과를 거뒀다는 설명이다.

권 위원은 “생성형 AI는 파운데이션모델만 있다고 해서 가능한 것이 아니다. 데이터를 처리하려고 하면 결국 시스템이 필요하다. 그리고 그 시스템은 생성형 AI의 등장 이후 테라바이트(TB)를 넘어 페타바이트(PB)까지 늘어난 데이터를 처리할 수 있어야 한다”고 밝혔다. 생성형 AI와 데이터는 떨어질래야 떨어질 수 없다는 것을 강조했다.

기업들의 고민은 데이터 처리에 소요되는 비용이다. 한국데이터산업진흥원의 조사에 따르면 데이터 저장 비용은 1940년부터 15개월마다 약 50%씩 감소하고 있다. 하지만 실제 현장에서 체감하는 스토리지의 비용은 그렇게 낮아지지 않은 상태다. 이에 대해 권 위원은 기업이 처리하는 데이터의 양이 그만큼 높아졌기 때문이라고 설명했다.

기업의 부담 증가의 요인 중 하나는 ‘다크 데이터’의 증가다. 다크 데이터는 의사결정이나 이해를 위한 수단으로 활용되지 않는 데이터를 뜻한다. IT 업계에서는 기업의 전체 데이터 중 80%가량이 다크 데이터로 파악하고 있다.

12월7일 서울 중구 소공동 롯데호텔에서 <디지털데일리>가 개최한 제19회 금융IT 이노베이션 콘퍼런스에서 '생성형 AI 환경을 위한 데이터 레이크하우스 전략'을 주제로 발표 중인 효성인포메이션 권동수 전문위원
12월7일 서울 중구 소공동 롯데호텔에서 <디지털데일리>가 개최한 제19회 금융IT 이노베이션 콘퍼런스에서 '생성형 AI 환경을 위한 데이터 레이크하우스 전략'을 주제로 발표 중인 효성인포메이션 권동수 전문위원

권 위원은 “데이터를 모아놨는데 이걸 통해서 인사이트도 안 나오고, 어떻게 활용할 방법도 모르겠고. 다크 데이터를 수집하거나 분석할 만한 도구가 없는 상황에서 외부 데이터까지 활용하다 보니 너무 많이 쌓이고 있다”고 말했다.

그는 이런 문제의 해결에 특화된 기업이 효성인포메이션이라고 피력했다. 데이터 처리를 위한 전문 소프트웨어(SW)와 고성능 스토리지, 이를 잘 활용할 수 있도록 지원하는 전문 인력을 갖춘 점을 내세웠다.

실제로 효성인포메이션은 데이터 처리에서 남다른 인지도를 가진 기업이다. 현재 IT 업계에서 일상적으로 사용되는 데이터 레이크(Data Lake)라는 용어는 데이터 통합 및 분석 기업 펜타호(Pentaho)의 최고기술책임자(CTO)인 제임스 딕슨(James Dixon)이 처음으로 제시했다. 그리고 펜타호는 효성인포메이션의 합작사인 히타치데이터시스템즈에 인수됐다. 그리고 효성인포메이션은 빅데이터 사업 브랜드로 펜타호를 서비스하는 중이다. 효성인포메이션이 데이터 레이크의 ‘원조’라 자신할 만한 배경이다.

권 위원은 “금융의 경우 정보계시스템이 핵심 시스템인데, 과거에는 데이터 레이크와 정보계시스템이 별도로 구성됐다. 그리고 최근에는 이를 통합하는 데이터 레이크하우스(Data Lakehouse)라는 기술적인 방안이 생겼다. 다크 데이터의 발생이나 분석의 어려움을 해소할 만한 시스템과 도구가 생겨난 상황”이라고 전했다.

2010년대에 개념이 등장한 데이터 레이크는 점차 개념이 확장되고 있다. 초창기 다양한 형태의 원본(Raw) 데이터를 모으는 저장소라는 개념의 1세대에서 다양한 데이터를 저장할 수 있는 오브젝트 스토리지 기반의 기업의 1차 저장소 역할을 맡는 2세대로 진화했다.

권 위원은 “최근에는 한 단계 기술이 더 발전해 오브젝트 스토리지의 개방형 테이블 형식을 제공하는 아파치 아이스버그 등이 등장하면서 데이터 레이크하우스에서 테이블 데이터 조회까지 가능하게 됐다. 초고성능 병렬파일시스템(HCSF)와 그래픽처리장치(GPU) 기반의 고성능컴퓨팅(HPC)을 결합한 고성능 데이터 레이크하우스가 탄생한 것”이라고 피력했다.

그는 콘퍼런스를 찾은 금융권 관계자들에게 “이제는 시스템을 구축하는 것이 아니라 그 시스템에서 어떤 모델을 돌릴 것인지, 어떻게 그 모델의 퍼포먼스를 낼 것인지를 고민해야 한다”고 강조했다.

실제 고객 사례로 로컬에서 샘플링된 데이터를 돌릴 때는 GPU를 거의 최대치로 활용하는데 네트워크 연결 스토리지(NAS)나 스토리지 전용 네트워킹(SAN)과 연결하는 순간 GPU 활용도가 떨어진 사례를 언급했다. NAS, SAN의 데이터를 끌어오지 못해 생기는 병목현상이다.

권 위원은 “엔비디아의 GPU H100 같은 경우 한 대당 4억, 5억을 한다. 그런데 비싼 GPU를 사더라도 메타 데이터를 처리하는 과정에서 병목현상이 발생하면 자원을 제대로 활용하지 못한다”고 피력했다.

그는 자사의 AI를 위한 스토리지 HCSF는 메타 데이터의 분산 처리, 또 핫/콜드 데이터 등에 대한 정책 관리를 하나의 데이터 레이크 안에서, 비휘발성메모리익스프레스(NVMe) 솔리드스테이트드라이브(SSD)와 오브젝트 스토리지를 자동으로 관리하는 기능을 갖췄다고 강조했다.

권 위원은 생성형 AI를 위한 시스템 구축을 고민 중인 이들을 위한 팁으로 “고객이 어떤 퍼포먼스를 내야 하는지에 대한 요구사항이 명확해야 한다. 그리고 HPC를 이용한 데이터 레이크 구축 경험을 갖춘 국내 인력을 갖췄는지를 꼭 살펴야 한다. 금융권 시스템의 경우 정말 많은 데이터, 애플리케이션(앱)을 연계하려고 하는데 이걸 필요할 때마다 해외 인력 불러서 할 수는 없지 않나”라며 “경험이 많은 기업, 그리고 제품의 성능을 꼭 확인해야 한다”고 조언했다.

이종현 기자
bell@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널