AI

[MS AI 서울] “기밀 데이터 학습 NO”...MS가 ‘기업용 챗GPT’ 개발 돕는 법

이안나 기자
스콧 한셀만 개발자 커뮤니티 부사장 [ⓒ 마이크로소프트]
스콧 한셀만 개발자 커뮤니티 부사장 [ⓒ 마이크로소프트]

[디지털데일리 이안나기자] 생성형 인공지능(AI)은 빠르게 일상생활을 뒤바꿨고, 기업들 역시 생성형AI 장점을 인지하고 있다. 하지만 기업들은 보안 우려로 생성형AI 적극적인 도입을 주저하는 분위기다. 마이크로소프트(MS)는 이런 우려를 잠재우기 위해 기업 기밀 데이터는 대규모언어모델(LLM)이 학습하지 않는다는 점을 강조한다.

1일 마이크로소프트에 따르면 회사는 전날인 4월30일부터 ‘마이크로소프트365 코파일럿’에 한국어 버전을 제공하기 시작했다. 이제 국내 사용자들도 워드·엑셀·파워포인트·아웃룩 등 M365 앱을 통해 한국어 명령으로 콘텐츠를 생성하고 데이터를 분석하는 등 업무를 수행할 수 있다.

전 세계적으로 M365 코파일럿 등 생성형AI를 활용해 업무 효율을 높이는 사례는 급증하고 있다. 기업들 역시 자체 데이터를 활용해 맞춤형 답변을 내놓는 AI 챗봇 필요성을 언급한다. 하지만 기업 기밀 데이터가 외부로 유출될 수 있다는 우려는 ‘기업용 챗GPT’ 도입에 장벽을 만들고 있다.

특히 대규모언어모델(LLM)은 수백 기가바이트 규모 거대한 모델이다. 인프라 비용 부담을 줄이기 위해 온프레미스보다 클라우드에서 제공되는 경우가 많다. 오픈AI 챗GPT나 MS 코파일럿 역시 퍼블릭 클라우드 MS 애저 플랫폼을 통해 제공한다.

기업이 필요로 하는 양질 결과물을 얻기 위해선 LLM에 각종 중요 정보를 입력해야 하는데, LLM이 기업 데이터를 학습해 클라우드에 제공한다는 점을 고려하면 기업들은 정보 유출이 걱정될 수밖에 없다. LLM이 기업 데이터를 학습한 상황에선, 외부인이 프롬프트에 교묘하게 질문을 던져 경쟁사 내부 정보를 파악하는 것도 가능하다.

M365 코파일럿
M365 코파일럿

MS는 기업들이 생성형AI를 걱정없이 도입할 수 있도록 이런 우려를 없애는 방안을 제시했다. 기업 자체 데이터를 AI가 학습하거나 재사용하지 않고, 사용자 업무 활동 패턴만 활용한다는 의미다.

스콧 한셀만 MS 개발자 커뮤니티 부사장은 전날 양재 aT센터에서 열린 ‘MS AI 투어 인 서울’에 참석해 “고객 데이터는 LLM을 학습시키는 데 사용되지 않는다”며 “LLM은 데이터베이스(DB)가 아니라는 점을 인식하는 게 중요하다”고 말했다.

예를 들어 M365 코파일럿은 기업 사용자 일상적인 문서 작성, 이메일 작성 등 업무 활용을 관찰하고 학습한다. 반면 M365에 작성되는 제품과 재무 정보, 고객 정보 등 민감한 정보는 학습하지 않는다. 이러한 방식으로 사용자는 개인 맞춤형 AI 기능을 활용해 생산성을 높이면서 기업은 데이터 보안을 유지할 수 있다.

한셀만 부사장이 코파일럿 시연을 하며 “로컬 PC 환경에서 이용할 수 있는 LLM을 구축할 수 있게 됐다”며 “통신이 연결되지 않은 랩탑 GPU로 AI를 개발하는 것이 가능하다”고 강조한 것 역시 LLM이 외부로 데이터를 보내거나 받지 않는다는 점을 강조한 것이다.

실제 국내 일부 대기업들은 외부 LLM을 도입해 기업 자체적인 챗봇 서비스를 도입하기 시작했다. LG전자 H&A 사업본부는 MS에서 제공하는 애저 오픈AI GPT와 데이터 스키마를 활용해 기업용 데이터분석 코파일럿 ‘찾다(CHATDA)’를 만들었다. 자연어 질문으로 데이터 분석이 가능해졌다.

SK이노베이션은 방대한 데이터를 다루기 위해 MS 애저 플랫폼을 도입했다. 구성원들은 포털에서 데이터를 확인하고, 필요한 데이터를 요청하면 애저 기반 파이프라인을 통해 자체 DB에 데이터가 적재된다. OCR 난이도를 낮추기 위해 MS 도큐먼트 인텔리전스를 활용, 자연어를 개발에 활용하고 있다. MS와 협업으로 사내용 챗봇과 RAG 기반 기술문서 Q&A도 만들었다.

이안나 기자
anna@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널