솔루션

“AI 원천은 데이터, 국내 기업 위한 데이터셋 필요”

이종현 기자
2월16일 서울 중구 NIA 서울사무소에서 진행된 제2차 AI 데이터 융합 네트워크를 진행 중인 박윤규 과기정통부 2차관
2월16일 서울 중구 NIA 서울사무소에서 진행된 제2차 AI 데이터 융합 네트워크를 진행 중인 박윤규 과기정통부 2차관

- 카이스트 최재식 AI대학원 교수, 공공 데이터셋 필요성 강조

[디지털데일리 이종현기자] “인공지능(AI) 생태계가 대기업 위주로 형성되고 있는데, 장비의 영향도 있지만 동시에 데이터 때문이기도 하다. 많은 자본을 가진 기업들이 시장을 앞서나갈 수밖에 없는 구조다. 우리 스타트업들이 성장할 수 있도록 문제없이 사용할 수 있도록 데이터를 지원해야 한다.” (카이스트 김병필 기술경영학부 교수)

16일 과학기술정보통신부(이하 과기정통부) 박윤규 제2차관은 서울 중구 한국지능정보사회진흥원(NIA) 서울사무소에서 ‘제2차 AI 데이터 융합 네트워크’(이하 AI네트워크)를 개최했다. AI가 여러 분야로 확산될 수 있도록 하는 방법을 찾고 현장에서 필요로 하는 데이터를 공급할 수 있는 과제를 발굴하는 것이 주요 역할이다.

이날 회의에서는 AI와 관련된 최신 트렌드, 그리고 AI 원료가 되는 데이터셋 등이 폭넓게 논의됐다. 법률, 교통‧물류, 제조‧로보틱스, 국방, 농림축수산 등 AI네트워크의 각 분과별 활동에 대한 소개와 함께 각기 다른 활용사례 및 애로사항 등이 공유됐다.

회의에 앞서 발표를 맡은 카이스트 최재식 AI대학원 교수는 메타의 대규모언어모델(LLM)인 ‘라마(Llama)’를 조명했다. 오픈AI가 ‘챗GPT’로 생성형 AI 시장을 열었다면 메타는 라마를 통해 작은 오픈소스 모델로도 충분한 성능을 발휘할 수 있음을 보여줬다는 것이다.

최 교수는 국내 AI 생태계를 확산시키기 위해서는 AI의 근간이 되는 데이터가 중요하다고 강조했다. 네이버나 LG 등 자체 데이터를 보유하고 있는 기업의 경우 자체 AI를 개발할 수 있지만 그렇지 못한 스타트업에게는 정부에서 제공하는 공공 데이터셋이 꼭 필요하다는 주장이다.

그는 “공공 데이터셋 사업의 가장 큰 특징은 저작권 문제가 해결된 데이터라는 점”이라며 “스타트업들이 라마와 같은 오픈소스 모델에 공개된 데이터셋을 더하는 식으로 서비스를 할 수 있는 생태계를 키워야 한다”고 피력했다.

AI네트워크에서 법률분과를 담당하고 있는 카이스트 김병필 교수는 어도비가 생성형 AI 서비스인 ‘파이어플라이’를 출시하면서 이용약관에 면책조항을 넣은 사례를 소개했다.

그는 “어도비는 파이어플라이를 출시하면서 자신의 소프트웨어(SW)를 이용하는 사람이라면 혹시라도 저작권 침해 소송에 휩싸일 때 비용 부담을 어도비가 다 하겠다는 내용을 약관에 넣었다”며 “그럴 수 있었던 것은 어도비가 데이터를 어마어마하게 쌓아서, 저작권 문제가 없는 데이터로 AI를 학습시켰다는 자신감 덕분”이라고 말했다.

또 김 교수는 “오픈AI를 상대로 뉴욕타임스가 소송을 제기했다. 이런 사례를 보면 앞으로 저작권이 미래 AI 발전에 큰 장애물이 될 것이라는 생각이 든다”면서 “정부가 저작권이나 개인정보 등 문제를 해결한 데이터셋을 잘 만들어 기업들에게 제공한다면 우리나라 스타트업들에게 굉장히 좋은 기회가 될 것”이라고 피력했다.

행사를 주재한 과기정통부 박윤규 차관은 “AI 경쟁력을 갖기 위해서는 이를 잘 활용할 수 있는 인프라를 만드는 것이 국가의 역할”이라며 “AI의 재료인 데이터를 보다 잘 활용할 수 있도록 현장의 목소리를 들으며 체계를 정비하겠다”고 전했다.

이종현 기자
bell@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널