일반

"우리 AI 믿을 만해요"... 누구 기준인데요? [real! AI Pro]

이건한 기자

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 인터넷 은어 중 'OO 호소인'이란 말이 있습니다. 무언가 '호소하다'는 동사와 '사람 인(人)'의 합성어로, 아닌 것을 맞다고 우기는 사람을 풍자적으로 이르는 말입니다. 관련한 농담으로, 요즘 AI 업계에는 '신뢰성 호소인'이 생길 지경이라고 합니다. 올해 'AI 환각'이나 '딥페이크' 문제 등으로 AI 신뢰성의 중요도와 인식 수준은 높아졌지만, 막상 실무 현장에서는 신뢰성에 대한 표준화된 정의나 측정 지표가 없었던 까닭입니다. 당연히 불필요한 혼란이 발생할 수밖에 없는데요. 이런 괴리가 현장에서 어떤 영향을 미치고 있는지 AI 데이터 전문기업 셀렉트스타의 김세엽 대표가 전해드립니다.

영어 점수 높으면 원어민과 막힘없이 대화하나요?

안녕하세요, 김세엽입니다. 연말을 맞아 돌아보니, 올해는 1년 전보다 AI 신뢰성에 대한 세간의 인식 수준이 무척 높아졌음을 체감할 수 있었던 해였습니다. 불과 지난해만 해도 AI의 성능이나 신뢰성을 평가하는 주요 수단은 주로 '벤치마크(Benchmark, 비교평가)'였습니다. 이는 상식이면 상식, 수학이면 수학, 코딩이면 코딩 등 다양한 도메인에 특화된 시험지를 만들고, 특정 AI 모델이 해당 벤치마크 시험에서 얼마나 고득점을 얻었는지 살펴보는 방식입니다.

하지만 막상 벤치마크 고득점 획득 모델의 효용이 실사용 환경에서는 효용이 기대에 미치지 못하는 경우가 많았습니다. 마치 영어시험 점수는 높은데 실제 외국인과의 대화는 어려워하는 사람이 많은 것처럼 말입니다. 이 때문에 AI 개발 업계는 물론, AI 도입 기업에서도 정량적인 벤치마크 점수 외에 현실성과 실용성을 반영한 신뢰성 평가의 필요성을 중요하게 인지하기 시작했습니다.

실제로 저희에게 챗봇 도입을 문의했던 한 기업은 초기만 해도 일반적인 수준의 '관련성(relevancy)' 지표 평가를 요청했습니다. 그런데 최근에는 관련성에 대한 정의 자체를 ▲답변 관련성 ▲문맥 관련성 등으로 세분화하길 원하더군요. 현장에서 AI를 경험해 본 기업들이 이제는 실용성을 보다 객관적으로 보게 되면서, 점점 구체적인 신뢰성 충족 지표를 요구하기 시작한 겁니다.

저희는 이 변화를 긍정적으로 평가합니다. AI 시장이 점차 성숙하고 있다는 시그널이자, 동일한 서비스라면 결국 신뢰성이 곧 효용이자 경쟁력이란 인식이 자라나고 있다는 증거니까요. 실제로 AI 신뢰성 평가 도구를 보유한 저희 셀렉트스타에도 지난 1년간 관련 비즈니스 문의가 10배 이상 증가한 점을 보며, 이런 변화를 더 톡톡히 체감할 수 있었습니다.

셀렉트스타의 LLM 신뢰성 평가 솔루션 평가 결과 페이지 데모
셀렉트스타의 LLM 신뢰성 평가 솔루션 평가 결과 페이지 데모

입씨름은 길어지고... 우리 손에 사전은 없는 격

하지만 애로사항도 있었습니다. 정작 'AI 신뢰성이란 무엇인가?'와 같은 개념 정의의 문제부터, '신뢰성 판단 기준은 신뢰할 수 있는가?' 같은 근본적인 질문도 생겨나기 시작한 겁니다. AI 신뢰성을 중요하게 여기는 인식은 빠르게 확산됐는데, 정작 국가나 업계 차원에서 통용될 만한 정의나 평가 기준에 대한 표준화 논의가 더디었던 지난 시간들의 결과물이었습니다.

이는 기업 간 AI 신뢰성 확보 협업 과정에서 다양한 비효율을 만들어 냅니다. 가령 고객사 A는 AI 신뢰성을 '품질과 안정성'을 아우르는 개념으로 보고, B 고객사는 품질만 보거나 C 고객사는 XAI(설명 가능한 AI)로 한정 짓는 등, 서로의 기준부터 다를 경우 최초 소통부터 어려움이 발생하기 쉽습니다. 마치 모호한 언어를 두고 다툴 때 사전이 없어 입씨름이 길어지는 것과 같지요.

심지어 고객사 내부의 기준조차 제각각인 경우도 있습니다. 한번은 '대고객용 생성형 AI 기반 상담 챗봇' 평가 과업 수행 중 수요처 내부 부서별로 고객 대응 정책의 우선순위 판단 기준이 모두 달랐던 사례가 있었습니다. 이와 같은 경우들에서 AI 신뢰성 제공자는 각 수요자의 개별 우선순위를 명확히 알기 어려우므로, 결국 일반적인 성능 평가 지표와 언어학적 적합성을 중심으로 기준을 정렬한 뒤 평가를 진행해야 하는 등의 문제가 계속 남게 됩니다.

[ⓒ DALL·E AI 생성 이미지]
[ⓒ DALL·E AI 생성 이미지]

정부와 AI 정책 및 연구기관이 나서야 할 때

자, 다음은 표준화의 주체입니다. "그렇게 문제라면 얼른 신뢰성 정의와 평가 기준을 표준화하면 되지 않느냐" 물을 수 있겠죠? 하지만 그런 일은 작은 스타트업의 영향력으론 불가능한 일입니다. 따라서 아직은 국제기구 차원에서 세계 최초로 발표된 'Trustworthy AI(신뢰할 수 있는 인공지능)’ 가이드라인과 'EU AI법'을 기반으로 외부 권위에 기댄 평가지표로 고객사를 설득할 수밖에 없는 상황입니다. 혹은 대기업이 자체 거버넌스로 신뢰성 기준을 설정하면, 저희 같은 스타트업은 그 타당성과 별개로 해당 기준에 맞춰줘야 할 때도 많습니다. 이 모두가 결국 신뢰성의 정의와 평가 기준에 대한 표준화가 부족한 현재 국내 시장의 한계가 나타나는 대목입니다.

물론, 저희도 기존 벤치마크에서 사용되던 지표를 현실적이고 실질적인 기준을 포함해 보완하는 노력, 고객사 협의로 맞춤 평가 지표 및 기준을 재정의하는 과정을 통해 시장에서 좋은 평가를 받고 있습니다. 그러나 결국 공신력과 타당성을 담보하고, 비효율적인 조율 과정을 최소화하려면 보다 공적인 표준화 작업이 필요하단 아쉬움이 남습니다.

따라서 저는 이제 한국도 AI 신뢰성 확보의 중요성을 강조하는 만큼, 관련 논의 또한 정부와 업계 협의로 신속히 이뤄져야 할 때라고 봅니다. 해외에선 이미 신뢰성 표준화 작업이 일부 이뤄지고 있고, 우리가 AI 기본법 마련을 신속히 해낸 것처럼 이 역시 아직 늦지 않았다고 생각합니다.

신뢰성 충족 범위까지 세밀하게... '필수 인증'은 시기상조

또한 이를 위해 최근 설립된 국가AI위원회, AI안전연구소 등 관련 기관에서도 2025년도 아젠다와 추진 정책에 AI 신뢰성 정의와 평가 방법 표준화 등을 추가하면 좋을 것 같습니다. 마치 금융보안원이 금융 도메인에서의 표준화에 힘써주고 있는 것처럼 말이죠. 다만 이때 주의할 점도 몇 가지 제언하면 다음과 같습니다.

첫째, 한국에서 만든 기준이 세계적으로 통용되면 좋지만, 실질적으로 힘들 것이므로 국가 특성에 맞는 신뢰성 규칙과 평가 기준 마련이 우선입니다. 이 과정에서 특정 도메인에 국한되는 것이 아니라, 전반적으로 통용 가능한 기준 마련이 중요합니다. 둘째, AI 신뢰성 용어에 대한 정의뿐 아니라, 신뢰성이 어떤 범주까지 충족해야 하는지에 대한 합의까지 국가가 주도적으로 정리해 주어야 혼란이 최소화될 수 있습니다.

셋째, 무엇보다 국가 차원의 AI 신뢰성 표준화 작업 및 평가 인증 체계 수립의 병행이 필요합니다. 그러나 인증의 경우 필수로 지정하는 건 숙고가 필요합니다. 기업 규모나 특정한 형편으로 인증 기준을 충족하지 못하는 기업이 많아질수록 산업 성장은 오히려 저해될 것이기 때문입니다. 따라서 인증 획득 기업이 정부 사업이나 공공조달에서 가산점을 받는 형태처럼 인센티브 중심으로 정책이 운영된다면, 기업의 부담은 줄이고 참여도 제고할 수 있을 것이라 생각합니다.

신뢰성 기준 표준화 논의는 시작일 뿐

이 밖에도 정부와 업계, 나아가 AI 소비자까지 함께 고민하고 정립해야 할 과제들은 아직 많습니다. 예컨대 신뢰성 기준이 표준화되면 다음은 AI 오작동으로 인한 책임 주체를 명확히 하고, 이를 뒷받침할 법적·제도적 장치 마련이란 과제가 자연히 따를 겁니다. 결국 우리가 글로벌 AI 강국 도약을 합창하며 나아가기 위해선 단순 현금성, 혹은 사업성 지원뿐만 아니라 현장의 디테일한 애로사항 청취 및 해소에도 계속 힘을 모아야 한다는 이야기를 전하고 싶습니다.

끝으로 요즘 AI 신뢰성 측정이 일회성이 아닌 지속적인 검증과 개선의 영역이란 인식도 높아지는 경향이 느껴집니다. 관련해 '레드팀(Red Team, 약점 분석을 위한 가상공격)' 활동의 요구, 중요성이 높아지는 추세인데요. 다음 이야기에선 레드티밍 활동의 구체적인 의미와 사례를 소개해 드리겠습니다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널