일반

'믿을 수 있는' 교육 AI 구현 "해법은 결국 기술에" [real! AI pro]

이건한 기자

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 생성형 인공지능(AI)이 모든 산업의 변화를 주도하는 요즘, 교육은 그 변화가 유독 더딘 분야입니다. 무릇 교육이란 '학생에게 정확한 정보를 올바른 가치관으로 가르치는 것'이 중요한데, 현재 AI에 대한 대중의 인식은 아직 환각이나 폭력성이 100% 통제되지 않는 것으로 여겨지고 있기 때문이죠. 이에 많은 학부모가 AI와 교육의 접목은 시기상조라고 말하곤 합니다.

[ⓒ DALL·E AI 생성 이미지]
[ⓒ DALL·E AI 생성 이미지]

하지만 반대로 그 신뢰성 문제만 해결된다면? AI가 교육 혁신에 미칠 긍정적 영향력은 기대 이상일지도 모릅니다. AI의 강점인 방대한 사전학습 지식, 실시간 대화 및 콘텐츠 생성 능력만 보더라도 최소한 제한된 시간에만 소통할 수 있었던 선생님, 인쇄된 정보 이상을 제공할 수 없는 종이 교재의 빈틈을 충분히 메꿔줄 수 있을 것으로 예상되죠. 따라서 AI에 대한 선입견을 제거하기 위한 신뢰성 제고 연구도 현재 어떤 영역보다 교육 AI 분야에서 심도 깊게 이뤄지고 있습니다.

특히 기술의 문제는 기술로 해결한다는 관점에서 유의미한 성과들도 나타나고 있는데요. 이번 주제에서는 김수인 엘리스그룹 CRO(최고연구책임자)가 신뢰할 수 있는 교육용 AI 구현에 필요한 기술적 접근 방식과 효용을 알기 쉽게 설명해 드립니다.

김 CRO는 현재 4000개 이상 기관, 기업, 학교에서 사용 중인 엘리스그룹의 AI 학습 플랫폼 '엘리스LXP'와 교육용 챗봇 'AI헬피' 개발을 주도한 인물로, 국내 교육 AI 분야의 대표적인 전문가 중 하나로 꼽힙니다. 또한 지금도 AI 디지털교과서 프로토타입 개발과 교육 AI 연구 프로젝트에도 다수 참여하며 활발한 기술 연구 및 대내외 행보를 이어가는 중입니다.

[ⓒ 디지털데일리]
[ⓒ 디지털데일리]

AI는 통제 가능하다…가끔 엉뚱할 뿐

안녕하세요, 김수인입니다. 요즘 우리 사회에서 교육용 AI를 바라보는 시각이 첨예하게 대립 중이다 보니, 이 주제의 이야기가 다소 조심스럽기도 합니다. 하지만 교육용 AI 개발 및 연구자로서 저는 주로 AI의 긍정적인 면을 더 많이 발견하는 편인데요. 그 중에서도 오늘은 AI가 세간의 인식처럼 '통제 불가능한 것'만이 아니란 점에 대해 분명히 이야기해 보려고 합니다.

우선 챗GPT와 같은 범용 AI들의 첫인상은 대중이 "교육용 AI도 쉽게 믿기 어렵다"는 오해를 만든 시발점이었습니다. 범용 AI 서비스의 공통점은 '얕아도 넓은 지식의 폭'인데요. 이를 바탕으로 어떤 질문에도 일단 그럴싸한 답을 내놓도록 설계되어 있다 보니, 특정 분야나 상황에선 AI가 정답만큼이나 다양한 오답을 내놓는 'AI 환각' 문제에 대한 사회적 인식이 점차 확산되기 시작했죠.

그러나 교육용 AI는 기본적으로 사용자에게 특정 분야의 학습 가이드를 제공하거나, 지식적 성장을 지원하도록 목적을 갖고 설계됩니다. 따라서 AI 모델이 학습하는 데이터도 검증된 학습자료와 마찬가지로 교육 목적에 특화된 데이터가 주로 학습됩니다. 당연히 관련 답변의 정확성과 신뢰성은 범용 AI보다 훨씬 높을 수밖에 없는 구조고요.

다만 생성형 AI의 뼈대가 되는 LLM(대형언어모델)이 구조적으로 엉뚱함을 타고난 점이 문제입니다. 그저 학습된 데이터에서 질문의 답으로 가장 확률이 높은 단어를 문장으로 이어 붙여 사람이 볼 때 그럴듯하게 만들 뿐이죠. 물론 여기에 약간의 안전장치(비속어, 폭력성 필터 등)가 추가되지만, 기본적으로 이런 '확률 모델'은 언제든 정답 데이터를 가지고도 틀린 답을 만들어 낼 가능성이 따르는 것이 한계라고 할 수 있습니다.

핵심은 올바른 지식 주입, 다단계 검증

자, 그럼 본격적으로 AI의 엉뚱함을 교정하기 위한 기술적 방법론들을 살펴보겠습니다. 이는 크게 ▲질문분류(Question Classification) ▲사실확인(Fact check) ▲톤 변경(Tone change) ▲모델병합(Model merge) 등 4가지가 핵심입니다.

우선 질문 분류는 사용자가 AI에게 대화 목적에 맞춰 답변 가능한 질문을 했는지 판단하는 기술입니다. 예컨대 학창시절에 선생님에게 장난으로 엉뚱한 질문을 던지고, 그로 인해 곤란해진 선생님을 한 번씩 본 적 있지 않나요? 하지만 선생님도 세상 모든 질문에 답할 순 없습니다. 자신이 정확히 잘 아는 분야나 경험에 대해서만 말할 수 있죠. AI도 마찬가지입니다. 즉, 질문분류는 일종의 선생님 포지션인 AI에게 사용자가 학습 주제에 벗어난 질문을 하는지 분석하고, 답변을 제공할지 여부를 우선 검토하는 기술입니다.

다음은 사실확인입니다. 앞서 말했듯 LLM은 모든 답변을 확률적으로 만들어내므로 환각현상을 100% 방지하기 어렵다고 말씀드렸습니다. 하지만 생성된 답변의 환각 발생 여부를 확인할 수는 있습니다. 2차 검증을 하는 거죠. 우리가 때때로 '말을 하기 전에 생각했나요?'라고 우스갯소리로 묻곤 하죠? 그 말의 의미와 영향을 충분히 고려하고 했느냐는 의미인데요. AI도 답변을 내놓기 전, 내부적으로 그 의미를 다시 검증하도록 하는 팩트체커 모델을 설치할 수 있습니다. 이때 AI는 학습자료를 바탕으로, 생성된 응답이 그 지식에 얼마나 부합하는지 여부를 판단합니다.

1차 생성된 AI 답변의 사실 확인을 2차 검증하는 모델 예시 [ⓒ 엘리스그룹]
1차 생성된 AI 답변의 사실 확인을 2차 검증하는 모델 예시 [ⓒ 엘리스그룹]

이어 AI가 최대한 윤리적인 답변을 하도록 조정(Moderation) 모델도 나서서 다시 한번 답변을 검토합니다. 이는 AI가 생성한 답변이 폭력적이거나 혐오성을 보일 때, 혹은 학생이 AI에게 욕설이 포함된 질문을 하거나 폭력적인 답을 유도하는 것으로 판단될 경우 답변 자체를 거부하거나, 해당 답변을 폐기하고 재생성하는 것입니다.

톤 변경은 일종의 맞춤형 메시지입니다. 가령 수학의 '함수'라는 개념과 지식의 깊이는 초, 중, 고등학교 수준에서 모두 다릅니다. 초등학생에게 고등생 수준의 함수를 설명해 봐야 이해도 어렵고 거부감만 생기겠죠. AI가 생성한 올바른 답변이 사용자에게 정확히 이해할 수 있도록 구조와 메시지를 미세조정하는 것이 바로 톤 변경 기술에 해당합니다.

마지막으로 중요한 건 모델병합입니다. 현재 규모가 큰 LLM에 맞춤형 학습을 위한 미세조정을 진행하려면 정말 많은 리소스가 필요합니다. 경우에 따라 데이터 수집부터 다시 시작해야 할 수 있는데요. 따라서 처음부터 각 분야, 각 문화에 특화된 여러 모델을 학습하거나 준비하는 일은 현실적으로 불가능에 가깝습니다. 따라서 이때 우리는 학습 대신 '주입'을 택하는 모델병합 기술을 적극적으로 활용할 수 있습니다.

이를 쉽게 설명하면, 특정 분야에 매우 잘 학습된 모델에서 원하는 지식에 해당하는 영역만 추출한 뒤, 기존 모델에 이식하는 과정인데요. 물론 AI는 모델의 구조가 그리 단순하지 않으므로 원하는 만큼 온전한 지식만 추출하는 일이 쉽지 않습니다. 하지만 엘리스그룹의 경우 수많은 연구를 통해 마치 '혈액형 수혈 공식'처럼 효율의 모델병합 공식을 정립한 덕분에, 지금은 이를 교육용 AI 모델 개선에 적극적으로 활용하고 있습니다.

위 이야기들은 한마디로, 아무리 엉뚱한 AI도 정확한 지식을 학습하고 다중적인 안정성 필터를 장착할 경우 통계적으로 매우 안전한 AI를 만들 수 있다는 것입니다. 챗GPT만 하더라도 욕설을 경험한 사용자가 있다면 아마 서비스 극초기였을 겁니다. 지금은 다양한 안전장치가 추가되면서 챗GPT가 이전처럼 사고를 치는 경우도 극히 드물어졌죠.

다만 확률모델 기반의 AI는 언제든 극소수의 확률로 문제를 일으킬 수 있고, 그것이 챗GPT처럼 방대한 규모의 지식을 다루는 AI라면 더욱 취약할 수 있습니다. 이를 막으려면 결과적으로 앞서 언급된 다양한 필터형 특화 모델을 붙여 답변이 노출되기 전 후처리를 진행하는 과정이 계속 고도화되어야 하죠. 특히 팩트체커 같은 모델은 애초에 제한된 전문지식을 학습한 교육용 AI가 범용 AI보다 낮은 확률로 오답을 생성하더라도, 그것마저 다시 검증하므로 학생에게 부적절한 답변이 제공될 가능성은 그만큼 더 낮춰줍니다.

교육용 AI의 신뢰성 문제, 그다음은?

이처럼 교육용 AI에 대해 알려진 위험은 기술을 어떻게 활용하느냐에 따라 충분히 위험성을 감소시킬 수 있는 문제입니다. 저는 교육 AI 연구자로서, 이제는 대응이 가능한 AI의 환각 문제보다 교육학적 측면에서 AI를 어떻게 활용하는 것이 더 좋을까란 생각을 많이 하게 됩니다.

특히 LLM을 이용한 인터랙션(Interaction, 상호작용) 효과에 관심이 많은데요. 실제로 학생들에게 어떤 문제의 답을 바로 주는 것보단, 필요한 만큼의 피드백만 적재적소에 주는 것이 훨씬 효과적입니다. 예를 들어 미술을 가르칠 때 그림을 아예 그려주는 것보단, 그림 그리는 방식을 단계별로 알려주는 것이 학습에 더 효과적인 것처럼 말입니다.

또한 교육에서 AI는 선생님 그 자체를 대체하기보단, 학생과 선생님이란 두 주체를 돕는 보조교사나 도우미 역할을 하는 것이 가장 이상적이라고 생각합니다. 계속 강조하지만 지금의 AI는 매우 빠른 계산을 통계적으로 수행할 수 있는 모델에 불과합니다. 이 구조의 강점은 학생들이 통계적으로 어떤 문제를 풀고 지식을 얻는지, 오답을 내는지 빠르게 분석해 인간 선생님에게 제공할 수 있다는 겁니다. 선생님을 이를 바탕으로 학생과 인격적으로 소통하며 지도할 수 있는 시간을 더 많이 확보하고, 이는 더 나은 교실문화를 만드는 데에도 일조할 수 있죠.

AI에 대한 오해에서 이해로 나아갈 시점

끝으로 드리고 싶은 말은 "새로운 기술에 대한 공포는 정확히 알지 못하는 데에서 나온다"는 것입니다. 지금 AI의 발전 속도가 가파르기는 하지만, 정확히 어떤 일이 일어나고 있는지 이해한다면 이해하지 못하는 것을 배척하기보다는 어떻게 사용했을 때 가장 효과적이며 어떻게 사용하면 안 되는지를 판단할 수 있습니다.

AI 헬피 소개 이미지 [ⓒ 엘리스그룹]
AI 헬피 소개 이미지 [ⓒ 엘리스그룹]

엘리스그룹의 AI헬피도 그랬습니다. 출시 당시 1.5달 만에 6년 동안 사람이 진행해 온 헬프 센터에서 만들어진 질문 이상이 AI헬피에게 쌓였지요. 또한 앞서 연구된 기술들이 AI헬피에 적용된 점, 사용자들의 이해도 증가 등이 맞물리며 문제 요인은 상당 부분 해소되고 긍정적인 측면의 활용성이 더욱 부각되는 단계에 이르렀습니다. 이어 지금은 단순 LLM 챗봇의 기능 이상으로, 다양한 교육 분야에서 에이전트로서 활동하고 있습니다. 교육 콘텐츠 제작이나 더빙까지 가능한 수준이죠.

앞으로도 AI의 모든 위험성을 완전한 '0'으로 만드는 건 어려울 수 있습니다. 그러나 적어도 그 문제를 엔지니어링 관점에서 푸는 법을 연구하는 건 충분한 가치가 있는 일이며, 유의미한 성과는 계속 만들어지고 있습니다. 그만큼 앞으로 더욱 작아질 환각 가능성을 피하고자 AI가 줄 수 있는 교육 혁신의 이점을 무조건 배척부터 하는 시선이 이제 조금은 잦아들길 기대해 봅니다.

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널