대기업이 택한 'AI 면접관' 개발 비하인드 [스토리팩-제네시스랩①]
사람의 뇌는 단순한 정보보다 ‘이야기’를 좋아하고 감정과 기억도 더 오래 각인한다고 합니다. 디지털데일리 테크콘텐츠랩의 ‘스토리팩’은 혁신기업의 기술, 인재, 조직 관련 소식들을 책 한권 읽는 듯한 재미와 구성으로 풀어낸 기업별 연재 기획물입니다. <편집자주>
#콘텐츠 구성
1. AI는 사람보다 공정한가요?
2. 투명한 AI 만들기
- 2-1. 실전 면접 데이터 400만건
- 2-2. 한 점의 편향도 불허한다
- 2-3. “족보 사절!” AI 감독관
- 2-4. 그 사람이 탈락한 이유
- 2-5. AI 신뢰성 평가 ‘만점’
1. AI는 사람보다 공정한가요?
[디지털데일리 이건한 기자] “차라리 인공지능(AI) 판사를 도입해라” 대중은 매스컴에 보도된 흉악범의 형량이 사회적 기대치보다 낮으면 종종 이렇게 반응합니다. 가끔은 판사의 개인적 사상이나 정치적 외압이 판결에 영향을 미친 건 아닐까 의심되는 사건들이 종종 있거든요. 이때 AI 판사를 떠올리는 이유는 ‘AI라면 사람처럼 감정과 외압에 영향을 받지 않을 것’이란 기대 때문인데요. 아쉽게도 실상은 그와 다릅니다.
사람만 봐도 크든 작든 부모의 교육 방침과 자라온 환경이 성격 및 가치관 형성에 반드시 영향을 미칩니다. AI도 마찬가지인데요. 어떤 AI든 사람이 설계하고 학습 데이터까지 제공했다면 해당 AI의 판단 기저에는 반드시 설계자의 영향력이 크든 작든 작용할 수밖에 없기 때문입니다. 사람보단 객관적일 수 있으나, 100% 사람의 영향력을 받지 않는 AI는 아직 없다는 이야기입니다.
따라서 AI를 비롯해 인간을 모방한 ‘전문가 AI’를 개발할 땐 투명성과 신뢰성 검증이 무엇보다 중요합니다. 인간 전문가도 채용 전에 그의 이력과 기술적 능력을 꼼꼼히 따지는데 AI라고 무조건 믿을 수 없는 노릇이죠. 추후 AI 판사 도입을 실제로 논의하더라도, 판결 근거를 얼마나 명확히 제시할 수 있느냐가 중요한 문제가 될 겁니다.
문제는 ‘설명 가능한 AI’ 구현이 기술적으로 그리 단순하지 않다는 점입니다. 비유하자면 우리가 수많은 경험을 통해 ‘직관적으로 내린 판단’의 근거는 제3자에게 구체적으로 설명하기 어려운 것과 같습니다. 특히 인간 뇌의 복잡한 정보처리 매커니즘을 모방한 딥러닝 등 요즘 AI 대세기술은 구조적으로 이 문제에서 더 자유롭지 못한 편이고요.
하지만 AI의 영향력은 앞으로 ▲의료 ▲금융 ▲자율주행 등 우리 생명과 재산, 안전 등과 직결된 영역으로도 확대될 것이 확실시되고 있습니다. 이 가운데 전문가 AI의 신뢰성과 투명성 확보 노력, 나아가 ‘사람보다 믿을 수 있는 AI’ 개발 가능성 측면에서 유의미한 가능성을 제시한 제네시스랩(Genesis Lab)의 사례는 좋은 롤모델로 평가됩니다.
토종 AI 기술 스타트업인 제네시스랩은 2019년 AI 영상면접 솔루션인 ‘뷰인터 HR’을 개발한 회사입니다. 2024년 기준 ▲현대자동차 ▲LG유플러스 ▲육군 ▲LH한국토지주택공사 ▲서대학교병원 등 150여개의 대기업, 공기업, 정부기관에서 뷰인터 HR을 채용에 활용 중인데요.
상대적으로 좋은 처우 덕분에 입사 경쟁이 늘 치열한 이곳들은 채용 측에서도 그만큼 엄격한 평가 기준을 제시하며 인재 변별력을 확보하려 노력합니다. 그런데 여기에 사람 대신 AI 면접관이 한 자리를 차지했다는 건, 그만큼 신뢰성이 검증되었다는 의미죠. 사실, 그 이면을 들여다보니 쉬운 일은 아니었습니다. ‘AI 면접관이 사람만큼 공정하면서 충분한 평가 근거도 제시할 수 있다’는 주장을 증명하기 위한 제네시스랩의 노력은 상상 그 이상이었으니까요.
2. 투명한 AI 만들기
2-1. 실전 면접 데이터 400만건
우선 모든 AI의 일차적 판단 근거는 학습 데이터에 있습니다. 사람도 똑똑한 학생이 나쁜 책으로 공부하면 좋은 점수를 얻기 어려운 것처럼 AI도 마찬가지인데요. 질 좋은 전문가 AI를 만들려면 정형화된 단순 이론서 이상의 실전 데이터 확보가 중요합니다. 그래야 더 다양한 상황에서 실제 전문가와 같은 상황 판단과 해결책을 도출해낼 수 있으니까요.
제네시스랩은 현재 약 400만건의 실제 채용면접 영상 데이터를 보유하고 있습니다. 회사측 설명에 따르면 이 영상을 실제 기업 면접관, 인사담당 임원, 산업심리학 교수 등 다양한 전문가들이 평가한 뒤 그 결과 데이터를 뷰인터 HR에 학습시켰다고 하죠. 이 양이 어느 정도인가 하면, 1명의 전문 면접관이 10년 간 쉬지 않고 매일 5명의 지원자를 평가해도 그 수는 1만8000건에 불과합니다. 400만건은 단순 계산으로도 이런 면접 전문가 220명의 평생 노하우를 학습한 규모인 셈이죠.
2-2. 한 점의 편향도 불허한다
제네시스랩은 이렇게 확보한 데이터로 ‘소프트스킬 평가 AI 엔진’과 ‘BEI(행동사건면접) 방식 역량평가 AI 엔진’을 개발했습니다. 전자는 면접자의 ▲자신감 ▲호감도 ▲신뢰감 등 총 9개의 비언어적 행동지표로 소통 능력을 평가합니다. 면접 영상에서 비전(Vision), 음성(Voice), 텍스트(Text) 등의 멀티모달 데이터를 분리한 후 각각의 평가 점수를 도출하는 방식인데요. 이 또한 전문 면접관의 평가 기준을 활용합니다.
하지만 전문가의 손을 거친 데이터라고 무조건 신뢰할 수 없습니다. 전문가도 평가 기준이 제각각이며 편향적인 기준을 지닌 사람들도 있을 수 있기 때문입니다. 이를 사전에 거르지 못하면 AI도 이를 여과 없이 학습하게 됩니다.
이 부작용을 최소화하기 위해 제네시스랩은 우선 전문가가 평가한 데이터로 AI가 평가를 진행하도록 하되, 일정 기간의 간격으로 동일한 면접 영상을 평가하게 합니다. 여기서 평가의 일관성이 발견된 데이터만 추리는 거죠. 더불어 동일한 면접영상을 다시 실제 면접관들이 평가하도록 한 뒤 전문가와 AI의 평가 결과를 조화한 값만 최종 학습 데이터에 반영하는데요. 이로써 AI와 면접관 양쪽에서 각각 발견될 수 있는 편향성을 최소화할 수 있습니다.
다음으로 BEI는 구조화된 질문을 이용해 응시자의 답변 역량을 평가하는 AI 엔진입니다. 채용측이 검증하고자 하는 역량에 해당하는 행동지표가 지원자의 실제 경험에서 비롯된 것인지 판정하는 기법인데요. HR 학계에선 타당도가 매우 높은 면접 기법으로 활용되고 있습니다. 제네시스랩은 여기에 한국능률협회(KMA)의 업무수행 역량평가 지표 30여개를 추가해 면접관의 판단 편향성을 더욱 줄였다고 설명했습니다.
실제로 제네시스랩의 평가 모델은 성과 예측의 타당도를 나타내는 ‘상관계수(1점 만점)’이 평균 0.5점에서 0.6점 사이를 나타냅니다. 전통적 채용도구인 대면면접(0.1), 이력서 분석(0.15), 인성검사(0.2)과 비교 시 상당히 높은 수치죠. 또한 채용 후 일정 기간이 경과한 후 AI 면접 당시 데이터와 사후평가 결과 간 비교 분석을 거쳐 이 타당성 평가 결과를 다시 입증하는 절차도 있습니다.
뿐만 아니라 평가에 참여하는 전문가 위원들 가운데 평가 기준의 합의가 이뤄지지 않는 위원은 배제함으로써 그들이 보다 일관성 있는 평가 기준을 수립하도록 하는데요. 이처럼 세밀한 검증을 반복하는 과정은 다소 지난한 시간이 될 수 있습니다.
그러나 AI에게 데이터를 건네기 전에 최대한 철저한 검증 절차를 거쳐야 AI의 신뢰성도 그만큼 높아질 수 있기 때문에, 개발 측이 결코 타협해선 안 되는 일이기도 합니다.
2-3. “족보 사절!” AI 감독관
AI 면접은 비대면이 기본입니다. 당연히 부정행위 가능성도 대면 상황보다 높습니다. 따라서 이 문제까지 해결해야 AI 면접관이 대면 못지 않은 충분한 신뢰를 확보할 수 있습니다. 아래 표는 뷰인터 HR에 내장된 부정행위 탐지 기능 및 간단한 원리를 소개한 것입니다.
이 중 눈여겨볼 대목은 프로필 사진과 면접자의 얼굴을 비교해 대리시험을 방지하는 AI 기술, 지원자 간 답변 일치도 검사 AI 기술입니다. 특히 후자는 실제 면접에서 경험 많은 면접관들만 직감적으로 알아챌 수 있는 항목인데요. 제네시스랩은 이마저도 기능화해 AI 면접관을 속이는 소위 ‘족보화’나 컨설팅 내용을 달달 외워 자신의 역량을 꾸며내는 면접자들을 거를 수 있게 됐습니다.
2-4. 그 사람이 탈락한 이유
앞서 전문가 AI 도입의 선결 과제는 설명 가능한 AI라고 말했습니다. 면접은 이 점이 특히 더 중요하므로 제네시스랩도 많은 역량을 기울인 영역인데요. 그 결과 뷰인터 HR은 독자 노하우로 응시자의 평가 결과가 어떻게 도출된 것인지 구체적인 지표와 수치를 제시할 수 있게 됐습니다.
일례로 아래 그림처럼 뷰인터 HR은 지원자의 영상면접 스크립트에서 행동지표 계산에 영향을 미친 구간을 + 요소와 – 요소로 시각화해 면접관에게 설명합니다. 응시자의 최종 선발 여부를 결정하는 면접관은 이를 참고해 AI가 합리적인 판단을 내렸는지 점검할 수 있죠. 제네시스랩은 현재 이 기능을 더욱 고도화하는 데 박차를 가하는 중입니다.
결과적으로 작은 스타트업의 AI 면접 솔루션이 150여개 대기업과 공공기관에 널리 도입된 배경에는 단순 기술력 이상의 치밀한 준비와 신뢰성 검증절차가 있었습니다.
▲데이터 정제 단계부터 철저히 실전을 염두에 둔 전문가 개입 ▲재차·교차·사후검증 ▲설명 가능한 AI 구현 ▲실제 평가의 정확도 입증 등 모든 데이터 확보 절차와 신뢰성 지표 또한 눈에 보이는 형태로 제시했죠.
한편으로 이런 과정은 AI 투명성 확보를 필요로 하는 곳이라면 당연히 거쳐야 할 일로 보이기도 합니다. 하지만 이 방법은 실제 제품의 완성까지 많은 전문가의 참여 및 협조를 끌어내는 일, 다단계 검증을 요구하기 때문에 많은 비용과 시간을 필요로 합니다. 신뢰할 수 있는 AI 제작을 위해선 제작사가 이만한 수고를 감내할 의지와 비전이 있는지 확인하는 것도 굉장히 중요하다는 이야기죠.
실제로 뷰인터HR 도입 이유를 조사한 고객사 대상 설문에서 신뢰성은(21%)이 주된 이유로 꼽혔고 비용 대비 효과성(12%)이 뒤를 이었습니다. 이 밖에 제네시스랩은 각 고객사가 원하는 인재상을 개별 조정한 맞춤형 솔루션으로 뷰인터 HR을 제공합니다. 이로써 보다 투명하고 정확하게, 경제적인 방식으로 맞춤형 지원자 선별이 가능하므로 고객사 범위가 제한되지 않는 점도 뷰인터 HR의 장점입니다.
2-5. AI 신뢰성 평가 ‘만점’
제네시스랩은 AI 신뢰성에 대한 자체 및 고객사 평가만으론 부족하다고 판단했습니다. 이에 정부와 전문평가기관의 공식 인증도 획득하기로 결정했죠. 2022년 HR 분야 최초로 과학기술정보통신부와 한국정보통신기술협회(TTA)가 정의한 AI 신뢰성 평가에 도전한 이유입니다.
결과는 총 14개 요구사항, 59개 검증항목 중 채용 서비스에 해당하는 13개 요구사항과 41개 검증항목을 모두 통과했습니다. TTA 평가팀이 제네시스랩 본사에 직접 방문해 데이터 관리 시스템과 관리 체계 등에 대한 실사를 수행한 결과였는데요. 이 평가는 AI 위험 요소 제거 방안부터 ▲데이터 수집 및 관리의 신뢰도 ▲모델 편향 제거 노력 ▲외부 공격 방어능력 ▲윤리 문제 대응 방안 등 전방위적 점검이 포함됩니다.
제네시스랩은 이어 2023년 11월, 과기정통부 주최 ‘제1회 인공지능 신뢰성·품질 대상’에서 최고상인 과기부 장관상(대상)까지 수상하는 쾌거를 거둡니다. 이로써 AI 신뢰성 부문에선 민간, 공공의 교차 검증을 모두 통과한 제네시스랩은 현재 과기정통부가 추진하는 국내 AI 표준화 작업 파트너로도 함께 일하며 한국의 AI 기술 투명성 강화에 일조하는 기업으로 거듭났죠.
#1
- 남은 이야기는 관련기사에 링크된 AI 면접관은 완성 아닌 시작점...'진짜'가 온다 [스토리팩-제네시스랩②]에서 이어집니다.
- 더욱 사람다운 AI를 만드는 법, AI 면접관 개발 기술로 만들 궁극의 AI 등에 대한 이야기가 담겨 있으니 놓치지 마세요!
#2
- 앞으로 나올 이야기를 미리 확인하고 싶다면 검색창에 ‘DD테크콘텐츠랩’ 혹은 ‘제네시스랩 기술편 스토리팩’을 검색하세요.
유료방송 시장, 역성장 지속…케이블TV 사업자 중 SKB 유일 성장
2024-11-22 13:28:49[속보] 우리금융 이사진, 조병규 우리은행장 연임 불가 결정
2024-11-22 13:22:14[디즈니 쇼케이스] 판타스틱4, MCU 합류…미소 짓는 케빈 파이기
2024-11-22 12:56:31‘사이먼의 고양이’ 밈코인 CAT, 솔라나 확장으로 신규시장 편입
2024-11-22 11:47:45"조병규 은행장 연임 여부, 숏리스트 확인할 수 없다"… 우리금융, 이사회 개최속 입단속
2024-11-22 11:11:40