AI챗봇 '심심이' 데이터 모두 공개…블로그에서 신청서만 쓰면 끝
[디지털데일리 박세아 기자] 인공지능(이하 AI) 챗봇 '심심이'가 인간 중심 대규모 AI 데이터를 공개한다고 31일 밝혔다.
지난 8월 약 150억 건 대화형 데이터 공개 이후 국내 AI 연구와 발전을 위해 추가 데이터 공개를 진행한다.
심심이에 따르면 인간 중심 AI란 지난 2019년 주요 20개국(G20) 무역과 디지털경제 분야 장관 회의 선언문 등에 등장하며 공식적으로 주목 받기 시작한 개념이다.
미국 스탠포드 대학 인간중심 AI 연구소(HAI)가 발행하는 'AI 인덱스' 올해 보고서에서 'AI 산업화 및 윤리적 문제 증가'라는 주제로 AI 윤리 및 데이터 중요성을 강조하며 관심이 커지고 있는 추세다.
이번에 심심이가 공개하기로 한 인간 중심 AI 데이터는 총 네 가지다.
첫 번째는 신고삭제대화 시나리오다. 일반 사용자들은 심심이와 대화를 나누다가 콘텐츠 규정에 위반된다고 생각하는 대답을 신고할 수 있다. 이때 세부 신고 사유 라벨이 부착됨과 동시에 다른 메타 정보와 함께 구축된 데이터다.
두 번째는 보편대화 시나리오다. 이는 심심이 생동감, 위트 등을 살리는 것은 물론 음성 애플리케이션에서 누구나 범용적으로 사용할 수 있는 문장을 선별, 가공해 구축한 데이터셋이다. 모든 데이터 구축 과정에는 국어 및 언어 전공자 중심 팀이 투입됐다.
세 번째 데이터는 보편대화탈락 시나리오다. 즉, 위에서 설명한 보편대화 시나리오 정제 과정에서 음성합성기술(TTS)에 적합하지 않아 탈락된 데이터를 의미한다.
마지막으로 윤리검수문장 데이터를 꼽을 수 있다. 이는 일반 사용자들이 맹검 도구 내에서 콘텐츠 규정 위반 여부를 검수해 점수를 부착해 둔 데이터셋이다.
심심이 관계자는 "이번 데이터 공개 방식은 지난 8월 초거대 데이터 공개와 유사한 절차에 따라서 연구자 또는 연구팀 개별 신청을 접수 받은 뒤 심사, 비밀 유지 서약 등 관련 절차를 마친 다음 요구사항에 따라 제공 및 관리하는 방식을 활용한다"라며 "심심이 대화 데이터를 제공받고자 하는 연구자라면 심심이 한국어 공식 블로그에서 신청서를 내려받아 작성한 다음 제출, 승인 후 소정 절차를 거쳐 이용할 수 있다"라고 설명했다.
심심이 최정회 대표는 "심심이는 최근 과학기술정보통신부(과기정통부)가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 2022년도 AI 학습 데이터 구축사업에서 한국어 블렌더봇 데이터 과제를 수행했다"라고 말했다.
이어 그는 "지난 달 데이터 공개 작업을 시작하면서 여러 긍정적인 반응을 통해 추가적인 데이터 공개를 결정했다"라며 "심심이가 구축하게 될 데이터를 개방해 외부 우수한 연구자들이 인간 중심 AI를 발전시킬 수 있도록 지원을 다할 것"이라고 설명했다.
[인터뷰] 돈 되는 렌탈 데이터?...신상용 프리핀스 대표 “렌탈 창업부터 금융 솔루션까지 함께할 플랫폼”
2024-11-23 12:05:50행안부, 클라우드 네이티브 제도개선 착수…“공공SW 전반 변화해야”
2024-11-23 09:39:29주파수 재할당대가, 정부가 부르는게 값? “산정방식 검토 필요”
2024-11-22 18:23:52