백사장에서 바늘찾듯… 빅데이터 시대에 주목받는 ‘데이터 사이언티스트’
IT업계에서 요즘 가장 뜨거운 화두 중 하나는 ‘빅 데이터(Big Data)’입니다. 빅 데이터는 말 그대로 데이터의 규모가 크다는 뜻입니다.
사실 데이터 규모가 커지는 것은 어제 오늘 일이 아닙니다.
이미 지난 20년 동안 데이터는 감당하기 힘들 정도로 늘어났습니다. 이런 상황에서 새삼스럽게 ‘빅 데이터’라는 새로운 용어가 등장한 이유는 무엇일까요?
일단 데이터 증가 속도가 과거와 달리 기하급수적으로 증가한다는 점이 달라졌습니다. 올해 생성될 디지털 데이터는 1.8 제타바이트로 추정됩니다. 제타바이트는 1.8조 기가바이트입니다. 2020년에는 약 35.2제타바이트에 이를 것으로 전망됩니다.
그러나 빅 데이터는 단순히 데이터의 규모만 커지는 것을 의미하지 않습니다.
데이터의 종류도 더욱 다양해진다는 점도 빅 데이터의 특징입니다. 지금까지의 데이터는 대부분 구조화된 데이터였습니다. 때문에 데이터를 분석하는 기술도 이런 구조화된 데이터를 중심으로 발전해 왔습니다.
하지만 이제는 구조화되지 않은 데이터가 중요해지고 있습니다. 페이스북에 형식에 맞춰 글을 쓰는 사람은 없습니다. 텍스트과 그림, 영상이 섞여있기도 합니다. 이 외에 각종 센서네트워크를 통해 수집되는 데이터, 위치 및 지리 데이터 등 엄청나게 다양합니다.
이처럼 다양한 데이터가 대규모로 군집해 있는 것이 ‘빅 데이터’입니다.
한편 ‘빅 데이터’가 주목을 받는 또 다른 이유는 그 안에 지금까지 깨닫지 못했던 정보들이 담겨 있기 때문입니다.
예를 들어, 페이스북에 올라온 ‘감기 걸렸다’는 문장들을 통합해 위치정보와 분석할 경우, 감기 바이러스가 어느 쪽으로 확산돼 가고 있는지 파악할 수 있습니다.
또 사람들이 트위터에 올린 글의 기분 변화를 분석한 결과 ‘불안감’이 늘어날 경우 주가가 낮아진다는 조사도 있습니다. 이처럼 빅 데이터를 잘 분석하면, 새로운 통찰력을 얻을 수 있을 것으로 기대됩니다.
하지만 여러 종류의 대규모 데이터를 모아만 놓는다고 저절로 통찰력이 생기는 것은 아닙니다. 이를 과학적으로 분석해서 통찰력을 찾아내야 합니다. 백사장에서 바늘을 찾듯 엄청나게 쏟아지는 데이터속에서 유의미한 무엇을 발견해 내는 것입니다.
빅 데이터에서 새로운 통찰력을 얻어내는 역할을 하는 사람을 ‘데이터 사이언티스트(Data Scientist)’라고 부릅니다.
비즈니스적 측면에서, 데이터 사이언티스트들은 구조화되지 않은 데이터 속에서 지금까지 드러나지 않았던 숨겨진 패턴을 찾아내는 역할을 합니다. 그 동안은 몰랐던 고객의 행동이나, 잠재 시장 등이 그것입니다.
기존에는 데이터를 다루는 직종으로 데이터 모델러, 데이터 아키텍트 등이 있었습니다. 이들은 전통적인 IT맨들이었습니다.
하지만 데이터 사이언티스트들은 전통적 개념의 IT맨들이 아닙니다.
이제는 통계학자, 수학자, 경제학자 등이 IT를 활용해 빅 데이터로부터 통찰력을 얻어냅니다.
당연히 IT업체들도 데이터 사이언티스트 확보에 혈안이 돼 있습니다. 예를 들어 글로벌 IT기업인 EMC는 ‘애널리틱스 랩’이라는 부서를 운영하고 있습니다. 이 부서는 데이터 사이언티스트들로 구성돼 있습니다. 경제학, 통계학, 심리학 등을 전공한 박사급 인재들입니다.
이들은 기업들이 빅 데이터로부터 통찰력을 얻어낼 수 있도록 조언을 하고, 교육을 하는 역할을 합니다.
데이터 사이언티스트가 되기 위해서는 단순히 하나의 분야만 알아서는 안 됩니다. 기본적으로 통계학이나 경제학에 대한 지식이 있어야 합니다.
또 분산 컴퓨팅, 하둡, 자료구조 등과 같은 IT기술과 엔지니어링도 알아야 하고, 수학과 같은 기초학문에 대한 능력도 필수적입니다.
때문에 데이터 사이언티스트가 되는 것은 실제로 매우 어려운 일입니다. 물론 이 같은 능력을 갖출 수 있다면 어느 회사에서라도 환영 받을 수 있을 것입니다.
국민연금, 고려아연 ‘집중투표제’ 지지… 법원 판단만 남아
2025-01-19 15:31:10공정・투명한 '공매도'위한 가이드라인 최종안 마련… 금감원 "3월말까지 전산화 완성"
2025-01-19 14:20:28알뜰폰 업계, 갤럭시S25 가입자 사전유치 경쟁 ‘후끈’
2025-01-19 13:16:35주담대 채무불이행자 비율도 '상호금융'업권이 가장 높아…"종합 리스크관리강화 필요"
2025-01-19 12:00:00