[Interview] 데이터는 과거 현재 미래의 우리 인프라가 되어가고 있죠

한빛미디어

2019-01-28

by 한빛

페이스북 퍼가기 트위터 퍼가기

12,711

1. 데이터는 모든 것들의 근본이 되고 핵심이 되는데요. 저자님이 데이터를 통해 얻은 큰 성과(에피소드)를 간략하게 듣고 싶어요.

안녕하세요. 제 경우보다 제가 참여한 프로젝트에 대한 이야기가 더 좋을듯 합니다.

영국에서의 일입니다. 국내의 S사가 유럽에 진출하면서 영국에 콜센터를 마련했습니다. 콜센터 운영은 영국회사인 C사에게 의뢰하고 있었습니다.

S사는 콜센터가 어떻게 운영되는지 어떤 문의가 있는지 C사에 요청했지만 그들은 차일피일 미룰 뿐이었습니다. 동양인 회사라고 깔 본것 같아요.

저희는 C사에 요청해서 콜센터 데이터를 매일 인터페이스 받았습니다. 가져온 데이터는 데이터베이스에 업로드하고 하나씩 하나씩 분석을 진행했습니다.

데이터를 보니 콜센터에서 전화를 받으면 설정할 항목이 10여개 되었습니다. 예를 들면, 남성이냐 여성이냐, 고장난 것은 어떤 제품이고 증상은 무엇이냐, 언제샀고 어디에 설치 했느냐 등입니다.

그런데 그런 항목 대부분이 '기타'에 기록되어 있었습니다. 즉, 대충 기록한 것이죠. S사는 저희가 분석한 데이터를 가지고 C사에게 따졌습니다. 그리고 모든 항목에서 '기타'로 된 것은 제대로 표시하라고 요청하였죠.

C사는 결국 S사 요청에 따라 항목별 데이터를 제대로 설정했습니다. 인터페이스 한 데이터를 보니 점점 깔끔해지고 있었죠. 깔끔한 데이터를 가지고 분석 Report를 제공해 주니 S사는 유럽내 고객의 상담 유형과 불만을 점점 잘 파악해 나갈 수 있었습니다.

S사는 이 분위기를 살리기 위해서 저희와 추가 계약을 했습니다. 더불어 한국 본사에도 이 내용이 알려져서 미국, 중국, 아시아 법인 등에도 같은 내용의 프로젝트를 진행하게 되었죠. 당시 저희와 같이 한 S사 담당자는 지금 상무님이 되셨습니다.

2. 데이터 중에 오류가 있던 데이터가 혹시 있었던 적은 없으셨나요? 혹시 있었다면 데이터 오류나 페이크 (Fake)를 구분할 수 있는 방법이 있을까요?

오류가 있던 데이터는 많았습니다. 요즘은 많이 줄었지만, 주민번호나 성별, 금액 등 많은 곳에서 발생했었습니다. 오류를 수정하는 작업이 데이터 작업에서 절반 이상의 힘이 들죠.

오류와 페이크라... 그 구분은 힘이 듭니다. 오류 속에 페이크가 있기도 하지만 오류가 없는 데이터에도 페이크가 있기 때문입니다.

오류와 페이크를 구분해 보면 오류는 단순 실수에서 발생했고 어떤 의도가 없는 것이고 페이크는 속이는 것을 목적으로 의도를 담은 것입니다. 즉, 페이크를 그냥 찾기는 힘들죠.

예를 들어, 성별에서 '남자'라고 되어 있는데 주민번호 뒷자리가 홀수(1 또는 3)가 아니면 둘 중 하나는 오류가 될 것입니다. 페이크라면 이런 알려진 규칙은 맞추어 두겠죠. 쉽게 눈에 띄게 때문이죠. 반면 쉽게 눈에 뜨이지 않는 금액이나 수량 또는 항목이 많은 속성에서 데이터 조작이 이루어질 것입니다.

이런 경우를 한번 생각해 보죠. A사 김대리가 워크샵에 사용할 과일을 구입했습니다. 바나나 2만원, 사과 3만원, 딸기 3만원어치를 사고 각각 영수증을 받았습니다. 총 8만원이 들었죠. 그리고 경비처리를 하면서 합계 금액만 적었습니다. 9만원으로. 단순 합산 오류일까요? 페이크 일까요?

지금 내용 하나만 보면 오류입니다. 하지만 김대리의 과거 경비 신청과 조정 내역을 분석해 보았을 때 지금처럼 조정한 것이 많다면 이 번 건은 페이크일 확률이 높습니다.

즉, 단일 건으로 확인하기 보다는 많은 데이터를 기준으로 점검해 보면 에러와 페이크의 구분에 조금 더 다가갈 수 있겠죠.

보험사기가 이런 경우에 해당될 수 있습니다. 이미 발생된 보험사기 데이터에서 패턴을 분석하여 사기를 적발을 할 수 있었던 것이죠. 사기꾼이 새로운 방법으로 접근하면 보험사는 다시 그 데이터를 추가하여 패턴을 찾아 또 적발 할 것입니다. 창과 방패의 싸움이 계속되겠죠.

3. 저자님의 가장 중요한 삶의 방향성을 알려주는 인생 가이드 데이터는 무엇일까요?

'세상에 변하지 않는 것은 없다. 단 세상이 변한다는 것은 변하지 않는다.' 입니다. 역사를 보면 우리 삶은 항상 변화해 왔습니다. 변화는 우리가 따라야 하는 숙명인 것이죠.

조선시대는 많은 혼란을 겪었습니다. 518년(1392년부터 1910년까지)동안 27명의 임금이 있었는데, 평균 재위 기간이 19.2년 입니다. 12대 인종은 8개월, 21대 영조는 51년을 재위하였죠. 즉, 왕이 자주 바뀌게 되고 그에 따른 변화도 같이 따라왔죠. 물론 주변 정세나 침입에 따른 대응도 변화의 한 줄기 였습니다.

원시시대는 동물들로 부터 우리를 보호했고, 고대와 중세 그리고 근대는 이웃 국가와의 전쟁에서 우리를 지켜나갔습니다. 현대에 들어서는 이웃나라가 아니라 연합군 간의 전쟁에서 우리를 지켜야 했습니다. 지금도 현대이죠. 지금의 전쟁은 하이테크 기술을 이용한 정보전쟁으로 변경되었죠. 정보가 자산이고 힘이 되었기 때문입니다.

사회도 문화도 우리의 생활과 가족의 구성 방식도 점점 변해왔습니다. 이런 변화는 아주 긴 시간동안 이루어지다가 점점 그 주기가 줄어들고 있습니다. 시간의 간극에서 변화를 찾고 대응해야 하죠.

저에게 인생 가이드 데이터는 '시간 간극'입니다. 멈춰있는 시간이 아닌 이전시간과 지금시간의 차이 즉 간극, 그 간극에서 변화를 찾는 것이 저의 인생가이드입니다. 현재라는 시점, 즉 포인트에서는 변화를 느낄 수 없지만 시간의 변화를 거슬러 보면 변화를 볼 수 있습니다.

저는 항상 변화를 시간의 간격에서 찾으려고 합니다.

4. 미래의 인공지능과 머신러닝 등 여러 분야에서 한가지 일을 하시게 된다면 어떤 일을 하고 싶으세요?

머신러닝 분야를 하고자 합니다. 데이터를 기반으로 분석과 예측을 하는 분야이죠. 요즘은 ‘처방 분석’(Prescriptive Analytics)'까지 확장되고 있고, 저는 그 부분을 하려 합니다.

데이터 분석은 분석으로 끝나는 경우가 많습니다. 데이터 분석을 하다 보면 숨은 의미나 새로운 패턴을 찾아다는 것에 만족하고 흥분합니다.

하지만 데이터 분석의 목적은 현상황에 그 결과를 적용하고 개선하기 위함입니다. 그러기 위해서는 분석과 예측이 된 결과를 다음 액션으로 연결시켜야 합니다. 그런 작업이 ‘처방 분석’(Prescriptive Analytics)' 이죠.

예를 하나 들겠습니다. 가을이면 산불이 많이 납니다. 산불 데이터를 분석해 보니 등산객의 담배불이나, 바람에 의한 나뭇가지의 마찰에 의해서 불이 났습니다. 원인 중 하나인 담배불은 등산객에게 라이터를 못 가져가게 하면서 많이 해소가 되었습니다.

바람은 어떻게 하죠?

풍속이 평균보다 20~30% 강하고, 지속되는 시간이 길다면 산불 가능성이 높겠죠. 산불에 대비해야 합니다. 즉, 관련 기관에 경고를 보내서 대처하게 합니다. 이런것이 ‘처방 분석’ 입니다. 데이터 분석결과를 실제 상황에 적용하고 관련 부문과 연계하여 대처를 하는 것입니다. 이미 눈에 보이고, 분석이 잘 된 곳에서는 진행이 되고 있습니다.

시간이 더 흐르면 데이터 분석은 인공지능 기술에 의해 단순한 작업으로 바뀔 수 있습니다. 하지만 우리 인간은 그 결과를 실 생활에 유익하게 사용될 수 있도록 고민해 나가야 합니다.. 저는 그런 부분의 일을 하고 싶습니다.

5. 데이터를 기반으로 미래를 읽고 앞으로 나아가고 있는 기업이나 인물들이 있을까요?

많습니다. 이미 기업은 데이터를 기반으로 경영을 하고 있습니다. MBO, KPI, 선행지표, 후행지표 이런 이야기들이 데이터를 기반으로 만들어진 항목입니다.

10여년 전 쯤 우리나라에 ERP 시스템 구축 바람이 불었습니다. 당시 많은 기업들이 ERP 시스템을 도입했습니다. 많은 경영진들이 데이터의 손 맛을 봤으리라 생각합니다.

삼성이나, 현대, SK등 많은 대기업은 데이터 경영을 준비하고 있었겠지만, 눈으로 보이는 것은 조금 늦게 나타나고 있다고 생각됩니다. 아마도 순수과학보다는 응용과학과 기술이 발달한 우리나라는 'How 즉 어떻게'에 대해서는 훈련이 잘 되었지만 'What 과 Why 즉 무엇과 왜'에 대해서는 학습을 해 나가는 단계로 보입니다.

국내 기업도 데이터를 열심히 축적하고 있습니다. 이를 기반으로 괄목할 만한 성과를 보여주는 기업이 5년 이내에 나올 것으로 생각됩니다.

질문해 주신 "데이터를 기반으로 미래를 읽고 앞으로 나아가고 있는 기업이나 인물들"에 대해서는 전 구글과 세르게이지라고 생각됩니다. 그들은 처음부터 데이터를 모았죠. 데이터가 힘이 될 것을 알고, 사람의 움직임과 활동에 대한 데이터를 꾸준히 축적했죠.

아마존의 제프베조스 또한 대단한 인물입니다. 단순한 온라인 책 판매 회사를 모든기업이 공포심을 가지게 하는'포비어 기업'으로 성장시켰죠. 여기의 기반이 데이터 즉, 판매 데이터였고 이를 분석하고 활용하도록 한 사업 구조를 만든거죠.

넷플릭스도 데이터를 잘 활용한 기업이죠. 요즘 한국에 진출하여 컨텐츠의 위력을 보여주고 있습니다.

국내에는 삼성과 SK라고 생각합니다. 삼성은 가전제품과 모바일 제품에서 생성된 막강한 데이터를 분석하기 시작하고 있죠 SK도 하이닉스를 기반으로 벤처 및 데이터 활용에 투자를 넓히는 기사가 나오고 있습니다.

저는, 우리가 모르는 유니콘 기업이 어디에서 만들어지고 있기를 기대합니다. 그런 갑작스러움이 사회적인 충격과 신선함을 주고 있기 때문이죠.

6. 데이터 인문학을 쓰시면서 독자들이 가장 깨닫거나 느꼈으면 하는 바램이 무엇이 있을까요?

저는 이 책을 쓰면서 '데이터를 어떻게 쉽게 설명하지? ', '어떻게 하면 쉽고 재밌게 이해시킬 수 있을까?'를 생각했습니다. 더불어 누군가에게 설명하는 상상도 했었죠.

그 누군가는 때로는 친구였고, 때로는 고객이었습니다. 하지만 모두를 만족시키는 문장을 만들 수는 없었습니다. '그렇다면 가장 쉽게 전달하는 방법은 무엇일까?' 하는 고민에서 에피소드 방식이 나왔습니다. 즉, 에피소드 중간에 데이터 관련 내용을 살짝 스며들게 만들었습니다.

저는 이 책을 통해서 독자 여러분들이 데이터는 과거 부터 우리 옆에 와 있었고, 앞으로 우리가 살아갈 사회에 밑거름이 되고 있다는 것을 이해하기를 바랬습니다. 이제 데이터는 우리의 인프라가 되어가고 있는 것이죠.

7. 주로 업무가 많으시고 힘드실때 잠시 쉬고싶으실때 어떻게 하세요?(주로 책을 읽을거 같은 생각이 드는데..반전이 있을까요?

어떤 일로 힘든가에 따라 다르지만 산보나 독서를 선택합니다. 독서는 주로 소설을 읽습니다. 소설 속 내용을 상상하며 읽으면 머리를 식혀주기 때문입니다.

산보는 생각을 많이 하게 합니다. 마냥 1시간씩 걷기도 하죠. 걷다보면 머리 속에서 가상의 인물과 다투기도 하고, 반성도 하죠. 정말 혼자만의 시간이 됩니다.

그래서인지 주말에는 등산을 즐깁니다. 땀을 흘리며 산에 오르다보면 생각도 정리되고, 앞으로 할 일에 대해서 계획을 짜기도 하죠. 가끔 괜찮은 스토리가 떠오르기도 합니다. 최근 우리나라를 뒤덮은 미세먼지 때문에 등산을 미뤄야 하는게 많이 아쉽습니다.

8. 저자님의 강의를 일반인들도 들을 수 있는 기회가 있을까요?

지금까지는 대학이나 기업에서 강의를 하거나 독서모임에서 세미나를 했습니다. 기회가 된다면 일반인도 같이 할 수 있는 기회를 만들어 보겠습니다. 데이터를 만지다 보면, 재밌는 상황도 자주 접하게 되거든요. 그런 내용은 일반인에게도 유익하리라 여겨 집니다.

감사합니다.

사진_김택우_1001.jpg

세상을 움직인 역사 속 데이터 이야기를 더 알고 싶다면?

< 데이터 인문학 보러가기 >

TAG :

이전 글 : 종의기원, 22년의 시간은 데이터 숙성을 위해 필요했다(下)

다음 글 : 우리가 발견한 7가지 데이터 트렌드 : 인프라에서 학습을 위한 툴까지

최신 콘텐츠

IT/모바일

[Interview] 데이터는 과거 현재 미래의 우리 인프라가 되어가고 있죠