메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

IT/모바일

크라우드 소싱과 기계학습으로 문자인식 문제해결에 뛰어든 스타트업

한빛미디어

|

2013-01-25

|

by HANBIT

14,496

제공 : 한빛 네트워크
저자 : Alex Howard
역자 : 김동주
원문 : A startup takes on “the paper problem” with crowdsourcing and machine learning

Captricity는 모바일 앱과 API를 통해 아날로그와 디지털 사이에 진보된 다리를 놓으려 한다

종이 폼 위에 쓰여진 글들은 광학문자인식(OCR, Optical Character Recognition) 소프트웨어가 해결해야 할 요소들이다. 여기서 두 가지 문제가 대두되는데, 첫 번째로 동원되어야 하는 하드웨어와 소프트웨어가 비영리단체나 정부기관에게는 비싼 가격이라는 점, 두 번째로 문서의 모든 정보가 스캔됨으로 인해 시스템에 저장 될 때 사회보장번호나 다른 개인정보 같이 민감한 세부정보까지 저장 된다는 점이다. 이것은 특히 헬스 케어나 "열린 정부 법정으로 가져오기: 모호한 개인정보는 더 이상 없다"에 관련하여 특별히 어려운 문제이기도 하다.

인터넷의 빠른 성장률과 더불어 컴퓨터 및 모바일 기기의 보급에 의해, 문서에서 구조화된 데이터로 변환되는 과정은 여전히 계속되고 있다. 조사기관에서부터 의료, 법, 교육, 소비분야, 정부 등 다양한 영역에서 더 나은 상태와 보다 저렴한 가격에 아날로그를 디지털화하고 싶어한다.

captricity Captricity를 들어가보라. 공동 설립자 Jeff J. Lin과 Kuang Chen에 의해 설립된 이 스타트업 기업은 시골 건강 Chen 영역에 뿌리 박고 있으며 그의 의사 프로그램 영역이기도 했다.

첸(Chen)은 최근 전화 인터뷰에서 다음과 같이 말했다. "저는 저예산 기구에 적용 가능할 정보 시스템을 연구하고 있었습니다. 그들이 페이퍼 워크에 많은 시간을 들이는 것을 보았죠. 그것들은 인프라 구조를 현대화하고 모바일 기기에 넣는데 많은 노력을 필요로 합니다. 모바일 접속이 가능해진 이상 당신은 태양열 패널으로 동작되는 헬스 클리닉이나 원거리 Wi-Fi를 운영할 수 있습니다. 그러나 최근 비즈니스 프로세스는 여전히 종이 상에서 진행되고 있습니다. 실수를 방지하기 위해 말이죠. 기술은 결국 실수합니다. 그런 점에서 종이는 매우 오랜 시간 계속 될 것입니다. 만약 우리가 데이터 가용성을 새롭게 풀고자 한다고 해서 기술 인프라의 변화가 가장 우선시 되어야 하는 것이 필수적인 것은 아닙니다. 페이퍼가 있는 곳에 모바일 폰이나 iPad를 가져오는 등의 일 말이죠. 그렇게 하지 않아도 종이 문제를 해결할 수 있습니다.

첸이 건강 지표를 디지털화하는데 있어 생기는 데이터 진입 문제를 발견했을 때부터는 더 나은, 하지만 보다 저렴한 비용으로 폼 데이터를 담기 위해 연구하기 시작했다.

내가 이 기술의 온라인 데모를 보았을 때 이 종이 문서의 문제에 대한 Captricity의 접근방식은 색달랐다.

Captricity는 인터넷을 이용해 빠르고 저렴하게 폼 위의 손글씨를 구조화 데이터로 만들 수 있는 방법을 찾아냈다.

"우리의 주타켓 이용자는 Excel이나 Word를 이용하는데 익숙한 사무 관리자입니다. 우리는 이런 사무 관리자나 학교 선생님 또는 데이터베이스 관리자가 스스로 할 수 있게 될 것이라 확신합니다 "라고 Chen은 말한다.

겉보기에도 프로세스는 이용자에게 비교적 간단해 보인다. 템플릿화하기 위해 양식을 스캔 한 뒤 기입란 영역을 지정해주면 된다. 이 방법에 따라 폼양식을 스캔한 뒤에 시스템은 자동으로 각각의 지정된 기입란 영역을 이미지로 쪼갠다. 이 이미지들은 크라우드소싱 직원들이 온라인 상에서 확인을 할 수 있게 한다. 그 뒤 각 폼의 영역 폼은 CSV나 Google 문서형식 등의 구조화된 데이터로 만들어진다. 그렇게 각각의 디지털화된 문서는 행으로 보여진다. 데이터의 출처는 저장되고 오리지널 이미지는 주어진 셀에 들어간다. 대부분의 일이 10~20분 정도 소요된다(필자가 본 데모는 11분 정도 소요되었다).

첸은 "비밀이지만, 이 접근은 페이지마다 작은 조각으로 잘라내기 위함입니다."라고 말한다. "우리는 각각의 작은 조각을 인식한 다음 인터넷 상의 직원에게 보내죠. 그들은 문맥의 어떤 것도 볼 수 없습니다. 단지 그들은 3중 확인에 의해 우리가 정확한지 확인하는 답변셋을 전달할 뿐입니다. 그런 다음 우리는 이 3중 확인된 작은 셋을 저장하고 각 영역의 값을 인식하는 기계학습 엔진을 학습시키죠.

Captricity는 "디지털화 서비스 제공자"라는 적절한 포지셔닝을 했다. 장비를 사는 대신 기관들은 그들에게 지불하는 것이다.

"인터넷 상에서 우리에게 문을 두드리면, 디지털화 시켜줍니다."라고 첸은 말한다. "당신이 사용하는 만큼만 지불하게 되죠. 300,000 달러나 지출하면서 고성능 스캐너를 구입하거나 스스로 해야하는 일을 하지 않아도 됩니다. 우리가 가진 것은 Amazon AWS에서 운영하고 Mechanical Turk에서 온 크라우스 소싱 직원들로 탄력적으로 크라우드 컴퓨팅 기술을 이용합니다.

처음 25장은 무료고, 이후부터는 장당 약 0.2달러의 단가가 책정된다. 많은 양의 의뢰 고객은 데이터의 양과 타입에 따라서 약간 더 낼 것이다. 이에 비해, OCR로만 하는 솔루션은 0.01~0.03달러 정도 되지만, 비싼 소프트웨어 라이선스 비용과 장비가 요구된다고 첸은 말한다.

최근 iOS 앱으로 출시되면서 Captricity는 모바일로 진출했다. 지금은 iPhone, iPad, iPod Touch 등을 이용해 저장된 템플릿과 정보를 Dropbox 계정에 동기화하면 스캔이 가능하다.

더불어 이 신생기업은 더 나은 디지털화 서비스 제공자라는 것 보다 더 큰 잠재력을 가지고 있다. Capticity의 API는 사람들의 디지털로 변환된 데이터를 보다 쉽게 조작할 수 있게 도와 줄 것이다.

첸은 "우리는 1달 반의 기간 동안 베타 버전을 출시했습니다. 우리는 복잡한 것에서 단순함을 뽑아내고 애플리케이션 개발자가 "우리는 폼을 가지고 있으면 데이터로 만든다." 라고 말하게 할 겁니다. 또한 당신은 하루면 업무를 마칠 수 있게 됩니다."

그리고 지금 개발자들은 정보를 나눌 수 있습니다. Captricity는 공개적으로 디지털화되고 구조화된 테이터셋를 나눌 수 있는 새로운 오픈 데이터 플랫폼을 발표했다. 그 첫 데이터셋은 이 플랫폼을 잘 나타내는 컨셉의 의미로 미국 통계청에서부터 개시했다.

이 기술은 특별히 폼이 가득있는 헬스케어에 중점을 두고 있다. 그것이 첸이 이번 달 StrataRX 컨퍼런스에서 "미 개척된 종이 위 구조화된 데이터"라는 주제로 발표하기 위해 웨스트 헬스와 Elation EMR 대표모임에 참석하는 이유이다. 사적인 정보가 담겨있는 영역은 남겨두고 특정부분만 스캔하도록 하는 기술은 헬스 데이터 인프라의 키 요소가 될 것이다. 이 영역은 환자 정보를 관할하는 HIPPA가 제정한 특별한 과제이고, 선택적인 디지털화는 그에 해답을 제시할 것이다.

"우리는 이 프로세스에 대해 매우 엄격하고 조심스럽게 통제를 합니다. 그래서 완전 자동은 아니고 보다 나은 수작업이죠. 그 때문에 데이터가 공적인 것은 공적으로 남겨두는지 확인할 수 있습니다."라고 첸은 말했다.

많은 사람들이 온라인에서 일할 수 있게 하기 위한 이 새로운 일은 잠시 머물러 있다. 물론 지난 십 년 동안 예상을 깨는 크라우드 소싱으로 말이다. 이 혁명적인 일은 기계가 인간 처럼은 할 수 없는 것들(읽기, 쓰기 등)에 적용하여 마침내 디지털 데이터의 문제들을 해결하려는 것이다. 이 특별한 스타트업이 설사 성공하지 못한다더라도, 많은 기업들에게 중요한 힌트를 준 셈이 된다. 데이터 시장이 점점 성장하기 위해선 더 많은 공급책이 필요하다.

첸은 "이것은 대략 인간이 조종하는 기계학습의 깃발 밑으로 떨어집니다." 라고 말한다. 또한 "저는 크라우드소싱의 출현과 더불어 이것이 기계학습 알고리즘이 할 수 있는 것을 향상시킬 겁니다. 내 박사과정을 포함한 6개월 뒤에 우리는 이전의 OCR보다 더욱 향상된 OCR이며 대량주문도 실행하는 생산 시스템을 만들겁니다. 나는 이 OCR 알고리즘을 보여줄 컴퓨터 연구원들에게 가장 큰 존경심을 갖습니다. 이것은 그들이 했던 것에 비해 다른 문제를 푸는 것이니까요. 또한 이 분야의 다른 문제들을 풀어내기 위한 새로운 접근이기도 합니다." 라고 말했다.
TAG :
댓글 입력
자료실

최근 본 상품0