상단여백
HOME 학술
빅데이터가 미래다
  • 하수민 수습기자
  • 승인 2016.10.10 08:00
  • 호수 607
  • 댓글 0

최근 PC나 모바일 기기 이용이 생활화되면서 사람들이 사용하는 데이터양이 폭증하고 있고, 데이터의 종류도 다양해졌다. 이로 인해 기존의 데이터베이스 관리 도구로 데이터를 수집하고 분석할 수 있는 역량을 넘었다. 이런 문제를 해결하기 위해 생겨난 것이 빅데이터다. 그렇다면 빅데이터는 정확히 무엇일까? 

양, 속도, 다양성
빅데이터란 PC나 모바일 기기 이용의 증가로 방대하게 생성되는 대규모 데이터, 그리고 그 데이터를 효과적으로 처리하고 분석하는 기술을 의미한다. 이러한 빅데이터는 양, 속도, 다양성으로 정의된다. 

양이란 데이터의 양을 의미한다. 빅데이터라 불리기 위해서는 일단 데이터 집합의 크기가 커야 한다. 정확히 정해진 것은 없지만 대략 적게는 수 테라바이트에서 많게는 수 페타바이트 정도 크기의 데이터 집합을 지칭한다.

속도란 정보를 생성하는 속도, 그리고 유입되는 데이터 흐름 속도로서 데이터를 처리하는 속도를 의미한다. 빅데이터 시대 이전에는 자료를 수집해 사람들에게 전달하기까지 시간적 간격이 컸다. 하지만 스마트폰 시대가 막을 열면서 데이터 유입의 속도가 증가했고, 사람들은 실시간으로 데이터를 볼 수 있다.

다양성이란 최근 쏟아지는 데이터들은 미리 형식을 정해놓기 어려운 것이 태반이다. 블로그나 카페의 게시물, 유튜브나 페이스북에 올라와 있는 동영상, 사진 등 우리가 일상적으로 인터넷을 통해 만들어 내놓는 데이터들은 매우 다양한 형태를 띤다. 이처럼 데이터 하나하나 크기와 내용이 사뭇 달라 통일된 구조로 정리하기 어려운 데이터를 비정형, 또는 비구조적 데이터라고 한다. 비정형 데이터는 갈수록 그 비율이 늘어나, 앞으로 만나게 될 전체 데이터 가운데 약 90% 이상을 차지할 것으로 전망된다.
 
데이터? 빅데이터?
정보화 초창기부터 데이터가 많이 활용됐는데, 그 데이터와 현재의 빅데이터의 차이는 무엇일까? 

첫째, 데이터의 성격이 다르다. 빅데이터는 정형 데이터나 반정형 데이터뿐만 아니라 비정형 데이터, 사물정보, 인지 정보 등 세상의 모든 데이터를 다 포함한다. 정보화 초기에는 정형 데이터만을 수집하고 활용해 왔으며 정보화의 진전과 함께 점점 더 반정형 데이터로 영역을 확대했다. 반면 현재의 빅데이터는 전체 데이터 중에서 비정형 데이터의 비중이 80% 이상을 차지할 만큼 정형 데이터나 반정형 데이터보다 비중이 훨씬 높다. 

둘째, 데이터의 양이 다르다. 빅데이터는 기존의 데이터와 비교할 수 없고, 기존의 데이터 개념으로는 이해가 불가능할 정도로 막대한 규모의 데이터를 의미한다. 

셋째, 데이터 처리 기술이 다르다. 빅데이터 시대가 등장한 또 다른 이유는 대용량 데이터 분석이 가능한 기술적 진보를 이루었다는 것이다. 과거에는 컴퓨팅 기술의 한계와 분석을 위한 데이터 저장 공간의 제약 때문에 많은 양의 데이터 분석이 현실적으로 불가능했다. 그러나 최근 이룩한 기술적 성과는 이런 제약을 극복할 수 있는 길을 마련해 주었다. 

기술의 발전 덕에 빅데이터 시대의 정보처리가 비로소 현실화되고 있다. 초기에는 자료를 수집하고 저장하는 데 초점을 맞추었고, 그다음은 이를 관리하고 검색하고 공유하는 데 초점을 맞추었다면, 앞으로는 데이터의 분석과 상황인지로 부가가치를 창출하는 것이 핵심이 되고 있다. 

빅데이터로 더 나은 삶을
이러한 빅데이터는 정부에서 중요한 역할을 한다. 먼저 미국 경찰은 범죄 관련 빅데이터를 분석해 범죄가 일어났던 지역에서 추가 범죄가 일어날 가능성이 크다는 사실을 발견하고 이를 바탕으로 범죄 예보 시스템을 구축했다. 그 결과 범죄 발생률이 22% 감소했다.

싱가포르는 밀집화된 도시국가이기 때문에, ‘자동차 총량제’를 실시해 차량 이용을 억제한다. 그런데도 엄청나게 증가한 차량으로 심각한 교통체증을 겪고 있다. 이에 싱가포르는 빅데이터 분석을 통해 실시간 차량 흐름 분석과 예측 시스템을 구현한 교통량 예측 시스템(TPT) 운영을 시작했다. 교통량 예측 시스템은 교통 통제관이 센서를 통해 실시간 교통 데이터를 보내면, 교통국의 교통 관제관이 이를 받아 교통 시나리오로 모델링 해, 1시간 뒤의 교통량을 예측하는 것이다. 이 시스템이 제공하는 예측 결과는 85% 이상의 정확성을 보인다. 

빅데이터는 범죄나 재난방지뿐 아니라 소음을 분석하는데도 쓰인다. 소음에 지속해서 노출되면 신체적·심리적 장애를 일으키고 생활환경을 악화시키기 때문에 각 나라에서는 소음을 해결하기 위해 노력한다. EU에서는 소음으로 인한 국민의 피해를 덜기 위해 각 나라의 소음지도를 의무화하여 작성하는 제도인 ‘Green Policy’가 시행 중이다. 이 제도에 쓰이는 소음지도란 지리정보시스템(GIS)과 소음원 데이터를 분석해 소음의 수치와 분포를 시각적으로 제시하는 것이다. 기존의 수치로만 표현되던 데이터 분석을 통해 소음을 시각화시켜 보여줘 소음에 대한 영향을 좀 더 쉽게 파악할 수 있게 됐다. 한편 소음지도는 2012년 부산광역시를 시작으로 우리나라에서도 제작되고 있다.

서울에서는 심야버스를 운영하는 데 빅데이터를 사용한다. 서울 곳곳을 운행하는 낮 시간 버스와 달리 심야버스는 이용자가 한정돼 있어 효율적 운영이 중요하다. 이에 서울시는 빅데이터를 활용해 심야버스 이용객을 분석하고 분석한 자료를 토대로   시범운행을 해 일정 부분 조정했다. 

빅데이터는 정부에서만 중요한 역할을 하는 것이 아니다. 전 세계 약 600개 기업을 대상으로 한 빅데이터에 관한 조사에서 대상자 중 46%는 의사결정에 중요한 요소라 답했다. 또 빅데이터 분석을 통해 제조업에서 개발, 조립 비용의 50% 절감을 기대할 수도 있다. 이러한 빅데이터의 가치에 주목해 빅데이터 관련 기업에 대한 투자도 늘고 있다. 특히 구글, 애플, 페이스북 등의 기업은 빅데이터 분석업체를 인수했다. 인포그래픽의 빅데이터를 도입한 기업의 만족도 조사에 따르면 92%의 기업들이 빅데이터 사용을 통한 사업성과에 만족한다고 응답했다. 
또 조사에 참여한 94%의 기업이 빅데이터를 사용해 원하고자 하는 바를 충족했다고 답했다.
그렇다면 기업들은 도입한 빅데이터를 어떻게 활용할까? 빅데이터 활용 사례의 선두 주자는 단연 ‘구글’이다. 구글은 자사 서비스 제공 과정에서 얻은 빅데이터를 활용해 새로운 형태의 서비스에 적용한다. 이로써 완성도를 높여 경쟁사보다 우월적 지위를 차지하고 있다. 특히 구글은 다양한 유형의 자료를 수집하고 이를 이용해 음성인식, 이미지 검색 등의 서비스를 제공해 경쟁력을 확보하고 있다. 또 수억 건의 자료를 활용해 50개 언어 간의 자동번역 시스템을 완성했다. 한편 구글의 독감 지도는 보건당국보다 빠르게 대처하고 있다.

빅데이터를 활용하는 또 다른 기업은 패션전문업체 ‘자라’다. 자라는 현재 유행하는 추세를 즉시 반영해 단기간에 다품종 소량 생산하는 초고속 전략을 채택한다. 전 세계 환경정보, 품목별 특징과 전시위치, 판매실적 등을 실시간으로 집계한다. 실시간으로 집계한 데이터들을 분석해 상품 수요를 예측하고 매장, 품목별 적정 재고를 산출해 가격을 결정한다.

빅데이터 시장은 2010년부터 꾸준히 성장하고 있다. Wikibon은 빅데이터 시장 규모를 2015년 약 384억 달러에서 연평균 31.7%씩 성장해 2017년에는 최대 501억 달러 규모로 성장할 것으로 예측했다. 

국내 스토리지분야의 성장과정과 앞으로를 예측한 그래프                                 사진출처/네이버블로그

위 그래프를 보면 알 수 있듯 국내시장의 경우 빅데이터 스토리지 분야가 가장     비약적인 성장세를 보일 전망이다. 한국과학기술정보원에 따르면 스토리지 시장은 2010년 이후 연평균 50%씩 성장하고 있으며 2018년에는 9천8백만 달러로 전체 시장의 18%를 차지할 것으로 보인다.

위험한 빅데이터
많은 사람이 ‘빅데이터가 미래다’라고 할 만큼 빅데이터의 힘은 커지고 있다. 하지만 빅데이터 시대가 도래하면서 정보보안의 문제가 생기고 있다. 개인의 정보가 손쉽게 수집되거나 노출돼 본인의 의사와 상관없이 사용된다. 한국인터넷진흥원이 국내 트위터 이용자 계정 200여 개를 대상으로 개인정보 노출 현황을 조사한 결과, 상당수의 계정에서 이름, 위치정보 등 개인정보가 공개되고 있다고 한다. 더 큰 문제는, 각각의 정보가 매체별·시기별로 다르게 작성되기 때문에 개인 정보가 어떻게 공개되고 있는지 알지 못해 정보 유출에 대한 위험성을 인지하지 못한다는 데 있다. 이는 단순한 정보유출뿐 아니라 각종 범죄에 악용된다. 자신도 모르는 사이 명의가 도용되어 불법 스마트폰 개통에 쓰이기도 하며 스미싱 문자 발송 대상이 되는 경우도 있다. 

이런 빅데이터의 정보보안 문제점에 대해 통계학과 박희창 교수는 “인터넷 쇼핑몰의 고객정보가 대부분 유출되는 등 이제껏 정보유출사고가 발생하면 외부협력기관에 책임을 전가하는 식으로 대처하는 경우가 많았다”며 “정보보안기술의 개발도 중요하지만, 체계적이고 철저한 정보보안전략을 수립해야 할 필요가 있다”고 밝혔다. 또 “방송통신위원회의 ‘빅데이터 개인정보보호 지침’이 있지만, 현행 개인정보보호법에 어긋날 수 있어 많은 시민단체가 우려하고 있다”고 덧붙였다. 

빅데이터를 성공적으로 활용하기 위해서는 사생활 침해와 보안적 측면에서의 문제점을 해결하는 것이 우선이다. 체계적인 정보보안전략만 수립한다면 빅데이터를 더 다양한 분야에서 제약 없이 활용할 수 있을 것이다.

범죄나 질병 예방, 기업경영과 같은 거대한 분야뿐 아니라 블로그나 SNS 관리와 같은 사소한 분야에서도 큰 역할을 하는 빅데이터. 아무리 사소한 데이터일지라도 그 데이터들이 모였을 때 힘은 대단하다. 또 같은 데이터라도 그 데이터들은 어떻게 분석하느냐에 따라서 다양하게 활용된다. 우리의 미래는 빅데이터와 아주 밀접한 관련이 있다. 지금까지 모은, 앞으로도 모일, 지금도 모이고 있는 이 데이터들을 어떻게 활용하느냐에 따라 우리의 삶이 얼만큼 더 나아질지 결정될 것이다.

<저작권자 © 창원대신문, 무단 전재 및 재배포 금지>

하수민 수습기자의 다른기사 보기
icon인기기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
여백
여백
여백
Back to Top