[NIE]내 모든 것이 기록되는 세상, 빅데이터
미디어와 뗄 수 없는 생활을 하는 우리는 구글, 네이버와 같은 검색엔진을 통해 정보를 검색하고, 유튜브에서 동영상을 찾아보며, 메신저와 SNS를 통해 지인들과 소통한다. 그런데 대부분 무료로 서비스를 이용한다. 정말 무료일까? 이런 서비스를 제공하는 회사들은 우리에게서 무엇을 가져갈까?
그건 바로 우리의 데이터이다. 우리가 어떤 정보를 찾는지, 무엇에 관심이 있는지, 누구와 대화하는지 등 일상의 데이터를 대신 건네받고 있다. 우리의 모든 것이 데이터가 되는 세상에서 21세기의 자원이라고 불릴 만큼 중요한 가치를 지니고 있다는 빅데이터는 무엇일까? 어떻게 생성되고 저장되는 것일까? 또 어떻게 활용할 수 있을까?
이번 시간에는 빅데이터에 대해 알아보고, 빅데이터 활용의 양면성과 바람직한 활용 방향에 대해 생각해 보고자 한다. ‣ 매일경제 2021년 4월 21일, 21세기 원유 빅데이터 미래 예측 도구로
‣ 소년한국일보 2020년 7월 22일, 빅데이터가 만드는 새로운 세상 스마트시티
‣ 한국경제 2020년 7월 2일, 데이터, 축적과 활용 사이 <읽기자료 1>21세기 원유 빅데이터 미래 예측 도구로
과거 20년 전만 하더라도 큰 데이터가 있어도 담을 그릇이 없었다. 즉 USB와 같은 저장장치가 부족했다. 하지만 이제는 더 이상 콘텐츠를 담고자 노력을 기울이지 않아도 된다. 그만큼 데이터, 콘텐츠, 정보가 많아졌고 어떻게 데이터를 모으고 재가공하느냐에 따라 전혀 상상치 못했던 새로운 보물이 탄생하게 된다.
Q. 빅데이터란 무엇인가.
A. 빅데이터(big data)는 대용량 데이터가 뭉친 형태를 일컫는 말이다. 즉 데이터 하나하나가 모여 의미와 가치가 있는 단위로 묶인 데이터 덩어리가 바로 빅데이터라고 보면 된다. 데이터가 중요한 이유는 정보를 담고 있기 때문이고 이러한 정보에서 새롭고 가치 있는 의미를 담은 정보를 재가공할 수 있기에 4차 산업혁명의 대표 기술로 불리고 있다.
기존 데이터베이스 처리 소프트웨어(SW) 방식으로 처리할 수 없을 정도로 방대한 분량을 빅데이터라 부르고 있다. 시장조사기관인 매킨지도 빅데이터를 일반 데이터베이스 소프트웨어가 저장하고 관리하며 분석하는 범위를 초과하는 데이터라고 정의했다. 이젠 데이터를 기반으로 개인별 맞춤형 정보를 제공하는 것도 가능해졌다.
Q. 빅데이터의 발전 과정은
A. 2001년 세계적 시장조사업체인 가트너는 빅데이터를 3V로 정의했다. 즉 데이터의 양(Volume), 데이터의 속도(Velocity), 데이터의 종류(Variety)다. 데이터의 양이 매우 많고 속도가 매우 빠르며 매우 다양함을 뜻한다. 빅데이터는 사회관계망서비스 (SNS)와 같은 소셜미디어, 위성항법시스템(GPS)에 따른 위치 정보, 인터넷 이용 정보는 물론 사진, 동영상, 텍스트 등을 모두 포함한다. 불과 지난 2년 동안의 데이터 양이 인류 역사 전체 기간에 축적한 양보다 많다고 한다. 생산 속도도 엄청나 지난해 기준으로 1분에 약 1800테라바이트(TB)가 만들어진다.
무엇보다 빅데이터가 본격 출현한 데는 2007년 스마트폰의 탄생이 영향을 미쳤다. 모바일의 확산은 많은 정보를 만들게 해줬고 빅데이터 개념을 좀 더 빠르게 발전시켰다. 아울러 컴퓨터 성능의 증대, 데이터 저장장치의 비용 감소는 빅데이터 발전을 앞당겼다. 메모리 저장 비용의 하락, 정보를 저장하고 관리하는 클라우팅 컴퓨팅 기술의 확산, 데이터를 쉽고 싸게 이용할 수 있는 분산파일시스템의 개발 등도 큰 요인이 됐다.
Q. 생활 속에서 빅데이터는 무엇이 있나
A. 오늘날 데이터는 자산, 자본, 돈이라고 말한다. 혹자는 경쟁력을 좌우할 21세기 원유라고도 한다. 원유는 정제 과정을 거쳐 석유나 휘발유가 되기도 하지만 플라스틱, 의약품 원료, 섬유류로도 재탄생한다. 이처럼 데이터는 여러 분석 과정을 거치면서 전혀 의도하지 않았던 정보도 만들어줘 원유에 비유된다. 구글이 빅데이터를 활용해 미국의 독감 유행을 의료전문기관보다 미리 발표한 것은 유명한 사례다. 데이터를 알면 수백 년 전 기록을 바탕으로 미래를 예측할 수도 있다. 역사적 데이터를 기반으로 한 과거 기상 데이터는 향후 몇 십년 내 지진이나 화산 폭발과 같은 예측에 도움을 줄 수 있다. 이 밖에도 심야버스(올빼미) 노선도나 심야 로켓배송, 카드사나 보험사의 고객 맞춤형 상품 출시 등은 이미 우리 생활 속에 자리 잡고 있다. 이처럼 빅데이터는 좀 더 편리한 생활을 누리는 데 도움을 주고 있다.
Q. 미래의 빅데이터는
A. 정부가 추진하는 디지털 뉴딜 정책에 따라 올해 ﹡데이터댐을 통해 데이터 14만개를 일반에 공개하기로 했다. 아울러 디지털 대전환을 이루기 위해 2025년까지 예산 58조원가량을 투입해 디지털 뉴딜 정책을 본격 시행하고 있다.
물론 빅데이터가 가장 우려되는 부분은 사생활 침해와 보안이다. 수많은 이해관계자에게 얻은 정보이기에 데이터를 수집할 때 개인정보가 한번 유출되면 피해가 커 조심스러운 접근이 필요하다. 또 유발하라리가 예측한 것처럼 극소수가 데이터를 독점하는 디지털 독재를 항상 경계해야 할 것이다. 아울러 빅데이터를 잘 운용하기 위해서는 데이터사이언스의 중요성을 인식하고 관련 교육과 산업을 발전시켜 나가야 한다. 결국 데이터는 우리 속담에 있는 구슬도 꿰어야 보배라는 말과 가장 일치한다.
<출처 : 매일경제 2021. 4. 21. >
<읽기자료 2> 빅데이터가 만드는 새로운 세상 스마트시티
인공지능은 빅데이터 기술을 만나 획기적인 발전을 하고 있어요. 앞으로 더 많은 데이터가 생기고 그 처리 속도가 빨라지게 되면 인공지능의 수준도 비약적으로 발전하게 될 가능성이 충분해요. 미래학자들은 인공지능과 빅데이터가 만나면 지금까지와는 전혀 다른 세상이 펼쳐질 것으로 생각해요. 우리나라를 비롯한 많은 나라는 빅데이터가 변화시킬 미래 도시의 모습에 관심을 기울이고 있어요.
현재 세계 인구 중 도시에 사는 사람들의 비율은 54/%인데 UN은 2050년에는 이 비율이 70%로 증가할 것으로 예상하고 있어요. 이렇게 도시에 사는 사람들이 많아지면 자연스럽게 도시 문제를 어떻게 효율적으로 해결할 것인지가 지금보다도 훨씬 더 중요해져요. 교통 혼잡, 환경 파괴, 일자리 부족, 쓰레기 처리 등 도시에는 해결해야 할 과제가 많기 때문이죠.
스마트시티란 도시를 효율적으로 관리할 수 있는 체계를 갖춰서 사람들의 삶의 질을 높이는 도시를 말해요. 이렇게 똑똑한 도시를 만드는데 빅데이터는 빼놓을 수 없는 중요한 요소지요.
하지만 모든 것이 완벽해 보이는 이상적인 도시가 짧은 시간에 만들어지기는 어려워요. 그래서 작은 것부터 빅데이터를 적용해서 해결하려는 시도가 현재 세계 곳곳에서 진행되고 있어요.
프랑스의 해변 도시 니스에서는 교통량에 따라서 가로등의 밝기를 자동으로 조절하는 스마트 조명을 설치해 에너지 절약은 물론 차량 절도까지 줄이는 효과를 보았다고 해요. 미국은 도시 주요 지역에 적외선 카메라를 설치해서 기후와 대기의 오염 정도, 소음과 진동을 측정하고 이를 분석해서 산책하기 좋은 시간대별 코스 정보를 제공하고 있어요. 중국의 항저우시에는 어람 전 빅데이터 버스가 등장했어요. 승객이 미리 자기가 갈 곳을 선택해서 예약하면 데이터 센터에서 맞춤형 운행 노선을 만들어요. 버스 노선이 미리 정해져 있는 것이 아니라 그때그때 승객이 원하는 장소로 새롭게 노선이 정해지는 셈이에요. 22명 이상의 승객이 같은 노선을 원하면 버스를 운행해요. 또 항저우시는 주요 도로와 교차로에 4000개의 지능형 CCTV를 설치했어요. 이를 통해 수집한 차량흐름 데이터를 분석해서 신호등을 차량 흐름에 맞게 자동으로 조정했지요. 그 결과 차량 속도가 11%가량 빨라졌다고 해요.
우리나라도 스마트시티를 만드는 계획을 세우고 있어요. 서울시는 25개 구청이 보유하고 있는 CCTV 6만 8000대를 112, 119와 연계할 예정이에요. 이렇게 되면 시민들이 긴급한 상황이 생겨 112나 119로 전화를 걸면 상황이 발생한 곳의 CCTV 영상정보를 활용해서 구조나 구급을 정확하고 신속하게 할 수 있다고 해요.
<출처 : 소년한국일보 2020. 7. 22. >
<읽기자료 3>데이터, 축적과 활용 사이
데이터는 21세기 원유로 비유된다. 지문이나 홍채 등 신체 데이터와 금융 데이터가 결합하면 교통카드 없이 지하철을 타고 별도의 결제수단 없이 쇼핑하는 놀라운 일이 가능해진다. 신체 데이터가 파악되면 연결된 금융계좌를 통해 결제가 이뤄지기 때문이다. 과거엔 공상과학(SF) 영화에서나 가능하다고 여겼던 일들이 이미 현실이 됐다. 중국에서다.
하지만 이들 데이터에는 양면성이 있다. 시민의 삶을 편리하게 하기 위한 데이터가 개인의 이동을 감시하고 통제하는 데 사용될 수도 있다. 중국에서는 빅데이터에 기반을 둔 사회 신용 체계(social credit system)가 작동한다. 교통 법규를 어기거나 잠옷을 입고 거리를 활보하는 등 공중도덕을 지키지 않은 경우 길거리 전광판에 얼굴과 이름이 알려져 공개 망신을 당하고, 세금 체납자는 항공기와 열차 탑승이 현장에서 거부된다고 한다.
이처럼 이종(異種) 데이터의 결합은 기회와 위험 모두를 의미한다. 문제는 그 경계가 명확하지 않다는 점이다. 방대한 데이터가 모였을 때 과연 어떤 분석과 활용까지 허용할 수 있을까.
유럽연합(EU)은 의도치 않은 활용을 막기 위해 이종 데이터의 결합을 원천적으로 봉쇄했다. 이것이 2016년부터 시행된 GDPR(General Data Protection Regulations), 개인정보 보호법이다. GDPR은 개인정보의 수집저장구성변경사용결합삭제를 비롯한 전 범위를 다루며 인터넷 도입 이래 가장 강력하고 까다로운 규정이라 평가받는다.
AI 발전에 필요 vs 사생활 침해
이번 신종 코로나 바이러스 감염증(코로나19) 사태에 한국을 비롯해 대만, 호주 같은 국가는 데이터의 기회와 위기 사이에서 균형점을 찾은 듯하다. 개인의 휴대폰 위치 정보와 신용카드 사용 명세 데이터를 결합해 확진자의 동선 및 접촉 위험자를 파악하는 정보로 활용했다. 이를 토대로 확진자가 어디에서 코로나19에 감염됐는지 추적이 가능했고, 역학조산관의 작업 시간도 효율적으로 단축할 수 있었다. 국가가 보유한 데이터를 재난 상황에 적절히 활용해 재빠르게 대처한 것이다. 어쩌면 사생활 침해로 여겨질 수 있는 데이터 활용임에도 대다수 국민은 개인 데이터가 사용될 수밖에 없는 특수한 위기상황임에 공감했고, 정부에 대한 지지도는 오히려 상승했다.
하지만 코로나19 확진자 경로를 토대로 신변 노출 피해가 뒤따르기도 했다. 이태원 클럽 단순 방문자 중에도 신변 노출을 꺼리는 이가 많았고, 교인들도 신천지 관련 의심을 받을까 공개를 꺼렸다. 이는 사회적 분리 현상을 가속화했다. 일부 확진자와 관련해 잘못된 신상털기 현상이 벌어지기도 했다.
축적보다 활용에 대한 논의 절실
2006년 미국의 저명한 인터넷 기업 아메리카온라인(AOL)은 65만명 사용자의 석 달치 검색어 목록을 연구 목적으로 공개했다. 회사는 사용자 아이디를 무작위 숫자로 변경해 공개했지만 사용자들이 간혹 자신의 이름, 사회보장번호, 집 주소, 전화번호 등의 개인식별정보와 진료를 받은 병원, 특이한 취미 등 민감한 정보를 검색 키워드로 사용한다는 점을 간과했다.
논란이 불거지자 AOL은 즉각 데이터를 삭제했지만 이미 공개된 데이터는 빠른 속도로 퍼져나갔다. 결국 데이터를 공개한 직원과 당시 최고 기술책임자는 해고됐으며 캘리포니아지방법원에서 이뤄진 집단소송 결과 업체의 데이터 공유로 피해를 본 사용자에게 최소 5000달러씩 보상하라는 판결이 내려졌다.
AI 분야를 선점하고자 하는 나라들은 앞으로 더욱 빠른 속도로 데이터를 축적하고 공유하며 데이터 산유국으로 떠오를 것이다. 코로나19로 비대면이 일상화된 오늘날 AI는 산업과 국가행정에 적극적으로 활용되고 있으며 당분간 데이터 경쟁은 더 치열해질 것이다. 앞으로는 누가 양질의 데이터를 축적했는지에 대한 논의보다 방대한 데이터를 어디까지 사용해도 좋을지에 대한 논의가 필요할 것이다.
<한국경제 2020. 7. 2.> 활동 1. <읽기자료1>을 읽고, 빅데이터가 무엇인지 정리해 봅시다.
활동 2. <읽기자료1>을 읽고, 편리한 생활을 위해 빅데이터가 어떻게 활용되고 있는지 찾아 써 봅시다.
활동 3. <읽기자료1>을 읽고, 빅데이터 활용의 장단점에 대해 정리해 봅시다.
장점:
단점:
활동 4. <읽기자료2>를 읽고, 빅데이터를 적용하여 도시 문제를 해결한 나라들의 사례를 정리해 봅시다.
※도표 형식 활동 5. <읽기자료3>을 읽고, 중국의 빅데이터 기반 사회 신용 체계에 대한 생각을 써 봅시다.
활동6. <읽기자료3>을 읽고, 개인 데이터의 활용 범위에 대한 자신의 생각을 써 봅시다. 데이터 댐
정부가 2020년 7월 14일 확정발표한 정책인 한국판 뉴딜의 10대 대표과제 중 하나로, 데이터 수집가공거래활용기반을 강화하여 데이터 경제를 가속화하고, 5G 전국망을 통한 전 산업 5G와 AI 융합을 확산시키는 것이다.
10대 대표과제는 디지털 뉴딜(3개), 그린 뉴딜(3개), 융합과제(4개)로 구성돼 있는데, 데이터 댐은 디지털 뉴딜 분야에 속한다.
빅브라더(big brother)
사회학적 통찰과 풍자로 유명한 영국의 소설가 조지 오웰의 소설 《1984년》에 등장하는 전체주의 정부를 가리키는 말로서, 정보를 독점해서 사회를 통제하는 권력이나 사회체계를 뜻한다. ■ 더 읽어보면 좋을 기사
‣ 동아일보 2021년 7월 7일, 애플, 中기업 개인정보 추적 차단 美-中 데이터 전쟁
‣ 국제신문 2021년 12월 20일, 빅데이터 알고리즘으로 사생활 통제빅브라더 미래 우려
‣ 서울경제 2021년 11월 3일, 데이터가 경쟁력 맞춤형 구독상품 쑥
■ 함께 읽으면 좋을 도서
그림입니다. 원본 그림의 이름: 생각이 크는 인문학 15빅데이터.JPG 원본 그림의 크기: 가로 354pixel, 세로 512pixel
제목: 생각이 크는 인문학15 빅데이터
- 빅데이터는 우리의 삶을 어떻게 바꾸고 있을까?
글/그림: 정용찬/이진아
출판사: 을파소(21세기북스)
이 책은 빅데이터는 무엇인지, 빅데이터는 어떻게 활용되고 있으며, 앞으로는 어떻게 발전하게 될 것인지 살펴보고, 빅데이터와 사생활보호, 개인정보보호와 같은 민감하고도 중요한 이슈를 함께 살펴본다. 또한 어린이와 청소년들에게 정보를 어떻게 활용할 것인지, 어떤 정보를 취하고 버려야 할지 등을 함께 생각해보는 기회를 제공할 것이며, 이미 다가온 4차 산업혁명, 빅데이터 시대에 스스로 생각하고, 꿈꾸고 미래를 준비하는 아이들의 좋은 길잡이가 되어줄 것이다.
<출처: yes24.com>
/제작=윤지선(이리북일초 교사)