한국교원대학교 손정주, 김혜진
빅데이터 시대에서 우리는 다양한 경로로 빠르게 축적된 방대한 양의 데이터의 분석으로 부터 이전보다 실제에 보다 더 가깝게 이해하고 이를 통해 보다 나은 판단을 할 수 있게 되었다. 빅데이터는 기존의 데이터 처리 방법으로는 처리가 어려울 정도의 양과 다양성을 갖는 데이터 셋을 의미하기도 한다. 한편으로 빅데이터는 단순히 많은 양의 데이터를 의미하기 보다는 포괄적인 정의로 충분한 양의 데이터를 통해 이해를 높이고 판단을 바꿀 수 있는 기술로 정의되기도 한다.
빅데이터가 갖추어야 할 요소를 5V 로 구분하기도 한다. 방대한 양의 데이터, 데이터 축적의 빠른 속도, 다양한 소스로 부터 다양한 모습을 갖는 데이터, 유용한 데이터이자, 불일치과 불확실성을 갖지만 정확성을 갖고 있어야 하겠다.
데이터 사이언스는 빅데이터 분석의 과정으로 포함되어 설명된다. 방대한 양의 자료를 과학적인 과정으로 분석하는 것으로 현실의 문제를 직시하고 계획을 세워 적절한 빅데이터 자료가 준비가 되면 데이터 사이언스 과정을 통해 입력된 자료로 부터 통계적 접근과 과학적 자료처리 분석 과정 그리고 분석된 결과의 가시화 작업을 하게 된다.
데이터 사이언스에는 전통적인 연구 방법, 수학, 통계학, 컴퓨터 사이언스, 데이터 저장 공간, 경영학적 사고, 기계학습, 소프트웨어 기술 분야가 포함된다.
빅데이터, 데이터 사이언스를 활용하여 교육을 할 때의 이점에는 학습자의 학습 능력을 향상시키고, 학습자의 수준에 맞는 학습 프로그램을 맞출수 있다. 직업교육으로 의미가 있으며, 투입되는 교육재정에 투명성을 가질 수 있고, 효과적으로 교육 시스템을 관리 할 수 있다. 학습자 입장에서 학습 과정을 정교하게 하고, 데이터가 가지는 가치를 확인 및 해결하고자 하는 문제에 대한 통찰을 개선 할 수 있다.
빅데이터를 분석하는데는 기술적 지원 시스템과 통계학이 기본적으로 요구된다. 간단히, 평균과 분산과 같은 대표값을 이용하면 결과를 요약할 수 있고 규칙적이고 패턴을 살필 수 있다. 나아가 빅데이터의 데이터 사이언스에서 고려되지 못했던 패턴이나 상관관계, 유의미한 경향성등 통계는 입력된 데이터의 정보의 요약 이상을 제공한다. 시각화는 데이터를 인포그래픽, 차트, 다이어그램 등의 시각적 현태로 표현하는 것으로 복잡한 데이터에 대한 분석 결과를 요약하여 이해가 편한 시각적 개요로 나타낼 수 있다.
컴퓨터 언어를 이용하여 데이터 사이언스와 시각화를 해보게 된다. 다양한 컴퓨터 언어는 각각의 장점과 단점을 갖고 있다. 이 중에 최근 프로그램언어로 가장 많은 선택을 받고 있으며, 비교적 학습과 사용이 쉽고, 사용자간의 공유, 유연성, 전문성 등에 많은 장점을 가지고 있는 파이썬(Python)으로 진행하겠다.
파이썬 언어를 사용하기 위한 편집기 또한 다양하다. 파이썬을 직접 다운 받고 사용자가 선호하는 편집기를 선택하여 설치하고 이용할 수 있다. 이번에는 파이썬 편집기로 선호도가 높은 편인 Jupiter Notebook 의 방식을 갖고 웹 브라우저 상에서 협동작업이 가능하도록 작성과 실행을 원격으로 수행할 수 있는 구글의 Colab(Google Colaboratory) 을 이용하고자 한다.
구글 Colab은 구글 드라이브와 쥬피터 노트북의 형식을 함께 사용할 수 있다. 구글 계정 전용의 가상 머진을 지원해주며 GPU 사용도 가능하다. 협업을 위해 구글 드라이브내의 문서와 파일을 링크를 공유하는 것만으로도 접근이 가능하다. 다소 불편한 점은 온라인 상에서 수행하여 실행에서 시간적 지연이 있다.
어느 정도 파이썬과 익숙해지면 개별 컴퓨터에 파이썬과 쥬피터노트북, 파이참 등을 선택하여 설치하여 이용하기를 권한다.
아래의 기초 실습과 다음 페이지들로 이어지는 실습을 순서대로 따라해 보세요.
1. 개인 구글 계정이 필요하다. ( 기 계정을 사용해도 되고, 없는 경우 새로운 개정을 만들자.)
2. 개정이 없는 경우 새로 만들고 다음으로 로그인하여 자료의 저장 및 관리에 대해 살펴 보자.
천문 교육 활동 교재 박찬경, 손정주, 송인옥, 심현진 공저