1. 데이터 과학이란?

데이터 과학이란?

데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다.[1]

데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.

데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가진다. 사용되는 기술은 여러분야에 걸쳐있으며 수학, 통계학, 계산기과학, 정보공학, 패턴인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련이 있다. 데이터 과학을 연구하는 사람을 데이터 과학자라고 한다.

튜링상을 수상한 짐그레이(Jim Gray) 박사는 데이터 과학은 과학의 네번째 패러다임으로 정의하고 과학(경험, 이론, 계산, 그리고 이제 데이터)에 관한 모든 것이 바뀌고 있는데 이유는 정보기술과 데이터 범람(data deluge) 때문이라고 주장했다.

데이터 과학은 생물학, 의학, 공학, 사회학, 인문과학 등의 여러 분야에 응용되고 있다.

의사결정체계에서 사용되는 데이터 사이언스 프로세스 흐름도를 살펴보면 <그림1>에서 보는 바와 같이

현실로부터 원시 데이터(raw data)를 수집하고, 이를 데이터 베이스(DB) 등의 원리를 사용하여 데이터 프로세싱을 시켜 컴퓨터에 저장하고,

검색을 통해 불필요한 데이터를 제거하여 양질의 데이터를 만든다.

그런 다음 통계적인 방법으로 탐구 데이터 분석(exploratory data analysis)을 통해 모델링과 알고리즘 개발을 거쳐 필요한 정보를 창출한다.

이 정보를 소통하고 시각화(visualization)하여 보고서를 작성하고 의사결정(decision making)에 사용하는 것이다.


이 데이터 결과물은 현실에 반영되어 사회의 각종 활동에 사용된다.

예를 들어 Jackson과의 비디오에 대해 생각해 봅시다. 30 년 넘게 맹인을위한 안내견은 수천 명의 강아지 사육자의 복잡한 유전자 매핑, 의료 기록, 일지 및 일지로 구성된 모든 방식의 안내견에 대한 데이터 세트를 철저히 수집하여 부모와 트레이너를 육성하여 성공률을 높였습니다. 안내견 사육. 그래서 그들은 30 년 동안의 데이터를 가지고있었습니다! 이 모든 데이터를 사용하여 맹도견 번식의 성공을 개선하는 데 도움이되는 트렌드를 찾기 위해 데이터 과학을 적용했습니다. 발견 한 결과, 그들은 안내견 중 하나 인 Jackson에 대한 데이터 스토리를 만들고 게시했습니다. 꽤 멋지죠?

이 과정에서는 우리가 완료 한 다양한 활동을 통해 컴퓨팅 사고력과 데이터 과학 기술을 구축하게됩니다. 또한 관심있는 주제에 대한 자체 데이터 스토리를 만들고이를 지원하기 위해 실제 데이터 세트를 사용합니다. 저는 여러분이 컴퓨터 과학에 대한 긍정적 인 감정과 어떤 수업뿐만 아니라 미래에 선택하는 모든 직업에서 활용할 수있는 필수 기술을 가지고이 과정을 떠나는 것이 희망입니다

lightbot10 (1) (2).zip