빅데이터 및 네트워크 분석을 활용한
과학기술분야 대학생 융복합 교육과정 추천 알고리듬 제작
2023.11.16 국립한밭대학교 빅데이터 분석 경진대회 11번째 팀, 물리조아
who: 경상국립대 김가현 + 성균관대 서지범 → 물리조아(2023 ver.)
how: Quantitative Analysis on Co-occurrence Network of Physics Curriculum를 전 과학기술 계열 분야로 확장해서 뚝딱!
where: 2023 국립한밭대학교 빅데이터 분석 경진대회
when: 2023.11.16. 11번째 발표
what: 최우수상(국립한밭대학총장상) 수상🎉
2023.11.22 현장에서 피켓이랑 상장 받았어요!
![](https://www.google.com/images/icons/product/drive-32.png)
아이디어 개요
AI, 빅데이터, 로봇 기술의 발전을 중심으로 산업의 근본적인 변화가 일어나고 있습니다. 이러한 기술적 전환은 전문가를 육성하는 대학과 같은 교육 기관들의 구조적 변화를 촉구하고 있습니다. 예컨대, 다학제 학문의 부상으로 인한 신규창설된 융복합학과, 학생설계전공 도입 등의 변화에서 확인할 수 있습니다. 이는 변화하는 사회에 대응하는 새로운 고등교육의 교육과정 설계가 필요하다는 의미이며, 이에 빅데이터 및 네트워크 분석을 활용하여 추천 교육과정 제공을 위한 융복합교육과정 교과목 추천 알고리즘을 제작하고자 합니다.
분석 대상은 대학알리미에서 공시된 “교육과정_대학” 데이터 중, 자연과학계열에 속한 10개의 중계열, 45개의 소계열로 계층적으로 분리하여 총 1,771개의 학과에서 76,606개의 과목 데이터와, 공학계열에 속한 9개의 중계열, 47개의 소계열로 계층적으로 분리하여 총 2,535개의 학과에서 수집된 106,398건 과목 데이터입니다. 해당 데이터에 대해서 소계열별로 OpenAI 중 GPT-4를 활용하여 각 과목의 명칭과 과목 소개에 기반하여 일정한 길이의 벡터로 임베딩합니다. 이후 위 벡터들을 네트워크 과학 방법론과 통계물리학 및 사회물리학의 이론을 접목하여, 교육과정의 구조적 및 네트워크 특성을 도출하고, 빅데이터 분석방법에 기반한 과목 유사도에 따른 가중치 보정 및 “대졸자직업 이동경로조사(GOMS)”의 데이터를 기반으로 학제간 융합 빈도 및 산업동향, 그리고 고부가가치산업을 수요를 반영합니다.
최종적으로 제시한 알고리즘을 통하여 현 산업의 동향과 고부가가치산업의 수요를 반영한, 차세대 고등교육과정의 이론적 근거와 방안을 제공하고자 합니다.
아이디어 설명
4차산업혁명에 따른 산업 구조 변화 및 사회변화는 고등교육에도 영향을 미쳤습니다. 일례로, 고등교육기관은 단일 분야에 국한되지 않는 전문가를 육성하기 위해 융·복합학과를 신설하고, 학생설계전공을 도입하여 학생 스스로 교육과정을 구성하여 시대의 변화에 유연하게 대응하는 등의 노력을 가하고 있습니다. 이러한 상황에서 융복합학과 및 학생설계전공의 교육과정 구성에 데이터에 기반하여 추천안을 제시하는 알고리즘을 제작하는것이 목적입니다.
##데이터 처리 및 분석 방법
#데이터 처리
대학알리미에서 제공하는 “교육과정_대학” 데이터를 대학알리미 집계 기준을 기반으로 각 학교의 전공교육과정을 대계열-중계열-소계열의 분류 체계에 따라 트리구조로 분리한 뒤, 표준분류대계열에서 공과계열, 자연과학계열에 해당하는 데이터에 대하여 분석 수행을 계획하고 있습니다.
#과목 자연어처리, 동일처리
OpenAI중 높은 정확도를 기록하는 GPT-4를 활용하여, 과학기술분야에 대하여 미세조정을 수행한 뒤, 계열별로 ‘교과목명’, ‘주교재’, ‘개설학과의 계열정보’, ‘강의계획서’ 정보를 반영하여 자연어 처리를 수행합니다. 위 과정에서는 트리구조로 구분한 데이터를 리프(leaf) 단위로 각 과목을 일정길이의 벡터로 변환하는 임베딩(embedding)을 수행합니다. 이를 통해, 계열별로 다르게 사용하는 동음이의어에 각 다른 벡터를 부여하며, 소계열이 일치하는 유사계열 혹은 동일계열 내에서 과목 간의 유사도가 0.9와 같이 높게 나타나는 경우, 유사과목들을 하나의 과목벡터로 취급하는 coarse graining을 수행합니다.
#통계물리, 네트워크 과학 기반 임베딩
자연어 처리된 과목 벡터에 기반하여, 네트워크 과학에서 “correlation network” 방법을 적용하여 각 전공교육과정과 과목을 네트워크 형식으로 구조화 한 다음 통계물리의 방법론들을 기반으로 학과와 과목의 상호 연결성 및 네트워크 구조 정보, 위치 정보를 도출하는 것을 목적으로 하고 있습니다.
이러한 분석에 있어서 첫번째로 ‘전공교육과정’과 ‘과목벡터’ 간의 관계를 이분 네트워크(two-mode graph)로 구성한 뒤, 과목 노드 및 교육과정 측면으로 단방향의 투사 네트워크(one-mode graph)를 형성합니다. 형성된 투사 네트워크는 공동발생빈도에 비례하여 가중치를 가지며 이 의미는 과목 투사 네트워크에서 두 과목이 서로 공유하는 학교-학과가 많을수록 높은 가중치를 가지며, 교육과 투사 네트워크에서는 서로 공유하는 과목이 많을수록 높은 가중치를 가지는 것을 뜻합니다. 이러한 가중치는 이산화된 과목벡터들간의 인지구조 및 학문구조를 반영하여, 벡터들간의 유사도와 또 다른 위치정보를 제공하고, 융합교육 알고리즘 제작 및 사용에 있어서 학과 및 계열의 유사도 그리고 각 과목간의 연관관계를 정량화 할 수 있습니다.
그 다음, 위 과정으로 형성된 이분 네트워크, 그리고 두개의 투사 네트워크의 centrality, clustering coefficient 등 네트워크 과학의 지표를 도출하고, 각 계열별로 분리한 과목 투사 네트워크에 대해서 k-core분석 및 assortivity 측정, community detection을 수행하여 계열별 주요과목 파악 및 과목구성의 구조적 특징을 수치적으로 정량화하고, 위 값들을 차후 알고리즘에서의 임베딩된 과목벡터들간 보정값으로 사용합니다.
##알고리즘 기본 구성 및 보정
알고리즘의 기본 아이디어는 이산화된 과목 벡터들 간의 학문 및 교육과정의 구조를 반영한 교육과정 투사 네트워크의 거리정보를 기반으로 합니다.
#임베딩 및 과목선택
다수의 키워드, 산업 혹은 학과정보가 입력되면, 이를 GPT-4 기반의 임베딩 방식을 사용하여 일정 길이의 벡터로 변환합니다. 변환된 벡터를 기반으로 각 키워드에 가장 부합하는 과목들을 선택합니다.
#핵심 교육과정 탐색
각 과목들이 포함된 클러스터에서 높은 centrality와 k-shell을 갖는 기초교양 및 기초전공과목을 선정합니다. 그 후, 복수의 키워드에 해당하는 과목들 간의 최단경로를 찾습니다.
#최적화 조합 탐색
유의미한 최단경로가 발견될 경우, 최단경로를 포함해 분야 간의 상승효과를 목적으로, 복수의 키워드에 해당하는 과목들 간의 유사도를 최대로 하는 40~50개의 과목 조합을 탐색합니다. 유의미한 최단경로가 발견되지 않을 경우, 각 키워드별 관련 유사도를 최대로 하는 40~50개의 최적화 조합 과목을 탐색합니다. 최적화 조합 과목 탐색은 유전 알고리즘을 활용하여 각 과목 벡터를 선발할 계획입니다.
#보정
기존 교육과정에서 핵심교과목 파악과 상대적 인접분야 여부를 반영하기 위하여, 기존 교육과정 투사 네트워크 데이터와 제3의 데이터를 사용합니다. k-core analysis에 따른 k-shell 정보 뿐만 아니라 기존 교육과정별 교과목 조합정보를 통하여 핵심교과목을 파악하고, 주 분야의 핵심교과목을 우선적으로 선정하도록 가중치를 조절합니다. 또한 기존교육과정 투사 네트워크의 위치정보에 기반하여 기존 단일 교육과정 그리고 계열별로 분리한 교육과정별 높은 유사도를 나타내는 조합에 높은 가중치를 부여합니다. 추가적으로, “대졸자직업 이동경로조사(GOMS)”의 최근 5년 각 산업과 직군에서의 전공여부(복수전공, 부전공), 직군, 산업과 전공일치도, 그리고 전공지식의 활용도를 응답 데이터를 기반으로 보정 가중치로 사용합니다.
이러한 통계적 보정 이외에도 실제 각 융합분야 재직자 및 전문가들의 자문에 기반하여 알고리즘이 제안한 과목조합과 그 방향성에 대하여 지속적으로 피드백하여 완성도를 높이는것을 계획하고 있습니다.
제시한 알고리즘을 토대로 제작된 과목구성조합은, 고등교육기관이 새로운 교육과정을 설계하거나 개편할 시 참고자료로 활용 수 있을 것이라 생각합니다. 초기 단계에서는 행정적으로 단일전공 융복합교육과정 과목 선정에 초점을 맞추지만, 후에 과목 수와 조합을 조절하여 복수전공 교육과정, 부전공 교육과정 혹은 마이크로디그리 교육과정 등으로 확장될 예정입니다. 또한 과학기술분야를 넘어서 인문사회계열도 확장할 예정입니다. 최종 결과로 도출되는 알고리즘은 교육기관 뿐만 아니라 학생들이 자신의 학습경로를 설정하거나 학생주도전공 설계, 진로 설계에 있어서 선택의 기준으로 활용할 수 있을것이라 기대합니다.
성과 도출 과정
1. 데이터 수집 및 구조화: "대학알리미"의 “교육과정_대학” 데이터를, 표준분류 기준을 활용하여 각 학과의 교육과정 데이터를 계층적으로 분리합니다.
2. 데이터 전처리:
넘버링 일치 작업: 1,Ⅰ, I, i와 같은 다양한 형태의 번호 표기 방식을 통일합니다.
오탈자 및 중복값 점검: 오탈자를 검출하며, 단순 중복된 데이터를 처리합니다.
관련성 낮은 데이터 제거: "채플", "대학영어"와 같이 과학기술분야 전공교과목과 연관이 낮은 데이터를 제거합니다.
단순 변화 과목 일치 작업: 동일 계열 내에서 약간의 변화만 있는 과목명을 통일합니다. 물리분야에서 구체적인 예시를 들면, "열물리/역학, 통계물리/역학, 열및통계물리"를 동일 과목명으로 일치시킵니다.
영문교과명 수정: "Classical Electromagnetism I"와 같은 단순 영문으로 기입된 교과명을 교과과정표와 교차검증하여 수정합니다.
3. 임베딩과 유사과목 coarse graining
OpenAI중 높은 정확도를 기록하는 GPT-4를 기반으로 과학기술분야에 대하여 미세조정을 수행한 뒤, 계열별로 ‘교과목명’, ‘주교재’, ‘개설학과의 계열정보’, ‘강의계획서’ 정보를 반영하여 자연어 처리를 수행합니다.
위 과정에서는 트리구조로 구분한 데이터를 리프 단위로 각 과목을 일정길이의 벡터로 변환하는 임베딩을 수행하여 계열별로 다르게 사용하는 동음이의어에 각 다른 벡터를 부여합니다.
동일 소계열 분류 내에서 과목 간의 유사도가 0.9이상과 같이 높게 나타나는 경우, 유사과목들을 하나의 과목벡터로 취급하는 coarse graining을 수행합니다.
4. 통계물리, 네트워크 과학 기반 임베딩
기존 학교별 교육과정과 임베딩된 전공벡터를 노드로 하여 연결한 이분 네트워크 구성
투사 네트워크 분석을 통한 학문의 구조적 특성과 벡터들간의 유사도 파악 및 네트워크 임베딩을 통한 위치정보 추출
k-core analysis으로 계열별 핵심과목 분석, k-shell 부여
가중치 보정에 사용할 네트워크 노드별 유사도, 중심도등의 네트워크 지표 계산
5. 알고리즘 제작 및 보정
5-1 알고리즘의 대략적인 설계방안
5-1-1 임베딩 및 과목선택:
입력: 다수의 키워드, 산업 혹은 학과정보
처리: GPT-4 기반의 임베딩을 사용하여 각 키워드를 일정 길이의 벡터로 변환
출력: 변환된 벡터에 기반하여 가장 부합하는 과목들
5-1-2 핵심 교육과정 탐색:
입력: 선택된 과목들의 클러스터
처리: 높은 centrality 혹은 k-shell을 갖는 기초교양 및 기초전공과목 선정 및 키워드에 해당하는 과목들 간의 최단경로 탐색
출력: 핵심 교육과정 및 최단경로
5-1-3 최적화 조합 탐색:
입력: 유의미한 최단경로 및 키워드별 과목 리스트
처리: 유사도를 최대화하는 40-50개의 과목 조합 탐색 (유전 알고리즘 기반)
출력: 최적의 과목 조합
5-2 알고리즘 보정
5-2-1 기존 교육과정투사 네트워크 기반 보정:
k-core analysis: 핵심교과목 파악 및 가중치 조절을 위해 k-core 정보 활용
교육과정 투사 네트워크: 기존 단일 교육과정 및 계열별 교육과정의 유사도에 따른 가중치 부여
5-2-2 산업 연계 데이터 기반 보정:
대졸자직업 이동경로조사(GOMS) 분석: "대졸자직업 이동경로조사(GOMS)"의 최근 5년 각 산업과 직군 데이터를 활용하여 보정 가중치 설정
전공여부(복수전공, 부전공), 직군, 산업과 전공일치도, 전공지식 활용도 반영
5-2-3 전문가 피드백을 통한 보정:
융합분야 재직자 및 전문가 그리고 교육종사자들로부터 받은 피드백을 기반으로 알고리즘 결과인 교육과정 방향성 및 과목조합을 지속적으로 수정 및 보완
6. (추가)임베딩된 교육과정 벡터과 알고리즘을 통하여 제시된 교육과정에 대한 시각화