2022년 11월 OpenAI의 ChatGPT 등장 이후 LLM은 많은 것을 바꾸어 놓았습니다. 특히 LLM이 많이 활용되는 곳은 코드 작성 및 소프트웨어 개발과 관련된 업무입니다. 이에 따라 소프트웨어공학 강의에서도 이런 LLM을 도입하여 활용하는 방법을 학습할 기회를 제공하는 것이 매우 중요해졌습니다. 많은 선행 연구들은 대학 강의 - 소프트웨어공학 및 프로그래밍 학습관련 강의 - 에서 LLM을 도입하였을 때의 영향에 대해 분석하였는데, 이런 분석은 대부분 짧은 기간 - 주로 한 학기 - 동안 진행된 강의에서 학생들을 대상으로 한 설문조사 및 인터뷰 결과에 중점을 두고 있습니다. 따라서 이런 연구들은 학생들이 LLM을 사용하며 느낀 점 등 주관적인 요소에 집중하고 있으며, 학생들의 활동내역에 대한 분석을 통해 객관적이고 실질적인 LLM의 영향을 파악하는 것은 제한적입니다.
SeoulTech SELab.에서는 컴퓨터공학과의 소프트웨어공학 강의를 담당하며 매년 강의 개선을 위한 분석 활동을 진행하였고, ChatGPT 발표 이후 2023년부터 팀 프로젝트에서 LLM을 사용하도록 하였으며, 계속해서 발전하는 LLM 사용 방식 등에 발 맞추어 강의 내용을 업데이트하였습니다. 본 연구에서는 LLM이 등장하기 이전인 2022년의 데이터와 함께, 동일한 주제로 팀 프로젝트를 진행하였으나 ChatGPT와 같은 LLM 챗봇(chatbot)을 활용하도록 권장한 2024년과 GitHub Copilot과 같은 LLM 에이전트(agent)를 활용하도록 한 2025년의 데이터를 비교 분석하여 LLM이 소프트웨어공학 팀 프로젝트 학습에 미치는 영향을 확인하였습니다.
본 연구에서 활용하는 데이터는 2022, 2024, 2025년에 총 158명의 학생들이 13~18개의 팀으로 모여 진행한 팀 프로젝트 과정에서 수집된 데이터로 팀프로젝트 평가 자료 및 발표자료와 설문조사 결과, VS Code에서의 작업 로그를 포함합니다.
팀 프로젝트 평가 자료는 요구사항 명세(Requirements Specification)의 요구사항 중 각 팀이 개발한 소프트웨어로 만족시킨 요구사항의 비율인 SRR (Satisfied Requirement Ratio)을 연도별 중간평가와 기말평가에서 팀별로 계산하였습니다. 발표자료는 2024년의 LLM 사용사례 발표 때 학생들이 제출한 슬라이드들로, 여기서 LLM 활용사례를 확인하여 정리하였습니다. 설문조사 결과는 2025년 실시한 LLM 사용과 관련한 중간/기말 설문조사에서 얻어진 답변들을 분석한 결과입니다. 마지막으로 VS Code의 작업 로그는 VS Code Extension을 통해 2025년 학생들이 VS Code를 사용해 개발할 때의 활동 로그를 수집해 분석하였습니다.
그림 1. Q1: How frequently did you use Copilot?
그림 2. Primary Purposes of LLM Usage for SE Course Projects
그림1은 2025년 중간/기말 설문조사에서 학생들이 팀프로젝트에 얼마나 LLM을 자주 사용했는가 물은 질문에 대한 답변입니다. 28.3%의 학생은 항상 사용한다고 답했고, 39.1%의 학생은 자주 사용한다고 답변하여 3분의 2에 달하는 학생들이 LLM을 활발히 활용하는 것을 알 수 있습니다. 기말 설문에서는 이 비율이 90% 이상으로 올라가, LLM을 사용하는 빈도가 크게 증가한다는 것을 볼 수 있습니다.
그림 2는 2024년 학생들 발표와 2025년 설문조사에 확인한 학생들의 LLM 사용목적입니다. 주로 Code Generation이나 Code Improvement (Refactoring, Debugging 등)의 직접적인 코드 관련 목적으로 많이 사용하는 것을 알 수 있습니다. 특이한 점은 ChatGPT를 사용했던 2024년에는 Learning 및 Other - project management, documentation 등 - 에 속하는 다른 목적의 활용이 더 많았고, 2025년에는 Code Explanation처럼 코드에 대한 설명을 듣는 목적으로 사용한 학생들이 상대적으로 많았다는 점입니다.
그림 3. Q3: What impact do you think Copilot has on the efficiency of project progress?
그림 4. Students’ Perceptions on the Usefulness of LLMs for Different Purposes
그림 3은 설문조사에서 LLM이 유용했는지 묻는 질문에 대한 답변입니다. 중간/기말설문 모두 매우 유용했다거나 유용했다는 답변이 90%이상으로, 전반적으로 학생들이 LLM에 대해 매우 긍정적인 인상을 갖고 있다는 점을 알 수 있습니다.
그림4는 각 목적별로 유용했는지를 묻고 이에 대한 답변을 조사한 것으로, Retry의 경우는 한 번에 원하는 답을 얻지 못해 다시 질문해야 했던 경우에 대한 답변입니다. 학생들은 특히 Code Generation에 대해 LLM이 유용했다고 답변했지만, 약 50%에 가까운 학생들이 한 번에 원하는 답을 얻지 못하고 다시 질문하는 것이 필요했다고 답변했습니다. 비록 LLM이 유용한 도구라고 하더라도 이를 적절히 사용하는 것이나 쉽게 원하는 답변을 얻는 것은 간단한 문제가 아니라는 것을 알 수 있습니다.
반대로 Code Improvement와 같이 기존의 코드를 수정하는 일에 대해서는 유용하다는 답변이 여전히 50%보다는 높으나 Code Generation보다 낮아진다는 것을 알 수 있습니다. 특히 Retry는 60%이상의 학생이 필요했다고 답하여 코드를 처음부터 생성하는 것보다 수정하는 것에 LLM을 활용하는 것이 더 어려웠다는 점을 알 수 있습니다.
또한 앞선 설문조사 결과와 마찬가지로 Code Explanation은 학생들이 많이 사용하기도 했고, 유용하다고 판단한 활용방식이라는 점도 알 수 있습니다. 중간설문에서 약 50% 학생들이 코드 설명을 얻는데 LLM이 유용하다고 답변하였고, 코드가 점점 복잡해지며 유용하다는 답변이 기말설문에서 33.3%까지 떨어지는 것을 확인할 수 있습니다.
마지막으로 Learning의 경우, Copilot은 VS Code에 통합되어있고 UI상 작은 창만 제시되므로, 질문 및 답변 등을 통한 학습에는 별다른 도움이 되지 않았다는 것을 알 수 있습니다. 2024년의 경우 Learning 목적으로 LLM챗봇을 많이 활용했다는 것을 고려할 때, 사용 목적에 맞춰 적절한 형태의 LLM을 활용하는 방식이 필요할 수 있습니다.
그림 5. Number of User Edit, Copilot Edit,
and Copilot Edit Ratio for Individual Students
그림 5는 VS Code에서 학생들의 개발활동 관련된 로그를 수집하여 분석한 결과를 나타낸 것입니다. VS Code의 에디터에서 코드가 변경되는 이벤트에 대해서 로그를 분석하여 사람이 직접 작성한 것으로 생각되는 User Edit과 Copilot이 자동으로 생성하여 한 번에 추가한 것으로 보이는 Copilot Edit을 구분하였습니다.
결과를 확인하면 개인별로 편차가 존재하나, 빈도수를 기준으로 User Edit이 Copilot Edit 보다 훨씬 높은 비율을 차지한다는 것을 확인할 수 있습니다. 꺾은 선이 나타내는 전체 Edit에서 Copilot Edit이 차지하는 비율이 50%를 넘는 학생은 단 3명 뿐입니다. 즉, Copilot을 항상 사용한다고 많은 학생들이 답변하였더라도 여전히 직접 코드를 작성하거나 수정하는 비율이 높다는 것을 알 수 있습니다.
물론 이 값은 빈도수이므로 Copilot이 한 번에 많은 양의 코드를 작성한다고 하면 실제 코드의 작성량에서는 Copilot이 더 앞설 수도 있습니다. 하지만 단순히 작성한 라인수(LOC)가 많다고 해서 실제 개발 작업에 더 많은 기여가 있다고 단정지을 수도 없습니다. 따라서 여기서 보이는 빈도수의 차이는 실제 LLM을 항상 사용하고 느끼고 있더라도, 전체 작업에서 LLM이 차지하는 비중이 생각보다 낮을 수 있음을 시사합니다.
그림 6. Different Edit Type Ratio of Committed Files
그림 6은 각 팀별로 커밋(commit)한 파일들을 편집한 내역을 활동로그와 커밋 내역을 같이 분석하여 조사한 것입니다. 각각의 커밋된 파일에 대하여 해당 파일을 편집한 내역 중 Copilot Edit과 User Edit을 확인하여 Copilot으로 편집한 내역만 있는 경우 Copilot Edit, 사람이 편집한 내역만 있으면 User Edit, 둘 모두 나타난다면 Both로 분류하였습니다. 팀별 왼쪽 바는 중간평가까지 (Phase 1), 오른쪽 바는 그 이후부터 기말평가까지(Phase 2)의 내역을 보여줍니다. 이렇게 커밋된 파일은 실제 사람이 판단하기에 현재 작업이 완료된 파일이므로, 해당 작업동안 어떤 식으로 코드 편집이 이루어졌는지를 조사할 수 있습니다.
결과를 확인하면 팀별로 편차가 있으나 대부분 Both의 비율이 높게 나타나고, Copilot Edit까지 합칠 경우 Copilot을 활용하여 코드를 편집하는 비율이 높게 나타나는 것을 알 수 있습니다. 따라서 그림 1의 설문조사 결과에서 나타난 Copilot을 항상 또는 자주 사용한다는 응답은 이렇게 작업 도중 Copilot을 활용하였기 때문에 나온 것이나, 여전히 사람의 개입이 상당하다는 것(높은 Both 비율) 또한 염두에 두어야 합니다.
하지만 파란색으로 표시된 순수하게 사람이 편집한 파일의 비율이 무시할 수 없을 정도의 비율을 차지하고 있다는 점도 주목할 필요가 있습니다. 반대로 Copilot Edit으로만 작업이 이루어진 초록색 부분은 상대적으로 작습니다. 즉, 이 결과는 학생들이 팀 프로젝트를 진행하는 과정에서 여전히 사람이 코드 작성 및 편집에 개입하는 비율이 높음을 보여줍니다. 다만 팀별로 초록색 바와 파란색 바가 기말평가로 가면서 증가하는 경우가 많은 것을 볼 때, 점점 Copilot에 위임할 수 있는 작업과 사람이 직접 처리하는게 나은 작업 등을 구분하여 진행하는 경향이 나타나는 것으로 생각할 수 있습니다.
그림 7. Changes of LLM Dependency between Phase 1 and Phase 2 for Students
그림 7은 각 학생의 중간평가까지 기간인 Phase 1과 그 이후부터 기말평가까지의 Phase 2에서 전체 Edit 빈도수에서 Copilot Edit이 차지하는 비율 변화를 보여줍니다. 파란색은 Copilot Edit 비율이 증가한 학생들을 나타내고, 빨간색은 Copilot Edit 비율이 감소한 학생들입니다.
분석결과에서 25명의 학생들은 Copilot Edit 비율이 증가하였고, 2명의 학생들은 변화가 없었으나, 20명의 학생들은 Copilot Edit의 비율이 오히려 감소하였습니다. 설문조사의 주관식 응답에 따르면 학생들은 코드가 복잡해질수록 Copilot이 원하는 결과를 제공하지 못하는 경우가 늘어나고, 또 계속 Copilot을 사용할 경우 자신의 프로그래밍 실력이 발전하지 못할 것을 걱정하여 사용을 줄이려 하였습니다. 이런 경향을 실제 활동 로그 분석을 통해 확인할 수 있습니다. 물론 여전히 과반수 이상의 학생들은 Copilot의 사용빈도가 점점 늘어나고 있어 의존성이 강해지는 경향도 여전히 존재함을 알 수 있습니다.
그림 8. SRR Distributions of Teams in 2022, 2024, and 2025
그림 8은 2022, 2024, 2025년도 학생들의 팀프로젝트 성취도 평가기준인 SRR(Satisfied Requirements Ratio)의 분포를 나타낸 것입니다. SRR은 전체 제시된 요구사항에서 각 팀이 충족한 요구사항의 비율입니다. 2022년과 2024년의 경우 약간의 설명차이 등을 제외하면 동일한 요구사항이 제시되었고, 2025년의 경우 보다 복잡한 구현이 필요한 요구사항이 추가되며 전체 요구사항이 약 28%증가하였습니다. 2022년의 경우 LLM의 지원이 전혀 없는 상태였고, 2024년은 ChatGPT와 같이 LLM 챗봇을 사용하였으며, 2025년에는 Copilot처럼 LLM 에이전트 형태를 사용하여 LLM 사용 방식에 따른 성취도 차이를 분석할 수 있습니다.
Boxplot의 분포를 살펴보면 오른쪽으로 갈수록 분포가 위쪽으로 미세하게 올라가는 경향이 있으나, 통계검정 결과 모든 연도에서 학생들의 SRR에 통계적으로 유의미한 차이는 없는 것으로 확인되었습니다. 특히 LLM을 사용하지 않은 2022년과 LLM 챗봇을 사용한 2024년의 경우 요구사항이 동일함에도 별다른 차이가 나타나지 않아 SE강의의 팀프로젝트 수준에서는 학생들이 LLM 챗봇의 도움 없이도 충분한 성취를 달성할 수 있다는 것을 보여줍니다.
하지만 2025년의 경우 요구사항이 상당히 증가하였음에도 성취도의 하락이 뚜렷하게 나타나지 않는다는 점을 고려할 때, LLM 에이전트의 사용이 더 많은 요구사항을 달성하는데 도움이 되었을 것으로 생각할 수 있습니다.
본 연구는 SE강의를 개선하기 위한 작업의 일환으로 수집된 데이터에 2025년 추가적인 설문조사 및 활동로그 수집 등을 통해 얻은 데이터를 분석한 것으로, 엄밀하게 통제된 환경에서 진행된 것이 아니어서 결과의 해석 등에 어느 정도 한계가 있습니다. 하지만 학생들의 주관적인 인식을 조사한 설문조사 응답과 객관적으로 수집된 활동 로그 등의 데이터를 교차분석하여 설문 응답이 어떤 의미로 해석되어야 하는지, 또한 주관적인 인식에서 드러나지 않는 실제 개발 활동이 어떠한 지 밝혔다는 점에서 의미가 있습니다.