PROJECTS
프로젝트 및 포트폴리오입니다.
프로젝트 및 포트폴리오입니다.
기업 프로젝트 입니다.
2023년 5월 ~
2023년 11월
중소벤처진흥공단/보조연구원
기간 : 2023.05~2023.11
역할 : 추천 서비스 개발/보조연구원/대용량 DB구축
기여도 : 대용량 DB 구축/대용량 DB 핸들링/전처리/알고리즘 구축
활용 프로그램 : SQL/Python/Oracle
[프로젝트 세부 과정]
데이터 수집 & 정규화 : 고성장 기업의 데이터 수집 및 분석, 수집 데이터 정규화(스케일, 데이터 변환)
유사 고성장 기업 선별 : AI분석(머신러닝)(Collaborative Filtering), 정규화된 재무/비재무 데이터를 이용하여 유사도 계산, 업력, 업종, 유사도 기준 유사 고성장 기업 선별
추천 사업 점수화 : AI분석(머신러닝)(Collaborative Filtering), 선별된 유사 고성장 기업들의 지원 사업 내역 추출, 추천 사업 후보군들에 대한 적합도 점수 계산(유사도 기반)
적합사업 추천 : 적합도가 높은 사업 추천, 추천 사업별 (가중)평균 매출액 성장률 안내
HS코드 설명 정보 수집 : 관세법령정보포털(CLIP) 에서 HS코드에 대한 설명 데이터 수집
HS코드 추천 후보군 선별 : KSIC-HS코드 매핑 정보(통계청 제공)를 활용하여 1차 후보군 선별, 1차 후보군을 대상으로 물품 설명 내 키워드를 포함하는 2차 후보군 선별
임베딩 수행 : 임베딩을 위해 대규모 언어모델을 튜닝한 SBERT를 활용하여 2차 후보군 내 HS코드 설명 및 물품 설명 임베딩, 임베딩을 통해 텍스트 데이터를 벡터화
HS코드 추천 : 벡터로 임베딩된 HS코드 설명과 물품 설명 간 유사도를 계산하여, 해당 물품 설명과 의미적으로 가장 유사한 HS코드 추천
2022년 8월 ~
2022년 12월
진주시/보조연구원
기간 : 2022.08~2022.12
역할 : 자료 조사/보조연구원/보고서 작성/관광 활성화 방안 제시
기여도 : 문헌 조사/보고서 작성/관광활성화 방안 논의
활용 소프트웨어 : 한글/논문DB/문헌조사 도구
[프로젝트 세부 과정]
1. 기본계획 수립 및 사업 구상
조성 목표: 기업가정신 중심의 세계적 테마마을 지향
전략 방향: 지역 정체성과 기업가정신을 반영한 어메니티 구성
공간 계획: 고택·돌담·우물·마을길 복원, 테마로드 및 파크 조성
타당성 조사: 사업 여건과 실현 가능성 검토
2. 환경 및 지역 분석
지역 여건 분석: 정책·지리·인구 특성 조사
어메니티 자원 파악: 역사·문화·산업·자연 자원 발굴
주민 의견 수렴: 주민협의체, 인터뷰, 설문조사
관광 수요 조사: 관광객 현황 및 인식 분석
3. 벤치마킹 및 사례 연구
국내외 유사 사례 조사: 전주·경주·북촌 및 해외 사례 비교
현장 답사 및 인터뷰: 실무자 면담 및 성공요인 분석
4. 인프라 및 특화사업 계획
랜드마크 설정: 주요 부지 및 고가 활용 전략
문화재 활용: 고가 리모델링 및 체험 콘텐츠 개발
기반시설 확보: 골목길, 숙박, 식당, 주차 등 정비
특화사업 발굴: 창의 담장 조성, 향토 음식 개발
5. 연계 관광 프로그램 개발
스토리텔링 콘텐츠: 노블레스 오블리주 정신 기반 콘텐츠
연계 프로그램: 기업인 생가 + 한옥 체험 + 지역관광 결합
체험 프로그램: ‘부자氣받기’ 테마 체험 및 마케팅 활용
6. 관광활성화 전략
정책적 지원 방안: 예산, 제도 기반 지원 확보
주민역량 강화: 주민 교육 및 공동체 운영
홍보 및 마케팅: 콘텐츠 결합형 관광상품 개발
7. 파급효과 분석
관광 수요 창출: 방문객 유입 증가 기대
경제 효과: 지역 일자리 창출 및 상권 활성화
지역 브랜드 제고: 기업가정신 성지로서의 인지도 확산
2022년 4월~
2022년 9월
한국토지주택공사 보조연구원
기간 : 2023.05~2023.11
역할 : 추천 서비스 개발/보조연구원/대용량 DB구축
기여도 : 대용량 DB 구축 및 핸들링 / 데이터 전처리 / 알고리즘 설계 / 분석 시각화
활용 소프트웨어 : Python/Weka/Excel
[프로젝트 세부 과정]
1. 프로젝트 목적
탄소배출권(CE)과 REC 가격을 정확히 예측하여 기업의 거래 타이밍 최적화 및 수익 극대화 지원
SMP, 유가, 환율 등 다양한 에너지 시장 요인과의 연관성 분석 포함
2. 데이터 수집 및 분석
주요 데이터 출처 : KRX, KOSIS, KPX, EPSIS, ECOS 등
수집 항목 : CE/REC 가격, SMP, 유가, 환율 등 다변량 시계열
전처리 : 결측치 보정, 단위 통일, 시계열 정렬
3. 예측 모델 설계
기법 : 시계열 예측 (EMA, ARIMA), 회귀분석, 머신러닝 기반 모형
목표 : 월간 또는 분기별 가격 흐름 예측 정확도 향상
결과 평가 : RMSE, MAE 등으로 성능 검증
4. 플랫폼 구축 방향
UI/UX : 기업 사용자 중심의 직관적 대시보드
기능 : 가격 예측, 거래 타이밍 추천, 실시간 외부 변수 모니터링
확장성 : REC, SMP, ESG 지표까지 통합 가능성 고려
5. 사업화 전략
비즈니스모델 캔버스 설계 : 공공기관·에너지 기업 대상 SaaS 모델
API 연동/시각화 서비스 제공 → 정책·시장 대응력 강화
6. 벤치마킹 및 효과 분석
국내외 플랫폼 사례 조사 (KRX, 에코아이 등)
경제적 효과 : 거래 최적화로 수익 향상 및 탄소 감축 효과 동시 달성
연구 프로젝트 입니다.
2025년 8월 ~
2025년 12월
KCI 2저자 게재확정
[ 연구 개요 ]
경상남도 농촌 지역(산청·함양·하동)과 어촌 지역(남해)에 위치한 독채형 에어비앤비 숙소 리뷰를 분석한 연구
코로나19 시기와 이후 시기를 구분하고, 공간·시간·감성 관점에서 체류 경험의 구조를 정량적으로 검토한 연구
[ 연구 목적 ]
온라인 리뷰를 문장 단위로 분해하고 문맥 기반 감성 분석과 감성별 토픽 모델링을 결합하여, 농촌과 어촌에서 나타나는 만족·불만 요인을 체계적으로 도출하는 것
코로나19 전후 시기 변화와 지역 맥락 차이가 체류 목적, 이용 행태, 감성 구조에 어떻게 반영되는지를 비교함으로써, 농어촌 독채형 공유숙박의 서비스 품질 관리와 지역 재생 전략 수립에 활용 가능한 실증 근거를 제시하는 것
힐링·관광 중심 농어촌 공유숙박이 단순 숙박 시설을 넘어 지역 공간 경험 플랫폼으로 기능하고 있음을 데이터 기반으로 보여주고, 향후 정책·브랜딩·운영 전략 설계에 참고 가능한 분석 틀을 제안하는 것
[ 분석 과정 ]
에어비앤비 웹 크롤러(Python+Selenium) 구현 및 경남 농촌·어촌 독채형 숙소 리뷰 수집
리뷰 메타데이터 기반 지역(농촌/어촌) 및 시기(코로나 시기/이후)별 데이터셋 구성
한국어 문장 단위 분리 및 숙소 도메인 특화 감성 사전 구축(GPT 기반 키워드 추출 및 정제)
KcELECTRA + 감성 사전 하이브리드 문맥 기반 감성 분석으로 긍정·부정 문장 분류
Okt 형태소 분석 및 CountVectorizer를 활용한 문서-단어 행렬(DTM) 생성
감성별·지역별·시기별 LDA 토픽 모델링 및 Coherence 기반 최적 토픽 수 결정
토픽별 키워드/가중치 막대그래프 및 MDS 기반 3D Intertopic Distance Map 시각화
연도별 토픽 비중·누적 토픽 비율 시계열 분석을 통한 감성 이슈 흐름 파악
긍·부정 토픽 구조를 농촌/어촌 맥락과 연결하여 서비스·정책 개선 방향 도출
[ 주요 분석 결과 ]
감성 분석과 토픽 모델링을 통해 농촌·어촌 독채형 공유숙박의 만족·불만 요인을 공간·시간·감성 축에서 입체적으로 구조화함
농촌은 코로나19 시기에 깨끗하고 아늑한 실내 공간과 자연 풍경을 매개로 한 회복·힐링 경험, SNS 공유 성향이 두드러진 체류 패턴을 보임
어촌은 바다 전망과 경관 만족이 핵심 가치로 작동하며, 코로나19 이후에는 숙소의 시각적 매력, 동행자와의 관계, 호스트 환대가 결합된 종합적 힐링 경험이 강화되는 양상을 보임
부정 감성에서 농촌은 해충, 접근성, 소음·냄새 등 여러 불편 요인이 중첩되는 다핵적 리스크 구조를 보이고, 어촌은 위생·청결 이슈에 불만이 집중되는 단핵적 리스크 구조를 보임
[ 시사점 ]
농촌 공유숙박에는 접근성 개선, 주변 자연환경 관리, 실내 청결, 호스트 응대 품질을 통합적으로 관리하는 다원적 리스크 관리 전략이 요구되며, 힐링·회복 경험을 강화하는 콘텐츠 기획이 중요함
어촌 공유숙박에는 위생·청결을 최우선으로 확보한 뒤, 바다 전망을 중심으로 한 경관, 조명, 가구 배치, 외부 조경 등 미학적 요소를 정교하게 설계하여 시각적 만족과 체류 경험을 동시에 높이는 전략이 필요함
코로나19 시기와 이후의 감성 구조 변화를 고려할 때, 농어촌 공유숙박 정책은 단순 객실 수 확대보다 체류 경험의 질, 세부 서비스, 클레임 발생 지점에 초점을 맞춘 미시적 품질 관리 체계로 전환될 필요가 있음
문장 단위 감성 분석과 토픽 모델링을 결합한 본 연구의 방법론은 다른 지역·플랫폼의 농어촌 공유숙박, 더 나아가 관광·체류 서비스 전반에 적용 가능한 분석 프레임워크로 확장 가능
[ 활용 프로그램 ]
Python(Pandas, NumPy, Scikit-learn)
Selenium(웹 크롤링)
KoNLPy(Okt)(형태소 분석 및 토큰화)
KcELECTRA(문맥 기반 한국어 감성 분류)
Gensim(CoherenceModel 기반 토픽 수 평가)
LDA(Scikit-learn)(감성별 토픽 모델링)
Matplotlib, Seaborn(토픽 및 시계열 시각화)
MDS 기반 Intertopic Distance Map 구현 코드(3차원 토픽 거리 시각화)
2025년 4월 ~
2025년 8월
KCI 투고 후 재심 (2차)
경상남도 빅데이터 분석 공모전 우수상
이래가꼬 성과보고회 우수상
[ 연구 개요 ]
경상남도 내 도시별 상권 데이터를 활용해 상권의 공간적 분포와 구조적 불균형을 정량적으로 진단하고, 대표 사례 지역인 창원시와 거제시를 중심으로 상권 유형을 비교·해석한 연구
KDE 기반 밀도 추정과 DBSCAN 군집화를 통해 상권 중심지를 도출하고, 중심지 권역 단위 업종 분포를 집계하여 상권 구조의 특성을 체계적으로 파악한 연구
[ 연구 목적 ]
공공 상권 데이터를 활용해 지역별 상권 밀집도와 업종 집중 구조를 계량적으로 파악하고, 창원·거제의 상권 패턴을 비교하여 도시형 상권과 관광·휴양형 상권의 구조적 차이를 분
상권 밀도, 업종 집중도, 숙박 입지와 에어비앤비 리뷰 기반 체류 경험·감성 정보를 결합해, 오프라인 상권 구조와 온라인 체류 경험 사이의 연관성을 데이터 기반으로 규명하는 것
상권 구조–숙박 감성–관광·생활 행태를 한 프레임 안에서 해석함으로써, 지역 특성에 부합하는 상권·관광 활성화 및 소상공인 지원 전략 수립에 활용 가능한 근거를 제시하는 것
[ 분석 과정 ]
소상공인 상가 정보 수집 및 전처리 후 공간 데이터 구축
GeoPandas·Folium 기반 상권 분포 시각화 및 기초 탐색
KDE 기반 밀도 추정으로 상권 밀집 구간 도출
DBSCAN 군집화로 상권 중심지 및 중심 권역 설정
중심 권역 단위 업종별 점포 수 집계 및 업종 비중 산출
HHI 산출로 업종 집중도 측정 및 지역/권역 간 비교 시각화
Airbnb 리뷰 데이터 크롤링 및 전처리
한국어 문장 단위 분리 및 감성 분리기 개발
SBERT 임베딩 기반 감성별 BERTopic 적용으로 만족·불만 요인 토픽 도출
상권 구조 지표와 감성 토픽 결과 통합 해석 및 지역 맞춤형 전략 제안
Sentence-Transformers(SBERT) (문장 임베딩)
BERTopic(UMAP, HDBSCAN 포함 )(감성별 토픽 모델링)
Plotly(토픽/감성 시각화)
[ 주요 분석 결과 ]
공공데이터 기반 상권 구조 분석 결과에 에어비앤비 리뷰의 문장 단위 감성 분석과 감성별 토픽 모델링을 결합하여, 지역별 체류 경험에서 나타나는 만족·불만 요인을 구체적으로 구조화하고 차이를 도출함
창원은 교통 접근성과 편의시설, 서비스 중심의 기능적 체류 특성이 두드러져 도심형 상권 구조와 기능 중심 체류 경험이 밀접하게 연결되는 양상을 보임
거제는 자연 경관, 휴식, 힐링 경험 등 정서적 체류 특성이 뚜렷하게 나타나 해양·관광 자원이 풍부한 상권 구조와 숙박 밀집 양상이 감성 주제 분포에 직접적으로 반영되는 패턴을 보임
[ 시사점 ]
창원과 같은 도심형 상권에는 교통 접근성, 생활 편의성, 서비스 품질을 강화하는 기능 중심 전략이 효과적이라는 근거를 제시함
거제와 같은 관광·휴양형 상권에는 자연 경관 보존, 휴식·힐링 경험 강화, 감성적 만족도를 높이는 숙박·관광 상품 설계가 필요하다는 전략적 시사점을 제공함
상권 구조 데이터와 체류 경험 데이터를 결합한 분석이 지역별 상권 포지셔닝과 맞춤형 활성화 전략 수립에 활용 가능한 data-driven 인사이트를 제공함
공공 상권 데이터와 온라인 숙박 리뷰를 연계한 본 연구의 프레임워크는 다른 도시·관광지로 확장 적용 가능하며, 지역 상권 정책과 관광 브랜딩 전략을 통합적으로 설계하는 참고 모델이 될 수 있음
[활용 프로그램 ]
Python(Pandas, NumPy, Scikit-learn)
GeoPandas, Folium (공간 시각화)
KDE, DBSCAN (상권 중심지 도출)
HHI 산출 로직 (업종 집중도)
2024년 3월 ~
2025년 2월
SSIE 1차 심사중
KCI 2저자 등재
부울경 ICT 공모전 우수상
창업경진대회 우수상
[ 연구 개요 ]
대규모 특허 데이터와 비특허 문헌(NPL)을 통합 수집·정규화하여, 선행기술 검색과 기술 분석을 동시에 지원하는 AI 기반 검색·분류 시스템을 구축한 연구
FastText 기반 키워드 확장, BERT 기반 문장 임베딩, Transformer 기반 CPC 분류 모델을 결합해 특허·비특허를 하나의 기술 분류 체계 안에서 다루도록 설계한 연구
[ 연구 목적 ]
형태 변화, 도메인 특화 용어, 신조어까지 포괄하는 문맥 인식형 키워드 추천을 통해 선행기술 검색의 재현율과 정밀도를 동시에 향상시키는 것
비특허 문헌에 CPC 체계를 부여하여 학술문헌과 특허문헌을 동일한 기술 축에서 비교·검색 가능하게 하고, 기존 특허 중심 검색이 놓치던 초기·잠재 기술 트렌드까지 포착하는 분석 기반을 마련하는 것
키워드 확장–문장 임베딩–CPC 분류–통합 검색을 하나의 파이프라인으로 구현하고, 실제 검색 시나리오에서 정확도, 리드타임, 노이즈 감소 효과를 정량적으로 검증할 수 있는 선행기술 분석 인프라를 구축하는 것
[프로젝트 세부 과정]
1. 특허·비특허 데이터 수집 및 전처리
USPTO·KIPRIS API 기반 대규모 특허 데이터 수집
특허 문헌 내 인용 정보 활용하여 비특허 문헌 자동 매핑
텍스트 정규화(소문자화, 특수문자 정리, 불용어 제거, 표제어 추출)
카멜케이스 분리, 복합어 처리 등 기술문헌 특화 전처리 적용
2. FastText 기반 키워드 확장 및 문장 임베딩 구축
분야별 특허 텍스트로 FastText 서브워드 임베딩 학습
하이퍼파라미터 최적화(fasttext dim, epoch, lr 등) 후 fine-tuned 모델 구축
형태·의미·길이를 통합한 유사도 계산 알고리즘 개발
BERT 임베딩과 결합해 문맥 기반 문장–키워드 정합성 평가
의미적 유사 문장 자동 추출 및 키워드 확장 리스트 생성
3. 비특허 문헌 CPC 분류 모델 개발
도메인 전문가가 직접 라벨링한 CPC 코드 기반 학습 데이터셋 구축
BERT, RoBERTa, DistilBERT 기반 Transformer 모델 비교 실험
DFT(차등 학습률), GU(점진적 unfreezing), Hybrid 전략 적용
8개 CPC 섹션(A–H) 기준 기술분야 분류 정확도 검증
특허·비특허 문헌을 동일 체계에서 동시에 검색 가능하도록 DB 통합
4. 검색·분석 시스템 통합 및 성능 검증
FastText+BERT 기반 키워드 확장 성능 검증
CPC 분류 모델의 기술영역 매핑 적합성 평가
문헌 기반 기술 동향·부상기술·공백기술 도출
통합 검색 실험을 통해 기존 검색 대비 정확도·리드타임·노이즈 감소 효과 확인
[ 주요 분석 결과 ]
특허·비특허 통합 분석 결과, 기존 검색 방식에서 누락되던 형태 변화, 도메인 특화 용어, 신조어를 FastText가 효과적으로 포착함을 확인함
BERT 기반 문장 임베딩을 활용한 문맥 분석을 통해 키워드와 문헌 간 의미적 연결성이 강화되면서, 검색 결과의 정합성과 관련성이 눈에 띄게 향상됨을 확인함
비특허 문헌에 CPC 분류를 부여함으로써 학술문헌–특허문헌 간 기술적 일치도가 높아짐
[ 시사점 ]
FastText와 BERT를 결합한 문맥 인식형 키워드 확장은 선행기술 검색에서 도메인 특화 표현과 신규 개념을 포착하는 데 특히 유효한 전략임을 시사함
비특허 문헌의 CPC 분류는 R&D, 특허 전략, 기술기획 과정에서 학술·특허 정보를 한 번에 스캐닝할 수 있는 기반을 제공하여, 조기 기술 발굴과 경쟁사 모니터링의 정밀도를 높이는 수단이 될 수 있음을 보여줌
특허·비특허 통합 검색·분류 시스템은 향후 선행기술 조사, FTO 분석, 기술 로드맵 수립 등에서 data-driven 의사결정을 지원하는 핵심 인프라로 활용될 수 있음을 시사함
[ 활용 프로그램 ]
Python (Pandas, NumPy, Scikit-learn)
FastText (서브워드 임베딩 학습)
BERT, RoBERTa, DistilBERT (문장 임베딩·문헌 분류)
S-BERT / Sentence-Transformers (문장 유사도·검색 결과 필터링)
MySQL (통합 DB 구축)
VS Code, API 모듈 (데이터 수집·시스템 개발)
2024년 4월 ~
2024년 6월
지식재산빅데이터 경진대회
대학원생 부문 대상
IP mini CPU 우수상
[ 연구 개요 ]
2010년 이후 일본·미국·한국을 중심으로, AI 연산에 최적화된 메모리–프로세서 통합 구조 구현에 필요한 고집적 패키징·적층 기술(3D stack, Flip chip, MCP 등)에 대한 글로벌 특허를 정량 분석한 연구
[ 연구 목적 ]
딥러닝 붐과 미·중 반도체 패권 경쟁 이후 가속된 첨단 패키징 투자 흐름을 특허 데이터로 재구성하여, AI 메모리에 직결되는 핵심 패키징·적층 기술 축을 식별하는 것
3D stack, TSV, 팬아웃, MCP 등 세부 기술 축별로 국가·기업의 출원 전략과 포지셔닝을 비교해, 메모리–프로세서 통합 구조에서 누가 어떤 역할을 맡고 있는지 구조적으로 밝히는 것
한국을 포함한 주요 국가가 어떤 기술 영역에서 강점과 공백을 가지는지 드러내어, 향후 AI 메모리 관련 R&D·투자 전략 수립에 활용 가능한 기초 지표를 제공하는 것
[ 분석 과정 ]
2010년 이후 일본·미국·한국 출원 특허를 대상으로 반도체 패키징·적층 관련 특허 데이터 수집
3D stack 1/2, Flip chip package, MCP 검색식을 활용한 고급 검색으로 후보 특허 풀 구축
출원인 국적, 출원관청, 우선권 정보를 기준으로 국가·기업 단위 정제 및 중복 특허 제거
기술 카테고리 태깅 및 연도·국가·출원인 기준 특허 건수·점유율 집계
주요 출원인의 포트폴리오를 중심으로 제목·초록·청구항 텍스트 마이닝을 통해 세부 기술 축(적층 구조, TSV, 범프 구조, 패키징 방식 등) 도출
AlexNet 이후(2012년), 주요 정책·시장 이벤트 전후로 시계열 분할 비교
일본·미국·한국 간 기술 집중도, 출원 성장률, 공동출원·인용 관계 등 네트워크 분석을 통한 국가·기업별 역할 파악
메모리–프로세서 구조, AI 가속용 메모리 아키텍처와 직접적으로 연관된 특허군 선별 및 대표 사례 분석
[ 주요 분석 결과 ]
반도체 메가트렌드 보고서의 국가별 전략과 실제 특허 데이터를 결합해, 각 국가·기업이 어떤 패키징·적층 기술 축에 집중하고 있는지를 계량적으로 확인함
3D stack, Flip chip, MCP 특허를 구분해 보면, HBM 계열 AI 메모리로 이어지는 적층·관통전극·팬아웃 패키징 기술이 소수 글로벌 기업과 일부 국가에 집중되는 패턴이 나타남
일본은 소재·공정·신뢰성, 미국은 설계·아키텍처·시스템 통합, 한국은 메모리·패키징 융합과 대량 생산에서 강점을 보여, 상호보완적인 글로벌 분업 구조가 형성되어 있음
[ 시사점 ]
메모리–프로세서 통합형 AI 메모리에서 병목을 좌우할 핵심 패키징·적층 기술 축을 특허 데이터 기반으로 특정함으로써, 중장기 기술 로드맵 수립에 활용 가능한 기준선을 제시함
일본·미국·한국의 역할 분담과 집중 분야를 비교함으로써, 소재·공정, 설계·아키텍처, 메모리·패키징 융합 중 어디에 전략적 자원을 배분해야 하는지 국가·기업 차원의 우선순위 설정에 참고 지표를 제공함
특정 국가·기업에 과도하게 집중된 기술 축을 식별하여, 공급망 리스크와 기술 종속 가능성을 사전에 진단하고, 기술 자립과 전략적 제휴가 필요한 영역을 구체적으로 제안할 수 있는 근거를 마련함
[ 활용 프로그램 ]
Keywort(특허검색식 기반 고급 검색)
Python (Pandas, NumPy – 특허 데이터 정제·집계)
Scikit-learn (기초 통계 분석 및 트렌드 분석)
NetworkX 등 네트워크 분석 도구 (출원인·공동출원·인용 네트워크 분석)
Excel 시각화 도구 (연도별·국가별·기술축별 출원 동향 시각화)
2024년 3월 ~
2024년 12월
KCI 2저자 등재
[ 연구 개요 ]
특허 심사 및 선행기술 검색에서 활용도가 높은 비특허 문헌(NPL)에 CPC 코드를 자동 부여하는 분류 모델을 구축하고, 벡터화·모델 조합별 성능을 체계적으로 비교한 연구
[ 연구 목적 ]
비특허 문헌 초록에 대해 CPC 코드를 자동으로 부여하는 분류 파이프라인을 구축
특허 심사·선행기술 조사 현장에서 수작업 분류를 어느 정도까지 대체할 수 있는지 정확도와 안정성을 정량적으로 검증하는 것
특허 도메인에 특화된 BERT 계열 사전학습 모델(anferico/bert-for-patents)이 일반 도메인 BERT·RoBERTa 및 전통 머신러닝+TF-IDF 조합 대비 CPC 자동 분류 성능을 얼마나 개선하는지 비교·분석하는 것
TF-IDF, SBERT, 특허 특화 임베딩 등 표현 방식과 선형·비선형·트랜스포머 기반 분류기 구조의 조합을 평가하여, NPL CPC 분류에 가장 효율적인 모델링 전략을 제시하는 것
[프로젝트 세부 과정]
1. 데이터 수집 및 라벨(정답) 구축 및 데이터 전처리
KIPRIS Plus에서 미국 특허 공개공보를 BULK 방식으로 수집하여 DB에 저장
특허의 NPL 인용 정보를 추적하여 비특허 문헌의 초록(abstract) 중심 데이터셋을 구축
NLTK 기반 정제: 소문자화, 숫자/특수문자 제거, 토큰화, 불용어 제거, 표제어 추출(Lemmatization)
전처리 결과를 별도 컬럼으로 저장하여 실험용 데이터셋으로 관리
2. 벡터화(Vectorization) 및 임베딩 구축
전통적 특성 기반 벡터화: TF-IDF(TfidfVectorizer)
문장 수준 의미 임베딩: SBERT(all-MiniLM-L6-v2)
특허 도메인 특화 임베딩: anferico/bert-for-patents 기반 문서 임베딩
동일 데이터셋에서 벡터화 방식만 달리해 공정 비교가 가능하도록 실험 조건을 통일
4. 분류 모델 학습(ML vs Transformer)
머신러닝 기반 분류기: Logistic Regression, XGBoost, LightGBM
트랜스포머 기반 분류기(파인튜닝): BERT(bert-base-uncased), RoBERTa(roberta-base), anferico/bert-for-patents
동일 데이터 분할/평가 지표 기준으로 모델군 간 성능을 비교하고, 특허 특화 사전학습 효과를 검증
[ 주요 분석 결과 ]
단순히 벡터화 방식을 변경하는 것보다, 특허 도메인에 적합한 사전학습 여부가 분류 성능에 더 큰 영향을 미친다는 점을 확인함
TF-IDF는 선형 모델에서 안정적인 성능을 보였으나, 기술 문헌의 문맥·의미 정보를 충분히 반영하지 못하는 한계를 드러냄
SBERT 임베딩은 비선형 모델과 결합했을 때 의미 정보를 활용해 성능 개선 가능성을 보여줌
anferico/bert-for-patents 파인튜닝 모델은 특허·기술 문서의 용어와 표현 관습을 가장 잘 반영하여, CPC 분류에서 일관되게 최고 수준의 성능을 기록함
[ 시사점 ]
특허 도메인에 특화된 트랜스포머 기반 BERT 모델을 활용하면 NPL에 대해 보다 정밀한 CPC 자동 분류가 가능하며, 이는 선행기술 검색 및 특허 심사 과정의 효율성과 정확도를 동시에 높일 수 있는 실무적 대안이 될 수 있음을 보여줌
NPL을 특허와 동일한 CPC 체계로 안정적으로 매핑하면 특허·논문·기술보고서 등 이질적인 문헌을 하나의 분류축에서 검색·비교할 수 있어, 선행기술 조사와 FTO 분석에서 리드타임 단축과 누락 리스크 감소에 직접적으로 기여할 수 있음을 시사함
실험 결과는 향후 의료, 소재 등 다른 기술 분야에서도 도메인 특화 사전학습 모델을 구축한 뒤 경량 파인튜닝하는 전략이, 범용 임베딩이나 전통 벡터화 대비 더 높은 성능·효율성을 제공할 수 있다는 데이터 기반 근거로 활용될 수 있음
[활용 프로그램 ]
Python (Pandas, NumPy)
NLTK (토큰화, 불용어 제거, Lemmatization 등 전처리)
Scikit-learn (TF-IDF, Logistic Regression, 평가 지표)
XGBoost, LightGBM (부스팅 기반 분류)
Sentence-Transformers (SBERT: all-MiniLM-L6-v2)
Hugging Face Transformers (BERT/RoBERTa/anferico/bert-for-patents 파인튜닝)
Anaconda / Jupyter Notebook (실험 환경 구성 및 재현)
2022년 9월 ~
2024년 12월
2022 한국혁신학회
추계학술대회 발표
SSCI 1저자 등재
[ 연구 개요 ]
하이테크 제품의 온라인 소비자 리뷰(OCR)를 활용해 시간에 따른 감성 분포 변화를 추적
감성 변곡점 전후의 토픽 차이를 비교함으로써 소비자 인식 변화를 유발한 핵심 이벤트를 구조적으로 식별한 연구
[ 연구 목적 ]
하이테크 제품의 온라인 소비자 리뷰에서 시간에 따른 감성 점수 변화를 정량적으로 추적하고, 감성 분포의 변곡점을 자동으로 포착하는 분석 프레임워크를 제시함
감성 변곡점 전후의 토픽 구조를 비교함으로써, 특정 기능 출시·품질 이슈·서비스 경험 등 어떤 이벤트가 소비자 인식 전환을 유발하는지 속성 수준에서 규명함
Amazon 무선 이어폰 리뷰를 대상으로 Apple과 Samsung 제품을 비교하여, 브랜드·제품군에 따라 감성 변곡 패턴과 이벤트 유형이 어떻게 달라지는지 실증적으로 분석함
파인튜닝 DistilBERT 기반 감성 분석과 LDA 토픽모델링, 외부 뉴스·커뮤니티 이슈 매칭을 결합해, 온라인 리뷰–현실 이벤트–감성 변화를 연결하는 데이터 기반 분석 틀을 확립하는 것을 목표로 함
[ 분석 과정 ]
Amazon 무선 이어폰 OCR 크롤링 및 분석 제품 선정, Apple과 Samsung 데이터셋 구성
제목, 본문, 작성일, 별점, 피드백 등 OCR 속성 단위를 정의하여 수집 체계를 확립
텍스트 정제 과정에서 불용어 제거, 표제어 추출, 짧은 단어 제거를 수행해 노이즈를 최소화
DistilBERT를 감성 분류 태스크에 맞게 파인튜닝하고 F1 score 기반으로 성능을 평가
Naive Bayes, SVM, RNN, LSTM 등 기존 분류 모델과 동일 테스트셋 기준 성능 비교를 수행하여 모델 적합성을 검증
파인튜닝 DistilBERT로 리뷰별 감성 라벨(긍정/부정)과 0~1 범위의 감성 점수를 산출하여 시계열 분석 가능 형태로 변환
분기 단위로 감성 분포를 시각화하여 시간 흐름에 따른 감성 볼륨 변화와 긍·부정 추세 전환
감성 분포에서 극성이 급변하거나 추세가 반전되는 지점을 제품별 감성 변곡점으로 정의하고 Event 1~4로 라벨링
변곡점 전후 6개월 구간을 분할해 구간별 LDA 토픽모델링을 수행하고 코히런스 기반으로 최적 토픽 수 k를 결정
변곡점 이전과 이후의 토픽 및 키워드 변화를 비교하여 소비자 인식 전환 이벤트를 도출
도출된 핵심 이벤트를 실제 뉴스 기사 및 커뮤니티 이슈와 대조하여 분석 결과의 신뢰성과 타당성을 점검
[ 주요 분석 결과 ]
신제품 출시 자체보다 전면 노이즈 캔슬링과 같은 기술 혁신 키워드에 소비자 감성이 더 크게 반응하는 경향이 확인되었으며, 혁신 기능은 긍정 감성을 강화하는 핵심 요인으로 나타남
외이도염 등 착용성 문제, 연결 불안정, 서비스 불만 이슈는 부정 감성을 급격히 확대시키는 이벤트로 포착되었고, 특정 시점 이후 부정 토픽이 급증하는 감성 변곡 패턴으로 드러남
감성 분포의 변곡점과 토픽 구성을 함께 분석함으로써, 단순한 평점 평균이 아닌 “어떤 기능·경험이 언제부터 평가를 바꾸었는지”를 사건 단위로 설명할 수 있음을 입증함
[ 시사점 ]
단순 평점·리뷰 수 모니터링을 넘어, 감성 변곡점과 토픽 변화를 함께 보는 분석을 통해“언제, 어떤 기능/이슈가 소비자 평가를 바꾸는지”를 사건 단위로 설명할 수 있음을 보여줌
신제품 출시 시점이 아니라 노이즈 캔슬링과 같은 핵심 기능 도입, 착용감 이슈, AS 경험 등 구체적 이벤트에 맞춰 품질 개선·커뮤니케이션 전략을 설계해야 함을 시사함
외이도염, 연결 불안정, 서비스 불만과 같이 부정 감성을 급격히 키우는 토픽을 조기에 탐지함으로써, 제품 결함과 평판 리스크를 얼리 워닝 지표로 관리할 수 있는 가능성을 제시
제안한 감성 변곡점 기반 분석 프레임워크는 무선 이어폰을 넘어 다양한 하이테크 제품과 플랫폼 리뷰 데이터에 확장 적용할 수 있어, 향후 실시간 VOC 분석·CX 관리 시스템 설계의 기반 도구로 활용될 수 있음을 시사함
[활용 프로그램 ]
Python (Pandas, NumPy, scikit-learn)
Hugging Face Transformers (DistilBERT 토크나이징·파인튜닝·감성 분류)
langdetect (비영어 리뷰 필터링)
re / Regular Expressions (특수문자 제거·텍스트 정규화)
gensim (LDA 토픽모델링·Coherence 기반 토픽 수 최적화)
pyLDAvis (토픽 시각화·토픽 간 거리 비교)
matplotlib / plotly (감성 분포 시계열 시각화)
2024년 8월 ~
2024년 11월
2024 한국산업경영학회
추계학술대회 우수논문상
KCI 투고중
[ 연구 개요 ]
SCOPUS 기반 소비자 행동 관련 학술논문을 수집하고, 키워드·저자·소속국가·학술지를 하나의 네트워크로 모델링하여 연구 구조를 분석한 연구
키워드·저자·국가·저널 기준 1-mode 및 연도·국가·저널–키워드 2-mode 네트워크를 구축하고, 중심성 및 클러스터 구조를 통해 글로벌 소비자 행동 연구의 흐름을 정량적으로 파악
[ 연구 목적 ]
소비자 행동 연구에서 주제들이 서로 어떻게 연결되어 있는지, 그리고 어떤 키워드가 디지털 전환·지속가능성과 관련된 구조적 허브로 기능하는지 네트워크 관점에서 규명하고자 함
국가·저자·저널 간 협업 네트워크를 분석하여, 특정 국가나 소수 연구자 중심이 아닌 실제 글로벌 협업 구조와 연구 생태계의 분산 정도를 계량적으로 제시하고자 함
COVID-19, 소셜미디어, 머신러닝, 지속가능성, 전자상거래 등 핵심 키워드가 소비자 행동 연구의 중심 축에서 어떤 역할을 하는지 밝히고, 향후 연구 확장 가능성이 높은 신흥 연구 축을 탐색하는 것을 목표로 함
[ 분석 과정 ]
SCOPUS에서 소비자 행동 관련 논문 수집 및 데이터셋 구축
TITLE-ABS-KEY 기반 검색식 설계 및 제목·초록·저자 키워드 조건으로 필터링 수행
논문별 제목, 저자, 연도, 학술지명, 소속기관·국가, 저자 키워드 등 서지 메타데이터 정리
키워드·저자·국가·저널 기준 1-mode 공동출현 네트워크 및 연도·국가·저널–키워드 2-mode 네트워크 행렬 생성
각 네트워크에 대해 연결중심성·근접중심성·매개중심성 및 컴포넌트(하위집단) 지표 산출, 상위 허브/브로커 노드 도출
키워드·저자·국가 네트워크 시각화 및 클러스터 구조 해석을 통해 주요 연구 축과 국가·저자 협업 패턴 분석
[ 주요 분석 결과 ]
키워드 네트워크에서 COVID-19, social media, machine learning, sustainability, e-commerce는 연결·매개중심성이 모두 높은 핵심 허브로 나타나, 팬데믹과 디지털·AI 전환이 최근 소비자 행동 연구의 구조적 중심 축임을 확인
predictive model, green consumer, price fairness, traditional market은 근접중심성이 높은 키워드로 도출되어, 예측모델–지속가능 소비–가격 공정성–전통시장으로 이어지는 새로운 연구 축이 형성되고 있음을 시사
저자·국가 네트워크는 특정 선진국이나 소수 연구자에 과도하게 편중된 구조라기보다, 미국·영국·이탈리아·중국 등 허브 국가와 인도와 같은 브리지 국가가 함께 얽힌 분산형 글로벌 연구 생태계에 가깝다는 점을 보여줌
[ 시사점 ]
소비자 행동 연구동향을 단순 출판 건수·키워드 빈도가 아니라 네트워크 구조로 분석함으로써, 디지털 소비·지속가능 소비와 관련해 어떤 주제가 중심에 있고 어떤 주제가 주변에서 성장 중인지를 명확히 구분할 수 있는 근거를 제공
predictive model, green consumer, price fairness, traditional market으로 대표되는 축은 향후 정책·마케팅·소비자 보호 연구에서 전략적으로 확장할 필요가 있는 신흥 연구 영역으로 활용 가능
국가·저자·저널 네트워크 정보를 바탕으로, 디지털 전환·AI·지속가능성 관련 연구를 고도화하기 위해 어떤 국가·연구자와 공동연구를 추진할지 데이터 기반으로 선정 기준을 제시
연구기관·학회·정책기관이 소비자 행동 분야의 글로벌 연구 생태계에서 자국의 위치를 진단하고, 중장기 연구 전략과 국제 공동연구 네트워크 구축 방향을 설계하는 데 활용 가능한 실질적 인사이트를 제공
[ 활용 프로그램 ]
SCOPUS (논문 및 서지 메타데이터 수집)
Microsoft Excel / CSV (초기 서지데이터 정리, 코딩)
Python (Pandas, NumPy) (서지데이터 전처리·네트워크 행렬 생성)
NetMiner (1-mode·2-mode 네트워크 구축 및 중심성·컴포넌트 분석)
Gephi / VOSviewer (키워드·저자·국가 네트워크 시각화 및 클러스터 맵 출력)
2024년 3월 ~
2024년 5월
KCI 1저자 등재
[ 연구 개요 ]
온라인 소비자 리뷰(OCR)를 기반으로 수산물 가공품에 대한 핵심 구매 요인과 소비자 행동 패턴을 분석한 연구
쿠팡과 마켓컬리의 고등어·오징어·김 리뷰 데이터를 대상으로 워드클라우드, 연관규칙 분석, LDA 토픽모델링을 결합한 다각적 텍스트 마이닝 프레임워크를 구축한 연구
[ 연구 목적 ]
맛·신선도·편의성·가격·품질·배송·보관 등 수산물 가공품 구매 의사결정 요인을 실제 리뷰 데이터를 통해 실증적으로 규명하고자 함
제품군별 사용 맥락과 불만 요인을 세분화하여, 제품 설계·패키징 구성·마케팅 메시지 등에 직접 반영 가능한 실무형 인사이트를 도출하고자 함
설문 위주의 전통적 소비자 조사 방식이 가지는 기억 편향·응답 편향을 보완하고, 실제 구매 후 경험에 기반한 data-driven 의사결정 근거를 마련하는 것을 목표로 함
[ 분석 과정 ]
쿠팡·마켓컬리에서 고등어·오징어·김 리뷰 데이터 수집(2020.01~2023.12) 및 데이터셋 구축
상품명·작성일·리뷰 제목·리뷰 본문 등 수집 항목 정의 및 크롤링 자동화
형태소 분석 기반 전처리(불용어 제거, 어간/표제어 추출, 2자 이상 단어 필터링) 수행
워드클라우드로 수산물별 상위 키워드(Top-50) 도출 및 소비자 관심사 시각화
원-핫 인코딩 기반 연관규칙 분석으로 지지도·신뢰도·향상도 기준 핵심 규칙 추출
LDA 토픽모델링 및 Coherence 기반 최적 토픽 수 결정, 토픽 라벨링
세 기법 결과를 종합해 구매 요인, 사용 용도, 불만 요인을 구조화하고 전략으로 연결
[ 주요 분석 결과 ]
소비자는 수산물 가공품 구매시 맛·신선도뿐 아니라 손질 편의성, 간편 조리 가능 여부, 가격 대비 가치(가성비), 포장·배송 품질, 냉동 보관 편의성을 동시에 고려하는 복합 의사결정 패턴을 보임
고등어·오징어·김 각각에서 에어프라이어 조리, 개별·진공 포장 선호, 김밥용 김의 찢어짐·터짐 이슈 등 제품군별 특유의 사용 방식과 품질 리스크가 뚜렷하게 드러남
연관규칙 분석에서 같은 규칙이 높은 신뢰도로 도출되고, LDA 토픽에서도 일관된 주제가 형성되어, 텍스트 마이닝 기반 구매 요인 구조화의 타당성이 확인됨
특히 포장 상태, 냄새·비린내, 수분·식감 관련 불만 키워드는 여러 기법에서 반복적으로 나타나, 품질 관리와 패키징 개선이 소비자 만족도 제고의 핵심 레버임을 보여줌
[ 시사점 ]
리뷰 기반 다각적 텍스트 마이닝은 수산물 가공품 기획에서 “맛과 신선도 강조”를 넘어 손질·조리 편의, 개별·진공 포장 여부, 냉동·보관 적합성 등 구체 속성을 정교하게 설계하는 데 활용 가능함
반복적으로 등장하는 포장 파손, 김 찢어짐·터짐, 냄새·수분 관련 불만 토픽은 제품 품질 관리와 CS 프로세스에서 우선적으로 개선해야 할 리스크 영역으로 해석할 수 있음
워드클라우드·연관규칙·토픽모델링을 결합한 분석 결과는 패키징 문구, 레시피 제안, 상세페이지 메시지, 프로모션 포인트를 실제 소비자 언어에 맞춰 조정하는 데 유용한 근거로 활용될 수 있음
향후 수산물 외 다른 가공식품·신선식품 카테고리에도 동일 프레임워크를 확장함으로써, 온라인 리뷰를 기반으로 한 카테고리별 맞춤 제품 전략 및 브랜드 포지셔닝 설계가 가능함
[ 활용 프로그램 ]
Java, Selenium, Eclipse (리뷰 크롤링 및 수집 자동화)
Python (Pandas, NumPy) (데이터 정제·집계·분석)
konlpy / Okt (형태소 분석·어간/표제어 추출)
WordCloud (키워드 시각화)
mlxtend / scikit-learn (원-핫 인코딩·연관규칙 분석)
gensim (LDA·Coherence 기반 토픽 수 최적화)
pyLDAvis (토픽 시각화)
matplotlib (결과 시각화)
코트스테이츠 AI 부트캠프 프로젝트 결과물 입니다. (2022.02~2022.08)
2022.06-2022.07 (6주)
프로젝트 개요: Instacart 데이터를 활용해 식료품 재구매 요인 분석 및 개인 맞춤형 상품 추천 서비스를 개발한 프로젝트
프로젝트 목적: 온라인 식료품 거래 비중이 급증하는 시장에서 소비자 구매 패턴을 분석하고, 재구매율을 높이는 추천 모델을 구현
데이터: Instacart 식료품 주문 데이터 (미국 온라인 마켓, 3백만 건 이상)
주요 변수: 주문 ID, 상품명, 카테고리, 재주문 여부, 구매 시간대 등
분석 과정:
EDA — 고객별 구매 패턴, 시간대별 구매 빈도, 재주문율 상위 품목 분
Feature Engineering — 구매 횟수(p_order_num), 재구매 횟수(up_reorder) 등 핵심 변수 생성
모델 설계 — Collaborative Filtering 기반 SVD(특이값 분해) 적용
하이퍼파라미터 튜닝 — GridSearchCV를 통한 RMSE 최적화
핵심 인사이트:
고객은 ‘인기 있는 제품’과 ‘이전에 구매한 제품’을 재구매하는 경향
재주문율이 높은 품목일수록 카테고리 내 유사 상품 구매 가능성↑
구매 시간대는 9~17시 집중, 월초 재주문율이 월말보다 높음
결과:
RMSE 0.97 수준으로 모델 수렴
카테고리별 Top-N 추천 리스트 구성 (예: 유제품, 음료, 반려용 간식 등)
고객 맞춤 추천을 통해 구매 전환율 향상 가능성 제시
사용 기술: Python, Pandas, Scikit-learn, LightGBM, XGBoost, Flask, HTML/CSS, GridSearchCV
서비스 구현:
Flask 기반 웹 파이프라인으로, 사용자가 로그인하면
→ 과거 구매 데이터를 바탕으로 재구매 확률이 높은 제품 추천
성과 및 의의:
Instacart 데이터를 활용해 실제 소비자 구매 패턴을 반영한 예측 모델 구축
데이터 분석 웹 서비스 구현까지 엔드투엔드(End-to-End) 파이프라인 완성
실무형 AI 추천 시스템의 기초 모델을 완성
2022.05 (4주)
프로젝트 개요: Class Activation Map(CAM)을 활용하여 주차장 CCTV 영상에서 빈 주차공간을 자동으로 탐지하고 시각화하는 딥러닝 기반 프로젝트
프로젝트 목적: 코로나19 이후 유동량 증가 및 주차난 심화에 대응하기 위해, 딥러닝 기반 주차 가능 공간 탐지를 위한 최적의 이미지 데이터셋으로 선정
데이터 출처: Kaggle Find a Car Park 데이터셋 (총 3,262장), Full(가득 참): 2,937장, Free(비어 있음): 325장
가설 설정:
CAM을 활용하면 주차공간이 비어있는 위치를 시각적으로 파악할 수 있다.
Bounding box 없이도 Free 공간의 면적 인식이 가능하다.
사용 기술: Python 3 (GPU 환경), TensorFlow, Keras, Numpy, Matplotlib, Scipy
모델 선정: MobileNetV2 사용 — Inverted Residual Block 기반으로 연산량과 파라미터 수를 줄이면서도 높은 정확도를 달성, 기존 ShuffleNet, ResNet 대비 detection 및 segmentation 성능 우수
결과 요약:
학습된 모델의 활성화 맵(Class Activation Map)을 시각화하여 주차장 내 ‘비어있는 공간’을 색상 히트맵으로 표시
MobileNetV2 기반 CAM 모델로 주차 가능 영역 탐지 성공
heatmap을 통해 실제 비어있는 공간 위치를 직관적으로 파악 가능
Validation 정확도 96%, Loss 0.46 수준으로 실용 가능성 확인
한계점:
단일 장소 기반 데이터로 인해 장소별 조도·각도 변화에 민감
다중 장소 적용 시 정확도 하락 → 추가 학습 필요
GPU 환경에서 재분석 시 메모리 제약 및 연산 반복 발생
2022.04 (4주)
프로젝트 개요: Kaggle의 심혈관 질환 데이터를 기반으로, 개인 건강 지표를 입력하면 심혈관 질환 발생 위험을 예측하는 웹 서비스 개발
프로젝트 목적: 코로나19 이후 활동량 감소와 식습관 악화로 인한 심혈관 질환 위험 증가에 대응하여, 사전 예측을 통한 건강관리 인사이트 제공
데이터 구성: 70,000건 × 12개 변수 (나이, 성별, 혈압, 콜레스테롤, 흡연, 음주, 신체활동 등), 타깃 변수: cardio (심혈관 질환 유무, 0/1)
분석 절차: Kaggle 데이터 수집 → Colab 전처리 → SQLite 저장 → VSCode로 모델 구현 → Flask로 웹 서비스화 → Metabase로 시각화
모델 개발: 피클(pickle) 모델을 활용해 사용자가 입력한 데이터로 질환 위험을 실시간 예측, Code, Flask와 CSS를 통해 간단한 웹 인터페이스 구성
서비스 구현: 사용자는 나이·성별·혈압 등 정보를 입력하고 ‘검사하기’ 버튼을 누르면, 결과에 따라 “안전” 또는 “위험”으로 분류 및 예방 수칙 제시
시각화: Metabase 대시보드를 통해 저혈압/고혈압 비율 등을 시각화
한계점:
타깃 변수가 0/1로 단순해 세부적 예측이 어려움
Kaggle 데이터 한정으로 실제 의료데이터와의 차이 존재
Flask·SQLite 환경에서 시각화 및 배포 기능 제약
성과 및 의의:
심혈관 질환 위험도를 간단한 웹 기반으로 예측 가능하게 구현
데이터 파이프라인(수집–모델링–시각화) 전 과정을 직접 설계
의료데이터 예측 서비스의 프로토타입 모델 구축 경험
2022.03 (2주)
프로젝트 목적: 온라인 쇼핑에서 배송 도착 여부에 영향 미치는 핵심 요인 규명
데이터 구성: 총 10,999건의 고객·제품·배송 관련 데이터 활용 (Kaggle 공개 데이터셋)
주요 변수: 제품 할인율, 무게, 운송 방식, 사전 구매 횟수, 고객 문의 빈도 등
분석 기법: EDA, PDP, SHAP을 통한 변수 중요도 분석 및 시각화
모델링 방법: Random Forest와 XGBoost를 활용한 배송 도착 예측 모델 구축
핵심 결과:
할인율이 10% 초과 시 배송 지연 확률 상승
제품 무게 2,300~3,800g 구간에서 배송 안정성 저하
운송 수단은 도착 여부와 직접적 연관성 미약
사전 구매 횟수 과다 시 예측 정확도 하락
모델 성능: Random Forest의 F1-score 0.661로 가장 높은 예측 성능 기록
프로젝트 의의: 제품 특성과 물류 요인의 상호작용을 실증 분석하여 배송 효율성 개선 방향 제시
향후 계획: 데이터 규모 확장 및 하이퍼파라미터 튜닝을 통한 예측 모델 고도화
2022.03 (2주)
프로젝트 목적: 지역별 게임 장르 선호도, 연도별 트렌드, 판매량 상위 게임의 공통 요인 분석
데이터 구성: 총 16,598개의 게임 데이터 (게임명, 플랫폼, 연도, 장르, 퍼블리셔, 지역별 판매량 포함)
전처리 과정: 결측치 및 단위 오류 보정, Total_Sales(지역별 판매 합계 변수) 생성
분석 단계
데이터 정제 및 변수 생성 : 분석 가능한 형태로 구조화
지역별 장르 선호도 분석 : 장르별 판매량을 그룹화·시각화하여 지역별 소비 패턴 비교
연도별 트렌드 분석 : 평균 판매량 및 장르 비중 변화를 시계열 그래프로 표현
상위 10개 게임 분석 : Total_Sales 기준으로 장르·플랫폼·퍼블리셔 공통 요인 탐색
주요 결과: 지역별 장르 취향, 시기별 트렌드, 히트작의 공통 구조를 데이터 기반으로 도출
프로젝트 의의: 전처리–집계–시각화 과정을 통해 게임 시장의 구조적 특성과 소비 패턴을 체계적으로 분석