Program 

2024년 6월 13일 (목), 19:00 ~ 22:00 KST

데이터 기반 의사결정을 위해서 우리는 '데이터'에 집중하기 보다는 추론을 위한 '과학(적 방법론)'에 집중해야 합니다. 즉, '데이터는 증거(evidence)'의 역할을 할 뿐이라는 것입니다. 그러니 우리는 빅데이터를 다뤘다는, 딥러닝으로 분석했다는 환상에서 벗어나 데이터의 '증거 능력'의 격차를 이해하고, 그 증거 능력을 어떻게 하면 올릴수 있을까를 기획할수 있어야 합니다. 그래서 데이터 과학을 '증거의 피라미드' 관점에서 이해하는 것이 중요하다 할 것입니다. 대부분의 빅데이터 분석이 무분별한 상관관계를 기반으로 한 귀납 추론이라고 볼때, (사고력으로나마) 연역적이고 인과적인 구상과 추론이 반드시 필요합니다. 이는 인과추론을 기술적으로 해내느냐와 관계없이, 상관관계를 효과적으로 활용하고 그 의사결정 수위를 정할수 있게 하기 위해서라도 중요합니다. 본 발표에서는 '증거의 피라미드' 프레임을 통해 의사결정의 수위를 정하는 방법에 대해서 소개하고자 합니다.

완전한 실험 환경이 갖추어지지 않은 상황에서도 리스크를 줄이고 설명력을 높임으로써 성장하는 제품을 만들 수 있도록 도와주는 데이터 기반의 전략적 접근법을 소개합니다.

A/B 테스트의 신뢰도를 보장하기 위해 실험의 라이프사이클 전반에 걸쳐 고려해야 할 사항들에 관해 이야기하고자 합니다.

많은 분들이 관심 있을만한 핫한 사회 문제들에 관한 연구들을 함께 정리해 봅니다. 한국과 미국에서 카드 결제 패널 데이터를 분석하여 소비에 대해 연구한 학술 연구 사례 뿐 아니라, 코로나 이전에 서울에서 Airbnb 공간들을 운영하며 데이터 기반의 의사 결정과 소소한 AB 테스팅을 곁들여 객실을 꽉채웠던 개인적인 경험에 대해서도 공유하고자 합니다.

본 연구는 최근 고조되는 기후위기에 대응하기 위해 캐나다 정부가 시행해온 청정기술 혁신 지원 프로그램들, 특히 저탄소 경제로의 전환을 목표로 한 정책들의 효과를 분석하였습니다. 캐나다 통계청에서 제공하는 방대한 기업 데이터 (2002-2021)를 바탕으로 Generalized Synthetic Control Method를 이용해 해당 정책이 기업의 연구개발비(R&D) 지출에 미치는 인과적 효과를 추정하였습니다. 특히 내부 연구개발비 지출과 외부 연구개발비 지출의 추이를 비교 분석함으로써, 이러한 정책들이 기업의 혁신 전략에 어떤 영향을 미치는지에 대해 심도 있게 이해하고 정책적 함의를 함께 도출하고자 하였습니다.

2024년 6월 20일 (목), 9:00 ~ 12:00 KST

Large Language Model (LLM)을 비롯한 생성형 AI의 등장으로 모든 분야의 변화가 예상되며, 데이터 사이언스도 예외가 아닙니다. 작년에 이미 LLM이 분석의 전 과정을 제한적으로나마 수행할 수 있다는 점은 알려졌으며, 태블로 등 데이터 분석 솔루션 회사들이 자사의 제품에 AI를 통합하는 작업을 진행하고 있지만, 아직 AI 기반의 본격적인 분석 솔루션의 모습이 어떨지는 추측만 가능한 상황입니다. 본 발표에서는 생성형 AI가 데이터 분석에 활용될 수 있는 다양한 가능성을 소개하고, 최근 발표된 솔루션을 바탕으로 앞으로의 미래를 전망해 보고자 합니다.

해당 발표는 미국의 대표적 시빅 테크 단체인 코드 포 아메리카에서 데이터 과학자로 활동했던 발표자가 미국의 연방정부, 주정부, 지방정부와 함께 일하면서 경험하고 목격한, 현장 실험이 어떻게 미국의 복지 서비스를 바꿨는 지에 대한 이야기를 다룹니다. 좀 더 큰 틀에서, 이 발표는 인과추론에 대한 이론을 학습한 연구자가 현장에서 실험을 설계하고, 진행하기 위해서 해야 할 것, 하지 말아야 할 것(dos and don'ts)을 구체적으로 지적하고, 효과적인 현장 실험 설계를 위한 청사진을 SIMC (Scoping, Implementation, Measurement, Communication)이란 프레임워크를 통해 제시합니다.

정치경제학 (Political Economy)의 영역에서 인과추론이 어떻게 적용되는지에 대해 여러가지 사례를 통해 알아봅니다. 대통령 선출이 국가경제에 가지는 의미, 선거데이터를 통한 불연속회귀설계 (Regression Discontinuity), 미국 내에서의 정치주기 (Political Cycles of United States) 등에 대한 학술적인 접근과 연구 결과에 대해 논의합니다.

금융 및 AI 산업에서 일하며 보험, 증권, 은행 및 카드업계 등 다양한 금융회사와의 협업했던 경험을 바탕으로 최근 금융권 내 데이터 분석 및 활용의 실무 사례와 현재 금융 데이터 및 AI 분야에서 어떤 실무적인 챌린지가 공존하는지 공유하고자 합니다. 또한, 금융권은 현재 AI 바람으로 망분리 규제완화 등 큰 변화를 겪고 있는데, 데이터분석가와 사이언티스트분들에게 어떤 기회가 있을 수 있을지 업계 동향에 대해서도 이야기를 나눌 예정입니다.

2024년 6월 27일 (), 19:00 ~ 22:30 KST

Data 기반의 환경에서 설명 가능한 AI에 대한 수요는 매우 중요합니다. 특정 결과가 도출된 이유를 이해하는 능력은 신뢰를 얻고 정보에 입각한 결정을 내리는 데 필수적입니다. 본 발표에서는 LG AI 연구원의 Causal AI 실무 적용 방향과 미래 성장 가능성에 대해 다룹니다.

데이터 기반 의사결정 문화는 리더십의 선언과 의지만으로 이루어지지 않으며, 단순히 데이터를 분석하는 것만으로도 충분하지 않습니다. 조직 내 전반적인 공감대 형성과 더불어 프로세스적인 장치가 균형 있게 고려되어야 하며, 데이터 분석 관점에서도 인과 관계 분석을 위한 기술적 연구가 뒷받침되어야 합니다. 이번 워크샵에서는 지마켓이 데이터 기반 의사결정 문화를 구축해가는 과정에서 겪었던 시행착오를 소개하고, 어떤 노력이 필요한지에 대해 함께 고찰해보고자 합니다.

모더레이터: 신진수 (크래프톤, 가짜연구소 인과추론팀 빌더, 서머워크숍 기획진), 최보경 (네이버, PAP 운영진, 서머워크숍 기획진) 

패널리스트: 김선호 (G마켓, AI Product팀 팀장), 이민용 (노티플라이, 대표),  이창현 (콴다, 데이터팀 팀장), 변성윤 (카일스쿨, 대표)

패널 토의에서는 온라인 실험과 데이터를 활용한 비즈니스 성장 방법론, 기술, 플랫폼, 그리고 이를 실행하기 위한 교육과 문화적 요소를 다룹니다. 1부에서는 실험 플랫폼의 도입 배경, 핵심 기능, 분석 파이프라인, 구축 과정에서의 한계점 등을 논의하고, 2부에서는 실험 결과 기반 의사결정의 어려움, 실험 문화의 형성과 확산, 데이터 리터러시 향상 등을 토론합니다. 

2024년 6월 28일 (), 9:00 ~ 12:00 KST

인과추론을 위한 머신러닝의 활용을 다루는 Causal ML 의 다양한 모델들과 오픈소스 툴, 그리고 실제 현업 적용 사례들에 대해 다루고자 합니다.

본 발표는 디스플레이 화소 회로 설계와 그 구동 조건을 분석하기 위해 XAI, 특히 SHAP 값을 통합하여 복잡한 상호작용을 해석하는 방법을 적용하였으나 개선점이 노출되었으며, 도메인 전문가와 협력하여 방향성 비순환 그래프(DAG)를 구축함으로써 인과 관계를 정확히 파악하고, 변수의 조건부 분포를 분석하여 인과 메커니즘의 변화를 보다 깊이 이해하였습니다.

추천시스템은 갈대와 같이 변화하는 사람의 마음을 관측된 데이터로 충족시켜야 하는 복잡한 과제입니다. 사용자와 상품의 특징은 시간에 따라 변화하고, 재현 불가능한 문제로 인해 성능 평가도 어렵습니다. 인과추론은 이런 문제를 해결하기에 중요한 역할을 할 수 있습니다. 이 워크샵 발표에서는 추천시스템 문제를 해결할 수 있는 실용적인 인과추론 적용 방법을 살펴보고 산업에서 어떻게 적용할 수 있는지 공유하고자 합니다. 특히, 실제 고객 데이터에 제시된 인과추론 모델을 적용하여 그 효과를 평가하고 논의할 예정입니다.

넷플릭스, 에어비앤비 등 여러 회사들은 전통적인 A/B 실험을 개선한 새로운 실험방식들을 통해 핵심 ML 모형들을 실제 서비스 환경에서 최적화하는 데 소요되는 시간을 비약적으로 단축시켰습니다. 교차 실험(Interleaving Experiment)은 검색이나 추천 모형을 개선할 때 사용되는데, 실험에 투입되는 두 모형의 결과값들을 서로 교차해서 배치하는 방식을 활용해 훨씬 적은 샘플 숫자만으로도 어느 ML 모형의 결과값이 더 실제 사용자들에게 선호되는지를 금방 파악할 수 있게 합니다.