Big Data v Managementu
Spring 2023

Kurz se koná v letním semestru 22/23 blokově, v jednom úvodním dni v únoru a ve tří dnech v květnu.

Prezenční výuka je v tyto dny:

Den 1: 17.5. (středa) 10:00 - 15:00

Den 2: 18.5. (čtvrtek) 10:00 - 15:00

Den 3: 19.5. (pátek) 10:00 - 15:00

Povinnosti do začátku výuky: přečíst knihu Everybody lies (Všichni lžou). Otázky z knihy budou v závěrečném testu.

Hodnocení: vzhledem k tomu, že z důvodu blokové výuky nelze realizovat klasickou seminární práci která běžně sestává ze 4 iterací po dvou týdnech, bude závěrečná práce vypsána po blokové výuce a bude za ní 40 bodů. Zároveň ale máte možnost získat až 20 bonusových bodů za online learning  data science na Data Camp. Body se samozřejmě sčítají max. do hranice 100 bodů.

Online Learning na Data Camp: Link pro přidání se do skupiny Vám byl zaslán na MS Teams, po registraci budete přiřazeni do naší skupiny a dostanete přístup ke všem kurzům zdarma.

Co na Data Campu? Klikněte si vlevo v katalogu na Tracks a Career Tracks. V principu si můžete vybrat jakoukoliv specializaci. Nicméně pro úplné začátečníky doporučuji Data Analyst with Python a pokud chcete trochu pokročilejší materiál tak Data Scientist in Python (nebojte, není to tak obtížné). 

Za každý kurz, který v rámci specializace uděláte Vám přičtu 4 body, maximální počet bodů který Vám přičtu do tohoto kurzu je pak 20. Prosím abyste kurzy dělali poctivě, minulý semestr jsme měli problém se studenty kteří si např. nechali zobrazit řešení a to jen mechanicky vyplňovali aby kurzy udělali - nicméně tím Vám pak neroste XP které musí s počtem kurzů korelovat a já XP jako admin skupiny vidím. Stejně tak jsme ošetřili kontrolu pro to kdy si studenti např. otevírali dvě okna stejného kurzu a kopírovali řešení do druhého okna.

Seminární práce: 40 bodů, odevzdání do termínu ZT

Závěrečný test: 60 bodů


Program výuky + materiály

Úvodní den v únoru - již probráno

Manažerské rozhodování s využitím velkých dat a data science.

Slides

Vizualizace dat. Klasifikace.

Slides

Data: Churn


Tři dny v květnu

Den první, 10:00 - 15:00

Co se právě děje ve světě AI - chatGPT, GPT-4 a use cases těchto technologií; co AI změní v budoucnosti

AI & Machine Learning - metody, vyhodnocování kvality modelů a predikcí

Pratické příklady na klasifikační metody z února

Interpretace a vysvětlování modelu a predikcí, data storytelling

Slides budou přidány po aktualizaci

Den druhý, 10:00 - 15:00

Předpovídání budoucnosti

Úvod do regrese

Slides

Kauzalita - Confounders, přirozené experimenty 

Slides

Práce s daty - Data preprocessing, feature statistics, klasická lineární regrese

Slides

Regresssion cookbook

Slides

Praktické aplikace - cena auta, náklady na zdravotní péči

Slides

Den třetí, 10:00 - 15:00

Úvod do analýzy textu (natural language processing), large language models (LLM)

Jak stroje rozumí textu, k čemu NLP je a co všechno můžeme čekat?

Slides

Jednoduché aplikace NLP - sentiment analysis, topic modeling

Slides

Krátká exkurze do učení bez učitele (Unsupervised learning) - Clustering

Slides

Data pro clustering: Mall Customers, Automotive Clustering, Country Data (hierarchical clustering)

nainstalujte si modul educational a pouzijte widget interactive k-means!

Přednášky hostů - různě během tří dnů, dle domluvy s hosty