Big Data v Managementu
Spring 2023
Kurz se koná v letním semestru 22/23 blokově, v jednom úvodním dni v únoru a ve tří dnech v květnu.
Prezenční výuka je v tyto dny:
Den 1: 17.5. (středa) 10:00 - 15:00
Den 2: 18.5. (čtvrtek) 10:00 - 15:00
Den 3: 19.5. (pátek) 10:00 - 15:00
Povinnosti do začátku výuky: přečíst knihu Everybody lies (Všichni lžou). Otázky z knihy budou v závěrečném testu.
Hodnocení: vzhledem k tomu, že z důvodu blokové výuky nelze realizovat klasickou seminární práci která běžně sestává ze 4 iterací po dvou týdnech, bude závěrečná práce vypsána po blokové výuce a bude za ní 40 bodů. Zároveň ale máte možnost získat až 20 bonusových bodů za online learning data science na Data Camp. Body se samozřejmě sčítají max. do hranice 100 bodů.
Online Learning na Data Camp: Link pro přidání se do skupiny Vám byl zaslán na MS Teams, po registraci budete přiřazeni do naší skupiny a dostanete přístup ke všem kurzům zdarma.
Co na Data Campu? Klikněte si vlevo v katalogu na Tracks a Career Tracks. V principu si můžete vybrat jakoukoliv specializaci. Nicméně pro úplné začátečníky doporučuji Data Analyst with Python a pokud chcete trochu pokročilejší materiál tak Data Scientist in Python (nebojte, není to tak obtížné).
Za každý kurz, který v rámci specializace uděláte Vám přičtu 4 body, maximální počet bodů který Vám přičtu do tohoto kurzu je pak 20. Prosím abyste kurzy dělali poctivě, minulý semestr jsme měli problém se studenty kteří si např. nechali zobrazit řešení a to jen mechanicky vyplňovali aby kurzy udělali - nicméně tím Vám pak neroste XP které musí s počtem kurzů korelovat a já XP jako admin skupiny vidím. Stejně tak jsme ošetřili kontrolu pro to kdy si studenti např. otevírali dvě okna stejného kurzu a kopírovali řešení do druhého okna.
Seminární práce: 40 bodů, odevzdání do termínu ZT
Závěrečný test: 60 bodů
30 bodů: otevřené otázky z knihy Everybody Lies
20 bodů: multiple-choice otázky na probranou látku
10 bodů: 2 otevřené otázky k seminární práci
Termín závěrečného testu (120min): dle domluvy podle toho kolik času budete chtít na vypracování závěrečné práce mezi posledním dnem výuky a testem
Pro studenty kteří např. potřebují absolvovat státní zkoušku je samozřejmě možnost napsat si test dříve (platí pro všechny studenty), na tomto dřívějším termínu se pak domluvíme přímo první den výuky.
Program výuky + materiály
Úvodní den v únoru - již probráno
Manažerské rozhodování s využitím velkých dat a data science.
Vizualizace dat. Klasifikace.
Tři dny v květnu
Den první, 10:00 - 15:00
Co se právě děje ve světě AI - chatGPT, GPT-4 a use cases těchto technologií; co AI změní v budoucnosti
AI & Machine Learning - metody, vyhodnocování kvality modelů a predikcí
Pratické příklady na klasifikační metody z února
Interpretace a vysvětlování modelu a predikcí, data storytelling
Slides budou přidány po aktualizaci
Den druhý, 10:00 - 15:00
Předpovídání budoucnosti
Úvod do regrese
Kauzalita - Confounders, přirozené experimenty
Práce s daty - Data preprocessing, feature statistics, klasická lineární regrese
Regresssion cookbook
Praktické aplikace - cena auta, náklady na zdravotní péči
Den třetí, 10:00 - 15:00
Úvod do analýzy textu (natural language processing), large language models (LLM)
Jak stroje rozumí textu, k čemu NLP je a co všechno můžeme čekat?
Jednoduché aplikace NLP - sentiment analysis, topic modeling
Krátká exkurze do učení bez učitele (Unsupervised learning) - Clustering
Data pro clustering: Mall Customers, Automotive Clustering, Country Data (hierarchical clustering)
nainstalujte si modul educational a pouzijte widget interactive k-means!
Přednášky hostů - různě během tří dnů, dle domluvy s hosty