Big Data v Managementu
LS 2020/2021
Kurz Big Data v Managementu aktuálně v LS20/21 probíha online přes MS Teams.
Praktická výuka probíhá v software Orange (zdarma ke stažení zde: https://orange.biolab.si/download/ ). Ke kurzu je jako povinná literatura kniha "Všichni lžou" od Setha Stephens-Davidowitze. Kniha je již dostupná v počtu několika kusů v knihovně VŠE.
Konzultační hodiny ke kurzu jsou každý pátek 14:00 - 16:00 přes , vhodné je napsat mi e-mail předem na rezervaci konkrétního časového slotu (můj email je marcel.tkacik@vse.cz ). Též se lze dohodnout na jiném termínu v závislosti na vzájemné časové dostupnosti.
Požadavky (max 100 bodů)
Semestrální práce (40 bodů)
odevzdává se ve čtyřech iteracích, vždy po dvou týdnech (každá iterace za 10 bodů)
zadání a rozčlenění do skupin v 5.týdnu, 1.část se odevzdává v 7. týdnu, 2.část se odevzdává v 9. týdnu, 3.část se odevzdává v 11.týdnu a 4.část se odevzdává a celá seminární práce prezentuje v 13.týdnu
Závěrečný test (60 bodů)
15 bodů: 3 otevřené otázky z knihy "Všichni lžou"
20 bodů: 5 multiple-choice otázek na znalosti metod
25 bodů: vyřešení praktického úkolu v Orange
Hodnocení: 100-90 bodů = 1, 89 - 75 bodů = 2, 74 - 60 bodů = 3, 59 - 50 bodů = 4+ (opakování záv. testu), méně než 50 bodů = 4
Obsah kurzu, materiály
Handouts: Confusion Matrix , Bayes Rule , Dispersion (from feature statistics) ,
Cvičení 1. (19.2.)
Úvod do kurzu a požadavky. Manažerské rozhodování s využitím velkých dat a data science.
Cvičení 2. (26.2.)
Vizualizace dat. Klasifikace.
Bonus Quest: Titanic (plus interpretace decision tree)
Cvičení 3. (5.3.)
Dokonceni klasifikace: Confusion matrix, dva priklady + vizualizace. Intro to Clustering.
Slides pro klasifikaci jsou ze cviceni 2.
Klasifikace: dva priklady na doma za 5 bodů celkem:
Airline classification , Bank Telephone Survey (nabidka terminovaneho vkladu)
Data pro klasifikaci dostupna primo v Orange Datasets:
Employee Attrition (1= zamestnanec odesel)
Kickstarter (1= project got financed, pledge levels = kolik urovni podpory je tvurcem vyzvy nabidnuto - napr. 5 urovni by bylo kupr. 1$, 5$, 20$, 30$, 70$)
Cvičení 4. (12.3.)
vyučuje doc. Petr Houdek
Odkrývání nečestného a podvodného chování zaměstnanců, manažerů a klientů pomocích velkých dat.
Slides
Cvičení 5. (19.3.)
Clustering
Data pro clustering: Mall Customers, Automotive Clustering, Country Data (hierarchical clustering)
nainstalujte si modul educational a pouzijte widget interactive k-means!
Cvičení 6. (26.3.)
Předpovídání budoucnosti (regrese 1)
Cvičení 7. přeloženo (2.4. - statni svatek + nemoc)
Cvičení 7. + 8. (9.4., dvouhodinovka)
Regrese, confounders, přirozené experimenty (dokončení cvičení 6)
Data preprocessing, feature statistics, linearni regresni model (regrese 2)
Cvičení 9. (16.4.)
Regresssion cookbook (regrese 3)
Praktická aplikace - cena auta, náklady na zdravotní péči (regrese 4)
Cvičení 10. (23.4.)
Úvod do analýzy textu (natural language processing)
Cvičení 11. (30.4.)
Témata z textové analýzy: Analýza spokojenosti a predikce výpovědí. Analýza uchazečů na základě textových dat. Využití analýzy textu a analýzy sociálních sítí v organizaci pro strategii znalostního managementu. Využití textových dat v HR managementu. Lze z analýzy textů manažerů poznat, jakou mají osobnost a jak jejich osobnost ovlivňuje prosperitu firmy?
Cvičení 12. (7.5.)
vyučuje Štěpán Bahník, Ph.D.
Prezentování výsledků pro snadné pochopení, XAI (explainable artifical intelligence)
Slides
Cvičení 13. (14.5)
Přednáška data scientistů ze společnosti Workday
Prezentace seminárek nebude (nemá to cenu, každý byste měl jen 10min..)