Big Data v Managementu

LS 2020/2021

Kurz Big Data v Managementu aktuálně v LS20/21 probíha online přes MS Teams.

Praktická výuka probíhá v software Orange (zdarma ke stažení zde: https://orange.biolab.si/download/ ). Ke kurzu je jako povinná literatura kniha "Všichni lžou" od Setha Stephens-Davidowitze. Kniha je již dostupná v počtu několika kusů v knihovně VŠE.

Konzultační hodiny ke kurzu jsou každý pátek 14:00 - 16:00 přes , vhodné je napsat mi e-mail předem na rezervaci konkrétního časového slotu (můj email je marcel.tkacik@vse.cz ). Též se lze dohodnout na jiném termínu v závislosti na vzájemné časové dostupnosti.

Požadavky (max 100 bodů)

Semestrální práce (40 bodů)

  • odevzdává se ve čtyřech iteracích, vždy po dvou týdnech (každá iterace za 10 bodů)

  • zadání a rozčlenění do skupin v 5.týdnu, 1.část se odevzdává v 7. týdnu, 2.část se odevzdává v 9. týdnu, 3.část se odevzdává v 11.týdnu a 4.část se odevzdává a celá seminární práce prezentuje v 13.týdnu

Závěrečný test (60 bodů)

  • 15 bodů: 3 otevřené otázky z knihy "Všichni lžou"

  • 20 bodů: 5 multiple-choice otázek na znalosti metod

  • 25 bodů: vyřešení praktického úkolu v Orange

Hodnocení: 100-90 bodů = 1, 89 - 75 bodů = 2, 74 - 60 bodů = 3, 59 - 50 bodů = 4+ (opakování záv. testu), méně než 50 bodů = 4

Obsah kurzu, materiály

Handouts: Confusion Matrix , Bayes Rule , Dispersion (from feature statistics) ,

Cvičení 1. (19.2.)

Úvod do kurzu a požadavky. Manažerské rozhodování s využitím velkých dat a data science.

Slides

Cvičení 2. (26.2.)

Vizualizace dat. Klasifikace.

Slides

Data: Churn

Bonus Quest: Titanic (plus interpretace decision tree)

Cvičení 3. (5.3.)

Dokonceni klasifikace: Confusion matrix, dva priklady + vizualizace. Intro to Clustering.

Slides pro klasifikaci jsou ze cviceni 2.

Klasifikace: dva priklady na doma za 5 bodů celkem:

Airline classification , Bank Telephone Survey (nabidka terminovaneho vkladu)

Data pro klasifikaci dostupna primo v Orange Datasets:

Employee Attrition (1= zamestnanec odesel)

Kickstarter (1= project got financed, pledge levels = kolik urovni podpory je tvurcem vyzvy nabidnuto - napr. 5 urovni by bylo kupr. 1$, 5$, 20$, 30$, 70$)

Cvičení 4. (12.3.)

vyučuje doc. Petr Houdek

Odkrývání nečestného a podvodného chování zaměstnanců, manažerů a klientů pomocích velkých dat.

Slides

Cvičení 5. (19.3.)

Clustering

Slides

Data pro clustering: Mall Customers, Automotive Clustering, Country Data (hierarchical clustering)

nainstalujte si modul educational a pouzijte widget interactive k-means!

Cvičení 6. (26.3.)

Předpovídání budoucnosti (regrese 1)

Slides

Cvičení 7. přeloženo (2.4. - statni svatek + nemoc)


Cvičení 7. + 8. (9.4., dvouhodinovka)

Regrese, confounders, přirozené experimenty (dokončení cvičení 6)

Slides

Data preprocessing, feature statistics, linearni regresni model (regrese 2)

Slides

Cvičení 9. (16.4.)

Regresssion cookbook (regrese 3)

Slides

Praktická aplikace - cena auta, náklady na zdravotní péči (regrese 4)

Slides

Cvičení 10. (23.4.)

Úvod do analýzy textu (natural language processing)

Slides

Cvičení 11. (30.4.)

Témata z textové analýzy: Analýza spokojenosti a predikce výpovědí. Analýza uchazečů na základě textových dat. Využití analýzy textu a analýzy sociálních sítí v organizaci pro strategii znalostního managementu. Využití textových dat v HR managementu. Lze z analýzy textů manažerů poznat, jakou mají osobnost a jak jejich osobnost ovlivňuje prosperitu firmy?

Slides

Cvičení 12. (7.5.)

vyučuje Štěpán Bahník, Ph.D.

Prezentování výsledků pro snadné pochopení, XAI (explainable artifical intelligence)

Slides

Cvičení 13. (14.5)

Přednáška data scientistů ze společnosti Workday

Prezentace seminárek nebude (nemá to cenu, každý byste měl jen 10min..)