Big Data v Managementu
Leden 2022

Kurz se koná v zimním semestru 21/22 blokově, ve tří dnech.

Prezenční výuka je v tyto dny, vždy v místnosti RB437 (exp. lab. kvuli zasuvkam, pozor zmena!):

Úterý 25.01.2022 9:00 - 16:00

Středa 26.01.2022 9:00 - 16:00

Čtvrtek 27.01.2022 9:00 - 16:00

Povinnosti do začátku výuky: přečíst knihu Everybody lies (Všichni lžou). Otázky z knihy budou v závěrečném testu.

Hodnocení: vzhledem k tomu, že z důvodu blokové výuky nelze realizovat klasickou seminární práci která běžně sestává ze 4 iterací po dvou týdnech, bude závěrečný test za 100 bodů. Zároveň ale máte možnost získat až 50 bonusových bodů za online learning data science na Data Camp. Body se samozřejmě sčítají max. do hranice 100 bodů.

Online Learning na Data Camp: pro získání 3 měsíců zdarma se zaregistrujte na GitHub.com - jedná se o platformu kde programátoři, data scientisté apod. sdílejí svůj kód, je to extrémně užitečný server. GitHub má nyní vlastní platformu pro studenty "GitHub Education", aktivujte si přes svůj VŠE účet. Na linku zde si pak sjeďte dolů a aktivujte si "Free 3-month individual subscription for students".

Co na Data Campu? Klikněte si vlevo v katalogu na Tracks a Career Tracks. V principu si můžete vybrat jakoukoliv specializaci. Nicméně pro úplné začátečníky doporučuji Data Analyst with Python a pokud chcete trochu pokročilejší materiál tak Data Scientist in Python (nebojte, není to tak obtížné). Též by Vám měl přijít link s invitem do Groups (ikona je vlevo nahoře) kde si můžeme sdílet svůj progress, pokud nepřišel, kontaktuje mě.

Za každý kurz, který v rámci specializace uděláte Vám přičtu 5 bodů, maximální počet bodů který Vám přičtu do tohoto kurzu je pak 50.

Závěrečný test: 100 bodů

  • 30 bodů: otevřené otázky z knihy Everybody Lies

  • 20 bodů: multiple-choice otázky na probranou látku

  • 40 bodů: vyřešení praktického data science úkolu v softwaru Orange, úkol dostanete dopředu a můžete si ho (a měli byste) přinést do testu (tj. toto je náhrada za seminární práci která by normálně byla při týdenní výuce)

  • 10 bodů: 2 otevřené otázky k DS úkolu z Orange

  • Termín závěrečného testu (120min): 3.2. 16:00; 7.2. 15:00. Přes MS Teams.

    • Pro studenty kteří např. potřebují v únoru absolvovat státní zkoušku je samozřejmě možnost napsat si test dříve (platí pro všechny studenty), na tomto dřívějším termínu se pak domluvíme přímo první den výuky (předpokládám že by to bylo pátek ten samý týden nebo v pondělí)


Program

========================

Den první, ÚTERÝ, 25.1. 9:00 - 16:00

========================

Manažerské rozhodování s využitím velkých dat a data science.

Slides

========================

Vizualizace dat. Klasifikace.

Slides

Data: Churn

========================

Clustering

Slides

Data pro clustering: Mall Customers, Automotive Clustering, Country Data (hierarchical clustering)

nainstalujte si modul educational a pouzijte widget interactive k-means!

========================

Den druhý, STŘEDA, 26.1. 9:00 - 16:00

========================

9:00: Petr Houdek: Jak odkrývat podvádění s pomocí Big Dat

=========================

Předpovídání budoucnosti (regrese 1)

Slides

========================

Regrese, confounders, přirozené experimenty

Slides

========================

Data preprocessing, feature statistics, linearni regresni model (regrese 2)

Slides

========================

Regresssion cookbook (regrese 3)

Slides

========================

Praktická aplikace - cena auta, náklady na zdravotní péči (regrese 4)

Slides

========================

Den třetí, ČTVRTEK, 27.1. 9:00 - 16:00

========================

Úvod do analýzy textu (natural language processing)

Slides

========================

Témata z textové analýzy: Analýza spokojenosti a predikce výpovědí. Analýza uchazečů na základě textových dat. Využití analýzy textu a analýzy sociálních sítí v organizaci pro strategii znalostního managementu. Využití textových dat v HR managementu. Lze z analýzy textů manažerů poznat, jakou mají osobnost a jak jejich osobnost ovlivňuje prosperitu firmy?

Slides

========================

13:00 Ondřej Čapek (Barclays): Testování softwaru, BD

========================

14:30 Štěpán Bahník: Prezentování výsledků pro správné pochopení, XAI (explainable artificial intelligence)