Témata pro ročníkové, bakalářské a diplomové práce

V rámci vědy a výzkumu mě zejména zajímá vývoj nových metod pro robustní inteligentní dialogové systémy. Dialogové systémy se využívají při komunikační mezi člověkem a strojem v situacích kdy standardní metody jako klávesnice, myš, nebo obrazovka není možné použít nebo je to nepohodlné. Typickými příklady jsou například jízda autem nebo ovládání počítačů a informačních systémů osobami s tělesným postižením. 

Dialogový systém se skládá z několika komponent: 
  • rozpoznávání řeči - převádí řeč pořízenou mikrofonem na text,
  • porozumění mluvených promluvám - interpretuje rozpoznaný text a převádí ho na tzv. dialogové aktu. Dialogový akt se skládá ze záměru promluvy (otázka, odpověď, potvrzení, atd.) a její sémantické informace.
  • řízení dialogu - na základě vstupu od uživatele a stavu dialogu řízení dialogu navrhne optimální pokračování v dialogu opět ve formě dialogového aktu
  • generování promluvy - převádí odpověď dialogového systémy vygenerovanou řízením dialogu do textu,
  • syntéza řeči - nakonec převede text na akustický signál, který se přehraje uživateli.
V současnosti se v rámci výzkumu zaměřuji na porozumění mluvených promluv (angl. spoken language understanding), řízení dialogu (angl. dialogue management), a generování promluv (angl. natural language generation) a vyvíjím je v rámci mého laboratorního dialogového systému. Komponenty rozpoznávání řeči (angl. automated speech recognition) a syntéza řeči (angl. test-speech synthesiz) využívám v podobě open-source implementací.

Podmínky a zadání prací

  • Práce by měli být vypracovány na Linuxu nebo být multiplatformní.
  • Preferuji využití následujících programovacích jazyků (v uvedeném pořadí): Python, C/C++, Java
  • Vyvinuté programy by se měli ovládat zejména z příkazové řádky. Grafické rozhraní až na výjimky je nežádoucí.

Zadání prací

Podívejte se do ISupřehled mých navrhovaných témat. Čtěte navrhované ročníkové práce, bakalářky, diplomky i projekty. V případě zájmu o některé z témat mě kontaktujte na emailu (jurcicek(at)ufal(dot)mff(dot)cuni(dot)cz) a vámi vybrané téma můžeme prodiskutovat a případně i podle potřeby upravit. Vypsaná témata lze  vypracovat jako ročníkové práce, bakalářky, nebo jako diplomky.

Můžete také přijít s vlastními tématy, ale musí se týkat následujících oblastí:
  • strojové učení, zpětnovazební učení, statistické metody, Bayesovské metody
  • multimodální ovládání počítačů
  • dialogové systémy
  • zpracování přirozeného jazyka
Příklady prací nebo užitečné informace:
Poznámky:
  • Typická práce musí být informaticky orientovaná, tj. obsahovat nějaký vyvinutý program spolu s vývojovou a uživatelskou dokumentací.
  • Abstrakt, úvod, a závěr jsou jedny z nejdůležitějších částí práce. Tyto části jsou první, které oponent vetšinou čte.

Zadaná témata

Implementace aproximativních bayesovských metod pro odhad stavu v dialogových systémech

Komponenta odhadu stavu dialogu předchází modul řízení a je součástí každého dialogového systému. Pro efektivní integraci informací poskytnutých modulem porozumění, je třeba co nejpřesněji modelovat pravděpodobnostní rozdělení definované nad všemi stavy dialogu. Jelikož těchto stavů může být velké množství, tak se zde většinou používají aproximativní techniky. Tato práce se bude zabývat variačními Bayesovskými technikami pro odhad stavu dialogu a parametrů modelu dialogu, Vytvořená komponenta bude ověřena v reálném dialogovém systému na úloze poskytování informaci o příletech a odletech letadel z letiště Praha nebo turistických informaci ve fiktivním městě.

Rozpoznávání řeči pomocí KALDI

Jednou z důležitých komponent v dialogovém systému je modul rozpoznávání mluvené řeči. Tématem této práce bude seznámení se a využití open-source implementace výkonného rozpoznávače a systému trénování ASR Kaldi (http://kaldi.sourceforge.net/). Součástí této práce bude připrava akustického modelu a o testování ve vyvíjeném dialogovém systému. 

Vypsaná témata

Simulace uživatele v statistických dialogových systémech

V ideálním případě by statistické dialogové systémy byly trénovány v interakci s reálnými uživateli tak, aby maximalizovali jejich spokojenost. Ale toto není možné, protože současné metody trénování dialogových systémů jsou velmi náročné na množství trénovacích dat, několik set tisících dialogů. Proto se k trénování využívá takzvaných simulátorů uživatele, které potřebné trénovací data dokážou vygenerovat. Tématem této práce bude vývoj trénovatelného simulátoru uživatele z korpusu dialogů člověk-počítač.  V rámci práce se vytvoří jednoduchý "baseline" simulátor postavený na pravidlech, jednoduchý statistický simulátor založený na bigramových statistických, a zejména model postavený na učení stochastické strategie řízení.  

Řízení mluvených dialogových systémů

Modul řízení dialogu je jádrem každého dialogového systému. Inteligentní a robustní interakce s uživatelem je nutností pro plynulou a úspěšnou komunikaci s uživatelem. Tématem této práce bude vývoj algoritmů pro řízení mluvených dialogových systémů. Prace bude řešit reprezentaci znalostí získaných během konverzace s uživatelem a její využití k řízení dialogu. Vybudovaný dialogový systém bude demonstrován na úloze poskytování informaci o příletech a odletech letadel z letiště Praha. 

Vývoj cloud aplikace pro rozpoznávání řeči

V současnosti rozpoznávání řeči dosáhlo již kvality, která umožňuje její praktické využití. Problém současných řešení je, že jejich nasazení je složité a komplikované. Proto pro jejich využití se nyní stále více uplatňují cloud řešení, kdy vzdálená služba dostupná přes internet provede rozpoznávání řeči bez nutnosti přípravy a instalace samotného rozpoznávače. Tématem práce bude vývoj, otestován, a nasazení aplikace, která umožní uživatelům buď přes webové rozhraní nebo pomoci API (např. REST) nahrát audio signál promluvy a vrátí rozpoznaný text. Pro vývoj této aplikace by se využil rozpoznávač řeč, který je vyvíjen v rámci interního projektu. Dále by tato aplikace umožňovala kontrolu, a přepis šatně rozpoznaných vět.

Vývoj diskriminativních metod pro řízení dialogových systémů

Typicky se statistické dialogové systémy modelují pomocí částečně pozorovatelného Markovského rozhodovacího procesu kde pozorování systému je podmíněno stavem dialogu, který je skrytá náhodná proměnná a je předmětem odhadu. Avšak v mnoha úlohách zpracování přirozeného jazyka se ukazuje, že přímé modelování pravděpodobnosti skryté náhodné proměnné je účinnější. Tato práce see bude zabývat vývojem diskriminativních metod pro odhad stavu v dialogových systémech. V rámci práce se navržené metody odhadu stavu ověří buď na simulovaných datech nebo na datech pořízených metodou Wizard of Oz. 

Anotace lingvistických dat pomocí crowdsourcing metod

Základním předpoklade úspěšného vývoje statistických metod v oblasti z pracování přirozené řeči je pořízení dostatečného množství anotovaných dat pro trénování příslušných matematických modelů. Toto pořízení je většinou využívá malého počtu jazykových expertů a je velmi časově náročné a nákladné. Alternativou je využití velkého počtu nezkušených anotátorů (angl. crowd) a vhodnou kontrolou anotací dosáhnout kvalitních dat. Příkladem tzv. crowdsourcing platformy je Amazon Mechanical Turk a CrowedFlower. Tyto službu z umožnují využití jejich velké uživatelské báze k anotacím lingvistických dat. Tématem této práce bude vyvinutí anotačním modulů pro jednu ze zmíněných služeb pro účely transkripce audio nahrávek, anotace sémantických dat, subjektivní hodnocení úspěšného ukončení dialogu. Jelikož se bude jednat o webové aplikace tak použité technologie budou WWW, HTML, AJAX, JavaScript, atd.

Odhad stavu uživatele v statistických dialogových systémech

Komponenta odhadu stavu dialogu je předchází modul řízení a je součástí každého dialogového systému. Pro efektivní integraci informací poskytnutých modulem porozumění, je třeba co nejpřesněji modelovat pravděpodobnostní rozdělení definované nad všemi stavy dialogu. Jelikož těchto stavů může být ohromné množství, tak se zde většinou používají aproximativní techniky. Tato práce by se zabývala technikou efektivní enumerace a prořezávaní dialogových stavů. Tato práce může být rozšířena o srovnání s metodu particle filters což je jedna z dalších podobných aproximativních Bayesovských metod. Vytvořená komponenta bude ověřena v reálném dialogovém systému na úloze poskytování informaci o příletech a odletech letadel z letiště Praha.

Sémantická analýza promluv v dialogových systémech

Modul porozumění přirozené řeči převádí rozpoznanou řeč na dialogové akty. Dialogové akty reprezentují záměr promluvy (otázka, potvrzení, oprava, atd.) a její sémantické informace. Úspěšná detekce jak záměru tak i sémantické informace zásadně ovlivňuje úspěšnost dialogového systémů. Tématem této práce bude vývoj metod pro sémantickou analýzu mluvených promluv v dialogových systémech. V rámci práce se bude se provede vyhodnocení navržené metody a srovnání s standardními algoritmy. 

Generování promluv v dialogových systémech

V hlasovém dialogovém systému, modul generování promluv převádí dialogový akt produkovaný manažerem dialogu do textové podoby. Typickým přístupem k problému je manuální vytvoření řady šablon všech možných odpovědí. Ačkoli tento přístup je efektivní pro jednoduché systémy, tak pro složitější a komplexní systémy se stává nepraktický. Zejména jestli se požaduje, aby výstupné promluvy měli různou podobu v závislosti na dalších faktorech jako potřeba aby vystup by stručný vs. upovídaný, sebevědomý vs. nejistý, atd. Tématem této práce bude vývoj metod pro generování promluv v dialogových systémech, které umožní generovaní expresivních promluv. Úspěšné zpracování tohoto tématu spočívá v nastudování problematiky, aplikace vybraných metod a jejich vyhodnocení.

Vývoj open source hlasu pro automatickou syntézu řeči v češtině

Jednou z důležitých komponent v dialogovém systému je modul automatické syntézy řeč. Tématem této práce bude seznámení se a využití open-source implementace symtézy řeči v rámci sytémů Festival (http://www.cstr.ed.ac.uk/projects/festival/) nebo HTS (http://hts.sp.nitech.ac.jp/). Součástí této práce bude připrava příprava dat pro trénovaní nového hlasu v češtině, a jeho srovnéní s jinými dostupnýmy TTS systémy.

Vývoj metody klasifikace neřečových událostí

V současnosti metody rozpoznávání řeči dosahují dobrých výsledků v ideálních podmínkách. Pokud se však posuneme do reálného nasazení, potom přesnost rozpoznávání klesá z důvodu různých akustických neřečových událostí, se kterými si standartní systémy neví rady. Jednou možností je implementovat speciální klasifikátory pro neřečových událostí a vyžít je k zvýšení robustností rozpoznávače. Tématem práce byde vývoj a otestování různých metod pro klasifikaci neřečových událostí. Mozné metody jsou Support Vector Machines, Neural Network, Mixture models, GMM, a pod. V případě někerých modelů se může uvažovat o implementaci algoritmů na GPU a tím zrychlit samotné metody.

Lineární metody rozpoznávání řeči a klasifikace řečových a neřečových událostí

Tématem práce bude vývoj a testování metod rozpoznávání řeči a klasifikace řečových a neřečových událostí, které povedou na jednoduché modely maticových operací, např. Support Vector Machines, Neural Networks, logistic regression. Díky obrovské výpočetní schopnosti modelrních grafických karet, se ukazuje že tyto jednoduché modelu mohou dosahovat výborných výsledků. Součástí práce bude implementace vybraných modelů na GPU a zhodnocení jak kvality klasifikace tak i samotné výpočetní náročnosti.

Řešené příklady Bayesovských metod inference v pravděpodobnostních modelech

Bayesovské metody zahrnují takové statistické metody, které systematicky pracují s neurčitostí v datech. Tyto metody strojového učení umožňují najít v datech závislosti a vazby, které nejsou zjevné a bez člověkem běžně neodhalitelné.  Tématem této práce bude odvození a implementace algoritmů Bayesovské inference pro několik základních pravděpodobnostních modelů jako je normální rozdělení, skrytý Markovův model (angl. HMM), konečná Gausovská směs (angl. GMM). Použité metody Bajesovské inference budou zahrnovat tzv. Monte-Carlo metody nebo Variational inference. Tato práce je zejména vhodná pro studenty se zájmem o matematiku a její praktické užití v oblasti strojového učení. Součástí práce bude také vhodná vizualizace postupu učení a zobrazení výhod proti klasickým metodám jako je například metoda maximální věrohodnosti. Úspěšné zpracování tohoto tématu spočívá v nastudování problematiky, aplikace vybraných metod a jejich vyhodnocení.

Mutimodální ovládání mobilních aplikací 

Ovládání aplikací na mobilních zařízeních jako jsou chytré telefony (angů. smartphones) je vetšinou značně nepohodlné z důvodů malé ovládací plochy. Nadruhou stranu čistě hlasové ovládání není v současnosti velmi spolehlivé. Ideálním řešením by byla vhodná integrace jak standardního: ovládání obrazovka + prsty a ovládání řečí jako využití rozpoznávání řeči a syntézy řeči. Tématem práce bude vývoj mutimodálního rozhraní pro chytré telefony (Android anebo iPhone) pro úlohu poskytování informaci o příletech a odletech letadel z letiště Praha. Takové rozhraní by mělo umožnit jak efektivní využití dotykové obrazovky tak i hlasu pro kontrolu aplikace.

Optimální řízení skladby portfolia cenných papírů

Portfolio management je disciplína, při které se zkušení obchodníci doporučují nákup nebo prodej cenných papírů jakou jsou akcie nebo dluhopisy za účelem maximalizace výnosu z těchto dluhopisů. Avšak v současnosti se už velká část obchodů na burzách provádí přes automatizované obchodní systémy kdy obchodníkem není člověk ale stroj. Tématem této práce bude vytvoření a návrh vhodných metod pro automatického obchodníka trénovaného pomocí metod strojového učení, zejména zpětnovazebního učení. Úspěšné zpracování tohoto tématu spočívá v nastudování problematiky, aplikace vybraných metod a jejich vyhodnocení.

Literatura

Psutka, J. and Müller, L. and Matoušek, J. and Radová, V. : Mluvíme s počítačem česky. p. 752, Academia, Prague, 2006.
C. M. Bishop, Pattern Recognition and Machine Learning, vol. 4, no. 4. Springer, 2006, p. 738.
F. Jurcicek, B. Thomson, S. Young (2011) "Reinforcement learning for parameter estimation in statistical spoken dialogue systems". Computer Speech and Language
B. Thomson and S.Young (2010). "Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems." Computer Speech and Language.
S. Young, M. Gasic, S. Keizer, F. Mairesse, J. Schatzmann, B. Thomson and K. Yu (2010). "The Hidden Information State Model: a practical framework for POMDP-based spoken dialogue management." Computer Speech and Language.
B. Thomson (2009). "Statistical methods for spoken dialogue management." Ph.D. Thesis. University of Cambridge.