Агентни Системи
Матица за околната среда на лабиринта, като "1" означава - има стена, "0" - няма стена:
{0, 0, 1, 1, 1, 0, 1, 0, 0, 1},
{0, 0, 1, 0, 0, 0, 0, 0, 1, 1},
{0, 0, 0, 0, 0, 1, 0, 0, 0, 0},
{0, 1, 0, 0, 0, 1, 0, 1, 1, 0},
{0, 0, 0, 1, 0, 1, 0, 0, 0, 0},
{1, 0, 0, 0, 0, 0, 0, 1, 0, 1},
{1, 1, 0, 1, 0, 0, 0, 0, 0, 0},
{0, 0, 0, 0, 0, 1, 0, 1, 0, 0},
{1, 0, 1, 0, 0, 1, 0, 0, 0, 1},
{0, 0, 1, 1, 0, 0, 0, 0, 1, 1}
Начално състояние: s0 = 90 (x = 0, y = 9);
Крайно състояние: st = 39 (x = 9, y = 3);
Целите на курса са студентите да придобият основни познания в областта на агентните системи и подсиленото самообучение. Студентите ще бъдат запознати както с едноагентни, така и с мулти-агентни системи. Разглеждат се основни принципи в областта на подсиленото самоубочение (Reinforcement Learning), Процес за решенията на Марков (Markov decision process, MDP), въведение в Теория на игрите, Теория на Джон Наш, Парето-оптималност. При мулти-агентните системи се разлеждат и различни механизми за комуникация между агентите. Разясняват се основни понятия като това какво е агент, какво е рационално мислене, оптималност при избора на действията. Изискванията към желаещите да се запишат на тази избираема дисциплина са: основни познания по програмиране на какъвто и да е език от високо ниво.
ПРЕДВАРИТЕЛНИ ИЗИСКВАНИЯ: Курсът завършва с практически проект и изготвяне на доклад. За проекта студентите ще трябва да имплементират алгоритъм, който да се самообучи да намира пътя си в лабиринт. Позволява се работата в групи от по двама човека. Крайният проект може да бъде разработен на произволен програмен език, без ограничения. Дисциплината е предназначена за студентите на ФМИ от всички специалности и курсове, но се препоръчва на студентите от специалност Информатика след 3-ти курс.
КОМПЕТЕНТНОСТИ: Успешно завършилите обучението по тази учебна дисциплина:
1. Ще знаят:
- какво е агент, каква е разликата между изкувствен и естествен агент;
- какво е агентна система;
- методите за проектиране и имплементация на агентни системи;
- обучаващи се алгоритми на принципа проба-грешка, Q-обучение;
- няко други основни алгоритми от подсиленото обучение – Монте-Карло, Динамично програмиране, временни разлики
2. Ще могат:
- да прилагат научените знания и умения на практика;
- да решават кой подход – едноагентният или мултиагентният е по-подходящ за решаването на даден проблем и защо;
- да намират начини за оптимизация и подобрение на имплементираната агентна система.
- да изготвят академичен доклад за направени имплементация и експерименти.
ТЕХНИЧЕСКО ОСИГУРЯВАНЕ НА ОБУЧЕНИЕТО: Всички лекции се представят под формата на мултимедийни презентации във видеозала, оборудвана с мултимедийна техника. Практическото обучение се провежда в модерни компютърни лаборатории с осигурен (вкл. и безжичен) Интернет-достъп. За самостоятелна работа студентите могат да ползват и компютърна зала със свободен достъп. Студентите имат възможност да получат консултации като се срещат лично с преподавателите в определени часове на всяка седмица, или виртуално – по всяко време в рамките на 24 часа, използвайки университетската компютърна мрежа. Актуална информация за курса, както и лекциите ще бъдат качвани редовно на уеб-сайта на курса. За практическата част е осигурена софтуерна платформа, която студентите могат по желание да ползват за реализация на проекта.
ТЕМАТИЧНО СЪДЪРЖАНИЕ НА УЧЕБНАТА ДИСЦИПЛИНА:
А) Лекции
Въведение в Изкувствения интелект. Какво е агент? Характеристики на едно- и мултиагента система. Примери. Преглед на темите в курса.
Рационални агенти. Състояния на средата. Видимост. Свойството на Марков. Цели. Функции на прехода и Награди.
История и възникване на едноагентните системи. Динамично програмиране. Монте-карло алгоритми. Уравнения на темпоралните разлики.
Въведение в Теорията на игрите. Стратегически игри. Дилема на затворниците. Уравнение на Наш. Контрол - централизиран (ендоагентни системи) и децентрализиран (МАС). Предимства и недостатъци на децентрализирания контрол. Механизми за контрол.
Въведение в Мулти-агентните системи. Координация. Координационни механизми. Комуникация – обособена и необособена.
Обучение. Q-обучение. Итерация на Стойности. Уравнения на Белман.
Задаване на проекта. Начало на писане на проекта.
Работа по проекта. Отстраняване на възникнали проблеми.
Довършване и тестване на проекта. Изготвяне на доклад (рапорт) за описание дейностите по проекта.
Представяне и защита на проекта. Крайна оценка.
УЧЕБНИ ДЕЙНОСТИ, МЕТОДИ И ФОРМИ НА ПРЕПОДАВАНЕ:
· Лекции;
· Семинарни упражнения за проектиране и програмиране на агентни системи под ръководството на преподавател;
ОПИСАНИЕ НА ИЗВЪНАУДИТОРНАТА ЗАЕТОСТ:
· Студентите се подготвят самостоятелно изготвяне на академичен доклад относно реализацията на проекта. (5 часа)
· Студентите се подготвят самостоятелно за провеждане на крайния проект. (30 часа)
· Студентите разширяват знанията си чрез ползване на предложената литература и интернет сайтове. (25 часа)
НАЧИН НА ПРОВЕЖДАНЕ НА ИЗПИТА И ОТЧИТАНЕ НА ТЕКУЩОТО ОЦЕНЯВАНЕ:
· По време на триместъра студентите получават задание, което представлява 70% от крайната оценка..
· Последните 3 занятия се провежда краен изпит с тестване и проверка на заданието. Оценката се допълва (30 %) от изготвянето на академичен доклад за извършената работа по проекта.
· Неполучилите положителна оценка се явяват на поправителен изпит, който се провежда при същите правила.
· Ако и на поправката студентът не успее да издържи изпита, се явява на ликвидационен изпит през септември. Тогава се зачита само резултата от самия ликвидационен изпит, без да се взема под внимание резултата от текущото оценяване.
ЛИТЕРАТУРА:
Reinforcement Learning:An Introduction, Richard S. Sutton and Andrew G. Barto, MIT Press, Cambridge, MA, 1998
Artificial Intelligence: A Modern Approach (Russell, Norvig, 2003)
Reinforcement Learning in Robot Path Optimization, Qian Zhang et. al, JOURNAL OF SOFTWARE, 2012
An Improved Q-learning Algorithm for Path-Planning of aMobile Robot, Pradipta K Das, International Journal of Computer Applications, 2012