Агентни Системи

Матица за околната среда на лабиринта, като "1" означава - има стена, "0" - няма стена:

{0, 0, 1, 1, 1, 0, 1, 0, 0, 1},

{0, 0, 1, 0, 0, 0, 0, 0, 1, 1},

{0, 0, 0, 0, 0, 1, 0, 0, 0, 0},

{0, 1, 0, 0, 0, 1, 0, 1, 1, 0},

{0, 0, 0, 1, 0, 1, 0, 0, 0, 0},

{1, 0, 0, 0, 0, 0, 0, 1, 0, 1},

{1, 1, 0, 1, 0, 0, 0, 0, 0, 0},

{0, 0, 0, 0, 0, 1, 0, 1, 0, 0},

{1, 0, 1, 0, 0, 1, 0, 0, 0, 1},

{0, 0, 1, 1, 0, 0, 0, 0, 1, 1}

Начално състояние: s0 = 90 (x = 0, y = 9);

Крайно състояние: st = 39 (x = 9, y = 3);

Целите на курса са студентите да придобият основни познания в областта на агентните системи и подсиленото самообучение. Студентите ще бъдат запознати както с едноагентни, така и с мулти-агентни системи. Разглеждат се основни принципи в областта на подсиленото самоубочение (Reinforcement Learning), Процес за решенията на Марков (Markov decision process, MDP), въведение в Теория на игрите, Теория на Джон Наш, Парето-оптималност. При мулти-агентните системи се разлеждат и различни механизми за комуникация между агентите. Разясняват се основни понятия като това какво е агент, какво е рационално мислене, оптималност при избора на действията. Изискванията към желаещите да се запишат на тази избираема дисциплина са: основни познания по програмиране на какъвто и да е език от високо ниво.

ПРЕДВАРИТЕЛНИ ИЗИСКВАНИЯ: Курсът завършва с практически проект и изготвяне на доклад. За проекта студентите ще трябва да имплементират алгоритъм, който да се самообучи да намира пътя си в лабиринт. Позволява се работата в групи от по двама човека. Крайният проект може да бъде разработен на произволен програмен език, без ограничения. Дисциплината е предназначена за студентите на ФМИ от всички специалности и курсове, но се препоръчва на студентите от специалност Информатика след 3-ти курс.

КОМПЕТЕНТНОСТИ: Успешно завършилите обучението по тази учебна дисциплина:

1. Ще знаят:

- какво е агент, каква е разликата между изкувствен и естествен агент;

- какво е агентна система;

- методите за проектиране и имплементация на агентни системи;

- обучаващи се алгоритми на принципа проба-грешка, Q-обучение;

- няко други основни алгоритми от подсиленото обучение – Монте-Карло, Динамично програмиране, временни разлики

2. Ще могат:

- да прилагат научените знания и умения на практика;

- да решават кой подход – едноагентният или мултиагентният е по-подходящ за решаването на даден проблем и защо;

- да намират начини за оптимизация и подобрение на имплементираната агентна система.

- да изготвят академичен доклад за направени имплементация и експерименти.

ТЕХНИЧЕСКО ОСИГУРЯВАНЕ НА ОБУЧЕНИЕТО: Всички лекции се представят под формата на мултимедийни презентации във видеозала, оборудвана с мултимедийна техника. Практическото обучение се провежда в модерни компютърни лаборатории с осигурен (вкл. и безжичен) Интернет-достъп. За самостоятелна работа студентите могат да ползват и компютърна зала със свободен достъп. Студентите имат възможност да получат консултации като се срещат лично с преподавателите в определени часове на всяка седмица, или виртуално – по всяко време в рамките на 24 часа, използвайки университетската компютърна мрежа. Актуална информация за курса, както и лекциите ще бъдат качвани редовно на уеб-сайта на курса. За практическата част е осигурена софтуерна платформа, която студентите могат по желание да ползват за реализация на проекта.

ТЕМАТИЧНО СЪДЪРЖАНИЕ НА УЧЕБНАТА ДИСЦИПЛИНА:

А) Лекции

  1. Въведение в Изкувствения интелект. Какво е агент? Характеристики на едно- и мултиагента система. Примери. Преглед на темите в курса.

  2. Рационални агенти. Състояния на средата. Видимост. Свойството на Марков. Цели. Функции на прехода и Награди.

  3. История и възникване на едноагентните системи. Динамично програмиране. Монте-карло алгоритми. Уравнения на темпоралните разлики.

  4. Въведение в Теорията на игрите. Стратегически игри. Дилема на затворниците. Уравнение на Наш. Контрол - централизиран (ендоагентни системи) и децентрализиран (МАС). Предимства и недостатъци на децентрализирания контрол. Механизми за контрол.

  5. Въведение в Мулти-агентните системи. Координация. Координационни механизми. Комуникация – обособена и необособена.

  6. Обучение. Q-обучение. Итерация на Стойности. Уравнения на Белман.

  7. Задаване на проекта. Начало на писане на проекта.

  8. Работа по проекта. Отстраняване на възникнали проблеми.

  9. Довършване и тестване на проекта. Изготвяне на доклад (рапорт) за описание дейностите по проекта.

  10. Представяне и защита на проекта. Крайна оценка.

УЧЕБНИ ДЕЙНОСТИ, МЕТОДИ И ФОРМИ НА ПРЕПОДАВАНЕ:

· Лекции;

· Семинарни упражнения за проектиране и програмиране на агентни системи под ръководството на преподавател;

ОПИСАНИЕ НА ИЗВЪНАУДИТОРНАТА ЗАЕТОСТ:

· Студентите се подготвят самостоятелно изготвяне на академичен доклад относно реализацията на проекта. (5 часа)

· Студентите се подготвят самостоятелно за провеждане на крайния проект. (30 часа)

· Студентите разширяват знанията си чрез ползване на предложената литература и интернет сайтове. (25 часа)

НАЧИН НА ПРОВЕЖДАНЕ НА ИЗПИТА И ОТЧИТАНЕ НА ТЕКУЩОТО ОЦЕНЯВАНЕ:

· По време на триместъра студентите получават задание, което представлява 70% от крайната оценка..

· Последните 3 занятия се провежда краен изпит с тестване и проверка на заданието. Оценката се допълва (30 %) от изготвянето на академичен доклад за извършената работа по проекта.

· Неполучилите положителна оценка се явяват на поправителен изпит, който се провежда при същите правила.

· Ако и на поправката студентът не успее да издържи изпита, се явява на лик­ви­да­ци­онен изпит през септември. Тогава се зачита само резултата от самия ликвида­ционен из­пит, без да се взема под внимание резултата от текущото оценяване.

ЛИТЕРАТУРА:

  1. Reinforcement Learning:An Introduction, Richard S. Sutton and Andrew G. Barto, MIT Press, Cambridge, MA, 1998

  2. Artificial Intelligence: A Modern Approach (Russell, Norvig, 2003)

  3. Reinforcement Learning in Robot Path Optimization, Qian Zhang et. al, JOURNAL OF SOFTWARE, 2012

  4. http://www.ros.org/presentations/2010-09-Mrinal.pdf

  5. An Improved Q-learning Algorithm for Path-Planning of aMobile Robot, Pradipta K Das, International Journal of Computer Applications, 2012