Лекции ФИТ НГУ

ТЕМЫ ЛЕКЦИЙ

Лекция 1. Основные этапы построения систем автоматической обработки текстов.

Лекция 2. Методы задания синтаксической структуры предложений.

Лекция 3. Синтаксические анализаторы. Морфологический и синтаксический анализ в поисковых системах.

Лекция 4. Порождающие грамматики. Распознающие грамматики. Регулярные выражения и конечные автоматы.

Лекция 5. Методы теоретического исследования семантики текстов.

Лекция 6. Представление знаний для компьютерной обработки. Методы измерения семантического расстояния.

Лекция 7. Методы классификации и кластеризации текстов.

Лекция 8. Методы анализа данных из социальных сетей.

Лекция 9. Анализ тональности и тематическая индексация текстов.

Лекция 10. Методы определения авторства текстов.

Лекция 11. Системы извлечения информации.


ЭЛЕКТРОННЫЕ КУРСЫ ПО ОБРАБОТКЕ ТЕКСТОВ

Natural Language Processing with Deep Learning (Stanford) http://web.stanford.edu/class/cs224n/

Анализ текстовых данных (ВШЭ) https://openedu.ru/course/hse/TEXT/#


РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА

  1. Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. – 2008. – 1024 p.

  2. Норвиг П., Рассел С. Искусственный интеллект : современный подход. – М.: «Вильямс», 2007. – С. 1424.

  3. Фридл Дж. Регулярные выражения. – СПб.: Питер, 2003. – 464 с.

  4. Мельчук И.А. Опыт теории лингвистических моделей «Смысл-Текст» // М.: Школа «Языки русской культуры», 1999. – 346 с.

  5. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных системах. – М.: Наука, 1989. – 192 с.

  6. Болховитянов А.В., Чеповский А.М. Алгоритмы морфологического анализа компьютерной лингвистики: Учебное пособие. – М.: МГУП имени Ивана Федорова, 2013. – 198с.

  7. Батура Т.В. Математическая лингвистика и автоматическая обработка текстов на естественном языке: учеб. пособие / Новосибирский государственный университет. Новосибирск: РИЦ НГУ, 2016. ISBN 978-5-4437-0548-4. 166 с.

  8. Дюк В., Самойленко А. Data Mining: Учебный курс. – СПб: Питер, 2001. – 368 с.

  9. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. – СПб.: СПбГУ, 2005. – 48 с.

  10. Маркус С. Теоретико-множественные модели языков. – М.: Наука, 1970. – 332 с.

  11. Батура Т.В., Мурзин Ф.А. Машинно-ориентированные логические методы отображения семантики текста на естественном языке // Моногр. / Институт систем информатики им. А.П. Ершова СО РАН. – Новосибирск: Изд. НГТУ, 2008. – 248 с.

  12. Шевелёв О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие. – Томск: ТМЛ-Пресс, 2007. – 144 с.

  13. Hanneman R., Riddle M. Introduction to social network methods. Riverside, CA: University of California, Riverside, 2005. [Electronic resource]. Published in digital format.

  14. Charu C. Aggarwal Social network data analytics. – 2011. – 520 p.

  15. Российский семинар по оценке методов информационного поиска (РОМИП) http://romip.ru/

  16. Международная конференция по компьютерной лингвистике "Диалог" http://www.dialog-21.ru/

  17. Ruscorpora.ru – Национальный корпус русского языка https://ruscorpora.ru/new/

  18. AOT.ru – Проект АОТ (Автоматическая Обработка Текста) http://aot.ru/

  19. Link Grammar Parser http://www.link.cs.cmu.edu/link/ (http://www.abisource.com/projects/link-grammar/)

  20. NLPub Каталог ресурсов и инструментов для обработки текстов https://nlpub.ru/

  21. Каталог продуктов по извлечению информации http://pullenti.ru/CompetitorPage.aspx

  22. Каталог лингвистических программ и ресурсов http://www.rvb.ru/soft/catalogue/catalogue.html

  23. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python http://www.nltk.org/book/

  24. The Stanford Natural Language Processing Group https://nlp.stanford.edu/

  25. ACL Anthology — A Digital Archive of Research Papers in Computational Linguistics https://www.aclweb.org/anthology/


ПЕРЕЧЕНЬ ТЕМ ДЛЯ РЕФЕРАТОВ И ДОКЛАДОВ

  1. Проблемы автоматизации синтаксического анализа предложений.

  2. Проблемы обнаружения кореференции и анафоры в текстах на ЕЯ.

  3. Нейрокомпьютерный подход и распознавание образов.

  4. Применение алгоритмов и методов обработки текстовой информации в технике.

  5. Применение алгоритмов и методов обработки текстовой информации в медицине.

  6. Применение алгоритмов и методов обработки текстовой информации в системах безопасности.

  7. Возможности программных приложений для анализа социальных сетей.

  8. Проблемы автоматической идентификации авторов текстов.

  9. Приложение методов обработки изображений и сигналов в геофизике.

  10. Приложение методов обработки изображений и сигналов в области создания новых материалов.

  11. Приложение методов обработки изображений и сигналов в системах безопасности.

  12. Приложение методов обработки изображений и сигналов в физиологии, медицине, генетике.

  13. Эффективность параллельных систем для поиска и отслеживания множества подвижных объектов.

  14. Преимущества и недостатки организации памяти с параллельным доступом для обработки изображений.

  15. Сравнение алгоритмов обнаружения и исправления ошибок и опечаток.

  16. Сравнение алгоритмов морфологического анализа.

  17. Методы автоматического построения онтологий.


ЗАДАНИЯ

Проект подразумевает реализацию одного или нескольких алгоритмов.

  1. Алгоритмы морфологического анализа (для русского/английского/казахского или др. языков).

  2. Алгоритмы синтаксического анализа (для русского/английского/казахского или др. языков).

  3. Алгоритмы обнаружения опечаток/ошибок в текстах (для русского/английского/казахского или др. языков).

  4. Алгоритмы нахождения ключевых слов и/или словосочетаний в тексте документа (например, tf*idf).

  5. Алгоритмы классификации или кластеризации:

a) определение тематики / автора документов;

б) определение эмоциональной окраски сообщений в соц. сетях или на форумах;

в) определение языка текста;

г) распознавание цифр и символов алфавита (для русского/английского/казахского или др. языков), нарисованных мышью;

д) можно экспериментировать с различными мерами семантической близости (сравненить работу алгоритма с разными мерами);

е) визуализация алгоритмов классификации.

6. Эксперимент по сравнению разнообразия лексики:

- на корпусе твитов;

- на новостных текстах (можно рассмотреть различные тематики);

- в художественных произведениях (классических и современных).

7. Алгоритмы автоматического построения онтологий.

8. Приветствуются любые новые идеи и их реализация.


ЛЕКЦИИ