Лекции ФИТ НГУ
ТЕМЫ ЛЕКЦИЙ
Лекция 1. Основные этапы построения систем автоматической обработки текстов.
Лекция 2. Методы задания синтаксической структуры предложений.
Лекция 3. Синтаксические анализаторы. Морфологический и синтаксический анализ в поисковых системах.
Лекция 4. Порождающие грамматики. Распознающие грамматики. Регулярные выражения и конечные автоматы.
Лекция 5. Методы теоретического исследования семантики текстов.
Лекция 6. Представление знаний для компьютерной обработки. Методы измерения семантического расстояния.
Лекция 7. Методы классификации и кластеризации текстов.
Лекция 8. Методы анализа данных из социальных сетей.
Лекция 9. Анализ тональности и тематическая индексация текстов.
Лекция 10. Методы определения авторства текстов.
Лекция 11. Системы извлечения информации.
ЭЛЕКТРОННЫЕ КУРСЫ ПО ОБРАБОТКЕ ТЕКСТОВ
Natural Language Processing with Deep Learning (Stanford) http://web.stanford.edu/class/cs224n/
Анализ текстовых данных (ВШЭ) https://openedu.ru/course/hse/TEXT/#
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. – 2008. – 1024 p.
Норвиг П., Рассел С. Искусственный интеллект : современный подход. – М.: «Вильямс», 2007. – С. 1424.
Фридл Дж. Регулярные выражения. – СПб.: Питер, 2003. – 464 с.
Мельчук И.А. Опыт теории лингвистических моделей «Смысл-Текст» // М.: Школа «Языки русской культуры», 1999. – 346 с.
Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных системах. – М.: Наука, 1989. – 192 с.
Болховитянов А.В., Чеповский А.М. Алгоритмы морфологического анализа компьютерной лингвистики: Учебное пособие. – М.: МГУП имени Ивана Федорова, 2013. – 198с.
Батура Т.В. Математическая лингвистика и автоматическая обработка текстов на естественном языке: учеб. пособие / Новосибирский государственный университет. Новосибирск: РИЦ НГУ, 2016. ISBN 978-5-4437-0548-4. 166 с.
Дюк В., Самойленко А. Data Mining: Учебный курс. – СПб: Питер, 2001. – 368 с.
Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. – СПб.: СПбГУ, 2005. – 48 с.
Маркус С. Теоретико-множественные модели языков. – М.: Наука, 1970. – 332 с.
Батура Т.В., Мурзин Ф.А. Машинно-ориентированные логические методы отображения семантики текста на естественном языке // Моногр. / Институт систем информатики им. А.П. Ершова СО РАН. – Новосибирск: Изд. НГТУ, 2008. – 248 с.
Шевелёв О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие. – Томск: ТМЛ-Пресс, 2007. – 144 с.
Hanneman R., Riddle M. Introduction to social network methods. Riverside, CA: University of California, Riverside, 2005. [Electronic resource]. Published in digital format.
Charu C. Aggarwal Social network data analytics. – 2011. – 520 p.
Российский семинар по оценке методов информационного поиска (РОМИП) http://romip.ru/
Международная конференция по компьютерной лингвистике "Диалог" http://www.dialog-21.ru/
Ruscorpora.ru – Национальный корпус русского языка https://ruscorpora.ru/new/
AOT.ru – Проект АОТ (Автоматическая Обработка Текста) http://aot.ru/
Link Grammar Parser http://www.link.cs.cmu.edu/link/ (http://www.abisource.com/projects/link-grammar/)
NLPub Каталог ресурсов и инструментов для обработки текстов https://nlpub.ru/
Каталог продуктов по извлечению информации http://pullenti.ru/CompetitorPage.aspx
Каталог лингвистических программ и ресурсов http://www.rvb.ru/soft/catalogue/catalogue.html
Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python http://www.nltk.org/book/
The Stanford Natural Language Processing Group https://nlp.stanford.edu/
ACL Anthology — A Digital Archive of Research Papers in Computational Linguistics https://www.aclweb.org/anthology/
ПЕРЕЧЕНЬ ТЕМ ДЛЯ РЕФЕРАТОВ И ДОКЛАДОВ
Проблемы автоматизации синтаксического анализа предложений.
Проблемы обнаружения кореференции и анафоры в текстах на ЕЯ.
Нейрокомпьютерный подход и распознавание образов.
Применение алгоритмов и методов обработки текстовой информации в технике.
Применение алгоритмов и методов обработки текстовой информации в медицине.
Применение алгоритмов и методов обработки текстовой информации в системах безопасности.
Возможности программных приложений для анализа социальных сетей.
Проблемы автоматической идентификации авторов текстов.
Приложение методов обработки изображений и сигналов в геофизике.
Приложение методов обработки изображений и сигналов в области создания новых материалов.
Приложение методов обработки изображений и сигналов в системах безопасности.
Приложение методов обработки изображений и сигналов в физиологии, медицине, генетике.
Эффективность параллельных систем для поиска и отслеживания множества подвижных объектов.
Преимущества и недостатки организации памяти с параллельным доступом для обработки изображений.
Сравнение алгоритмов обнаружения и исправления ошибок и опечаток.
Сравнение алгоритмов морфологического анализа.
Методы автоматического построения онтологий.
ЗАДАНИЯ
Проект подразумевает реализацию одного или нескольких алгоритмов.
Алгоритмы морфологического анализа (для русского/английского/казахского или др. языков).
Алгоритмы синтаксического анализа (для русского/английского/казахского или др. языков).
Алгоритмы обнаружения опечаток/ошибок в текстах (для русского/английского/казахского или др. языков).
Алгоритмы нахождения ключевых слов и/или словосочетаний в тексте документа (например, tf*idf).
Алгоритмы классификации или кластеризации:
a) определение тематики / автора документов;
б) определение эмоциональной окраски сообщений в соц. сетях или на форумах;
в) определение языка текста;
г) распознавание цифр и символов алфавита (для русского/английского/казахского или др. языков), нарисованных мышью;
д) можно экспериментировать с различными мерами семантической близости (сравненить работу алгоритма с разными мерами);
е) визуализация алгоритмов классификации.
6. Эксперимент по сравнению разнообразия лексики:
- на корпусе твитов;
- на новостных текстах (можно рассмотреть различные тематики);
- в художественных произведениях (классических и современных).
7. Алгоритмы автоматического построения онтологий.
8. Приветствуются любые новые идеи и их реализация.
ЛЕКЦИИ