Что такое Корпус русского языка?
Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме. Корпус содержит все типы письменных и устных текстов, представленных в русском языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и все эти тексты входят в корпус пропорционально их доле в языке соответствующего периода времени. Основной корпус сегодня разбит на две группы: середина XX — начало XXI века (современные письменные тексты) и середина XVIII — середина XX века (ранние тексты). Хорошая представительность достигается значительным объемом корпуса (сегодня это 230 млн. словоупотреблений в основном корпусе и 384 млн. словоупотреблений в общем объеме всех корпусов). Корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая. Система разметки постоянно совершенствуется.
Для чего нужен корпус?
Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык. Конечно, в первую очередь Корпус нужен для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача Корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. С этой точки зрения основными потребителями национальных корпусов являются исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Большое значение национальный Корпус имеет и для преподавания языка в качестве родного или иностранного. Корпус является хорошей информационной системой и инструментом для проведения исследований школьников и студентов.
Познакомьтесь самостоятельно с интерфейсом Корпуса. Обратите внимание на примеры исследований, которые приведены в специальном разделе портала «Национальный корпус русского языка». Они содержатся на странице Корпуса в разделе Studiorum.
При подготовке заданий этой лабораторной работы использовались материалы мастер-классов Александра Матюшкина (Петрозаводск). Один из видеосюжетов этого мастер-класса приведен выше. Советую посмотреть его перед тем, как приступить к выполнению заданий.
Требования и порядок выполнения лабораторной работы:
1. Создайте отдельную страничку в вашем блоге, назовите его "Мои исследования в НКРЯ". В эту страничку вы будете помещать скриншоты выполненных ниже заданий. Оставьте к созданному страничке ссылку в таблице ТТ. Предложенные ниже эксперименты приводятся в мастер-классе Александра Матюшкина. Удобно, прочитав задание, просмотреть кусочек видео-ролика, где об этом идет речь, и затем приступать к его выполнению.
2. Исследуйте вопрос о частоте использования слова «кофе» в мужском и среднем роде. Проверьте, насколько жизненным является предположение о том, что мужской род слова «кофе» объясняется широким использованием в России в разные периоды двойственного слова «кофий». Оцените использование этих словоформ, построив график частоты их использования в течение двух последних столетий. Скриншоты с выводами поместить в сообщение блога.
3. Сравните популярность использования в русском языке слов «компьютер» и «ЭВМ» в последнее столетие. Для этого постройте график частоты использования этих словоформ в указанный период. Используя график частоты использования этих словоформ, сделайте вывод о динамике изменений и основных тенденциях. ВАЖНО:Для построения графиков пользуйтесь пунктом вертикального меню ГРАФИКИ, этот пункт появляется, если вы находитесь на главной странице сайта (кнопка ГЛАВНАЯ).Скриншоты с выводами поместить в сообщение блога.4. Исследуйте популярность отдельных профессий (например, "летчик", "космонавт", "врач", "учитель" и др.), используя частотный анализ по годам. Постарайтесь найти объяснения «пикам» популярности, связав их с историческими событиями в стране, культурными явлениями или другими причинами. Такой анализ популярности слов можно провести не только для профессий, но и самых различных словоформ. Скриншоты с выводами поместить в сообщение блога.
5. Проверьте, насколько оправдано решение об использовании преимущественно сине-голубых оттенков при экранизации романа Л.Н.Толстого «Анна Каренина» британским режиссером Джо Райтом (экранизация 2012 года с Кирой Найтли в главной роли). Связано ли выделение синего цвета, как доминирующего, в кадрах этого фильма с оригиналом текста романа. Для этого проверьте частоту использования слов «синий», «голубой» в романе Л.Н.Толстого по сравнению со словами, обозначающими другие цвета. Скриншоты с выводами поместить в сообщение блога.
6. Проверьте, насколько оправдано представление о Ф.М.Достоевского, как писателе, пишущем о бестелесном, духовном, психологическом, мало говорящем о бытовом и земном. Для этого выделите подкорпус с его произведениями и проведите частотный анализ симантических признаков, выбрав полярные значения «еда и напитки» (предметные признаки) и «психическая сфера» (непредметные признаки). Аналогичное исследование проведите для других известных писателей (хотя бы с одним), сравните полученные результаты. Скриншоты с выводами поместить в сообщение блога.
7. В вашем блоге поделитесь впечатлениями от проведенных вами исследований в Корпусе русского языка. Если у вас появились свои темы экспериментов в Корпусе, оставьте их также в сообщении вашего блога.