Крупнейший корпус русского языка, созданный в 2004 году, включает более 2 млрд слов и тексты с XI века до современности. Используется для изучения структуры языка, его развития и как база примеров для преподавания.
Национальный корпус русского языка — это крупнейший электронный корпус текстов на русском языке, созданный в 2004 году и содержащий более 2 млрд слов из текстов разных эпох (с XI века до современности) и функциональных стилей, снабжённых морфологической и синтаксической разметкой. Он включает несколько подкорпусов (основной, газетный, устный, исторический и др.), что делает его универсальным инструментом. В лингвистике используется для анализа грамматики, лексики, частотности, коллокаций и исторического развития языка, а в лингводидактике — как источник аутентичных примеров, позволяющий преподавателям объяснять нормы языка, демонстрировать реальные контексты и формировать языковую компетенцию учащихся.
Корпус британского английского объёмом около 100 млн слов, созданный в 1991–1994 годах. Применяется для анализа частотности и норм языка, а также в обучении различным стилям английской речи.
British National Corpus — это сбалансированный корпус британского английского языка объёмом около 100 млн слов, созданный в 1991–1994 годах и включающий около 90% письменных текстов и 10% устной речи. Он отражает состояние языка конца XX века и снабжён разметкой частей речи. В лингвистике применяется для изучения структуры языка, частотности, коллокаций и различий между регистрами, а в лингводидактике — для создания учебных материалов, обучения нормативному употреблению языка и анализа типичных языковых моделей в разных стилях.
Современный корпус американского английского (с 1990 года), созданный в 2008 году и содержащий более 1 млрд слов. Позволяет отслеживать изменения языка и используется как актуальный материал для обучения.
Corpus of Contemporary American English — это один из крупнейших корпусов современного английского языка (более 1 млрд слов), созданный в 2008 году и охватывающий тексты с 1990 года по настоящее время, регулярно обновляясь. Он включает разнообразные жанры: разговорную речь, СМИ, художественные и академические тексты, интернет-контент. В лингвистике используется для анализа динамики языка, изменений в лексике и грамматике, а также для изучения коллокаций, а в лингводидактике — для обучения современному американскому английскому, актуальной лексике и различиям между стилями и регистрами.
Многоязычный корпус субтитров с миллионами предложений, отражающий разговорную речь. Полезен для изучения живого языка, сленга и разработки систем перевода.
OpenSubtitles Corpus — это многоязычный корпус, основанный на субтитрах к фильмам и сериалам, содержащий миллионы выровненных предложений и отражающий живую разговорную речь. Его особенностью является неформальный стиль, наличие сленга, идиом и разговорных конструкций. В лингвистике используется для изучения разговорного языка, прагматики и межъязыковых соответствий, особенно в исследованиях перевода, а в лингводидактике — для развития навыков аудирования, понимания живой речи и освоения современных разговорных выражений.
Параллельный корпус текстов Европейского парламента (1996–2012) на более чем 20 языках. Используется для изучения перевода и анализа официально-делового стиля.
Europarl Corpus — это параллельный корпус текстов Европейского парламента за 1996–2012 годы, включающий более 20 языков и выровненный по предложениям, что позволяет точно сопоставлять оригинал и перевод. Тексты относятся к официально-деловому и политическому стилю. В лингвистике применяется для сопоставительных исследований, анализа дискурса и разработки систем машинного перевода, а в лингводидактике — для обучения переводу, работе с параллельными текстами и освоения официального и политического языка.
Корпус документов ООН на шести официальных языках с миллионами выровненных предложений. Применяется для анализа терминологии, перевода и изучения официального языка.
UN Parallel Corpus — это крупный параллельный корпус документов Организации Объединённых Наций на шести официальных языках (английский, русский, французский, испанский, китайский, арабский), содержащий миллионы выровненных предложений с высокой точностью перевода и строгой терминологией. Тексты имеют официальный, юридический и дипломатический характер. В лингвистике используется для анализа переводческих соответствий, терминологии и особенностей официального дискурса, а в лингводидактике — для обучения профессиональному переводу, развитию навыков работы с терминологией и освоения официально-делового стиля речи.