Языковые корпуса

Национальный корпус русского языка

Крупнейший корпус русского языка, созданный в 2004 году, включает более 2 млрд слов и тексты с XI века до современности. Используется для изучения структуры языка, его развития и как база примеров для преподавания.

https://ruscorpora.ru/

Национальный корпус русского языка — это крупнейший электронный корпус текстов на русском языке, созданный в 2004 году и содержащий более 2 млрд слов из текстов разных эпох (с XI века до современности) и функциональных стилей, снабжённых морфологической и синтаксической разметкой. Он включает несколько подкорпусов (основной, газетный, устный, исторический и др.), что делает его универсальным инструментом. В лингвистике используется для анализа грамматики, лексики, частотности, коллокаций и исторического развития языка, а в лингводидактике — как источник аутентичных примеров, позволяющий преподавателям объяснять нормы языка, демонстрировать реальные контексты и формировать языковую компетенцию учащихся.

British National Corpus (BNC)

Корпус британского английского объёмом около 100 млн слов, созданный в 1991–1994 годах. Применяется для анализа частотности и норм языка, а также в обучении различным стилям английской речи.

https://www.english-corpora.org/bnc/

British National Corpus — это сбалансированный корпус британского английского языка объёмом около 100 млн слов, созданный в 1991–1994 годах и включающий около 90% письменных текстов и 10% устной речи. Он отражает состояние языка конца XX века и снабжён разметкой частей речи. В лингвистике применяется для изучения структуры языка, частотности, коллокаций и различий между регистрами, а в лингводидактике — для создания учебных материалов, обучения нормативному употреблению языка и анализа типичных языковых моделей в разных стилях.

Corpus of Contemporary American English

Современный корпус американского английского (с 1990 года), созданный в 2008 году и содержащий более 1 млрд слов. Позволяет отслеживать изменения языка и используется как актуальный материал для обучения.

https://www.english-corpora.org/coca/

Corpus of Contemporary American English — это один из крупнейших корпусов современного английского языка (более 1 млрд слов), созданный в 2008 году и охватывающий тексты с 1990 года по настоящее время, регулярно обновляясь. Он включает разнообразные жанры: разговорную речь, СМИ, художественные и академические тексты, интернет-контент. В лингвистике используется для анализа динамики языка, изменений в лексике и грамматике, а также для изучения коллокаций, а в лингводидактике — для обучения современному американскому английскому, актуальной лексике и различиям между стилями и регистрами.

OpenSubtitles Corpus

Многоязычный корпус субтитров с миллионами предложений, отражающий разговорную речь. Полезен для изучения живого языка, сленга и разработки систем перевода.

https://www.sketchengine.eu/opensubtitles-parallel-corpora/

OpenSubtitles Corpus — это многоязычный корпус, основанный на субтитрах к фильмам и сериалам, содержащий миллионы выровненных предложений и отражающий живую разговорную речь. Его особенностью является неформальный стиль, наличие сленга, идиом и разговорных конструкций. В лингвистике используется для изучения разговорного языка, прагматики и межъязыковых соответствий, особенно в исследованиях перевода, а в лингводидактике — для развития навыков аудирования, понимания живой речи и освоения современных разговорных выражений.

Europarl Corpus

Параллельный корпус текстов Европейского парламента (1996–2012) на более чем 20 языках. Используется для изучения перевода и анализа официально-делового стиля.

https://www.statmt.org/europarl/

Europarl Corpus — это параллельный корпус текстов Европейского парламента за 1996–2012 годы, включающий более 20 языков и выровненный по предложениям, что позволяет точно сопоставлять оригинал и перевод. Тексты относятся к официально-деловому и политическому стилю. В лингвистике применяется для сопоставительных исследований, анализа дискурса и разработки систем машинного перевода, а в лингводидактике — для обучения переводу, работе с параллельными текстами и освоения официального и политического языка.

UN Parallel Corpus

Корпус документов ООН на шести официальных языках с миллионами выровненных предложений. Применяется для анализа терминологии, перевода и изучения официального языка.

https://www.un.org/dgacm/en/content/uncorpus

UN Parallel Corpus — это крупный параллельный корпус документов Организации Объединённых Наций на шести официальных языках (английский, русский, французский, испанский, китайский, арабский), содержащий миллионы выровненных предложений с высокой точностью перевода и строгой терминологией. Тексты имеют официальный, юридический и дипломатический характер. В лингвистике используется для анализа переводческих соответствий, терминологии и особенностей официального дискурса, а в лингводидактике — для обучения профессиональному переводу, развитию навыков работы с терминологией и освоения официально-делового стиля речи.

Page updated

Google Sites

Report abuse