Татарский язык

ТАТАРСКИЙ ЯЗЫК


САМОУЧИТЕЛЬ И АУДИОКУРС ТАТАРСКОГО ЯЗЫКА

Самоучитель татарского языка
Вводный курс позволит найти ответы на вопросы татарской практической грамматики.
Основной курс – материалы и упражнения для самостоятельного изучения и усовершенствования татарского языка.
Аудиокурс живого татарского языка. Слушайте и повторяйте за диктором.

СКАЧАТЬ БЕСПЛАТНО



татарско-русский и русско-татарский Электронный словарь "КАМУС"



Татарский словарь

Словарь содержит 75000 слов и выражений. Поиск и перевод может осуществляться как в окне словаря, так и в автоматическом режиме – в виде всплывающей подсказки при наведении курсора мыши на слово. «Чтение» слова с экрана поддерживается для большинства текстовых редакторов, элементов меню, ярлыков и т.д.

При переводе словоформ татарского языка даётся анализ морфем (суффиксов) словоформы.

Имеется встроенный генератор словоформ татарского языка.

Поддерживаются автоматические внутренние ссылки.


СКАЧАТЬ БЕСПЛАТНО



Татарско-русский и русско-татарский электронный машинный переводчик “Divar

 


Татарский переводчик

Перевод текстов на основе морфологического и синтаксического анализа предложения.

Базовый словарь содержит более 90000 татарских и русских основ, что позволяет анализировать и генерировать при переводе порядка 4 млн. словоформ для каждого языка. Рекурсивный анализ словосочетаний позволяет корректно определять и переводить составные формы глаголов.

Двухоконный текстовый редактор поддерживает формат как текстовых файлов так и документов MS Word.

В ОС Windows Vista и Windows 7 установку и запуск программы производить в режиме совместимости с Windows XP.


СКАЧАТЬ БЕСПЛАТНО


По всем вопросам обращаться

к автору и создателю данных программ

 tatarname@mail.ru - Равиль Сабиров






О структуре и использовании татарско-русского

и русско-татарского электронного переводчика

 

 РАВИЛЬ САБИРОВ

Кандидат филологических наук

 

  

 

Краткое содержание

 

§1. Основные принципы построения электронных переводчиков

§2. Требования и пожелания при пользовании электронными переводчиками

§3. Особенности татарско-русского переводчика по сравнению с другими межъязыковыми электронными переводчиками

§4. Этапы построения татарско-русского переводчика

 

 

 

Вступительное слово

Настоящий татарско-русский и русско-татарский переводчик является первой попыткой создания локального переводчика на материалах агглютинативного и флективного языков.

В данном руководстве мы постарались кратко и доступно объяснить логику построения татарско-русского и русско-татарского электронного переводчика. Руководство написано, в первую очередь, для неспециалистов, т.е. для обычного пользователя (параграфы 1 и 2). В то же время мы в наиболее краткой форме обрисовали круг проблем, которые появляются при составлении подобных переводчиков (параграфы 3 и 4 – для специалистов).

Для пояснения некоторых моментов мы обращались к мнению крупных компаний (они выделены курсивом), которые занимаются составлением электронных переводчиков на протяжении более десяти лет.

Для примеров мы использовали алгоритмы и данные татарско-русского переводчика, т.к. именно здесь лингвистические проблемы проявляются наиболее выпукло, и именно татарско-русский переводчик более востребован как в нашей республике, так и за ее пределами.


 

1. Основные принципы построения электронных переводчиков

Ознакомление с электронными переводчиками следует начинать с нескольких основных моментов, чтобы представлять предмет рассмотрения.

Во-первых, все электронные переводчики делятся на два типа: он-лайн переводчики и локальные переводчики. Они отличаются друг от друга, в первую очередь, методикой обработки базы данных.

Он-лайн переводчики, имея практически неограниченные ресурсы, берут простым количеством обрабатываемого материала. Иначе говоря, они вводят в свои базы данных огромный массив правильно переведенных параллельных текстов. На основе обработки невероятного количества гигабайтов информации машина сама моделирует предложение. Понятно, что при этом вначале вводится словари, самые простые парадигмы (если они возможны – зависит от структуры языка) и самые простые морфологические схемы. А синтаксические схемы машина вырабатывает уже на базе правильных параллельных предложений.

Локальные переводчики не могут позволить себе обработку несметного количества материала, и они идут по пути внедрения различных парадигм, синтаксических правил, правил синтаксической сочетаемости слов, порядка предложения, и, наконец, правил семантической сочетаемости слов. Иначе говоря, локальные переводчики призваны распознать слова, словосочетания, отнести их в нужные разряды, и на основе этого сделать перевод. А потом правильно расположить эти слова в собственно переводе, чтобы получился осмысленный текст, а не набор слов. Таким образом, локальные переводчики призваны сделать осмысленный перевод, насколько это возможно машине. Локальные переводчики связаны с проблемой формализации значения.

Формализация значения – это попытка разъяснить машине значение того или иного слова на основе многих факторов (соотнесенность к определенной части речи, частность использования в языке, расположение слова в предложении, соседство с другими словами, тематическая особенность контекста, наличие слова с данном абзаце, подбор синтаксической модели и т.п.) , и уже на основе выработанного значения (в кодах машины) перевести его на другой язык, где на основе тех же факторов подбирается соответствующая лексема.

Как видим, локальные переводчики предполагают диалог с машиной. Наш переводчик относится именно к данному типу переводчиков.

 

Во-вторых, локальные переводчики в том виде, в котором мы составляем его, преследует множество целей. Среди которых:

1. перевод текста для изучающих татарский язык (для широкого круга);

2. перевод отдельных словоформ и словосочетаний при работе с татарским языком (для школьников, переводчиков);

3. перевод текста по определенной тематике;

4. проверка правильного написания слова;

5. определение морфологической категории слова (для учителей, школьников).

Последние три пункта нами еще не разработаны, но они предполагают достаточно быстрое разрешение, так как основные морфологические и синтаксические структуры разрабатываются в основной части. Дополнения в словарь (в том числе терминов) осуществляется через простое указание их типов в базе данных.

 

В-третьих, локальный переводчик – инструмент, который должен постоянно совершенствоваться. Предполагается расширение не только словарной базы и усовершенствования правил, но также внедрение рекурсивных образований, т.е. продолжения татарской и русской парадигм. Это позволит перейти к вопросу генерации предложения, над которым уже много лет работают лингвисты.

 

 

2. Требования и пожелания при пользовании электронными переводчиками

Когда перед пользователем предстает электронный переводчик, тем более, первая версия переводчика, он может воспринять его как нечто универсальное. Но обратимся к тем составителям электронных переводчиков, которые занимаются этим более десятка лет. Лидером по составлению локальных электронных переводчиков является PROMT:

Давайте вначале разберемся, как система машинного перевода осуществляет перевод текста.

Текст представляет собой набор слов, связанных между собой определенным порядком. Может показаться, что для перевода текста достаточно просто перевести все слова. Но тогда мы получим никак не связанный между собой набор слов.

Система перевода должна оценивать порядок слов в предложении. А в каждом языке есть еще и свои особенности: обороты, усилительные конструкции, слова с переносным значением и т.д. Поэтому, системы машинного перевода должны учитывать еще и все особенности языков, с которого и на который осуществляется перевод.

Это очень сложная задача, и на сегодняшний день систем машинного перевода, учитывающих все эти факторы, не существует. Поэтому, пока идеального результата от автоматического перевода добиться невозможно. Некоторые переводчики работают лучше, некоторые хуже.

Татарский и русский языки относятся не только к разным типам языков по форме сочетания слов (татарский, турецкий, суахили – агглютинативные, русский, английский, французский – флективные), но и в корне отличаются синтаксически: построением предложения.

На сегодняшний день лидеры по созданию локальных переводчиков ограничиваются несколькими мировыми языками. И это не случайно, так как каждый язык требует собственного уникального подхода. И не следует в таких случаях ориентироваться на он-лайн переводчики, где представлено большое количество языков. Но там качество перевода зависит лишь от количества обработанных параллельных текстов.

Далее цитируем тот же PROMT, пожелания которого относятся и к нашему переводчику:

Результаты практических тестов

Практика использования систем машинного перевода показала, что тексты, состоящие из сложных предложений, из причастных и деепричастных оборотов, жаргонных слов переводятся очень плохо.

Основной способ добиться максимального качества перевода — это упрощение переводимого текста (если это возможно).

Лучше всего использовать простые предложения с минимальным набором знаков препинания. Порядок следования членов предложения — стандартный: подлежащее, сказуемое, дополнение.

Для татарского языка: подлежащее – дополнение – сказуемое.

Длинные тексты также в большинстве случаев переводятся хуже, чем короткие. По возможности следует разбивать большой текст на части (по абзацам). Тем более, что большинство онлайн-переводчиков ограничивают текст, который может быть переведен за один раз.

Не забывайте проверять текст перед переводом на грамматические и пунктуационные ошибки. Это очень важное требование, которое, однако, редко кто соблюдает. Текст с ошибками не может быть переведен правильно.

Для улучшения качества перевода стоит воспользоваться несколькими системами перевода. Результат их работы будет различен — вам потребуется просто объединить все вместе.

Основные советы по улучшению качества перевода:

Используйте по возможности простые предложения.

Проверяйте текст перед переводом на ошибки.

Проверяйте правильность расстановки знаков препинания.

Проверяйте наличие знаков окончания предложения (точки, восклицательного или вопросительного знаков).

Правильно выбирайте тематику перевода (если есть такая возможность).

Переводите текст абзацами, а не короткими предложениями.

Переводите текст несколькими системами онлайн-перевода, результат объединяйте.

Если у вас есть необходимость постоянного перевода текстов, установите себе программу-переводчик. Переводчик, реализованнный в виде программы, позволяет добиться лучшего качества перевода, чем при использовании онлайн-переводчиков.

Он дает множество преимуществ:

Нет ограничений на размер переводимого текста.

Поддержка большого количества тематик перевода.

Поддержка множества направлений перевода.

Возможность подключения дополнительных словарей.

Диалог с пользователем в процессе перевода, проверка орфографии.

Удобный и понятный интерфейс, текстовый редактор.

Интеграция переводчика с другими программами.

Дополнительные инструменты: виртуальная клавиатура, словарь, транслит, перекодировщик, произношение и др.

Понятно, что некоторые функции, как дополнительные инструменты, нам только предстоит разработать. Но это работа лежит большей частью в технической, а не в лингвистической области. Важно то, что именно в татарском языке ранее всех других тюркских (агглютинативных) языков, разрабатываются основные правила автоматического перевода на флективный язык. Это позволит в дальнейшем разработать перевод татарского на английский и другие флективные языки (французский, испанский, немецкий, арабский).

 

 

3. Особенности татарско-русского переводчика по сравнению с другими межъязыковыми электронными переводчиками

При составлении татарско-русского электронного переводчика необходимо указать, что это первый опыт такой переработки лексического и грамматического материала татарского языка.

Поэтому в руководстве мы хотели бы указать на некоторые особенности татарской грамматики. Морфологический анализ слов не дает полной определенности в соотнесении того или иного слова к определенной части речи. Если, например, в русском языке имена прилагательные, наречия имеют формальные признаки, то таковых у татарских «свойств» нет. Чаще всего они определяются только семантически. Но так как «железо» и семантика – вещи несовместимые, то многие лексемы определяются лишь по их функционированию (местоположению) в предложении. Не случайно Г. Алпаров, Дж. Валиди и множество других лингвистов в своей грамматике не выделяли их как самостоятельные части речи, а рассматривал функциональными формами имени существительного. Так он пишет: “Исем белән сыйфат үзләренең тышкы күренешләре белән бер-берсеннән аерылмау, ахырларына бер үк кушымчалар килергә мөмкин: булу һәм хәтта, урынына карап, бер үк сүзнең исем дә, сыйфат та булуы безне монда, аларның ясалышын, тышкы күренешләрен тикшергәндә, һәр икесен бергә йөртергә мәҗбүр итә”[1].

Вольное содержание высказывание приведем из “Татарской грамматики”: “Дж. Валиди говорит о том, что русские выделяют  прилагательные в отдельную часть речи не столько по значению, сколько по окончаниям, а в татарском языке прилагательные таких особых показателей не имеют, они различаются лишь по значению”[2].

Смысловой и функциональный характер татарской морфологии придает дополнительную сложность при определении части речи татарского языка. Данное явление придает татарскому языку своеобразный аналитизм. Русский язык, являясь синтетическим языком, опирается на формальные, а татарский язык опирается на функциональные характеристики. Таким образом, «синтаксический характер» татарского языка порождает огромное количество омоформ.

Например, практически каждый односложный глагол в повелительном наклонении имеет одну или две омоформы: яз (пиши, пахтай) и яз (весна), кара (смотри) и кара (черный, чернила).

Огромное количество татарских омоформ можно разграничить между собой только путем синтаксического или семантического анализа (см. 3 и 4 этапы в следующем пункте).

Появлению такого количества омонимичных форм способствует и то, что татарский язык придерживается фонетического принципа орфографии (как слышишь, так и пишешь). Например, при разработке французского-русского и английско-русского переводчиков эта проблема разрешается само собой, так как в этих языках преобладает традиционный принцип написания.

Вообще, недостатки татарской орфографической системы придают нашей работе дополнительные трудности. Различные написания большого количества слов в различных изданиях, сознательное пренебрежение некоторыми авторами уже принятых норм – все это лишь препятствует вхождению татарского языка в общемировую информационную сеть.

 

4. Этапы построения татарско-русского переводчика

Этапы составления татарско-русского переводчика состоят из следующих шагов:

1-й этап. Составление словарной базы

Составление словарной базы заключается в том, что на базе имеющихся двуязычных,  толковых, частотных и специализированных словарей нужно составить «словник» с одним переводом. Если кому-то это покажется простым, то для примера можно привести татарский глагол салу (класть, положить, закладывать, выпивать и т.п.), который имеет 22 значения. Поэтому при составлении подобных словников важно выбрать главное значение, которое может быть прямым или переносным, а в словаре первым, вторым или даже пятым.

Главное значение – (как термин для подобного рода исследований) – значение, которое наиболее часто используется на данном этапе развития языка, или в данном тематическом контексте.

Зачастую выбор главного значения можно определить только путем долгой апробации уже готового переводчика. Необходимо отметить, что от правильного выбора варианта из огромного количества выборов зачастую зависит и качество перевода. И если в татарско-русском переводчике просто огромное количество омонимичных форм, то в русском языке можно отметить целые омонимичные грамматические модели. Например, РП единственного числа и множественное число: книги (китап/китаплар), окна (тәрәзә/тәрәзәләр), леса (урман, урманнар).

При определении частей речи для татарского языка нам пришлось отойти от Академической грамматики (см. 3 пункт). Так, нами были определены 2 дополнительных субстантива (на русский язык они переводятся существительными – отсюда и наименование). Субстантив 1 – это имена действия (словарная форма): бару – хождение, китү – уход, чабу – бег, косьба, срубание. Это “номинативный” перевод. При переводе их глаголами мы имеем соответсвующие инфинитивы: ходить, уходить, бежать (косить, рубить). Субстантив 2 – это глагольная форма неопределенного прошедшего времени в 3-м лице ган: укыган (читал, читавший). Последняя форма может быть и причастием, и существительным.

Составление словарной базы предполагает распределение всего лексического состава переводимого языка по частям речи. В татарско-русском переводчике, большое количество слов переводятся и как прилагательные, и как существительные; или и как прилагательные, и как наречия.

В русско-татарском переводчике мы местоимения и числительные вообще распределили по существительным и прилагательным в соответствии с грамматической парадигмой. Так, порядковые числительные стали прилагательными: первый, первого, первые, а, скажем, личные местоимения существительными: ты (тебя, тебе, тебя, тобой).

Отдельно можно сказать и о полной омонимии. Она бывает двух типов: относящиеся к одной части речи (ключ), относящиеся к разным частям речи (сечь).

Омонимы, относящиеся к разным частям речи, распознаются на 3 этапе, а относящиеся к одной части речи, только на 4 этапе.

 

2-й этап. Составление морфологических парадигм

Морфологические парадигмы составляются по типам. Например, все глаголы татарского языка можно отнести к 32 различным типам. Для каждого типа определяется основа (она не всегда совпадает с основой, принятой в Академической грамматике) и соответствующий фланк[3] (см. вставку 1 – невозможно предоставить в бумажном виде из-за большого формата).  Отрывок:

 

словарная

основа

тип

ИД

Повел 2 ед

Повел 2 ед -

ИД -

Инфин

Инфин -

Услов

V004

 

 

V004

V002

V003

V005

V006

V007

V008

Курку

кур

1

ку

ык

ыкма

ыкмау

кырга

Ыкмаска

ыкса

Бию

би

2

ю

е

емә

емәү

ергә

емәскә

есә

төяү

тө

3

яү

я

ямә

ямәү

яргә

ямәскә

ясә

кибү

ки

4

бү

п

пмә

пмәү

бәргә

пмәскә

псә

дию

ди

5

ю

-

мә

мәү

яргә

Мәскә

сә

сөю

сө

6

ю

й

ймә

ймәү

яргә

ймәскә

йсә

кую

ку

7

ю

й

йма

ймау

ярга

Ймаска

йса

буяу

бу

8

яу

я

яма

ямау

ярга

Ямаска

яса

чабу

ча

9

бу

п

пма

пмау

барга

Пмаска

пса

яву

я

10

ву

ву

ума

ума

варга

Умаска

уса

уку

ук

11

у

ы

ыма

ымау

ырга

ымаска

ыса

күнегү

күне

12

гү

к

кмә

кмәү

гергә

кмәскә

ксә

төзү

төз

13

ү

е

емә

емәү

ергә

емәскә

есә

тегү

те

14

гү

к

кмә

кмәү

гәргә

кмәскә

ксә

иркенәю

иркенә

15

ю

й

ймә

ймәү

ергә

ймәскә

йсә

менү

мен

16

ү

-

мә

мәү

әргә

Мәскә

сә

аңгыраю

аңгыра

17

ю

й

йма

ймау

ерга

ймаска

йса

бушаю

буша

18

ю

 

ама

амау

арга

амаска

аса

йөрү

йөр

19

ү

-

мә

мәү

ергә

Мәскә

сә

чыгу

чы

20

гу

к

кма

кмау

гарга

кмау

кса

сату

сат

21

у

-

ма

мау

арга

маска

са

кызыгу

кызы

22

гу

к

кма

кмау

гырга

кмау

кса

итү

ит

23

ү

-

мә

мәү

әргә

Мәскә

сә

күрсәтү

күрсәт

24

ү

-

мә

мәү

ергә

Мәскә

сә

карау

кар

25

ау

а

ама

амау

арга

амаска

аса

амнистияләү

амнистациял

26

әү

ә

әмә

әмәү

әргә

әмәскә

әсә

бирү

бир

27

ү

-

мә

мәү

ергә

Мәскә

сә

бозу

боз

28

у

-

ма

мау

арга

маска

са

болгату

болгат

29

у

-

ма

мау

ырга

маска

са

бару

бар

30

у

-

ма

мау

ырга

маска

са

баю

ба

31

ю

е

ема

емау

ерга

емаска

еса

 

Для русского языка:

 

сесть

с

221

есть

ядь

ядьте

Яду

ядешь

ядет

цвесть

цве

222

сть

ти

тите

Ту

тешь

тет

вкрасться

вкра

223

сться

дись

дитесь

Дусь

дешься

дется

въесться

въе

224

сться

шься

шьтесь

Мся

шься

стся

клясться

кля

225

сться

нись

нитесь

Нусь

нешься

нется

усесться

ус

226

есться

ядься

ядьтесь

Ядусь

ядешься

ядется

грызть

грыз

227

ть

и

ите

У

ешь

ет

грызться

грыз

228

ться

ись

ите

Усь

ешься

ется

лезть

лез

229

ть

ь

ьте

У

ешь

ет

отодрать

от

230

одрать

дери

дерите

Деру

дерешь

дерет

отпереться

от

231

переться

опрись

опритесь

Опрусь

опрешься

опрется

скакать

ска

232

кать

чи

чите

Чу

чешь

чет

словарная

основа

тип

инфинтив

повел ед

повел мн

наст 1 ед

наст 2 ед

наст 3 ед

RV001

 

 

RV001

RV002

RV003

RV004

RV005

RV006

 

 

Как видим, мы составили парадигму глагольных форм, которые в итоге приобретают соответствующий код. Такие же парадигмы по типам составляются и для русского языка. В русском языке типов значительно больше. Например, у глаголов 230 типов. Однако мы разделили глагол на три части: собственно глагол (107 моделей), причастные формы (16 моделей), деепричастные формы (две модели). Дело в том, что причастия принимают парадигму прилагательных, а деепричастия по своим функциям схожи с наречиями.

Выделение типов и составление полных парадигм – работа не только необходимая, но и важная для татарского языкознания вообще. К сожалению, у нас до сих пор нет полноценных электронных парадигм, словарей омоформ, грамматических словарей и т.п.

 

Далее, составляется таблица соответствия кодов татарских и русских глаголов:

 

Тат яз

Тат яз

Рус яз

Рус яз

V002

повел 2 ед

V002

повел ед

V003

повел 2 ед –

не V002

не повел ед

V004

имя д

V001

Инфин

V005

имя д –

не V001

Не инфин

V006

инфин

V001

Инфин

V007

Инфин –

не V001

Не инфин

V008

Услов

если V005

Если наст 3 ед

V009

Услов –

если не V005

Если не наст 3 ед

V010

Повел 3 ед

Пусть V005

Пусть наст 3 ед

V011

Повел 3 ед –

Пусть не V005

Пусть не наст 3 ед

V012

Повел 2 мн

V006

Повел 2 мн

V013

Повел 2 мн –

Не V006

Не повел 2 мн

V014

Повел 3 мн

Пусть V009

Пусть наст 3 мн

V015

Повел 3 мн –

Пусть не V009

Пусть не наст 3 мн

V016

Наст 1 ед

V003

Наст 1 ед

V017

Наст 2 ед

V004

Наст 2 ед

V018

Наст 3 ед

V005

Наст 3 ед

V019

Наст 1 мн

V007

Наст 1 мн

V020

Наст 2 мн

V008

Наст 2 мн

V021

Наст 3 мн

V009

Наст 3 мн

V022

Наст 1 ед –

Не V003

Не Наст 1 ед

V023

Наст 2 ед –

Не V004

Не Наст 2 ед

V024

Наст 3 ед –

Не V005

Не Наст 3 ед

V025

Наст 1 мн –

Не V007

Не Наст 1 мн

V026

Наст 2 мн –

Не V008

Не Наст 2 мн

V027

Наст 3 мн –

Не V009

Не Наст 3 мн

V028

Прош1 1 ед

V010

Прош ед мр

V029

Прош1 2 ед

V010

Прош ед мр

V030

Прош1 3 ед

V010

Прош ед мр

V031

Прош1 1 мн

V013

Прош мн

V032

Прош1 2 мн

V013

Прош мн

V033

Прош1 3 мн

V013

Прош мн

V034

Прош1 1 ед –

Не V010

Не Прош ед мр

V035

Прош1 2 ед –

Не V010

Не Прош ед мр

V036

Прош1 3 ед –

Не V010

Не Прош ед мр

V037

Прош1 1 мн –

Не V013

Не Прош мн

V038

Прош1 2 мн –

Не V013

Не Прош мн

V039

Прош1 3 мн –

Не V013

Не Прош мн

V040

Прош2 1 ед

V010

Прош ед мр

V041

Прош2 2 ед

V010

Прош ед мр

V042

Прош2 3 ед

V010

Прош ед мр

V043

Прош2 1 мн

V013

Прош мн

V044

Прош2 2 мн

V013

Прош мн

V045

Прош2 3 мн

V013

Прош мн

V046

Прош2 1 ед –

Не V010

Не Прош ед мр

V047

Прош2 2 ед –

Не V010

Не Прош ед мр

V048

Прош2 3 ед –

Не V010

Не Прош ед мр

V049

Прош2 1 мн –

Не V013

Не Прош мн

V050

Прош2 2 мн –

Не V013

Не Прош мн

 

Здесь для примера показаны только 50 типов и соответствующие им типы русских глаголов. Всего их у нас 107. Необходимо отметить, что категория принадлежности, которая есть в татарском языке, и которой нет в русском, не представлена. Это результат практической апробации переводчика. Дело в том, что под влиянием русского языка в большинстве текстов читаем без барабыз (вместо стилистически правильного – барабыз) и при переводе получается нагромождение притяжательных форм: китабы – его книга, урындыклары – их стулья и т.п.

 

В татарском языке, большое значение имеют глагольные конструкции и система аналитических глаголов, для которых также составляются соответствующие таблицы кодов.

 

Татарский (коды)

Русский язык (коды)

Примеры

V076 + АЛУ

Немного V001-V015 

Эшләп алды

Немного (по)работал

V018 + АЛУ

Мочь + V001 (инфинитив)

Эшли алам

Могу работать

V076 + БАРУ

Постепенно V001-V015

Карап барам

Санап барбыз

Постоянно смотрю, постоянно считаем

V018 + БАШЛАУ

Начать + V001 (инфинитив)

Эшли башладык

Укый башлыйбыз

Начали работать

Начинаем учиться

V076 + БЕТЕРҮ

Закончить V001 (инфинитив)

Укып бетердек

Язып бетерербез

Закончили читать (учиться)

Закончим писать

V076 + БЕТҮ

Весь V001-V015

Агарып бетте

Весь побелел (белел)

V076 + ҖИБӘРҮ

начать V001 (инфинитив)

Укып җибәрдек

Начали учиться

V076 + ҖИТҮ

До конца V001-V015

Барып җитте

До конца дошел

V076 + КАРАУ

Попытаться (V001-V015) (инфинитив)

Укып карады

Попытался читать (учиться)

V076 + КЕРҮ

V001-V015 вовнутрь

Очып керде

Летел вовнутрь

V076 + КИЛҮ

постепенно V001-V015

Язып килде

Постепенно писал

V076 + КИТҮ

начинать + V001 (инфинитив)

Йоклап киттегез

(вы) начали спать

V018 + КҮРҮ

Обязательно V001-V015

Эшли күр

Обязательно сделай (работай)

V076 + КУЮ

быстро V001-V015

Әйтеп куйдым

Быстро я сказал

V076 + МЕНҮ

V001-V015 вверх

Очып менде

Летел вверх

V076 + ТОРУ

постоянно V001-V015

Карап тора

Постоянно смотрит

V076 + ТӨШҮ

V001-V015 вниз

Очып төштеләр

Летели вниз

V076 + ТУЮ

До конца V001-V015

Ашап туйдым

До конца ел

V076 + ЧЫГУ

До конца V001-V015

Укып чыктым

До конца читал

V018 + ЯЗУ

Чуть не V001-V015

Егыла яздым

Чуть не упал

V076 + ЯТУ

постоянно V001-V015

Укып ята

Постоянно учится

 V106 (макчы)+ БУЛУ

намереваться + V001 (инфинитив)

Бармакчы була

Бармакчы булдык

Намеревается идти

Намеревались идти

 

Таблица также представлена частично, однако необходимо отметить, что как парадигмы, так и таблицы кодов (при всем знании обоих языков, использования примеров и языковой интуиции) должны будут отрабатываться на практическом использовании первой версии переводчика.

 

3-й этап. Применение общих и морфолого-синтаксических правил при распознавании слов переводимого языка

Для применения правил необходимо, чтобы машина уверенно отнесла ту или иную словоформу к нужной части речи. Как уже указывалось, татарский язык изобилует огромным количеством омоформ. Они возникают вследствие синтаксических особенностей языка, а также связаны с фонетическим принципом орфографии. Для их различения и правильного соотнесения слова к той или иной части речи применяются правила формально-грамматического характера.

Например:

1. обращение к базовому словнику, в которых слова уже разделены по частям речи. Обращение должно быть расширенным, т.е. поиск основы не должен заканчиваться при первом же нахождении соответствующей словоформе начальной формы.

2. Выбор омонимичных форм:

Прилагательное или существительное

Если adj перед noun, то это adj

Если adj после noun, то это noun

 

Глагол или существительное

Verb в конце фразы и не имеет позиции после adj

noun после adj

 

Субстантив или глагол

Verb в конце фразы и не имеет позиции после adj

Subnoun после adj

 

Здесь приведены некоторые общие правила, которых в нашем переводчике насчитывается более 50 (по частям речи).

Подобная работа должна отрабатываться на практическом применении, и сами правила добавляются только после многократного использования интерферирующего (пересекающегося по данным) правила.

 

Частные правила

Некоторые, как татарские, так и русские слова требуют особого подхода. И мы для них разрабатывали правила частного характера. Это такие слова, как соң, ул, гына/кына,  а в русском языке что, есть, дорогой. Например,

 

чтоб

 

после запятой

союз

правило послелога2

глагол после чтобы в форме глагола до чтобы

дип

чтоб

в остальных

 

частица

правило послелога2

глагол в V 008, V 009, V 090, V 095

(...сын)*

чтобы

 

после запятой

союз

правило послелога2

глагол после чтобы в форме глагола до чтобы

дип

чтобы

в остальных

 

союз

правило послелога2

глагол в V 008, V 009, V 090, V 095

дип

 

Пример для татарского языка:

 

1

соң

после сущ ЧК N 005, 11, 17, 23, 29, 35, 40, 46, 52, 58, 64, 70

послелог

правило послелога RN002 РП

после

1

соң

после частиц ...мы

 

частица

 

ли

2

соң

перед глаголами

 

наречие

 

поздно

2

соң

в остальных случаях

 

частица

 

же

 

 

4-й этап. Использование семантической сочетаемости для определения значения слов

Данный этап находится в стадии разработки, так как требует полного переоформления базы данных по тематическим признакам (для имен) и характеру действия (для глаголов). Для этого необходимо составить татарский идеографический словарь, которого, как ни странно, до сих пор нет.

По использованию определенной группы слов можно говорить об общей тематике отдельного предложения и абзаца. Простой пример: корт (гусеница, корт (блюдо)) и корт (корт теннисный) можно отличить по сопутствующим словам в тексте. Если, скажем, в данном предложении или в примыкающих предложениях встречаются слова ракетка, теннис, спорт и т.п. (спортивная тематика), то и перевод будет соответствующим.

Для оформления из татарского языка местоимения ул (он, она, оно, это, сын) никак не обойтись без контекстуального анализа. Без выяснения того, к кому относится личное местоимение (он, она, оно), «железный мозг» не может выбрать нужный вариант.

Аның кызы хат язды. Ул хатны укыды. Его девушка написала письмо. Он (она?) прочитал(а) письмо.

 

5-й этап. Применение правил оформления предложения в переведенном тексте

После прохождения первых четырех этапов остается последний, быть может, наиболее сложный этап. Сложность здесь заключается в том, что если на первых четырех этапах допущена какая-нибудь неточность, или неправильно выбрана вероятность выбора того или иного значения, то здесь может получиться абракадабра.

На данном этапе вступают уже правила переведенного языка. В первую очередь, в татарско-русском переводчике – это сочетаемость по роду (числу). Известно, что в татарском языке нет категории рода и, соответственно, род определяется по существительному по следующим правилам:

 

род adj определяется (соответствует) по noun в постпозиции (следующему)

род verb (прошедшее время) определяется по noun в препозиции (предыдущему)

род verbadj (причастие) определяется по ближайшему noun в препозиции (предыдущему) и постпозиции.

 

Далее применяется правило определения места сказуемого и дополнения (обычно это имя в косвенном падеже).

 

Порядок слов в РТС

 

 

 

РЯ

 

 

ТЯ

глагол сущ1.

 

в конце предложения

сущ глагол.

глагол предлог сущ.

 

в конце предложения

сущ послелог глагол.

сущ0 глагол сущ1

 

везде

сущ0 сущ1 глагол

глагол сущ0 сущ1

 

везде

сущ0 сущ1 глагол

глагол сочприл сочсущ1

 

везде

сочприл сочсущ1 глагол

 

 

 

 

пояснения

 

 

 

RN001, 007

нач форма

сущ0

 

RN002-006, 008-012

косв падежи

сущ1

 

сочприл

согласованное (сочетаемое) прилагательное

 

сочсущ

согласованное (сочетаемое) существительное

 

 

 

Использование дальнейших правил зависит от результатов 4 этапа, над решением которых только начата работа.

 

Таким образом, основная работа составляет 5 этапов. Остальные этапы работы, как определение значения слова по контексту, составление тематических переводчиков могут идти параллельно с дальнейшим усовершенствованием переводчика.


 

Вместо заключения

 

Составление электронных переводчиков – необходимый элемент развития тех языковых культур, которые при условиях глобализации, испытывают серьезное давление со стороны «мировых» языков: английского, испанского, русского и т.п.

На современном этапе локальные переводчики имеют очень малое количество языков. «Малые» языки предпочитают он-лайн переводчики, в которых не разрабатывается система формально-грамматических правил, правил семантической сочетаемости и проблем контекстуальности (последнее особенно важно для татарского языка).

Поэтому, именно наличие локального переводчика в системе мировых языков позволит внести татарский язык и в мобильные переводчики, и в сотовые телефоны, и в другие технологии.

 

Возникают вопросы:

Можно ли использовать электронные переводчики в общеобразовательных учебных заведениях?

Конечно, можно. Но полностью опираться на «бездушный» перевод машин все же не стоит. Электронные переводчики – не панацея, а просто помощник, каким, например, является словарь, но только на более высоком уровне. Более того, для общеобразовательных школ, на наш взгляд, намного целесообразнее подготовить расширенный словарь (словарь словоформ и устойчивых словосочетаний) с морфологическими пояснениями.

Можно ли локальными переводчиками осуществлять переводы классических художественных текстов?

Нежелательно. Потому что каждый писатель, ставший классиком, имеет присущий только ему стиль, он использует все тонкости языка и через это передает национальный менталитет, мастерит на языковом материале собственное уникальное миропонимание. Вряд ли на современном этапе машина сможет достоверно передавать духовный мир писателя, его героев (и сможет ли вообще?!). Зачастую живые переводчики не способны сделать этого («непереводимые» «Вечера на хуторе близ Диканьки» Гоголя, некоторые стихи Пушкина, Лермонтова, Фета). Оговоримся, что это касается только классических признанных произведений. Вполне вероятно, что определенные произведения, написанные в легком жанре, будут переводиться легко.

 

Для получения достойного локального (осмысленного) переводчика необходимо провести невероятно огромную работу по составлению полных электронных словарей. В первую очередь, это касается татарского языка, где нет идеографического словаря (в русском языке он в свободном доступе в Интернете), словаря омоформ и омографов (то же самое), словаря парадигм и словоформ (в русском – Зализняк), большого количества специальных словарей (омонимов, антонимов, синонимов, грамматического).

И, наконец, составление локальных электронных переводчиков – большой шаг не только для внедрения татарского языка в мировую информационную сеть, для создания базы при изучении языка и т.п., но и важнейший элемент переосмысления всего лексического и особенно грамматического материала (хотя бы логичное распределение слов по частям речи), в первую очередь, татарского и других агглютинативных языков.

 

 

 РАВИЛЬ САБИРОВ

Кандидат филологических наук



СКАЧАТЬ БЕСПЛАТНО



 Татарский язык  татарский переводчик  переводчик с татарского на русский  переводчик с русского на татарский  самоучитель татарского языка  татарский словарь



[1] Вәлиди Җ. Сайланма хезмәтләр. – Казан: Мәгариф, 2007. – Б. 65.

[2] Татарская грамматика. Том II. Морфология. – Казань: Татар. кн. изд-во, 1994. – С. 26.

[3] Под термином «фланк» мы подразумеваем морфемы, кроме корневой, т.е. суффиксы, окончания и т.п., но лишенные семантического наполнения.