Traducerea automată

/

Machine translation

Page start up on 21.08.2022_07.59 (UTC+2)

Eu, ca român amator de enciclopedie, mi-am intersectat pentru prima dată pașii cu Wikipedia in Spania, în prima parte a anului 2004, într-un "locutorio" din Castellón de la Plana, cu formula de căutare în limba română... "Mihai Eminescu".

Începând din prima săptămână a anului 2008, am intrat sub contract... ca șofer profesionist, la o întreprindere spaniolă de transport, după ce în perioada 1981-2003 profesasem această meserie în țara mea de baștină, România.

Deși era vorba despre aceeași meserie, acum, in alt moment si in alt spatiu geografic, pachetul legislativ era altul, atât în ce privește forma (limba), cât și în ce privește fondul (legislația).

Tratamentul practic pe care l-am primit încă de la începutul acestei relații de munca, mi s-a părut a fi mult diferit fata de ceea ce citisem si înțelesesem eu în teorie, mai înainte de a mă decide dacă să reînnod sau nu relația cu profesia mea de bază (pentru că în cei anteriori patru ani de emigrare, mă calificasem în construcții), și... în primul rând din cauza acestei... pentru mine, grave diferențe de tratament (dintre teorie și practică)m-am văzut astfel nevoit să mă aplec și mai puternic asupra creșterii gradului de înțelegere a limbii spaniole, și asupra creșterii gradului de înțelegere a legislației spaniole ce influența viața mea profesională.

Pentru a desluși mai bine variile texte de lege, mi-am luat în ajutor, pe lângă clasica pereche: "dicționar român-spaniol" și "dicționar spaniol-român", și Internetul.

Încă de prin anii 2008-2009 am găsit (prin comparație cu texte ale articolelor corespondente din Wikipedia în limba spaniolă) ca Wikipedia in limba romana manipulează (deliberat sau nu) intr-o măsura mai mult decât îngrijorătoare.

Am mai multe exemple de dat, dar unul dintre ele este chiar acest articol dedicat conceptului "Traducere automata".

Am sa incerc aici, pe... maculatorul meu, sa traduc articolul cel din secțiunea spaniola, nu doar in limba romana, ci si in limbile engleza si rusa. Hai sa vedem:

Yo, como amante de la enciclopedia rumana, me crucé con Wikipedia por primera vez en España, en la primera parte de 2004, en un locutorio de Castellón de la Plana, con la fórmula de búsqueda en rumano... "Mihai Eminescu" .

A partir de la primera semana de 2008 entré bajo contrato... como conductor profesional, en una empresa de transporte española, después de haber ejercido este trabajo en mi país natal, Rumanía, entre 1981-2003.

Aunque se trataba de la misma profesión, el paquete legislativo era diferente, tanto en términos de forma (lenguaje) como de fondo (legislación).

El trato práctico que recibí desde el empleo me pareció muy diferente al que había leído en teoría, antes de decidir si renovar o no la relación con mi profesión básica (porque en esos cuatro años anteriores de emigración, me había graduado en construcción ), y... principalmente por esto... para mí, serias diferencias de trato (entre la teoría y la práctica) me vi así obligado a inclinarme aún más en el aumento del grado de comprensión de la lengua española, y en el aumento del grado de comprensión de la legislación española que influye en mi vida profesional.

Para distinguir mejor los diversos textos legales, además del par clásico: "diccionario rumano-español" y "diccionario español-rumano", también utilicé Internet.

Desde 2008-2009, he encontrado (por comparación con los textos de los artículos correspondientes en Wikipedia en español) que Wikipedia en rumano manipula (deliberadamente o no) en un grado más que preocupante.

Tengo más ejemplos para dar, pero uno de ellos es este mismo artículo dedicado al concepto de "Traducción Automática".

Intentaré traducir el artículo de la sección española, no solo al rumano, sino también al inglés y al ruso. Vamos a ver:...

Yo, como rumano amante de la enciclopedia, me crucé con Wikipedia por primera vez en España, en la primera parte de 2004, en un locutorio de Castellón de la Plana, con la fórmula de búsqueda en rumano... "Mihai Eminescu" .

A partir de la primera semana de 2008 entré bajo contrato... como conductor profesional, en una empresa de transporte española, después de haber ejercido este trabajo en mi país natal, Rumanía, entre 1981-2003.

Aunque se trataba de la misma profesión, ahora, en otro momento y en otro espacio geografice, el paquete legislativo era diferente, tanto en términos de forma (lenguaje) como de fondo (la legislación).

El trato práctico que recibí desde el inicio de esta relación laboral, me pareció muy diferente al que había leído y comprendido en teoría, antes de decidir si renovar o no la relación con mi profesión básica (porque en esos cuatro años anteriores de emigración, me había calificado en construcción ), y... principalmente por esto... para mí, serias diferencias de trato (entre la teoría y la práctica) me vi así obligado a inclinarme aún más en el aumento del grado de comprensión de la lengua española, y en el aumento del grado de comprensión de la legislación española que influya en mi vida profesional.

Para distinguir mejor los diversos textos jurídicos, además del par clásico: "diccionario rumano-español" y "diccionario español-rumano", también comencé a utilizar el Internet.

Desde 2008-2009, he encontrado (por comparación con los textos de los artículos correspondientes en Wikipedia en español) que Wikipedia en rumano manipula (deliberadamente o no) en un grado más que preocupante.

Tengo más ejemplos para dar, pero uno de ellos es este mismo artículo dedicado al concepto de "Traducción Automática".

Intentaré traducir el artículo de la sección española, no solo al rumano, sino también al inglés y al ruso. Vamos a ver:



Column 1.

Original article text .


La traducción automática (TA o MT, esta última del inglés machine translation) es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. En su vertiente más básica, la TA simplemente sustituye las palabras de un idioma por las del otro, pero es obvio que este procedimiento rara vez da lugar a una traducción buena, pues no existe una correspondencia biunívoca entre el léxico de las diversas lenguas.



El empleo de corpora lingüísticos así como de técnicas estadísticas y neurales constituyen un campo de gran crecimiento que proporciona traducciones de calidad superior; se toman en cuenta las diferencias de tipología lingüística, la traducción de expresiones idiomáticas y el aislamiento de anomalías.



Hoy en día, el software de traducción automática a menudo permite ajustes para un campo especializado (por ejemplo, partes meteorológicos o comunicados de prensa), obteniéndose así mejores resultados. Esta técnica es especialmente efectiva en ámbitos en los que se usa un lenguaje formulaico. Es decir, traducir por ordenador documentos jurídicos o administrativos tiende a ser más productivo que si se trata de conversaciones u otros textos no estandarizados.


Algunos sistemas consiguen una mayor calidad ofreciendo vías específicas de intervención humana; por ejemplo, le dan al usuario la posibilidad de identificar los nombres propios incluidos en el texto. Con la ayuda de estas técnicas, la traducción automática constituye una herramienta de gran utilidad para los traductores, y en determinados casos incluso puede llegar a producir resultados aprovechables sin necesidad de modificación.

(1681 bytes)

Column 2.

Machine translation .


Traducerea automată (TA sau MT) este o zonă a lingvisticii computaționale care investighează utilizarea software-ului pentru a traduce text sau vorbire dintr-o limbă naturală în alta. În aspectul său cel mai de bază, MT pur și simplu substituie cuvintele unei limbi cu cele ale celeilalte, dar este evident că această procedură rareori dă naștere la o traducere bună, deoarece nu există o corespondență unu-la-unu între lexicul limbi diferite.




Utilizarea corpurilor lingvistice precum și a tehnicilor statistice și neuronale constituie un domeniu de mare creștere care asigură traduceri de calitate superioară; sunt luate în considerare diferențele de tipologie lingvistică, traducerea expresiilor idiomatice și izolarea anomaliilor.




Astăzi, software-ul de traducere automată permite adesea ajustări pentru un domeniu specializat (de exemplu, prognoze meteo sau comunicate de presă), obținând astfel rezultate mai bune. Această tehnică este eficientă în special în setările în care este folosit limbajul formulatic. Cu alte cuvinte, traducerea documentelor juridice sau administrative pe computer tinde să fie mai productivă decât conversațiile sau alte texte nestandardizate.




Unele sisteme ating o calitate superioară oferind căi specifice de intervenție umană; de exemplu, ele oferă utilizatorului posibilitatea de a identifica substantivele proprii incluse în text. Cu ajutorul acestor tehnici, traducerea automată este un instrument foarte util pentru traducători, iar în anumite cazuri poate chiar produce rezultate utilizabile fără a fi nevoie de modificare.

Column 3.

Machine translation .


Machine translation (TA or MT) is an area of ​​computational linguistics that investigates the use of software to translate text or speech from one natural language to another. In its most basic aspect, MT simply substitutes the words of one language for those of the other, but it is obvious that this procedure rarely gives rise to a good translation, since there is no one-to-one correspondence between the lexicon of the different languages.




The use of linguistic corpora as well as statistical and neural techniques constitute a field of great growth that provides translations of superior quality; differences in linguistic typology, the translation of idiomatic expressions and the isolation of anomalies are taken into account.




Today, machine translation software often allows adjustments for a specialized field (for example, weather forecasts or press releases), thus achieving better results. This technique is especially effective in settings where formulaic language is used. In other words, translating legal or administrative documents by computer tends to be more productive than conversations or other non-standard texts.





Some systems achieve higher quality by offering specific avenues of human intervention; for example, they give the user the possibility to identify proper nouns included in the text. With the help of these techniques, machine translation is a very useful tool for translators, and in certain cases can even produce usable results without the need for modification.

Column 4.

Machine translation .


Машинный перевод (ТА или МП) — это область компьютерной лингвистики, изучающая использование программного обеспечения для перевода текста или речи с одного естественного языка на другой. В своем самом базовом аспекте МП просто заменяет слова одного языка словами другого, но очевидно, что эта процедура редко приводит к хорошему переводу, поскольку между лексикой языка нет однозначного соответствия. разные языки.


Использование лингвистических корпусов, а также статистических и нейронных методов представляет собой область большого роста, которая обеспечивает переводы высшего качества; учитываются различия в языковой типологии, переводе идиоматических выражений и выделении аномалий.


Сегодня программное обеспечение для машинного перевода часто допускает корректировку для специализированной области (например, прогнозов погоды или пресс-релизов), что позволяет достичь лучших результатов. Этот метод особенно эффективен в условиях, когда используется шаблонный язык. Другими словами, перевод юридических или административных документов с помощью компьютера, как правило, более продуктивный, чем разговоры или другие нестандартные тексты.


Некоторые системы достигают более высокого качества, предлагая определенные возможности вмешательства человека; например, они дают пользователю возможность идентифицировать имена собственные, включенные в текст. С помощью этих методов машинный перевод становится очень полезным инструментом для переводчиков и в некоторых случаях может даже давать полезные результаты без необходимости модификации.

Index

  • 1 Tehnici statistice

  • 2 Tehnici statistice interactiv-predictive


  • 3 Traducerea ca o problemă

  • 3.1 Știri

  • 4 Traducere tradițională

  • 5 Ambiguitate și dezambiguizare


  • 6 Metode statistice bazate pe propoziții


  • 7 Istoricul traducerii automate

  • 7.1 Secolul al XVII-lea: Descartes

  • 7.2 Anii 1950: experimentul Georgetown

  • 7.3 Războiul mondial

  • 7.4 1960-1980: Raport ALPAC și traducere automată statistică

  • 7.5 A. D. Booth, Colegiul Birkbeck și texte Braille

  • 7.6 John Hutchins

  • 8 tipuri de traducere automată

  • 8.1 Traducere automată bazată pe reguli

  • 8.1.1 Transfer

  • 8.1.2 Limbă intermediară

  • 8.2 Traducere automată bazată pe corpus

  • 8.2.1 Statistici

  • 8.2.2 Pe baza exemplelor

  • 8.3 Traducere automată bazată pe context

  • 9 Traducere automată în Spania

  • 10 resurse de traducere automată


  • 11 Vezi de asemenea

  • 12 Referințe

  • 13 Bibliografie

  • 14 link-uri externe

Index

  • 1 Statistical techniques

  • 2 Interactive-predictive statistical techniques

  • 3 Translation as a problem

  • 3.1 News

  • 4 Traditional translation

  • 5 Ambiguity and disambiguation


  • 6 Sentence-Based Statistical Methods


  • 7 History of machine translation

  • 7.1 17th century: Descartes

  • 7.2 1950s: Georgetown experiment


  • 7.3 World War

  • 7.4 1960-1980: ALPAC report and statistical machine translation

  • 7.5 A. D. Booth, Birkbeck College and Braille texts

  • 7.6 John Hutchins

  • 8 Types of machine translation

  • 8.1 Rule-Based Machine Translation


  • 8.1.1 Transfer

  • 8.1.2 Intermediate language

  • 8.2 Corpus-based machine translation


  • 8.2.1 Statistics

  • 8.2.2 Based on examples

  • 8.3 Context-based machine translation


  • 9 Machine translation in Spain

  • 10 Machine Translation Resources


  • 11 See also

  • 12 References

  • 13 Bibliography

  • 14 external links

Индекс

  • 1 Статистические методы

  • 2 Интерактивно-прогностические статистические методы

  • 3 Перевод как проблема

  • 3.1 Новости

  • 4 Традиционный перевод

  • 5 Неоднозначность и неоднозначность

  • 6 статистических методов на основе предложений

  • 7 История машинного перевода

  • 7.1 17 век: Декарт

  • 7.2 1950-е: Джорджтаунский эксперимент

  • 7.3 Мировая война

  • 7.4 1960-1980: отчет ALPAC и статистический машинный перевод

  • 7.5 AD Booth, Birkbeck College и тексты Брайля

  • 7.6 Джон Хатчинс

  • 8 типов машинного перевода

  • 8.1 Машинный перевод на основе правил

  • 8.1.1 Передача

  • 8.1.2 Промежуточный язык

  • 8.2 Машинный перевод на основе корпуса

  • 8.2.1 Статистика

  • 8.2.2 На основе примеров

  • 8.3 Контекстный машинный перевод


  • 9 Машинный перевод в Испании

  • 10 ресурсов по машинному переводу


  • 11 См. также

  • 12 ссылок

  • 13 Библиография

  • 14 внешних ссылок

Técnicas estadísticas


En las últimas décadas, ha habido un fuerte impulso en el uso de técnicas estadísticas para el desarrollo de sistemas de traducción automática. Para la aplicación de estas técnicas a un par de lenguas dado, se requiere la disponibilidad de un corpus paralelo para dicho par.



Mediante este corpus se estiman parámetros de sendos modelos estadísticos que establecen la probabilidad con la que ciertas palabras son susceptibles de traducirse por otras, así como las posiciones más probables que tienden a ocupar las palabras de la lengua destino en función de las palabras correspondientes de la frase origen.



El atractivo de estas técnicas radica en que el desarrollo de un sistema para un par de lenguas dado puede hacerse de manera muy automática, con una muy reducida necesidad de trabajo experto por parte de especialistas en lingüística.



La intervención humana puede mejorar la calidad de la salida: por ejemplo, algunos sistemas pueden traducir con mayor exactitud, si el usuario ha identificado previamente las palabras que corresponden a nombres propios.


Con la ayuda de estas técnicas, la traducción por computadora ha mostrado ser un auxiliar útil para los traductores humanos.


Sin embargo, y aun cuando en algunos casos pueden producir resultados utilizables «tal cual», los sistemas actuales son incapaces de producir resultados de la misma calidad que un traductor humano, particularmente cuando el texto a traducir usa lenguaje coloquial o familiar.




Por otro lado, es un hecho que las traducciones humanas también contienen errores.


Como respuesta a esto, recientemente se han visto desarrollos en corrección automática de TA, como el caso de la funcionalidad SmartCheck de la empresa de traducción Unbabel, basada en Machine Learning.

(1.770 bytes)

Tehnici statistice


În ultimele decenii, a existat un impuls puternic în utilizarea tehnicilor statistice pentru dezvoltarea sistemelor de traducere automată. Pentru aplicarea acestor tehnici la o anumită pereche de limbi, este necesară disponibilitatea unui corpus paralel pentru respectiva pereche.



Folosind acest corpus, sunt estimați parametrii a două modele statistice care stabilesc probabilitatea cu care anumite cuvinte sunt susceptibile de a fi traduse de către alții, precum și pozițiile cele mai probabile pe care cuvintele limbii țintă tind să le ocupe pe baza cuvintelor corespunzătoare de limba țintă.fraza sursă.




Atractia acestor tehnici consta in faptul ca dezvoltarea unui sistem pentru o anumita pereche de limbi se poate face foarte automat, cu foarte putina nevoie de munca experta a specialistilor lingvisti.




Intervenția umană poate îmbunătăți calitatea rezultatelor: de exemplu, unele sisteme pot traduce mai precis, dacă utilizatorul a identificat anterior cuvintele care corespund numelor proprii.



Cu ajutorul acestor tehnici, traducerea pe computer s-a dovedit a fi un ajutor util pentru traducătorii umani.



Cu toate acestea, chiar dacă în unele cazuri pot produce rezultate utilizabile „ca atare”, sistemele actuale nu pot produce rezultate de aceeași calitate ca un traducător uman, în special atunci când textul care urmează să fie tradus folosește un limbaj colocvial sau familiar.




Pe de altă parte, este un fapt că traducerile umane conțin și erori.



Ca răspuns la aceasta, au fost observate evoluții recente în corecția automată a MT, cum ar fi funcționalitatea SmartCheck a companiei de traduceri Unbabel, bazată pe Machine Learning.

Statistical techniques


In recent decades, there has been a strong push in the use of statistical techniques for the development of machine translation systems. For the application of these techniques to a given pair of languages, the availability of a parallel corpus for said pair is required.



Using this corpus, parameters of two statistical models are estimated that establish the probability with which certain words are likely to be translated by others, as well as the most probable positions that the words of the target language tend to occupy based on the corresponding words of the target language. source phrase.




The appeal of these techniques lies in the fact that the development of a system for a given language pair can be done very automatically, with very little need for expert work by linguistic specialists.




Human intervention can improve the quality of the output: for example, some systems can translate more accurately, if the user has previously identified the words that correspond to proper names.



With the help of these techniques, computer translation has proven to be a useful aid to human translators.



However, even though in some cases they can produce usable results “as is”, current systems are unable to produce results of the same quality as a human translator, particularly when the text to be translated uses colloquial or familiar language.





On the other hand, it is a fact that human translations also contain errors.



In response to this, recent developments have been seen in automatic correction of MT, such as the SmartCheck functionality of the translation company Unbabel, based on Machine Learning.

Статистические методы


В последние десятилетия наблюдается сильный толчок в использовании статистических методов для разработки систем машинного перевода. Для применения этих методов к данной паре языков требуется наличие параллельного корпуса для указанной пары.


С помощью этого корпуса оцениваются параметры двух статистических моделей, которые устанавливают вероятность, с которой одни слова могут быть переведены другими, а также наиболее вероятные позиции, которые слова целевого языка стремятся занять на основе соответствующих слов языка перевода. целевой язык исходная фраза.


Привлекательность этих методов заключается в том факте, что разработка системы для данной языковой пары может выполняться очень автоматически, с очень небольшой потребностью в экспертной работе специалистов-лингвистов.


Вмешательство человека может улучшить качество вывода: например, некоторые системы могут переводить более точно, если пользователь заранее идентифицировал слова, соответствующие именам собственным.


С помощью этих методов компьютерный перевод оказался полезным помощником для переводчиков-людей.



Однако даже несмотря на то, что в некоторых случаях они могут давать пригодные для использования результаты «как есть», современные системы не могут давать результаты того же качества, что и человек-переводчик, особенно когда в переводимом тексте используется разговорный или знакомый язык.


С другой стороны, это факт, что человеческие переводы также содержат ошибки.


В ответ на это были замечены недавние разработки в области автоматического исправления МП, такие как функция SmartCheck переводческой компании Unbabel, основанная на машинном обучении.

Técnicas estadísticas interactivas-predictivas


En esta dirección, recientemente están cobrando especial interés las técnicas estadísticas de traducción asistida basadas en una aproximación interactiva-predictiva, en la que el computador y el traductor humano trabajan en estrecha colaboración mutua.



Tomando como base el texto fuente a traducir, el sistema ofrece sugerencias sobre posibles traducciones a la lengua destino.


Si alguna de estas sugerencias es aceptable, el usuario la selecciona y, en caso contrario, corrige lo necesario hasta obtener un fragmento correcto.



A partir de este fragmento, el sistema produce mejores predicciones.


El proceso continúa de esta manera hasta obtener una traducción completamente aceptable por el usuario.



Según las evaluaciones realizadas con usuarios reales en el proyecto TransType-2,1​ este proceso permite reducir considerablemente el tiempo y esfuerzo necesarios para obtener traducciones de calidad.

(948 bytes)

Tehnici statistice interactiv-predictive



În această direcție, au căpătat recent un interes deosebit tehnicile de traducere statistică asistată bazate pe o abordare interactiv-predictivă, în care calculatorul și traducătorul uman lucrează în strânsă colaborare reciprocă.




Pe baza textului sursă care urmează să fie tradus, sistemul oferă sugestii privind posibilele traduceri în limba țintă.



Dacă oricare dintre aceste sugestii este acceptabilă, utilizatorul o selectează și, dacă nu, corectează ceea ce este necesar până la obținerea unui fragment corect.



Din acest fragment, sistemul produce predicții mai bune.


Procesul continuă în acest fel până când se obține o traducere care este complet acceptabilă pentru utilizator.



Conform evaluărilor efectuate cu utilizatori reali în proiectul TransType-2,1 acest proces permite reducerea considerabilă a timpului și efortului necesar obținerii unor traduceri de calitate.

Interactive-predictive statistical techniques


In this direction, statistical assisted translation techniques based on an interactive-predictive approach, in which the computer and the human translator work in close mutual collaboration, have recently gained special interest.




Based on the source text to be translated, the system offers suggestions on possible translations into the target language.



If any of these suggestions is acceptable, the user selects it and, if not, corrects what is necessary until obtaining a correct fragment.



From this fragment, the system produces better predictions.


The process continues in this way until a translation that is completely acceptable to the user is obtained.



According to the evaluations carried out with real users in the TransType-2 project,1 this process allows to considerably reduce the time and effort necessary to obtain quality translations.

Интерактивно-прогностические статистические методы


В этом направлении в последнее время особый интерес вызывают статистические методы перевода, основанные на интерактивно-предиктивном подходе, при котором компьютер и человек-переводчик работают в тесном взаимном сотрудничестве.


На основе исходного текста, который необходимо перевести, система предлагает возможные варианты перевода на целевой язык.


Если какое-либо из этих предложений приемлемо, пользователь выбирает его и, если нет, исправляет то, что необходимо, до получения правильного фрагмента.


Из этого фрагмента система выдает лучшие прогнозы.


Процесс продолжается таким образом до тех пор, пока не будет получен перевод, полностью приемлемый для пользователя.


Согласно оценкам, проведенным с реальными пользователями в проекте TransType-21, этот процесс позволяет значительно сократить время и усилия, необходимые для получения качественных переводов.

La traducción como problema


La traducción es hoy en día el principal cuello de botella de la sociedad de la información y su mecanización supone un importante avance frente al problema de la avalancha informativa y la necesidad de la comunicación translingüística.




Los primeros desarrollos informáticos reseñables se realizaron en el famoso ordenador Eniac en 1946.


Entre los investigadores pioneros hay que citar a Warren Weaver, de la Fundación Rockefeller.


Él fue quien dio a conocer públicamente la disciplina anticipando posibles métodos científicos para abordarla: el uso de técnicas criptográficas, la aplicación de los teoremas de Shannon y la utilidad de la estadística, así como la posibilidad de aprovechar la lógica subyacente al lenguaje humano y sus aparentes propiedades universales.

(799 bytes)

Traducerea ca o problemă


Traducerea este astăzi principalul blocaj al societății informaționale și mecanizarea acesteia reprezintă un progres important în fața problemei avalanșei informaționale și a necesității comunicării translingvistice.





Primele dezvoltări informatice demne de remarcat au fost realizate în celebrul computer Eniac în 1946.



Dintre cercetătorii de pionierat trebuie să îl amintim pe Warren Weaver, de la Fundația Rockefeller.


El a fost cel care a făcut cunoscută public disciplina, anticipând posibilele metode științifice de abordare a ei: utilizarea tehnicilor criptografice, aplicarea teoremelor lui Shannon și utilitatea statisticii, precum și posibilitatea de a profita de logica de bază a omului. limbajul și aparentele sale proprietăți universale.

Translation as a problem


Translation is today the main bottleneck of the information society and its mechanization represents an important advance in the face of the problem of the information avalanche and the need for translinguistic communication.




The first noteworthy computer developments were made in the famous Eniac computer in 1946.



Among the pioneering researchers we must mention Warren Weaver, from the Rockefeller Foundation.


He was the one who made the discipline publicly known, anticipating possible scientific methods to approach it: the use of cryptographic techniques, the application of Shannon's theorems and the usefulness of statistics, as well as the possibility of taking advantage of the underlying logic of human language and its apparent universal properties.

Перевод как проблема


Перевод сегодня является главным узким местом информационного общества, и его механизация представляет собой важный шаг вперед перед лицом проблемы информационной лавины и необходимости транслингвистической коммуникации.


Первые заслуживающие внимания компьютерные разработки были сделаны в знаменитом компьютере Eniac в 1946 году.


Среди исследователей-первопроходцев следует упомянуть Уоррена Уивера из Фонда Рокфеллера.


Он был тем, кто сделал эту дисциплину общеизвестной, предвидя возможные научные подходы к ней: использование криптографических методов, применение теорем Шеннона и полезность статистики, а также возможность использования в своих интересах лежащей в основе логики человеческого разума. язык и его очевидные универсальные свойства.

Actualidad


En la actualidad se obtienen altos niveles de calidad para la traducción entre lenguas romances (español, portugués, catalán, gallego y otros).



Sin embargo, los resultados empeoran notablemente cuanto más tipológicamente alejadas sean las lenguas entre sí, como es el caso de la traducción entre español e inglés o alemán.


Sin embargo, este hecho no es estático, sino dinámico: la tecnología de traducción mejora día a día.


Otro factor muy influyente en la calidad es el grado de especialización de los sistemas de traducción, que mejoran en la medida en que se adecúan al tipo de texto y vocabulario que se vaya a traducir. Un sistema que se especialice en la traducción de partes meteorológicos conseguirá una calidad aceptable incluso para traducir textos entre lenguas tipológicamente muy dispares, pero será inservible para abordar, por ejemplo, crónicas deportivas o financieras. Un sistema de producción que utilice traducción automática también incorporará tecnologías como detección de idioma, detección de dominio o tema y generación automática de vocabularios.

(1.083 bytes)

Prezent

În prezent, se obțin niveluri de înaltă calitate pentru traducerea între limbile romanice (spaniola, portugheză, catalană, galizică și altele).


Cu toate acestea, rezultatele se înrăutățesc semnificativ cu cât limbile sunt mai îndepărtate tipologic una de cealaltă, așa cum este cazul traducerii dintre spaniolă și engleză sau germană.

Cu toate acestea, acest fapt nu este static, ci dinamic: tehnologia de traducere se îmbunătățește zi de zi.


Un alt factor de mare influență în calitate este gradul de specializare a sistemelor de traducere, care se îmbunătățesc în măsura în care sunt adaptate tipului de text și vocabularului de tradus. Un sistem specializat în traducerea rapoartelor meteo va atinge o calitate acceptabilă chiar și pentru traducerea textelor între limbi foarte disparate din punct de vedere tipologic, dar va fi inutil pentru a se ocupa de rapoartele sportive sau financiare, de exemplu. Un sistem de producție care utilizează traducerea automată va încorpora, de asemenea, tehnologii precum detectarea limbii, detectarea domeniului sau a subiectului și generarea automată a vocabularului.

Present


Currently, high quality levels are obtained for translation between Romance languages ​​(Spanish, Portuguese, Catalan, Galician and others).



However, the results worsen significantly the more typologically distant the languages ​​are from each other, as is the case of the translation between Spanish and English or German.


However, this fact is not static, but dynamic: translation technology improves day by day.


Another highly influential factor in quality is the degree of specialization of the translation systems, which improve to the extent that they are adapted to the type of text and vocabulary to be translated. A system that specializes in translating weather reports will achieve acceptable quality even for translating texts between typologically very disparate languages, but it will be useless for dealing with sports or financial reports, for example. A production system that uses machine translation will also incorporate technologies such as language detection, domain or subject detection, and automatic vocabulary generation.

Подарок


В настоящее время высокие уровни качества получены для перевода между романскими языками (испанский, португальский, каталонский, галисийский и другие).


Однако результаты значительно ухудшаются по мере того, как языки типологически далеки друг от друга, как в случае перевода между испанским и английским или немецким языками.


Однако этот факт не статичен, а динамичен: технологии перевода совершенствуются день ото дня.


Другим очень влиятельным фактором качества является степень специализации систем перевода, которая улучшается по мере того, как они адаптируются к типу текста и словарного запаса, которые необходимо перевести. Система, специализирующаяся на переводе сводок погоды, будет иметь приемлемое качество даже для перевода текстов между типологически очень разными языками, но будет бесполезна, например, для работы со спортивными или финансовыми отчетами. Производственная система, использующая машинный перевод, также будет включать такие технологии, как определение языка, определение домена или предмета и автоматическое создание словаря.

Suplemento recomendado por admin / Supliment recomandat de admin:

Traducción automatica - YouTube .

Traducción tradicional.


Traducir tradicionalmente ha sido un arte y un oficio, que requiere talento y dedicación.



Una crítica común al cambio de paradigma de traducción consiste en pensar que las computadoras solo sustituyen una palabra por otra igual de otro idioma.


Sin embargo, sistemas de TA en producción son integraciones de diferentes tecnologías lingüísticas que van mucho más allá de traducir palabra por palabra.


Un análisis lingüístico de un texto arrojará información sobre morfología (la forma en que se construyen las palabras a partir de pequeñas unidades provistas de significado), sintaxis (la estructura de una frase) y semántica (el significado), lo cual ciertamente es útil para tareas de traducción.

También hay que considerar cuestiones de estilo y de discurso o pragmáticas.

(796 bytes)

traducere tradițională


Traducerea a fost în mod tradițional o artă și o meserie care necesită talent și dăruire.



O critică comună la adresa schimbării paradigmei traducerii este de a crede că computerele înlocuiesc doar un cuvânt cu același cuvânt dintr-o altă limbă.


Cu toate acestea, sistemele MT în producție sunt integrări ale diferitelor tehnologii lingvistice care depășesc cu mult traducerea cuvânt cu cuvânt.



O analiză lingvistică a unui text va oferi informații despre morfologie (modul în care cuvintele sunt construite din unități mici semnificative), sintaxă (structura unei propoziții) și semantică (sensul), care este cu siguranță utilă pentru sarcinile de traducere.


Există, de asemenea, probleme de stil și discurs sau pragmatică de luat în considerare.

traditional translation


Translating has traditionally been an art and a craft that requires talent and dedication.


A common criticism of the translation paradigm shift is to think that computers only substitute one word for the same word from another language.


However, MT systems in production are integrations of different linguistic technologies that go far beyond translating word for word.



A linguistic analysis of a text will yield information on morphology (the way words are constructed from small meaningful units), syntax (the structure of a sentence), and semantics (the meaning), which is certainly useful for translation tasks.



There are also issues of style and discourse or pragmatics to consider.

традиционный перевод


Перевод традиционно был искусством и ремеслом, требующим таланта и самоотверженности.


Обычная критика смены парадигмы перевода состоит в том, что компьютеры думают, что компьютеры только заменяют одно и то же слово из другого языка одним словом.

Однако системы машинного перевода в производстве представляют собой интеграцию различных лингвистических технологий, которые выходят далеко за рамки дословного перевода.


Лингвистический анализ текста даст информацию о морфологии (способе построения слов из небольших значимых единиц), синтаксисе (структуре предложения) и семантике (значении), что, безусловно, полезно для задач перевода.


Есть также вопросы стиля и дискурса или прагматики, которые следует учитывать.

Ambigüedad y desambiguación

Véase también:

Wikipedia:Desambiguación


En cuanto al tema de la ambigüedad, no todos los humanos la entienden.


Es posible que un traductor humano comprenda incorrectamente una frase o palabra ambigua.

A favor del enfoque computacional, podemos mencionar el uso de algoritmos de desambiguación que, por ejemplo, utiliza Wikipedia para diferenciar páginas que tienen un título igual o muy similar.

(423 bytes)

Ambiguitate și dezambiguizare

Vezi și:

Wikipedia:Dezambiguare


În ceea ce privește problema ambiguității, nu toți oamenii o înțeleg.


Este posibil ca un traducător uman să înțeleagă incorect un cuvânt sau o expresie ambiguă.


În favoarea abordării computaționale, putem aminti folosirea algoritmilor de dezambiguizare pe care, de exemplu, Wikipedia îi folosește pentru a diferenția paginile care au același titlu sau foarte asemănător.

Ambiguity and disambiguation

See also:

Wikipedia:Disambiguation


As for the issue of ambiguity, not all humans understand it.


It is possible for a human translator to incorrectly understand an ambiguous word or phrase.


In favor of the computational approach, we can mention the use of disambiguation algorithms that, for example, Wikipedia uses to differentiate pages that have the same or very similar title.

Неоднозначность и неоднозначность

См. Также:

Википедия: Многозначность


Что же касается вопроса двусмысленности, то не все люди его понимают.

Человек-переводчик может неправильно понять неоднозначное слово или фразу.


В пользу вычислительного подхода можно упомянуть использование алгоритмов устранения неоднозначности, которые, например, Википедия использует для различения страниц с одинаковым или очень похожим заголовком.

Lectura suplementar / Lectură suplimentară:

La traducción automatica y sus ventajas / Traducerea automata si avantajele sale.

Métodos estadísticos basados en frases


Los mejores resultados de traducción automática provienen de los métodos estadísticos basados en frases, que realizan traducciones sin reparar en cuestiones gramaticales.



En la actualidad, la tendencia es a integrar todo tipo de metodologías: lingüísticas, por reglas, con posedición, etcétera, pero el componente principal, como en la mayoría de tecnologías que utilizan grandes cantidades de datos (Big Data), es Aprendizaje Automático (o Machine Learning).

(498 bytes)

Metode statistice bazate pe fraze



Cele mai bune rezultate de traducere automată provin din metodele statistice bazate pe fraze, care efectuează traduceri indiferent de problemele gramaticale.




În prezent, tendința este de a integra tot felul de metodologii: lingvistice, prin reguli, cu post-editare etc., dar componenta principală, ca și în majoritatea tehnologiilor care folosesc cantități mari de date (Big Data), este Machine Learning ( sau învățare automată).

Phrase-based statistical methods



The best machine translation results come from phrase-based statistical methods, which perform translations regardless of grammatical issues.




Currently, the trend is to integrate all kinds of methodologies: linguistic, by rules, with post-editing, etc., but the main component, as in most technologies that use large amounts of data (Big Data), is Machine Learning ( or machine learning).

Статистические методы на основе фраз


Наилучшие результаты машинного перевода получаются при использовании статистических методов на основе фраз, которые выполняют перевод независимо от грамматических проблем.


В настоящее время в тренде интеграция всевозможных методологий: лингвистических, по правилам, с постредактированием и т.д., но основным компонентом, как и в большинстве технологий, использующих большие объемы данных (Big Data), является Machine Learning (или машинное обучение).

Historia de la traducción automática


Siglo xvii: Descartes

La idea de la traducción automática puede remontarse al siglo XVII. En 1629, René Descartes propuso un lenguaje universal, con las ideas equivalentes en lenguas diferentes que comparten un mismo símbolo.

Istoria traducerii automate



Secolul al XVII-lea: Descartes

Ideea traducerii automate poate fi urmărită încă din secolul al XVII-lea. În 1629, René Descartes a propus o limbă universală, cu idei echivalente în diferite limbi care au același simbol.

History of machine translation


17th century: Descartes

The idea of machine translation can be traced back to the 17th century. In 1629, René Descartes proposed a universal language, with equivalent ideas in different languages that share the same symbol.

История машинного перевода


17 век: Декарт

Идея машинного перевода восходит к 17 веку. В 1629 году Рене Декарт предложил универсальный язык с эквивалентными идеями в разных языках, использующих один и тот же символ.

Década de 1950: experimento de Georgetown


En la década de 1950, el experimento de Georgetown (1954) consistía en una traducción totalmente automática de más de sesenta oraciones del ruso al inglés.



El experimento fue todo un éxito y marcó el comienzo de una era con una importante financiación para la investigación de tecnologías que permitiesen la traducción automática.


Los autores afirmaban que, en un plazo de tres a cinco años, la traducción automática sería un problema resuelto.

1950: experimentul Georgetown


În anii 1950, experimentul de la Georgetown (1954) a implicat o traducere complet automatizată a mai mult de șaizeci de propoziții din rusă în engleză.



Experimentul a fost un succes complet și a inaugurat o eră de finanțare semnificativă a cercetării pentru tehnologiile care ar permite traducerea automată.



Autorii au susținut că în termen de trei până la cinci ani, traducerea automată ar fi o problemă rezolvată.

1950s: Georgetown experiment


In the 1950s, the Georgetown experiment (1954) involved a fully automated translation of more than sixty sentences from Russian into English.




The experiment was a complete success and ushered in an era of significant research funding for technologies that would enable machine translation.




The authors claimed that within three to five years machine translation would be a solved problem.

1950-е: Джорджтаунский эксперимент


В 1950-х годах в Джорджтаунском эксперименте (1954) был полностью автоматизирован перевод более шестидесяти предложений с русского на английский язык.


Эксперимент увенчался полным успехом и открыл эру значительного финансирования исследований в области технологий, обеспечивающих машинный перевод.


Авторы утверждали, что в течение трех-пяти лет проблема машинного перевода будет решена.

Guerra Mundial


El mundo salía de una guerra mundial que en el plano científico había incentivado el desarrollo de métodos computacionales para descifrar mensajes en clave.


A Weaver se le atribuye haber dicho: "Cuando veo un artículo escrito en ruso, me digo: Esto en realidad está en inglés, aunque codificado con símbolos extraños. ¡Vamos a decodificarlo ahora mismo!" (citado por Barr y Feigenbaum, 1981).


No hace falta decir que tanto los ordenadores como las técnicas de programación de aquellos años eran muy rudimentarias (se programaba mediante el cableado de tableros en lenguaje máquina), por lo que las posibilidades reales de probar los métodos eran mínimas.

Razboi mondial


Lumea ieșea dintr-un război mondial care încurajase din punct de vedere științific dezvoltarea metodelor de calcul pentru a descifra mesajele criptate.


Weaver este creditat că a spus: „Când văd un articol scris în rusă, îmi spun: Acesta este de fapt în engleză, deși codificat cu simboluri ciudate. Să-l decodificăm chiar acum!” (citat de Barr și Feigenbaum, 1981).


Este de la sine înțeles că atât calculatoarele, cât și tehnicile de programare din acei ani erau foarte rudimentare (era programată prin plăci de cablare în limbaj mașină), așa că posibilitățile reale de testare a metodelor erau minime.

World War


The world was coming out of a world war that scientifically had encouraged the development of computational methods to decipher encrypted messages.


Weaver is credited with saying, "When I see an article written in Russian, I say to myself: This is actually in English, albeit encoded with strange symbols. Let's decode it right now!" (cited by Barr and Feigenbaum, 1981).


It goes without saying that both the computers and the programming techniques of those years were very rudimentary (it was programmed by wiring boards in machine language), so the real possibilities of testing the methods were minimal.

Мировая война


Мир выходил из мировой войны, которая с научной точки зрения стимулировала разработку вычислительных методов для расшифровки зашифрованных сообщений.


Уиверу приписывают высказывание: «Когда я вижу статью, написанную на русском языке, я говорю себе: это на самом деле на английском, хотя и закодировано странными символами. Давайте расшифруем это прямо сейчас!» (цитируется Барром и Фейгенбаумом, 1981).


Само собой разумеется, что и компьютеры, и методы программирования тех лет были очень рудиментарными (программировалось монтажными платами на машинном языке), поэтому реальные возможности проверки методов были минимальны.