Dezambiguizare /

Desambiguación

Page start up on 22.11.2022_11.52 (UTC+1 / Paterna, España)

Column 2.

Machine translation.

ambiguitate

  • nedeterminare, confuzie, neînțelegere, obscuritate, ocolire, denaturare, amfibologie, joc de cuvinte, calambur, dublu sens, joc de cuvinte

  • Antonime: claritate, precizie

Column 3.

Admin translation.

ambiguitate

  • indeterminare, confuzie, echivocare, obscuritate, ocolire, denaturare, amfibologie, suspiciozitate, calambur, dublu sens, joc de cuvinte

  • Antonime: claritate, precizie

En el ámbito de la lingüística computacional, la desambiguación del significado de las palabras es un problema abierto de procesamiento del lenguaje natural, que incluye el proceso de identificar con qué sentido se usa una palabra en los términos de una oración, o cuando la palabra en cuestión tiene polisemia, es decir, una pluralidad de significados.

La solución de este problema afecta a otras tareas de la lingüística computacional, tales como el discurso, la mejora de la relevancia en los motores de búsqueda, la resolución de referencia, la coherencia textual (lingüística), la inferencia, y otros. (607 bytes)

In the field of computational linguistics, word meaning disambiguation is an open natural language processing problem, which includes the process of identifying in what sense a word is used in the terms of a sentence, or when the word in question has polysemy, that is, a plurality of meanings.

Solving this problem affects other tasks in computational linguistics, such as discourse, search engine relevancy improvement, reference resolution, textual coherence (linguistics), inference, and others.

În domeniul lingvisticii computaționale, dezambiguizarea sensului cuvântului este o problemă deschisă de procesare a limbajului natural, care include procesul de identificare în ce sens este folosit un cuvânt în termenii unei propoziții sau când cuvântul în cauză are polisemie, adică o pluralitate de sensuri.

Rezolvarea acestei probleme afectează alte sarcini din lingvistica computațională, cum ar fi discursul, îmbunătățirea relevanței motorului de căutare, rezoluția referințelor, coerența textuală (lingvistică), inferența și altele.

В области компьютерной лингвистики устранение неоднозначности значения слова — это открытая проблема обработки естественного языка, которая включает в себя процесс определения того, в каком смысле слово используется в терминах предложения или когда рассматриваемое слово имеет полисемию, то есть множественность смыслов.

Решение этой проблемы влияет на другие задачи компьютерной лингвистики, такие как дискурс, повышение релевантности поисковой системы, разрешение ссылок, согласованность текста (лингвистика), вывод и другие.

Index

1 difficulties

1.1 Algorithm development

1.2 Relationship between the meanings

1.3 Dictionaries and thesauri

1.4 Variance of the internal judge: coarse and fine granularity

1.5 Artificial intelligence and common sense

2 Approaches

2.1 Deep focus

2.2 Superficial approaches

2.2.1 Bayes classifiers and decision trees

2.3 The problem word

2.4 Availability of training data

3 See also

4 Notes

5 References

6 external links

Index

1 dificultati

1.1 Dezvoltarea algoritmului

1.2 Relația dintre semnificații

1.3 Dicționare și tezaure

1.4 Varianta arbitrului intern: granularitate grosieră și fină

1.5 Inteligența artificială și bunul simț

2 Abordări

2.1 Focalizare profundă

2.2 Abordări superficiale

2.2.1 Clasificatori Bayes și arbori de decizie

2.3 Cuvântul problemă

2.4 Disponibilitatea datelor de antrenament

3 Vezi de asemenea

4 Note

5 Referințe

6 link-uri externe

Индекс

1 трудности

1.1 Разработка алгоритма

1.2 Связь между значениями

1.3 Словари и тезаурусы

1.4 Вариация внутреннего судьи: грубая и мелкая зернистость

1.5 Искусственный интеллект и здравый смысл

2 подхода

2.1 Глубокий фокус

2.2 Поверхностные подходы

2.2.1 Байесовские классификаторы и деревья решений

2.3 Проблемное слово

2.4 Доступность обучающих данных

3 См. также

4 примечания

5 ссылок

6 внешних ссылок

Dificultades

Si se consideran dos ejemplos de los diferentes significados que existen para la palabra "vela":

  1. Cilindro de cera o sebo, atravesado por una mecha que se prende para alumbrar.

  2. Pieza de lona o lienzo fuerte que, atada a las vigas, recibe el viento que impulsa la nave.

y las oraciones:

  1. Puso dos velas a San Pancracio.

  2. Los egipcios fueron los primeros constructores de barcos de vela de los que se tiene noticia.

(425 bytes)

Difficulties

If two examples of the different meanings that exist for the word "candle" are considered:

  1. Cylinder of wax or tallow, crossed by a wick that is lit to light.

  2. Piece of canvas or strong canvas that, tied to the beams, receives the wind that drives the ship.

and the sentences:

  1. He put two candles to San Pancracio.

  2. The Egyptians were the first known sailboat builders.

Dificultăți

Dacă sunt luate în considerare două exemple de semnificații diferite care există pentru cuvântul „lumânare”:

  1. Cilindru de ceară sau seu, străbătut de un fitil care se aprinde la lumină.

  2. Bucată de pânză sau pânză puternică care, legată de grinzi, primește vântul care împinge nava.

si propozitiile:

  1. A pus două lumânări lui San Pancracio.

  2. Egiptenii au fost primii constructori cunoscuți de bărci cu pânze.

Трудности

Если рассмотреть два примера различных значений слова «свеча»:

  1. Цилиндр из воска или сала, пересеченный зажженным фитилем.

  2. Кусок брезента или прочного брезента, который, привязанный к балкам, воспринимает ветер, гоняющий корабль.

и предложения:

  1. Он поставил две свечи Сан-Панкрасио.

  2. Египтяне были первыми известными строителями парусников.

Desarrollo de algoritmos


Para un ser humano, es evidente que en la primera frase se utilice la palabra "vela", como primer significado, y en la segunda frase, la palabra "vela" está siendo utilizada con el segundo. El desarrollo de algoritmos para reproducir esta capacidad humana (desambiguar el significado) a menudo puede ser una tarea muy difícil. (351 bytes)




Relación entre los significados


En casos como el presentado, al menos algunos significados son diferentes. Sin embargo, en otros casos los diferentes significados pueden estar estrechamente relacionados (al ser un significado una extensión metafórica metonímica de otro) y, en tales casos, la división de las palabras a sus significados se vuelve aún mucho más difícil.

(369 bytes)




Diccionarios y tesauros


Los diccionarios y los tesauros proporcionan diferentes divisiones de las palabras en sus significados. Una solución que algunos investigadores han usado consiste en elegir un diccionario particular, y sólo utilizar el conjunto de significados allí registrados. Sin embargo, los resultados de búsqueda al utilizar distinciones más amplias en los significados han sido mucho mejores. (406 bytes)




Varianza del juez interno: granularidad fina y gruesa


Otro problema es la varianza del juez interno. Los sistemas de desambiguación del significado de la palabra (WSD, por sus siglas en inglés, word sense disambiguation) por lo general se ponen a prueba al comparar sus resultados con los de un ser humano. Sin embargo, si se da una lista de significados y oraciones, los seres humanos no siempre coincidirán en qué palabra pertenece a qué significado. No se puede esperar que una computadora ofrezca un mejor rendimiento en esa tarea que un humano (de hecho, ya que los seres humanos sirven como estándar, el hecho de que el computador sea mejor que el ser humano no tiene sentido), por lo que el rendimiento humano funciona como un límite superior. El rendimiento humano, sin embargo, es mucho mejor en granularidad gruesa que en granularidad fina, así que otra vez ésta es la razón por lo que la investigación sobre las distinciones sobre granularidad gruesa es más útil. (974 bytes)




Inteligencia artificial y sentido común

Algunos investigadores sobre inteligencia artificial, como Douglas Lenat, argumentan que no se pueden analizar los significados de las palabras sin alguna forma de ontología de sentido común. Por ejemplo, compárense estas dos oraciones:

"Jill y María son hermanas." - (Son hermanas entre sí.) "Jill y María son madres." - (Cada una es independientemente una madre.)

Para identificar correctamente los significados de las palabras, hay que conocer los hechos de sentido común. Además, a veces el sentido común es necesario para eliminar la ambigüedad de palabras tales como los pronombres, en caso de que tengan anáforas o catáforas en el texto. (684 bytes)




Enfoques


Como en todo procesamiento del lenguaje natural, existen dos enfoques principales para la desambiguación del significado de la palabra: enfoque profundo y enfoque superficial. (184 bytes)




Enfoque profundo


El enfoque profundo supone el acceso a un amplio conjunto de conocimiento del mundo, que permite determinar en qué sentido se utiliza la palabra. Estos enfoques no son muy exitosos en la práctica, principalmente porque tal cuerpo de conocimientos no existe en un formato legible por el computador, fuera de ámbitos muy limitados. Sin embargo, si ese conocimiento sí existe, entonces los enfoques profundos serían mucho más precisos que los enfoques superficiales. Además, hay una larga tradición en la lingüística computacional, de tratar estos enfoques en términos de conocimientos codificados y en algunos casos, es difícil decir con claridad si el conocimiento en cuestión es lingüístico o conocimiento del mundo. El primer intento fue el de Margaret Masterman y sus colegas, en la Unidad de Investigación del Lenguaje de Cambridge, en Inglaterra, en la década de 1950. Este intento de utilizar como dato una tarjeta perforada, versión del diccionario de sinónimos de Roget y sus cabezas numeradas, como un indicador de los temas y espera para las repeticiones en el texto, utilizando un algoritmo de intersección de conjuntos. No tuvo mucho éxito, como lo describen detalladamente Y. Wilks y sus colaboradores (1996), pero tenía una relación fuerte con el trabajo venidero, especialmente la máquina de Yarowsky para el aprendizaje de optimización de un método de diccionarios de sinónimos en la década de 1990. (1.431 bytes)




Enfoques superficiales


Los enfoques superficiales no tratan de entender el texto, sino que consideran las palabras circundantes, utilizando la información como "si vela tiene las palabras mar o la pesca cerca, probablemente lo es en el sentido de los peces, y si vela tiene las palabras música o canción cerca, es probable que sea en el sentido de la música". Estas reglas se pueden obtener automáticamente por la computadora, utilizando un corpus de formación de palabras con el sentido de las palabras. Este enfoque, en teoría tan poderoso como los enfoques profundos, da mejores resultados en la práctica, debido al limitado conocimiento del mundo del ordenador. Sin embargo, puede ser confundido por otras frases. (717 bytes)




Clasificadores de Bayes y árboles de decisión


Estos criterios establecen normas de trabajo mediante la definición de N palabras del contenido en torno a la ambigüedad de cada palabra en el cuerpo, y el análisis estadístico de las N palabras alrededor. Dos enfoques poco profundos utilizados son los clasificadores de Bayes y árboles de decisión. En una investigación reciente, los métodos basados en el kernel como, por ejemplo, las máquinas de soporte vectorial, han demostrado un rendimiento superior en el aprendizaje supervisado. Pero en los últimos años no ha habido ninguna mejora en el rendimiento de ninguno de estos métodos. (633 bytes)




La palabra problema


Es instructivo comparar la palabra problema en sentido de desambiguación con el problema de la parte del discurso. Ambas implican ambigüedades o etiquetado de las palabras, ya sea con los sentidos o de partes de la oración. Sin embargo, los algoritmos utilizados para uno no suelen funcionar bien para el otro, principalmente porque la parte del discurso de una palabra está determinada principalmente por las dos o tres inmediatamente adyacentes, mientras que el sentido de una palabra puede ser determinado por palabras más alejadas. La tasa de éxito para una parte de los algoritmos de discurso es en la actualidad mucho mayor que la de WSD (la técnica está en torno al 95% de precisión o mejor, en comparación con menos del 75% de precisión en la desambiguación de palabras con aprendizaje supervisado). Estas cifras son comunes en inglés, y pueden ser muy diferentes en otros idiomas. (909 bytes)




Disponibilidad de datos de entrenamiento


Otro aspecto de la desambiguación del sentido de la palabra que la hace diferente es la disponibilidad de datos de entrenamiento. Si bien los usuarios pueden memorizar todas las posibles palabras de las partes del discurso, es imposible para las personas memorizar todos los sentidos que una palabra puede tener. Así, muchos algoritmos utilizan semi-aprendizaje supervisado en la desambiguación en el sentido de la palabra, que permite tanto los datos etiquetados como los que no lo están. El algoritmo de Yarowsky fue un ejemplo de ese tipo de algoritmo, en el cual las palabras tienden a exhibir un solo sentido en el discurso más concreto y en una colocación determinada. (715 bytes)









En el ámbito de la lingüística computacional, la desambiguación del significado de las palabras es un problema abierto de procesamiento del lenguaje natural, que incluye el proceso de identificar con qué sentido se usa una palabra en los términos de una oración, o cuando la palabra en cuestión tiene polisemia, es decir, una pluralidad de significados.

La solución de este problema afecta a otras tareas de la lingüística computacional, tales como el discurso, la mejora de la relevancia en los motores de búsqueda, la resolución de referencia, la coherencia textual (lingüística), la inferencia, y otros. (607 bytes)


În domeniul lingvisticii computaționale, dezambiguizarea sensului cuvântului este o problemă deschisă de procesare a limbajului natural, care include procesul de identificare în ce sens este folosit un cuvânt în termenii unei propoziții sau când cuvântul în cauză are polisemie, adică o pluralitate de sensuri.

Rezolvarea acestei probleme afectează alte sarcini din lingvistica computațională, cum ar fi discursul, îmbunătățirea relevanței motorului de căutare, rezoluția referințelor, coerența textuală (lingvistică), inferența și altele.


În domeniul lingvisticii computaționale, dezambiguizarea semnificației cuvântului este o problemă deschisă de procesare a limbajului natural, care include procesul de identificare a sensului in care este folosit un cuvânt în termenii unei propoziții sau când cuvântul în cauză este polisemic, adică are o pluralitate de semnificatii.

Rezolvarea acestei probleme afectează alte sarcini ale lingvisticii computaționale, cum ar fi discursul, îmbunătățirea relevanței motorului de căutare, rezoluția de referința, coerența textuală (lingvistică), inferența și altele.

























































































Sunt mulți anii de când tot avertizez pe toate canalele posibile mie, că... la fel ca la un joc de puzzle, cui ii lipsesc piese, nu poate întregi imaginea.


În așa ipostază, nici un cetățean nu poate poseda o contextuală înțelegere a Constituției țării căreia ii aparține, nici un cetățean european nu poate avea o contextuală înțelegere asupra legislației Uniunii Europene, iar în particularul caz al celei mai publice activități din Uniunea Europeană... "șoferia profesionistă guvernată de Legislația UE a Tahografului", cui îi lipsește plena înțelegere asupra termenilor respectivelor texte, nu poate emite raționamente decât pe anumite... fracții scoase contextul lor.

Nici un "cetățean al Lumii" nu poate avea o înțelegere de ansamblu asupra acestei adevărate "constituții a întregii Lumi", care este "Carta Universală a Drepturilor de Om", in condițiile în care îi lipsește proprietatea asupra înțelesului atâtor termeni câți am marcat eu cu roșu, în acest adevărat "lac de acumulare... de termeni", care s-a umplut (aproape să dea peste baraj) în cei doar cațiva ani, de când am construit eu... barajul lacului ăsta de acumulare... de termeni lipsa, în încercarea mea de a opri și controla aluviunile.

Ca să poți avea înțelegerea asupra unui context, trebuie să faci o deplină conexiune între toți termenii contextului respectiv.

(1.338 bytes)


Hace muchos años que no vengo advirtiéndome por todos los medios posibles, que... igual que en un juego de puzzle, al que le faltan piezas no puede completar el cuadro.

En tal situación, ningún ciudadano puede tener una comprensión contextual de la Constitución del país al que pertenece, ningún ciudadano europeo puede tener una comprensión contextual de la legislación de la Unión Europea, y en el caso particular de la actividad más pública en la Unión Europea... "conducción profesional regida por la Legislación de Tacógrafos de la UE", que carece de una comprensión completa de los términos de los textos respectivos, solo puede emitir razonamientos sobre ciertas... fracciones fuera de su contexto.

Ningún "ciudadano del mundo" puede tener una comprensión global de esta verdadera "constitución del mundo entero", que es la "Carta Universal de Derechos Humanos", en las condiciones en que carece de apropiación del significado de tantos términos que He marcado en rojo, en este verdadero "depósito... de términos", que se ha llenado (casi a rebosar) en apenas unos años, desde que construí... la presa de este embalse... de falta de términos, en mi intento de detener y controlar el aluvión.

Para poder entender un contexto, debe hacer una conexión completa entre todos los términos de ese contexto.


Son muchos años desde cuando vengo advirtiendo por todos los medios posibles a mí, que... igual que en un juego de puzzle, la persona que le faltan piezas no tiene con que completar el cuadro.

En tal situación, ningún ciudadano puede tener una comprensión contextual de la Constitución del país al que pertenece, ningún ciudadano europeo puede tener una comprensión contextual de la legislación de la Unión Europea, y en el caso particular de la actividad más pública en la Unión Europea... "conducción profesional regida por la Legislación de Tacógrafos de la UE", aquel que carece de una plena comprensión de los términos de los textos respectivos, solo puede emitir razonamientos sobre ciertas... fracciones fuera del contexto de ellas.

Ningún "ciudadano del mundo" puede tener una comprensión global de aquella verdadera "constitución del Mundo entero", que es la "Carta Universal de Derechos Humanos", en las condiciones en que carece de la propiedad del significado de tantos términos que he marcado yo en rojo, en este verdadero "embalse... de términos", que se ha llenado (casi a rebosar) en apenas unos años, desde que construí... la presa de este embalse... de ausentes términos, en mi intento de detener y controlar este aluvión.

Para poder tener comprensión sobre un contexto, debe estar en capacidad de hacer una conexión completa entre todos los términos de ese contexto.