Corpus CELEN - Búsqueda con SQL

Búsqueda con CQL: ejemplos de uso

Para búsquedas más avanzadas, use CQL (Corpus Query Language), que es el lenguaje usado internamente por la aplicación.

Se pueden especificar condiciones de búsqueda en la etiqueta (tag), la forma de la palabra (word), el lema (lemma) o cualquier otro atributo, y también expresar condiciones globales, para que la búsqueda tenga lugar dentro de los límites de la oración, el párrafo o el documento.

A continuación se ilustra su uso mediante algunos ejemplos prácticos. Para saber más sobre el lenguaje CQL, vea la guía de ayuda en la web.

La apócope del adjetivo

Preposición + gerundio

Verbo + preposición

Los tiempos compuestos y las perífrasis verbales

La posición de los cuantificadores

La concordancia

Los verbos con pronombres clíticos

Inicio y final de oración

Las oraciones interrogativas

La última oración de cada documento

Palabras repetidas

Palabras semejantes

La apócope del adjetivo

Para encontrar errores en la apócope del adjetivo, buscamos las formas (word) bueno, primero o tercero seguidas de un sustantivo, con esta expresión:

[word="bueno|primero|tercero"][tag="N.*"]

Cada fragmento entre corchetes representa una palabra (un token). El punto indica "cualquier carácter" y el asterisco "el carácter anterior cero o más veces".

Por lo tanto, tag="N.*" significa "una etiqueta que empieza por N", es decir, un sustantivo. Véase la lista de etiquetas.

Preposición + gerundio

La distinción entre forma y lema no es relevante cuando la palabra no tiene flexión. Por ejemplo, si buscamos una preposición seguida de gerundio obtendremos los mismos resultados con word y lemma.

Verbo + preposición

Cualquier forma del verbo llegar más una preposición:

[lemma="llegar"][tag="S.*"]

Para resumir los resultados, haga clic en el botón Frequency y a continuación en Lemmas KWIC. Puede acceder a los ejemplos de cada combinación mediante el menú local de la derecha, haciendo clic en el icono de tres puntos (...).

Los tiempos compuestos y las perífrasis verbales

Para buscar cualquier forma verbal cuyo lema sea haber seguida por un gerundio:

[lemma="haber"][tag="V.G.*"]

Haber, ir o tener más un verbo en infinitivo: [lemma="haber|ir|tener"][tag="V.N.*"]

La posición de los cuantificadores

Para encontrar ejemplos de la tendencia a colocar el cuantificador pospuesto (bebo café mucho) buscamos un sustantivo seguido de la palabra mucho:

[tag="N.*"][word="mucho"]

Pero con esta búsqueda también obtenemos ejemplos correctos como Subir al avión mucho tiempo. Se pueden excluir los casos en los que aparece un nombre a la derecha con la opción Filter context o bien añadiendo [tag!="N.*"] (cualquier palabra excepto un nombre) a la derecha de la expresión de búsqueda:

[tag="N.*"][word="mucho"][tag!="N.*"]

La concordancia

Esta expresión busca errores de concordancia de género, en los que los aprendices usan un determinante masculino seguido por un nombre femenino:

[tag="D..M.*"][tag="N.F.*"]

Si se hace clic en el botón Frequency de la barra de herramientas y a continuación en Text types, puede verse que estos errores son más frecuentes en el nivel inicial, como es esperable.

Para modificar las condiciones de búsqueda fácilmente, pulse el primer icono de la barra de herramientas, Change criteria. Simplemente cambie M por F para obtener ejemplos de determinante femenino más nombre masculino:

[tag="D..F.*"][tag="N.M.*"]

Se pueden hacer búsquedas semejantes para la concordancia de número, la concordancia entre adjetivo y nombre, etc.

[tag="D...S.*"][tag="N..P.*"]

[tag="D...P.*"][tag="N..S.*"]

Los verbos con pronombres clíticos

Los verbos y los pronombres clíticos (lo, la, les, me, te, etc.) se analizan por separado aunque puedan escribirse juntos (me levanté, lo compro, levantarse, cómpraselo), como se explica en el apartado sobre segmentación. El lema del verbo siempre es el infinitivo, sin pronombres, y por lo tanto:

1) Al buscar las formas de un verbo se recuperan ejemplos con y sin pronombres clíticos. Si escribimos levantar en la caja de búsqueda, obtendremos se levanta, levantar, nos levantamos, levantado...

2) En cambio, si escribimos levantarse en la caja de búsqueda solo recuperaremos la forma literal levantarse.

Si queremos obtener solo los usos pronominales (levantarnos, me levanté, me he levantado, etc.) hay que buscar por separado las ocurrencias de pronombre+verbo y verbo+pronombre.

(1) El pronombre a la izquierda. Primero, buscamos cualquier forma del verbo con el pronombre inmediatamente a la izquierda (nos levantamos) o con un verbo auxiliar entre los dos (me he levantado), con esta expresión:

[tag="PP...0.*"][tag="VA.*"]?[lemma="levantar"]

El signo de interrogación indica que el verbo auxiliar es opcional.

Para extraer los casos en los que el pronombre está más alejado del verbo (me quiero levantar, me puedo levantar, me tengo que levantar, me voy a levantar...) podríamos hacer búsquedas independientes, aunque se trata de un fenómeno muy poco frecuente (no hay ningún caso en el corpus, con el verbo levantar), con expresiones como:

[tag="PP...0.*"][lemma="tener"][word="que"][word="levantar"]

[tag="PP...0.*"][lemma="querer|poder"][word="levantar"]

Otra opción es hacer una búsqueda más general, en la que el pronombre puede aparecer a una distancia de hasta tres tokens a la izquierda del verbo. Para ello basta con hacer una búsqueda simple de levantar (495 apariciones) y después usar la opción Filter de la barra de herramientas. En la pestaña avanzada tenemos que indicar que solo queremos conservar las líneas en las que también hay un pronombre clítico delante del verbo, a una distancia de como máximo tres tokens, como en la imagen siguiente.

De esta manera obtenemos 359 casos, de los cuales tenemos que excluir a mano unos 15 que no son pertinentes del tipo me gusta levantar temprano. La ventaja de este tipo de búsqueda es que podemos recuperar combinaciones no previstas como me siempre levanto a las cinco.

(2) El pronombre a la derecha. A continuación, buscamos los verbos con pronombre enclítico, en cualquiera de sus formas (levantarse, levantarme...). Para ello hay que usar el atributo tags, que es la etiqueta doble que reciben los verbos con pronombre enclítico:

[lemma="levantar"&tags="V..0000,PP...0."]

Por último, podríamos buscar ocurrencias de un verbo más un pronombre a la derecha, con un espacio entre ellos, con lo que obtenemos Me encanta dormir y no levanta me temprano.

[lemma="levantar"][tag="PP...0.*"]

Inicio y final de oración

Es posible usar las marcas que indican inicio y final de oración, párrafo o documento dentro de la expresión de búsqueda. Estas marcas azules pueden mostrarse u ocultarse con el botón View.

Por ejemplo, para buscar cualquier forma del verbo terminar al final de la oración:

[lemma="terminar"][tag="F.*"]</s>

Añadimos [tag="F.*"] (un signo de puntuación) detrás del verbo, ya que los signos de puntuación son tratados como palabras (tokens).

Las oraciones interrogativas

Para especificar que la expresión buscada debe encontrarse dentro de la misma oración, hay que añadir within <s/> al final. Por ejemplo, para obtener oraciones que terminan con un signo de interrogación:

<s> []* [tag="Fit"] </s> within <s/>

Los corchetes con un asterisco [ ]* indican "cualquier número de tokens (incluso cero)". Es necesario añadir within porque el asterisco es un cuantificador “avaro”, que coincide siempre con la expresión más larga, y por lo tanto recuperará oraciones con otras oraciones dentro. Es decir, []* puede ser cualquier número de tokens, incluidas las marcas de inicio y final de oración.

Para obtener oraciones interrogativas en tiempo futuro:

<s> []* [tag="V..F.*"][tag!="Fi.*"]*[tag="Fit"]within <s/>

Esta expresión busca, dentro de una oración, un verbo en futuro y un signo de interrogación a la derecha, con cualquier tipo de palabra entre ellos (excepto otro signo de interrogación).

La última oración de cada documento

Para recuperar la última oración de cada documento:

<s>[]+</s></doc> within <s/>

Los corchetes con un signo de suma [ ]+ indican "uno o más tokens" y within <s/> indica que la expresión buscada debe encontrarse dentro de la misma oración.

Para resumir los resultados, basta con hacer clic en el icono Frequency y a continuación elegir KIWC Word forms:

Palabras repetidas

Esta expresión busca dos adverbios idénticos, uno al lado del otro:

1:[tag="R.*"] 2:[tag="R.*"] & 1.word = 2.word

Dos sustantivos idénticos separados por una preposición (dentro de la misma oración):

1:[tag="N.*"][tag="S.*"]2:[tag="N.*"] & 1.word = 2.word within <s/>

Si resumimos los resultados con el botón Frequency vemos que las combinaciones más frecuentes son: cara a cara, palillo a palillo, día tras día, día a día, paso a paso, persona a persona, etc.

Palabras semejantes

Se puede usar la tilde ~ para realizar búsquedas sobre palabras semejantes. Con esta opción se genera un tesauro para la palabra en cuestión, en un corpus de referencia de mayor tamaño (esTenTen), y se incluyen los N primeros elementos del tesauro en la consulta.

Esta función puede usarse, por ejemplo, para buscar ejemplos de verbos con un objeto directo animado. Con las 20 primeras palabras del tesauro:

[tag="V.*"][tag!="S.*"] ~20"gente-n"

Evidentemente, hay muchos más ejemplos de verbo + objeto animado que no son recuperados con esta consulta, pero este resultado parcial puede ser un buen punto de partida para búsquedas más elaboradas.

Si resumimos los resultados con el botón Frequency y la opción KWIC lemmas, podemos localizar algunos ejemplos en los que falta la preposición a como buscar una persona, admirar mi padre, ver mucha gente, querer mi amigo, encontrar la gente...

Podemos hacer una búsqueda semejante para localizar verbos que se combinan con sustantivos relacionados con la ropa:

[tag="V.*"] ~8"ropa-n"

Es conveniente experimentar con varias palabras y ajustar el número de palabras que se incluyen en la consulta (N), ya que el grado de semejanza disminuye progresivamente.

El resumen muestra que los aprendices usan los verbos llevar, tirar, comprar, usar, ser, poner, vender, cambiar... con sustantivos como ropa, pantalón, zapato, traje, etc.