Corpus CELEN - Segmentación

Segmentación

El analizador segmenta los textos en tokens y les asigna una etiqueta. Un token es la unidad básica de análisis en un corpus, y se define como cualquier conjunto de caracteres entre dos espacios. Los signos de puntuación también son tokens aunque no vayan precedidos o seguidos por un espacio.

Por ejemplo: dárselo (un token), ping-pong (un token), 100 personas (dos tokens), ¡Hola! (tres tokens). Además, los números expresados en palabras son agrupados mediante un guion bajo, lo que los convierte en un token: cuarenta_y_siete, 27_millones, cinco_mil_quinientos, etc.

Los verbos con pronombres enclíticos (díselo) o las contracciones (al, del) son un caso especial porque se contabilizan como un token, pero reciben dos etiquetas y dos lemas. Esto hace posible que, al buscar las formas de un lema verbal (parecer), se recuperen los casos en los que este funciona con o sin pronombres (me parece, parece, parecerse...), y al buscar un pronombre (lo) se recuperen ejemplos con o sin espacio entre este y el verbo.