Segmentación

El analizador segmenta los textos en tokens y les asigna una etiqueta. Un token es la unidad básica de análisis en un corpus, y se define como cualquier conjunto de caracteres entre dos espacios. Los signos de puntuación también son tokens aunque no vayan precedidos o seguidos por un espacio. 

Por ejemplo: dárselo (un token), ping-pong (un token), 100 personas (dos tokens), ¡Hola! (tres tokens). Además, los números expresados en palabras son agrupados mediante un guion bajo, lo que los convierte en un token: cuarenta_y_siete, 27_millones, cinco_mil_quinientos, etc. 

Los verbos con pronombres enclíticos (díselo) o las contracciones (al, del) son un caso especial porque se contabilizan como un token, pero reciben dos etiquetas y dos lemas. Esto hace posible que, al buscar las formas de un lema verbal (parecer), se recuperen los casos en los que este funciona con o sin pronombres (me parece, parece, parecerse...), y al buscar un pronombre (lo) se recuperen ejemplos con o sin espacio entre este y el verbo.

El lema de un verbo es siempre el infinitivo, sin pronombres. Por lo tanto, para obtener ejemplos de los usos pronominales de un verbo, no es posible acceder a todas las formas directamente, mediante el lema parecerse, sino que esta búsqueda recuperará solo la forma literal, en infinitivo y con el pronombre se. Para recuperar solo los usos pronominales (se parece, parecerse) hay que buscar el lema parecer y especificar que debe ir precedido o seguido por un pronombre personal clítico. Para más detalles, véase el ejemplo correspondiente.