El proyecto IPROCOLDI nace como una inquietud por desarrollar en la Universidad de Costa Rica un treebank del español a partir de un corpus escrito compuesto por textos costarricenses. El proyecto se llevó a cabo durante el período 2011-2012 y los investigadores encargados fueron Carla Victoria Jara Murillo y Antonio Leoni de León, ambos profesores de la Escuela de Filología, Lingüística y Literatura e investigadores del Instituto de Investigaciones Lingüísticas (INIL) de la Universidad de Costa Rica.
El treebank del español de Costa Rica IPROCOLDI se compone de 5669 oraciones extraídas del Corpus de Mensajes Presidenciales de Costa Rica CODIMEP-CR. Este corpus permitió que las oraciones analizadas representaran una amplia variedad de estructuras sintácticas. En la selección de las oraciones se utilizó un criterio de longitud de 15 palabras máximo, luego se anotaron automáticamente con información léxica, morfológica y sintáctica. Para ello se partió de la utilización del parser FIPS, herramienta implementada en el Laboratorio de Análisis y de Tecnología del Lenguaje (LATL), de la Universidad de Ginebra. FIPS sigue un esquema teórico que se nutre de minimalismo (Chomsky 2004), simpler syntax (Culicover y Jackendoff 2005) y gramática léxico-funcional (Bresnan, 2001). Con base en el análisis inicialmente obtenido del parser, se postuló el formalismo IML (IPROCOLDI Marked Language), que consta del siguiente etiquetado para la anotación sintáctica:
Etiqueta IML Constituyente
ST Sintagma Temporal (nodo superior correspondiente a la oración)
SF Sintagma Funcional (corresponde a SAs complementarios de sustantivos o verbos copulativos:
es suficiente, está segura, una institución renovada)
SCo Sintagma Conjuntivo
SC Sintagma Complementizador
SD Sintagma Determinante
SN Sintagma Nominal
SA Sintagma Adjetival
SV Sintagma Verbal
SAd Sintagma Adverbial
SP Sintagma Preposicional
Para la representación, se adoptó un esquema de anotación de estructura sintagmática utilizando para ello corchetes etiquetados, como muestra el siguiente ejemplo:
Hoy vemos los frutos de una obra de gobierno.
[ST[SAd Hoy ][SD ] vemos [SV [SD los [SN frutos ]][SP de [SD una [SN obra [SP de [SN gobierno ]]]]]]]
La lematización y el etiquetado morfológico (tagging) se realizó automáticamente mediante el PoS tagger de FreeLing (Open Source Suite of Language Analyzers), creado en la Universitat Politecnica de Catalunya, que se distribuye bajo la GNU General Public License de la Free Software Foundation. Las etiquetas morfológicas son las propuestas por EAGLES (Expert Advisory Group on Language Engineering Standards) para español.
En la presentación de los archivos se siguió la segmentación del CODIMEP-CR en SIGLO XIX, SIGLO XX y SIGLO XXI; las oraciones analizadas se distribuyen del siguiente modo: SIGLO XIX: 144 oraciones, SIGLO XX: 4806 oraciones, y SIGLO XXI: 719 oraciones. En las páginas correspondientes a cada siglo se encontrarán los siguientes archivos en .txt: SIGLO_parsed_no. de oraciones (incluye solo el análisis sintáctico), SIGLO_parsed_tagged_no. de oraciones (incluye el análisis sintáctico y para cada vocablo, lema_etiqueta), y SIGLO_raw_data, que muestra las oraciones en limpio. En cada triada de archivos las oraciones se encuentran numeradas correlativamente.
Más detalles sobre la construcción de este treebank se encuentran en: Jara Murillo, Carla Victoria. 2013. El treebank del español IPROCOLDI: componente anotado del corpus CODIMEP-CR. Revista de Filología y Lingüística de la Universidad de Costa Rica 39 (2): 143-171.