Porttinari
POeTiSA: POrtuguese processing - Towards Syntactic Analysis and parsing
This page introduces and releases the 1st version of the journalistic portion of Porttinari (which stands for “PORTuguese Treebank”), which shall be a large multigenre treebank for Portuguese (Pardo et al., 2021), following the "Universal Dependencies" international grammar framework (de Marneffe et al., 2021). As reported by Duran et al. (2023), Porttinari is currently composed by three subcorpora with different characteristics and purposes:
Porttinari-base, a corpus that is manually revised in detail to serve as gold standard (divided into training, development and test folds), with average annotation review agreement (kappa) of 97.8% and 96.2% for part of speech tags and dependency relations, respectively;
Porttinari-check, a small corpus structurally similar to Porttinari-base to serve as testbed for additional and diversified evaluations and to illustrate the contrast between manual and automatic annotations;
Porttinari-automatic, a very large corpus that was automatically annotated by a state of the art parser trained on Porttinari-base.
The texts in the treebank are from Folha de São Paulo newspaper, which are publicly available at Kaggle website. Overall, the journalistc portion of Porttinari includes 167,048 news articles, with 3,964,321 sentences and 94,646,080 tokens, which are distributed in the subcorpora as follows.
Download of the corpus
The interested user may find the compressed files of the subcorpora (in the CoNLL-U format) at the following links (licensed as Creative Commons CC-BY):
Porttinari-check -- original version (automatically annotated) and manually revised version
Porttinari-automatic (divided into 168 parts, for easing handling)
Main references (there are many more related publications here)
On the corpus project and release
Duran, M.S.; Lopes, L.; Nunes, M.G.V.; Pardo, T.A.S. (2023). The Dawn of the Porttinari Multigenre Treebank: Introducing its Journalistic Portion. In the Proceedings of the 14th Symposium in Information and Human Language Technology (STIL), pp. 115-124. September, 25-29. pdf
Pardo, T.A.S.; Duran, M.S.; Lopes, L.; Di Felippo, A.; Roman, N.T.; Nunes, M.G.V. (2021). Porttinari - a large multi-genre treebank for brazilian portuguese. In the Proceedings of the XIII Symposium in Information and Human Language (STIL), pp. 1-10. November, 29 to December, 3. pdf
On the annotation design and decisions
Lopes, L.; Duran, M. S.; Pardo, T. A. S. (2023). Atribuição de lemas e atributos morfológicos seguindo as decisões adotadas na anotação do córpus Portinari-base dentro das diretrizes da Universal Dependencies (UD). Relatório Técnico do ICMC 445. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Agosto, 34p. pdf
Lopes, L.; Duran, M.S.; Nunes, M.G.V.; Pardo, T.A.S. (2022). Corpora building process according to the Universal Dependencies model: an experiment for Portuguese. Relatório Técnico do ICMC 439. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Março, 22p. pdf
Duran, M.S.; Nunes, M.G.V.; Lopes, L.; Pardo, T.A.S. (2022). Manual de anotação como recurso de Processamento de Linguagem Natural: o modelo Universal Dependencies em língua portuguesa. Domínios de Lingu@gem, Vol. 16, N. 4, pp. 1608-1643. pdf
Duran, M.S. (2022). Manual de Anotação de Relações de Dependência - Versão Revisada e Estendida: Orientações para anotação de relações de dependência sintática em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies (UD). Relatório Técnico do ICMC 440. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Outubro, 166p. pdf
Duran, M.S. (2021). Manual de Anotação de PoS tags: Orientações para anotação de etiquetas morfossintáticas em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies (UD). Relatório Técnico do ICMC 434. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Setembro, 55p. pdf