Abstract
Este artigo investiga a classificação automática multi-rótulo de cartas indígenas ao Brasil em categorias temáticas. A partir do acervo digital "Cartas Indígenas ao Brasil", que constitui um corpus de 871 cartas anotadas em 18 categorias, comparamos três abordagens de classificação: um modelo lexical (TF-IDF + regressão logística), um modelo contextual (BERTimbau-base) e um classificador baseado em grandes modelos de linguagem (LLM). Para lidar com o desbalanceamento do corpus, empregamos estratégias de balanceamento de classes no modelo neural. Os resultados revelam um trade-off entre precisão e recall: o baseline lexical apresenta maior precisão (0,65), enquanto o BERTimbau demonstra maior recall (0,67), especialmente em categorias minoritárias. Ambos alcançam macro-F1 de 0,42, evidenciando que a classificação multi-rótulo neste domínio é uma tarefa desafiadora, em especial devido ao desbalanceamento do corpus e à sobreposição semântica entre categorias. O classificador baseado em LLM atinge alto recall, especialmente em categorias minoritárias, mas tende a superestimar o número de rótulos por documento, reforçando o trade-off entre precisão e cobertura observado nas outras duas abordagens. A análise detalhada por classe revela comportamentos complementares entre os modelos, sugerindo que abordagens híbridas podem superar as limitações individuais de cada método. O corpus e os scripts dos experimentos serão disponibilizados publicamente.
- Anthology ID:
- 2026.propor-1.70
- Volume:
- Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
- Month:
- April
- Year:
- 2026
- Address:
- Salvador, Brazil
- Editors:
- Marlo Souza, Iria de-Dios-Flores, Diana Santos, Larissa Freitas, Jackson Wilke da Cruz Souza, Eugénio Ribeiro
- Venue:
- PROPOR
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 708–716
- Language:
- URL:
- https://aclanthology.org/2026.propor-1.70/
- DOI:
- Bibkey:
- Cite (ACL):
- Caio Almeida, Renata Vieira, and Débora Abdalla. 2026. Cartas Indígenas ao Brasil: Classificação Multi-Rótulo. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 708–716, Salvador, Brazil. Association for Computational Linguistics.
- Cite (Informal):
- Cartas Indígenas ao Brasil: Classificação Multi-Rótulo (Almeida et al., PROPOR 2026)
- Copy Citation:
- PDF:
- https://aclanthology.org/2026.propor-1.70.pdf


























