← Todos os posts

5 de abril de 2026

Novo dataset para NER em português brasileiro

Norton Trevisan Roman norton@usp.br

Anunciamos a disponibilização pública do NER-PTBR-News, um dataset para reconhecimento de entidades nomeadas (NER) em português brasileiro.

Características

  • 15.000 sentenças extraídas de portais jornalísticos brasileiros (2020–2025)
  • Anotação manual por 3 anotadores com concordância inter-anotador (Cohen’s κ = 0.89)
  • 6 categorias: PER, ORG, LOC, DATE, MONEY, MISC
  • Formato CoNLL-2003

Acesso

O dataset está disponível no Hugging Face:

from datasets import load_dataset
ds = load_dataset("ppgsi-each/ner-ptbr-news")

Baselines

Treinamos modelos base para referência:

ModeloF1 (micro)
BiLSTM-CRF0.81
BERTimbau-base0.88
BERTimbau-large0.91