← Todos os posts

1 de abril de 2026

LLMs para imputação de dados tabulares: resultados preliminares

Gabriel Francisco gabriel.francisco@usp.br

Sarajane Marques Peres sarajane@usp.br

DOI: 10.1234/example.5678

Apresentamos os resultados preliminares da pesquisa de mestrado sobre o uso de Large Language Models para imputação de dados tabulares, com foco em datasets do domínio de saúde.

Motivação

Dados faltantes são um problema recorrente em bases de dados reais. Métodos tradicionais como MICE e KNN-Imputer têm limitações quando os padrões de ausência são complexos (MNAR — Missing Not At Random).

Abordagem

Avaliamos a capacidade de LLMs de compreender a estrutura semântica de colunas tabulares e gerar valores plausíveis para células faltantes, usando:

  • GPT-4o e Claude 3.5 Sonnet com prompting estruturado
  • Serialização row-by-row com nomes de colunas como contexto
  • Comparação contra baselines estatísticos (média, mediana, MICE, missForest)

Resultados preliminares

MétodoRMSE (normalizado)
Média0.3420.41
MICE0.2810.58
missForest0.2540.63
GPT-4o0.2380.67
Claude 3.50.2210.71

Os LLMs superaram os baselines em 4 dos 5 datasets avaliados, com ganho mais expressivo em colunas com alta cardinalidade textual.