1 de abril de 2026

LLMs para imputação de dados tabulares: resultados preliminares

Gabriel Francisco gabriel.francisco@usp.br

inteligência-artificial dados-tabulares llm

Apresentamos os resultados preliminares da pesquisa de mestrado sobre o uso de Large Language Models para imputação de dados tabulares, com foco em datasets do domínio de saúde.

Motivação

Dados faltantes são um problema recorrente em bases de dados reais. Métodos tradicionais como MICE e KNN-Imputer têm limitações quando os padrões de ausência são complexos (MNAR — Missing Not At Random).

Abordagem

Avaliamos a capacidade de LLMs de compreender a estrutura semântica de colunas tabulares e gerar valores plausíveis para células faltantes, usando:

GPT-4o e Claude 3.5 Sonnet com prompting estruturado
Serialização row-by-row com nomes de colunas como contexto
Comparação contra baselines estatísticos (média, mediana, MICE, missForest)

Resultados preliminares

Método	RMSE (normalizado)	R²
Média	0.342	0.41
MICE	0.281	0.58
missForest	0.254	0.63
GPT-4o	0.238	0.67
Claude 3.5	0.221	0.71

Os LLMs superaram os baselines em 4 dos 5 datasets avaliados, com ganho mais expressivo em colunas com alta cardinalidade textual.