TÉCNICAS DE EXTRAÇÃO DE CONHECIMENTO POR MEIO DE DADOS FALTANTES E MINERAÇÃO DE DADOS SOBRE AS VÍTIMAS DO CÉSIO-137: USO DE IMPUTAÇÃO MÚLTIPLA PARA OBTENÇÃO DE MODELOS ACURADOS

Autores

  • Danyllo Sudário Cardoso
  • Hugo Pereira Leite Filho
  • Rafael Souto

Resumo

RESUMO

Introdução: Com dados massivos espalhados pelo mundo e nas nossas vidas (WITTEN, FRANK eHALL, 2011), é necessário lidar com esses dados adequadamente. Pesquisas clínicas atuaisencaram um problema referenciado na literatura como dados faltantes (MD) que influencia asinformações geradas (HAUKOOS e NEWGARD, 2007) pela mineração de dados (GALVÃO,2007) e extração de conhecimento. Objetivos: Evidenciar o viés (HAUKOOS e NEWGARD,2007) nos modelos estatísticos que executam deleção por lista. Comparar parâmetros estimados(PE) e R² nos modelos de regressão linear sobre conjuntos de dados com MD com similaressubmetidos a métodos de imputação múltipla (MI). Métodos: Mineração de dados, regressão lineare MI. Resultados: Utilizou-se dois conjuntos de dados de relatórios médicos dos Grupos I (GI) e II(GII) dos acidentados com o Césio-137, com 99 amostras. GI apresentou 27,78% de MD e R² de0.2455, GII apresentou 62,23% de MD e R² de 0.4706 na análise de caso completo, ambosapresentaram subestimação dos PE. Modelos com MI apresentaram PE estimados a maior, com R²do GI próximo de 0.1317 denunciando que a baixa correlação no primeiro modelo, na realidadetinha um encaixe pior para a variável regressora, o R² do GII foi de 0.4702. Conclusão: Mesmo sobum baixo índice de MD há substancial viés da informação para um dado conjunto de dados. Avariável regressora escolhida não explica o comportamento das demais no GI, e explicamedianamente no GII.

Palavras Chave: Imputação; Dados faltantes; Mineração de dados.

Downloads

Publicado

2014-11-22

Edição

Seção

Tecnologia da Informação