Extração de Conhecimento de Dados

Da aprendis
Ir para: navegação, pesquisa

A Extração de Conhecimento de Dados ou Data Mining é a ciência ou o processo de extração de informação útil a partir de grandes conjuntos de dados.
* Objetivo: encontrar padrões/dependências nos conjuntos de dados, que sejam válidos e de interesse.




Fases do Processo de Extração de Conhecimento de Dados

  1. Perceção do Domínio Médico:
    • Definição do problema;
    • Definição dos objetivos médicos;
    • Identificação das pessoas chave;
    • Identificação das soluções correntes para o problema;
    • Identificação dos requisitos e restrições do problema;
    • Definição dos critérios de sucesso do ponto de vista médico;
    • Averiguação da disponibilidade de peritos e das bases de dados;
    • Definição dos critérios de sucesso do ponto de vista do data mining;
    • Elaboração de um plano de identificação dos passos críticos;
  2. Compreensão dos Dados:
    • Obtenção dos dados;
    • Planeamento - que dados que serão utilizados?;
    • Identificação da informação adicional necessária;
    • Descrição da Base de Dados;
    • Verificação dos dados (completude, redundância, erros, etc.);
    • Encriptação de dados sensíveis (se necessário);
  3. Preparação dos Dados;
    • Justificação da inclusão/exclusão de dados;
    • Realização de testes de significância;
    • Amostragem da base de dados;
    • Aperfeiçoamento da amostra de dados selecionada (correções, eliminação de ruído, valores omissos, etc.);
    • Produção de novos dados (transformações de atributos, etc.);
    • Criação de registos para os dados;
    • Agregação de informação;
    • Reorganização dos atributos;
  4. Aplicação de Algoritmos de Data Mining:
    • Seleção de técnicas de modelação;
    • Definição de procedimentos de treino e teste;
    • Construção de modelos;
    • Avaliação dos modelos construídos;
  5. Avaliação do Conhecimento descoberto:
    • Interpretação dos resultados obtidos;
    • Avaliação da nova informação (se é nova e interessante);
    • Interpretação médica dos resultados;
    • Verificação do impacto dos resultados nos objetivos médicos;
  6. Utilização do Conhecimento descoberto:
    • Definição do plano de implementação;
    • Definição do plano de monitorização.



Tarefas de Extração de Conhecimento de Dados

Sumarização
Descrição de dados de forma agregada, utilizando poucos atributos.
Análise Exploratória de Dados
Utilização de modelos gráficos para análise exploratória (descobrimento de padrões, relações, etc.).
Aglomeração / Clustering
Descoberta de agrupamentos naturais nos dados.
Classificação
Construção de classificadores capazes de determinar, para um dado conjunto de classes, a qual pertence um objeto.
Modelo Preditivo
Associação / Link Analysis / Association
Descoberta de associações entre atributos e objetos.
Análise de Sequências
Modelação dos dados através de análises temporais, modelos de séries temporais ou redes neuronais temporais.
Deteção de Desvios
Procura de outliers (casos desviantes) ou pequenos padrões no dados.