Text Mining

Da aprendis
Ir para: navegação, pesquisa
Text Mining
Área(s) de Atuação Extração de conhecimento de dados
Entidade(s) Criadora(s)
Entidade(s) Gestora(s)
Data de Lançamento


Introdução

Embora possa ser tentador comparar o termo "text mining" com data mining, data mining é apenas um dos passos dentro do processo de descoberta de conhecimento. O text mining assemelha-se mais ao processo de descoberta de conhecimento como um todo, englobando os passos de seleção, pré-processamento, transformação, data mining, interpretação e avaliação[1]. É portanto uma tarefa muito mais complexa que o data mining, pois envolve lidar com dados que são inerentemente não estruturados e difusos[2].

Blake[1] define o text mining como a obtenção de padrões novos, interessantes e compreensíveis de uma coleção de texto, enquanto que Feldman[3] define de uma forma mais semelhante a Recuperação de Informação, onde o objetivo é diferenciar documentos relevantes de documentos irrelevantes. Alguns autores sugerem que o text mining consiste em dois passos: estruturar a informação textual e permitir a descoberta de conhecimento[4][5].

Acredita-se que cerca de 80% da informação relevante na área dos negócios origina-se de forma não estruturada, principalmente texto[6]. Na área da saúde, estima-se que 50% da informação que descreve um paciente durante uma terapia é guardada de forma não estruturada como texto livre[7].

O surgimento de análise de texto na sua forma atual deriva de uma reorientação da investigação nos finais de 1990 do desenvolvimento de algoritmos para aplicações, como descrito pelo Prof Marti A. Hearst o seu artigo "Untangling Text Data Mining"[8].

Processo de Text Mining

Enquanto o data mining é aplicado tradicionalmente em coleções de dados "estruturados", o text mining ou text data mining é a aplicação de técnicas de data mining em coleções de texto "não estruturados" ou "semi-estruturados". O processo de text mining tipicamente envolve o uso de técnicas de processamento de linguagem natural (NLP) para se extrair dados estruturados de uma narrativa estruturada[9].

O text mining inicia por extrair factos e eventos de fontes de texto, permitindo a formação de hipóteses que são depois exploradas por métodos tradicionais de análise de dados[10]. Ele pode ser dividido em duas etapas principais: Refinação de Texto que transforma o texto livre em um formato intermediário, tal como um gráfico conceptual (semi-estruturado) ou dados relacionados (estruturado), e a Destilação do Conhecimento, que deduz padrões ou conhecimento a partir desta forma intermediária. O formato intermediário pode ser baseado em documentos, em que cada entidade representa um documento, ou baseado em conceitos, em que cada entidade representa um objeto ou conceito de interesse[2].

Refinação do Texto

Consiste em transformar texto livre em um formato intermediário, que pode ser baseado em documento ou baseado em conceitos. Na Figura 1 temos uma visão global do processo.

Figura 1: Framework do text mining (Adaptado de Tan et al.[2]).

As decisões sobre a forma de representar os documentos podem ter um impacto significativo na qualidade dos padrões posteriormente identificados. Existem alguns métodos que são mais comummente utilizados para representar o texto:

  • Elementos ao nível de superfície: captura informações sobre uma palavra. Por exemplo, nomes próprios normalmente começam com uma letra maiúscula;
  • Representação baseada em vetor: a representação de texto mais comummente utilizada em texto mining é a abordagem de saco de palavras (bag of words - BOW). A representação BOW também se encaixa bem em métodos de análise que requerem uma medida de similaridade entre documentos (como clustering);
  • Representação de conceito: Uma boa representação de texto deve resolver sinonímias (quando diferentes palavras têm o mesmo significado) e polissemia (quando a mesma palavra tem significados diferentes). A Biblioteca Nacional de Medicina dos Estados Unidos da América (NLM) desenvolveu o Sistema de Linguagem Médica Única (UMLS). Similarmente, um conceito pode ser rastreado até o vocabulário de origem e os termos são mapeados para um ou mais conceitos a níveis mais elevados chamados de tipos semânticos[11], que podem ser utilizados para resolver a polissemia.

De modo a representar um documento, a informação deve ser corretamente extraída a partir do documento. Várias estratégias têm sido utilizadas para realizar essa tarefa, e geralmente utiliza abordagens de aprendizagem de maquina (machine learning), baseado em conhecimento (knowledge-based approach) ou ambos (TEG[12]).

Extração de Informação (IE), é talvez atualmente a técnica mais utilizada em operações de pré-processamento em text mining. Sem as técnicas de IE, os sistemas de text mining teriam capacidades de descoberta de conhecimento muito mais limitadas. Mesmo os sistemas que não têm uma boa performance (precision e recall) podem ser de grande valor[10]. A seguir lista-se os métodos mais utilizados:

  • Resolução de co-referência: o objetivo da resolução de co-referência é unificar todas as referências de texto para a mesma entidade (também chamada de referência), em que uma entidade é tipicamente um nome próprio, mas também podem ser relações verbais (ver Day et al.[13] para uma definição de anotações de co-referência utilizadas na tarefa de co-referência MUC-7).
  • Abreviaturas: as abreviaturas são um caso especial de resolução de co-referência e são particularmente importantes quando se trabalha com literatura científica. Um estudo descobriu que 80% das abreviaturas no UMLS eram ambíguas[14].
  • Negação: a negação recebeu uma atenção especial nos registos médicos onde a pseudo negação, como "nenhuma mudança" e "não causam", pode ter um enorme impacto sobre a qualidade dos padrões produzidos.
  • Sintaxe: em contraste com as representações que incidem sobre a semântica, uma representação sintática captura as informações ao nível da sentença. Uma área onde a sintaxe pode ser útil é no resumo de documentos e síntese de informações.

Para se reduzir o ruído no texto original e, assim, proporcionar melhores padrões, pode-se utilizar técnicas de redução de dimensionalidade:

  • Radicalização (ou lematização): a radicalização tenta identificar a raiz de um termo. Por exemplo, os termos "diferem", "diferentes" e "diferença" seriam todos representados como "difer" após ser aplicada a radicalização.
  • Palavras frequentes (stop words): termos que ocorrem com frequência no texto, mas têm pouco poder discriminatório como determinantes, preposições, etc.
  • Poda de frequência: a remoção de palavras que aparecem em menos de n documentos (onde N é geralmente em torno de 5) ou mais do que m vezes (onde m é geralmente uma percentagem do número de documentos).
  • Indexação semântica latente: é uma técnica estatística que, dada uma matriz de documentos e termos, gera uma série de vetores que capturam a variância dentro da matriz original[15].

Destilação do Conhecimento

Após efetuada a representação de texto e a redução de dimensionalidade, o pesquisador analisa a coleção de textos. Abaixo verifica-se alguns métodos de análise independente de domínio que têm sido desenvolvidos para conjuntos de dados não-textuais:

  • Classificação (ou categorização): um algoritmo de classificação visa criar um modelo (o classificador) que mapeia com precisão, a partir de um conjunto de elementos usados para representar cada documento, para uma classe existente.
  • Agrupamento (clustering): o objetivo de um algoritmo de clustering é agrupar documentos de tal forma que cada grupo tenha um alto grau de similaridade intra-classe e baixo grau de similaridade inter-classe. Em contraste com a classificação, as classes são desconhecidas.
  • Regras de associação: as regras de associação capturam co-ocorrências entre termos de uma coleção de documentos. Tais regras são muitas vezes geradas usando o algoritmo Apriori[16], que apresenta padrões para o usuário na forma: A?B, onde A e B são conjuntos de termos.

Todos os métodos anteriores de transformação de dados e análise deve ter um propósito. A seguir exemplifica-se alguns dos problemas mais comuns:

  • Extração de relação: o objetivo é identificar as relações entre os dados recolhidos. Por exemplo, as relações gene-proteína, detecção de hipônimos, relações de conceito como "consiste em", "feito de", etc.
  • Detectar subjetividade:em linguagem natural define-se subjetividade como "aspectos da linguagem utilizados para expressar opiniões, avaliações e especulações". Detectar subjetividade pode ser útil para classificações automáticas em diversos contextos como política, avaliação de produtos, opinião pública, etc.
  • Coesão textual (Textual Entailment): em NLP, a coesão textual é uma relação direcional entre dois fragmentos de texto. Um dos objetivos é identificar se uma dada hipótese (H) está relacionada com uma dada expressão (T). A hipótese geralmente tem a forma de uma sentença única, e o texto pode ser de uma ou mais sentenças.
  • Sumarização: desde o final dos anos sessenta, procuram-se construir sistemas que geram automaticamente um resumo de um único documento através da seleção de texto já existente ou abstraindo o texto dos documentos originais, transformando e gerando novo texto.
  • Síntese de informação: embora a sumarização de múltiplos documentos seja inerentemente uma atividade de síntese, as pesquisas sobre esta questão tem sido em torno do processo de revisão sistemática. O principal objetivo de uma meta-análise é equilibrar evidências contraditórias e redundantes na literatura científica.
  • Descoberta de conhecimento baseada em literatura: semelhantemente à síntese de informação, a sobrecarga de informação na literatura biomédica levou ao desenvolvimento da descoberta de conhecimento baseada em literatura, que é um processo de pesquisa sistemática da literatura existente para identificar novos conhecimentos.

Text Mining na Saúde

O termo Clinical Data Mining consiste na aplicação de técnicas de data mining utilizando dados clínicos[17]. No campo biomédico, a importância do text mining se reflete no aumento de mais de seis vezes no número de publicações sobre text mining nas ultimas décadas. As companhias farmacêuticas consideram o text mining como uma "necessidade básica"[18].

Novas tecnologias tem sido desenvolvidas no âmbito do Clinical Data Mining, como por exemplo um novo método de anotar dados clínicos não estruturados e transformá-los em uma matrix codificada e anonimizada de paciente-características utilizando terminologias médicas com uma das finalidades de detectar efeitos colaterais de drogas e efeitos colaterais de efeitos de associação de drogas[19].

Eis algumas das aplicações do text mining na literatura biomédica:

  • Interações medicamentosas
  • Análise de co-ocorrências e extração de informações biológicas
  • Procura de novidades biológicas ao desvendar informações "ocultas"
  • Predição da função de proteínas
  • Unidades moleculares funcionais para guiar o desenho de painéis de biomarcadores
  • Investigar redes biológicas a partir de textos completos de artigos
  • Prever futuras descobertas através da literatura científica atual
  • Compreender associações de doenças na descoberta de novas drogas
  • Eleger genes candidados a certas doenças
  • Identificação precoce de potenciais problemas de segurança farmacológica
  • Conhecimento sobre doenças

Desafios

As questões relacionadas ao text mining que foram expostas acima são problemas de alto nível. Há entretanto alguns desafios que devem ser solucionados em nível de aplicação e métodos individuais. Assim como problemas de semântica, as variações biológicas podem ser um fator complicante. Por exemplo, o que acontece com uma espécie não necessariamente acontece com outra, e mais ainda, pode não acontecer na mesma espécie quando em diferentes circunstâncias (género, genética, história natural, ou diferenças de terapêutica)[18].

Referências

  1. 1,0 1,1 Blake C: Text mining. Annu Rev Inf Sci Technol 2011, 45:121–155.
  2. 2,0 2,1 2,2 Tan A-H: Text Mining: The state of the art and the challenges. Proc PAKDD 1999 Work Knowl Disocovery from Adv Databases 1999, 8:65–70.
  3. Feldman R: Mining unstructured data. In Tutorial notes of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’99. New York, New York, USA: ACM Press; 1999:182–236.
  4. Liddy E D: Bulletin Aug/Sept 2000: Interview with Gayle Curtis, Modem Media [1]
  5. Nahm UY, Mooney RJ: Using Information Extraction to Aid the Discovery of Prediction Rules from Text. In Proceedings of the KDD-2000 Workshop on Text Mining; 2000:51–58.
  6. Grimes S: Unstructured data and the 80 percent rule. Carabridge Bridg 2008:1–2.
  7. Sittig DF, Wright A, Osheroff J a, Middleton B, Teich JM, Ash JS, Campbell E, Bates DW: Grand challenges in clinical decision support. J Biomed Inform 2008, 41:387–92.
  8. Hearst M a.: Untangling text data mining. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics -. Morristown, NJ, USA: Association for Computational Linguistics; 1999:3–10.
  9. Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB: Frontiers of biomedical text mining: current progress. Brief Bioinform 2007, 8:358–75.
  10. 10,0 10,1 Maletic JI, Marcus A: Data Mining and Knowledge Discovery Handbook. 2nd edition. Boston, MA: Springer US; 2010.
  11. Aronson a R: Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program. Proc AMIA Symp 2001:17–21.
  12. Feldman R, Rosenfeld B, Fresko M: TEG—a hybrid approach to information extraction. Knowl Inf Syst 2006, 9:1–18.
  13. Day D, Aberdeen J, Hirschman L, Kozierok R, Robinson P, Vilain M: Mixed-initiative development of language processing systems. In Proceedings of the fifth conference on Applied natural language processing -. Morristown, NJ, USA: Association for Computational Linguistics; 1997:348–355.
  14. Liu H, Aronson AR, Friedman C: A study of abbreviations in MEDLINE abstracts. Proc AMIA Symp 2002:464–8.
  15. Deerwester S, Dumais ST, Furnas GW, Landauer TK, Harshman R: Indexing by latent semantic analysis. J Am Soc Inf Sci 1990, 41:391–407.
  16. Agrawal R, Mannila H, Srikant R, Toivonen H, Verkamo a I: Fast discovery of association rules. Advances in knowledge discovery and data mining 1996:307–328.
  17. Iavindrasana J, Cohen G, Depeursinge A, Müller H, Meyer R, Geissbuhler A: Clinical data mining: a review. Yearb Med Inform 2009(December 2015):121–33.
  18. 18,0 18,1 Kumar VD, Tipney HJ: Biomedical Literature Mining. Volume 1159. New York, NY: Springer New York; 2007. [Methods in Molecular Biology]
  19. LePendu P, Iyer S V, Bauer-Mehren A, Harpaz R, Mortensen JM, Podchiyska T, Ferris TA, Shah NH: Pharmacovigilance Using Clinical Notes. Clin Pharmacol Ther 2013, 93:547–55.