Modelos de decisão para deteção de fraudes

Da aprendis
Ir para: navegação, pesquisa

Além das auditorias interna e externa para o controle de fraudes, a mineração de dados tem sido utilizada como uma ferramenta analítica. [1]

O fraudador motivado pelo lucro tem interações com a empresa afetada, sendo que, tradicionalmente, todos os tipos de negócios são suscetíveis à fraude interna ou corrupção de sua gestão (de alto escalão) e empregados não-administradores (baixo escalão).
Existe ainda a possibilidade de o fraudador ser externo à empresa, cometendo fraudes na forma de um cliente potencial ou existente (consumidor) ou um fornecedor potencial ou existente. O fraudador externo tem três perfis básicos: o oportunista (exibe comportamento desonesto aleatório ou ocasional quando há oportunidade, impulso, ou quando sofre de dificuldade financeira), o criminoso, e o crime organizado. [1]

A detecção de fraude interna preocupa-se em determinar relatórios financeiros fraudulentos por gestores e operações de varejo anormais por funcionários.
Há quatro subgrupos de detecção de fraudes de seguros: seguro de casa, seguro de colheitas, seguro automóvel e seguro médico.
Detecção de fraude de crédito refere-se a triagem de pedidos de crédito, e / ou registros de transações de cartão de crédito.
Semelhante à detecção de fraudes de crédito, existe a fraude através do uso de dados de assinatura de telecomunicações, e / ou ligações telefônicas com ou sem fio. [1]

Existem outros domínios de detecção de fraude como E-businesses e comércio electrónico que apresentam uma tarefa de mineração de dados desafiadora porque confunde as fronteiras entre os sistemas de detecção de fraude e sistemas de detecção de intrusão de rede. A literatura relacionada tem foco em sites de video-on-demand e serviços de telecomunicações baseados em IP. Vendedores e compradores on-line podem ser monitorados por sistemas automatizados. Detecção de fraude em organizações governamentais, tais como impostos e taxas alfandegárias também têm sido relatadas. [1]

Para muitas empresas que possuem interações com milhões de partes externas, torna-se proibitivo verificar manualmente a maioria das identidades e das actividades das partes externas. Portanto investiga-se aqueles que possuem maior risco de acordo com a saída de mineração de dados, tais como score suspeito, regras e anomalias visuais. [1]

Artigo da Austrália de 2010 revisa as publicações sobre detecção automatizada de fraude dos 10 anos anteriores, onde é citada a definição de mineração de dados como uma maneira de encontrar conhecimento estatisticamente confiável​​, desconhecido anteriormente, e detetável a partir de dados. Cita também fraude como o abuso do sistema de lucros de uma organização sem, necessariamente, ocasionar consequências legais. [1]

Na maioria dos cenários de detecção de fraudes do mundo real, a escolha de técnicas de mineração de dados é mais dependente de questões práticas dos requisitos operacionais, limitações de recursos e compromisso de gestão para a redução da fraude do que as questões técnicas sustentadas pelos dados. [1]

Na detecção de fraudes, a medida mais importante é a sensibilidade ou a taxa de detecção de fraudes, uma vez que as perdas devido a fraude dependem desta métrica. A segunda medida importante é a taxa de falso alarme (falso positivo), uma vez que poderia trazer constrangimentos através de uma falsa acusação de fraude. [2]


Mineração de dados e detecção de fraudes e más práticas em prescrições médicas

Artigo escrito no Irã e publicado em 2015 propõe o uso de 13 indicadores com a finalidade de agrupar médicos generalistas de consultórios particulares de acordo com os padrões em termos de prescrições de medicações. Os dados foram obtidos de visitas e prescrições médicas de uma seguradora de saúde. Os indicadores ou atributos utilizados para o processo de mineração de dados foram eleitos à partir de entrevistas com experts (auditores, administradores e médicos) que indicaram qual seria o comportamento observado em caso de intenção de fraude, utilizando-se de inferência lógica. Também foram utilizados indicadores de estudos semelhantes. Calculou-se os valores dos indicadores para 92% das prescrições em relação a cada médico, tendo sido utilizado então, clustering hierárquico, medidas de distância Euclidian e coeficiente silhouette. Como resultados foram obtidos dois clusters, que agruparam os médicos em suspeitos ou salubres. Procedeu-se ainda a análise discriminante sobre os dados restantes (cerca de 8% das prescrições médicas) baseada no desenvolvimento de combinações lineares das variáveis ​​de previsão (indicadores), o que forneceu melhor discriminação entre os clusters. [3]


Mineração de dados e detecção de fraudes e más práticas em Saúde

Estudo norte americano publicado em 2008 sugere que existem sistemas e processos que podem ser implementados para melhor detectar e impedir fraudes e más práticas de origem externas e internas, destacando entre eles:
1. Formação e educação;
2. Implementação de codificação assistida por computador (CAC);
3. Aumento da fiscalização federal de fraude e monitoramento de más práticas;
4. Utilização de modelagem de dados e mineração de dados. [4]

O mesmo estudo defende que o avanço dos programas de mineração de dados e de aprendizagem de máquina dá às organizações e prestadores de saúde a capacidade de prever fraudes e más práticas potenciais. Tecnologias de mineração de dados automatizadas permitem que a organização possa obter insights valiosos e detectar padrões à partir de dados sem viés predeterminado. Algoritmos estatísticos podem ser usados ​​para identificar as tendências ou padrões de transacções suspeitas gerais em conjuntos de dados de saúde. [4]


Mineração de dados e detecção de fraude em relatórios financeiros

Redes neuronais artificias, árvores de decisão, redes Bayesianas e máquinas de vetores de suporte são métodos que têm sido aplicados, a fim de detectar demonstrações financeiras fraudulentas.[5]

Mineração de dados é uma ferramenta essencial para analisar e classificar bancos de dados complexos. A mineração de dados auxilia na identificação de eventos importantes que possam estar escondidos em análises de grandes quantidades de dados, sendo possível resumir os dados em um modelo estruturado para fornecer uma referência para a tomada de decisão. Mineração de dados possui muitas funções diferentes, tais como classificação, associação, clustering e previsão. Demonstrações financeiras fraudulentas pode ser visto como um problema de classificação.[5]

Segundo estudo de Taiwan de 2016 realizado por Chen, S. sobre fraudes em relatórios financeiros, grande parte das investigações anteriores propôs o uso do método de mineração de dados devido à sua superioridade em termos de previsão após a introdução de grandes quantidades de dados para a aprendizagem automática, bem como a sua precisão em termos da classificação e previsão, que é muito maior do que a análise de regressão convencional.[5]

Tal artigo argumenta ainda que estudos de investigação anteriores não são suficientes nem completos por usarem somente um a dois métodos estatísticos, não possuírem modelos de comparação, sendo que a maioria usa tratamento estatístico one-stage, a fim de estabelecer o modelo de detecção, o que não seria prudente. O mesmo estudo propõe então um modelo melhor para detectar potenciais demonstrações financeiras fraudulentas, de modo que as perdas sofridas pelos investidores e causadas por auditores poderia ser reduzida:
a) tratamento estatístico de dois estágios;
b) cinco técnicas de mineração de dados para criar o modelo de detecção para comparação de precisão do modelo;
c) validação cruzada ten-fold (divisão do conjunto total de dados em 10 subconjuntos mutuamente exclusivos de mesmo tamanho) com o objetivo de ser prudente, comumente usado no campo acadêmico.
O estudo estabelece modelos de classificação para fins de comparação através da combinação de árvores de classificação e regressão, Chi squared automatic interaction detector (CHAID), redes Bayesianas, máquinas de vetores de suporte, e redes neuronais artificiais. Propõe-se a utilização de um modelo de dois estágios de detecção de demonstrações financeiras fraudulentas usando algoritmos CART DT (árvores de regressão e classificação) e CHAID na seleção de variáveis, a fim de identificar variáveis ​​influentes. Em seguida, este estudo aplica CART, CHAID, BBN (redes Bayesianas), SVM (máquinas de vetores de suporte) e ANN (redes neuronais artificiais) para a construção do modelo de detecção de fraudes e realiza uma comparação par a par dos grupos de teste de cada modelo em termos de precisão de classificação, erros de Tipo I e Tipo II para identificar o modelo com a precisão ideal. [5]


Mineração de dados e detecção fraudes em cartões de crédito

Artigo da Índia de 2014 propõe um modelo inteligente de detecção de fraudes com cartões de crédito com o objetivo de detectar fraude à partir de conjunto de dados anônimos e não uniformes de transações de cartões de crédito. A fim de lidar com a natureza anônima dos dados, não é dada preferência a qualquer um dos atributos e cada atributo é igualmente considerado para encontrar os padrões. A avaliação de desempenho do modelo proposto é feito com o auxílio de UCSD DataMining Contest 2009 Dataset (anônimo e não uniforme) e verificou-se que o modelo proposto tem alta taxa de detecção de fraude, taxa de classificação equilibrada, coeficiente de correlação de Matthews, e taxa de alarme falso muito menor do que outros classificadores state-of-the-art.[2]

Os padrões de comportamento dos clientes e das fraudes mudam gradualmente ao longo de períodos maiores. Tal fato poderia degradar o desempenho do modelo de detecção de fraudes. Tais mudanças de padrões comportamentais podem ser incorporadas no modelo através da atualização da matriz dos bancos de dados para fraudes e transações válidas. Isto pode ser feito através da execução do algoritmo de reconhecimento de padrões propostos em pontos de tempo fixos ou uma vez a cada quantidade determinada de transações. O método de detecção proposto demora muito menos tempo, o que também é um parâmetro importante desta aplicação em tempo real, porque a detecção de fraude é feita através as bases de dados de padrão menores em vez de grandes bases de dados de transação.[2]

As ferramentas utilizadas pelos autores foram:
a) Máquinas de vetores de suporte: técnicas de aprendizagem estatística baseadas na concepção de planos de decisão que definem limites de decisão. Um plano de decisão separa conjuntos de diferentes classes. Algoritmos de máquinas de vetores de suporte tendem a construir um hiperplano como plano decisão que separa as amostras para as duas classes - positivos e negativos;
b) K-Nearest Neighbor (KNN): algoritmo que armazena todos os casos disponíveis e então classifica quaisquer novos casos com base em uma medida de similaridade. O algoritmo KNN é exemplo de aprendizagem baseada em exemplos. No método KNN, cada novo caso é comparado com os existentes usando uma métrica de distância, e o exemplo mais próximo existente é usado para atribuir a classe para o novo;
c) Naive Bayes (NB) é um método supervisionado de aprendizagem de máquina que utiliza um conjunto de dados de treinamento com alvos conhecidos das classes para prever o futuro ou qualquer nova entrada de valor de classe. É um poderoso método probabilístico que explora informações de classe de treinamento conjunto de dados para prever a classe de ocorrências futuras;
d) Random forest: é um conjunto de árvores de decisão, onde cada árvore decisão individual é um weak learner, enquanto todas as árvores de decisão em conjunto são um strong learner. Quando da classificação de um novo objeto é analisado por cada uma das árvores da floresta. Cada árvore dá uma saída de classificação ou voto para uma classe. A Random forest classifica o novo objeto para a classe que obtiver mais votos;
e) FraudMiner: modelo para detecção de fraudes proposto pelos autores do artigo. Dividido em duas fases, treinamento (construção de padrão de bancos de dados através da mineração da frequência do conjunto de dados), e teste (detecção de fraude através do uso do algoritmo de correspondência).[2]



Referências Bibliográficas

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 S. Wang, “A comprehensive survey of data mining-based accounting-fraud detection research,” 2010 Int. Conf. Intell. Comput. Technol. Autom. ICICTA 2010, vol. 1, pp. 50–53, 2010.
  2. 2,0 2,1 2,2 2,3 K. R. Seeja and M. Zareapoor, “FraudMiner: A Novel Credit Card Fraud Detection Model Based on Frequent Itemset Mining.,” ScientificWorldJournal., vol. 2014, p. 252797, 2014.
  3. H. Joudaki, A. Rashidian, B. Minaei-Bidgoli, M. Mahmoodi, B. Geraili, M. Nasiri, and M. Arab, “Improving Fraud and Abuse Detection in General Physician Claims: A Data Mining Study,” Int. J. Heal. Policy Manag., vol. 5, no. 3, pp. 165–172, 2015.
  4. 4,0 4,1 W. J. Rudman, J. S. E. Iii, W. Pierce, and S. Hart-hester, “Healthcare Fraud and Abuse,” Perspect. Heal. Inf. Manag., pp. 1–24, 2008.
  5. 5,0 5,1 5,2 5,3 S. Chen, “Detection of fraudulent financial statements using the hybrid data mining approach,” Springerplus, vol. 5, no. 1, p. 89, 2016.