TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
1
Técnicas de Minería de Datos Aplicadas en la Detección de Fraude:Estado del Arte Wilfredy Santamaria Ruiz
Abstract—La tarea de detección de fraude no es un tema fácil de resolver, teniendo en cuenta las múltiples modalidades y la evolución rápida que este tema ha tenido. En la actualidad muchas entidades financieras a nivel mundial, utilizan técnicas de minería de datos y modelos estadísticos para reconocer patrones de comportamiento de las transacciones fraudulentas o de la utilización ”normal” de los clientes para detectar operaciones ”sospechosas”’. Este artículo realiza una introducción al tema y presenta las principales técnicas de minería de datos utilizadas en la actualidad para la detección de fraude, así como los principales estudios adelantados en esta área, adicionalmente se proponen cuales son los temas de investigación en esta área. Index Terms—Detección de fraude, técnicas de minería de datos, patrones de comportamiento, entidades financieras.
I. INTRODUCCIÓN L Fraude es tan viejo como la humanidad y puede tomar una variedad de formas ilimitadas. Sin embargo, en años recientes, el desarrollo de las nuevas tecnologías, ha proporcionado maneras más extensas en que los delincuentes pueden cometer fraude. Formas tradicionales, como el lavado de activos, se han puesto más fácil de perpetuar y se ha unido a nuevos tipos de fraude como[2]: fraude en telecomunicaciones móviles, detección de intrusos en redes y fraude en tarjetas de crédito. En este artículo se hace una distinción entre la prevención y detección de fraude. La prevención de fraude, describe las medidas que una entidad toma para impedir el fraude antes de que ocurra, como por ejemplo, hologramas en billetes, sistemas de seguridad en Internet para transacciones con tarjetas de crédito, etc. En contraste, la detección de fraude involucra identificar patrones de comportamiento de transacciones fraudulentas, o de la utilización ”normal” de los clientes para detectar operaciones ”sospechosas”. Una vez que la prevención ha fallado, entre en escena la detección, para ello la mayoría de los sistemas de detección actuales ofrecen dos tipos de alerta: alerta por calificación probabilística y alerta por cumplimiento de reglas. En el primer tipo de alerta, casi siempre se utilizan modelos predictivos para arrojar una calificación o ”Score”, que entre más alta determina mayor probabilidad de fraude; para el segundo caso se emplean filtros basados en sentencias SQL. Los primeros intentos que hicieron las entidades financiera para detectar fraude, fueron sistemas basados en aplicación de reglas que alertaban las transacciones, si cumplían con una o más reglas establecidas, estas reglas eran obtenidas haciendo análisis histórico sobre los datos, y se configuraban
E
Maestria en Ingeniería de Sistemas y Computación- Universidad Nacional de Colombia. e-mail:
[email protected]
de acuerdo al comportamiento analizado. En la actualidad se utilizan técnicas de minería de datos como[19]: Redes Neuronales, Árboles de Decisión y Redes de Creencia Bayesiana en modelos predictivos, que utilizan sistemas de aprendizaje autónomo para reconocimiento de patrones basados en hechos históricos; en la gran mayoría de los casos, se utilizan los datos de las transacciones hechas por los clientes para determinar los patrones, estos permiten identificar rápidamente circunstancias ajenas al comportamiento ”cotidiano” de un cliente. Cualquiera que sea la técnica utilizada para la detección, es necesario hacer una labor de la mano de los expertos del negocio. En la construcción de los modelos, es necesario determinar el conjunto de entrenamiento, validación y prueba con variables significativas, que puedan arrojar un resultado confiable y no obvio. La detección de reglas esta más orientada al análisis de cada transacción, mientras que modelos de minería de datos pueden ser capaces de extraer patrones, de describir tendencias y regularidades, de predecir comportamientos, y en general de sacar provecho de la información computarizada que nos rodea hoy en día, generalmente heterogénea y en grandes cantidades, que permiten a los individuos y organizaciones comprender, y modelar de una manera más eficiente para ayudar a la toma de decisiones. Este documento esta estructurado de la siguiente forma: En la sección II, se realiza una introducción al problema de la detección de fraude. En la sección III, se realiza una breve descripción del proceso de descubrimiento de conocimiento y las etapas que lo conforman. En la sección IV, se describe las técnicas para la detección de fraude, realizando un especial énfasis en las técnicas de minería de datos, ya que esto ayuda a comprender y contextualizar mejor el tema central del artículo. La sección V, muestra los trabajos más relevantes realizados en el área. La sección VI, da una perspectiva de los trabajos futuros en el área, y la sección VII, concluye con una discusión sobre este trabajo.
II. EL PROBLEMA DE LA DETECCIÓN DE FRAUDE
El problema en la detección de fraude, radica en el análisis de perfiles de usuario que permitan analizar el comportamiento de un cliente, con el fin de detectar anomalías. En CRM(Customer Resource Management), el análisis en la información de un usuario, implica una cadena de datos como se muestra en la figura 1.
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
2
A continuación se presenta la taxonómica general del proceso KDD, como se ve en la figura 2(tomada de Jiawei Han[31]) .
Figure 1.
Ilustración cadena de datos CRM
La cadena consiste en cuatro clases de datos[29]: • Datos de perfil. Datos que representan información histórica del usuario tal como: nombre, profesión, edad, etc. • Datos de Interés. Datos que representan las tendencias de interés del cliente en los productos de la compañía. • Datos de Acción. Datos que representan las transacciones entre el cliente y la compañía. • Datos de Respuesta. Datos que representan la información de servicio al cliente. En la práctica de la contrucción de perfiles de usuario, el procedimiento incluye cuatro pasos: 1) Limpieza de datos, para eliminar datos redundantes, con el fin de tener un análisis efectivo de detección de fraude. 2) Selección y Extracción de características, que permitan descubrir indicadores, correspondientes a cambios en comportamientos que indiquen fraude. 3) Modelamiento, para determinar patrones de fraude por un clasificador[13]. 4) Monitoreo y predicción de fraude, con el fin de emitir alarmas. De los cuatro pasos anteriores , el modelamiento y predicción de fraude son los más importantes, y tienen amplia discusión en el campo del aprendizaje de máquinas. Adicionalmente, una de las dificultades en la detección de fraude, es que típicamente la mayoría de los datos son legítimos (99%). III. MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS Debido a los grandes volúmenes de datos que una organización puede llegar a tener, el obtener conocimiento a partir de estos no es una tarea fácil. Con este fin investigadores han dado origen a campos de investigación como el descubrimiento de conocimiento en bases de datos[30] (Knowledge Discovery in Database - KDD), y en especial, el proceso de minería de datos (Data Mining) El término ‘KDD’ es empleado para describir el proceso total de descubrimiento y extracción de conocimiento nuevo, no obvio a partir de un conjunto de datos, el cual esta conformado por relaciones y patrones entre los elementos que conforman los datos [27]. El proceso de KDD abarca varias etapas en su realización, desde la selección de datos que pueden ser necesarios para descubrir conocimiento, hasta visualizar los resultados de dicho descubrimiento. El principal proceso dentro del KDD es la minería de datos ‘Data Mining’, que es la responsable de buscar, descubrir y extraer el conocimiento desde los datos[13].
Figure 2.
Etapas del proceso KDD
El proceso comienza con: 1. Preparación[11]. Esta etapa consiste en determinar que datos de la base de datos, vamos a seleccionar para el proceso de extracción de conocimiento. Dentro de las tareas que se deben hacer en esta etapa tenemos: Selección de datos, Limpieza, Enriquecimiento y Codificación. 2. Extracción o Minería[22]. La minería de datos, es el proceso que pretende examinar la vasta cantidad de datos en una base de datos, en busca de patrones recurrentes, detectando tendencias y desenterrando hechos; intenta hallar conocimiento con una mínima o ninguna instrucción u orientación de analistas, todo ello en el menor tiempo posible. Con este conocimiento, el analista empresarial ejercita su habilidad y experiencia en la materia, para separar los hechos útiles de los inútiles. 3. Presentación[31]. En esta etapa se reporta los resultados obtenidos en el proceso de minería de datos. Muchas veces los usuarios se enamoran de una herramienta por los gráficos que despliegan. Las mejores gráficas que una herramienta puede mostrar son aquellas que el usuario entiende. Eso no quiere decir que las gráficas animadas y con mucho colorido no sean buenas, simplemente que los usuarios muchas veces no tienen los conocimientos necesarios sobre el tema al que realizaron minería, por lo que no pueden interpretar los resultados, y no pueden definir si los resultados arrojados son buenos o son malos para la organización. IV. TÉCNICAS PARA LA DETECCIÓN DE FRAUDE La detección de Fraude no es un tema trivial, las metodologías usadas por los “falsificadores” no son las mismas de hace algunos años; cuando las entidades identifican un patrón de comportamiento, los “falsificadores” ya están pensando en otras alternativas. Actualmente las herramientas para la detección de fraude se pueden clasificar en dos categorías: • Técnicas tradicionales y • Técnicas de Minería de datos.
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
3
A. TÉCNICAS TRADICIONALES Los métodos tradicionales de detección de fraude consisten en una combinación de investigadores y herramientas que reportan alarmas de posibles sospechosos; para ello se utilizan técnicas como: 1. Identificación de clientes que coinciden en listas de control como:OFAC 1 , DATACREDITO2 ,etc , emitidas por entes internacionales o nacionales. 2. Sistemas basados en la aplicación de reglas que constan de sentencias SQL, definidas con la ayuda de expertos. Esta estructura puede detectar sumas acumulativas de dinero, ingresadas a una cuenta en un corto periodo de tiempo, como un día. 3. Métodos de clasificación estadísticos, como el análisis de regresión de datos, para detectar comportamientos anómalos de cambio en una cuenta, dada una serie de transacciones que efectúa un cliente en un lapso de tiempo[2], [19]. 4. Análisis de relaciones. Este análisis permite encontrar relaciones entre elementos de información como transacciones, cuentas y participantes. Esta técnica requiere un esquema supervisado[2].
B. TÉCNICAS DE MINERÍA DE DATOS La minería de datos ofrece un rango de técnicas que permiten identificar casos sospechosos, basados en modelos. Estos modelos se pueden clasificar en: •
•
•
Modelos de datos inusuales. Estos modelos, pretenden detectar comportamientos raros en un dato respecto a su grupo de comparación, o con el mismo, por ejemplo la consignación de altas sumas de dinero en efectivo. Para este caso, se puede emplear técnicas de análisis de Clustering, seguido de un análisis de detección de Outlier Modelos de relaciones inexplicables. A través de este tipo de modelos, se desea encontrar relaciones de registros que tienen iguales valores para determinados campos, resaltando el hecho que la coincidencia de valores debe ser auténticamente inesperado, desechando similitudes obvias como el sexo, la nacionalidad. Por ejemplo la transferencia de fondos entre dos o más compañías con la misma dirección de envío. Para este caso se pueden aplicar técnicas de Clustering para encontrar grupos sospechosos y reglas de asociación. Modelos de características generales de Fraude. Con estos modelo se pretende, una vez detectado ciertos casos, hacer predicciones de futuros ingresos de transacciones sospechosas. Para estas predicciones usualmente se emplean técnicas de regresión, árboles de decisión y redes neuronales.
De igual forma, taxonómicamente la minería de datos se puede dividir en dos clases: descriptiva y predictiva según[31] como se presenta en la figura 3. 1 The Office of Foreign Assets Control of the US Department of the Treasury. Véase http://www.treas.gov/offices/enforcement/ofac. 2 Véase http://www.datacredito.com.co
Figure 3. Taxonomía técnicas de Minería de Datos para detección de Fraude
1) Técnicas de Minería Descriptiva: El objetivo de este tipo de minería, es encontrar patrones (correlaciones, tendencias, grupos, trayectorias y anomalías) que resuman relaciones en los datos[7] . Dentro de las principales técnicas descriptivas encontramos: a) Detección de Anomalías(Outlier): La meta principal en la detección de Anomalías, es encontrar objetos que sean diferentes de los demás. Frecuentemente estos objetos son conocidos como Outlier[16], [17]. La detección de anomalías también es conocida como detección de desviaciones[21], porque objetos anómalos tienen valores de atributos con una desviación significativa respecto a los valores típicos esperados. Aunque los Outlier son frecuentemente tratados como ruido o error en muchas operaciones, tales como clustering, para propósitos de detección de fraude, son una herramienta valiosa para encontrar comportamientos atípicos en las operaciones que un cliente realiza en una entidad financiera En términos de salida, las técnicas actuales de detección de Outlier se clasifican en: • Técnicas basadas en Modelos[10], [23]. Se basan en el campo de la estadísticas; dada la premisa de conocer la distribución de los datos. Entre estas técnicas se resalta: Método de Incertidumbre y Método de ”convex hull” . • Técnicas basadas en proximidad[6], [24]. Esta técnica se fundamenta en el manejo de distancias entre objetos, entre mayor sea la distancia del objeto respecto a los demás, éste es considerado como un Outlier. Entre los principales métodos se encuentra: la distancia de Mahalanobis y la distancia Euclidiana. • Técnicas basadas en densidad. Se hace uso de la estimación de densidad de los objetos, para ello, los objetos localizados en regiones de baja densidad, y que son relativamente distantes de sus vecinos se consideran anómalos. Entre los principales métodos se encuentra: SHV[24] (Smallest half-volume),LOF[17](Local Outlier Factor). Este método de minera de datos, generalmente es de apren-
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
dizaje no supervisado, ya que en la mayoría de los casos, no se conoce la clase, para ello se asigna una calificación a cada instancia que refleja el grado con el cual la instancia es anómala. b) Clustering: El análisis de cluster es un proceso que divide un grupo de objetos, de tal forma que los miembros de cada grupo son similares de acuerdo a alguna métrica. El agrupamiento de acuerdo a la similitud, es una técnica muy poderosa, la clave para esto es trasladar alguna medida intuitiva de similitud dentro de una medida cuantitativa[14], como se ilustra en la figura 4.
Figure 4.
Agrupamiento por Cluster
Las técnicas de clustering son utilizadas comúnmente para hacer segmentación, y su gran aplicación está en estrategias de mercadeo, mediante las cuales se determinan conjuntos de clientes que poseen el mismo comportamiento, para hacer llegar ofertas especialmente diseñadas al perfil de dichos clientes. Las técnicas de segmentación permiten identificar claramente el comportamiento de un grupo de casos que difiere de otros grupos o conjuntos, sin embargo algunos autores[32]plantean que por lo general, los cluster son resultados difíciles de entender. Algunas veces, se puede utilizar un árbol de decisión a la salida del cluster, para explicar con precisión el comportamiento o características de los casos que conforman el cluster. Los algoritmos de cluster funcionan con una metodología basada en la construcción inicial de un gran cluster, y luego la subdivisión del mismo hasta encontrar grupos de muestras muy cercanas, otros por el contrario, parten asumiendo que cada registro es un cluster, y luego empiezan a agrupar registros hasta que se consolidan cluster no superpuestos más grandes. Entre los diferentes tipos de cluster se tienen[22], [31]: • Clusters bien separados. Esta definición idealista parte del hecho que todos los objetos de un grupo deben ser suficientemente similares. • Clusters basados en el centro. Un cluster es un conjunto de objetos en el que un objeto está más cerca al centro del cluster, que al centro de otro cluster. • Clusters contiguos. Un cluster es un conjunto de puntos, donde un punto en el cluster está más próximo a otro punto o puntos del cluster, que a cualquier otro punto
4
que no pertenezca al cluster. Clusters basados en densidad. Este tipo de agrupamiento, se basa en el hecho de tener grupos en regiones de alta densidad, separados por regiones de baja densidad. • Cluster de propiedad o Conceptual. Son clusters que tienen propiedad compartida o representan un concepto particular, es decir, hay puntos en común entre dos grupos. Entre los principales algoritmos usados en el análisis de cluster se encuentra: • Algoritmo K-means[32]. Este algoritmo se fundamenta en cluster basados en el centro, en términos de un centroide, el cual usualmente es la media de un grupo de puntos, y típicamente aplica a objetos en espacios continuos ndimensionales. En esta técnica se debe especificar el número de cluster que se desea encontrar. • Algoritmo DBSCAN[22]. Se basa en cluster de densidad, en los cuales los grupos se localizan en las regiones de alta densidad, y son separados por regiones de baja densidad. Este algoritmo genera de manera automática el número de cluster. Los puntos en baja densidad son considerados como ruido y se ignoran. 2) Técnicas De Minería Predictiva: El objetivo de este tipo de minería, es predecir el valor particular de un atributo basado en otros atributos. El atributo a predecir es comúnmente llamado ”clase” o variable dependiente, mientras que los atributos usados para hacer la predicción se llaman variables independientes[22]. Dentro de las principales técnicas predictivas encontramos: a) Árboles de decisión: De las técnicas de aprendizaje, son el método más fácil de utilizar y entender. Un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar, se puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta sus hojas[30]. Se utilizan comúnmente cuando se necesitan detectar reglas del negocio que puedan ser fácilmente traducidas al lenguaje natural o SQL, o en la construcción de modelos predictivos. Existen dos tipos de árboles: los de clasificación, mediante los cuales un registro es asignado a una clase en particular, reportando una probabilidad de pertenecer a esa clase , y los árboles de regresión, que permiten estimar el valor de una variable numérica objetivo. El funcionamiento general de un árbol se basa en la aplicación de premisas que pueden ser cumplidas, o no, por un registro; el registro pasa a través del árbol de premisa en premisa hasta que se evalúa totalmente o hasta que encuentra un nodo terminal, como se aprecia en la figura 5. Las premisas pueden ser vistas como una serie de preguntas sobre las variables de entrada al modelo, tales como ingresos mayores a 500?, sexo masculino o femenino?, etc.,; cada registro, que contiene dentro de si las variables de entrada, describe un camino dentro del árbol por el cual pasa hasta obtener una calificación o una clasificación según sea el caso. Los caminos que describe el árbol para llegar a los nodos terminales, representan el conocimiento adquirido y permiten la extracción de reglas de clasificación de la forma IF-THEN. Según el tema de estudio, los árboles pueden crecer tanto que resultan difíciles de interpretar, o muy cortos que arrojan •
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
5
Figure 6.
Figure 5.
Esquema general de un árbol de decisión
respuestas obvias o insuficientes. La mayoría de los algoritmos y herramientas en el mercado permiten la configuración de los parámetros como el tamaño mínimo de nodos, dado que cada uno de los nodos del árbol corresponden a una pregunta sobre una variable especifica, los árboles de decisión no pueden descubrir reglas que impliquen relaciones entre variables En la literatura han aparecido numerosos algoritmos de aprendizaje de árboles de decisión, entre los más populares se encuentran: • CART[Breiman,1984]. Se basa en el lema ”divide y vencerás” [31], son métodos que construyen árboles binarios basados en el criterio de partición GINI y que sirven para clasificación como para regresión. La poda se basa en una estimación de la complejidad del error. • ID3. Propuesto por Quinlan en 1986[12], el ID3 es considerado el árbol de decisión más simple, usa la ganancia de información como criterio de separación. El árbol crece hasta encontrar un nodo final. No emplea procedimientos de poda, ni manejo de valores perdidos. • C4.5. Es la evolución del ID3, presentado por Quinlan en 1993[3]. Usa como criterio de separación el radio de ganancia. b) Redes Neuronales: Las redes neuronales consisten en "neuronas" o nodos interconectados que se organizan en capas. Por lo regular, los modelos neuronales constan de tres capas: de entrada, oculta y de salida, como se observa en la figura 6(tomada de Oded Maimon [32]). Cada neurona evalúa los valores de entrada, calcula el valor total de entrada, compara el total con el mecanismo de filtrado (valores de umbral), y en seguida determina su propio valor de salida. El comportamiento complejo se modela conectando un conjunto de neuronas. El aprendizaje o "capacitación" ocurre modificando la "fuerza de conexión" o los parámetros que conectan las capas. Las redes neuronales se acondicionan con muestras adecuadas de la base de datos. Las redes neuronales aprenden en forma supervisada o no supervisada. En la modalidad supervisada, la red neuronal intenta predecir los resultados para ejemplos conocidos, compara sus predicciones con la respuesta objetivo y aprende de sus errores. Las redes neuronales supervisadas se emplean para predicción, clasificación y modelos de series históricas. El
Esquema General de Una Red Neuronal
aprendizaje no supervisado es eficaz para la descripción de datos, pero no para la predicción de resultados. Las redes supervisadas crean sus propias descripciones y validaciones de clase y trabajan exclusivamente a partir de los patrones de datos. Las redes neuronales se ven afectadas por tiempos prolongados de aprendizaje. Debido a que actúan como una caja negra, algunos analistas empresariales no confían en ellas. Las redes neuronales se utilizan generalmente para identificar patrones de comportamiento, el uso más común que tienen las redes neuronales es en la detección de fraude[26], [19]. Esta técnica es altamente utilizada en modelos predictivos basados en análisis históricos. Entre más grande sea una red, es decir, más capas ocultas posea o mayor número de nodos, la complejidad de la ecuaciones matemáticas que se deben resolver al interior del nodo de salida se aumenta excesivamente, lo que hace prácticamente imposible entender su funcionamiento o explicar el resultado. Las redes se utilizan en casos en que el resultado es más importante que el ”como”, dado que constituyen modelos no lineales que no producen reglas. Para lograr un buen funcionamiento de las redes es importante realizar un buen entrenamiento, el cual consiste, de manera general, en la asignación de los pesos que debe tener cada variable de entrada con el fin de lograr la mejor aproximación. En la construcción o utilización de una red se deben preparar cuidadosamente los conjuntos de datos a utilizar, por ejemplo, en una red no se utilizan valores categóricos, solo numéricos, por lo que para aquellas variables categóricas como: país, ciudad, etc., se debe asignar un número por cada valor posible ”variables Dummy”. Entre los modelos más utilizados en redes neuronales se encuentran[31]: •
•
Feedforward o Perceptrón Multicapa(MLP). Es el modelo más estudiado y usado en la industria. Un MLP es una red conformada por una capa de entrada, una o varias capas ocultas, una salida y una función de transferencia en cada nivel. Se caracterizan por tener una conexión completa entre capas sucesivas, es decir, cada nodo en una capa está totalmente conectado sólo a todos los nodos en las capas adyacentes. Hopfield. Son un tipo especial de redes, capaces de guardar recuerdos o patrones como el cerebro, no tienen una arquitectura de capas, sino por el contrario, es una
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
sola capa de neuronas completamente interconectadas, en las cuales hay bucles de retroalimentación entre las neuronas. • Kohonen’s Self-organizing Maps(SOM). Son modelos de redes neuronales para la reducción de dimensiones y agrupación de datos, con el fin de visualizar similitudes entre patrones. c) Redes de Creencia Bayesiana: La clasificación Bayesiana se basada en el teorema estadístico de Bayes, el cual provee un cálculo para la probabilidad a posteriori. De acuerdo al teorema de Bayes, si H es una hipótesis, tal que, el objeto X pertenece a la clase C, entonces la probabilidad que la hipótesis ocurra es: P (X|H) = (P (X|H) ∗ P (H)) /P (X). Una red de Creencia Bayesiana(BBN)[19]provee una representación grafica de las dependencias entre un conjunto de atributos. Una BBN se compone principalmente de dos elementos: • Un grafo acíclico que codifica la dependencia de relaciones entre un conjunto de variables. • Una tabla de probabilidad asociada a cada nodo para su nodo padre inmediato. En una BBN, para cada nodo X , existe una tabla de probabilidad condicional, en la cual se especifica la probabilidad condicional de cada valor de X, para cada posible combinación de los valores se sus padres(distribución condicional P (x|padre (x))). La probabilidad de la tupla (x , x , ..., x )teniendo n atributos 1 2 n Q es: P (x1 , x2 , ..., xn )= P (xi |P adres (xi )). La estructura de la red puede ser definida o ser inferida desde los datos. Para propósitos de clasificación uno de los nodos puede definirse como nodo ”clase”. La red puede calcular la probabilidad de cada alternativa de ”clase”. d) Máquinas de soporte Vectorial: Las máquinas de soporte vectorial (SVM) son un conjunto de algoritmos para clasificación y regresión propuesta por Vapnik y su grupo AT&T Bell laboratorios[4], [29]. En simples términos, una SVM es un perceptrón (como una red neuronal) y es idealmente adecuado para la clasificación binaria de patrones que son linealmente separables[25]. La idea principal de la SVM es obtener un único separador de hiperplanos que maximice el margen entre la separación de dos clases, como se observa en la Figura 7. La característica de los vectores que se encuentran en la frontera que separa la definición de este Margen, en la jerga del álgebra lineal, se denomina "Support Vector". En el modelamiento de patrones de fraude, las SMV se pueden trabajar como un modelo de clasificación binaria, donde ”+1” representa a los clientes sospechosos de fraude y ”-1” representa a los clientes usuales, para ello se tiene un modelo[29] en el que dadoF = {a1 , a2 , ..., ak } un conjunto de características de un cierto tipo de comportamiento de un cliente, obtenidas por algún conocimiento previo, el comportamiento de todos los clientes describe el comportamiento de los clientes de la Base de Datos definido por X = {xi |xi ⊆ F, i = 1, ..., N },Donde X se divide en un Na conjunto de entrenamiento Xa = {xi }i=1 y un conjunto de Nb pruebas Xb = {xj }j=1 .
6
Figure 7.
Ejemplo de un separador lineal de SVM
Así la correspondiente función de monitoreo de fraude se puede implementar como: f (x) = P Na Donde yi ∈ {+1, −1} , sign i=1 yi λi (x.xi ) + b λi es el multiplicador de Lagrange y b corresponde al parámetro de decisión de vecindad.
C. RESUMEN DE TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN DE FRAUDE En la tabla 1, se presenta un breve resumen de las tareas, metas y técnicas de Minería más utilizadas en la detección de Fraude. Table I T ÉCNICAS DE M INERÍA DE DATOS PARA LA D ETECCIÓN DE F RAUDE Tarea Encontrar datos Inusuales
Identificar Relaciones Inesplicables
Características Generales de Fraude
Meta Detectar registros con valores anormales. Detectar múltiples ocurrencias de valores. Detectar relaciones entre registros. Determinar perfiles. Determinar registros duplicados. Detección de registros con referencias de valores anormales. Detectar relaciones indirectas. entre registros Detectar registros con combinaciones de valores anormales. Encontrar criterios, tales como reglas. Calificación de transacciones sospechosas.
Técnica de Minería Análisis de Anomalías
Análisis de Cluster Análisis de Cluster y Anomalías Análisis de Relaciones Asociación
Modelos Predictivos
V. TRABAJOS REALIZADOS A continuación se presenta una revisión de los trabajos realizados, los cuales se pueden clasificar en dos categorías: 1. Las investigaciones realizadas en torno a la detección de fraude y 2. Las investigaciones de técnicas de Minería que pueden aplicarse al problema detección de Fraude.
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
A. TRABAJOS ENTORNO A LA DETECCIÓN DE FRAUDE El fraude es la actividad más vieja de la humanidad, y puede tomar una variedad de formas diferentes. Las áreas más vulnerables se centran en las tarjetas de crédito, el lavado de activos, el sector de las telecomunicaciones y el sector médico. Referente al fraude con tarjetas de crédito, Bolton Richard y David Hand[2]han desarrollado una técnica basada en modelos estadísticos concernientes a detectar el comportamiento de fraude, a través del análisis longitudinal de los datos, para ello emplean un método no supervisado que les permite detectar el cambio en el comportamiento de un objeto o detectar transacciones inusuales. El método propuesto por estos autores se llama PGA (Peer Group Analysis, 2001), es una nueva herramienta para monitorear el comportamiento individual de objetos respecto a diferentes objetos, que tiene previamente alguna caracteristica similar. Cada objeto es seleccionado como una clase, y es comparado con todos los objetos en la base de datos, usando criterios de comparación internos y externos de patrones de comportamiento de cada objeto. Esta herramienta intenta ser parte de la minería de datos, en el sentido que tiene un ciclo que detecta objetos anómalos y trata de aislarlo de los demás. Igualmente Jon T.S Quah y M. Sringanesh (2007) desarrollaron una investigación sobre fraude con tarjetas de crédito por Internet[34], para ello emplearon el modelo de redes neuronales SOM(Selt Organizing Maps), la cual consta de tres capas: • Una capa de inicial de autenticación PIN (Personal Identification Number), • Una capa de análisis de comportamiento, la cual tiene un método de clasificación en cluster de los datos de entrada, seguido de la aplicación del algoritmo Feed-Forward de una red neuronal. • Una capa de salida, que presenta si la transacción es sospechoso o no. De otro lado, Efstathios Kirkos[19] presenta un estudio de métodos basados en técnicas de clasificación de Minería de datos, para identificar firmas que emiten estamentos financieros fraudulentos conocido como FFS (Fraudulent Financial Statements). Esta técnica emplea modelos de minería de datos como: Árboles de decisión (ID3), Redes Neuronales (Feed-Forward) y Redes de Creencia Bayesiana. Los métodos son comparados en términos de su exactitud de predicción. La muestra sobre la cual se trabajo corresponde a datos de 76 compañías de Grecia. Los datos se dividieron en dos conjuntos: uno de entrenamiento y otro de validación. En el modelo de entrenamiento, el desempeño de las redes neuronales fue del 100%, seguido de los árboles de decisión con un 96% y por último las redes Bayesianas con un 94.7%, como se ilustra en la tabla 2. De igual forma en el modelo de validación, los resultados fueron diferentes, las redes Bayesianas tuvieron mejor desempeño con un 90.3%, seguido de las redes neuronales con un 80 % y por último los árboles de decisión con un 73.6%, como se aprecia en la tabla 3.
7
Table II M ODELO DE ENTRENAMIENTO PARA DETECCIÓN DE F RAUDE EN FFS Modelo ID3 NN BBN
Fraude(%) 92.1 100 97.4
No- Fraude(%) 100 100 92.1
Total(%) 96.2 100 94.7
Table III M ODELO DE VALIDACIÓN PARA DETECCIÓN DE F RAUDE EN FFS Modelo ID3 NN BBN
Fraude(%) 75 82.5 91.7
No- Fraude(%) 72.5 77.5 88.9
Total(%) 73.6 80 90.3
De otra parte, Clifton Phua [8], presenta un compendio de los trabajos realizados en la aplicación de técnicas de minería, para la detección de fraude, para ello dividió su estudio en dos ramas: • Algoritmos predictivos con aprendizaje supervisado, en esta área se resalta los trabajos realizados por Ghost y Reilly(1994) que proponen un modelo de redes neuronales usando tres capas con una función radial Feed-Forward denominado RBF(Function Basis Radial). Syeda (2002) propuso una red neuronal con lógica difusa. Ezawa y Norton (1996) desarrollaron un modelo de red Bayesiana de cuatro estados y dos parámetros para detección de fraude en telecomunicaciones. • Algoritmos con aprendizaje no supervisado, en esta área se resalta los trabajos realizados por Williams y Hung (1997) aplicando tres pasos del algoritmo k-means para la detección de cluster. Brocket (1998) presenta un estudio basado en el modelo de red neuronal SOM (Self Organizing Maps) para la detección de cluster, antes de lanzar el algoritmo BackPropagation para la detección de fraude medico. S. Viaene (2005) presenta un estudio del aprendizaje Bayesiano para redes neuronales de Perceptrón Multicapa(MLP) con el fin de detectar fraude en las reclamaciones privadas de los accidentes que se produjeron en Massachusetts US en 1993[20]. Con otro enfoque, R. wheeler (2000) presenta una metodología para la detección de Fraude basada en CBR (case-based reasoning) que se basa en métodos de vecindad, y que desarrolla los algoritmos de mejor coincidencia, selección negativa y selección de densidad[33]. De otro lado, referente al fraude médico, Hongxing He y Jincheng Wang (1997), emplearon la técnica de Perceptrón Multicapa(MLP) para clasificar perfiles profesionales médicos, que fueron clasificados por expertos en cuatro categorías[35]. La red neuronal consta de 28 neuronas en la capa de entrada ,15 neuronas en la capa oculta y 4 neuronas en la capa de salida. El porcentaje de exactitud de clasificación de la red fue del 59.8%. En contraste a los autores anteriores, que manejaban técnicas de redes neuronales, redes bayesianas, árboles de decisión, S.N. Pang (2001) presenta un estudio sobre la implementación de las máquinas de soporte vectorial, como alternativa de solución al problema de detección de fraude. Para ello el autor presenta una función de monitoreo binaria que permite
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
crear modelos de detección de fraude para las comunicaciones móviles[29]. En oposición a los autores anteriores Bonnie Buchanan(2005) presenta un mapa conceptual de una modalidad de fraude, como lo es el lavado de activos a nivel mundial, presentando las técnicas usadas comúnmente como: sistemas paralelos, compañías fachadas, pitufeo, transferencias electrónicas. De igual forma presenta las medidas y regulaciones que se han venido tomando a nivel mundial[5]. B. TRABAJOS ENTORNO A TÉCNICAS DE MINERÍA DE DATOS Dentro de las técnicas de minería que pueden ser de gran ayuda a la detección de Fraude, están: 1) Detección de anomalías(Outlier): Esta técnica es de valioso aporte para el desarrollo de sistemas en la detección de fraude, ya que trata de encontrar valores raros en un conjunto de datos, lo cual se alinea con el objetivo de la detección de Fraude. En los últimos años se han diseñado varios métodos para la detección de Outlier, entre los autores más destacados se encuentran: • Zengyou He, quien desarrollo dos métodos: El primero es un algoritmo denominado Greedy(2005) que pretende resolver problemas de optimización, en la detección de Outlier de datos categóricos[15]. El esquema básico del algoritmo se basa en dos fases: en la primera cada registro es etiquetado como noOutlier, y se tiene una tabla hash para hacer las actualizaciones; en la segunda fase, se lee los datos hasta encontrar un registro que maximice la entropía, en este punto el registro es etiquetado como Outlier. El segundo método presentado por este autor, hace referencia al problema de detección de Outlier de Clases [16] y su aplicación en CRM (customer relationship management). Para ello el autor introduce dos tipos de clases de Outlier: local class Outlier y reference class Outlier. • Kaustav Das(2007)[9]. El autor aborda el problema de detectar anomalías en grandes conjuntos de datos categóricos, para ello emplea redes Bayesianas, que se basan en tener definido una estructura y un algoritmo de aprendizaje. • Tianming Hu(2003)[17]. Este autor aborda el tema de la detección de Outlier, a partir de la identificación de patrones obtenidos a través de técnicas de clustering. • C. Caroni and P. Prescott(1995)[6]. Los autores hacen uso del método de O’Rohlf, que examina la distancias entre puntos en un espacio vectorial para construir un MTS (minimun spanning tree) usando la medida de distancia más apropiada. • J. A. Fernandez Pierna(2001)[24]. Este autor hace un compendio de las principales técnicas utilizadas para la detección de Outlier, entre las que se destacan: Método de la incertidumbre, Método de ”convex full”, Distancia de Mahalanobis, XResidual, Potencial Functions, RHM (Resampling by the halfmeans method), SVM (Smallest half-volume method). 2) Análisis de Cluster: Son muy variadas las técnicas empleadas en el agrupamiento, a continuación se cita el estudio realizado por A.C. Atkinson(2007), el cual se basa en un procedimiento robusto conocido como la distancia de Mahalanobis, que permite identificar cluster en datos normales multivariados[1].
8
VI. PERSPECTIVAS DE TRABAJOS FUTUROS Se deben estudiar estrategias que permitan optimizar la aplicación de técnicas de Minería de Datos, analizando las siguientes premisas: 1. El gran volumen de información que presenta el sector Financiero demanda la utilización de un sistema altamente eficiente y escalable. 2. Datos altamente sesgados, sólo un porcentaje muy bajo de las transacciones resultan sospechosas, alrededor de 1%; por lo que aplicar modelos de minería de datos a la información para la detección de Fraude, se podrían obtener respuestas muy obvias como que ”todas las transacciones son normales o tienen una baja probabilidad de ser sospechosas”. 3. Manejo de información incompleta y en algunos casos incoherentes, producto de la migración en los sistemas de información de las organizaciones. Se recomienda que se adelanten estudios en la búsqueda de estrategias para explorar métodos híbridos que combinen diferentes técnicas de Minería de Datos que ayuden a mejorar el desempeño y obtener nuevos resultados. VII. CONCLUSIONES Como se comento en la introducción, la detección de fraude es una estrategia aplicada después que la prevención a fallado, para ello en la actualidad se usan herramientas tradicionales como la estadística y técnicas de Minería de datos, en especial las referentes a Redes Neuronales, Redes de Creencia Bayesiana y Árboles de Decisión, que han ayudado a encontrar modelos más complejos que las herramientas tradicionales. Dado que los patrones de Fraude cambian frecuentemente, es importante contar con la participación de expertos en la formulación de reglas; los analistas que están diariamente monitoreando posibles comportamientos de fraude, encuentran casos a diario. Dado lo anterior, se debe tener en cuenta que los modelos que proveen las técnicas de Minería de Datos deben ser re-entrenados con cierta frecuencia, con el fin de actualizar los modelos con los nuevos datos. La Minería de datos aporta diferentes tecnologías en la identificación de operaciones fraudulentas. Por lo general es necesario el uso de varias de estas tecnologías, con el fin tener un mejor éxito en la solución del problema. La elección exacta y la combinación de estas tecnologías, depende en gran medida de las características de los datos disponibles. R EFERENCES [1] [2] [3] [4] [5] [6]
A.C. Atkinson and M. Riani. Exploratory tools for clustering multivariate data. Computational Statistics and Data Analysis , Vol 52, pp 272-285, Sep 2007. Bolton, Richard J and Hand, David J. Statistical Fraud Detection: A Review.Statistical Science,Vol 17, pp 235-249, Jan 2002. Bradford, J. P. and Fortes, J. A. B. Characterization and Parallelization of Decision-Tree Induction. Journal of Parallel and Distributed Computing, Vol 61, pp 322–349, Jan 2001. Bradley, P. S. and Fayyad, U. M. and Mangasarian, O. L. Mathematical programming for data mining: Formulations and challenges. INFORMS Journal on Computing, Vol 11, pp 217-238, Jan 1999. Bonnie Buchanan. Money laundering-a global obstacle. Research in International Business and Finance, Vol 18, pp 115-127, Apr 2004. C. Caroni and P. Prescott. On Rohlf’s Method for the Detection of Outliers in Multivariate Data. Journal of Multivariate Analysis, Vol 52, pp 295-307, feb 1995.
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
[7]
[8]
[9]
[10]
[11]
[12] [13]
[14] [15] [16]
[17] [18]
[19]
[20]
[21]
[22] [23]
[24]
[25]
[26]
[27] [28] [29]
[30] [31] [32] [33] [34]
Chen, M. S. and Han, J. and Yu, P. S. Data mining: an overview from a database perspective. IEEE Transactions on Knowledge and Data Engineering, Vol 8, pp 866-883, Jan 1996. Clifton Phua, Vincent Lee, Kate Smith and Ross Gayler. A Comprehensive Survey of Data Mining-based Fraud Detection Research. School of Business Systems, Monash University, 2005 Kaustav Das and Jeff Schneider. Detecting anomalous records in categorical datasets. Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 220-229, New York 2007. Laurie Davies and Ursula Gather. The Identification of Multiple Outliers. Journal of the American Statistical Association, Vol 88, pp 782-792, Sep 1993. Devedzic, V. Knowledge discovery and data mining in databases. Handbook of Software Engineering and Knowledge Engineering Fundamentals, World Scientific Publishing Co., Singapore, pp 615-637, Jan 2001. J.R. Quinlan. Induction of Decision Trees. Machine Learning, pp 81106, 1986.. Hand, David J and Blunt, Gordon and Kelly, Mark G and Adams, Niall M. Data Mining for Fun and Profit. Data Mining for Fun and Profit, Vol 15, pp 111-126, May 2000. Zengyou He and Xiaofei Xu and Shengchun Deng. Data Mining for Actionable Knowledge: A Survey. Computer Science, 2001. Zengyou He and Xiaofei Xu and Shengchun Deng. A Fast Greedy Algorithm for Outlier Mining. Computer Science, 2005. Zengyou He and Xiaofei Xu and Joshua Zhexue Huang and Shengchun Deng. Mining class outliers: concepts, algorithms and applications in CRM. Expert Systems with Applications, Vol 27, pp 681-697, Nov 2004. Tianming Hu and Sam Y. Sung. Detecting pattern-based outliers. Pattern Recognition Letters, Vol 24, pp3059-3068,Dec 2003. Kyoung-jae Kim.Artificial neural networks with evolutionary instance selection for financial forecasting. Expert Systems with Applications, Vol 30, pp 519-526, Apr 2006. Efstathios Kirkos and Charalambos Spathis and Yannis Manolopoulos. Data Mining techniques for the detection of fraudulent financial statements. Expert Systems with Applications, Vol 32, pp 995-1003, May 2007. S. Viaene,G. Dedene and R.A. Derrig. Auto claim fraud detection using Bayesian learning neural networks. Expert Systems with Applications, Vol 29,pp 653-666, 2005. Jian-Xin Pan and Wing-Kam Fung and Kai-Tai Fang. Multiple outlier detection in multivariate data using projection pursuit techniques. Journal of Statistical Planning and Inference, Vol 83, pp 153-167, 2000. Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining. Addison Wesley,2005. Daniel Pena and Francisco J Prieto. Multivariate Outlier Detection and Robust Covariance Matrix Estimation. Technometrics, Vol 43, pp 286300,2001. J. A. Fernandez Pierna and F. Wahl and O. E. de Noord and D. L. Massart. Methods for outlier detection in prediction. Chemometrics and Intelligent Laboratory Systems, Vol 63, pp 27-39, Aug 2002. Hyun-Chul Kim , Shaoning Pang, Hong-Mo Je, Daijin Kim and Sung Yang Bang. Constructing support vector machine ensemble. Pattern Recognition, Vol 36, pp 2757-2767, 2003. R. Brause, T. Langsdorf and M. Hepp. Credit Card Fraud Detection by Adaptive Neural Data Mining. Johann Wolfgang Goethe-Universität Frankfurt am Main,1999. U Fayyad, R Uthurusamy. From Data Mining to Knowledge Discovery in Databases.ACM ,1996. Ningning Wu and Jing Zhang. Factor-analysis based anomaly detection and clustering. Decision Support Systems, Vol 42, pp 375-389, Oct 2006. S. N. Pang and D. Kim and S. Y. Bang. Fraud detection using support vector machine ensemble. Pohang University of Science and Technology (POSTECH), 2001. Zhao, Q. and Bhowmick, S. S. Association Rule Mining: A Survey. Nanyang Technological University, Singapore, 2006. Jiawei Han. Data Mining:Concepts and Techniques. Morgan Kaufmann,2006. Oded Maimon and Lior Rokach. Data Mining And Knowledge Discovery Handbook. Speinger 2005. R. Wheeler and S. Aitken. Multiple algorithms for fraud detection. Knowledge-Based Systems, Vol 13, pp 93-99, 2000. Jon T.S. Quah and M. Sriganesh. Real-time credit card fraud detection using computational intelligence. Expert Systems with Applications, 2007.
9
[35] Hongxing He, Jincheng Wang, Warwick Graco and Simon Hawkins. Application of neural networks to detection of medical fraud. Expert Systems with Applications, Vol 13, pp 329-336, 1997.