Preprocesamiento de datos
El preprocesamiento de datos / preparación de datos engloba a todas aquellas técnicas de análisis de datos que permite mejorar la calidad de un conjunto de datos de modo que las técnicas de extracción de conocimiento/minería de datos puedan obtener mayor y mejor información (mejor porcentaje de clasificación, reglas con más completitud, etc.)
Resumen de datos
Permite obtener una descripción del comportamiento de los datos
Frecuencias
Medidas de tendencia central
Medidas de tendencia no central
Medidas de dispersión
Limpieza de datos
Rellena valores ausentes, suaviza el ruido, identifica y elimina outliers, resuelve inconsistencias
Rellenado de valores perdidos
Ignorando la tupla
Suele usarse cuando la variable a clasificar no tiene valor.
Rellenando manualmente
En general es impractico
Substituyendo con una constante global
p.e. "desconocido", "?" o "∞".
Usando la media/desviación
Del resto de las tuplas o del resto de las tuplas pertenecientes a la misma clase.
Con el valor más probable
Para ello usar alguna técnica de regresión
Mediante inferencia
P.e. bayesiana o un árbol de decisión.
Suavizado de datos ruidosos
Mediante binning
Se suavizan valores ordenados consultando sus vecinos. Los valores se distribuyen en un conjunto de cajas o intervalos (bins). Esta técnica realiza un suavizado local.
Igual en anchura
Suavizar por las fronteras
Suavizar por la media o mediana
Igual en el contenido
Suavizar por la media o mediana
Suavizar por las fronteras
Mediante clustering
Mediante técnicas de agrupamiento los datos pueden agruparse en clusters, y los datos que queden fuera de dichos clusters pueden considerarse outliers
Mediante regresión
Los datos pueden suavizarse ajustándolos a una función usando técnicas de regresión.
Lineal
Lineal múltiple
Mediante combinación humana y automática
Usar técnicas computarizadas (p.e. basadas en teoría de la información) para identificar casos "supuestamente" extraños, y el experto humano trabajaría sólo sobre esos datos (p.e. en reconocimiento de carácteres manuscritos)
Integración de datos
Análisis de correlaciones
La idea es medir la fuerza con que un atributo implica el otro, en relación con los datos disponibles.
Convencional
Chi cuadrada
Transformación de datos
Suavizado
Agregación
p.e. totalización de ventas mensuales en un único atributo que sea ventas anuales,
Discretización de datos
Es la reducción del número de valores que puede tomar un atributo continuo dividiendo el rango en intervalos. Esta generalización supone perder nivel de detalle, pero los datos generalizados pueden ser más significativos, fáciles de interpretar y más compactos.
Técnicas
Binning e histogramas
Por anchura
Dividir el rango en N particiones de igual tamaño.
Por profundidad/frecuencia
Dividir el rango en N particiones, tal que cada una de ellas contenga aproximadamente el mismo número de individuos en determinado rango
Clustering
La discretización puede plantearse como un problema de optimización: Dados k bins, se intenta distribuir los valores en ellos de forma que se minimize (en proporción) la distancia de un valor a la media del bin al que pertence.
Usando k-means
Basada en intervalos
La idea parte de un método de generación de reglas (1R), que trata los atributos numéricos discretizándolos en intervalos. El método es supervisado, es decir, los intervalos se eligen atendiendo a la variable clase dada.
Basada en entropía
Entropía: mide la incertidumbre que tiene una variable de salida ante un suceso S.
Por particiones naturales
En muchas ocasiones sería deseable obtener particiones más naturales para el usuario. Se puede usar la regla 3-4-5 para obtener jerarquías
Regla 3-4-5
Si se cubren 3, 6, 7, o 9 valores distintos en el dígito más significativo, entonces dividir el rango en 3 intervalos (3 de igual anchura para 3, 6 y 9. Y 3 agrupados en la forma 232 para 7).
Generalización
Se trata de obtener datos de más alto nivel a partir de los actuales, usando jerarquías de conceptos, p.e. calles > ciudades, edad numérica > {joven, adulto, medianaedad, anciano} Normalización. Pasar a rangos est
Normalización
El objetivo es pasar los valores de un atributo a un rango menor. Especialmente útil para algunas técnicas como las redes neuronales o los métodos basados en distancias (vecinos más próximos)
Min-max
Realiza una transformación lineal de los datos originales.
Zero-mean
Se normaliza en función de la media y la desviación estándar:
Por escala decimal
Normaliza moviendo el punto decimal de los valores del atributo. El número de puntos decimales movidos depende del valor absoluto máximo del valor.
Construcción de atributos
Añadir más atributos para facilitar el proceso de MD. Se añaden nuevos atributos obtenidos a partir de los actuales y con el objetivo de mejorar la exactitud y la comprensibilidad de la estructura al trabajar con datos con muchas dimensiones.
Fragmentación del árbol de decisión
Reducción de datos
Es obtener una representación reducida del conjunto de datos, de volumen mucho menor, pero cercana a mantener la integridad de los datos originales. La minería sobre el conjunto reducido resultante debe ser mucho más eficiente, pero obteniendo (casi) las mismas conclusiones.
Selección de instancias
La selección de instancias pretende elegir los ejemplos/registros que sean más relevantes para una aplicación determinada y lograr el máximo rendimiento.
Técnicas paramétricas
Se estima un modelo a partir de los datos, de forma que sólo los parámetros son almacenados y no los datos reales
Regresión lineal
Se trata de modelar una variable Y (variable de respuesta) como una función lineal de otra variable X (variable predictora)
Modelos log-lineales
Técnicas no paramétricas
Reducen la cantidad de datos mediante el uso de clustering y (básicamente) muestreo
Muestreo
Seleccionar de alguna forma, un conjunto M del total de los N casos presentes en la BD original (con M < N) El número de muestras necesarias depende tanto de la complejidad de los conceptos a ser descubiertos, como de la técnica de MD a emplear
Muestreo aleatorio simple
Se basa en que toda instancia tiene la misma probabilidad de ser elegida.
Con remplazo
Una misma instancia puede aparecer más de una vez en la muestra seleccionada
Sin remplazo
Una misma instancia NO puede aparecer más de una vez en la muestra seleccionada
Muestreo estratificado
Se obtiene una muestra balanceada con suficientes elementos de todos los estratos
Muestreo por clústers o grupos
Se muestrean sólo unos grupos seleccionados
Muestreo exhaustivo
Se cubre completamente el espacio de instancias y se evita poner muchos ejemplos en las zonas muy densas. Se puede implementar trazando una cuadrícula o generando instancias ficticias uniformemente distribuidas y luego buscando la instancia real más cercana (centroide)
Muestreo incremental
En cada etapa se usa un conjunto de datos mayor, deteniéndose el proceso cuando no se ha realizado ningún cambio. Un patrón típico de muestreo incremental es: 10%, 20%, 33%, 50%, 67% y 100%
Muestreo por promedio
A veces, en problemas de clasificación o predicción, se pueden obtener k muestras de N casos y aprender k modelos, obteniéndose la solución mediante una integración de los distintos resultados (promedio, voto por la mayoría, ...)
FSS
El problema de la selección de variables (Feature Subset Selection FSS) consiste en encontrar un subconjunto de las variables del problema que optimize la probabilidad de realizar la clasificación correctamente
Funciones objetivo
Filter
La función objetivo evalúa los subconjuntos basándose en la información que contienen (distancias entre clases, dependencias estadísticas, medidas basadas en teoría de la información information gain)
Distancias
iden la separabilidad entre clases: euclídea, Mikonsky, Mahalanobis, Manhattan...
Correlaciones
Serán buenos los subconjuntos que estén muy correlacionados con la clase
Basadas en la teoría de la información
La correlación sólo puede medir dependencias lineales. Un método más potente es la Información Mutua
Wrapper
La función objetivo consiste en aplicar la técnica de aprendizaje que se usará finalmente sobre la proyección de los datos al conjunto de variables candidato. El valor devuelto suele ser el porcentaje de acierto del clasificador construido
Estrategia de búsqueda
Algoritmos secuenciales
Añaden o eliminan atributos al subconjunto candidato de forma secuencial. Suelen quedarse en óptimos locales
Selección ingenua
La idea más simple es evaluar cada atributo por separado y seleccionar los M que tengan mejor valor para la función objetivo. Esta ingenua estrategia CASI NUNCA funciona
Selección hacia adelante
También llamada Forward Selection, empieza con el conjunto vacío y de manera secuencial añade al subconjunto actual S el atributo Xi que maximiza f (S, Xi)
Selección hacia atrás
También llamada Backward Selection, empieza con el conjunto completo U y de manera secuencial elimina del subconjunto actual S el atributo Xi que produce el menor decremento en f (S, Xi)
Selección l-más r-menos
Es una generalización de forward y backward
Selección bidireccional
Es una implementación paralela de forward y backward. Se debe asegurar que los atributos eliminados por backward no son introducidos por forward (y viceversa)
Selección flotante
Es una extensión de lmás rmenos para evitar se fijen a priori l y r. Hay dos métodos: comenzando por el conjunto vacío o por el total. Ambos son análogos.
Algoritmos exponenciales
El número de subconjuntos evaluados aumenta exponencialmente con la dimensionalidad del espacio de búsqueda
Branch & bound
Beam search
Algoritmos estocásticos
Usan aleatoriedad para escapar de los óptimos locales
Subiendo a la colina con reinicios
Recocido simulado
Algoritmos genéticos
Enfriamiento estocástico
Selección de características
PCA = Principal Components Analysis. Permite obtener las características representativas de una fuente de datos. La idea es usar un sistema de coordenadas dependiente de las características, cada característica es un dimensión. El primer eje lo determina la característica con mayor varianza, el segundo eje la siguiente característica con mayor varianza, y así sucesivamente
Preprocesamiento de datos
Added: 2009-06-17 03:41:29
From: (Joined 2009-06-08 03:21:56)
86 views |3 downloads
Preprocesamiento de datos