• Preprocesamiento de datos

    El preprocesamiento de datos / preparación de datos engloba a todas aquellas técnicas de análisis de datos que permite mejorar la calidad de un conjunto de datos de modo que las técnicas de extracción de conocimiento/minería de datos puedan obtener mayor y mejor información (mejor porcentaje de clasificación, reglas con más completitud, etc.)

    1. Resumen de datos

      Permite obtener una descripción del comportamiento de los datos

      1. Frecuencias

      2. Medidas de tendencia central

      3. Medidas de tendencia no central

      4. Medidas de dispersión

    2. Limpieza de datos

      Rellena valores ausentes, suaviza el ruido, identifica y elimina outliers, resuelve inconsistencias

      1. Rellenado de valores perdidos

        1. Ignorando la tupla

          Suele usarse cuando la variable a clasificar no tiene valor.

        2. Rellenando manualmente

          En general es impractico

        3. Substituyendo con una constante global

          p.e. "desconocido", "?" o "∞".

        4. Usando la media/desviación

          Del resto de las tuplas o del resto de las tuplas pertenecientes a la misma clase.

        5. Con el valor más probable

          Para ello usar alguna técnica de regresión

        6. Mediante inferencia

          P.e. bayesiana o un árbol de decisión.

      2. Suavizado de datos ruidosos

        1. Mediante binning

          Se suavizan valores ordenados consultando sus  vecinos. Los valores se distribuyen en un conjunto de cajas o  intervalos (bins). Esta técnica realiza un suavizado local.

          1. Igual en anchura

            1. Suavizar por las fronteras

            2. Suavizar por la media o mediana

          2. Igual en el contenido

            1. Suavizar por la media o mediana

            2. Suavizar por las fronteras

        2. Mediante clustering

          Mediante técnicas de agrupamiento los datos  pueden agruparse en clusters, y los datos que queden fuera de  dichos clusters pueden considerarse outliers

        3. Mediante regresión

          Los datos pueden suavizarse ajustándolos a una  función usando técnicas de regresión.

          1. Lineal

          2. Lineal múltiple

        4. Mediante combinación humana y automática

          Usar técnicas computarizadas (p.e. basadas en teoría de la  información) para identificar casos "supuestamente" extraños,  y el experto humano trabajaría sólo sobre esos datos (p.e. en  reconocimiento de carácteres manuscritos) 

    3. Integración de datos

      1. Análisis de correlaciones

        La idea es medir la fuerza con que un atributo implica el otro,  en relación con los datos disponibles.

        1. Convencional

        2. Chi cuadrada

    4. Transformación de datos

      1. Suavizado

      2. Agregación

        p.e. totalización de ventas mensuales en un  único atributo que sea ventas anuales,

      3. Discretización de datos

        Es la reducción del número de valores que  puede tomar un atributo continuo dividiendo el rango en  intervalos. Esta generalización supone perder nivel de detalle, pero los  datos generalizados pueden ser más significativos, fáciles de  interpretar y más compactos.

        1. Técnicas

          1. Binning e histogramas

            1. Por anchura

              Dividir el rango en N particiones de igual tamaño.

            2. Por profundidad/frecuencia

              Dividir el rango en N particiones, tal  que cada una de ellas contenga aproximadamente el mismo  número de individuos en determinado rango

          2. Clustering

            La discretización puede plantearse como un problema de  optimización: Dados k bins, se intenta distribuir los valores en  ellos de forma que se minimize (en proporción) la distancia de  un valor a la media del bin al que pertence.

            1. Usando k-means

          3. Basada en intervalos

            La idea parte de un método de generación de reglas (1R),  que trata los atributos numéricos discretizándolos en intervalos. El método es supervisado, es decir, los intervalos se eligen  atendiendo a la variable clase dada.

          4. Basada en entropía

            Entropía: mide la incertidumbre que tiene una variable de  salida ante un suceso S.

          5. Por particiones naturales

            En muchas ocasiones sería deseable obtener particiones más  naturales para el usuario. Se puede usar la regla 3-4-5 para obtener jerarquías

            1. Regla 3-4-5

              Si se cubren 3, 6, 7, o 9 valores distintos en el dígito más  significativo, entonces dividir el rango en 3 intervalos (3 de  igual anchura para 3, 6 y 9.  Y  3 agrupados en la forma  2­3­2 para 7).

      4. Generalización

        Se trata de obtener datos de  más alto nivel a partir de los actuales, usando jerarquías de  conceptos, p.e. calles ­> ciudades, edad numérica ­> {joven,  adulto, mediana­edad, anciano} Normalización. Pasar a rangos est

      5. Normalización

        El objetivo es pasar los valores de un atributo a un rango menor. Especialmente útil para algunas técnicas como las redes  neuronales o los métodos basados en distancias (vecinos más  próximos)

        1. Min-max

          Realiza una transformación lineal  de los datos originales.

        2. Zero-mean

          Se normaliza en función de la  media y la desviación estándar:

        3. Por escala decimal

          Normaliza moviendo el punto decimal de los valores del atributo.  El número de puntos decimales movidos depende del valor  absoluto máximo del valor.

      6. Construcción de atributos

        Añadir más atributos para facilitar  el proceso de MD. Se añaden nuevos atributos obtenidos a partir de los actuales  y con el objetivo de mejorar la exactitud y la  comprensibilidad de la estructura al trabajar con datos con  muchas dimensiones.

        1. Fragmentación del árbol de decisión

    5. Reducción de datos

      Es obtener una representación reducida del conjunto de  datos, de volumen mucho menor, pero cercana a mantener la integridad de los datos originales. La minería sobre el conjunto reducido resultante debe ser  mucho más eficiente, pero obteniendo (casi) las mismas  conclusiones.

      1. Selección de instancias

        La selección de instancias pretende elegir los  ejemplos/registros que sean más relevantes para una  aplicación determinada y lograr el máximo rendimiento.

        1. Técnicas paramétricas

          Se estima un modelo a partir de los datos, de forma que sólo los parámetros son almacenados y no los datos reales

          1. Regresión lineal

            Se trata de modelar una variable Y (variable de respuesta) como una función lineal de otra variable X (variable predictora)

          2. Modelos log-lineales

        2. Técnicas no paramétricas

          Reducen la cantidad de datos mediante el uso de clustering y (básicamente) muestreo

          1. Muestreo

            Seleccionar de alguna forma, un conjunto M del total de  los N casos presentes en la BD original (con M < N) El número de muestras necesarias depende tanto de la  complejidad de los conceptos a ser descubiertos, como de la técnica de MD a emplear

            1. Muestreo aleatorio simple

              Se basa en que toda instancia tiene la misma probabilidad de ser elegida.

              1. Con remplazo

                Una misma instancia puede aparecer más de  una vez en la muestra seleccionada

              2. Sin remplazo

                Una misma instancia NO puede aparecer más de  una vez en la muestra seleccionada

            2. Muestreo estratificado

              Se obtiene una muestra balanceada con suficientes elementos de todos los estratos

            3. Muestreo por clústers o grupos

              Se muestrean sólo unos grupos  seleccionados

            4. Muestreo exhaustivo

              Se cubre completamente el espacio de instancias y se evita poner muchos ejemplos en las zonas muy densas. Se puede implementar trazando una cuadrícula o generando instancias ficticias uniformemente distribuidas y luego buscando la instancia real más cercana (centroide)

            5. Muestreo incremental

              En cada etapa se usa un conjunto de datos mayor, deteniéndose el proceso cuando no se ha realizado ningún cambio. Un patrón típico de muestreo incremental es: 10%, 20%, 33%, 50%, 67% y 100%

            6. Muestreo por promedio

              A veces, en problemas de clasificación o predicción, se pueden obtener k muestras de N casos y aprender k modelos, obteniéndose la solución mediante una integración de los distintos resultados (promedio, voto por la mayoría, ...)

      2. FSS

        El problema de la selección de variables (Feature Subset  Selection ­FSS­) consiste en encontrar un subconjunto de las  variables del problema que optimize la probabilidad de realizar la clasificación correctamente

        1. Funciones objetivo

          1. Filter

            La función objetivo evalúa los subconjuntos basándose  en la información que contienen (distancias entre clases,  dependencias estadísticas, medidas basadas en teoría de la información ­information gain­)

            1. Distancias

              iden la separabilidad entre clases: euclídea, Mikonsky,   Mahalanobis, Manhattan...

            2. Correlaciones

              Serán buenos los subconjuntos que estén muy  correlacionados con la clase

            3. Basadas en la teoría de la información

              La correlación sólo puede medir dependencias lineales. Un método más potente es la Información Mutua 

          2. Wrapper

            La función objetivo consiste en aplicar la técnica de  aprendizaje que se usará finalmente sobre la proyección de los datos al conjunto de variables candidato. El valor devuelto suele ser el porcentaje de acierto del clasificador construido 

        2. Estrategia de búsqueda

          1. Algoritmos secuenciales

            Añaden o eliminan atributos al subconjunto candidato de forma secuencial. Suelen quedarse en óptimos locales

            1. Selección ingenua

              La idea más simple es evaluar cada atributo por separado y seleccionar los M que tengan mejor valor para la función objetivo. Esta ingenua estrategia CASI NUNCA funciona

            2. Selección hacia adelante

              También llamada Forward Selection, empieza con el conjunto vacío y de manera secuencial añade al subconjunto actual S el atributo Xi que maximiza f (S, Xi) 

            3. Selección hacia atrás

              También llamada Backward Selection, empieza con el conjunto completo U y de manera secuencial elimina del subconjunto actual S el atributo Xi que produce el menor decremento en f (S­, Xi)

            4. Selección l-más r-menos

              Es una generalización de forward y backward

            5. Selección bidireccional

              Es una implementación paralela de forward y backward. Se debe asegurar que los atributos eliminados por backward no son introducidos por forward (y viceversa)

            6. Selección flotante

              Es una  extensión de l­más r­menos para evitar se fijen a priori   l y r. Hay dos métodos: comenzando por el conjunto vacío o por el total. Ambos son análogos.

          2. Algoritmos exponenciales

            El número de subconjuntos evaluados aumenta exponencialmente con la dimensionalidad del espacio de búsqueda

            1. Branch & bound

            2. Beam search

          3. Algoritmos estocásticos

            Usan aleatoriedad para escapar de los óptimos locales

            1. Subiendo a la colina con reinicios

            2. Recocido simulado

            3. Algoritmos genéticos

            4. Enfriamiento estocástico

      3. Selección de características

        PCA = Principal Components Analysis. Permite obtener las características representativas de una fuente de datos. La idea es usar un sistema de coordenadas dependiente de las características, cada característica es un dimensión. El primer eje lo determina la característica con mayor  varianza, el segundo eje la siguiente característica con mayor varianza, y así sucesivamente

  • All Comments ( 0 )

    Preprocesamiento de datos

    Added: 2009-06-17 03:41:29

    From: agrobledo (Joined 2009-06-08 03:21:56)

    86 views |3 downloads

    Preprocesamiento de datos

    More From: agrobledo

    Preprocesamiento de datos
    Preprocesamiento de datos
    2009-06-17 03:41:29|86 views
    Predicción de Genes
    Predicción de Genes
    2009-06-08 04:13:14|235 views
    Central Topic
    Central Topic
    2009-06-08 03:39:26|0 views