Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Aprendizaje de Maquina y Aplicaciones.

Aprendizaje de Maquina y Aplicaciones.

Un curso basico de Aprendizaje de Maquina.

matiskay

May 08, 2015
Tweet

More Decks by matiskay

Other Decks in Technology

Transcript

  1. Aprendizaje de Máquina y Aplicaciones J. Luyo1 E. Marca1 D.

    Benavides2 1Facultad de Ciencias Matemáticas UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS - UNMSM 2Facultade de Tecnologia UNIVERSIDADE DE BRASILIA - UnB UNMSM Facultad de Ciencias Matemáticas Lima - Perú, 19 y 23 de Febrero, 2015 1 / 125
  2. Dos definiciones de Aprendizaje "Learning is the acquisition of knowledge

    about the world." — Kupfermann (1985) "Learning is an adaptive change in behavior caused by experience." — Shepherd (1988) 6 / 125
  3. Aprendizaje de Maquina Definición Rama de la inteligencia artificial que

    construye y estudia los sistemas que pueden aprender apartir de los datos. 8 / 125
  4. Tipos Aprendizaje de Maquina Aprendizaje no Supervisado Asociación Clustering Estimación

    de Densidad Aprendizaje Supervisado Clasificación Regresión Aprendizaje por Refuerzos (Reinforcement Learning) Aprendizaje Activo (Active Learning) Aprendizaje Semi-Supervisado(SemiSupervised Learning) 9 / 125
  5. Ejemplo: Clasificación de Dígitos Tarea: Escribir un programa que, dado

    una imagen 28 × 28 en escalas de grises de un dígito, nos diga cual es el dígito. Dígitos de la base de datos MNIST (http://yann.lecun.com/exdb/mnist/) 10 / 125
  6. Aprendizaje No Supervisado Solo el dato Datos de Entrenamiento 

                       11 / 125
  7. Aprendizaje Supervisado Dato y Etiqueta Datos de Entrenamiento  

     , 2       , 0      , 8     , 5   12 / 125
  8. Partición de un conjunto Definición Una partición del conjunto A

    es una familia P de subconjuntos no vacíos de A, disjuntos dos a dos, cuya unión es A. Es decir, P = {Ai | i ∈ I}, donde se cumple: 1. Para cada i ∈ I, Ai ⊂ A y Ai = ∅ 2. Para cada par i = j, Ai ∩ Aj = ∅ 3. i∈I Ai = A 16 / 125
  9. Clustering Sea un conjunto de datos D con m datos

    en un espacio n-dimensional, D = {x1 , x2 , . . . , xm } y sea k el numero de clusters deseados, la tarea es encontrar una partición de k elementos para el conjunto de datos. La partición denotada por C = {C1 , C2 , . . . , Ck }. Además, para cada cluster Ci existe un elemento representativo que representa al cluster, una opción común para este representante es la media (también llamado centroide) µi de todos los puntos del cluster, así, µi = 1 |Ci | xj∈Ci xj 17 / 125
  10. KMeans Dado un agrupamiento C = {C1 , C2 ,

    . . . , Ck } necesitamos alguna función que evalúa la similaridad entre los elementos de un cluster. Para nuestro caso utilizaremos la suma de cuadrado de los errores a cada cluster. SSE(C) = k i=1 xj∈Ci xj − µi 2 El objetivo es encontrar un agrupamiento que minimiza SSE: C∗ = argmin C {SSE(C)} KMeans emplea un método interactivo ambicioso (greedy) para buscar el agrupamiento que minimiza la función objetivo SSE. Así, el algoritmo puede converger a una solución local en vez de la solución global óptima del problema. 19 / 125
  11. KMeans Algoritmo Algoritmo KMeans 1. Asigna aleatoriamente un número, de

    1 a K, a cada una de las observaciones. 2. Iterar hasta que la asignación de los cluster deje de cambiar 2.1 Para cada uno de los K cluster, calcular el centroide. El k-ésimo centroide es el vector con las medias de las variables para las observaciones en el k-ésimo cluster. 2.2 Asignar cada observación al cluster donde el entroide este más cerca (donde cercanía se encuentra definida por la distancia Euclidiana. 20 / 125
  12. KMeans Algoritmo Algorithm 1 Algoritmo K-means 1: procedure K-MEANS(D, k,

    ) 2: t ← 0 3: Inicializar los k centroides aleatoriamente µt 1 , µt 2 , . . ., µt k ∈ Rn 4: repeat 5: t ← t + 1 6: Cj ← ∅ for all j = 1, . . . k 7: for xj ∈ D do 8: j∗ ← argmin xj − µt i 2 9: Cj∗ ← Cj∗ ∪ {xj } 10: end for 11: for i = 1 to k do 12: µt i ← 1 |Ci| xj∈Ci Xj 13: end for k 21 / 125
  13. Ejemplo Conjunto de Datos Iris1 Este conjunto de datos contiene

    3 clases con 50 instancias cada una. Una de las clases es linealmente separable de las otras 2 y dos de ellas no son linealmente separables. (a) Iris Setosa (b) Iris Vesicolor (c) Iris Virginica 1http://en.wikipedia.org/wiki/Iris_flower_data_set 22 / 125
  14. Ejemplo Conjunto de Datos Iris Figura: Grafico de dispersión 1

    data(’iris’) 2 pairs(iris[1:4], main=’Iris Data’, pch = 21, 3 bg = c(’red’, ’green’, ’blue’)[unclass(iris$Species)]) 23 / 125
  15. Ejemplo Conjunto de Datos Iris 1 # KMeans Iris Dataset

    2 3 # Load Iris dataset 4 data(’iris’) 5 6 # k-means is non-deterministic 7 set.seed(321) 8 9 iris.km <- kmeans(iris[, -5], 3, iter.max = 1000) 10 11 tbl <- table(iris[, 5], iris.km$cluster) 12 iris.dist <- dist(iris[, -5]) 13 iris.mds <- cmdscale(iris.dist) 14 15 c.chars <- c(’*’, ’o’, ’+’)[as.integer(iris$Species)] 16 17 a.cols <- rainbow(3)[iris.km$cluster] 18 19 plot(iris.mds, col = a.cols, pch = c.chars, xlab = "X", ylab = "Y") 20 21 corr <- iris.km$cluster == 4 - as.integer(iris$Species) 22 correct <- c("o", "x")[2 - corr] 23 24 plot(iris.mds, col = a.cols, pch = correct, xlab = "X", ylab = "Y") 24 / 125
  16. SOM: Self-Organizing Map o Algoritmo de Kohonen 1. Presentado por

    primera vez por el profesor Teuvo Kohonen finlandes. 2. Representación de los datos de alta dimensión en una dimensión mucho menor, generalmente 2 dimensiones. 3. Análisis de comportamiento de atributos. Relación entre atributos. 28 / 125
  17. Self-organizing map (SOM) o Algoritmo de Kohonen Calculo de pesos

    w(x + 1) = w(t) + Θ(y)L(t)(x(t) − w(t)) (1) L(t) = L0 (t)e t λ (2) Θ(t) = e d2 2θ2(t) (3) 33 / 125
  18. Self-organizing map (SOM) o Algoritmo de Kohonen Descripcion del algoritmo

    1. La estructura de la red es escogida (dimensión de la red) y los pesos de cada nodo es inicializado. 2. Un vector es escogido aleatoriamente a partir del conjunto de datos de entrenamiento y se introduce a la red. 3. Cada nodo es examinado para calcular cual de los pesos esta mas próximos del vector de entrada. El nodo vencedor es comúnmente conocido como The Best Matching Unit - BMU. 4. El radio de la vecindad del BMU es calculado. Este es un valor que comienza grande, pero disminuye en cada paso de tiempo. Cualquier nodo que esta dentro deste radio es considerado dentro del entorno de la BMU. 5. Los pesos de cada no vecino son ajustados para acercarlos al vector de entrada. Cuanto más próximo un nodo esta de la BMU, mas sus pesos se alteran mas. 6. Repetir el paso 2 para n iteraciones. 34 / 125
  19. SOM usando R 1 iris <- read.csv("~/Documents/Talleres/Machine Learning - Fisica/Dataset/iris.csv",

    header=FALSE); 2 View(iris) 3 4 coolBlueHotRed <- function(n, alpha = 1) { 5 rainbow(n, end=4/6, alpha=alpha)[n:1] 6 } 7 8 ##data <- read.table("~/Documents/Talleres/Machine Learning - Fisica/Dataset/iris.csv", quote="\"", strin 9 10 data.train <- as.matrix(iris) 11 sM <- som(data.train, grid = somgrid(10, 5, "hexagonal"), rlen=1, alpha=c(0.05, 0.01), keep.data=FALSE) 12 13 14 plot(sM, type = "property", property = sM$codes[,1], 15 main = colnames(sM$codes)[1]) 16 plot(sM, type = "property", property = sM$codes[,2], 17 main = colnames(sM$codes)[2]) 18 plot(sM, type = "property", property = sM$codes[,3], 19 main = colnames(sM$codes)[3]) 20 plot(sM, type = "property", property = sM$codes[,4], 21 main = colnames(sM$codes)[4]) 36 / 125
  20. Problema de clasificación binaria Clasificación - Estructura matemática Se tienen

    lo siguientes elementos El espacio con producto interno Rn como nuestro conjunto universo de datos. El conjunto S donde S ⊂ Rn un conjunto de muestra. Una función f : S → {+1, −1} que denominaremos función de etiquetado. Un conjunto D de entrenamiento, donde D = {(x, y) /x ∈ S, y = f(x)} Debemos hallar una función ˆ f : Rn → {+1, −1}, a partir de D tal que ˆ f f para todo x ∈ S. Vamos a denominar a f como la función de decisión. Cuando el conjunto de entrenamiento D es linealmente separable el problema anterior es denominado problema de clasificación binaria lineal. 38 / 125
  21. Construcción del modelo de clasificación binaria Supongamos que un conjunto

    de entrenamiento D ⊂ Rn es linealmente separable Si a pertenece a la clase −1, entonces w, a − b < 0 Si a pertenece a la clase +1, entonces w, a − b > 0 Función de decisión de un problema de clasificación binaria lineal La función de decisión ˆ f para el problema, cuya superficie de decisión es L : w, x = b esta dada por ˆ f(x) = sign ( w, x − b) 39 / 125
  22. Clasificadores margen máximo 1. Superficie de decisión 2. Hiperplanos de

    soporte 3. Vectores de soporte 4. Margen 57 / 125
  23. Construcción del modelo Sea w∗, x = b∗ la superficie

    de decisión óptima para un problema de clasificación binaria -2 -1 1 2 3 4 5 1 2 3 4 5 → xp m∗ → xq → w∗ · → x=b∗ +k → w∗ · → x=b∗ → w∗ · → x=b∗ −k → xp− → xq → w∗ γ El margen máximo puede ser calculado como la proyección del vector (xp − xq) en dirección de w∗: m∗ = w∗, xp − xq |w∗| = 2K |w∗| = φ(w∗, b∗) De aquí se plantea el siguiente problema de optimización convexa m∗ = φ(w∗, b∗) = m´ ax w,b φ(w, b) Este problema maximizacion es equivalente a un problema de minimización m∗ = m´ ın w,b 1 2 w, w 58 / 125
  24. Clasificador margen máximo Proposición (Clasificador margen máximo) Dado un conjunto

    de entrenamiento linealmente separable D = {(x1, y1), (x2, y2), ..., (xl, yl)} ⊂ Rn × {+1, −1}, podemos calcular la superficie de decisión margen máximo w∗, x = b∗ resolviendo el programa convexo (P)        m´ ın w,b φ(w, b) = 1 2 w · w sujeto a w, yixi ≥ 1 + yib, donde (xi, yi) ∈ D ⊂ Rn. (4) 1. La función objetivo no depende de b 2. El termino de desplazamiento b aparece en las restricciones 3. Vamos a tener tantas restricciones como puntos de entrenamiento Para superar el problema del ítem 3 podemos resolver el problema dual en lugar del problema primal. 59 / 125
  25. Clasificador margen máximo - Programa dual Problema dual - Clasificador

    margen máximo Dado un problema dual (LP) derivado del problema de clasificación margen máximo (P). Podemos obtener el programa (DP) tal que (DP)                    m´ ax α h(α) = m´ ax α l i=1 αi − 1 2 l i=1 l j=1 αiαjyiyj xi, xj sujeto a l i=1 αiyi = 0, αi ≥ 0 para i = 1, . . . , l. El calculo de b esta en términos de w∗, como sigue: b+ = m´ ın { w∗, x | (x, y) ∈ D con y = +1)} b− = m´ ax { w∗, x | (x, y) ∈ D con y = −1)} Entonces b∗ = b++b− 2 Vectores de entrenamiento asociados a λi > 0 son denominados vectores de soporte. 60 / 125
  26. Maquina de Soporte Vectorial Vamos a denominar Maquina de Soporte

    Vectorial a la función de decisión del clasificador de máximo margen dual, definida como ˆ f(x) = sign l i=1 α∗ i yi xi , x − b∗ 61 / 125
  27. Maquina de Soporte Vectorial No lineal x · x =

    1 Figura: Superficie de decisión no lineal x, x = 1 en R2. 62 / 125
  28. Maquina de Soporte Vectorial No lineal x · x =

    1 ϕ ϕ(+) ϕ(+) ϕ(+) ϕ(+) ϕ(+) ϕ(−) ϕ(−) ϕ(−) ϕ(−) ϕ(−) ϕ(−) ϕ(+) w · ϕ(x) = b Figura: Mapeo ϕ de R2 a un espacio de dimensión posiblemente infinita. 63 / 125
  29. ¿Es posible separar linealmente los datos cuando se hace el

    mapeo a un espacio de dimensión mayor?
  30. El Teorema de Cover Se asume que los puntos considerados

    cumplen la condición de posición general. Teorema La cantidad de separaciones lineales por el origen de N puntos en un espacio de dimensión d es: C(N, d) = 2 d−1 k=0 N − 1 k El total de separaciones binarias (en cualquier dimensión) es 2N . Entonces la probabilidad de que una dicotomía elegida aleatoriamente es: P(N, d) = C(N, d) 2N = d−1 k=0 N−1 k 2N−1 67 / 125
  31. El Teorema de Cover Teorema "La probabilidad de separar un

    conjunto de puntos aumenta a medida que aumenta la dimensión del espacio". Como se observa en la formula C(N, d) = 2 d−1 k=0 N−1 k , manteniendo fijo N y aumentando la dimensión (mediante una aplicación), se tiene que C(N, d) aumenta en términos positivos de la forma N−1 p mientras N > d. 68 / 125
  32. El Teorema de Cover Cuando N ≤ d los términos

    agregados son igual a cero, pues m n = 0 para m < n por definiciónón, y C(N, d) = 2 N−1 k=0 N − 1 k = 2 ∗ 2N−1 = 2N que es justamente el total de separaciones que puede haber. luego en este caso P(N, d) = 1. 69 / 125
  33. El Teorema de Cover Demostración. Si p > d entonces

    d−1 k=0 N − 1 k < p−1 k=0 N − 1 k entonces C(N, d) < C(N, p) luego C(N, d) 2N < C(N, p) 2N P(N, d) < P(N, p). Esto es justamente lo que afirma el teorema de Cover. 70 / 125
  34. El Truco del Kernel El Teorema de Mercer Teorema (Teorema

    de Mercer) Sea k una función continua en [a, b] × [a, b] que cumple b a b a k(t, s)f(s)f(t) ds dt ≥ 0 para todo f en L2([a, b]), entonces, para todo t y s en [a, b] la serie k(t, s) = ∞ j=1 λj ϕj (t)ϕj (s) converge absolutamente y uniformemente en [a, b] × [a, b]. 71 / 125
  35. El Truco del Kernel Mapeo caracteristico usando el teorema de

    Mercer El teorema de Mercer nos permite definir una aplicación de características para el kernel k k(t, s) = ∞ j=1 λj ϕj (t)ϕj (s) = λj ϕj (t) ∞ n=1 , λj ϕj (s) ∞ n=1 2([a,b]) Podemos tomar 2([a, b]) como espacio de características, con la siguiente aplicación característica Φ : [a, b] → 2([a, b]) t → λj ϕj (t) ∞ j=1 72 / 125
  36. Espacios de Hilbert con Kernel Reproductivo Kernel Reproductivo Definición (Kernel

    Reproductivo) Una función K : E × E → C (s, t) → K(t, s) es un kernel reproductivo del espacio de Hilbert H si y solo si 1. Para todo t en E, se cumple que K(., t) es un elemento de H. 2. Para todo t en E y para todo ϕ en H, se cumple ϕ, K(., t) = ϕ(t) La ultima condición es llamada "La propiedad reproductiva": El valor de la función ϕ en el punto t es reproducido por el producto interno de ϕ con K(., t). 73 / 125
  37. Espacios de Hilbert con Kernel Reproductivo Definición Definición (Espacio de

    Hilbert con Kernel Reproductivo) Un espacio de Hilbert de funciones complejas que posee un kernel reproductivo es llamado Espacio de Hilbert con Kernel Reproductivo (EHKR). 74 / 125
  38. El Truco del Kernel Mapeo característico usando el teorema de

    Mercer Teorema (Representacion de Mercer de un EHKR) Sea X un espacio métrico compacto y k : X × X → R un kernel continuo. Definimos H =    f = ∞ j=1 aj ϕj aj λj ∈ 2([a, b])    con producto interno ∞ j=1 aj ϕj , ∞ j=1 bj ϕj H = ∞ j=1 aj bj λj Entonces H es un espacio de hilbert con kernel reproductivo k. 75 / 125
  39. El Truco del Kernel Definición Una función k : E

    × E → R es llamado kernel si existe un espacio de Hilbert (no necesariamente un EHKS) H y un función Φ : E → H, tal que k(x, y) = Φ(x), Φ(y) 76 / 125
  40. El Truco del Kernel El Teorema de Moore-Aronszajn Teorema (Moore-Aronszajn)

    Sea K un kernel simétrico y definido positivo en X entonces existe un único Espacio de Hilbert con Kernel Reproductivo. Teorema Todo kernel reproductivo es un kernel Φ : [a, b] → H x → k(., x) k(x, y) = k(., x), k(., y) 77 / 125
  41. El Truco del Kernel La MSV No Lineal Maquina de

    Soporte Vectorial No Lineal Vamos a denominar Maquina de Soporte Vectorial a la función de decisión del clasificador de máximo margen dual, definida como ˆ f(x) = sign l i=1 α∗ i yi φ(xi ), φ(x) − b∗ 78 / 125
  42. El Truco del Kernel La MSV No Lineal Maquina de

    Soporte Vectorial No Lineal Vamos a denominar Maquina de Soporte Vectorial a la función de decisión del clasificador de máximo margen dual, definida como ˆ f(x) = sign l i=1 α∗ i yi k(xi , x) − b∗ 79 / 125
  43. Una nota histórica "Teorema de Mercer", James Mercer (1909) "Teorema

    de Moore-Aronzajn", Nachman Aronszajn (1950) "Teorema de Cover", Thomas Cover (1965) "Maquinas de Soporte Vectorial", Vladimir Vapnik (1992) "Maquinas de Soporte Vectorial Suave", Corinna Cortes y Vladimir Vapnik (1995) 80 / 125
  44. Redes neuronales Perceptron En el año 1950 Frank Rosenblatt en

    el campo de investigación de la inteligencia artificial. x1 x2 xn−1 xn . . . x0 = 1 w0 n i=0 wi xi o( n i=0 wi xi ) Figura: Un perceptron simple. 82 / 125
  45. Redes neuronales Unidad signuidal x1 x2 xn−1 xn . .

    . x0 = 1 w0 net = n i=0 wi xi o = σ(net) = 1 1+e−net Figura: Perceptron con unidad signuidal. 83 / 125
  46. Redes neuronales Multicamadas x1 : Comprimiento das s´ epalas x2

    : Largura das s´ epalas x3 : Comprimento de p´ etalas x4 : Largura p´ etala Classe Iris-Setosa Classe Iris-Versicolor Classe Iris-Virginica N0 N1 N2 N3 N4 N5 Camada oculta Camada de sa´ ıda Figura: Red neuronal multicamada. 84 / 125
  47. Lenguaje de programación R 1. R es un lenguaje de

    programación para análisis estadístico. 2. Cuenta con entorno de programación propio pero hay entornos desarrollados como RStudio con una interfaz más intuitiva. 3. Potente graficador para análisis. 4. OpenSource. Libre! 88 / 125
  48. Introducción 1. Imágenes de intensidad: Imágenes codificadas como intensidad de

    luz, adquiridas por cámaras digitales. 2. Imágenes de profundidad: Imágenes codificadas como froma y distancia, adquiridas sensores como sonares o digitalizadores lazer. Cualquier imagene digital, no importa su forma o su tipo, es un vector bidimensional de números. 90 / 125
  49. Introducción Figura: Imagen 20x20 pixeles de un ojo. Esos números

    pueden representar intensidad de luz, distancia, etc. La relación exacta entre la imagen digital y el mundo físico es determinada por el proceso de adquisicón, que depende del sensor utilizado. Cualquier información contenida en imagenes (forma, mediciones o identidad de objetos) debe ser extraída (calculada) a partir de vectores numéricos bidimensional, en los cuales está codificada. 91 / 125
  50. Conceptos principales Parámetros ópticos de lentes Caracteriza el sensor óptico

    1. Tipos de lentes 2. Comprimento de foco/distancia focal 3. Campo de visión 4. Abertura angulares 92 / 125
  51. Conceptos principales Parámetros fotométricos Aparecen en modelos de energia de

    luz incidiendo en el sensor después de haber sido reflejada por objetos en la escena. 1. Tipos, intensidad, y dirección de iluminación 2. Propriedades de reflectancia de las superficies visualizadas 3. Efectos de la estructura del sensor en la cantidad de luz que incidio en los fotoreceptores. 93 / 125
  52. Conceptos principales Parámetros geométricos Determinan la posición en la imagen

    sobre la cual el punto 3-D es projectado 1. Tipos de proyecciones 2. Posición y orientación de la cámara en el espacio 3. Distorciones de perspectiva introducidas por el proceso de adquisión de la imagen Todos los factores anteriores son significativos en cualquier dispositivo de adquisición de imagenes, como cámara fotográfica, video-cámaras, o sistemas computarizados. Otros parámetros puede ser incluídos en la lista anterior para caracterizar imagenes digitales y el proceso de adquisión. 1. Propiedades físicas de la matriz fotosensitiva de la cámara 2. La naturaleza discreta de los fotoreceptores 3. La cuantificación de la escala de intensidades 94 / 125
  53. Reflectancia de Lambertian Un punto de superficie refleja la luz

    incidente igualmente en todas las dirección. No aboserve energía. Figura: Superficie Lambertiana. L = ρIT · n (5) Energía por unidad de área. 95 / 125
  54. Modelo de cámara de perspectiva Figura: Formación de imagenes con

    cámara de perspectiva. Ecuaciones fundamentales x = f X Z (6) y = f Y Z (7) Las ecuaciones fundamentales no son lineales (f foco constante, Z variable) 96 / 125
  55. Modelo de cámara de perspectiva No se preservan distancias entre

    puntos, o angulos entre lineas. Mapean lineas en lineas Figura: Ejemplos de consecuencia del modelo de cámara de perspectiva. 97 / 125
  56. Modelo de cámara de perspectiva débil x = f X

    Z ≈ f ¯ Z X (8) y = f Y Z ≈ f ¯ Z Y (9) ¯ Z = distancia media Las ecuaciones anteriores pueden ser entendidas como una proyección ortográfica con f → ∞ y Z → ∞ entonces f Z = 1 y x = X (10) y = Y (11) 98 / 125
  57. Introducción Estructura de un sistema de adquisión de imágenes típico

    Representación de imagenes digitales en un computador Informaciones prácticas en muestreo espacial y ruídos en cámaras 99 / 125
  58. Sistema básico Representación de imagenes digitales Matriz numérica E, con

    N lineas, M columnas E(i, j) intensidad de pixel [0,255] (8 bits) Imagenes coloridas con 3 componenetes monocromáticos (RGB) Figura: Representación de una imagen CCD. 101 / 125
  59. Sistema básico Representación de imagenes digitales xim = n N

    .xCCD (12) yim = m M .yCCD (13) donde N, M son las dimensiones de la imagen en píxeles y n, m las dimensiones del CCD, número de sus elementos. n N y m M : diferencia de escala en las coordenadas n m : produce distorción de la imagen (celdas de formas diferentes de los píxeles) Se asume que existe una relación entre los elementos del CCD y los píxeles de imagenes, y se introduce factores de tamaño vertical y horinzontal. 102 / 125
  60. Muestro espacial Por el Teorema del muestreo, la mayor frecuencia

    que puede ser capturada por el sistema vc = 1 2d (14) donde d es la distancia entre los elementos adyacentes en el CCD. 103 / 125
  61. Adquisión de ruído y su estimativa Estimativa de ruído n

    imagenes de la misma escena E0, E1, ..., En−1 imagen de NxN píxeles Para i, j = 0, ..., N − 1 E(i, j) = 1 n n−1 k=0 Ek(i, j) (15) σ(i, j) = 1 n − 1 n−1 k=0 (E(i, j) − Ek(i, j))1/2 (16) por cada píxel. σ(i, j) = 1 NxN N−1 i=0 N−1 j=0 σ(i, j) (17) 104 / 125
  62. Parámetros de cámara Se asume que El sistema de referencia

    de la cámara puede ser localizado con respecto a algun otro sistema conocido, por ejemplo, un sistema de coordenadas externo. Las coordenadas de los puntos de la imagen en el sistema de referencia de la cámara puede ser obtenido de las coordenas de píxeles, los únicos directamente disponibles de la imgen. 105 / 125
  63. Parámetros de cámara Los parámetros de las cámaras son divididos

    en Parámetros extrínsecos: Definen la localización y orientación del sistema de referencia de la cámara con respecto a un sistema externo conocido. Parámtros intrínsecos: Necesarios para relacionar las coordenadas de píxeles de una imagen con las coordenas correspondientes en el sistema de referencia de la cámara. 106 / 125
  64. Parámetros de cámara Parámetros extrínsecos Pc = R · (Pw

    − T) (18) Figura: Parámetros extrínsecos. 107 / 125
  65. Parámetros de cámara Parámetros intrínsecos Se asume que no hay

    distrociones geom etricas ópticas, y que el sensor CCD es un rectangulo grande de elementos fotosensibles. x = −(xim − ox )sx (19) y = −(yim − oy )sy (20) (ox , oy ) = coordenadas del centro de la imagen en píxeles (punto principal) (sx , sy ) = tamaños efectivos de los píxeles (en milímetros) en las direcciones horinzontales y verticales respectivamente. 108 / 125
  66. Parámetros de cámara Problema de aproximación de parametros El problema

    del modelo de cámara se reduce a encontrar de la mejor manera estos parámetros Hay algoritmos que los aproximan de manera directa o también de manera indirecta. 109 / 125
  67. Características de imagenes ¿Qué son? 1. Propiedades globales de una

    imagen o de parte de ella. Por ejemplo: Medidas de las intensidades de píxel Áreas en pixels 2. Parte de una imagen con algunas propiedades especiales (características locales). Son más importantes en Visión computacional. Por ejemplo: Círculo o linea Región texturada de una imagen de intensidad Superficie plana en una imagen de profundidad 110 / 125
  68. Características de imagenes Definición Son partes detectables, locales e significativas

    de una imagen. Todo esto cuando existe un algoritmo para su detección, si no, no tiene utilidad. Características diferentes tienen algoritmos diferentes para su detección La extracción de características es un paso intermediario Algoritmo de detección solo puede ser validado dentro de el contexto del sistema entero. 111 / 125
  69. Características de imagenes Detección de bordes y contornos Definición: Borde

    y contorno Puntos de un borde, o simplemente bordes, son píxeles, o regiones en torno de ellos, con valores de intensidad de imagen con variaciones acentuadas. Figura: (a) Imagen 325x237 píxeles, con linea en i=56 mostrada. (b) perfil de intensidad a lo largo de la linea. 112 / 125
  70. Características de imagenes Detección de bordes y contornos Tres pasos

    de la detección de bordes 1. Atenuación de ruído 2. Realce de bordes 3. Localización de borde Algoritmos más conocidos CANNY EDGE DETECTOR, ROBERT EDGE y SOBEL EDGE. 113 / 125
  71. Características de imagenes Detección de lineas y curvas Detección de

    lineas y curvas Dada una salida de un detector de contorno en una imagen I, hallar todas las formas de una curva dada o parte de ella en I. a · x = ax + by + c = 0. (21) 114 / 125
  72. Características de imagenes La transformada de hough para lineas Figura:

    Linea en la imagen al espacio de coeficientes. 116 / 125
  73. Características de imagenes La transformada de hough para lineas Figura:

    Muestra de detección con el algoritmo HOUGH LINES. 117 / 125
  74. Características de imagenes Generalización para cualquier curva ax2 + bxy

    + cy2 + dx + ey + f = 0 (22) (elipse, parábolas, hipérbolas, círculos) 118 / 125
  75. Referencias T. Mitchell. Machine Learning. McGraw-Hill. 1997. F. Rosenblatt, The

    perceptron: A probabilistic model for information storage and organization in the brain,Psychological Review, Vol 65(6), Nov 1958, 386-408. R. Fisher, The use of multiple measurements in taxonomic problems, Annual Eugenics, 7, Part II, 179-188 (1936); also in Çontributions to Mathematical Statistics"(John Wiley, NY, 1950). M. Akmam, A Data Mining Approach to Construct Graduates Employability Model in Malaysia, Hong Kong: International Journal on New Computer Architectures and Their Applications, 2011 122 / 125
  76. Referencias I. Brown, An experimental comparison of classification techniques for

    imbalanced credit scoring data sets using SAS, Southampton: SAS Global Forum, 2012 C. Chou,Using Tic-Tac-Toe for Learning Data Mining Classifications and Evaluations, Charleston: International Journal of Information and Education Technology, 2013 J. Yan, Self-Organizing Map, Repository CRAN, 2010 J. Vesanto, J. Himberg, E. Alhoniemi, J. Parhankangas, SOM Toolbox for Matalb 5, SOM Toolbox Team, Helsinki University of Technology, Finland, 2000 123 / 125
  77. Referencias C. Yudong,Z. Yi,H. Jianming, Multi-Dimensional Traffic Flow Time Series

    Analysis with Self-Organizing Maps*, Tsinghua National Laboratory for Information Science and Technology, Department of Automation, Tsinghua University, Beijing 100084, China, 2008 124 / 125