Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(in Spanish) Using the hypergeometric test in R

(in Spanish) Using the hypergeometric test in R

Introductory talk and use cases for the hypergeometric tests, like enrichment (over-representation) or depletion of a group. Short exercises with R.

Semiramis C

March 01, 2016
Tweet

More Decks by Semiramis C

Other Decks in Science

Transcript

  1. La Distribución Hipergeométrica Maria Semiramis Castro Jaimes Programa de Genómica

    Evolutiva Centro de Ciencias Genómicas UNAM Marzo 2016
  2. ¿Cuál es la probabilidad de sacar n bolitas rosas? •

    Tenemos muestreo sin reemplazo. • Las bolitas sólo pueden ser de uno u otro color. ?
  3. ? ¿Cuál es la probabilidad de sacar n bolitas rosas?

    k –> tamaño de muestra P(éxitos = q) = ( # formas de tener q éxitos) (# formas de k-q fallas) (# formas posibles de elegir)
  4. ? ¿Cuál es la probabilidad de sacar n bolitas rosas?

    U –> universo (total de bolitas en la caja) m -> éxitos posibles (rosas en U) n -> fallas posibles (el resto en U) q -> éxitos obtenidos (rosas en la muestra) k -> tamaño de muestra P(éxitos = q) = m q − + n = n! K k!(n-k)! ( ( ) ) Formas de escoger k elementos de n # formas de tener q éxitos # formas de tener k-q fallas # formas posibles de elegir
  5. ‘ n factorial ’ • Hay n! maneras de ordenar

    n objetos: – Tres libros: 3x2x1= 6
  6. ‘ n en k ’ • Hay n!/k!(n-k)! maneras de

    escoger k objetos: – Formas de elegir k=2 botas (hay n=4 en total) = 6
  7. ? ¿Cuál es la probabilidad de sacar n bolitas rosas?

    U –> universo (total de bolitas en la caja) m -> éxitos posibles (rosas en U) n -> fallas posibles (el resto en U) q -> éxitos obtenidos (rosas en la muestra) k -> tamaño de muestra P(éxitos = q) = m q − + n = n! K k!(n-k)! ( ( ) ) Formas de escoger k elementos de n # formas de tener q éxitos # formas de tener k-q fallas # formas posibles de elegir
  8. ? Rosa Naranja TOTAL Población 20 (m) 44 (n) 64

    (U) Muestra 10 (q) 5 15 (k) * Muestreo SIN reemplazo * Supongamos que sacamos 15 bolitas Queremos conocer la probabilidad de obtener: 10 bolitas rosas m q − + 20 10 44 15 − 10 20 + 44 15 = = 20! 10! 20 − 10 ! 44! 5! 44 − 5 ! 64! 15! 64 − 15 ! n = n! K k!(n-k)! ( ( ) )
  9. ? Rosa Naranja TOTAL Población 20 (m) 44 (n) 64

    (U) Muestra 10 (q) 5 15 (k) * Muestreo SIN reemplazo * Supongamos que sacamos 15 bolitas Queremos conocer la probabilidad de obtener: 10 bolitas rosas m q − + 20 10 44 15 − 10 20 + 44 15 = = 20! 10! 20 − 10 ! 44! 5! 44 − 5 ! 64! 15! 64 − 15 ! n = n! K k!(n-k)! ( ( ) )
  10. ? Ahora, con las funciones de R • phyper(q, m,

    n, k, lower.tail = TRUE, log.p = FALSE) • dhyper(x, m, n, k, log = FALSE) • rhyper(nn, m, n, k) lower.tail = TRUE P[X ≤ x] lower.tail = FALSE P[X > x] U –> universo (total de bolitas en la caja) m -> éxitos posibles (rosas en U) n -> fallas posibles (el resto en U) q,x -> éxitos obtenidos (rosas en la muestra) k -> tamaño de muestra nn -> No. de observaciones Prob acumulada de que X llegue hasta cierto valor Prob de que X tome cierto valor
  11. ? Rosa Naranja TOTAL Población 20 (m) 44 (n) 64

    (U) Muestra 10 (q) 5 15 (k) * Muestreo SIN reemplazo * Supongamos que sacamos 15 bolitas Queremos conocer la probabilidad de obtener: 10 bolitas rosas n = n! K k!(n-k)! ( ( ) )
  12. Hipergeométrica: Resumen P(X=k) = μ = + σ2= (+−) +

    2(+−1) m q − + Muestreo sin reemplazo Los elementos sólo pueden pertenecer a una clase (Rosa, Naranja) # formas de tener q éxitos # formas de tener k-q fallas # formas posibles de elegir
  13. Ejercicio Cuidado con q, m y n * Ahora queremos

    enfocarnos en las bolitas anaranjadas: • P(X< 5) • P(X>5) • P(X=5) Rosa Naranja TOTAL Población 20 44 64 (U) Muestra 10 5 15 (k)