PROGRAMACION ESTADISTICA CON R (Clase2)

PROGRAMACI´ ON ESTAD´ ISTICA CON R Abraham Zamudio CENTRO DE
TECNOLOG´ IAS DE INFORMACI´ ON Y COMUNICACIONES Programa de Iniciacion Tecnologica PIT 2020-I Enero 2020 Enero 2020 1 / 91

Contenido de la Clase An´ alisis de datos con R
Enero 2020 2 / 91

An´ alisis de datos con R An´ alisis de datos
con R Enero 2020 3 / 91

Sentencias y c´ alculos (i) Ejemplos 1 # s e
c u e n c i a s con s a l t o s de 1 , se u t i l i z a : 2 −10:10 3 # s e c u e n c i a s con s a l t o s e s p e c i f i c o s , se u t i l i z a seq 4 seq (10 , −10 , −1) 5 # r e p l i c a r un v a l o r o vector , se u t i l i z a l a fu ncio n rep 6 rep ( c (1 ,9 ,7 ,5) ,10) 7 # concatenar en una t a b l a l a s columnas , se u t i l i z a cbind 8 cbind (4 ,1 ,0 , −8 , −9 ,5) 9 # concatenar en una t a b l a l a s f i l a s , se u t i l i z a rbind 10 rbind (4 ,1 ,0 , −8 , −9 ,5) 11 # c r e a r un matriz u t i l i z a m o s l a fun cion matrix 12 matrix (1:30 , nrow=3, ncol =10) 13 # c r e a r una matriz y empiece a r e l l e n a r l o s 14 # datos por f i l a s 15 matrix (1:30 ,3 ,10 , byrow=TRUE) An´ alisis de datos con R Enero 2020 4 / 91

Sentencias y c´ alculos (ii) Ejemplos 1 # Si introducimos
un c a r a c t e r en l a matriz , toda 2 # l o s t i p o s de l a matriz se c o n v i e r t e n en char . 3 x=matrix ( c (1:29 , ”30” ) ,3 ,10 , byrow=TRUE) 4 # La fun cion s t r devuelve l a e s t r u c t u r a d e l objeto 5 s t r ( x ) 6 # Los dataframes 7 var=data . frame ( 8 Nombres=c ( ” maria ” , ” diana ” ) , 9 Cedula=c (98754124L ,170178541L) 10 ) 11 # Para e x p l o r a r l o s v a l o r e s de una c e l d a e s p e c i f i c a 12 var [ 1 , 2 ] 13 # Para e x p l o r a r l o s v a l o r e s de una v a r i a b l e 14 # en e l dataframe 15 var $Nombres 16 # Podemos agregar v a r i a b l e s nuevas de l a misma dimension 17 var $Edad=c (37 , 23) An´ alisis de datos con R Enero 2020 5 / 91

Sentencias y c´ alculos (iii) Ejemplos 1 # Podemos l
l a m a r a l a s v a r i a b l e s por su nombre 2 var [ , ”Edad” ] 3 # Podemos e l i m i n a r f i l a s o columnas 4 var [ −1 ,] 5 # Podemos cambiar l o s nombres de l a s f i l a s y columnas 6 colnames ( var )=c ( ”Nom” , ”Ced” , ”Ed” ) 7 rownames ( var )=c ( ”UNI” , ”FC” ) 8 # Para imprimir una c i e r t a cantidad de f i l a s , 9 # y ver l a t a b l a 10 head ( var , 1 ) 11 View ( var ) An´ alisis de datos con R Enero 2020 6 / 91

Gr´ aficos en R : Sistema base (i) El sistema
gr´ afico b´ asico es el m´ as utilizado usualmente y es un sistema muy poderoso para la creaci´ on de gr´ aficos de dos dimensiones. Est´ a implementado en los siguientes paquetes : graphics: contiene las funciones del sistema de gr´ afico b´ asico, incluyendo plot, hist, boxplot y otros muchos. grDevices: contiene los dispositivos gr´ aficos como X11,PDF,PostScript,PNG, etc. Gr´ aficos b´ asicos con R 1 help ( p r e s s u r e ) 2 3 p l o t ( p r e s s u r e ) An´ alisis de datos con R Enero 2020 7 / 91

Gr´ aﬁcos en R : Sistema base (ii) Opciones de
la funci´ on plot 1 main=” t i t u l o ” #Para cambiar e l t i t u l o p r i n c i p a l . 2 sub=” T i t u l o de abajo ” 3 type=” l | p | b | n” l i n e a , puntos , ambos , ninguno 4 l t y=”1” #t i p o de l i n e a 5 pch=” . ” c a r a c t e r de d i b u j o 6 xlab=” e t i q u e t a e j e x” 7 ylab=” e t i q u e t a e j e y” 8 xlim=c ( xmin , xmax ) #permite cambiar l a e s c a l a d e l e j e x 9 ylim=c ( ymin , ymax ) #permite cambiar l a e s c a l a d e l e j e y 10 c o l=”456” #permite cambiar l a e s c a l a de c o l o r e s An´ alisis de datos con R Enero 2020 8 / 91

Gr´ aﬁcos en R : Sistemas base (iii) Ejemplo 1
p l o t ( pressure , 2 main = ” Presion de vapor de Mercurio ” , 3 type= ” l ” , 4 xlab = ” Temperatura ” , 5 ylab = ” Presion [ Hg ] ” ) An´ alisis de datos con R Enero 2020 9 / 91

Estad´ ıstica descriptiva (i) El conjunto de datos utilizado para
este an´ alisis es Prestige del paquete de car. Primero, necesitamos instalar los paquetes requeridos para nuestro an´ alisis para luego poder cargarlos usando la funci´ on library(). 1 # Paquete que c o n t i e n e e l data s e t . 2 l i b r a r y ( car ) 3 4 help ( P r e s t i g e ) 5 6 dim ( P r e s t i g e ) Prestige es un conjunto de datos de ocupaciones canadienses. El dataframe Prestige contiene 102 ﬁlas y 6 columnas. An´ alisis de datos con R Enero 2020 10 / 91

Estad´ ıstica descriptiva (ii) Las estad´ ısticas de resumen (o
descriptivas) son las primeras cifras uti- lizadas para representar casi todos los conjuntos de datos. Tambi´ en for- man las bases para c´ alculos y an´ alisis m´ as complicados. Por lo tanto, son esenciales para el proceso de an´ alisis. Primero demosle una mirada al dataframe 1 # Imprimamos l a s primeras 10 o b s e r v a c i o n e s 2 head ( Prestige , n = 10) Observamos que las ﬁlas de nuestro dataset se reﬁeren a ocupaciones. Algunas de las ocupaciones son administraciones gubernamentales, ge- rentes generales, contadores, qu´ ımicos, f´ ısicos, bi´ ologos, arquitectos, in- genieros civiles y mineros, etc. Adem´ as, cada ocupaci´ on tiene sus propios registros. Tambi´ en podemos explorar la naturaleza de las variables (columnas) que tenemos en el dataset Prestige, usando las funciones ls() o names(). 1 l s ( P r e s t i g e ) 2 names ( P r e s t i g e ) An´ alisis de datos con R Enero 2020 11 / 91

Estad´ ıstica descriptiva (iii) 1 # Una forma mas avanzada
y completa de ver l a 2 # e s t r u c t u r a de nuestro conjunto de datos . 3 s t r ( P r e s t i g e ) 4 ’ data . frame ’ : 102 obs . of 6 v a r i a b l e s : 5 $ education : num 13.1 12.3 12.8 11.4 14.6 . . . 6 $ income : i n t 12351 25879 9271 8865 8403 . . . 7 $ women : num 11.16 4.02 15.7 9.11 11.68 . . . 8 $ p r e s t i g e : num 68.8 69.1 63.4 56.8 73.5 77.6 . . . 9 $ census : i n t 1113 1130 1171 1175 2111 2113 . . . 10 $ type : Factor w/ 3 l e v e l s ”bc” , ” p r o f ” , ”wc” : 2 . . . An´ alisis de datos con R Enero 2020 12 / 91

Estad´ ıstica descriptiva (iv) Media (mean) sobre cada variable y
uso del comando subset 1 subset . data <− subset ( Prestige , s e l e c t = c ( ” education ” , ” income” , ”women” , ” p r e s t i g e ” ) ) 2 3 s t r ( subset . data ) 4 5 mean( subset . data $ education ) 6 mean( subset . data $income ) 7 mean( subset . data $women) 8 mean( subset . data $ p r e s t i g e ) De manera similar se puede calcular : la desviaci´ on est´ andar, el rango (maximo y minimo), los percentiles. An´ alisis de datos con R Enero 2020 13 / 91

GENERACI´ ON DE N´ UMEROS PSEUDOALEATORIOS M´ etodo congruencial multiplicativo
: Ejemplo 1 Generar 50 n´ umeros pseudoaleatorios a partir del generador congruencial multiplicativo. xn = 171xn−1(mod 30269) un = xn/30269 con semilla 27218 An´ alisis de datos con R Enero 2020 14 / 91

: Ejemplo 1 1 random . number<−numeric (50) # v e c t o r v a c i o de 50 elementos 2 random . seed<−27218 # s e m i l l a 3 f o r ( j i n 1:50) { 4 # construimos e l v e c t o r random . number elemento a elemento 5 random . seed<−(171 ∗random . seed ) % % 30269 6 random . number [ j ]<−random . seed /30269 7 } 8 random . number An´ alisis de datos con R Enero 2020 15 / 91

: Ejemplo 1 1 p l o t ( random . number ) An´ alisis de datos con R Enero 2020 16 / 91

(Otra forma) : Ejemplo 1 1 x<−numeric (50) 2 s e m i l l a<−27218 3 x [1]=(171 ∗ s e m i l l a ) % % 30269 4 f o r ( i i n 2:50) {x [ i ]=(171∗x [ i −1]) % % 30269} 5 NumerosAleatorios<−x/30269 6 NumerosAleatorios An´ alisis de datos con R Enero 2020 17 / 91

(Otra forma) : Ejemplo 1 1 p l o t ( NumerosAleatorios ) An´ alisis de datos con R Enero 2020 18 / 91

: Ejemplo 2 Generar 50 n´ umeros pseudoaleatorios a partir del generador congruencial xn = 69069xn−1(mod237) un = xn/(237) An´ alisis de datos con R Enero 2020 19 / 91

: Ejemplo 2 1 random . number<−numeric (50) 2 random . seed<−1 3 f o r ( j i n 1:50) 4 {random . seed<−(69069 ∗random . seed ) % % (2ˆ(37) ) 5 random . number [ j ]<−random . seed / (2ˆ(37) ) 6 } 7 random . number An´ alisis de datos con R Enero 2020 20 / 91

: Ejemplo 2 1 p l o t ( random . number ) An´ alisis de datos con R Enero 2020 21 / 91

Distribuciones de Probabilidad Distribuciones de Probabilidad Una operaci´ on similar
(usando otra f´ ormula y con un ciclo mucho m´ as largo) es la que usa internamente R para producir n´ umeros pseudoaleatorios de forma autom´ atica con la funci´ on runif() del grupo de funciones asociadas con la distribuci´ on uniforme, dentro del paquete stats. En este caso la semilla se selecciona internamente. An´ alisis de datos con R Enero 2020 22 / 91

Distribuciones de Probabilidad Distribuciones de Probabilidad An´ alisis de datos
con R Enero 2020 23 / 91

Distribuciones de Probabilidad Relaciones entre las Distribuciones de Probabilidad An´
alisis de datos con R Enero 2020 24 / 91

Distribuci´ on uniforme Descripci´ on Las siguientes funciones proporcionan informaci´
on sobre la distribuci´ on uniforme en el intervalo comprendido entre min y max: dunif proporciona la funci´ on de densidad punif proporciona la funci´ on de distribuci´ on qunif proporciona la funci´ on de cuantiles runif genera valores aleatorios. An´ alisis de datos con R Enero 2020 25 / 91

Distribuci´ on uniforme uso 1 d u n i f
( x , min=0, max=1, log = FALSE) 2 p u n i f (q , min=0, max=1, lower . t a i l = TRUE, log . p = FALSE) 3 q u n i f (p , min=0, max=1, lower . t a i l = TRUE, log . p = FALSE) 4 r u n i f (n , min=0, max=1) x,q: vector de cuantiles. p: vector de probabilidades. n: n´ umero de observaciones. Si no se especiﬁca se toma igual a 1 An´ alisis de datos con R Enero 2020 26 / 91

( x , min=0, max=1, log = FALSE) 2 p u n i f (q , min=0, max=1, lower . t a i l = TRUE, log . p = FALSE) 3 q u n i f (p , min=0, max=1, lower . t a i l = TRUE, log . p = FALSE) 4 r u n i f (n , min=0, max=1) min,max: extremos inferior y superior del intervalo que determina la distribuci´ on. Deben ser ﬁnitos. Si no se especiﬁcan se toman los valores por defecto 0 y 1. Para el caso min = max = u, el caso degenerado X = u se considera, aunque como no tiene funci´ on de densidad, la funci´ on dunif devuelve NaN (condici´ on de error). An´ alisis de datos con R Enero 2020 27 / 91

( x , min=0, max=1, log = FALSE) 2 p u n i f (q , min=0, max=1, lower . t a i l = TRUE, log . p = FALSE) 3 q u n i f (p , min=0, max=1, lower . t a i l = TRUE, log . p = FALSE) 4 r u n i f (n , min=0, max=1) log, log.p: son valores l´ ogicos; si son TRUE, las probabilidades p se dan como probabilities log(p). lower.tail: es un valor l´ ogico; si es TRUE (por defecto), las probabilidades son P[X ≤ x], en otro caso P[X > x]. An´ alisis de datos con R Enero 2020 28 / 91

Distribuci´ on uniforme uso La forma de uso m´ as
habitual para generar n´ umeros pseudoaleatorios de una distribuci´ on U(a,b) es 1 r u n i f (n , min=a , max=b ) y para una U(0,1) 1 r u n i f ( n ) An´ alisis de datos con R Enero 2020 29 / 91

Distribuci´ on uniforme Ejemplo : Generar 10 n´ umeros aleatorios
en el intervalo (0,1) y 15 en el intervalo (-1,2) 1 r u n i f (10) 2 r u n i f (15 , min=−1,max=2) An´ alisis de datos con R Enero 2020 30 / 91

Distribuci´ on uniforme Obs. : Si se quiere ejecutar la
funci´ on anterior, pero partiendo de una semilla concreta (para garantizar el mismo resultado en cualquier ejecuci´ on), se usar´ a la funci´ on set.seed(): 1 r u n i f (5) 2 r u n i f (5) 3 s e t . seed (32789) 4 r u n i f (5) 5 s e t . seed (32789) 6 r u n i f (5) An´ alisis de datos con R Enero 2020 31 / 91

Ejercicio 1 Genera 1000 valores pseudoaleatorios usando la funci´ on
runif() (con set.seed(19908)) y as´ ıgnalos a un vector llamado U. a. Calcular la media, varianza y desviaci´ on t´ ıpica de los valores de U. b. Compara los resultados con los verdaderos valores de la media, varianza y desviaci´ on t´ ıpica de una U(0,1). c. Calcula la proporci´ on de valores de U que son menores que 0.6 y comp´ arala con la probabilidad de que una variable U(0,1) sea menor que 0.6. d. Estimar el valor esperado de 1/(U+1) e. Construir un histograma de los valores de u y de 1/(U+1) An´ alisis de datos con R Enero 2020 32 / 91

Distribuci´ on uniforme Sol. : Ejercicio 1 1 s e
t . seed (19908) 2 U <−r u n i f (1000) 3 data<−c (mean(U) , var (U) , s q r t ( var (U) ) ) 4 # 0.5 : media t e o r i c a 5 # 1/12 : v a r i a n z a t e o r i c a 6 # s q r t (1 / 12) : d e s v i a c i o n t i p i c a t e o r i c a 7 #media , v a r i a n z a y d e s v i a c i o n t p i c a de l o s datos generados : 8 data An´ alisis de datos con R Enero 2020 33 / 91

Distribuci´ on uniforme Sol. : Ejercicio 1 1 # La
proporcion de v a l o r e s menores que 0.6 se c a l c u l a como 2 sum(U<0.6)/1000 3 4 # o equivalentemente como 5 l en g th (U[U<0.6]) / l e n g t h (U) 6 7 # La p r o b a b i l i d a d t e o r i c a se c a l c u l a como 8 p u n i f ( 0 . 6 ) 9 10 # Estimacion d e l v a l o r esperado de 1/ (U+1) 11 mean(1 / (U+1)) An´ alisis de datos con R Enero 2020 34 / 91

Distribuci´ on uniforme Sol. : Ejercicio 1 1 h i
s t (U) An´ alisis de datos con R Enero 2020 35 / 91

Distribuci´ on uniforme Sol. : Ejercicio 1 1 h i
s t (1 / (U+1)) An´ alisis de datos con R Enero 2020 36 / 91

Ejercicio 2 Simula 10000 observaciones independientes de una variable aleatoria
distribuida uniformemente en el intervalo [3.7, 5.8]. a. Calcular la media, varianza y desviaci´ on t´ ıpica de los valores simulados (Estima la media, varianza y desviaci´ on t´ ıpica de tal variable aleatoria uniforme) y compararlos con los verdaderos valores de la distribuci´ on. b. Estima la probabilidad de que tal variable aleatoria sea mayor o igual que 4 (Calcula la proporci´ on de valores que son mayores o iguales a 4) y comp´ arala con el verdadero valor. An´ alisis de datos con R Enero 2020 37 / 91

Distribuci´ on uniforme Sol. : Ejercicio 2a 1 r<−r u
n i f (10000 ,3.7 ,5.8) 2 mean( r ) 3 var ( r ) 4 sd ( r ) 5 # (3.7+5.8) /2 : media t e o r i c a 6 # (5.8 −3.7) ˆ2/12 : v a r i a n z a t e o r i c a 7 # s q r t ((5.8 −3.7) ˆ2/ 12) : d e s v i a c i o n t i p i c a t e r i c a An´ alisis de datos con R Enero 2020 38 / 91

Distribuci´ on uniforme Sol. : Ejercicio 2b 1 l en
g th ( r [ r >4])/ l e n g t h ( r ) 2 p u n i f (4 , min =3.7 , max=5.8 , lower . t a i l = FALSE) An´ alisis de datos con R Enero 2020 39 / 91

Distribuci´ on uniforme Ejercicio 3 Simula 10000 valores de una
variable aleatoria U1 con distribuci´ on U(0,1) y otro conjunto de valores de una variable aleatoria U2 con distribuci´ on U(0,1). Asignar esos valores a vectores U1 y U2, respectivamente. Dado que los valores en U1 y U2 son aproximadamente independientes, podemos considerar a U1 y U2 variables aleatorias independientes U(0,1). a. Estimar E[U1+U2], compararla con el verdadero valor y compararla con una estimaci´ on de E[U1]+E[U2], b. Estimar Var[U1+U2] y Var[U1]+Var[U2]. ¿Son iguales? ¿Ser´ ıan los verdaderos valores iguales? c. Estimar P(U1+U2 <= 1.5). d. Estimar p( √ U1 + √ U2) ≤ 1,5 An´ alisis de datos con R Enero 2020 40 / 91

Distribuci´ on uniforme Sol. : Ejercicio 3 1 U1<−r u
n i f (10000 ,0 ,1) 2 U2<−r u n i f (10000 ,0 ,1) 3 U=U1+U2 # d e f i n i m o s l a v . a . U 4 # COMPARAR : 5 mean(U) 6 mean(U1)+mean(U2) 7 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # 8 # COMPARAR : 9 var (U) 10 var (U1)+var (U2) 11 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # 12 le ng t h (U[U<=1.5])/ le n g th (U) 13 V<−s q r t (U1)+s q r t (U2) # d e fi n imo s l a v . a . V 14 le ng t h (V[V<=1.5])/ le n g th (V) An´ alisis de datos con R Enero 2020 41 / 91

Distribuci´ on uniforme Ejercicio 4 Supongamos que U1, U2 y
U3 son variables aleatorias independientes con distribuci´ on U(0,1). Usa simulaci´ on para estimar las siguientes cantidades: a. E[U1+U2+U3] b. Var[U1+U2+U3] y Var[U1]+Var[U2]+Var[U3] c. E[ √ U1 + U2 + U3 ] d. P( √ U1 + √ U2 + √ U3 ≥ 0,8) An´ alisis de datos con R Enero 2020 42 / 91

Distribuci´ on uniforme Sol. : Ejercicio 4 1 U1<−r u
n i f (10000) 2 U2<−r u n i f (10000) 3 U3<−r u n i f (10000) 4 U<−U1+U2+U3 5 # ( a ) 6 mean(U) 7 # ( b ) 8 var (U) 9 var (U1)+var (U2)+var (U3) 10 # ( c ) 11 mean( s q r t (U) ) 12 # ( d ) 13 V<−s q r t (U1)+s q r t (U2)+s q r t (U3) 14 le ng t h (V[V>=.8])/ l en g t h (V) An´ alisis de datos con R Enero 2020 43 / 91

FUNCI´ ON SAMPLE sample() La funci´ on sample() permite tomar
una muestra aleatoria simple a partir de un vector de valores con o sin reemplazamiento. Se usa como 1 sample ( x , s i z e , r e p l a c e=FALSE , prob=NULL) donde x es un vector de donde se quieren elegir los elementos o un entero positivo n (en este caso se interpreta como el vector generado por 1:n), size es un entero positivo que indica el n´ umero de elementos que se quieren elegir, replace=FALSE indica que el muestreo se hace sin reemplazamiento, mientras que replace=TRUE indica con reemplazamiento. Por ´ ultimo en prob se puede incluir un vector de probabilidades en el que cada componente ser´ a la probabilidad con la que se elegir´ a la correspondiente componente del vector que va a ser muestreado . An´ alisis de datos con R Enero 2020 44 / 91

FUNCI´ ON SAMPLE sample() : Ejemplo 1 1 sample (
c (3 ,5 ,7) , s i z e =2, r e p l a c e=FALSE) conduce a un vector de dos valores tomados (sin reemplazo) del conjunto {3,5,7}. An´ alisis de datos con R Enero 2020 45 / 91

FUNCI´ ON SAMPLE sample() : Ejemplo 1 Usar la funci´
on sample() para generar 50 n´ umeros pseudoaleatorios del 1 al 100, a. muestreados sin reemplazo. b. muestreados con reemplazo. 1 # a ) 2 sample (1:100 , s i z e =50, r e p l a c e=FALSE) 3 # ## Se podria haber e s c r i t o simplemente 4 # ## sample (100 ,50 ,FALSE) 5 # b ) 6 sample (1:100 , s i z e =50, r e p l a c e=TRUE) An´ alisis de datos con R Enero 2020 46 / 91

FUNCI´ ON SAMPLE sample() : Ejemplo 2 Simula el lanzamiento
de un dado 1 sample ( 1 : 6 , 1 ) 2 sample ( 1 : 6 , 1 ) 3 sample ( 1 : 6 , 1 ) 4 sample ( 1 : 6 , 1 ) An´ alisis de datos con R Enero 2020 47 / 91

FUNCI´ ON SAMPLE sample() : Ejemplo 2 Simula el lanzamiento
de cuatro dados o de un mismo dado cuatro veces 1 sample ( 1 : 6 , 4 , r e p l a c e=T) An´ alisis de datos con R Enero 2020 48 / 91

FUNCI´ ON SAMPLE sample() : Ejemplo 2 Simula la distribuci´
on de la suma de los n´ umeros que salen al lanzar cuatro dados . Para ello usaremos la funci´ on sapply de la siguiente forma 1 t<−sapply (1:10000 , f u n c t i o n ( x ) {sum( sample ( 1 : 6 , 4 , rep=T) ) }) la cual aplica a un vector de tama˜ no 10000 una funci´ on sin nombre generando a su vez un vector de tama˜ no 10000. La funci´ on considerada obtiene muestras de tama˜ no y, a continuaci´ on, suma los elementos de la muestra. Se podr´ ıa haber hecho con un for pero este procedimiento es m´ as r´ apido. An´ alisis de datos con R Enero 2020 49 / 91

FUNCI´ ON SAMPLE sample() : Ejemplo 2 Para garantizar que
los resultados son los mismos usemos una semilla com´ un, 1 s e t . seed (111) 2 t<−sapply (1:10000 , f u n c t i o n ( x ) {sum( sample ( 1 : 6 , 4 , rep=T) ) }) A continuaci´ on, tabulamos los resultados 1 t a b l e ( t ) An´ alisis de datos con R Enero 2020 50 / 91

FUNCI´ ON SAMPLE sample() : Ejemplo 2 y podemos representar
los resultados con un diagrama de barras 1 b a r p l o t ( t a b l e ( t ) ) An´ alisis de datos con R Enero 2020 51 / 91

FUNCI´ ON SAMPLE sample() : Ejemplo 3 Supongamos una urna
con 3 bolas blancas y 7 negras, simular la extracci´ on de una bola (asignar, por ejemplo, el 1 a bola blanca y 0 a negra) 1 sample ( c (1 ,0) , 1 , prob=c ( 0 . 3 , 0 . 7 ) ) 2 sample ( c (1 ,0) , 1 , prob=c ( 0 . 3 , 0 . 7 ) ) 3 sample ( c (1 ,0) , 1 , prob=c ( 0 . 3 , 0 . 7 ) ) 4 sample ( c (1 ,0) , 1 , prob=c ( 0 . 3 , 0 . 7 ) ) 5 sample ( c (1 ,0) , 1 , prob=c ( 0 . 3 , 0 . 7 ) ) 6 sample ( c (1 ,0) , 1 , prob=c ( 0 . 3 , 0 . 7 ) ) Si queremos simular 8 extracciones con reemplazo. 1 sample ( c (1 ,0) , 8 , rep=T, prob=c ( 0 . 3 , 0 . 7 ) ) An´ alisis de datos con R Enero 2020 52 / 91

FUNCI´ ON SAMPLE Si s´ olo nos interesara el n´
umero de bolas blancas que salen, se puede hacer la suma, pero esto lo haremos mejor usando la distribuci´ on binomial. An´ alisis de datos con R Enero 2020 53 / 91

DISTRIBUCI´ ON BINOMIAL Descripci´ on Las siguientes funciones proporcionan informaci´
on sobre la distribuci´ on binomial de par´ ametros size (n´ umero de veces que se repite el experimento de Bernoulli) y p (probabilidad de ´ exito): dbinom proporciona la funci´ on masa de probabilidad. pbinom proporciona la funci´ on de distribuci´ on. qbinom proporciona la funci´ on de cuantiles. rbinom genera valores aleatorios. An´ alisis de datos con R Enero 2020 54 / 91

DISTRIBUCI´ ON BINOMIAL Uso 1 dbinom ( x , s
i z e , prob , log = FALSE) 2 pbinom (q , s i z e , prob , lower . t a i l = TRUE, log . p = FALSE) 3 qbinom (p , s i z e , prob , lower . t a i l = TRUE, log . p = FALSE) 4 rbinom (n , s i z e , prob ) x,q: vector de cuantiles. p: vector de probabilidades. n: n´ umero de observaciones. Si no se especiﬁca se toma igual a 1 log, log.p: son valores l´ ogicos; si son TRUE, las probabilidades p se dan como probabilities log(p). lower.tail: es un valor l´ ogico; si es TRUE (por defecto), las probabilidades son P[X ≤ x], en otro caso P[X > x]. An´ alisis de datos con R Enero 2020 55 / 91

DISTRIBUCI´ ON BINOMIAL Ejemplo 1 : Calcular la probabilidad de
obtener cuatro caras al lanzar seis veces una moneda perfecta. En este caso ser´ ıa P[X=4], con X →B(6,0.5) 1 dbinom ( x=4, s i z e =6, prob =0.5) Ejemplo 2 : Calcular la probabilidad de obtener como mucho cuatro caras al lanzar seis veces una moneda perfecta En este caso ser´ ıa P[X≤4], con X → B(6,0.5) 1 pbinom ( q=4, s i z e =6, prob =0.5) An´ alisis de datos con R Enero 2020 56 / 91

DISTRIBUCI´ ON BINOMIAL Ejemplo 3 : Calcular el valor x
tal que P[X ≤ x]=0.89 1 qbinom ( 0 . 8 9 , 6 , 0 . 5 ) Ejemplo 4 : Generar 10 valores pseudoaleatorios de una B(6,0.5) 1 rbinom ( 10 ,6 ,0. 5) An´ alisis de datos con R Enero 2020 57 / 91

DISTRIBUCI´ ON BINOMIAL Ejemplo 5 : Supongamos que el 10
% de los tubos producidos por una m´ aquina son defectuosos y supongamos que produce 15 tubos cada hora. Cada tubo es independiente de los otros. Se juzga que el proceso est´ a fuera de control cuando se producen m´ as de 4 tubos defectuosos en una hora concreta. Simular el n´ umero de tubos defectuosos producidos por la m´ aquina en cada hora a lo largo de un periodo de 24 horas y determinar si el proceso est´ a fuera de control en alg´ un momento. 1 TubosDefectuosos<−rbinom (24 ,15 ,0.1) 2 TubosDefectuosos 3 help ( any ) 4 any ( TubosDefectuosos >4) 5 sum( TubosDefectuosos >4) An´ alisis de datos con R Enero 2020 58 / 91

DISTRIBUCI´ ON BINOMIAL Ejercicio 1 : Supongamos que en un
proceso de manufactura la proporci´ on de defectuosos es 0.15. Simular el n´ umero de defectuosos por hora en un periodo de 24 horas si se supone que se fabrican 25 unidades cada hora. Chequear si el n´ umero de defectuosos excede en alguna ocasi´ on a 5. Repetir el procedimiento con p=0.2 y p=0.25. An´ alisis de datos con R Enero 2020 59 / 91

DISTRIBUCI´ ON BINOMIAL Ejercicio 2 : Simular 10000 n´ umeros
pseudoaleatorios de una variable aleatoria X con distribuci´ on B(20,0.3). Usar dichos valores para estimar P[X≤5], P[X=5], E[X], Var[X], el percentil 95, 99 de X. An´ alisis de datos con R Enero 2020 60 / 91

DISTRIBUCI´ ON BINOMIAL Ejercicio 3 : Usar simulaci´ on para
estimar la media y la varianza de una variable aleatoria B(18,0.76) y comparar dichos valores con los te´ oricos. An´ alisis de datos con R Enero 2020 61 / 91

DISTRIBUCI´ ON BINOMIAL M´ etodo de inversi´ on de la
funci´ on de distribuci´ on Binomial Considerar la siguiente funci´ on dise˜ nada para simular valores pseudoaleatorios de una distribuci´ on binomial usando el llamado m´ etodo de inversi´ on: 1 ranbin<−f u n c t i o n (n , s i z e , prob ) { 2 cumbinom<−pbinom ( 0 : ( s i z e −1) , s i z e , prob ) 3 singlenumber<−f u n c t i o n () { 4 x<−r u n i f (1) 5 N <−sum( x>cumbinom ) 6 N 7 } 8 r e p l i c a t e (n , singlenumber () ) 9 } An´ alisis de datos con R Enero 2020 62 / 91

DISTRIBUCI´ ON BINOMIAL Ejercicio 4 : Usar ranbin() [Slide anterior]
para similar vectores de longitud 1000, 10000 y 100000 de una distribuci´ on B(10,0.5). Usar la funci´ on system.time() para comparar los tiempos de ejecuci´ on para esas simulaciones con los tiempos de ejecuci´ on correspondientes cuando se usa rbinom(). An´ alisis de datos con R Enero 2020 63 / 91

Distribucion Normal Para obtener valores que se basen en la
distribuci´ on Normal, R, dispone de cuatro funciones: dnorm Devuelve resultados de la funci´ on de densidad. pnorm Devuelve resultados de la funci´ on de distribuci´ on acumulada. qnorm Devuelve resultados de los cuantiles de la Normal. rnorm Devuelve un vector de valores de la Normal aleatorios. An´ alisis de datos con R Enero 2020 64 / 91

Distribuci´ on Normal uso 1 dnorm ( x , mean
= 0 , sd = 1 , log = F) 2 pnorm (q , mean = 0 , sd = 1 , lower . t a i l = T, log . p = F) 3 qnorm (p , mean = 0 , sd = 1 , lower . t a i l = T, log . p = F) 4 rnorm (n , mean = 0 , sd = 1) x,q: vector de cuantiles. p: vector de probabilidades. n: n´ umero de observaciones. An´ alisis de datos con R Enero 2020 65 / 91

Distribuci´ on Normal uso 1 dnorm ( x , mean
= 0 , sd = 1 , log = F) 2 pnorm (q , mean = 0 , sd = 1 , lower . t a i l = T, log . p = F) 3 qnorm (p , mean = 0 , sd = 1 , lower . t a i l = T, log . p = F) 4 rnorm (n , mean = 0 , sd = 1) mean: Vector de medias. Por defecto, su valor es 0. sd: Vector de desviaci´ on est´ andar. Por defecto, su valor es 1. log, log.p: Par´ ametro booleano, si es TRUE, las probabilidades p son devueltas como log (p). lower.tail: Par´ ametro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x]. An´ alisis de datos con R Enero 2020 66 / 91

Distribuci´ on Normal Ejemplo 1 Para comprobar el funcionamiento de
estas funciones, usaremos un ejemplo de aplicaci´ on. Imaginemos el siguiente problema: Sea Z una variable aleatoria normal con una media de 0 y una desviaci´ on est´ andar igual a 1.Determinar : P(Z > 2) 1 # Para r e s o l v e r e s t e apartado , necesitamos r e s o l v e r : 2 # P( Z > 2) , por l o tanto , usamos l a f u n c i n 3 # acumulada de d i s t r i b u c i n indicando que l a 4 # p r o b a b i l i d a d de c o l a es hacia l a derecha : 5 pnorm (2 , mean = 0 , sd = 1 , lower . t a i l = F) An´ alisis de datos con R Enero 2020 67 / 91

estas funciones, usaremos un ejemplo de aplicaci´ on. Imaginemos el siguiente problema: Sea Z una variable aleatoria normal con una media de 0 y una desviaci´ on est´ andar igual a 1.Determinar : P(-2 ≤ Z ≤ 2). 1 # Necesitamos r e s o l v e r : P(−2 <= z <= 2) , volvemos a 2 # emplear l a f u n c i n de densidad acumulada , e s t a 3 # vez , con l a p r o b a b i l i d a d de c o l a por defecto , 4 # hacia l a i z q u i e r d a : 5 pnorm ( c (2) , mean = 0 , sd = 1) − pnorm ( c(−2) , mean = 0 , sd = 1) An´ alisis de datos con R Enero 2020 68 / 91

estas funciones, usaremos un ejemplo de aplicaci´ on. Imaginemos el siguiente problema: Sea Z una variable aleatoria normal con una media de 0 y una desviaci´ on est´ andar igual a 1.Determinar : P(0 ≤ Z ≤ 1.73). 1 # Necesitamos r e s o l v e r : P(0 <= z <= 1.73) , e s t e 2 # e j e r c i c i o se r e s u e l v e con e l mismo procedimiento 3 # que e l apartado a n t e r i o r , por l o tanto , volvemos 4 # a emplear l a f u n c i n # de densidad acumulada : 5 pnorm ( c ( 1 . 7 3 ) , mean = 0 , sd = 1) − pnorm ( c (0) , mean = 0 , sd = 1) An´ alisis de datos con R Enero 2020 69 / 91

estas funciones, usaremos un ejemplo de aplicaci´ on. Imaginemos el siguiente problema: Sea Z una variable aleatoria normal con una media de 0 y una desviaci´ on est´ andar igual a 1.Determinar : P(Z ≤a) = 0.5793. 1 # En e s t e apartado , debemos obtener e l v a l o r de 2 # a para que se cumpla l a p r o b a b i l i d a d , es d e c i r : 3 # P(Z <= a ) = 0.5793. Para e l l o , debemos usar 4 # l a f u n c i n de q u a n t i l e s : 5 qnorm (0.5793 , mean = 0 , sd = 1) An´ alisis de datos con R Enero 2020 70 / 91

estas funciones, usaremos un ejemplo de aplicaci´ on. Imaginemos el siguiente problema: Sea Z una variable aleatoria normal con una media de 0 y una desviaci´ on est´ andar igual a 1.Determinar : P(Z > 200). Siendo la media 100 y la desviaci´ on est´ andar 50. 1 # La c u r i o s i d a d de e s t e apartado es que no 2 # tenemos una normal e s t n d a r , pero no hay 3 # problema , simplemente , debemos e s p e c i f i c a r 4 # l o s v a l o r e s de l a media y d e s v i a c i n e s t n d a r 5 # en l o s argumentos de l a f u n c i n de d i s t r i b u c i n 6 # acumulada para que l a t i p i f i c a c i n l a r e a l i c e 7 # a u t o m t i c a m e n t e l a f u n c i n de R. 8 # Otra cosa importante a t e n e r en cuenta , es que 9 # debemos i n d i c a r que l a p r o b a b i l i d a d de c o l a es 10 # hacia l a derecha . 11 pnorm ( c (200) , mean = 100 , sd = 50 , lower . t a i l = F) An´ alisis de datos con R Enero 2020 71 / 91

Distribuci´ on Normal Importancia de la distribuci´ on normal La
distribuci´ on normal es de suma importancia en estad´ ıstica por tres razones principales: 1. Numerosas variables continuas de fen´ omenos aleatorios tienden a comportarse probabilisticamente mediante ´ esta. 2. Es el l´ ımite al que convergen tanto variables aleatorias continuas como discretas. 3. Proporciona la base de la inferencia estad´ ıstica cl´ asica debido a su relaci´ on con el teorema del l´ ımite central. An´ alisis de datos con R Enero 2020 72 / 91

Distribuci´ on Normal Propiedades de la distribuci´ on normal 1.
Su graﬁca tiene forma acampanada. 2. El valor esperado, la mediana y la moda tienen el mismo valor cuando la variable aleatoria se distribuye normalmente. 3. Su dispersi´ on media es igual a 1.33 desviaci´ ones est´ andar. Es decir, el alcance intercuartil est´ a contenido dentro de un intervalo de dos tercios de una desviaci´ on est´ andar por debajo de la media a dos tercios de una desviaci´ on est´ andar por encima de la media. An´ alisis de datos con R Enero 2020 73 / 91

Distribuci´ on Normal Propiedades de la distribuci´ on normal En
la pr´ actica, algunas de las variables que observamos s´ olo pueden aproximar estas propiedades. As´ ı que si el fen´ omeno puede mediarse aproximadamente mediante la distribuci´ on normal se tendr´ a: 1. Que el pol´ ıgono puede verse en forma de campana y sim´ etrico. 2. Sus mediciones de tendencia central tienen bastante parecido. 3. El valor intercuartil puede diferir ligeramente de 1.33 desviaciones est´ andar. 4. El dominio de la variable aleatoria normalmente distribuida generalmente caer´ a dentro de 3 desviaciones est´ andar por encima y por debajo de la media. An´ alisis de datos con R Enero 2020 74 / 91

Distribuci´ on Normal El modelo matem´ atico NOTACI ´ ON
: N(µ, σ2), X ∼ N(µ, σ2) El modelo o expresi´ on matem´ atica que representa una funci´ on de densidad de probabilidad se denota mediante el s´ ımbolo f (X). Para la distribuci´ on normal, se tiene la siguiente funci´ on de probabilidad. f (x) = 1 √ 2πσX e − 1 2 x − µX σX 2 donde e es la constante matem´ atica aproximada por 2.71828 π es la constante matem´ atica aproximada por 3.14159 An´ alisis de datos con R Enero 2020 75 / 91

Distribuci´ on Normal El modelo matem´ atico Par´ ametros µX
es el valor esperado de la variable aleatoria σX es la desviaci´ on est´ andar de la variable aleatoria X es cualquier valor de la variable aleatoria continua, donde −∞ < x < +∞ As´ ı, E(X) = µX Var(X) = σ2 X An´ alisis de datos con R Enero 2020 76 / 91

Distribuci´ on Normal caso 1 A continuaci´ on se presentan
las gr´ aﬁcas de las funciones de densidad Normal con el objetivo de observar cambios en la distribuci´ on de probabilidad: Caso 1: Cuando se mantiene la misma media, pero cambia la varianza. Ejemplo: N(30, 1), N(30, 3), N(30, 6) An´ alisis de datos con R Enero 2020 77 / 91

Distribuci´ on Normal caso 2 Cuando se mantiene la misma
varianza, pero cambia la media. Ejemplo: (N(30, 2), N(35, 2) y N(40, 2)) An´ alisis de datos con R Enero 2020 78 / 91

Distribuci´ on Normal Propiedades de la Normal Ahora, al examinar
la primera y segunda derivada de f (x), se pueden listar otras propiedades de la curva normal: 1. La moda, que es el punto sobre el eje horizontal donde la curva es un m´ aximo ocurre cuando x = µX . 2. La curva es sim´ etrica alrededor de un eje vertical a trav´ es del valor esperado µX . 3. La curva tiene sus puntos de inﬂexi´ on en x = µX ± σX , es c´ oncava hacia abajo si µX − σX < x < µX + σX , y es c´ oncava hacia arriba en cualquier otro punto. 4. La curva normal se aproxima al eje horizontal de manera asint´ otica conforme nos alejamos de la media en cualquier direcci´ on. An´ alisis de datos con R Enero 2020 79 / 91

Distribuci´ on Normal Propiedades de la Normal Haciendo una transformaci´
on a la variable aleatoria normal X, ´ esta se puede llevar a un nuevo conjunto de observaciones de una variable aleatoria normal Z con media cero y varianza 1. A dicha transformaci´ on se le conoce como estadarizaci´ on de la variable aleatoria normal X: Z = X − µX σX An´ alisis de datos con R Enero 2020 80 / 91

Distribuci´ on Normal Es bastante util aprender a hacer inferencias
acerca de la poblaci´ on con base en informaci´ on de la muestra. Varias de estas t´ ecnicas se basan en el supuesto de que la poblaci´ on presenta una distribuci´ on normal aproximada. Por tanto, ser´ a importante determinar si los datos de la muestra provienen de una poblaci´ on normal, antes de aplicar dichas t´ ecnicas. An´ alisis de datos con R Enero 2020 81 / 91

Distribuci´ on Normal Para determinar si los datos provienen de
una distribuc´ on aproximadamente normal, se pueden considerar tres m´ etodos: 1. Construir en histograma de frecuencia relativa o bien un diagrama de tallos y hojas para los datos. Si los datos son aproximadamente normales, la forma de la gr´ aﬁca ser´ a similar a la de la curva normal. (Con forma de joroba y sim´ etrica alrededor de la media.) 2. Calcular el rango intercuart´ ılico (IQR) y la desviaci´ on est´ andar (s), para la muestra, y luego calcular el cociente IQR/s. Si los datos son aproximadamente normales, IQR/s ≈ 1,3. 3. Construir una gr´ aﬁca de probabilidad normal para los datos Si los datos son aproximadamente normales, los puntos caer´ an (aproximadamente) en una l´ ınea recta. An´ alisis de datos con R Enero 2020 82 / 91

Distribuci´ on Normal Construcci´ on De Una Gr´ aﬁca de
Probabilidad Normal Para Un Conjunto De Datos 1. Haga una lista de las observaciones del conjunto de datos de muestra en orden ascendente, donde xi representa el i-´ esimo valor ordenado. 2. Para cada observaci´ on, calcule el ´ area de cola correspondiente de la dsitribuci´ on normal est´ andar (z), Ai = P [X ≤ Xi ]. Empiricamente condici´ on de continuidad. Ai = i − 0,375 n + 0,25 donde n es el tama˜ no de la muestra. An´ alisis de datos con R Enero 2020 83 / 91

Distribuci´ on Normal Construcci´ on De Una Gr´ aﬁca de
Probabilidad Normal Para Un Conjunto De Datos 1. Calcule el valor esperado estimado de xi suponiendo normalidad, mediante la siguiente f´ ormula: E(Xi − X) = s × [Z(Ai )] donde s es la desviaci´ on est´ andar de la muestra y Z(Ai ) es el valor de z que recorta un ´ area Ai de la cola inferior de la distribuci´ on normal est´ andar. 2. Graﬁque las observaciones ordenadas xi en el eje vertical y los valores esperados estimados correspondientes, E(xi ), en el eje horizontal. An´ alisis de datos con R Enero 2020 84 / 91

Distribuci´ on Normal Nota Las veriﬁcaciones de normalidad dadas son
s´ olo t´ ecnicas descriptivas. Es posible (aunque poco probable) que los datos no sean normales a pesar de que las veriﬁcaciones se satisfacen razonablemente. Por tanto, se debe tener cuidado de no asegurar que las mediciones, de hecho, se distribuyen normalmente. S´ olo podemos decir que es razonable pensar que los datos provienen de una distribuci´ on normal. An´ alisis de datos con R Enero 2020 85 / 91

Distribuci´ on Normal Aproximaci´ on para la distribuci´ on binomial
La distribuci´ on normal frecuentemente es una buena aproximaci´ on a una distribuci´ on discreta cuando la ´ ultima adquiere una forma de campana sim´ etrica. Desde un punto de vista te´ orico algunas distribuciones convergen a la normal conforme sus par´ ametros se acercan a ciertos l´ ımites. La distribuci´ on normal es una aproximaci´ on conveniente pues la distribuci´ on acumulada se tabula m´ as f´ acil. La distribuci´ on binomial se aproxima bien por la normal en problemas pr´ acticos cuando se trabaja con la funci´ on de distribuci´ on acumulada. An´ alisis de datos con R Enero 2020 86 / 91

Distribuci´ on Normal Teorema. (Aplicaci´ on del Teorema del L´
ımite Central) Si X es una variable aleatoria binomial con media µ = np y varianza σ2 = np(1 − p), entonces la forma limitante de la distribuci´ on de Z = X − np 2 np(1 − p) cuando n → ∞, es la distribuci´ on normal est´ andar N(z; 0, 1) La distribuci´ on normal proporciona una buena aproximaci´ on de la binomial a´ un cuando n es peque˜ na y p est´ a razonablemente cercana a 0.5. An´ alisis de datos con R Enero 2020 87 / 91

Distribuci´ on Normal Ejemplo Genera 100 valores aleatorios de una
distribuci´ on normal de media 3 y desviaci´ on t´ ıpica 2 se utiliza la semilla 111. 1 s e t . seed (111) 2 datos<−rnorm (100 ,3 ,2) 3 # Representamos a c o n t i n u a c i n e l histograma . 4 # Si usamos e l c d i g o 5 h i s t ( datos ) 6 # Sin embargo , s i usamos e l c d i g o 7 h i s t ( datos , f r e q=FALSE) 8 # Dicha comparativa se hace ejecutando a c o n t i n u a c i n 9 # e l s i g u i e n t e c d i g o 10 curve ( dnorm ( x , 3 , 2 ) , add=TRUE) 11 # add=TRUE superpone l a curva a l histograma . 12 #aparecen r e p r e s e n t a d a s f r e c u e n c i a s r e l a t i v a s 13 # y es p o s i b l e hacer una c o m p a r a c i n con l a 14 # f u n c i n de densidad t e r i c a . An´ alisis de datos con R Enero 2020 88 / 91

Distribuci´ on Normal Ejemplo 1 l i b r a
r y ( quantmod ) 2 SPY = getSymbols ( ”SPY” , auto . a s s i g n=F) 3 SPY = weeklyReturn (Ad(SPY) ) 4 5 densitySPY = d e n s i t y (SPY) 6 p l o t ( densitySPY , main=” Kernel Density ” ) 7 8 x = seq ( min (SPY) ,max(SPY) , l e n g t h =300) 9 y = dnorm ( x , mean=mean(SPY) , sd = sd (SPY) ) 10 l i n e s ( x , y , c o l =2) An´ alisis de datos con R Enero 2020 89 / 91

Distribuci´ on Normal An´ alisis de datos con R Enero
2020 90 / 91

Distribuci´ on Normal 1 rm( l i s t =l
s () ) 2 l i b r a r y ( quantmod ) 3 getSymbols ( ”ˆNDX” , s r c=”yahoo” , from=’1997−6−01 ’ , to=’ 2012−6−01 ’ ) 4 d a i l y<− a l l R e t u r n s (NDX) [ , c ( ’ d a i l y ’ ) ] 5 d a i l y S e r i e T e m p o r e l<−t s ( data=d a i l y ) 6 ss<−na . omit ( d a i l y S e r i e T e m p o r e l ) 7 p l o t ( d e n s i t y ( ss , k e r n e l=’ epanechnikov ’ ) ) 8 s e t . seed (125) 9 l i n e s ( d e n s i t y ( rnorm ( l e n g t h ( ss ) , mean( ss ) , sd ( ss ) ) , k e r n e l= ’ epanechnikov ’ ) , c o l =2) An´ alisis de datos con R Enero 2020 91 / 91

PROGRAMACION ESTADISTICA CON R (Clase2)

PROGRAMACION ESTADISTICA CON R (Clase2)

More Decks by Abraham Zamudio

Other Decks in Education

Featured

Transcript