Slide 1

Slide 1 text

Tarificación GLM en Autos y Hogar con SAS: Introducción a los modelos lineales generalizados (GLM) Instituto de Actuarios Españoles 9-13 de marzo, 2015

Slide 2

Slide 2 text

Acerca de vuestro instructor • Mi nombre: Marcos Aguilera Keyser • Licenciado en Economía y Ciencias Actuariales por la Universidad Carlos III • Actuario Senior de Pricing en Liberty seguros • Anteriormente pasé varios años como consultor analítico en SAS Institue • Tengo mucha experiencia construyendo modelos analíticos para la industria aseguradora en multitud de proyectos nacionales e internacionales • Ganador de la competición de Kaggle para empleados de Liberty Mutual Group "Liberty Mutual Group - Fire Peril Loss Cost“ [email protected] [email protected] es.linkedin.com/in/markeyser

Slide 3

Slide 3 text

Índice • ¿Por qué usamos modelos GLM? • Especificación de los modelos GLM: – El modelos estándar de resgresión – La función de “link” – La “familia exponencial” – El término “offset” • Relación entre media y varianza • Práctica 1: Introducción a los modelos GLM • Modelos para la Frecuencia: – El problema de la sobre dispersión – Práctica 2: modelización de la sobre dispersión – El problema del exceso de ceros – Práctica 3: modelización del exceso de ceros • Modelos para el Coste Medio: – Estructuras de error Gamma, Gaussiana Inversa y Log-normal – Práctica 4: ajuste del coste medio

Slide 4

Slide 4 text

Indice • Modelos para el Burning Cost (Prima Pura ó Prima de Riesgo) – La distribución Tweedie – Práctica 5: ajuste del burning cost

Slide 5

Slide 5 text

¿POR QUÉ USAMOS MODELOS GLM?

Slide 6

Slide 6 text

¿Por qué usamos modelos GLM? • El modelo lineal estándar predice el valor esperado desconocido de la variable respuesta (una variable aleatoria) como una combinación lineal de un conjunto de valores observados (variables explicativas). • Esto implica que un cambio constante en un predictor conlleva un cabio constante en la variable respuesta. Es decir, un modelo lineal. • Un modelo lineal es apropiado cuando la varaible respuesta sigue una distribuión normal; es decir: – Cuando la variable respuesta puede variar en cualquier dirección sin valor fijo cero. – O más generalmete, para cualquier cantidad que varie en una cuantía relativamente pequeña como la altura del ser humano.

Slide 7

Slide 7 text

¿Por qué usamos modelos GLM? • Los supuestos de normalidad anterirores no son adecuados para algunos tipos de variables resputa. Por ejemplo: – Cuando la variable respuesta se espera que siempre sea positiva. – Cuando la variable respuesta puede variar en un amplio rango (varios órdenes de magnitud) – Cuando cambios constantes en la variable explicaiva conlleva cambio geométricos en la variable explicativa (en lugar de constates) • Los modelos lineales generalizados son adecuados para modelar éste tipo de variable respuesta.

Slide 8

Slide 8 text

¿Por qué usamos modelos GLM? En seguros: Todos sabemos que los siniestros pequeños tienen menos varianza que los grandes. Luego el supuesto clásico no es práctico Y es que, • la variable respuesta es positiva (Frecuencia, Coste Medio) • recorren varios órdenes de magnitud - incurridos entre 50 Euros y 500.000 Euros • Incrementos unitarios en el factor de riesgo (antigüedad del carné de conducir) conllevan incrementos geométricos en la variable respuesta (el coste medio) • ¿Quién ha visto una distribución normal en seguros?

Slide 9

Slide 9 text

ESPECIFICACIÓN DE LOS MODELOS GLM El modelo estándar de regresión

Slide 10

Slide 10 text

Modelo estándar de regresión lineal Recordemos la ecuación del modelo de resgresión lineal estándar (clásico): " = & + ( " + ⋯ + + " + ϵ" , ϵ" ~ 0, 2 De otra forma, tenemos el promedio de la variable " que es el objetivo en modelización predictiva. Además, épsilon ha desaparedido del lado derecho de la ecuación. A ésta expresión la llamamos predictor líneal. Lineal en las betas; es decir, no encontremos 2 ó ( . 4 ya que no es una relación lineal: " = " = & + ( " + ⋯ + + " Otro supuesto clave del modelo lineal estándar es que la varaible respuesta es una variable aleatorioa que sigue una distribución Normal con media mu y variaza constange sigma cuadrado: " ~ , 2 Donde la media mu es el predictor lineal: = " = & + ( " + ⋯ + + "

Slide 11

Slide 11 text

Modelo estándar de regresión lineal (cont.) ¿Qué conocemos? • es la variable respuesta, aquello que queremos predecir, la frecuencia, el coste medio o el burning cost (prima pura ó prima de riesgo) • también es conocida, son los factores de riesgo, (la antigüedad del vehículo, 2el número de puertas, etc. ¿Qué desconocemos? • No conocemos las , queremos estimar su valor para saber si nos ayuda a predecir • No conocemos , que representa el término de error de nuestro modelo Predictor lineal: • El objetivo es predecir el valor medio de condicionado a los valores que tomen (, 2 , … , : • Es lineal en parámetros (las betas) • es una variable aleatoria que sigue una distribución normal con varianza constante • es el valor esperado, la media y representa al predictor lineal

Slide 12

Slide 12 text

Modelo estándar de regresión lineal (cont.) Insistamos en que en un modelo lineal: " = & + ( " + " los residuos están centrados (media cero), son independientes y tienen varianza idéntica y constante

Slide 13

Slide 13 text

Modelo estándar de regresión lineal (cont.) La idea aquí es asumir | = ~(& + ( , 2) produce el mismo modelo que el anterior, basado en un término error. Tenemos dos partes aquí: • El incremento lineal del promedio = = & + ( • La varianza constante de la distribución Normal = = 2

Slide 14

Slide 14 text

No content

Slide 15

Slide 15 text

ESPECIFICACIÓN DE LOS MODELOS GLM La “función de link”

Slide 16

Slide 16 text

Especificación de los modelos GLM: la “función de link” = = & + ( ( + ⋯ + + + = • La “función de link” es : los modelos GLM relacionan el valor esperado de la variable dependiente ( ) con el predictor lineal () a través de la “función de link” (. ) • Ejemplo: función de link logarítmica: = & + ( ( + ⋯ + + , = que equivale a = JKLJMNML⋯LJO, = P • En nuestro ejemplo anterior para el modelo lineal estándar no podemos ver la función de link, sin embargo, exisete ya que sencillamente es la función identidad, es uno. El modelo lineal estándar es un modelo GLM.

Slide 17

Slide 17 text

Especificación de los modelos GLM: la “función de link” Si nuestra función de link es logarítmica: Log (|) = ~(& + ( , 2) • El incremento del promedio ya no es lineal sino exponencial = = JKLJMT = JK U JMT • La varianza constante de la distribución Normal = = 2 • Un modelo multiplicativo debido a link = log • Un modelo que sigue siendo homoscedástico pero no lineal en su relación con

Slide 18

Slide 18 text

Especificación de los modelos GLM: la “función de link”

Slide 19

Slide 19 text

ESPECIFICACIÓN DE LOS MODELOS GLM La “familia exponencial”

Slide 20

Slide 20 text

Especificación de los modelos GLM: “familia exponencial” En los modelso lineales generalizados " sigue una distribución de la familia exponencial. La familia exponencial de distribuciones depende de dos parámetros y se define como: " " ; , = exp " " − " " + " , donde • " , " y " , son funciones especificadas de ante mano • " es un parámetro relacionado con la media (thita) • es un parámetro de escala relacionado con la varianza (fi)

Slide 21

Slide 21 text

Especificación de los modelos GLM: “familia exponencial” Desde un punto de vista práctico, es útil conocer que la familia exponencial tiene dos propiedades: 1. La distribución queda completamente especificada en términos de media y varianza 2. La varianza de " es función de su media Esta segunda propiedad queda más clara si expresamos la varianza así: (") = `a(bc) dc Donde, • (" ) se le llama función de varianza, es una función especificada previamente • el parámetro de dispersión (fi) que simplemente escala la varianza • y el " (omega) es una constante que asigna un peso, o credibilidad, a la observación i La familia exponencial engloba múltiples distribuciones: Normal, Gamma, Binomial, Poisson, Negative Binomial, Gaussiana Inversa, entre otras

Slide 22

Slide 22 text

Especificación de los modelos GLM: “familia exponencial” Si sigue una distribución de Poisson entonces | = ~(& + ( ) • El incremento lineal del promedio = = & + ( • La varianza constante de la distribución Poisson es igual a la media = = & + ( • Tenemos un modelo aditivo, lineal pero heterocedastico

Slide 23

Slide 23 text

…en resumen…link logarítmica y función error Poisson… Si sigue una distribución de Poisson entonces (|) = ~(& + ( ) • El incremento no lineal del promedio = = JKLJM = JKJMT • La varianza constante de la distribución Poisson es igual a la media = = & + ( = • Tenemos un modelo multiplicativo, no lineal y heteroscedastico

Slide 24

Slide 24 text

…en resumen…link logarítmica y función error Poisson…

Slide 25

Slide 25 text

ESPECIFICACIÓN DE LOS MODELOS GLM El término “offset”

Slide 26

Slide 26 text

Especificación de los modelos GLM: el término “offset” = & + ( ( + ⋯ + + + + offset • El término “offset” es interesante, es como una pero sin el parámetro delante (ó parametro = 1) • Permite introducir efectos que conocemos • En los modelos lineales estándar también existen dichos efectos, pero no es necesario explicitarlos, sencillamente podemos pasarlos al otro lado de la ecuación y restarlos de . • Ahora que tenemos una función de link no podemos ya pasar al otro lado de la ecuación éste otro efecto que conocemos. Por lo tanto, queda aislado en la parte derecha de la ecuación. • Ejemplo: en los modelos de frecuencia la exposición de la póliza es el típico término offset

Slide 27

Slide 27 text

Especificación de los modelos GLM: el término “offset” …un ejemplo clásico, la Exposición de la póliza como término “offset”: = & + ( ( + ⋯ + + ú ó ⁄ = & + ( ( + ⋯ + + ú − log (ó) = & + ( ( + ⋯ + + ú = & + ( ( + ⋯ + + + Log (ó) ú = JKLJMNML⋯LJO +

Slide 28

Slide 28 text

Revisemos el modelo de Poisson Si sigue una distribución de Poisson entonces (|) = ~(& + ( + log ()) • El incremento no lineal del promedio = = JKLJMT = JKJMT + • La varianza constante de la distribución Poisson es igual a la media = = & + ( + log () = • Tenemos un modelo multiplicativo, no lineal, heteroscedastico con término offset

Slide 29

Slide 29 text

RELACIÓN ENTRE MEDIA Y VARIANZA EN LOS MODELOS GLM

Slide 30

Slide 30 text

Relación entre media y varianza • En el modelo lineal estándar la varianza es constante: = = 2 • Independientemente del valor que tome el valor esperado de = • No hay relación entre ambos componentes • Sin embargo sabemos que los siniestros pequeños tienen menos varianza que los grandes. Luego el supuesto clásico no es práctico • Por suerte tenemos otras alternativas como elegir una función de error de Poisson, Gamma, Gaussiana Inversa, Log normal, etc.

Slide 31

Slide 31 text

Relación entre media y varianza Recordemos que definimos la varianza como: (" ) = `a(bc) dc Donde las distintas funciones de varianza son: (" ) Normal 1 Poisson Gamma 2 Inverse Gaussian 4 Negative Binomial + k2

Slide 32

Slide 32 text

Relación entre media y varianza • Normal: no existe relación entre media y varianza • Poisson: tiene una relación una relación lineal, el valor esperado de una variable aleatoria que siga una Poisson es igual a la varianza de dicho valor y al revés. • Gamma: la relación entre media y varianza es cuadrática. La varianza de es el cuadrado de la media de • Gaussiana Inversa: la relación entre media y varianza es cúbica. La varianza de es el cubo de la media de = =

Slide 33

Slide 33 text

La relación media - varianza en nuestros modelos toma la forma:

Slide 34

Slide 34 text

Desviaciones y desviaciones escaladas ∅ = ()|( = ∅ = 2

Slide 35

Slide 35 text

PRÁCTICA 1 Introducción a los modelos GLM

Slide 36

Slide 36 text

MODELOS PARA LA FRECUENCIA Distribuciones Poisson, Binomial Negativa, ZIP, ZINB y Hurdle

Slide 37

Slide 37 text

MODELOS PARA LA FRECUENCIA El problema de sobre dispersión

Slide 38

Slide 38 text

Definición de la función de error Poisson = €|b ! = 0,1,2, … , = = ∅ = 1

Slide 39

Slide 39 text

Repaso del modelos de Poisson El modelo de Poisson es el más habitualmente utilizado como punto de partida en los modelos de Frecuencia; es el siguiente: (|) = ~(& + ( + log (ó)) El incremento no lineal del promedio = = (JKLJMTLƒ„… (†‡ˆ) ) = JKJMTƒ„… (‰TŠ) = La varianza crece a una tasa constante ya que en la distribución Poisson media y varianza son iguales = = & + ( = Tenemos un modelo multiplicativo, no lineal y heteroscedastico

Slide 40

Slide 40 text

Introducción • La sobre dispersión ocurre cuando la varianza empírica es mayor que la varianza teórica para una distribución en particular. • Es decir, la variabilidad es mayor que la predicha por la función de error del modelo GLM • Cuando tratamos de ajustar un modelo a datos de conteo (0,1,2,…,n) es muy frecuente encontrar sobre dispersión en los datos. Consecuencias: • Cuando la verdadera distribución no es Poisson: – Los estimadores de máxima verosimilitud siguen siendo consistentes – Pero sus errores estándar son incorrectos • De hecho la sobre dispersión conlleva: – A infra estimar los errores estándar – A sobre estimar los estadísticos Chi-cuadrados • En consecuencia sobre estimamos la significación de los parámetros estimados en la regresión

Slide 41

Slide 41 text

Causas de la sobre dispersión 1. Heterogeneidad entre las observaciones debido a un modelo incorrectamente especificado 2. Valores atípicos en los datos 3. Correlación positiva entre las observaciones como consecuencia de la existencia de clusters

Slide 42

Slide 42 text

Con mas detalle: heterogeneidad entre las observaciones • El modelo de Poisson asume que la variable respuesta sigue una distribución de Poisson condicionada a los valores de las variables explicativas • Si alguna variable explicativa importante está ausente del modelo entonces la heterogeneidad entre las observaciones no explicada por el modelo puede causar mayor variabilidad en la variable respuesta que la predicha por el modelo de Poisson • Al no existir un término de error en el modelo de Poisson, no hay forma de acomodar la variabilidad extra causada por la omisión de una variable explicativa importante • En consecuencia, asumir una distribución de Poisson para una variable de conteo es muy simplista ya que la mayoría de los modelos no están correctamente especificados

Slide 43

Slide 43 text

MODELOS PARA LA FRECUENCIA Primera solución al problema de sobre dispersión: un factor de dispersión multiplicativo

Slide 44

Slide 44 text

Un poco de literatura…

Slide 45

Slide 45 text

Factor de dispersión multiplicativo • Un primer camino para solventar el problema de sobre dispersión es hacer uso de un factor de dispersión (∅) cuando definimos la relación entre media y varianza – En la varianza original bajo Poisson: (")= – La nueva varianza con dispersión: (")= ∅ ∗ • Donde el factor de sobre dispersión multiplicativo (∅) es un estadístico Chi-cuadrado dividido por sus grados de libertad ∅ = 2 • La matriz de covarianzas está ahora pre multiplicada por ∅, • y la desviación escalada y la función de máxima verosimilitud están ahora dividas por ∅ • Como la función de mv. es utilizada para calcular los intervalos de confianza entonces • los errores estándar de cada coeficiente son ajustados de ésta forma ()•Ž• = ∗ ()‘’•Ž• • Éste método produce una inferencia adecuada siempre que la sobre dispersión sea moderada

Slide 46

Slide 46 text

Factor de dispersión multiplicativo (cont.) • La introducción de un factor de dispersión multiplicativo no genera una nueva distribución de probabilidad, es sencillamente un término corrector a la hora de testar las estimación de los parámetros bajo el modelo de Poisson • Los modelos se ajustan de la forma habitual en Poisson • Los parámetros estimados no se ven afectados por el factor de dispersión multiplicativo • Sin embargo, sí se ven afectados los errores estándares de los coeficientes de regresión de forma que sufren una corrección • Si existe sobre dispersión, los errores estándar se incrementan para albergar el exceso de variabilidad

Slide 47

Slide 47 text

Factor de dispersión multiplicativo (cont.) Dos formas de ajustar la matriz de covarianzas en el PROC GENMOD: 1. Puedes calcular el factor multiplicativo de sobre dispersión usando las desviaciones (SCALE = deviance) 2. Puedes calcular el factor multiplicativo de sobre dispersión usando el estadístico de la Chi- cuadrado de Pearson (SCALE = Pearson) La mayoría de las veces estarán muy cerca uno del otro • Recordar que cuando exista evidencia de sobre dispersión hay que investigar primero la existencia de otras razones, especialmente la existencia de valores ausentes o la incorrecta especificación del modelo (si faltan importantes interacciones por ejemplo, asumiendo linealidad de las variables continuas cuando la falta de ella es evidente, etc.). Corrigiendo éstos problemas quizás no haga falta usar el factor de dispersión multiplicativo.

Slide 48

Slide 48 text

Factor de dispersión multiplicativo en PROC GENMDO • Corrección de la sobre dispersión con factor de dispersión multiplicativo para la Poission se lleva a cabo por medio de las opciónes PSCALE (Pearson) ó DSCALE (Deviance) en la sentencia MODEL: proc genmod data=over.moped_frq_base; model num_claims = urbanicity type age veh_age / dist=poi link=log pscale; run;

Slide 49

Slide 49 text

MODELOS PARA LA FRECUENCIA Segunda solución al problema de sobre dispersión: función de error Binomial Negativa

Slide 50

Slide 50 text

Definición de la función de error Binomial Negativa

Slide 51

Slide 51 text

Usando una función de error Binomial Negativa • Otra forma de sortear la sobre dispersión es usando una distribución más flexible que la Poisson • La distribución Binomial Negativa permite a la varianza exceder la media • Al contrario que la rígida Poisson, ésta distribución sí es capaz de albergar la heterogeneidad no recogida por el modelo y tener en cuenta así la sobre dispersión existente • La relación media-varianza cuando usamos la BN, necesita de la estimación de un parámetro adicional de dispersión que debe bien ser estimado y fijado a un valor • Gracias a éste parámetro la varianza puede exceder a la media y permite a la BN tener en cuenta la existencia de sobre dispersión

Slide 52

Slide 52 text

El parámetro de dispersión k • Se estima por máxima verosimilitud • No se permite que varié entre observaciones • Cuando k = 0 el modelo corresponde a un modelo de Poisson • Cuando k > 0 : – la sobre dispersión es evidente y los errores estándar se incrementarán en consecuencia. – Los valores estimados de los parámetros permanecen sin apenas cambio en relación al modelo de Poisson, – pero los mayores errores estándar son capaces de aumentar para reflejar la sobre dispersión no capturada por el modelo de Poisson

Slide 53

Slide 53 text

Binomial Negativa en PROC GENMDO • Secillamente hacemos uso de la distribución en PROC GENMOD: proc genmod data=over.moped_frq_base; model num_claims = urbanicity type age veh_age / dist=nb link=log pscale; run;

Slide 54

Slide 54 text

PRÁCTICA 2 Modelos de Frecuencia: el problema de la sobre dispersión

Slide 55

Slide 55 text

MODELOS PARA LA FRECUENCIA El problema de exceso de ceros: modelos con inflación de ceros y “hurdle”

Slide 56

Slide 56 text

Pero…¿De verdad se aplican éstos modelos en seguros?

Slide 57

Slide 57 text

Introducción • El problema de exceso de ceros se produce cuando los datos observados muestran una proporción de valores ceros mayor de la que puede ser explicada por un modelo estándar para datos de conteo como el Poisson o Binomial Negativo • Existen dos vías para resolver el problema: – El modelo de inflación o exceso de ceros o “zero inflated model” en inglés – El modelo “hurdle” o modelo de “dos partes” • Ambos modelos el “hurdle” y el “zero inflated” tienen su versión para la Poisson y para la Binomial. En consecuencia, tenemos a nuestra disposición un total de 4 modelos más con los que abordar la modelización de la Frecuencia • Los modelos ZIP y ZINB suelen también utilizarse para solventar el problema de sobre dispersión además del problema de exceso de ceros

Slide 58

Slide 58 text

¿Qué significa “exceso de ceros” exactamente? • El modelo de Poisson no es capaz de ajustar correctamente éstos datos. Es el exceso de ceros lo que impide el correcto ajuste • Sin embargo, el modelo con inflación de ceros (ZIP) es capaz de ajustarse correctamente a los datos • La misma capacidad tendría un modelo “hurdle” 0 10 20 30 40 50 60 70 80 90 100 0 1 2 3 4 5 6 Número de siniestros ZIP Poisson

Slide 59

Slide 59 text

Causas del exceso de ceros Existen dos posibles causas en que generan exceso de ceros: • Existen dos o más poblaciones distintas en nuestros datos – Ejemplo: si nuestra cartera de autos posee una elevada proporción de persona de edad avanzada que, aunque aseguran su vehículo no lo conducen. En consecuencia no es posible que tengan un accidente con su automóvil – En éste caso la aproximación al problema la haríamos desde un modelo con exceso de ceros • Existen incentivos que alteran el comportamiento del asegurado: – Ejemplo: se trata del fenómeno de “huger for bonus”, que significa que el asegurado no reporta a la compañía todos sus siniestros (evidentemente los de cuantía pequeña) para conservar su bonus el próximo año. En definitiva, para evitar ser penalizado con un incremento de prima mayor que coste del siniestro – En éste caso la aproximación al problema la haríamos desde un modelo “hurdle”

Slide 60

Slide 60 text

Modelos con inflación de ceros: intuición Siguiendo con nuestro ejemplo: – imaginemos que el 30% de nuestra cartera está formado por personas mayores que no conducen (pese a estar asegurados) – Imaginemos por un momento que podemos distinguirlos (sabemos quién conduce y quién no). Obviamente en la realidad no disponemos de ésta información y de ahí el problema de exceso de ceros • En consecuencia podemos observar que nuestra distribución con inflación de ceros tiene la forma que vemos a la izquierda: – Un 30% de nuestros conductores no conducen y, por tanto, no pueden tener un accidente – El 70% restante conduce y, en consecuencia, podrá o no tener un accidente 0 10 20 30 40 50 60 70 80 90 100 0 1 2 3 4 5 6 conducen no conducen

Slide 61

Slide 61 text

Modelos con inflación de ceros: intuición (cont.) Para abordar la modelización del problema de exceso de ceros desde la perspectiva de los modelos con inflación de ceros construimos dos modelos: • Un modelo GLM con función de error Binomial y link logit (o probit) que determina la probabilidad de que el cliente conduzca o no conduzca • Un modelo de Poisson o de Binomial negativa para recoger el hecho de que si el cliente conduce éste puede tener 0, 1, 2, …,n siniestros • Gracias a construir dos modelos podemos modelizar correctamente el exceso de ceros 0 20 40 60 80 100 0 1 no conducen conducen 0 20 40 60 80 100 0 1 2 3 4 5 6 conducen

Slide 62

Slide 62 text

Modelos “hurdle”: intuición Los modelos “hurdle” o en dos partes son interesantes porque nos permiten modelizar el comportamiento del cliente como un proceso de decisión en dos partes: • En la primera parte el cliente decide si declara sus siniestros de baja cuantía a la compañía o no lo hace • En la segunda parte, si el cliente ha decidido declarar sus siniestros de baja cuantía a la compañía entonces declarará 1, 2, 3,…,n siniestros Los modelos “hurdle” (“vallas”, como las de los corredores de 110 metros vallas) reflejan que para declarar algún siniestro positivo debes haber saltado la “valla” de haber decidido previamente declarar tus siniestros 0 10 20 30 40 50 60 70 80 90 100 0 1 2 3 4 5 6 declaran no declaran

Slide 63

Slide 63 text

Modelos “hurdle”: intuición (cont.) Para abordar la modelización del problema de exceso de ceros desde la perspectiva de los modelos “hurdle” construimos dos modelos: • Un modelo GLM con función de error Binomial y link logit (o probit) que determina la probabilidad de “saltar la valla”, es decir de que el cliente decida o no declarar sus siniestros de cuantía baja • Un modelo de Poisson o de Binomial negativa truncado en el valor cero para recoger el hecho de que si el cliente conduce éste puede tener 1, 2, …,n siniestros • Gracias a construir dos modelos podemos modelizar correctamente el exceso de ceros 0 20 40 60 80 100 0 1 no declaran declaran 0 20 40 60 80 100 0 1 2 3 4 5 6 declaran

Slide 64

Slide 64 text

Modelos con inflación de ceros: ZIP & ZINB • Se trata de modelos que son útiles cuando sospechamos que podrían existir dos sub poblaciones en nuestra población • El modelo básico tiene la siguiente forma donde • = la probabilidad de pertenecer a un grupo de población (no usan el coche) u otro (lo usan) • (0|" ) y (|" ) se basan en algún modelo, bien en un Poisson, bien en un Binomial Negativo

Slide 65

Slide 65 text

Modelos con inflación de ceros: ZIP & ZINB (cont.) ZIP modelo de Poisson con inflación de ceros con link = log usualmente: Notar que si = 0 tenemos un modelo de Poisson con link=log Finalmente la pertenencia a una clase u otra es una variable dicotómica que podemos modelizar con una regresión logística "• 1 − "• = & + ( "• + ⋯ + ’ "•

Slide 66

Slide 66 text

Modelos con inflación de ceros con el PROC GENMOD • Sin modelo para la probabilidad de pertenencia a una u otra población: proc genmod data=credrpt; model mdr = age income avgexp / link=log dist=zip type3; zeromodel / link=logit; run; • Con modelo para la probabilidad de pertenencia a una u otra población : proc genmod data=credrpt; model mdr = age income avgexp / link=log dist=zip type3; zeromodel age income avgexp / link=logit; run; • En el “zeromodel” pueden aparecer las mismas variables, sólo algunas u otras completamente distintas a las que aparecen en la sentencia “model” • La distribuciones utilizada también puede ser “zinb”

Slide 67

Slide 67 text

Modelos con inflación de ceros con el PROC FMM • Sin modelo para la probabilidad de pertenencia a una u otra población: proc fmm data=credrpt; model mdr = age income avgexp / dist=poisson; model mdr = / dist=constant; probmodel; run; • Con modelo para la probabilidad de pertenencia a una u otra población : proc fmm data=credrpt; model mdr = age income avgexp / dist=poisson; model mdr = / dist=constant; probmodel age income ownrent; run;

Slide 68

Slide 68 text

Distribuciones Poisson y Binomial Negativa en proc FMM *Poisson; proc fmm data=credrpt; model mdr = age income avgexp / dist=poisson; run; *Negative Binomial; proc fmm data=credrpt; model mdr = age income avgexp / dist=negbin; run;

Slide 69

Slide 69 text

Modelos “hurdle” • Su función de densidad es la siguiente: donde • = la probabilidad de pertenecer a un grupo de población (no usan el coche) u otro (lo usan) • (|" ) se basan en algún modelo, bien en un Poisson, bien en un Binomial Negativo truncado en el cero.

Slide 70

Slide 70 text

Modelos “hurdle” (cont.) El model “hurdle” de Poisson con link = log usualmente: Notar que si = 0 tenemos un modelo de Poisson con link=log truncado en el valor cero. Finalmente la pertenencia a una clase u otra es una variable dicotómica que podemos modelizar con una regresión logística "• 1 − "• = & + ( "• + ⋯ + ’ "•

Slide 71

Slide 71 text

Modelos “hurdle” con el PROC FMM • Los modelos “hurdle” no pueden ser estimados con el PROC GENMOD a día de hoy. Así que podemos usar el PROC FMM • Sin modelo para la probabilidad de pertenencia a una u otra población: proc fmm data=credrpt; model mdr = age income avgexp / dist=tpoisson lin=log offset=ln_exp; model mdr = / dist=constant; probmodel; run; • Con modelo para la probabilidad de pertenencia a una u otra población proc fmm data=credrpt; model mdr = age income avgexp / dist=tpoisson link=log offset=ln_exp; model mdr = / dist=constant; probmodel age income ownrent; run; • En el “probmodel” pueden aparecer las mismas variables, sólo algunas u otras completamente distintas a las que aparecen en la sentencia “model” • La distribuciones utilizada también puede ser “tnegbin” • La segunda sentendia “model” va siempre sin variables explicativas

Slide 72

Slide 72 text

PRÁCTICA 3 Modelos de Frecuencia: el problema del exceso de ceros

Slide 73

Slide 73 text

MODELOS DE COSTE MEDIO Estructuras de error Gamma, Gaussiana Inversa y Log-normal

Slide 74

Slide 74 text

Distribución Normal Función de densidad: , , , = = 1 2 − − 2 22 − ∞ < < ∞ PDF('GAMMA',,< ,> ) Argumentos: • es una variable aleatoria continua • es un parámetro continuo de localizaicón . Rango > 0 • es un parámetro continuo de escala. Por defecto = 1. Rango > 0 • La función de densidad (PDF) para la distribución normal devuelve la función de probabilidad de densidad de una distribución normal con parámetro de localización y parámetro de escala . La PDF es evaluada en

Slide 75

Slide 75 text

Distribución Normal: parametrización con PROC GENMOD proc genmod data=coste_medio plots=all; class gender; model CMe = agevehicule gender / dist=normal link=identity; output out = pre_CMe p = Pre_CMe; run;

Slide 76

Slide 76 text

Distribución Lognormal Función de densidad: , , , = = 1 2 − ( − 2 22 > 0 PDF('LOGNORMAL',,< ,> ) Argumentos: • es una variable aleatoria continua • especifica un parámetro continuo en escala logarítmica. (exp() es el parámetro de escala). • Rango > 0 • es un parámetro continuo de forma. Por defecto = 1. Rango > 0 La función de densidad (PDF) para la distribución lognormal devuelve la función de proabilidad de densidad de una distribución lognormal con parámetro de escalay parámetro de forma . La PDF es evaluada en Una variable está distribuida de forma lognormal si su logarítimo está distribuida normalmente.

Slide 77

Slide 77 text

Distribución Lognormal: parametrización PROC GENMOD proc genmod data=coste_medio plots=all; class gender; model CMe = agevehicule gender / dist=normal link=log; output out = pre_CMe p = Pre_CMe; run;

Slide 78

Slide 78 text

Distribución Gamma Función de densidad , , , = = 1 ŸΓ Ÿ|( − , > 0 PDF('GAMMA',,α <,σ> ) Argumentos: • es una variable aleatoria continua • especifica un parámetro continuo de forma. Rango > 0 • parámetro continuo en escala . Por defecto = 1. Rango > 0 La función de densidad (PDF) para la distribución gamma distribution devuelve la función de proabilidad de densidad de una distribución gamma con parámetro de forma y parametro de escala . La PDF es evaluada en

Slide 79

Slide 79 text

Distribución Gamma: parametrización con PROC GENMOD proc genmod data=coste_medio plots=all; class gender; model CMe = agevehicule gender / dist=gamma link=log; output out = pre_CMe p = Pre_CMe; run;

Slide 80

Slide 80 text

Distribución Gaussiana Inversa (Wald) Función de densidad , , , = = 24 ( 2 ¥ − − 2 22 , > 0 PDF(‘IGAUSS',,<,> ) Argumentos: • es una variable aleatoria continua • especifica un parámetro continuo de forma. Rango > 0 • parámetro continuo en escala . Por defecto = 1. Rango > 0 La función de densidad (PDF) para la distribución Gaussiana inversa devuelve la función de proabilidad de densidad de una distribución Gaussiana inversa con parámetro de forma y parametro de escala . La PDF es evaluada en

Slide 81

Slide 81 text

Distribución Gaussiana Inversa : PROC GENMOD proc genmod data=coste_medio plots=all; class gender; model CMe = agevehicule gender / dist=igaussian link= power(-2); output out = pre_CMe p = Pre_CMe; run;

Slide 82

Slide 82 text

PRÁCTICA 4 Modelos para el Coste Medio: ajuste de distintas distribuciones

Slide 83

Slide 83 text

MODELOS PARA LA PRIMA DE RIESGO (BURNING COST) Distribución Tweedie

Slide 84

Slide 84 text

La distribución Tweedie en el PROC GENMOD

Slide 85

Slide 85 text

La distribución Tweedie • La distribución de Tweedie se suele utilizar para modelar primas puras • Une ejemplo típico de unos datos que siguen dicha distribución: la prima de riesgo

Slide 86

Slide 86 text

• La distribución Tweedie tiene un soporte no negativo y un punto de masa discreto en el valor cero. Siendo así útil para modelizar eventos en los que exista una mixtura de observaciones cero y positivas. • La media y la varianza de la distribución Tweedie es: • Donde fi es el parámetro de dispersión y p es un parámetro extra que controla la varianza de la distribución. • La familia de distribuciones Tweedie incluye varias distribuciones importantes para los GLM: – Cuando p = 0 la distribución Tweedie degenera en una normal – Cuando p = 1 la distribución Tweedie se convierte en una Poisson – Cuando p = 2 se convierte en una Gamma • En la práctica el rango de valores más interesante se encuentra entre 1 y 2. Cuando pasamos de 1 a 2 e el parámetro p la distribución Tweedie progresivamente va perdiendo su punto de masa discreto en cero para ir derivando hacia la Gamma. En éste caso caso decimos que la distibución Tweedie se ha generado como una distribución de Poission compuesta.

Slide 87

Slide 87 text

Distribución Tweedie con p=1

Slide 88

Slide 88 text

Distribución Tweedie con p=2

Slide 89

Slide 89 text

La distribución Tweedie en el PROC GENMOD • El procedimiento GENMOD no soporta de forma natural la distribución Tweedie. Sin embargo, éste procedimiento permite crear la distribución que el usuario desee: PROC GENMOD DATA=TEWEEDIE PLOTS=all; P=1.67; Y=_RESP_; A=_MEAN_; VARIANCE BAR=A**P; DEVIANCE DEV=2*((Y**(2-P)-Y*A**(1-P))/(1-P)-(Y**(2-P)-A**(2-P))/(2-P)); CLASS METROS2 MUN1 MUN2 BOMB_DISTA; WEIGHT ALCCL; MODEL BURNING_COST= METROS2 MUN1 MUN2 BOMB_DISTA/ LINK=LOG SCALE=PEARSON; RUN; • En las sentencias 2 a 6 del código se especifica la distribución Tweedie por el usuario. La opción PEARSON en la sentencia MODEL también es clave.

Slide 90

Slide 90 text

PRÁCTICA 5 Modelos para el Coste la prima de riesgo (burning cost): ajuste con la distribución Tweedie

Slide 91

Slide 91 text

No content