Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Guía IBM SPSS v.19

eescalanteg
February 22, 2012

Guía IBM SPSS v.19

Guía para investigadores y tesistas

eescalanteg

February 22, 2012
Tweet

More Decks by eescalanteg

Other Decks in Education

Transcript

  1. 1 GUÍA DE ANÁLISIS BÁSICO EN IBM SPSS PARA INVESTIGADORES

    Eduardo Escalante Gómez Investigador principal Instituto de Investigaciones Facultad de Psicología UDA 2010
  2. 2 © Circulación restringida. Texto en proceso de publicación. Propiedad

    intelectual de la Universidad del Aconcagua. Prohibida su reproducción
  3. 3 Introducción Esta guía ha sido elaborada como apoyo al

    trabajo estadístico de los investigadores, tesistas y tesinistas. No es una guía sobre estadística, sino del uso de IBM SPSS para el procesamiento estadístico. Se incluyen algunas de las pruebas estadísticas de las que dispone este programa y que son usan frecuentemente en los procesos investigativos. Algunas de las secciones son relativamente más extensas dada la complejidad de la técnica estadística analizada (por ejemplo, análisis de conglomerado). El lector podrá identificar la ruta de opciones para cada una de las técnicas mencionadas. IBM SPSS (anteriormente SPSS Statistics) es una herramienta de análisis estadístico avanzado. Concebido para el análisis de datos en ciencias sociales, su potencia y la cantidad de pruebas disponibles le permiten una gran versatilidad al momento de realizar los análisis estadísticos. Es fácil de uso y la interfaz facilita la introducción de un gran volumen de datos y variables.
  4. 4 UN ESQUEMA BÁSICO DE TRABAJO INVESTIGATIVO1 El siguiente diagrama

    representa el proceso de producción de conocimiento desde la perspectiva del planteamiento de Samaja2. Diagrama 13 1 Esta guía está desarrollada a partir del trabajo de Juan Samaja sobre los temas metodológicos.. 2 Samaja, Juan (1999). Epistemología y metodología. Elementos para una teoría de la investigación científica. Buenos Aires: Eudeba.
  5. 5 VALIDANDO EL PROCESO INVESTIGATIVO DESDE EL OBJETO Y EL

    DISEÑO INSTANCIAS DE VALIDACIÓN Toda producción de conocimiento científico, implica un proceso creciente y constante de validaciones que comienza por la teoría en la que nos sustentamos y apoyamos, y avanza hacia las instancias empíricas. El término validez se aplica genéricamente a un cierto hecho para significar que él es congruente con las normas y finalidades del sistema en el que pretende estar incluido. Decir que "este concepto es válido" o "este dato es válido" significa entonces, que es posible mostrar que puede formar parte del sistema conceptual (de la teoría científica) o del sistema operacional. INSTANCIA DE VALIDACIÓN CONCEPTUAL Se valida nuestras hipótesis sustantivas-teóricas, según la teoría que consideramos pertinente y hechos que sabemos bien establecidos. La ciencia explica hechos y que los mismos deben ser proposiciones verdaderas, en relación con su existencia real. ¿Cuál es el perfil socio-demográficas de las personas consumidoras de sustancias psicoactivas que acceden a los Centros de Tratamiento de Adicciones? ¿Cuál es la efectividad (adherencia) en relación a los procesos y estadios de cambios de las personas consumidoras de sustancias psicoactivas que acceden a Centros de Tratamiento de Adicciones?4 ¿Por qué los alumnos universitarios de la carrera de Psicología tienen dificultades en la lectura y comprensión de los textos?5 VALIDACIÓN EMPÍRICA Instancia en que probamos la validez de nuestros indicadores –hipótesis instrumentales- o sea, la validez de los datos. UNIDADES DE ANÁLISIS VARIABLES (ESPACIOS DE ATRIBUTOS) Todo objeto de investigación está conformado por unidades de análisis, variables, valores e indicadores, correspondientes al nivel unitario en que el estudio está anclado (matriz unitaria o de anclaje). 3 Tomado de Ricardo Césari (s/f) SEMINARIO: “INVESTIGACIÓN Y TESIS” de Postgrado, pág. 7, recuperado el 10 de marzo del 2011 desde www.um.edu.ar/math/maestria/inves.pdf 4 Este tipo de cuestiones está siendo investigadas por el Observatorio de Adicciones de Mendoza 5 Esta interrogante investigativa será examinada por el Departamento de Investigación de la Facultad de Psicología de la UDA.
  6. 6 CONFIGURACIONES INVESTIGATIVAS UNIDAD DE ANÁLISIS VARIABLES (variables investigativas) VALORES

    Las unidades de análisis son los individuos, elementos o componentes del sistema u objeto que se quiere estudiar. El conjunto de las unidades de análisis de una investigación constituye lo que se conoce como 'el universo' o 'la población' del estudio. Ejemplos: Adolescentes con problemas de adicciones Niños abusados sexualmente Escuelas vulnerables Variables relevantes consideradas aspectos relevantes del objeto. Se traducen los conceptos incluidos en las hipótesis en un universo de variables. Ejemplos Género, edad, estado civil, cantidad de hijos, cantidad de personas a cargo, nivel alcanzado en la educación formal, ocupación de los padres. Aspectos afectivos, sentimientos y vivencias expresadas en su condición individual, y en sus relaciones intersubjetivas, conjunto de representaciones del mundo personal y social desplegadas desde la condición racional e intelectiva. Ejemplos: Valores o categorías de la variable actitud = Solidaria/ No solidaria. “Este alumno universitario presenta dificultades en la lecto-comprensión de los textos universitarios”. Se habla de un sujeto, “el alumno” (una unidad de análisis) y se argumenta que, de todos los alumnos del universo de interés, hay uno (por lo menos) que tiene un atributo (valor de la variable dificultades en la lectura y comprensión de textos) que se caracteriza por presentar “dificultades en la lecto-comprensión de los textos universitarios”. El investigador trabaja con matrices de datos y datos, su relevancia se puede observar los siguientes diagramas: Diagrama 2. Matrices de datos
  7. 7 Diagrama 2. El dato6 Generadas las matrices de datos,

    el investigador procede a configurarlas para su tratamiento en IBM SPSS, o en otros programas computacionales. A continuación se presenta dos diagramas que reflejan la forma en que se organizan los datos para su procesamiento. 6 Césari, ibíd., pág. 19
  8. 8 Matriz de Datos Unidad de análisis Variables V1 V2

    V3 Vn Ítem 1 Ítem 2 Ítem 1 Ítem 2 Ítem 3 Diagrama 3 ¿Qué tipo de relaciones entre los fenómenos me interesan? ¿Interesa relacionar? ¿Las relaciones son de tipo causal? O ¿el propósito es realizar una descripción de la variación conjunta de los fenómenos en estudio? ¿Interesa la descripción comprensivo-comparativa de los fenómenos antes que la causa? El investigador podrá procesar “individuos por características cuantitativas” o “individuos por características cualitativas”. Se podrán evaluar la semejanza entre los individuos a través de una determinada selección de atributos y la asociación entre las características seleccionadas considerando el conjunto de individuos estudiados. Análisis en la dirección de las variables Análisis en la dirección de las unidades de análisis Diagrama 4
  9. 9 Más se hace referencia al concepto de “unidad de

    análisis”. Este es un concepto relativo al nivel en que se está llevando a cabo el análisis del objeto investigado. Cualquiera sea la investigación de que se trate, su objeto puede ser descompuesta en varios tipos de unidades de análisis de diferentes niveles de integración; cada cual con sus variables, valores e indicadores; es decir, en un conjunto de matrices de datos que guardan entre sí relaciones definidas. Básicamente consta de tres matrices encadenadas en niveles lógicos y cuyos lazos son en el estrato superior, el contexto de la matriz de orden inferior. La matriz de anclaje es la de nivel medio y es en donde se desarrolla lo sustancial de la investigación, la matriz de orden inferior depende directamente de la de nivel medio y es donde se registra la información más granularizada. La matriz de orden superior funciona como contexto de las otras dos y es en donde aparecen los elementos que dan la forma general a la investigación. Estas tres matrices forman la estructura básica de mucha de la investigación científica. Veamos el siguiente ejemplo. Diagrama 5. Matrices En el nivel Supra, la UA es la sociedad, dentro del cual la variable es la familia. En el nivel considerado de anclaje, la UA es la familia, pero el niño es la variable. La Sociedad desciende como contexto. En el nivel Sub, el contexto pasa a ser la familia y la UA es el niño. En el caso de las investigaciones criminológicas, podemos reemplazar al niño por el sujeto que comete delito, manteniendo el nivel de anclaje en la familia, o podemos considerar el sujeto que comete delito como nivel de anclaje y en el nivel sub la víctima, y colocar a los pares en el nivel supra.
  10. 10 A modo de ejemplo, se podría considerar un Centro

    de Tratamiento de Adicciones como que el contexto en el cual actúan las unidades de análisis (U.A.) de nivel de anclaje: pacientes y terapeutas. Situados en este nivel, el Centro de Tratamiento de Adicciones podría ser el contexto, una variable en relación con a las U.A. de anclaje. No obstante, durante el desarrollo de la investigación se podría necesitar indagar sobre ciertos atributos propios del Centro, y en ese momento, el Centro que constituía una variable de la matriz de anclaje, pasa a ser unidad de análisis, con sus respectivas V, R, e I. Por ejemplo: estructura jerárquica o tipos de relaciones. Si se considera las prácticas y vínculos de las U.A. de anclaje (terapeutas y pacientes), se verá que ellas son variables, en tanto atributos que se mencionan de terapeutas y pacientes. No obstante, si se desciende al nivel sub-unitario, se hallará también V y R, dado que en ese momento, dichos vínculos y prácticas pasan a ser unidades de análisis. Por ejemplo: tipo de vínculos profesionales, estrategias de intervención de los terapeutas. Los terapeutas y pacientes aparecen entonces como el contexto de dichos vínculos y prácticas. Esto se expresa en diagrama 7. Diagrama 6. Diagrama 7
  11. 11 El investigador puede realizar el siguiente tipo de análisis

    con los datos obtenidos en el proceso de investigación: Diagrama 8. El análisis7 Otra manera de representar el proceso que realiza el investigador se puede ver reflejado en el siguiente cuadro: ANÁLISIS CENTRADO EN LA UNIDAD DE ANÁLISIS ANÁLISIS CENTRADO EN LAS VARIABLES ANÁLISIS CENTRADO EN LOS VALORES Tipologías, perfiles, agrupamientos Tablas de frecuencias, tablas de contingencia, estadísticos descriptivos, gráficos, pruebas de significación estadística, análisis de varianza, análisis factorial, escalamiento multidimensional, análisis de conglomerados… Confiabilidad de los indicadores Cuadro 1. Tipos de análisis 7 Césari, ibíd., pág. 24
  12. 12 Una buena síntesis del proceso que realiza el investigador,

    lo resume Césari (op.cit., pág. 25) a partir de la propuesta de Samaja. Cuadro 2. Las matrices
  13. 13 MAPA BÁSICO IBM SPSS Estadística descriptiva: variables categóricas y

    escalares TRABAJANDO CON LAS VARIABLES EN IBM SPSS La descripción de los datos es el primer paso del investigador. Comparación de medias
  14. 15 DEFINICIÓN DE VARIABLES EN IBM SPSS Las definiciones de

    las variables es mucho más significativas que en las versiones anteriores de SPSS. Si ciertos códigos indican valores perdidos, se debe especificarlos en IBM SPSS en caso contrario todos los valores en blanco se usan para ejecutar los cálculos. Además, se debe asignar a cada variable el tipo correcto de nivel de medición de la variable (nominal, ordinal, o escalar). Este paso es fundamental para generar los gráficos apropiados. Figura 1 Escala de medición de la variable Información disponible de la variable
  15. 16 Iconos de tipo de datos, nivel de medida y

    lista de variables Los íconos que se muestran junto a las variables en las listas de los cuadros de diálogo, proporcionan información acerca del tipo de variable y el nivel de medidas.
  16. 17 TRABAJANDO CON LAS VARIABLES EN IBM SPSS En IBM

    SPSS todos los procedimientos se invocan como menús dentro del menú Analizar. Se dispone de una gran variedad de procedimientos, nosotros empezaremos por el menú Estadísticos descriptivos. Este menú tiene un submenú con cinco opciones: Frecuencias..., Descriptivos..., Explorar..., Tablas de contingencia.... y Razón..... Descripción de datos categóricos: Obtener una distribución de frecuencias. El procedimiento frecuencias permite para cada una de las variables seleccionadas obtener la distribución de frecuencias de ellas, así como algunas medidas básicas de resumen a elegir y algunos gráficos también a elegir. El investigador dispone de la siguiente matriz de datos criminológicos y se desea indagar la variable est_matr (Estado matrimonial): Variables de la Matriz
  17. 18 Activada la secuencia de opciones, el resultado es el

    siguiente: Tabla 1. Estado matrimonial Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válido CASADO/A 665 44,3 44,3 44,3 VIUDO/A 132 8,8 8,8 53,1 DIVORCIADO/A 238 15,9 15,9 69,0 SEPARADO/A 70 4,7 4,7 73,7 NUNCA CASADO/A 395 26,3 26,3 100,0 Total 1500 100,0 100,0 El investigador puede estar interesado en examinar un gráfico de barras (porcentajes). Dado que el gráfico que se obtiene es bastante simple, se puede proceder a editarlo. Figura 2
  18. 19 Activado el modo de etiqueta de datos, se procede

    a incluir en cada barra, en este caso, el porcentaje de los casos que representa. Figura 3
  19. 20 Describir datos escalares El paso siguiente es describir los

    datos numéricos (medidos en escala de razón o intervalar). En este caso se explorará la Edad del sujeto incluyendo los estadísticos descriptivos (cuartiles, media, mediana, desviación estándar, mínimo máximo) y un histograma con una curva normal sobreimpuesta. Como se trata solamente de examinar los estadísticos descriptivos se desactiva la tabla de frecuencias. Figura 4 Desactivar tabla de frecuencias Definir estadísticos requeridos Definir gráfico (histograma) Estadísticos
  20. 21 El resultado es el siguiente: Estadístico Edad del sujeto

    N Válido 1495 Perdidos 5 Media 45,32 Mediana 43,00 Desviación típica 16,968 Mínimo 18 Máximo 89 Percentiles 25 32,00 50 43,00 75 56,00 CONVERSIÓN DE TABLAS A MATRIZ DE DATOS
  21. 22 CONVERSIÓN DE TABLAS DE CONTINGENCIA A MATRIZ DE DATOS

    Muchas veces el investigador dispone de tablas de contingencia y no de una matriz de datos. Por ejemplo: Tabla 1. Tabla de datos original Nivel Socioeconómico (NSE) Felicidad 1 2 Bajo (1) 30 10 Medio (2) 70 10 Alto (3) 30 20 El ingreso de estos datos a IBM SPSS se hace del siguiente modo: Figura 5
  22. 23 Una vez que se ha creado la matriz de

    datos, se procede a ponderarla según las frecuencias. Figura 6
  23. 24 Tabla 2. NSE * Felicidad Cuenta Felicidad Total 1

    2 NSE Bajo 30 10 40 Medio 70 10 80 Alto 30 20 50 Total 130 40 170 El procedimiento obtendrá una tabla de contingencia para cada combinación de dos variables, una de filas y otra de columnas, y si existen variables en la capa 1, dichas tablas de contingencia las obtendrá para cada categoría de cada una de estas variables; por ejemplo, si "sexo" es la única variable de la capa 1, se obtendrán las tablas de contingencia para hombres y mujeres. En general se pueden definir diferentes capas de variables, lo que da más posibilidades al procedimiento .
  24. 25 CREACIÓN DE ÍNDICES A menudo el investigador requiere crear

    índices a partir de su matriz de datos. Con los datos de variables simples se puede crear, por ejemplo, una medida de actitud hacia la política, sumando las respuestas de los sujetos en varios temas políticos individuales. Otro ejemplo clásico es averiguar el promedio educacional de los miembros de una familia. Se dispone del nivel educacional del sujeto (EDUC), de la madre (MAEDUC), del padre (PADEDUC), y de la esposa del sujeto (ESPEDUC). Para este efecto, se puede ingresar en IBM SPSS la fórmula (EDUC + MAEDUC + PAEDUC + ESPEDUC) / 4. Figura 7 Fórmula
  25. 26 Se quiere crear un índice de permivisidad sexual incluyendo

    las variables: premarsx: sexo pre-matrimonial; xmarsex: sexo con otra persona diferente a la esposa; y homosex: relaciones homosexuales. Cada uno de estos ítems fueron respondidos de la siguiente manera: 1. Siempre incorrecto 2. Casi siempre incorrecto 3. A veces incorrecto 4. De ningún modo incorrecto Dado este formato para estos tres ítems, se puede crear un índice compuesto bastante simple. Aunque los valores 1-4 usado para representar las respuestas a las preguntas son solamente etiquetas, se puede aprovechar su calidad numérica. En cada uno de estos ítems, el número más alto representa el nivel más alto de permivisidad. Si se agregan los valores de respuesta a estos tres ítems, los totales posibles estarán en el rango 3 a 12 representando 12 el nivel más alto de permisividad y 3 el nivel más bajo de permisividad sexual. Figura 8
  26. 27 Se ejecuta la opción frecuencias para ver los resultados

    del índice: Tabla 1: INDICE PERMISIVIDAD Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válido 3 104 6,9 24,2 24,2 4 19 1,3 4,4 28,6 5 37 2,5 8,6 37,2 6 82 5,5 19,1 56,3 7 9 ,6 2,1 58,4 8 11 ,7 2,6 60,9 9 36 2,4 8,4 69,3 10 24 1,6 5,6 74,9 11 22 1,5 5,1 80,0 12 86 5,7 20,0 100,0 Total 430 28,7 100,0 Perdido Sistema 1070 71,3 Total 1500 100,0
  27. 28 TABLAS DE CONTINGENCIA Y PRUEBA JI CUADRADO Esta prueba

    tiene como finalidad examinar la asociación entre variables categóricas. Encuesta Se ha elaborado una encuesta que incluye, por ejemplo, dos preguntas: una sobre el sexo del sujeto y otra sobre si profesa alguna fe religiosa. SEXO 0 HOMBRE 1 MUJER [ ] PROFESAS ALGUNA FE RELIGIOSA 0 SI 1 NO [ ] Procesamiento Se aplicó esta encuesta a una muestra piloto de 25 sujetos. Interesa cruzar ambas variables (sexo y fe) a fin de examinar si la adscripción a una fe religiosa está relacionada con el sexo de los sujetos. El test Chi-cuadrado con IBM SPSS. La comparación de proporciones, ya sea con muestras independientes o con muestras apareadas, y la asociación de caracteres cualitativos son problemas estadísticos que se resuelven con el uso del estadístico chi-cuadrado; el procedimiento de IBM SPSS dedicado a tal estadístico se presenta más abajo.
  28. 29 Cuando se activa sobre el botón Estadísticos.... se despliega

    una ventana con muchas alternativas que, marcándolas, nos permitirán el cálculo de estadísticos o medidas aplicables a diferentes situaciones. Aquí sólo comentaremos algunas de ellas. La primera, Chi-cuadrado, nos calcula estadísticos del tipo chi-cuadrado (entre ellos, el chi- cuadrado de Pearson para una tabla de contingencia) y hace el test de Fisher en el caso de tablas 2×2. La opción Coeficiente de Contingencia nos calcula dicho coeficiente en cualquier tabla de contingencia. La opción Riesgo nos permite obtener medidas de asociación en tablas 2×2: razón del producto cruzado y riesgo relativo. Finalmente la opción McNemar lleva a cabo el test de McNemar para comparar dos proporciones con muestras apareadas (caso de una tabla 2×2). Al pulsar el botón Casillas... nos aparece una ventana donde, marcando las opciones correspondientes, podemos calcular y escribir en cada casilla de la tabla: las frecuencias observadas, las frecuencias esperadas, los porcentajes por filas, los porcentajes por columnas, los porcentajes respecto al total, los residuos no tipificados (diferencia entre frecuencias observadas y esperadas) y otros residuos que no veremos aquí. Por último, la opción Formato... permite presentar las filas de la tabla en orden ascendente o descendente. Elegidas todas las opciones y activando Aceptar se llevará a cabo el análisis solicitado. Figura 9 Variables para el análisis
  29. 31 La lectura de la tabla de resultados indica que

    ambas variables no están relacionadas. Se evalúa la asociación de ambas variables, desde una perspectiva probabilística, mediante la aplicación de la prueba ji cuadrado. En la tabla 1, aparecen las frecuencias observadas y los porcentajes de cada una de ellas. Tabla 1: Tabla de Contingencia Tabla de contingencia fe * sexo sexo Total hombre mujer fe sí Cuenta 5 4 9 % del Total 20,0% 16,0% 36,0% no Cuenta 8 8 16 % del Total 32,0% 32,0% 64,0% Total Cuenta 13 12 25 % del Total 52,0% 48,0% 100,0%
  30. 32 En la tabla 2, se puede observar que el

    programa efectúa automáticamente la prueba ji cuadrado con la corrección de Yates. Esta se aconseja cuando el cálculo del estadístico se realiza con una tabla 2x2 y al menos una frecuencia esperada es inferior a cinco. El resultado indica el número de celdas con frecuencias esperadas inferiores a cinco. En la parte inferior de la tabla se indica: 2 celdas (50,0%) tienen valores esperados menores que 5. El valor mínimo esperado es 4,32. Esto es, dos de cuatro celdas tienen frecuencias esperadas inferiores a cinco. Y por lo cual, el programa aplica la corrección de Yates. El valor del estadístico de contraste corregido figura en la fila: Chi cuadrado de Pearson que es igual a 0,071. El grado de significación asociado a este valor es 0,79. Este último valor indica la probabilidad que exista en la población una diferencia entre frecuencias observadas y esperadas. El valor del grado de significación obtenido indica que la hipótesis nula es un suceso cierto. Esto es, hay diferencias entre las frecuencias observadas y esperadas. En una prueba de Ji cuadrado las frecuencias esperadas son los valores que deben suceder si las dos variables son independientes. En este caso se verifica que frecuencias observadas y esperadas tienen los mismos valores, por ende, ambas variables son independientes. Es decir, existe independencia entre sexo y fe, dicho de otro modo, no hay diferencia de comportamiento entre hombres y mujeres respecto de la fe religiosa. Las diferencias se pueden explicar por el componente de azar inherente a los procedimientos de muestreo. Se trata de diferencias estadísticamente no significativas. La conclusión sería que en la población la frecuencia de creyentes y no creyente sería la misma en ambos sexos
  31. 33 Tabla 2. Estadístico Ji Cuadrado Valor gl Valor gl

    Sig. asint. (bilateral) Chi-cuadrado de Pearson ,071a 1 ,790 Razón de verosimilitud ,071 1 ,789 Asociación lineal por lineal ,068 1 ,794 N de casos válidos 25
  32. 34 DIFERENCIA DE MEDIAS Los análisis comparativos se usan frecuentemente

    en ciencias sociales y dentro de ellos, el de comparación de dos medias. En este apartado nos dedicaremos a explicar cómo se puede hacer el test de comparación de dos medias con muestra independientes y con muestras apareadas, suponiendo las variables aleatorias Normales y sin necesidad de suponerlo. Un experimento en modelos de agresión En un estudio de los efectos de los modelos de adultos en el desarrollo de la agresión, se evaluó la agresión en dos grupos de niños después de ver la conducta de un adulto agresivo y un adulto neutro. Agresivo 10 11 20 15 2 5 16 8 18 16 Neutral 9 9 12 8 10 2 7 10 11 9 La pregunta investigativa es: ¿estos resultados apoyan la idea que los modelos de roles agresivos promueven la conducta agresiva? Activado PASW se preparan los datos. Se crean dos variables, una la variable independiente (grupo agresivo y grupo neutral) y otra la variable dependiente (puntaje en agresión). El investigador arbitrariamente asigna los nombres a ambas variables. En
  33. 35 este caso “Condicion” y PuntAgresion. Esto se realiza en

    Vista de Variables (editor).Además se definen las etiquetas de cada variable y en Valores se asigna el código “1” al grupo “neutral” y el código “2” al grupo “agresivo”. En este punto de desarrollo del procesamiento se recomienda guardar lo realizado usando Archivo Guardar como…
  34. 36 Calcular las medias y desviaciones estándar para ambos grupos

    Con este tipo de datos, lo primero que realiza el investigador es la estadística descriptiva de las variables en estudio (independiente: grupo y dependiente: puntaje en agresión). Se procede a calcular la estadística descriptiva de ambos grupos. Figura 1 Variables Independiente Variable dependiente Grupo Neutral Grupo Agresivo Definición de los grupos
  35. 37  ¿Qué grupo tiene la media más alta? 

    ¿Cómo se compara la diferencia de las medias al considerar las desviaciones estándar de los puntajes de ambos grupos? Tabla 1. Estadísticos descriptivos Puntaje en agresión Conducta adulta Mean N Std. Deviation Neutral 12,10 10 5,877 Agresivo 8,70 10 2,751 Total 10,40 20 4,795 Figura 2
  36. 38 TEST DE NORMALIDAD Verificar la normalidad de una distribución

    Una distribución normal es una distribución estadística en la que los datos se representan gráficamente por una curva simétrica tipo campana, con las frecuencias más altas en el medio y las frecuencias más pequeñas hacia los extremos. Verificar la normalidad de una distribución de una variable es muy importante porque muchas pruebas estadísticas requieren normalidad como pre-requisito. Hay varias maneras mediantes las cuales se puede usar IBM SPSS para evaluar la normalidad de una distribución:  El método más simple es producir un histograma. Se observa su simetría y la punta del histograma. Una distribución normal sería representada por una curva tipo campana.  Otro método es producir los gráficos de probabilidad normal. Para que la distribución sea normal, el gráfico debería mostrar una relación lineal  Se puede usar la prueba Kolmogorov-Smirnov si la muestra es superior a 50 o la prueba de Shapiro-Wilk si el tamaño de la muestra es inferior a 50. La convención indica que un valor de significación superior a 0,05 indica normalidad de la distribución. El procedimiento Explorar genera estadísticos de resumen y representaciones gráficas, bien para todos los casos o bien de forma separada para grupos de casos. Existen numerosas razones para utilizar este procedimiento: para inspeccionar los datos, identificar valores atípicos, obtener descripciones, comprobar supuestos y caracterizar
  37. 39 diferencias entre subpoblaciones (grupos de casos). La inspección de

    los datos puede mostrar que existen valores inusuales, valores extremos, discontinuidades en los datos u otras peculiaridades. La exploración de los datos puede ayudar a determinar si son adecuadas las técnicas estadísticas que está teniendo en consideración para el análisis de los datos. La exploración puede indicar que se necesita transformar los datos si la técnica necesita una distribución normal, o bien que el investigador debe utilizar pruebas no paramétricas. Si se activa el botón Estadísticos... se abre una nueva ventana donde podemos marcar diferentes opciones sobre los estadísticos que queramos calcular (siempre que la variable aluda a una cantidad). Comentemos sólo la opción Descriptivos, que nos permite (además del cálculo de la media, mediana, desviación típica y otras medidas) obtener un intervalo de confianza para la media, con una confianza que podemos especificar. Con el botón Gráficos... aparece una nueva ventana donde podemos elegir el tipo de gráfico exploratorio que deseamos. Mencionemos aquí sólo la opción Gráficos con prueba de normalidad. Si la marcamos, realiza tests de normalidad (el de Kolmogorov-Smirnov y el de Shapiro-Wilk, este último sólo si el tamaño de muestra no excede de 50) y gráficos de normalidad. Finalmente, el botón Opciones... hace desplegar una ventana con tres opciones relativas al manejo de los datos faltantes. Variable a analizar
  38. 41 Los resultados de la prueba de normalidad Se requiere

    verificar en la tabla de la pruebas de normalidad el valor de la columna Sig. En general, los valores menores o iguales a 0,05 se considera buenas evidencias de que los datos no están distribuidos normalmente. IBM SPSS produce dos valores de Sig. El primero para la prueba Kolmogorov-Smirnov, y el segundo para la prueba de Shapiro- Wilk. En este caso, se usa el Segundo dato el tamaño de la muestra (n < 50). Se puede concluir que la variable ingresos no está distribuida normalmente. Tabla 1. Estadísticos descriptivos Descriptivos Statistic Std. Error ingreso Media 273,00 28,875 Intervalo de confianza de la media al 95% Límite inferior 213,41 Límite superior 332,59 Media recortada al 5% 261,61 Mediana 210,00 Varianza 20843,750 Desv. Típ. 144,374 Mínimo 105 Máximo 670 Rango 565
  39. 42 Amplitud intercuartil 168 Asimetría 1,239 ,464 Curtosis 1,127 ,902

    Tabla 2. Prueba de normalidad Tests de Normalidad Kolmogorov-Smirnova Shapiro-Wilk Estadístico gl Sig. Estadístico gl Sig. ingreso ,217 25 ,004 ,867 25 ,004 a. Lilliefors Significance Correction Histograma y gráficos de probabilidad Los resultados anteriores se confirman con el histograma y el gráfico de probabilidad normal. El histograma no presenta una distribución simétrica. Tiene una cola larga hacia la derecha. El gráfico Normal Q-Q plot no muestra una relación lineal entre los valores observados y los valores esperados de una distribución normal. En una distribución, estos valores deberían caer más o menos en una línea recta. Gráfico 1
  40. 44 CORRELACION DE PEARSON Esta prueba estadística (r de Pearson)

    es una de las más ampliamente usadas (y abusadas) en los análisis estadísticos. A pesar de su aparente simplicidad y versatilidad, es bastante fácil hacer una mala interpretación de una correlación. En esta sección se muestra cómo usar este tipo de análisis en IBM SPSS para obtener las correlaciones, pero además se muestra cómo un valor r puede a veces conducir a una mala interpretación. El problema de si dos caracteres cuantitativos están asociados o no tiene, al menos, dos facetas: saber si están relacionados y conocer la forma de la relación, lo que nos permitiría predecir una variable en función de la otra. En este apartado se estudiará la correlación lineal simple. Un matriz de datos La siguiente matriz de datos involucra el análisis de cuatro grupos de datos pareados construidos a partir de un estudio de Anscombe (1973)8, cuyo propósito fue destacar ciertos puntos sobre las correlaciones. Anscombe (1973) publicó con datos ficticios cuatro diagramas de dispersión muy distintos pero que corresponden a un idéntico coeficiente de correlación de .82; estos diagramas son muy ilustrativos y los reproducen con su explicación algunos autores (por 8 ANSCOMBE F.J. (1973). Graphs in Statistical Analysis. American Statistician, 27 (Feb 1973), 17- 21.
  41. 45 ejemplo Fox; 1993:2469 y Etxcheberria, 1999:4910) y también podemos

    encontrarlos en Internet (Dallal, 200111). Tabla 1. Grupos de datos de Anscombe Participante X1 Y1 Y2 Y3 X2 Y4 1 10.0 8.04 9.14 7.46 8.0 6.58 2 8.0 6.95 8.14 6.77 8.0 5.76 3 13.0 7.58 8.74 12.74 8.0 7.71 4 9.0 8.81 8.77 7.11 8.0 8.84 5 11.0 8.33 9.26 7.81 8.0 8.47 6 14.0 9.96 8.10 8.84 8.0 7.04 7 6.0 7.24 6.13 6.08 8.0 5.25 8 4.0 4.26 3.10 5.39 19.0 12.50 9 12.0 10.84 9.13 8.15 8.0 5.56 10 7.0 4.82 7.26 6.42 8.0 7.91 11 5.0 5.68 4.74 5.73 8.0 6.89 Cada grupo de datos arroja el mismo valor para la correlación de Pearson. Los diagramas de dispersión, no obstante, muestran que solamente en un caso los datos son apropiados para la correlación de Pearson; en los otros, la correlación de Pearson arroja una impresión inapropiada de la relación entre las dos variables. Idealmente el diagrama de dispersión indica una relación lineal entre las variables, esto es, que todos los puntos en el diagrama de dispersión deberían caer a lo largo o cerca de la línea recta diagonal. Las líneas verticales u horizontales no son ejemplos de relaciones lineales; no obstante, la correlación de Pearson no se define 9 FOX, JOHN (1993). Regression diagnostics: An Introduction. En LEWIS-BECK, MICHAEL S. (Ed.). Regression Analysis. International Handbooks of Quantitative Applications in the Social Sciences, Volume 2. London: SAGE Publications, 245-334. 10 ETXCHEBERRIA, JUAN (1999). Regresión múltiple. Madrid: La Muralla. 11 DALLAL, GERARD E. (last revision 2001). The Little Handbook of Statistical Practice (en Frank Anscombe's Regression Examples http://www.StatisticalPractice.com) (consultado 05, 09, 2010)
  42. 46 cuando los grupos de datos comprenden solamente un valor

    de una variable en combinación con varios valores de otra. Los datos se presentan en la tabla1. Se examinarán los cuatro grupos de variables, esto es, X1 con cada una de las variables Y1, Y2, e Y3, y finalmente la variable X2 con la variable Y4. Exploración de los datos En todo problema de regresión y correlación, el primer paso consiste en dibujar la nube de puntos, con objeto de detectar posibles no-linealidades en la relación o alguna otra falla en las hipótesis del modelo de regresión lineal. Por ello, en primer lugar, veremos el procedimiento que permite dibujar nubes de puntos, que IBM SPSS denomina Diagrama de Dispersión. Se desea explorar las variables Y1, Y2 en relación con la variable X1, y la variable Y4 en relación con la variable X2. Figura 1 Orden del ingreso de las variables
  43. 47 Se requieren dos diagramas de dispersión, uno basado en

    una matriz (X1, Y2,Y2,Y3) y otro diagrama de dispersión simple (X2 e Y4). En la matriz se transfieren las variables a la matriz. El orden de las variables debe ser X1, Y1,Y2 e Y3 de izquierda a derecha. ¿Qué se observa en los diagramas de dispersión de la primera columna que es la que nos interesa? ¿Cuál es apropiado para el cálculo de la correlación de Pearson? Se requiere describir lo que está incorrecto en cada uno de los otros. Ahora, generar el diagrama de dispersión simple: la variable Y4 en Gráfico 2
  44. 48 relación con la variable X2. El diagrama de Y1

    en relación con X1 muestra una relación lineal substancial entre las variables. El grosos de la elipse imaginaria de puntos indica que la correlación de Pearson es probable que sea alta. Los otros diagramas son bastante diferentes: Y2 respecto de X1 muestra una relación perfecta, pero claramente no lineal; Y3 respecto de X1 muestra básicamente una relación lineal, pero es destacable el valor atípico (outlier); Y4 respecto de X2 muestra una columna de puntos con un valor atípico (outlier) en la parte superior rincón derecho. Gráfico 3
  45. 49 Tabla 2. Correlaciones: X1, Y1, Y2, Y2 Correlaciones X1

    Y1 Y2 Y3 X1 Correlación de Pearson 1 ,612* ,816** ,816** Sig. (bilateral) ,045 ,002 ,002 N 11 11 11 11 Y1 Correlación de Pearson ,612* 1 ,561 ,309 Sig. (bilateral) ,045 ,072 ,355 N 11 11 11 11 Y2 Correlación de Pearson ,816** ,561 1 ,588 Sig. (bilateral) ,002 ,072 ,057 N 11 11 11 11 Y3 Correlación de Pearson ,816** ,309 ,588 1 Sig. (bilateral) ,002 ,355 ,057 N 11 11 11 11 *. Correlación es significativa al nivel 0.05 (bilateral). **. Correlación es significativa al nivel 0.01 (bilateral). Tabla 3. Correlaciones: X2, Y4 Correlaciones X2 Y4 X2 Correlación de Pearson 1 ,817** Sig. (bilateral) ,002
  46. 50 N 11 11 Y4 Correlación de Pearson ,817** 1

    Sig. (bilateral) ,002 N 11 11 **. Correlación es significativa al nivel 0.01 (bilateral). El Coeficiente de Correlación (sea o no paramétrico) es un valor adimensional que oscila entre -1 y +1. El valor cero se da cuando no existe ninguna correlación entre las variables analizadas; el valor -1 implica una correlación perfecta de carácter inverso (o indirecto) y el valor +1 una correlación perfecta de tipo directo (cuando una crece también lo hace la otra). Correlaciones de Pearson para los cuatro diagramas de dispersión Se ejecuta el procedimiento para el cálculo de las correlaciones r de Pearson entre los X1, Y1, Y2, e Y3; y en seguida para X2 e Y4. ¿Qué se observa respecto del valor de r para cada una de las correlaciones? Los datos de Anscombe revelan la necesidad de inspeccionar cuidadosamente para establecer la propiedad de estadísticos como la correlación de Pearson. Remover los valores atípicos (outliers) El investigador puede recalcular las correlaciones de Pearson para los grupos de datos (X1, Y3) cuando los valores para el Participante 3 se remueven. El valor atípico (outlier) es 12,74 en la variable Y3. Se activa seleccionar casos y se seleccionan todos salvo el participante 3. Se regresa a Diagrama de Dispersión y Correlaciones Bivariadas, se incluye X1 e Y3 (se ignora las otras variables). Se ejecuta el proceso con los casos seleccionados. Se verifica el listado, ahora se incluyen solamente 10 casos y no 11. El investigador podrá comprobar que la correlación de Pearson para X1 e Y3 es ahora +1, que es lo que se esperaría de la apariencia del diagrama de dispersión.
  47. 51 Tabla 4. Correlaciones: X1, Y3 Correlations X1 Y3 X1

    Correlación de Pearson 1 1,000** Sig. (bilateral) ,000 N 10 10 Y3 Correlación de Pearson 1,000** 1 Sig. (bilateral) ,000 N 10 10 **. Correlación es significativa al nivel 0.01 (bilateral). Esta guía ha demostrado el valor de explorar los datos antes de calcular estadístico como la correlación de Pearson. Ante nada mirar los datos críticamente: – Si el ojo no ve nada, cálculo es pérdida de tiempo – “Regla del pulgar” . Gráfico 4
  48. 52 Regresión simple con dos variables Si bien las nubes

    de puntos representan un gráfico esencial para los estudios de la relación entre caracteres cuantitativos, los estudios que son concluyentes para determinar si existe relación entre las variables, son los de regresión y/o correlación. En este apartado se estudiará la regresión lineal simple. En el ejercicio sobre la correlación r de Pearson se hizo referencia a los datos propuestos por Anscombe. Las columnas se denominaron X1, X2, Y1, Y2, Y3, Y4. Se indicó que un problema con la correlación de Pearson es que es muy vulnerable a los datos atípicos. Esto es igualmente válido al momento de analizar la ecuación de regresión simple. Ejecución del procedimiento de regresión simple Supongamos la existencia de dos variables x, y de manera que se obtienen 10 observaciones durante un proceso de investigación. Los resultados obtenidos se muestran a continuación. Para realizar el análisis, construimos inicialmente un diagrama de dispersión para los datos observados, de manera que cada par de observaciones son presentadas como un punto de la forma (x, y) dentro de un plano coordenado de dos dimensiones. El gráfico
  49. 53 1 nos muestra la distribución de los valores hipotéticos

    de y correspondientes al conjunto de valores dados o fijos de x. Como se puede observar en la gráfica, pareciera existir una relación directa de la variable y con respecto a la variable x en el sentido de que conforme x aumenta, la variable y también aumenta. El modelo de regresión lineal simple en IBM SPSS El análisis de regresión trata del estudio de la dependencia de una variable respecto a una o más variables con el objetivo de predecir o estimar la media poblacional de la primera en términos de los valores conocidos de las otras. Gráfico 1: Gráfica de dispersión para los datos del ejemplo
  50. 54 La siguiente ventana muestra el cuadro de diálogo Regresión

    Lineal. Seguidamente identifique la variable dependiente y la independiente y trasládelas a los cuadros respectivos. Figura 1
  51. 55 El botón Estadísticos... sirve para solicitar resultados estadísticos opcionales.

    Al pulsarlo se nos muestra una tabla con muchas opciones que podemos marcar, entre ellas: Estimaciones (calcula los coeficientes de la recta de regresión), Intervalos de confianza (para los coeficientes de la recta, al 95% de confianza) y Descriptivos (calcula media y desviación típica para las variables y el coeficiente de correlación lineal entre ambas con su prueba de significación). El botón Gráficos solicita gráficos opcionales, que no veremos en esta guía manual. El botón Guardar permite guardar las predicciones, los residuos y medidas relacionadas, como nuevas variables que se añaden al archivo de datos de trabajo. Tabla 1. Resumen del modelo Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación 1 ,859a ,739 ,706 ,7145 a. Predictors: (Constant), x Figura 2 Variables
  52. 56 La primera información que aparece corresponde al resumen del

    modelo y en ella se muestran el coeficiente de correlación R y el coeficiente de determinación 2 R . El valor R = 0,859 indica que existe una relación lineal directa y relativamente fuerte entre las variables. Como bien sabemos, hasta este momento sólo podemos hablar de relación y de grado de relación y no podemos afirmar causalidad. El valor R2 = 0, 739 nos indica que el 73,9% de la variabilidad de la variable y es explicada por el modelo de regresión que se está estimando. Tabla 2. ANOVA (b) ANOVAb Model Suma de los cuadrados gl Media cuadrática F Sig. 1 Regresión 11,539 1 11,539 22,598 ,001a Residual 4,085 8 ,511 Total 15,624 9 a. Predictoras: (Constante), x b. Variable dependiente: y La tabla del ANOVA presenta información sobre la existencia o no de relación significativa entre la variable dependiente y la independiente. La prueba F permite evaluar la hipótesis nula de que el valor R poblacional es cero (R = 0), equivalente a decir que la pendiente de la recta de regresión es igual a cero. El nivel de significancia Sig. = 001 indica que no existen evidencias significativas, al nivel del 5%, para afirmar que R = 0, o de la misma manera que la pendiente de la recta de regresión es 0 y, en consecuencia, puede asumirse que las variables en estudio están linealmente relacionadas.
  53. 57 Tabla 3. Coeficientes(a) Coeficientesa Modelo Coeficientes no estandarizados Coeficientes

    estandarizados t Sig. B Error típico Beta 1 (Constante) 6,669 ,494 13,489 ,000 x ,060 ,013 ,859 4,754 ,001 a. Variable dependiente: y La tabla anterior muestra los coeficientes de la recta de regresión. La columna de coeficientes no estandarizados presenta los coeficientes de regresión que definen la recta de regresión en puntuaciones directas. En dicha tabla se observa la constante de regresión y el coeficiente no estandarizado correspondiente a x que representa la pendiente de la recta de regresión ( 1 ˆ a ). Recordemos que 1 ˆ a expresa el cambio medio que experimenta la variable dependiente (y) por cada unidad de cambio de la variable independiente (x). En este sentido, por cada unidad que varíe x, la variable y varía en aproximadamente 0,060 unidades. Como bien se ilustró anteriormente, la ecuación de regresión estimada se expresa como y = 6, 669 + 0, 05955x .
  54. 58 Los coeficientes estandarizados que se muestran en la tabla,

    son aquellos que definen la ecuación de regresión una vez estandarizadas las variables originales. En regresión simple, sólo aparece el coeficiente estandarizado correspondiente a x (única variable independiente en el modelo) y éste coincide con el coeficiente de correlación de Pearson. Por otro lado, los estadísticos t y su nivel crítico sig. permiten evaluar la hipótesis nula de que los coeficientes de regresión de la población son iguales a cero. Según la tabla 3, los datos muestrales indican que no existen evidencias significativas, al nivel del 5%, para afirmar que los coeficientes de regresión de la población son iguales a cero. Como en el análisis de regresión simple sólo se trabaja con una variable independiente, el cuadrado del valor del estadístico t es equivalente al valor del estadístico F de la tabla ANOVA (Tabla 2). No olvidemos que en regresión simple 2 t = F . Retomando el resultado de los estadísticos t, no existen evidencias significativas para afirmar que la pendiente de regresión poblacional es igual a cero, por lo que se puede afirmar que las variables estudiadas (x, y) presentan una relación lineal significativa. Es importante señalar que la significancia o no que presente la constante de regresión pierde relevancia en la determinación de la relación que puedan presentar las variables del estudio ya que, este coeficiente no proporciona información sobre ello; sin embargo, debe ponerse mucha atención si su valor es cero pues esto puede provocar que el coeficiente R2 del modelo sea negativo.
  55. 59 Regresión lineal múltiple El Análisis de Regresión Lineal Múltiple

    nos permite establecer la relación que se produce entre una variable dependiente Y y un conjunto de variables independientes (X1, X2, ... XK). El análisis de regresión lineal múltiple, a diferencia del simple, se aproxima más a situaciones de análisis real puesto que los fenómenos, hechos y procesos sociales, por definición, son complejos y, en consecuencia, deben ser explicados en la medida de lo posible por la serie de variables que, directa e indirectamente, participan en su concreción. Al aplicar el análisis de regresión múltiple lo más frecuente es que tanto la variable dependiente como las independientes sean variables continuas medidas en escala de intervalo o razón. No obstante, caben otras posibilidades: (1) también podremos aplicar este análisis cuando relacionemos una variable dependiente continua con un conjunto de variables categóricas; (2) o bien, también aplicaremos el análisis de regresión lineal múltiple en el caso de que relacionemos una variable dependiente nominal con un conjunto de variables continuas. La regresión lineal múltiple es una extensión del modelo de regresión lineal simple. Este modelo permite estudiar la influencia sobre la variable dependiente de dos o más variables independientes. Los coeficientes de regresión parcial indican el cambio que se produce en la variable dependiente cuando una de las variables independientes varía una unidad, permaneciendo constantes las otras variables independientes. Para evaluar la contribución de las variables independientes a la ecuación de la recta se utilizan los coeficientes de regresión parcial estandarizados o coeficientes beta. Una segunda manera para evaluar la importancia relativa de una variable independiente es considerar el incremento del coeficiente de determinación producido al ingresar una nueva variable a la ecuación.
  56. 60 En el análisis de regresión múltiple, los estadísticos, pruebas

    y análisis que se aplican para determinar la relación y grado de asociación entre una variable dependiente y sus supuestas variables explicativas, así como la estimación de los parámetros de la ecuación, no difieren de los determinados en el análisis de regresión simple. De hecho, una parte del análisis de regresión bivariado se realiza aplicando el cuadro de diálogo específico del análisis de regresión múltiple. La diferencia estriba, pues, en que mientras en el análisis de regresión simple al contar exclusivamente con la relación de un par de variables el proceso se resolvía en un solo paso; en el análisis de regresión múltiple es necesario calcular estadísticos, pruebas y análisis a medida que vamos introduciendo y/o sacando variables independientes en el modelo. En el análisis de regresión lineal múltiple la construcción de su correspondiente ecuación se realiza seleccionando las variables una a una, “paso a paso”. La finalidad perseguida es buscar de entre todas las posibles variables explicativas aquellas que más y mejor expliquen a la variable dependiente sin que ninguna de ellas sea combinación lineal de las restantes. Este procedimiento implica que: (1) en cada paso solo se introduce aquella variable que cumple unos criterios de entrada; (2) una vez introducida, en cada paso se valora si alguna de las variables cumplen criterios de salida; y (3), en cada paso se valora la bondad de ajuste de los datos al modelo de regresión lineal y se calculan los parámetros del modelo verificado en dicho paso. El proceso se inicia sin ninguna variable independiente en la ecuación de regresión y el proceso concluye cuando no queda ninguna variable fuera de la ecuación que satisfaga el criterio de selección (garantiza que las variables seleccionadas son significativas) y/o el criterio de eliminación (garantizar que una variable seleccionada no es redundante). En cada paso, en el que se introduce o elimina una variable, se obtienen los estadísticos de bondad de ajuste (R, R2, R2 corregido, error típico de la estimación), el análisis de varianza y la estimación de parámetros considerando las variables introduci- das. IBM SPSS ofrece dos tablas con esta información: en la primera resume los estadísticos de bondad de ajuste y en la segunda nos presenta el análisis de varianza. En ellas se comparan los resultados obtenidos para cada una de las ecuaciones o modelo obtenidos con la secuencia de pasos utilizados. En nuestro ejemplo, y dado que dos han sido las variables incluidas en la ecuación, dos han sido los pasos, dos son los modelos definidos: el primero sólo incluye una variable explicativa, mientras que el segundo utiliza las dos variables independientes.
  57. 61 Matriz de datos En la figura se presenta una

    vista parcial de la matriz de datos (n=25) proveniente de una encuesta aplicada a alumnos universitarios. La regresión lineal múltiple permitirá predecir si el nivel de ingreso depende de los años de estudio y la clase social de pertenencia. Figura 1 Variables para el análisis
  58. 62 CONSTRATES SOBRE MEDIAS El este caso se incluyen dos

    variables independientes: estudios y clase social y una variable dependiente: ingresos. Figura 2 Figura 2 Variables para el análisis
  59. 63 El método “pasos sucesivos” que es el más usual

    y que va seleccionando variables por etapas. El proceso se inicia incorporando a la ecuación la variable independiente con más alta correlación con la variable dependiente. En cada etapa se introduce o elimina una variable. El proceso concluye cuando no queda ninguna variable fuera de la ecuación que cumpla el requisito de selección, ni ninguna variable en la ecuación que satisfaga las exigencias de eliminación. En términos de resultados, el primero consiste en una regresión lineal simple. Solamente una variable ingresa a la ecuación de regresión. En este caso, la variable seleccionada ha sido “clase social”. El valor R es el coeficiente de correlación de Pearson de ingreso con clase social. El valor R al cuadrado corresponde al coeficiente de determinación e indica el porcentaje de la varianza de ingreso explicada por clase social. En este caso el valor resultante es 0,594, en consecuencia, la clase social de pertenencia explica el 59,4% de la variación de los ingresos.
  60. 64 Tabla 1. Resumen del modelo Modelo R R al

    cuadrado R al cuadrado corregida e Error típico de la estimación 1 ,771a ,594 ,577 93,946 a. Predictoras: (Constante), clase_so La siguiente sección de resultados está dedicada al análisis de varianza. La interpretación sigue las orientaciones dadas en el análisis de regresión simple. El valor estadístico de F es 33,681 y el grado de significación es inferior al nivel de significación convencional 0,05. Tabla 2. ANOVA ANOVAb Model Suma de los cuadrados gl Media cuadrática F Sig. 1 Regression 297257,143 1 297257,143 33,681 ,000a Residual 202992,857 23 8825,776 Total 500250,000 24 a. Predictoras: (Constante), clase_so b. Variable dependiente: ingreso Finalmente, se entregan los coeficientes del modelo y de la aplicación de la prueba t Student para examinar la significación de éstos. La segunda variable incorporada al modelo es años de estudio, pero es excluida de éste. Tabla 3. Coeficientes Coefficientsa Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) -18,429 53,616 -,344 ,734 clase_so 145,714 25,108 ,771 5,803 ,000 a. Dependent Variable: ingreso
  61. 65 Variables excluidas a Modelo Beta dentro t Sig. Correlación

    parcial Estadístico de colinealidad Tolerancia 1 estudios ,021a ,128 ,900 ,027 ,657 a. Predictoras en el Modelo: (Constante), clase_so b. Variable dependiente: ingreso Los coeficientes betas permiten establecer la contribución relativa de cada variable independiente al modelo de regresión. Se verifica que el efecto relativo de la clase social sobre la variable dependiente es el fundamental y no así el efecto relativo de los estudios.
  62. 66 PRUEBA t STUDENT Cuando se desea comprobar si los

    valores de una característica que es posible cuantificar (como podría ser la edad, los puntajes en una prueba entre otras) difieren al agruparlas en dos o más grupos (por ejemplo según género, o por diagnóstico cognitivo) hablaremos de comparación de medias. La comparación de medias en un sentido más general, abarca la comparación de los valores de una variable continua según los valores de una variable (o factor) que se puede resumir en dos o más categorías y que englobaríamos dentro de las pruebas para datos independientes, así como la comparación de los valores de una variable continua evaluada en dos o más momentos en el tiempo (por ejemplo comparar si hay diferencias entre la adherencia al tratamiento en un momento X y en otro momento Y) y que englobaríamos dentro de las pruebas para datos apareados. Los procedimientos incluidos en el menú Comparar medias permiten el cálculo de medias y otros estadísticos, así como la comparación de medias para diferentes tipos de variables, mediante las pruebas t de Student y ANOVA. Esta prueba permite comparar dos medias en muestras de datos apareados o independientes. Esta prueba estadística examina desde una perspectiva probabilística si la diferencia de medias es significativa. Datos apareados La base de las pruebas para la comparación de medias apareadas consiste en analizar las diferencias entre las observaciones de un mismo individuo. Suponiendo que la
  63. 67 variable aleatoria que define la diferencia entre dos observaciones

    registradas en un mismo individuo (modelo antes-después) fuera una variable aleatoria que se distribuyera normalmente, y queremos contrastar la hipótesis de que se produjo un efecto entre ambas observaciones (cambio). En el caso de resultar cierta, el estadístico de contraste que utilizaríamos se distribuiría según la ley de probabilidad de la t de Student, por lo que la prueba que resultaría más adecuada sería la prueba paramétrica de la t de Student para muestras relacionadas. Se ha aplicado dos métodos de enseñanza estadística (método tradicional y método basado en software). Se forman dos grupos de sujetos a los que se aplica uno u otro método. Los dos grupos se aparean respecto del nivel cultural para eliminar su influencia en el aprendizaje de la estadística. Tabla 1. Matriz de datos Método tradicional Método basado en software 3 5 4 4 2 4 2 6 4 6 1 4 2 6 4 5 5 5 2 5 3 6 1 5 4 5 3 7 2 3 3 3 4 6 3 5 4 6 4 4
  64. 68 Los primeros resultados son los estadísticos descriptivos. Se puede

    observar que el método tradicional tiene una media de 3 y una desviación típica de 1,124. En cambio respecto del método basado en software, la media es igual a 5 y la desviación típica igual a 1,076. Se observa una mayor heterogeneidad respecto del método tradicional. Tabla 2. Estadísticos descriptivos Estadística muestras relacionadas Media N Desv. Típica Error típico de la media Par 1 Tradicional 3,00 20 1,124 ,251 Software 5,00 20 1,076 ,241 En seguida, se obtiene el coeficiente de correlación de Pearson y su significación. Los valores son 0,174 y 0,463. El grado de significación indica que este coeficiente es significativamente distinto de cero. La probabilidad de encontrar en una muestra un coeficiente de 0,174, cuando la relación entre las variables es nula en la población es 0,463. Figura 1
  65. 69 Tabla 3. Correlación r de Pearson Correlaciones muestras relacionadas

    N Correlación Sig. Par 1 Tradicional & Software 20 ,174 ,463 Finalmente, se obtiene el valor del estadístico de contraste t. El valor es -6,32. El grado de significación asociado a este valor es 0,000. El sistema redondea de modo que un valor inferior a 0,0005 se muestra como 0,000. El valor obtenido indica que la probabilidad que se obtenga en una muestra un valor de -2, cuando en la población no hay diferencias, es menor quen 0,0005. Dada esta probabilidad baja se concluye que es altamente probable que la diferencia -2 se deba a distinta eficacia de los métodos. Tabla 4. T Student Prueba de muestras relacionadas Diferencias relacionadas t df Sig. (bilateral) Media Desviación típ. Error típ. De la media 95% interval de confianza para la diferencia Inferior Superior Par 1 Tradicional - Software -2,000 1,414 ,316 -2,662 -1,338 -6,325 19 ,000 Datos independientes Existen varias pruebas estadísticas que permiten comparar las medias de una variable continua entre dos o más grupos. Cada una de estas pruebas ha sido diseñada
  66. 70 para poder ser aplicada cuando se cumplen una serie

    de supuestos necesarios, bajo diferentes condiciones de aplicación. Prácticamente todas las hipótesis que podamos plantear (como comparar las medias de una característica entre dos grupos) se pueden analizar bajo una base paramétrica o una base no paramétrica. La decisión de cuándo aplicar una prueba correspondiente a cada uno de estos grupos, depende básicamente de las características inherentes a la variable que deseamos analizar. En general, las pruebas paramétricas son más potentes que las pruebas no paramétricas, pero exigen que se cumplan una serie de supuestos como la normalidad en la distribución de la variable, la homocedasticidad (igualdad de varianzas) y la independencia de las observaciones, requiriendo algunas pruebas que se cumplan todo el conjunto de supuestos o alguno de ellos, dependiendo de la prueba a utilizar, sin los cuales, estas pruebas pierden todo su potencial y resulta imprescindible recurrir a sus homólogas no paramétricas. Exceptuando algunas pruebas que exigen más sofisticación y complejidad de las que las pruebas no paramétricas pueden ofrecer, casi todas las pruebas disponibles bajo una base paramétrica, disponen de una homóloga o equivalente bajo una base no paramétrica. Recurriremos a la encuesta referida anteriormente.
  67. 72 Cuando tengamos que evaluar la asociación entre una variable

    categórica (o nominal) y una variable cuantitativa, el procedimiento es analizar y comparar las medias de la distribución de la variable cuantitativa en cada uno de los grupos que conforma la variable categórica. Si la variable cualitativa sólo tiene dos categorías (por ejemplo, la variable sexo) el procedimiento se reduce a comparar las medias de la variable cuantitativa en esos dos grupos (hombres y mujeres en el ejemplo). El contraste de hipótesis es la t de Student, para comparar las medias (de la variable continua) en dos grupos independientes. Para el análisis, se incluyen las variables años de estudio y si se profesa una fe religiosa. La pregunta investigativa es si existe diferencia en la media de años d estudio según se profese o no una fe religiosa. Figura 2
  68. 73 Primeramente se informan los estadísticos descriptivos. El grupo 1:

    profesa fe religiosa, estudia en promedio 13,44 años con una desviación típica igual a 3,321. El grupo 2: no profesa fe religiosa, tiene una media de estudios igual a 13,19 y una desviación típica igual a 3,619. Tabla 1. Estadísticos descriptivos Estadísticos de grupo fe N Media Desviación típ. Error típ. de la media estudios sí 9 13,44 3,321 1,107 no 16 13,19 3,619 ,905 Figura 3 Códigos de los grupos
  69. 74 La segunda sección de resultados entrega la t de

    Student para la comparación de medias en datos independientes. El sistema de manera previa hace un contraste para evaluar la homogeneidad de las varianzas. Si son iguales se consideran los valores que figuran bajo el concepto de “se han asumido varianzas iguales”, en caso contrario de utiliza la lectura de la otra opción. El sistema usa una prueba estadística de dos colas o bilateral. El valor t obtenido es igual a 0,175 y el grado de significación es 0,862 que es superior al nivel de significación convencional 0,05. Con lo que se acepta la hipótesis nula de igualdad de medias. Tabla 2. t Student Prueba de muestras independientes Prueba de Levene para igualdad de varianzas Prueba t para la igualdad de medias F Sig. t df Sig. (bilateral) Diferenc ias de medias Error típ. de la diferencia s 95% intervalo de confianza para la diferencia Inferior Superior estudios Se han asumido varianzas iguales ,181 ,675 ,175 23 ,862 ,257 1,466 -2,775 3,289 No se han asumido varianzas iguales ,180 17,979 ,859 ,257 1,430 -2,747 3,261
  70. 75 ANÁLISIS DE VARIANZA: ANOVA Si la variable categórica tiene

    tres o más categorías el procedimiento también consiste en comparar las medias de la variable cuantitativa en cada uno de los grupos que conforma cada estrato o categoría de la variable nominal, pero el procedimiento ya no es la t de Student sino un modelo matemático más amplio: el Análisis de la Varianza (ANOVA de una vía), que va a permitir no sólo saber si hay diferencias en las medias en los diferentes grupos sino explorar entre qué grupos concretos están o no esas diferencias (a través de los llamados “contrastes a posteriori”). El primero es el más importante. Aunque puede asumirse que se cumple para muestras grandes (n > 100), debe explorarse siempre, con gráficos y pruebas de Un aspecto muy importante de estos contrastes, tanto la t de Student como el ANOVA, es que son muy exigentes sobre una serie de requisitos en la distribución de la variable cuantitativa que está evaluando; en concreto sobre dos aspectos: a) La variable cuantitativa debe distribuirse según la Ley Normal en cada uno de los grupos que se comparan (CRITERIO DE “NORMALIDAD”). b) Las varianzas de la distribución de la variable cuantitativa en las poblaciones de las que provienen los grupos que se comparan deben ser homogéneas (CRITERIO DE HOMOCEDASTICIDAD).
  71. 76 normalidad.1 En SPSS las pruebas de normalidad más completas

    están en la opción “EXPLORAR” y al que se llega con la rutina: Analizar > Estadísticos Descriptivos > Explorar. Con respecto al segundo requisito para aplicar estos contrastes (ANOVA y t de Student), es menos exigente, y existen alternativas para hacer el contraste. Así veremos que en SPSS hay una lectura de la prueba “asumiendo varianzas desiguales”. Cuando estos requisitos se incumplen hay que recurrir a las PRUEBAS NO PARAMÉTRICAS, que en IBM SPSS están en: Analizar > Pruebas no paramétricas > 2 muestras independientes (o k muestras independientes). La investigación Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningún tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos son: Tabla 1. Matriz de datos Grupo 1 2 3 4 5 180 172 163 158 147 173 158 170 146 152 175 167 158 160 143 182 160 162 171 155 181 175 170 155 160
  72. 77 Los resultados de una prueba ANOVA se expresan como

    la descomposición de la varianza entre-grupos, intra-grupos y total y se resumen de la siguiente manera: Figura 1 Figura 2 Variables Para identificar las posibles diferencias entre los grupos
  73. 78 Tabla 2. Resultado de la ANOVA ANOVA Valores Suma

    de cuadrados gl Media cuadrática F Sig. Inter-grupos 2010,640 4 502,660 11,240 ,000 Intra-grupos 894,400 20 44,720 Total 2905,040 24 Dado que F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y concluimos que los resultados de los tratamientos son diferentes. El el estadístico de contraste obtenido (F) se distribuye según la distribución de Fischer-Schnedecor con α (k-1 , (n-1)*k) grados de libertad. Si el estadístico F es igual a 1 indica que la variabilidad entre grupos es igual a la variabilidad dentro de cada grupo, por lo que el factor analizado no tiene ninguna influencia en la variabilidad de la muestra. Si por el contrario, F es mayor a 1 con un p-valor asociado menor a 0,05, la variabilidad entre grupos será mayor a la aportada por todas las observaciones individuales, por lo que el factor analizado explicará parte de la variabilidad detectada entre los sujetos.
  74. 79 PRUEBAS NO PARAMÉTRICAS En ESTADÍSTICA PARAMÉTRICA se asume que

    la población de la cual la muestra es extraída es NORMAL o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hipótesis sea válida. Sin embargo, en un gran número de casos no se puede determinar la distribución original ni la distribución de los estadísticos por lo que en realidad no tenemos parámetros a estimar. Tenemos solo distribuciones que comparar. Esto se llama ESTADÍSTICA NO- PARAMÉTRICA. Es un hecho conocido que las técnicas paramétricas tienen más popularidad y aceptación entre los profesionales e investigadores que las técnicas no paramétricas. Pero a menudo se aplican las técnicas paramétricas sin una previa evaluación de los presupuestos que se exigen para su apropiado uso, argumentando su representatividad, disponibilidad y su popularidad. Para cada técnica paramétrica, hay un equivalente no paramétrico, y actualmente hay un creciente avance de alternativas no paramétricas que son comunicados y recibidos en la comunidad científica con interés, aunque tal información permanece oscura y menos difundida fuera de los límites de los investigadores debido a que tales desarrollos generalmente se publican en revistas que requieren del lector un avanzado conocimiento de estadística.
  75. 80 COEFICIENTE DE CORRELACION tau DE KENDALL El coeficiente de

    correlación tau de Kendall se usa con la misma clase de datos que la prueba de Spearman. Siegel (1983:248-251) 12presenta un ejemplo que permite apreciar este tipo de coeficiente. Este autor examina la relación entre autoritarismo y posición social. Matriz de datos 12 Siegel, S (1983). Estadística no paramétrica. México: Trillas. Figura 1
  76. 81 Tabla 1. Correlaciones Correlaciones Autorita Posoc Autorita Correlación de

    Pearson 1 ,775** Sig. (bilateral) ,003 N 12 12 Posoc Correlación de Pearson ,775** 1 Sig. (bilateral) ,003 Figura 2 Variables para el análisis
  77. 82 N 12 12 **. Correlación es significativa al nivel

    0.01 (bilateral). Este coeficiente es numéricamente inferior al de Spearman dado que los dos coeficientes tienen como bases distintas escalas y no son directamente comparables; el de Kendal tiende a ser inferior para los mismos datos. Prueba de Mann-Whitney para dos muestras independientes Se usa cuando se quiere comparar dos poblaciones usando muestras independientes, es decir; es una prueba alternativa a la prueba de t para comparar dos medias usando muestras independientes. También es conocida como la prueba de suma de rangos de Wilcoxon. En esta prueba no paramétrica el procedimiento consiste en transformar los valores de una variable en sus números rango y comparar los rangos medios de ambos grupos. Se entiende por rango el orden que corresponde a cada valor de la variable, ordenada de mayor a menor o a la inversa. Usaremos los siguientes datos para examinar la hipótesis de igualdad de rangos medios en la variable estudios según ambas categorías de sexo.
  78. 83 IBM SPSS tienen instalado los módulos de versiones anteriores

    y los módulos nuevos. Para usar los módulos nuevos se requiere licencia especial, no así para los de versiones previas (cuadros de diálogo antiguos), por lo cual usaremos esta segunda alternativa.
  79. 84 Rango promedio indica el promedio de rango en estudios

    para hombre y mujer. El promedio es la suma de los rangos dividido por el número de observaciones. El valor W corresponde a la suma de los rangos del grupo con menor número de observaciones. El valor U es el número de veces que un valor del grupo mayor precede en orden a un valor del grupo menor. Exacto señala el grado de significación para una prueba bilateral o de dos colas cuando la muestra es inferior a treinta observaciones. El grado de significación es 0,123 superior al nivel de significación convencional de 0,05. Por lo tanto, se acepta la hipótesis nula de igualdad de años de estudio en hombre y mujeres en la población de origen de la muestra. El valor del estadístico estandarizado es -1,561 y el grado de significación asociado a una prueba de dos colas es 0, 119. Tabla 2. Ranks sexo N Rango promedio Suma de rangos estudios hombre 13 15,19 197,50 mujer 12 10,63 127,50 Total 25 Tabla 3. Estadísticos de contraste b estudios Mann-Whitney U 49,500 Wilcoxon W 127,500 Z -1,561 Sig. Asint. (bilateral) ,119 Sig. exacta [2*( Sig.unilateral)] ,123a a. No corregidos para los empates b. Variable de agrupación: sexo
  80. 85 Comparación de K muestras: la prueba de KRUSKALL-WALLIS Usaremos

    los mismos datos del ejemplo anterior. En este caso las variables estudios por clase social. El objetivo es comparar si existe diferencia en el número de años de estudios según la pertenencia a la clase social (baja, media, alta). Se parte del supuesto que no se cumplen las condiciones para usar una prueba paramétrica. Figura 4
  81. 86 El resultado muestra la media de rangos en cada

    grupo, el número de observaciones en los grupos, el estadístico de contraste ji cuadrado (8,728) y el grado de significación (0,013). Se trata de un valor inferior a 0,05, por lo tanto, se rechaza la hipótesis nula de igualdad de años de estudio según la clase social. Ante resultados de esta naturaleza es aconsejable una muestra mayor (en el ejemplo n=25), de mayor de tener un mayor nivel de confianza. Tabla 4. Rangos clase_so N Rango promedio estudios i baja 7 6,43 media 11 14,27 alta 7 17,57 Total 25 Tabla 5. Estadísticos de contraste a,b estudios Chi-cuadrado 8,728 gl 2 Sig. Asint. ,013 a. Prueba de Kruskal Wallis b. Variable de agrupación: clase_so
  82. 87 ANÁLISIS DE CONFIABILIDAD TEORÍA CLÁSICA DE LOS TESTS En

    general, el investigador en Ciencias Sociales elabora conclusiones basado en datos no experimentales y sobre relaciones entre conceptos. Lo primero que hace es elaborar un modelo gráfico que muestra cómo los conceptos se relacionan. Por ejemplo, la teoría de Durkheim (1987) argumenta que vivir una vida aislada aumenta la probabilidad de suicidio. Esta teoría se puede representar a través del siguiente diagrama. Vida aislada Suicidio En orden a verificar tal modelo (o teoría) se requieren dos condiciones: a) Se tiene que especificar qué significan los diferentes conceptos que conforman el modelo. Estos conceptos deben ser definidos conceptualmente b) Se debe construir instrumentos para medir los conceptos. Los conceptos den ser definidos operacionalmente. Los conceptos en el modelo pueden ser difusos (actitud, preferencia, democracia), esto es, conceptos para los cuales no existen instrumentos de medición con los que se esté de acuerdo. En estas situaciones, el investigador tiene que construir sus propios instrumentos, un cuestionario, una escala.
  83. 88 El primer requerimiento para estos instrumentos indica que si

    se repite la medición bajo circunstancias idénticas, el investigador obtendrá un resultado cercano: el instrumento debe ser confiable. Otro requerimiento se refiere al hecho que debe medir exactamente lo que se intenta medir y nada más: el instrumento debe ser válido. La confiabilidad y la validez son dos estándares principales para el análisis de los instrumentos. En la actualidad se aplican técnicas de modelado de ecuaciones estructurales (SEM) que muestran algunas debilidades de las maneras clásicas de medir la confiabilidad y validez, y representan una manera útil de abordar la confiabilidad y validez. ESTUDIO PSICOMÉTRICO DEL TEST El estudio de las cualidades psicométricas del test requiere dos fases: una de análisis de ítems y otra de estudio de las propiedades del test definitivo. Ambas se realizarán en al aula de informática. Análisis de los ítems Para cada ítem vamos a obtener diferentes datos: - Media y desviación estándar. - Índice de homogeneidad corregido (HC) o correlación ítem-test corregida A partir de estos resultados, debemos depurar el test inicial, eliminando los ítems que no resulten apropiados y cambiando la codificación de alguno, si fuese necesario. La selección se hará atendiendo principalmente a los índices HC. Eliminaremos los ítems con valores de HC próximos a cero (el parámetro referencial es 0,30). También puede eliminarse algún ítem que tenga una varianza muy pequeña. Ejemplo ESCALA DE DOMINIO
  84. 89 Esta escala tiene siete ítems, cada uno se responde

    en la escala de 1 a 4 según se indica más abajo. Entonces, la posibilidad se da en un rango de 7 a 28. Los ítems 4 y 6 hay que revertir sus códigos. Ítems Totalmente en desacuerdo En desacuerdo Acuerdo Totalmente de acuerdo No hay manera de resolver los problemas que tengo. Algunas veces siento que he sido postergado en la vida. Tengo poco control sobre las cosas que me ocurren. Yo puedo hacer todo lo que se me ocurre. A veces me siento abandonado respecto de los problemas de vida que tengo que manejar. Lo que me ocurra en el futuro depende de mí. Es poco lo que puedo hacer para cambiar muchas de las cosas importantes en mi vida. Para llevar a cabo el análisis INICIAL de los ítems en el SPSS se selecciona el menú Analizar -> Escalas -> Análisis de fiabilidad. Se selecciona los siete ítems y quedará la siguiente ventana como muestra la siguiente figura:
  85. 91 Para el análisis de ítems se pulsa el botón

    Estadísticos y aparece el siguiente cuadro de diálogo. Se marcan las opciones señaladas: Si se ejecutan las selecciones que aparecen señaladas en el cuadro de diálogo de la figura anterior, el SPSS proporciona una salida de resultados que contiene toda la información necesaria para realizar el análisis de los ítems y determinar los que constituyen el test definitivo. Los resultados correspondientes a los datos del ejemplo se muestran en las tablas siguientes. Como puede verse en la Tabla 1, en primer lugar se obtienen una serie de estadísticos descriptivos para cada ítem: la media, la desviación típica y el número de personas que han respondido al ítem. Las medias de nuestro ejemplo están comprendidas entre 2,91 del ítem 7 y 3.41 del ítem 5. El ítem 6 tiene la mayor desviación típica, 0,962. Figura 3
  86. 92 Tabla 1. Estadísticos descriptivos para los 7 ítems de

    la escala. Estadísticos de los elementos Estadísticas de los ítems Media Desviación típ. N 1. No hay manera de resolver los problemas que tengo. 2,96 ,843 436 2. Algunas veces siento que he sido postergado en la vida. 3,32 ,732 436 3. Tengo poco control sobre las cosas que me ocurren. 3,04 ,931 436 4. Yo puedo hacer todo lo que se me ocurre. 3,08 ,950 436 5. A veces me siento abandonado respecto de los problemas de vida que tengo que manejar. 3,41 ,784 436 6. Lo que me ocurra en el futuro depende de mí. 3,04 ,962 436 7. Es poco lo que puedo hacer para cambiar muchas de las cosas importantes en mi vida. 2,91 ,951 436 La relación entre cada ítem y la escala test se muestra en la Tabla 2. La primera columna contiene la puntuación media en test si eliminamos el ítem. Por ejemplo, si eliminamos el ítem 1 la media de la escala sería 18,80. La siguiente columna es la varianza del test si eliminamos el ítem. Por ejemplo, si eliminamos el ítem 5 la varianza de la escala sería 13,070. La columna tercera contiene el índice de homogeneidad corregido; es decir, la correlación entre la puntuación en un ítem y la suma de las puntuaciones en los ítems restantes. Por ejemplo, el índice de homogeneidad corregido para el ítem 4 es 0,561, lo que nos indica que hay relación entre este ítem y los restantes. La cuarta columna contiene la
  87. 93 correlación múltiple al cuadrado; es decir, el grado en

    que se puede predecir la puntuación en el ítem a partir de las puntuaciones en los restantes ítems. La última columna contiene el coeficiente a de Cronbach si eliminamos el ítem. Por ejemplo, eliminar el ítem 4 provoca que el coeficiente a de Cronbach pase a ser 0,715 en la escala de 7 ítems. Tabla 2. Estadísticos total — elemento. El coeficiente a de Cronbach del test inicial, compuesto por 14 ítems, aparece en la Tabla 3. En nuestros datos, alcanza un valor de 0, 762. Tabla 3. Coeficiente a de Cronbach del test inicial. Estadísticos de fiabilidad Estadística de fiabilidad Alfa de Cronbach Alfa de Cronbach Basado el ítems estandarizados N de Items ,762 ,758 7 Item-Total Statistics Media sin el ítem Varianza sin el ítem Correlación con el total Correlación múltiple al cuadrado Alfa sin el ítem 1. No hay manera de resolver los problemas que tengo. 18,80 12,174 ,488 ,254 ,732 2. Algunas veces siento que he sido postergado en la vida. 18,44 13,406 ,338 ,147 ,759 3. Tengo poco control sobre las cosas que me ocurren. 18,72 11,314 ,571 ,369 ,713 4. Yo puedo hacer todo lo que se me ocurre. 18,69 11,277 ,561 ,381 ,715 5. A veces me siento abandonado respecto de los problemas de vida que tengo que manejar. 18,35 13,070 ,366 ,166 ,755 6. Lo que me ocurra en el futuro depende de mí. 18,72 11,269 ,552 ,353 ,717 7. Es poco lo que puedo hacer para cambiar muchas de las cosas importantes en mi vida. 18,86 11,741 ,478 ,288 ,734
  88. 94 Para obtener el test definitivo deberemos eliminar los ítems

    que peor se comporten. En este caso, todos los ítems presentan índices de homogeneidad apropiados y contribuyen a la confiabilidad de la escala. En esta etapa se examinan por ejemplo si hay correlaciones negativas correlación ítem-test del ítem 2. Se puede detectar que algún ítem no ha sido recodificado dado que para el análisis hay que invertirlo pues se trataría de un ítem negativo (por ejemplo, convertimos la puntuación 1 en 4, la 2 en 3,.. la 4 en 1) y pasará a ser directo si era inverso, o al contrario. Después de obtener el coeficiente de confiabilidad, se calcula el índice de confiabilidad. Esto es, la raíz cuadrada del coeficiente de confiabilidad. En este caso es igual a 0,87.
  89. 95 ANÁLISIS FACTORIAL El Análisis Factorial y el Análisis de

    Componentes Principales están muy relacionados. Algunos autores consideran el segundo como una etapa del primero y otros los consideran como técnicas diferentes. El Análisis Factorial supone que existe un factor común subyacente a todas las variables, el Análisis de Componentes Principales no hace tal asunción. Un ejemplo de análisis factorial en Psicología Nuestro objetivo de partida consiste en averiguar si diez ítems de una escala de autoestima (ver anexo), se pueden resumir de alguna forma, si existe algo en común entre ellos. Mediante el análisis de componentes principales intentaremos agrupar estos reactivos en clases o componentes que puedan explicar la mayoría de la varianza El Análisis de Componentes Principales trata de hallar componentes (factores) que sucesivamente expliquen la mayor parte de la varianza total. Por su parte el Análisis Factorial busca factores que expliquen la mayor parte de la varianza común. En el Análisis Factorial se distingue entre varianza común y varianza única. La varianza común es la parte de la variación de la variable que es compartida con las otras variables. La varianza única es la parte de la variación de la variable que es propia de esa variable. El Análisis de Componentes Principales no hace esa distinción entre los dos tipos de varianza, se centra en la varianza total. Mientras que el Análisis de Componentes Principales busca hallar combinaciones lineales de las variables originales que expliquen la mayor parte de la variación total, el Análisis Factorial pretende hallar un nuevo conjunto de variables, menor en número que las variables originales, que exprese lo que es común a esas variables.
  90. 96 observada en las respuestas ofrecidas por los sujetos de

    la muestra. Hay que recordar que el análisis de componentes principales es una técnica que transforma una serie de variables correlacionadas en otras variables no correlacionadas (componentes principales). El primer paso es obtener los estadísticos descriptivos, esto es, la media, la desviación típica, el número de casos que se han utilizado en el análisis y el número que se han perdido, es decir, los que no han respondido a ítem concreto. En la tabla 1 se presenta estos resultados. En el caso del ítem dos la desviación típica es es 0,52, pero ¿cómo sabemos si este valor es bajo o alto? Para responder a esta pregunta podemos calcular las veces en las que la media contiene a la desviación típica, es decir, basta con hallar el cociente entre la desviación típica y la media, por ejemplo para el ítem 2 (0,52/3,75). Esto significa que, aproximadamente, desviación estándar es un 14% de la media, aquellos ítems que poseen menor coeficiente de variación se dice que son más homogéneos con respecto a coeficientes de variación mayores. Estadísticos descriptivos 3,67 ,587 436 3,75 ,518 436 3,62 ,682 436 3,41 ,745 436 3,40 ,933 436 3,28 ,793 436 2,96 1,079 436 3,17 ,827 436 2,96 1,015 436 3,29 ,970 436 sest1 sest2 sest3 sest4 sest5 sest6 sest7 sest8 sest9 sest10 Media Desv iación típica N del análisis Tabla 1. Estadísticos descriptivos Estos datos son interesantes puesto que nos da cierta idea de la calidad de nuestros ítems, sobre todo aquéllos cuyos valores de la media y la desviación típica son muy altos o muy bajos. El paso siguiente es calcular la matriz de correlaciones entre las variables y el determinante de dicha matriz. Si las relaciones entre los ítems son pequeñas, es poco probable que se encuentren factores comunes o dimensiones. En la tabla 2, se ha calculado la correlación de cada ítem consigo mismo y con el resto de los ítems que forman parte de la escala. Si se estudia detenidamente esta matriz, se observa que los ítems están correlacionados a un nivel de significancia del 5%, aunque esta correlación es en general baja. Por lo tanto, tendría sentido realizar el análisis factorial.
  91. 97 Con la matriz de correlaciones podríamos hacernos una idea

    de la agrupación de los ítems en los componentes principales, puesto que aquellos ítems que presenten una correlación alta entre ellos es probable que aparezcan dentro de un mismo componente. En este caso los resultados no muestran una tendencia claramente definida. Un determinante de la matriz muy bajo supone la existencia de variables con correlaciones entre sí muy elevadas. En la tabla anterior el valor es 0,02257, es decir, muy bajo, aunque sin llegar al valor cero, por tanto, es posible la realización del análisis factorial. Para la aplicación del análisis factorial, son necesarios una serie de requisitos. Uno de ellos es que las correlaciones entre las variables han de ser altas. La prueba de esfericidad de Bartlett se emplea para probar la hipótesis de que la matriz de correlaciones en una matriz de identidad (ausencia de correlación significativa entre los ítems). En la tabla 2 se observa que el valor de probabilidad asociado (sig.) tiende a cero, por lo que se rechaza la hipótesis nula a un nivel de significación del 5% y por lo tanto tiene sentido realizar el análisis factorial. Otro dato que nos indica si es posible el análisis factorial es la medida de adecuación muestral KMO, de Kaiser-Meyer-Olkin. Este es un índice que permite comparar las magnitudes de los coeficientes de correlación obtenidos con las magnitudes de correlación parcial. Cuando este índice toma un valor bajo, se desaconseja la aplicación del análisis factorial, puesto que las correlaciones entre pares de ítems no pueden explicarse a partir de otros ítems. La interpretación se elabora a partir de los siguientes valores: Según la tabla 3, el valor de KMO es de 0,876, lo que supone que la matriz es adecuada para realizar el análisis factorial. Tabla 2. Valores KMO 0,90 a 1 excelente 0,70 a 0,80 meritorio 0,60 a 0,70 mediocres 0,50 a 0,60 bajos 0 a 0,50 inaceptables
  92. 98 Tabla 3. Valor KMO y KMO y prueba de

    Bartlett Hasta este punto de análisis ¿cómo hemos obtenido estos resultados en SPSS? La secuencia de pasos es: Analizar Reducción de datos Análisis factorial Descriptivos Descriptivos univariados Coeficientes KMO y prueba de esfericidad de Bartlett Figura 1. Análisis factorial
  93. 99 Aparecerá la siguiente ventana para definir los ítems que

    se considerarán para el análisis: Figura 2. Selección de las variables Para obtener los descriptivos univariados, la matriz de correlaciones, los niveles de significación, la determinante y la prueba KMO, se activa Descriptivos. Figura 3. Estadísticos y correlaciones Un dato que es la correlación anti-imagen, que es el negativo del coeficiente de correlación parcial y deberá haber pocos coeficientes altos para que sea razonable aplicar el Análisis Factorial. Además en la diagonal de la matriz se muestra la “Medida de Variables para el análisis
  94. 100 Adecuación de la Muestra” (MSA) cuyo valor si es

    inferior a 0.5 indicará que el ítem no se ajusta con la estructura de los demás ítems, debiendo considerarse la posibilidad de eliminar dicho ítem del análisis. En la pantalla anterior se selecciona Anti-imagen, el resultado es: Tabla 3. Matrices anti-imagen En nuestro problema pocos valores de la matriz de correlaciones anti-imagen son altos y ninguna medida de adecuación de la muestra es inferior a 0.5, por lo tanto es razonable aplicar el análisis factorial. Los datos después de aplicar el test de Bartlett, el índice KMO y los coeficientes recogidos en la matriz de correlaciones anti-imagen nos permiten comprobar que el análisis es posible. Se espera poder resumir los diez ítems de la escala en factores comunes o dimensiones. Se procede a la determinación de la comunalidades, esto es a la proporción de varianza explicada por los componentes. En el caso del análisis de componentes principales las comunalidades iniciales son siempre iguales a uno. Así por ejemplo, la comunalidad del ítem 1 vale 0,656, la del ítem 2 es 0,727, etc. En general podemos afirmar que los diez ítems son explicados por los componentes, puesto que no hay valores bajos, próximos a cero. Aunque el ítem más bajo es el 5.
  95. 101 Comunalidades 1,000 ,656 1,000 ,727 1,000 ,489 1,000 ,431

    1,000 ,298 1,000 ,628 1,000 ,542 1,000 ,590 1,000 ,698 1,000 ,647 sest1 sest2 sest3 sest4 sest5 sest6 sest7 sest8 sest9 sest10 Inicial Extracción Método de extracción: Análisis de Componentes principales. Tabla 4. Comunalidades Se probará una rotación Varimax de los factores y para esto se debe ir a la ventana de análisis factorial nuevamente y seleccionar Rotación. Figura 4. Análisis factorial Donde se muestra la siguiente ventana:
  96. 102 Figura 5. Rotación Al ejecutar la rotación Varimax, varían

    los porcentajes de varianza explicada por cada componente, pero el porcentaje de varianza explicado por las dos componentes sigue siendo de un 57%. La tabla 5 nos entrega los autovalores y el total de varianza explicada por las componentes cuyos autovalores son mayores que 1 y se observa que la primera componente explica el 45% aproximadamente de la varianza y la segunda componente el 12%, explicando ambas el 57% de la varianza, siendo este porcentaje considerado razonable. Tabla 5. Varianza total explicada La interpretación de los factores es una de las etapas del análisis factorial más importantes, y esta se realiza a través de las cargas factoriales que se muestran en la tabla 8.7 en la cual los valores corresponden a las correlaciones entre el ítem y la
  97. 103 componente no rotada (denominadas cargas factoriales). En nuestro caso

    una carga factorial mayor a 0.25 indicará una asociación del ítem con la componente, sin embargo este criterio está asociado al tamaño muestral y mientras menor es el tamaño muestral, mayor es la dificultad de que un ítem se asocie a una componente. Tabla 6. Matriz de componentes Como se espera que cada componente posea una correlación alta con un grupo de ítems y baja con otros, se hará una rotación de los factores debiéndose además, examinar las características de los ítems para su interpretación e intentar darles un nombre específico. Matriz de componentes rotados a ,119 ,801 ,132 ,842 ,477 ,511 ,222 ,618 ,430 ,336 ,593 ,526 ,676 ,291 ,554 ,532 ,828 ,111 ,801 ,068 sest1 sest2 sest3 sest4 sest5 sest6 sest7 sest8 sest9 sest10 1 2 Componente Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. La rotación ha convergido en 3 iteraciones. a. Tabla 7. Matriz de componentes rotados Seleccionan los ítems con cargas iguales o superiores a 0,30
  98. 104 En la tabla 7, se observa que: la primera

    componente se asocia ahora con los ítemes SEST3, SEST5, SEST6, SEST7, SEST8, SEST9 y SEST10, la segunda componente con los ítemes, SEST3, SEST4, SEST5, SEST7, SEST8, SEST1 y SEST2, nótese que algunos ítemes están asociados a las dos componentes, estos se denominan ítemes “complejos” ya saturan a más de una componente y no son usadas para nombrar las componentes, así la primera componente deberá ser interpretada con los ítems SEST9 y SEST10, la segunda componente con los ítems SEST4,SEST1 y SEST2.
  99. 105 ANÁLISIS DE CONGLOMERADO La clasificación es una de las

    operaciones más comunes en las indagaciones científicas. Es particularmente importante en ciencias sociales, donde la indagación empieza con detectar alguna suerte de patrón en los datos. Con el análisis de conglomerado es agrupar individuos de tal manera que sean asignados a un grupo en particular, en algún sentido, próximo entre ellos, con ciertas similaridades (por ejemplo, tipo de personalidad, tipo de delito). El análisis de conglomerado busca reducir una muestra de casos a unos pocos grupos estadísticamente diferentes, esto es, conglomerados, basados en las diferencias/similaridades a partir de un grupo de variables múltiples. Es una herramienta útil para construir tipologías a partir de casos o variables. Cuando queremos saber si en nuestra muestra de sujetos podemos diferenciar grupos de individuos diferentes. Para organizar datos en estructuras significativas, es decir el desarrollo de taxonomías. El que se basa en las medias (Análisis de Conglomerado K- medias) es preferible para gran cantidad de datos y el del tipo jerárquico (Análisis de Conglomerado Jerárquico) para pocos datos. Para agrupar a individuos (o variables) en diferentes categorías (conglomerados) en función de su semejanza: clasificar individuos (o variables) semejantes entre sí en las variables que les hemos medido, pero no tenemos un criterio de clasificación a priori. Luego todas las variables tienen el mismo estatus, por ejemplo, en Psicología sobre las taxonomías de categorías o conceptos como la de E. Rosch.
  100. 106 Ejemplo a partir de datos criminológicos El investigador en

    criminología se puede preguntar si los casos tratados en la corte pueden ser ordenados en diferentes tipos de manera distintiva, basados en la cantidad de evidencia, calidad de la defensa, complejidad de los cargos, etc., o ser ordenados en diferentes tipos de manera distintiva basados en las características de la víctima/asesino, motivos, circunstancias, etc. Para efecto de nuestro análisis usaremos el archivo “registro.sav” que contiene quince medidas de 70 sujetos, pero usaremos ocho de ellas para clasificarlos en cinco grupos homogéneos. Figura 1
  101. 107 Nombre de la variable Descripción Definición operacional gr_drogas Puntaje

    drogas (1-10) 1 = leve, 10= Muy severo edad edad cronológica al momento de ser detenido En años pr_arrst Arrestos previos Número edad_pri Edad primer arresto En años Ind_calif Indice calificación laboral (1- 10) 1 = no calificado a 10 = Muy calificado educ_eqv Equivalencia educacional En años sentencia Sentencia En años ind_ser Indice seriedad (1-7) 1= Crimen menor, 7= Crimen muy serio Cuadro 1: Variables A continuación, se incluye el proceso de análisis y los resultados que están involucrados. Se usa un análisis aglomerativo jerárquico empleando las distancias euclídeas al cuadrado y método de Ward. Se emplea el análisis de varianza de un factor para explorar las diferencias de medias en la seriedad del crimen a partir de los grupos de los cinco conglomerados. Se ha tenido presente las siguientes cuestiones:  ¿Cómo se interpreta el dendograma?  ¿Cómo se usará el dendograma para determinar el número óptimo de conglomerados a incluir en la solución final?  ¿Qué criterios debería usarse para determinar el número óptimo de conglomerados a incluir en la solución final?  ¿Cómo se interpretaría los resultados del ANOVA de la diferencias de la medias en la seriedad del crimen entre los cinco grupos de conglomerados?  Basados en los resultados de la prueba de Tukey, ¿qué grupos difieren significativamente en la media de la seriedad del crimen?
  102. 108 Procedimientos analíticos en SPSS Figura 2. Análisis de conglomerado

    jerárquico Paso 1 : El análisis de conglomerado Analizar Clasificar Conglomerados jerárquicos Variables: Sentencia Pr_Conv Gr_drogas Edad Edad_prim Educ_eqv Ind_Calif Conglomerado: Casos Mostrar: Estadísticos y Gráficos Método Método de conglomeración: Método Ward Medida Intervalo: Distancia euclídea al cuadrado Transformar Valores Estandarizar: Puntuaciones Z Continuar
  103. 109 Gráficos Dendograma Témpanos: Ninguno Continuar Estadísticos Historial de conglomeración

    Continuar Aceptar Figura 3 - Ingreso de variables Variables para el análisis
  104. 110 Figura 5 - Selección del método Ward Se usará

    el algoritmo de Ward para clusterizar a los 70 sujetos, empezar con 70 conglomerados de un sujeto cada uno y terminar con un conglomerado que contenga los 70 sujetos. ¿Cómo se determina el número óptimo de Conglomerados en la solución final? En este ejemplo, el algoritmo de Ward produce conglomerados desde 70 conglomerados con hasta un conglomerado que contiene todos los 70 casos. En algún punto entre estos dos extremos está el número óptimo de conglomerados que mejor satisface que los conglomerados sean, lo más posible, homogéneos internamente (esto es, mínimo dentro de la suma de los cuadrados).Y los diversos conglomerados sean diferentes al máximo. Determinar el número óptimo de conglomerados Teoría sobre el número de grupos subyacentes Fácil de perfilar los grupos Magnitud de cambio en el coeficiente de fusión Método
  105. 111 Dendograma con medidas de distancia reescalada Muestra del dendograma

    El dendograma muestra cuales casos se unieron en conglomerados y a qué distancia, y en etapas posteriores, cuales conglomerados se unieron en conglomerado más grandes, y a qué distancia. El punto en el cual la "falda de la montaña" se transforma en la “cima de la montaña” es probablemente el número óptimo de conglomerados. Una solución de 5 conglomerados aparece como óptima. Para extraer una solución de cinco conglomerados, repetir el análisis precedente pero agregar las siguientes instrucciones. Guardar Conglomerado de pertenencia Solución única, 5 Conglomerados Continuar Aceptar Figura 6
  106. 112 Habiendo establecido la hipótesis de que la solución de

    5 conglomerados puede ser la óptima, el paso siguiente es calcular esta solución y guardar las puntuaciones de los conglomerados. En este caso, una puntuación del conglomerados es un número entre 1 y 5 asignando a cada caso indicando el conglomerado al cual ha sido asignado un caso particular. Esto se logra repitiendo el análisis de conglomerado y especificando que se extraerá cinco conglomerados y se guarda las puntuaciones de los conglomerados. Perfilando los cinco conglomerados Una manera de perfilar las características de los cinco conglomerados es calcular las medias de las siete variables para cada uno de los cinco conglomerados. Figura 7 Nueva variables con los conglomerados
  107. 113 Cuadro1 - Medias de las variables Variable Conglomerados 1

    2 3 4 5 Edad B 21,50 M 22,18 A 23,83 B 21,25 MA 30,22 Edad_Prim A 16,81 M 15,94 B 14,67 MA 19,25 B 14,67 Gr_Drogas M 6,19 A 7,65 B 4,93 MB 3,33 MA 8,11 Educ_Eqv MA 9,42 M 5,06 MB 2,93 B 3,25 A 5,33 Pr_Conv B 1,42 M 1,71 MA 5,50 MB .92 A 2,11 Sentencia M 4,92 B 4,06 A 7,03 MB 2,42 MA 16,33 Ind_Calif MA 7,85 M 3,59 MB 2,33 B 2,50 A 3,78 MB= Muy Bajo B= Bajo M = mediana A= Alto MA = Más alto Cuadro 2 - Descripción del Perfil de los Cinco Conglomerados Conglomerado 1 Ofensores menores, índice medio de consumo de drogas, sujetos muy educados y calificados, con pocas convicciones previas, sirven sentencias promedio. Conglomerado 2 Ofensores edad promedio, historial de uso de drogas, educación y calificación promedio, con convicciones previas, sirven sentencias bajas. Conglomerado 3
  108. 114 Ofensores mayores, muchas convicciones previas, muy bajo nivel educacional

    y de calificación, con bajo índice de consumo de drogas, sirviendo sentencias altas. Conglomerado 4 Ofensores menores, con muy poca historia de uso de drogas, bajo nivel educacional y de calificación laboral, muy pocas convicciones previas, sirviendo sentencias cortas. Conglomerado 5 Ofensores mayores (mayores edad de los grupos considerados), severamente dependientes de drogas, educados y calificados, con ALTA carrera criminal, sirviendo sentencias muy largas.
  109. 115 ANÁLISIS DE CORRESPONDENCIAS SIMPLES El nombre de análisis de

    correspondencia es una traducción del francés "Analyse des correspondances", el cual fue propuesto en los años 60’ por el físico-matemático francés Benzécri, con el fin de definir, describir e interpretar el análisis a través de un gráfico geométrico. Esta técnica analiza los datos tal como fue diseñado por algunos precursores de la estadística entre los destacan Pearson, Guttman, Fisher, los cuales, sin embargo no pudieron llevar a cabo los cálculos por la carencia de instrumentos que permitiesen cálculos matemáticos tan complejos como los que puede hoy en día realizar en programas como SPSS. El análisis de correspondencias (AC) es una técnica exploratoria, semejante a los componentes principales, que determina la representación multidimensional de la asociación entre las características expresadas en una tabla de contingencias. Matriz de datos
  110. 116 Figura 1 Se han considerado dos variables: el estado

    civil del sujeto, originalmente de 6 categorías, pero para efectos de nuestro análisis se ha recodificado esta variable en 3 categorías y la variable asociada a las dudas o preocupaciones del sujeto (incertidumbres asociadas a su estado emocional, económico, convivencia familiar, y estado de salud). Hipótesis: Ho: La incertidumbres de la persona (dudas, preocupaciones) y su estad civil son independientes. Ha: La incertidumbres de la persona (dudas, preocupaciones) y su estad civil no son independientes. Con estos datos se aplica el análisis de correspondencia y nos permitirá conocer con mayor claridad la estructura de las relaciones entre las variable estudiadas. El investigador al realizar el análisis de correspondencia debe decidir sobre el método o modelo de normalización. Existen cinco procedimientos: simétrico, principal, principal por fila, principal por columna, y personalizado. El método de normalización específica la forma de normalizar las puntuaciones fila y columnas, teniendo en cuenta que solo afecta a las puntuaciones y a las varianzas obtenidas. La contribución en las dimensiones y los perfiles se mantienen inalterables. Existen distintos métodos disponibles en IBM SPSS. Por ejemplo, principal: Las distancias entre los puntos fila y columna son aproximaciones de las distancias chi- cuadrado. Método aconsejable cuando se desea verificar las diferencias o similitudes entre las categorías de una o ambas de las variables, más que las diferencias entre las propias variables; principal por fila: Maximiza las distancias entre los puntos fila con objeto de verificar las diferencias o similitudes entre las categorías de la variable fila. Para ello toma la distancia entre los puntos fila como aproximaciones de las distancias ji-cuadrado; principal por columna: Maximiza las distancias entre los puntos columna con objeto de verificar las diferencias o similitudes entre las categorías de la variable columna. Asume la distancia entre los puntos columna como aproximaciones de las distancias ji-cuadrado.
  111. 117 La finalidad de la normalización es asignar o distribuir

    la inercia de la tabla o por filas, o por columnas o por ambas a la vez. Para el ejemplo estudiado, el método simétrico que es el método más útil para analizar las dimensiones representadas de forma conjunta. De acuerdo con esto, el siguiente paso será definir las instrucciones en IBM SPSS para el análisis de correspondencias: Figura 2. Análisis de Correspondencias Figura 3. Variables para el análisis Figura 1
  112. 118 Figura 4. Definición de las variables y categorías Figura

    5. Selección del método de normalización
  113. 119 Utilizando IBM SPSS, se obtienen los resultados que se

    exponen a continuación. En primer término aparece la tabla de correspondencia que es una tabla de contingencia pues se presentan las frecuencias de ambas variables y los perfiles por fila y columna. Tabla 1 Tabla de correspondencias 2 9 5 16 7 22 3 32 3 7 3 13 6 2 0 8 18 40 11 69 Sus incertidumbres Su estado emocional Su situación económica Su conv iv encia familiar Su estado de salud Margen activo Soltero Casado Otros Margen activo Est_civ_rec P Pe er rf fi il le es s d de e f fi il la as s y y c co ol lu um mn na as s Dentro de una tabla bidimensional tenemos que estudiar las relaciones entre las filas, entre las columnas, y las relaciones que puedan existir entre las filas y columnas, por lo tanto hay que dar tres informaciones separadas como conclusión del análisis. Para ello nos vamos uno se puede basar en las representaciones gráficas uni y bidimensionales. Asimismo se cuenta con una serie de valores numéricos cuyo nombre genérico es ayudar a la interpretación, que modulan y complementan lo que las gráficas representan. En primer lugar, se analizan las filas de la tabla, (perfiles fila), observando las representaciones gráficas sobre el primer eje factorial, sobre el segundo eje factorial y sobre ambos ejes bidimensionalmente. La justificación de este orden es que el primer eje factorial, explica un determinado porcentaje de la variabilidad existente entre las filas, y el segundo eje explica el otro porcentaje. Hay que darle más importancia a lo visto sobre el primer eje que a lo visto sobre el segundo. Se termina con la representación bidimensional que matiza y corrige lo visto sobre la primera dimensión. En segundo lugar se analiza las columnas de la
  114. 120 tabla, (perfiles columna), con el mismo procedimiento anterior. En

    tercer lugar se analizan las relaciones existentes entre las filas y columnas, también con ese mismo procedimiento. Tabla 2. Tabla de contingencia y perfiles de filas Perfiles de fila ,125 ,563 ,313 1,000 ,219 ,688 ,094 1,000 ,231 ,538 ,231 1,000 ,750 ,250 ,000 1,000 ,261 ,580 ,159 Sus incertidumbres Su estado emocional Su situación económica Su conv iv encia familiar Su estado de salud Masa Soltero Casado Otros Margen activo Est_civ_rec Tabla 3. Tabla de contingencia y perfiles de columnas Perfiles de columna ,111 ,225 ,455 ,232 ,389 ,550 ,273 ,464 ,167 ,175 ,273 ,188 ,333 ,050 ,000 ,116 1,000 1,000 1,000 Sus incertidumbres Su estado emocional Su situación económica Su conv iv encia familiar Su estado de salud Margen activo Soltero Casado Otros Masa Est_civ _rec En la tabla anterior se puede verificar como los patrones de los perfiles filas son completamente distintos entre sí y como ocurre lo mismo con los patrones de los perfiles columna. Lo cual es un indicador claro que las modalidades estudiadas tanto en el sentido de las filas y como de las columnas están bastante bien diferenciadas. Las frecuencias de la tabla de contingencia anterior se someten al análisis de la ji- cuadrado, cuyo valor es 15,828 con seis grados de libertad y un nivel de significación que en nuestro caso la p-valor es 0.015 y es menor que el nivel de significación (que es de 0.05), es decir, se verifica la relación entre las dimensiones estudiadas. Por tanto, nos encontramos en una situación aceptable de análisis de correspondencias. Por lo tanto,
  115. 121 rechazamos la independencia. Es decir, las dos variables están

    relacionadas significativamente, es decir, existe una relación entre el estado civil de los sujetos del estudio y las incertidumbres que enfrentan. Tabla 4 En la solución anterior aparece expresado cada una de las dimensiones de las soluciones alcanzadas, con la cantidad de la nube de inercia total explicada. De esta forma si ponemos en relación la inercia de cada dimensión con la inercia total obtendremos la proporción explicada de la información original (en forma bruta y acumulada). De este modo, podemos decir que la información de la tabla de contingencia se explicaría por la primera dimensión el 79,6%, mientras en la segunda la explicación sería del 20,4%. Con las dos dimensiones tendríamos explicada el 100% de la información inicial, se hace plausible reducir la dimensionalidad a dos únicos componentes. Tabla 5. Resumen de las contribuciones
  116. 122 El análisis de correspondencia que nos da un grafico

    y por medio de este grafico detectamos que categorías están relacionadas entre sí. Hay que tener presente que las dimensiones explican la variabilidad de los datos de manera distintas (el 79,6% la primera y 20,4% la segunda). La dimensión 1 se representa en el eje horizontal y corresponde la variable estado civil de los sujetos; y la dimensión 2 se representa en el eje vertical y corresponde a la variable incertidumbres que afectan a los sujetos. Próximas al origen del espacio bidimensional están las categorías que menos discriminan cada una de las dimensiones de la solución y, al revés, estas categorías estarán tanto más alejadas del origen cuanto mayor sea su discriminación. En el gráfico se puede detectar que los solteros les preocupa su estado de salud, los casados les preocupa su situación económica, y el resto el estado emocional y la convivencia familiar. En el gráfico a mayor o menor proximidad entre las categorías equivale a un mayor o menor grado de relación o interdependencia entra las mismas. Gráfico 1. Puntos de columna y de fila: variables de incertidumbre
  117. 123 El gráfico de la variable incertidumbres, representa la contribución

    de cada categoría a la inercia de la dimensión y a su vez la contribución de cada dimensión a la inercia de cada categoría, por filas y por columnas. En la dimensión 1, la salud (9,782) y el estado emocional (0,201) son las categorías que tienen una mayor contribución; y en la dimensión 2, la situación económica (0,526) y el estado emocional (0,298).
  118. 124 Gráfico 2. Variable estado civil Similar explicación se puede

    hacer respecto de la variable estado civil de los sujetos y sus correspondientes categorías.
  119. 125 EJEMPLO REGRESIÓN LINEAL MÚLTIPLE (cinco variables predictoras) Se quiere

    examinar la relación entre la evaluación de un docente de un curso (variable dependiente) realizada por los alumnos y cinco características del curso y del docente: claridad del docente, grado de motivación del curso, los conocimientos del docente, grado de interés del curso, y una evaluación global del curso. Se tienen las puntuaciones en las seis variables de 32 alumnos. Resúmenes de casosa Evaluación del docente Claridad Motivación Conocimiento Interesante Evaluación del curso 1 1 1 3 1 1 2 2 1 1 3 2 1 1 3 1 1 1 1 1 2 4 1 1 3 1 1 1 5 2 2 3 2 1 2 6 2 3 4 2 1 3 7 2 3 3 1 2 1 8 2 3 4 1 2 3 9 2 2 2 2 3 2 10 2 2 3 2 3 3 11 2 1 3 2 2 3 12 2 2 3 3 3 1 13 2 3 2 1 1 2 14 2 2 3 1 1 1 15 2 4 3 1 1 4 16 2 2 5 1 1 2 17 2 2 1 1 2 1 18 3 4 3 3 1 2 19 3 4 3 2 1 4 20 3 4 3 1 2 2 21 3 4 4 2 2 3 22 3 3 4 3 3 3 23 3 4 4 1 2 2 24 3 4 2 1 1 3 25 3 4 5 2 1 4 26 3 4 5 2 2 3 27 3 4 4 1 2 3 28 3 4 4 1 1 2 29 3 3 3 3 2 3 30 3 3 4 1 2 3 31 4 4 5 2 3 3 32 4 3 4 3 3 4 Total N 32 32 32 32 32 32 a. Limited to first 100 cases.
  120. 127 Resultados La tabla de los estadísticos descriptivos permite observar

    la media, desviación típica de cada variable y el tamaño de la muestra. Tabla 1. Estadística descriptiva Media Desviación típ. N Evaluación del docente 2,41 ,798 32 Claridad 2,84 1,110 32 Motivación 3,31 1,030 32 Conocimiento 1,66 ,745 32 Interesante 1,72 ,772 32 Evaluación del curso 2,44 ,948 32 A continuación se obtiene la matriz de correlaciones:
  121. 128 Tabla 2. Correlaciones Evaluación del docente Claridad Motivación Conocimiento

    Interesante Evaluación del curso Correlación de Pearson Evaluación del docente 1,000 ,803 ,508 ,351 ,401 ,568 Claridad ,803 1,000 ,439 ,050 ,060 ,527 Motivación ,508 ,439 1,000 ,187 ,155 ,417 Conocimiento ,351 ,050 ,187 1,000 ,443 ,265 Interesante ,401 ,060 ,155 ,443 1,000 ,129 Evaluación del curso ,568 ,527 ,417 ,265 ,129 1,000 Sig. (unilateral) Evaluación del docente . ,000 ,001 ,024 ,011 ,000 Claridad ,000 . ,006 ,393 ,372 ,001 Motivación ,001 ,006 . ,153 ,199 ,009 Conocimiento ,024 ,393 ,153 . ,006 ,071 Interesante ,011 ,372 ,199 ,006 . ,240 Evaluación del curso ,000 ,001 ,009 ,071 ,240 . N Evaluación del docente 32 32 32 32 32 32 Claridad 32 32 32 32 32 32 Motivación 32 32 32 32 32 32 Conocimiento 32 32 32 32 32 32 Interesante 32 32 32 32 32 32 Evaluación del curso 32 32 32 32 32 32 Todos los coeficientes de correlación entre la variable dependiente y cada variable predictora son significativos al 5% y también hay algunas correlaciones significativas entre las variables predictoras. De haber obtenido coeficientes de correlación muy bajos o no significativos habría indicado que no se hallarían resultados interesantes en la regresión múltiple. A continuación, se obtienen los coeficientes que miden la asociación global y su significación. R2= 0,814 y R2 ajustado tiene un valor 0,779. R2 es significativo, ya que F(5,26)=22,796 p ≤ 0,000.
  122. 129 Tabla 3. Resumen del modelo Modelo R R cuadrado

    R cuadrado corregida Error típ. De la estimación 1 ,902a ,814 ,779 ,3753 a. Predictors: (Constant), Evaluación del curso, Interesante, Motivación, Conocimiento, Claridad Tabla 4. ANOVAb Modelo Suma de cuadrados gl Media cuadrática F Sig. 1 Regresión 16,056 5 3,211 22,796 ,000a Residual 3,663 26 ,141 Total 19,719 31 a. Predictoras: (Constante), Evaluación del curso, Interesante, Motivación, Conocimiento, Claridad b. Variable dependiente: Evaluación del docente En la tabla 5 se presentan los coeficientes no típicos, los típicos, y sus significación. De las variables predictoras solamente son significativas la variable interesante t(30)=2,779 p ≤ 0,01 y la variable claridad t(30)=6,582 p≤ 0,000. El coeficiente típico para la variable interesante es 0,263 y el coeficiente típico de la variable claridad es 0,689. Por consiguiente, la variable claridad es casi tres veces más importante que la variable interesante (0,689/0,263=3). R2 indica que el 81,4% de la variación es explicada por el modelo.
  123. 130 Modelo Coeficientes no estandarizados Coeficientes estandarizad os t Sig.

    Estadísticos colinealidad B Error típ. Beta Tolerancia FIV 1 (Constant) -,182 ,281 -,649 ,522 Claridad ,495 ,075 ,689 6,582 ,000 ,651 1,536 Motivación ,076 ,076 ,099 1,007 ,323 ,744 1,345 Conocimiento ,169 ,105 ,158 1,617 ,118 ,744 1,344 Interesante ,272 ,098 ,263 2,779 ,010 ,798 1,254 Evaluación del curso ,074 ,089 ,088 ,827 ,416 ,638 1,569 Diagnóstico de Colinealidad a Modelo Dimensión Autovalor Indice de condición Proporciones de la varianza (Constante) Claridad Motivación Conocimiento Interesante Evaluación del curso d i m e n s i o n 0 1 dimensió n 1 5,552 1,000 ,00 ,00 ,00 ,00 ,00 ,00 2 ,190 5,399 ,00 ,11 ,02 ,17 ,23 ,04 3 ,095 7,628 ,01 ,02 ,01 ,61 ,54 ,07 4 ,067 9,101 ,17 ,06 ,31 ,01 ,18 ,40 5 ,054 10,167 ,01 ,81 ,09 ,19 ,01 ,47 6 ,041 11,618 ,81 ,00 ,58 ,02 ,03 ,01 Los coeficientes estandarizados se usan para comparar los efectos de las variables independientes Se comparar la Sig. Con alfa 0,05. Si Sig < 0,05 el coeficiente es estadísticamente significativo
  124. 131 Diagnóstico de Colinealidad a Modelo Dimensión Autovalor Indice de

    condición Proporciones de la varianza (Constante) Claridad Motivación Conocimiento Interesante Evaluación del curso d i m e n s i o n 0 1 dimensió n 1 5,552 1,000 ,00 ,00 ,00 ,00 ,00 ,00 2 ,190 5,399 ,00 ,11 ,02 ,17 ,23 ,04 3 ,095 7,628 ,01 ,02 ,01 ,61 ,54 ,07 4 ,067 9,101 ,17 ,06 ,31 ,01 ,18 ,40 5 ,054 10,167 ,01 ,81 ,09 ,19 ,01 ,47 6 ,041 11,618 ,81 ,00 ,58 ,02 ,03 ,01 a. Variable dependiente: Evaluación del docente Un índice de condición mayor que 15 indicaría un posible problema. Un índice mayor que 30 sugiere un problema serio con colinealidad.
  125. 132 ESQUEMA DE ALGUNAS PRUEBAS ESTADÍSTICAS13 Con el objeto de

    complementar esta guía, así como para facilitar su aplicación, se presentan en orden alfabético los resúmenes de algunas pruebas mencionadas en el texto. Se indica el propósito de la misma, la hipótesis nula general y la regla para decidir sobre la hipótesis nula basada en los valores “p” (o de significación) entregados por IBM SPSS. Se complementa con un ejemplo de aplicación, empleando los formatos de presentación de resultados y nomenclatura de IBM SPSS para facilitar su interpretación. Los detalles técnicos se pueden encontrar en los textos de Estadística. 1. ALFA DE CRONBACH (a) Se pueden emplear los resultados entregados por IBM SPSS para complementar el estudio de la confiabilidad mediante la aplicación de pruebas o cálculo de intervalos de confianza respectivos. Para esto se emplea el estadístico de prueba F=(1-a)/(1-a0 ) el cual tiene una Distribución F con (N-1) y (N-1)(n-1) grados de libertad, siendo N el número de sujetos en la muestra, n el número de ítemes del test, a el valor poblacional postulado y a0 el valor obtenido en la muestra. (No confundir la notación de este alfa de Cronbach con el empleado para el nivel de significación). Hip. Nula: α = 0 Se pueden plantear pruebas unilaterales o bilaterales Decisión: Si F observado es mayor al F de tabla con (N-1) y (N-1) (n-1) grados de libertad, se rechaza la Hipótesis Nula. Ejemplo: Para un test de inteligencia espacial, con 50 ítems, se plantea la Hipótesis que el Coeficiente Alfa de Cronbach es mayor que cero. 13 Esta sección ha sido tomada del libro de Escalante, E. y Caro, A. (2006). Investigación y análisis estadístico de datos en SPSS. Mendoza: Editorial de la Facultad de Educación Elemental y Especial, Universidad Nacional de Cuyo.
  126. 133 H0 : α ≤ 0 versus H1 : α

    > 0 Los resultados de la aplicación a una muestra de 40 personas presentan un valor de Alfa de Cronbach α0 =0,75. Por lo tanto: F0 =(1-0)/(1-0,75)=4 Si se emplea un nivel de significación del 5%, se compara el valor antes calculado con el entregado por la tabla F con (40-1) y (10-1)(40-1) grados de libertad, esto es 39 y 351 grados de libertad. El valor más cercano en la tabla F para F(0,95; 39; 351) es 1,39 (para 40 e infinitos grados de libertad). Luego, dado que el valor calculado para F0 =4 es mayor que 1,39 se concluye que la Hipótesis Nula es rechazada y por lo tanto, se acepta que α >0 esto es, la confiabilidad de la escala es significativa. ANÁLISIS DE VARIANZA DE UN FACTOR Esta prueba tiene como objetivo estudiar si las Medias de K poblaciones independientes (:µ1 , µ2, ..., µk ) son iguales, o si al menos una, es diferente de las otras. Hip. Nula: µ1 = µ2 = ....= µk Supuestos: Las poblaciones tienen distribución normal. Las varianzas poblacionales son iguales. Las observaciones son independientes. Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se prueba si existe diferencias entre edades medias (mi ) de estudiantes de 7carreras de la universidad H0 : µ1 = µ2 = ....= µ7 En tabla ANOVA respectiva en la Línea indicada como Entre Grupos: F=7,752 Sig.=0,000 Decisión: Se rechaza la Hipótesis Nula. Existen diferencias entre las edades medias de los estudiantes de las carreras (al menos un grupo es diferentes de los otros)
  127. 134 Empleando Comparaciones múltiples (Scheffé, Bonferroni, etc.) se pueden detectar

    diferencias significativas. Serán las que presenten valores de significación (Sign.) menores al fijado (5% por ejemplo). 3. ASIMETRIA Indica el grado de simetría o asimetría de la distribución Interpretación del Coeficiente (Estadístico): <1: Distribución asimétrica negativa (cola más larga hacia la izquierda) =0: Distribución simétrica >1: Distribución asimétrica positiva (cola más larga hacia la derecha) Error Típico: Indica la estimación de la variabilidad del coeficiente Coeficiente estandarizado=Coeficiente/Error Típico (no lo entrega IBM SPSS) Para n>150 se distribuye aprox. Como normal. Se puede emplear para probar si la muestra proviene de una población simétrica (o asimétrica positiva o negativa). Hip. Nula: Distribución es simétrica Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza Hip. Nula Ejemplo: Se analiza la simetría de una distribución: Coeficiente= 0,462 Error Típico= 0,179 Coeficiente Estandarizado = 0,462/0,179 = 2,58 Decisión: Como el coeficiente estandarizado es mayor que 1,96 (valor de distribución normal asociado con una significación el 5%) se rechaza Hip. Nula a ese nivel de significación. Por lo tanto, la distribución es asimétrica positiva.
  128. 135 4. JI-CUADRADO (Bondad de Ajuste) Esta prueba tiene como

    objetivo comparar las posibles diferencias entre las frecuencias observadas y las esperadas en una distribución, de acuerdo a una determinada hipótesis (por ejemplo que distribución es Normal etc.). Hip. Nula: Distribución empírica se ajusta a una distribución supuesta (Normal, Uniforme etc.) Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula Ejemplo: Se desea probar si la distribución de frecuencias de una variable nominal, con 6 categorías, es uniforme (todas las categorías tienen las mismas frecuencias). Hip. Nula: Distribución empírica se ajusta a distribución uniforme. Chi-Cuadrado= con 118 g.l=5 p=0,0000. Decisión: Se rechaza Hip. Nula. La distribución empírica no tiene una distribución uniforme hay diferencias entre las frecuencias de las categorías). 5. CHI CUADRADO (Independencia) En procedimiento Estadística descriptiva/Tablas de Contingencia, esta prueba tiene como objetivo analizar la independencia (o falta de asociación) de las variables que componen la tabla de contingencia. Hip. Nula: Las variables son independientes. Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se desea probar si las clasificaciones por sexo (hombre y mujer) y capacitación (capacitado, no capacitado) están relacionadas. Chi-Cuadrado de Pearson= 0,141 g.l=1 p=0,707. Decisión: No se rechaza la Hip. Nula. No existe asociación entre las variables.
  129. 136 6. COEFICIENTE DE CORRELACIÓN DE PEARSON (r) Esta prueba

    tiene como objetivo estudiar si la correlación entre dos variables, que tienen una distribución Normal bivariada, es diferente de 0. En caso de ser 0 indicaría que las variables son independientes. Hip. Nula: Las variables son independientes (r = 0). Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula (En IBM SPSS se puede indicar el nivel y pedir que marque correlaciones significativas, esto es, aquellas cuyo valor p sea menor o igual al fijado). Ejemplo: Se analiza la correlación entre dos pruebas “Total Stress Percibido” y “Total de Afecto Negativo”. Correlación de Pearson= 0,674 p=0,000 (bilateral). Decisión: Se rechaza Hip. Nula. Existe asociación entre variables. 7. CURTOSIS Indica el grado de apuntamiento de la distribución en comparación con la distribución Normal (con su misma Media y Desv. Típica) Interpretación del Coeficiente (Estadístico): <1 : Distribución más aplastada que la Normal (platicúrtica). =0 :Distribución igualmente apuntada que la Normal (mesocúrtica). >1 : Distribución más apuntada que la Normal (leptocúrtica). Error Tipico: Indica la estimación de la variabilidad del coeficiente Coeficiente estandarizad= Coeficiente/Error Típico (no lo entrega IBM SPSS) Para n>150 se distribuye aproximadamente como normal. Se puede emplear para determinar si efectivamente no hay apuntamiento (o si éste existe). Hip. Nula: Distribución es igualmente apuntada que la Normal.
  130. 137 Decisión: Si p observado es menor que nivel fijado

    (p.ej. 0,05 o 5%) se rechaza Hip. Nula. Ejemplo: Se analiza la curtosis de una distribución: Coeficiente= -0,596 Error Típico= 0,355. Coeficiente Estandarizado = -0,596/0,355 = -1,67. Decisión: Como coef. Estandarizado está entre -1,96 y 1,96 (valor de distribución normal asociado con una significación del 5%) no se rechaza Hip. Nula a ese nivel de significación. Por lo tanto, se acepta que la distribución tiene una apuntamiento semejante al e su Distribución Normal asociada. 8. KAPPA Se emplea para medir acuerdo entre jueces que califican los mismos objetos o sujetos. Toma el valor 1 para el acuerdo perfecto y 0 para desacuerdo completo. Para valores intermedios se proponen los siguientes conceptos: Menos de 0,40 Acuerdo pobre. 0,40 a 0,75 Buen nivel de acuerdo. Mayor de 0,75 Excelente nivel de acuerdo. Hip. Nula: k=0 Decisión: Si p observado es menor que nivel fijado (p.ej, 0,05 o 5%) se rechaza la Hip. Nula Ejemplo: En la evaluación de candidatos a un cargo realizadas por 2 jueces, se obtienen los siguientes resultados: Medida de acuerdo Kappa=0,4728 p=0,000. Decisión: Se rechaza Hip. Nula. Existe acuerdo (moderado) entre jueces. 9. KOLMOGOROV-SMIRNOV Esta prueba se emplea para comparar distribuciones: - Como (K-S Lilliefors) en Procedimiento Explorar/Gráficos se emplea para determinar si una
  131. 138 distribución empírica tiene una distribución Normal. - Como (K-S

    Z) en Procedimiento Estadística No Paramétrica se emplea para comparar una distribución empírica con otras distribuciónes (Normal, Uniforme, Poisson) o para comparar si dos muestras tienen una misma distribución. Hip. Nula: Distribución empírica se ajusta a distribución Normal (con media y desv. estándar estimadas desde la muestra). Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza Hip. Nula. Ejemplo: Se prueba si una distribución empírica se ajusta a la Normal: K-S (Lilliefors)=0,1343 con 118 g.l p=0,0000. Decisión: Se rechaza Hip. Nula, distribución que se prueba no se ajusta a la Normal. 10. LEVENE Esta prueba tiene por objetivo analizar si las varianzas de varias poblaciones son o no iguales. Hip. Nula: Varianzas de Poblaciones definidas por Factores son homogéneas (iguales). Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza Hip. Nula. Ejemplo: Se comparan varianzas de cinco grupos: Levene=1,2205 con 4 y 110 g.l. p=0,3063 Decisión: No se rechaza Hip. Nula. Las varianzas de los distintos grupos son homogéneas (iguales). 11. PRUEBA T PARA UNA MUESTRA Esta prueba tiene como objetivo estudiar si la media de una población (m) tiene un valor conocido µ0. Hip. Nula: µ = µ0 Se consideran pruebas unilaterales o bilaterales.
  132. 139 Supuesto: La población tiene distribución normal. Decisión: Si p

    observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se prueba si puntaje medio poblacional en un test de Matemáticas es 100 puntos. Se aplicó el test a 50 alumnos. Puntaje medio en la muestra fue 108,4 puntos. H0 : µ = 100 vs. H1 : µ ≠ 100 TEST MATEMAT t = 5,482 g.l.= 49 Sig. (bilateral)=0,000 Decisión: Se rechaza Hip. Nula. Puntaje medio es diferente a 100 puntos. 12. PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES Esta prueba tiene como objetivo estudiar si las medias de dos poblaciones independientes (:m1 y m2 ) son iguales, o si una es mayor o menor que la otra. Hip. Nula: µ1 = µ2 Se consideran pruebas unilaterales o bilaterales. Supuestos: Las poblaciones tienen distribución normal. Las varianzas poblacionales puede suponerse que sean iguales o no. Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se prueba si puntaje medio poblacional en un test de Matemáticas es igual para hombres (m1 ) y para mujeres (m2 ). Se emplearon muestras de 12 hombres y 16 mujeres H0 : µ1 = µ2 vs H1 : µ1 ≠ µ2 TEST MATEMAT Se han asumido varianzas iguales
  133. 140 t=-0,501 g.l.=26 Sig. (bilateral) = 0,621. No se han

    asumido varianzas iguales. t=-0,497 g.l.=23,2 Sig. (bilateral)=0,624. Decisión: En ambos casos, no se rechaza Hip. Nula. Luego, se acepta que puntajes medios para hombres y mujeres son iguales. 13. PRUEBA T PARA DOS MUESTRAS RELACIONADAS Esta prueba tiene como objetivo estudiar si las medias de dos poblaciones no necesariamente independientes (:µ1 y µ2 ) son iguales, o si una es mayor o menor que la otra, considerando pares de valores muestrales (Xi , Yi ) denominados “datos apareados”, de los cuales se emplean las diferencias. Hip. Nula: µ1 = µ2 (o µ1 -µ2 = 0 ). Se pueden plantear pruebas unilaterales o bilaterales. Supuestos: Las población de diferencias tienen distribución normal. Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se prueba si es efectivo un taller para reducir el estrés. Se empleó una muestra de 10 sujetos. Se midió con un test a cada uno antes (µ1 ) y después (µ2 ) de realizar el taller. H0 : µ1 = µ2 vs H1 : µ1 ≠ µ2 PAR ANTES-DESPUES: Media de la diferencia= 1. t= 1, 399 g.l.=9 Sig. (bilateral)=0,195 Decisión: No se rechaza Hip. Nula. Luego, se acepta que puntajes medios antes y después son iguales, esto es que el taller no fue efectivo para reducir estrés.
  134. 141 14. REGRESIÓN LINEAL : PRUEBA F TABLA ANOVA Esta

    prueba tiene por objetivo estudiar si el modelo de Regresión Lineal (recta Y= α+βX) permite explicar la relación entre las variables X (dependiente) e Y (independiente), esto es, si la pendiente b es diferente de 0. Hip. Nula: El modelo de Regresión Lineal no explica la relación entre las variables (β= 0). Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se estudió la relación entre las variables “Resistencia al esfuerzo” (var. Dependiente) y “Edad” (var. Independiente). En tabla ANOVA respectiva en Línea indicada como Regresión: F=48,123 Sig.=0,000. Decisión: Se rechaza Hip. Nula. Existe relación lineal entre las variables. 15. REGRESIÓN LINEAL : PRUEBA t PARA COEFICIENTES Esta prueba tiene por objetivo estudiar si parámetros α y βdel modelo de Regresión Lineal (recta Y= α+βX) siendo variables X (dependiente) e Y (independiente) son o no iguales 0. En caso de ser sólo α=0 indicaría que la recta pasa por el origen. En caso de ser β=0 indicaría que no hay relación entre las variables. En el caso de Regresión Lineal, esta prueba es equivalente a la Prueba F. Se puede verificar la siguiente relación entre los estadísticos de prueba: t2 = F Hip. Nula 1: El intercepto del modelo de Regresión Lineal es cero (α=0) Hip. Nula 2: La pendiente del modelo de Regresión Lineal es cero (β=0) Decisión: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo:
  135. 142 Se estudió de la relación entre “Resistencia al esfuerzo”

    (var. Dependiente) y “Edad” (var. Independiente). a) En tabla de COEFICIENTES respectiva en Línea indicada como (Constante): t=5,683 Sig.=0,000. Decisión: Se rechaza Hip. Nula. El intercepto es diferente a 0. b) En la misma tabla de COEFICIENTES en Línea indicada como Edad: t=6,937 Sig.=0,000. Decisión: Se rechaza Hip. Nula. La pendiente es diferente a 0. Observación: Notar que t2 =6,9372 =48,123 =F. 16. REGRESIÓN MÚLTIPLE En el caso de Regresión Múltiple, la interpretación de los resultados del ANOVA así como la tabla de COEFICIENTES respectivos es semejante a los que se indican en Regresión Lineal. 17. SHAPIRO-WILKS Es similar a Kolmogorov-Smirnov para probar normalidad.