MÉTODOS: CORRELACION-1

Correlación

La correlación es una de las estadísticas más comunes y más útiles. Una correlación es un número único que describe el grado de relación entre dos variables. Vamos a trabajar a través de un ejemplo para mostrar cómo se calcula esta estadística.

Correlation Example Correlación Ejemplo

Supongamos que queremos ver en la relación entre dos variables, la altura (en pulgadas) y la autoestima. Tal vez tenemos una hipótesis de que la altura que son los efectos de su autoestima (por cierto, no creo que tengamos que preocuparnos acerca de la dirección de la causalidad aquí - no es probable que la autoestima hace que su altura). Digamos que recoger algo de información sobre las veinte personas (todos hombres - sabemos que la altura promedio es diferente para hombres y mujeres que, para mantener este sencillo ejemplo sólo tendremos que usar los hombres). La altura se mide en pulgadas. La autoestima se mide con base en el promedio de 10 1-a-5 puntos de calificación (donde las puntuaciones más altas significan una autoestima más alta). Aquí están los datos de los 20 casos (no te lo tomes demasiado en serio - que hice estos datos para ilustrar lo que la correlación es):

Person Persona	Height Altura	Self Esteem Autoestima
1 1	68 68	4.1 4.1
2 2	71 71	4.6 4.6
3 3	62 62	3.8 3.8
4 4	75 75	4.4 4.4
5 5	58 58	3.2 3.2
6 6	60 60	3.1 3.1
7 7	67 67	3.8 3.8
8 8	68 68	4.1 4.1
9 9	71 71	4.3 4.3
10 10	69 69	3.7 3.7
11 11	68 68	3.5 3.5
12 12	67 67	3.2 3.2
13 13	63 63	3.7 3.7
14 14	62 62	3.3 3.3
15 15	60 60	3.4 3.4
16 16	63 63	4.0 4.0
17 17	65 65	4.1 4.1
18 18	67 67	3.8 3.8
19 19	63 63	3.4 3.4
20 20	61 61	3.6 3.6

Ahora, echemos un rápido vistazo el histograma para cada variable:

Y, aquí están las estadísticas descriptivas:

Variable Variable	Mean Media	StDev StDev	Variance Diferencia	Sum Suma	Minimum Mínimo	Maximum Máximo	Range Serie
Height Altura	65.4 65,4	4.40574 4,40574	19.4105 19.4105	1308 1308	58 58	75 75	17 17
Self Esteem Autoestima	3.755 3,755	0.426090 0.426090	0.181553 0.181553	75.1 75,1	3.1 3.1	4.6 4.6	1.5 1.5

Por último, vamos a ver lo simple bivariado (es decir, de dos variables) Argumento:

Usted debe consultar inmediatamente en el gráfico de dos variables que la relación entre las variables es positiva (si usted no puede ver que, revise la sección sobre los tipos de relaciones ), porque si tuviera que adaptarse a una sola línea recta a través de los puntos lo haría tienen una pendiente positiva o moverse de izquierda a derecha. Dado que la correlación no es más que una estimación cuantitativa de la relación, podríamos esperar una correlación positiva.

¿Qué significa una "relación positiva" en este contexto? Esto significa que, en general, las puntuaciones más altas en una variable tienden a ser emparejado con puntuaciones más altas en el otro y que las puntuaciones más bajas en una variable tienden a ser emparejado con puntuaciones más bajas en el otro. Debe confirmar visualmente que esto es generalmente cierto en el diagrama anterior.

Calculating the Correlation Cálculo de la correlación

Ahora estamos listos para calcular el valor de correlación. La fórmula para la correlación es:

Utilizamos el símbolo r en reposo durante la correlación. A través de la magia de las matemáticas resulta que r siempre estará entre -1,0 y 1,0. si la correlación es negativa, tenemos una relación negativa, y si es positivo, la relación es positiva. Usted no necesita saber cómo se nos ocurrió esta fórmula a menos que quieras ser un estadista. Pero es probable que necesites saber cómo la fórmula se refiere a los datos reales - cómo se puede utilizar la fórmula para calcular la correlación. Echemos un vistazo a los datos que necesitamos para la fórmula. Aquí están los datos originales con las columnas necesarias otras:

Person Persona	Height (x) Altura (x)	Self Esteem (y) Autoestima (y)	*xy x * y**	*xx x * x**	*yy y * y**
1 1	68 68	4.1 4.1	278.8 278,8	4624 4624	16.81 16,81
2 2	71 71	4.6 4.6	326.6 326,6	5041 5041	21.16 21,16
3 3	62 62	3.8 3.8	235.6 235,6	3844 3844	14.44 14,44
4 4	75 75	4.4 4.4	330 330	5625 5625	19.36 19,36
5 5	58 58	3.2 3.2	185.6 185,6	3364 3364	10.24 10,24
6 6	60 60	3.1 3.1	186 186	3600 3600	9.61 9,61
7 7	67 67	3.8 3.8	254.6 254,6	4489 4489	14.44 14,44
8 8	68 68	4.1 4.1	278.8 278,8	4624 4624	16.81 16,81
9 9	71 71	4.3 4.3	305.3 305,3	5041 5041	18.49 18,49
10 10	69 69	3.7 3.7	255.3 255,3	4761 4761	13.69 13,69
11 11	68 68	3.5 3.5	238 238	4624 4624	12.25 12,25
12 12	67 67	3.2 3.2	214.4 214,4	4489 4489	10.24 10,24
13 13	63 63	3.7 3.7	233.1 233,1	3969 3969	13.69 13,69
14 14	62 62	3.3 3.3	204.6 204,6	3844 3844	10.89 10,89
15 15	60 60	3.4 3.4	204 204	3600 3600	11.56 11,56
16 16	63 63	4 4	252 252	3969 3969	16 16
17 17	65 65	4.1 4.1	266.5 266,5	4225 4225	16.81 16,81
18 18	67 67	3.8 3.8	254.6 254,6	4489 4489	14.44 14,44
19 19	63 63	3.4 3.4	214.2 214,2	3969 3969	11.56 11,56
20 20	61 61	3.6 3.6	219.6 219,6	3721 3721	12.96 12,96
Sum = Suma =	1308 1308	75.1 75,1	4937.6 4937.6	85912 85912	285.45 285,45

Las primeras tres columnas son los mismos que en el cuadro anterior. Las siguientes tres columnas son simples cálculos basados en datos de la altura y la autoestima. La fila inferior consta de la suma de cada columna. Esta es toda la información que necesitamos para calcular la correlación. Estos son los valores de la fila inferior de la tabla (donde N es de 20 personas), ya que están relacionados con los símbolos de la fórmula:

Ahora, cuando nos conectamos estos valores en la fórmula anterior, obtenemos lo siguiente (yo lo muestro aquí tediosamente, un paso a la vez):

Por lo tanto, la correlación de los veinte casos es 0,73, que es una relación positiva bastante fuerte. Creo que hay una relación entre la altura y la autoestima, al menos en esta compuesto por los datos!

Prueba de la significación de una correlación

Una vez que haya calculado una correlación, se puede determinar la probabilidad de que la correlación observada se produjo por casualidad. Es decir, se puede llevar a cabo una prueba de significación. Mayoría de las veces usted está interesado en determinar la probabilidad de que la correlación es real y no una casualidad. En este caso, está probando los que se excluyen mutuamente hipótesis :

Null Hypothesis: Hipótesis nula:	r = 0 r = 0
Alternative Hypothesis: Hipótesis Alternativa:	r <> 0 r <> 0

La forma más fácil de probar esta hipótesis es encontrar un libro de estadística que tiene una tabla de valores críticos de r. La mayoría de textos de estadística de introducción tendría una tabla como ésta. Al igual que en todas las pruebas de hipótesis, es necesario determinar primero el nivel de significación . Aquí, voy a utilizar el nivel de significación común de alfa = 0,05. Esto quiere decir que estoy llevando a cabo una prueba en la que las probabilidades de que la correlación es una casualidad no es más que 5 de cada 100. Antes de buscar el valor crítico en una mesa que también tienen que calcular los grados de libertad o df. El DF es simplemente igual a N-2 o, en este ejemplo, es 20-2 = 18. Por último, tengo que decidir si estoy haciendo una de una cola o dos colas de prueba. En este ejemplo, ya que no tengo ninguna teoría sólida antes de que sugieran que la relación entre la altura y la autoestima sería positivo o negativo, voy a optar por la prueba de dos colas. Con estos tres datos: el nivel de significación (alfa = 0.05)), grados de libertad (df = 18), y el tipo de prueba (dos colas) - Ahora puede probar la significancia de la correlación que encontré . Cuando miro hacia este valor en la tabla de pequeño y práctico en la parte trasera de mi libro de estadística me parece que el valor crítico es 0.4438. Esto significa que si mi relación es mayor que o menor que 0,4438 - 0,4438 (recuerde, esta es una prueba de dos colas) puedo concluir que las probabilidades son menores que 5 de cada 100 que se trata de una casualidad. Desde mi relación 0f 0.73 es en realidad un poco más alto, llego a la conclusión de que no es un hallazgo casual y que la correlación es "estadísticamente significativa" (teniendo en cuenta los parámetros de la prueba). Puedo rechazar la hipótesis nula y aceptar la alternativa.

The Correlation Matrix La matriz de correlación

Todo lo que he mostrado hasta ahora es la forma de calcular una correlación entre dos variables. En la mayoría de los estudios que tenemos mucho más de dos variables. Digamos que tenemos un estudio con 10 a nivel de intervalo de las variables y queremos que para estimar las relaciones entre todos ellos (es decir, entre todos los posibles pares de variables). En este caso, tenemos 45 únicas correlaciones para estimar (más adelante cómo sabía eso!). Podríamos hacer los cálculos de más de 45 veces para obtener las correlaciones. O podríamos utilizar casi cualquier programa de estadísticas para calcular de forma automática a las 45 con un simple clic del ratón.

He utilizado un programa de estadísticas simple para generar datos aleatorios para 10 variables con 20 casos (es decir, personas) para cada variable. Entonces, le dije al programa para calcular las correlaciones entre estas variables. Aquí está el resultado:

C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10

C1 1.000 C1 1.000

C2 0.274 1.000 C2 0.274 1.000

C3 -0.134 -0.269 1.000 -0.134 -0.269 1.000 C3

C4 0.201 -0.153 0.075 1.000 C4 0,201 -0,153 0,075 1,000

C5 -0.129 -0.166 0.278 -0.011 1.000 C5 -0,129 -0,166 0,278 -0,011 1,000

C6 -0,095 0,280 -0,348 -0,378 -0,009 1,000

C7 0,171 -0,122 0,288 0,086 0,193 0,002 1,000

C8 0,219 0,242 -0,380 -0,227 -0,551 0,324 -0,082 1,000

C9 0,518 0,238 0,002 0,082 -0,015 0,304 0,347 -0,013 1,000

C10 0,299 0,568 0,165 -0,122 -0,106 -0,169 0,243 0,014 0,352 1,000

Este tipo de mesa se llama una matriz de correlación. En él se enumeran los nombres de las variables (C1-C10) en la primera columna y en la primera fila. La diagonal de una matriz de correlación (es decir, los números que van desde la esquina superior izquierda hasta la inferior derecha) siempre se compone de seres. Eso es porque estas son las correlaciones entre cada variable y en sí mismo (y una variable está siempre perfectamente correlacionada consigo misma). Este programa sólo muestra estadística del triángulo inferior de la matriz de correlación. En cada matriz de correlación hay dos triángulos que son los valores por debajo ya la izquierda de la diagonal (triángulo inferior) y por encima ya la derecha de la diagonal (triángulo superior). No hay ninguna razón para imprimir los dos triángulos, porque los dos triángulos de una matriz de correlación son siempre imágenes especulares el uno del otro (la correlación de la variable x con variable y siempre es igual a la correlación de la variable y con la variable x). Cuando una matriz tiene este espejo de calidad de imagen por encima y por debajo de la diagonal se refieren a ella como una matriz simétrica. Una matriz de correlación es siempre una matriz simétrica.

Para localizar la correlación para cada par de variables, encontrar el valor de la tabla de la fila y la intersección de columna para esas dos variables. Por ejemplo, para encontrar la correlación entre las variables C5 y C2, busco donde fila C2 y C5 columna es (en este caso que está en blanco debido a que cae en el área de un triángulo superior) y donde se encuentra la fila C5 y C2 de la columna y, en el segundo caso, me parece que la correlación es - .166.

OK, así que ¿cómo sé que son 45 las correlaciones únicos en que tenemos 10 variables? Hay una fórmula sencilla práctica lo poco que le dice cuántos pares (por ejemplo, las correlaciones) no son para cualquier número de variables:

donde N es el número de variables. En el ejemplo, yo tenía 10 variables, por lo que yo sé que tengo (10 * 9) / 2 = 90/2 = 45 pares.

Other Correlations Otras correlaciones

El tipo específico de correlación que he ilustrado aquí se conoce como la correlación de Pearson producto. Es apropiado cuando ambas variables se miden a un nivel de intervalo . Sin embargo, hay una amplia variedad de otros tipos de correlaciones para otras circunstancias. Por ejemplo, si usted tiene dos variables ordinales, se puede utilizar el rango de correlación de Spearman Orden (rho) o el grado de correlación Kendall orden (tau). Cuando una medida es un intervalo de un nivel continuo y el otro es dicotómica (es decir, de dos categorías) se puede utilizar la correlación punto biserial. Para otras situaciones, consultar el programa basado en la web las estadísticas de la selección, Selección de Estadística en http://trochim.human.cornell.edu/selstat/ssstart.htm .

Correlación de Pearson (PEARSON)

33.1 Descripción general

PEARSON calcula e imprime matrices de coeficientes de correlación r de Pearson y covariancias para todos los pares de variables en una lista (opción de matriz cuadrada) o para cada pareja de variables formada al tomar una variable de cada dos listas de variables (opción de matriz rectangular).

Se puede especificar la eliminación de datos faltantes "por pares" o "por casos".

PEARSON se puede utilizar también para obtener una matriz de correlación, la cual puede ser posteriormente leida por los programas REGRESSN o MDSCAL. Aunque REGRESSN puede calcular su propia matriz de correlación, su opción de manejo de datos faltantes sólo puede eliminar "por casos". En contraste, PEARSON puede generar una matriz con el uso de un algoritmo de eliminación "por pares" para datos faltantes.

33.2 Características estándar de IDAMS

Selección de casos y variables. Se puede utilizar el filtro estándar para la selección de un subconjunto de casos de los datos de entrada. Las variables para las cuales se desea la correlación se especifican con los parámetros ROWVARS y COLVARS.

Transformación de datos. Se pueden usar las proposiciones de Recode.

Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número de casos así tratados.

Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Se calculan las estadísticas univariadas para cada variable a partir de los casos que tengan datos válidos (no faltantes) para la variable.

Datos faltantes: eliminación por pares. Las estadísticas por pares y el coeficiente de correlación, se pueden calcular de los casos que tengan datos válidos para ambas variables (MDHANDLING=PAIR). Así, un caso se puede utilizar en los cálculos para algunos pares de variables y no usarse para otros. Este método de manejo de datos faltantes se llama algoritmo de eliminación "por pares". Nota: si hay datos faltantes, se pueden calcular coeficientes de correlación individuales para diferentes subconjuntos de datos. Si hay muchos datos faltantes, se pueden presentar inconsistencias internas en la matriz de correlación, las cuales pueden causar dificultades en análisis multivariados posteriores.

Datos faltantes: eliminación por casos. El programa puede también recibir la instrucción (MDHANDLING=CASE) para calcular estadísticas pareadas y correlaciones a partir de los casos que tengan datos válidos en todas las variables de la lista de variables. De esta manera, un caso se usa en el cálculo para todos los pares de variables o no se usa. Este método de manejar los datos faltantes se llama algoritmo de eliminación "por casos" (también se encuentra en el programa REGRESSN) y sólo se aplica a la opción de matriz cuadrada.

33.3 Resultados

Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.

Opción de matriz cuadrada

Estadísticas pareadas. (Opcional: ver el parámetro PRINT). Para cada par de variables de la lista, se imprime la siguiente información:

número de casos válidos (o suma ponderada de casos),

media y desviación estándar de la variable X,

media y desviación estándar de la variable Y,

prueba T para el coeficiente de correlación,

coeficiente de correlación.

Estadísticas univariadas. Para cada variable de la lista, se imprime la siguiente información:

número de casos válidos y suma de ponderaciones,

suma de puntajes y suma de puntajes cuadrados,

media y desviación estándar.

Coeficientes de regresión para puntajes primarios. (Opcional: ver el parámetro PRINT). Para cada par de variables x, y se imprimen los coeficientes de regresión a y c y los términos constantes b y d de las ecuaciones de regresión x=ay+b y y=cx+d.

Matriz de correlación. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz.

Matriz de productos cruzados. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz.

Matriz de covariancia. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz con su diagonal.

En cada una de las tablas anteriores, se imprime por página, un máximo de 11 columnas y 27 filas.

Opción de matriz rectangular

Tabla de frecuencias de variables. Número de casos válidos para cada par de variables.

Tabla de valores de la media para las variables de columnas. Se calculan y se imprimen las medias para cada variable de columna en los casos que son válidos, a su turno, para cada variable de fila.

Tabla de desviaciones estándar para variables de columnas. Igual que para las medias.

Matriz de correlación. (Opcional: ver el parámetro PRINT). Coeficientes de correlación para todos los pares de variables.

Matriz de covariancia. (Opcional: ver el parámetro PRINT). Covariancias para todos los pares de variables.

En cada una de las tablas anteriores, se imprime por página, un máximo de 8 columnas y 50 filas.

Nota: si un par de variables no tiene casos válidos, se escribe 0.0 para la media, desviación estándar, correlación y covariancia.

33.4 Matrices de salida

Matriz de correlación

Cuando se especifica el parámetro WRITE=CORR, se produce la matriz de correlación, en la forma estándar de una matriz cuadrada IDAMS. El formato de las correlaciones es 8F9.6; el formato para la media y la desviación estándar es 5E14.7. Las columnas 73-80, se utilizan para identificar los registros.

La matriz contiene correlaciones, medias y desviaciones estándar. Las medias y las desviaciones estándar están sin parear. Los registros de diccionario que produce PEARSON, tienen números y nombres de variable del diccionario de entrada y/o de proposiciones de Recode. El orden de las variables lo determina el orden de las mismas en la lista.

PEARSON puede generar correlaciones iguales a 99.999901, y medias y desviaciones estándar iguales a 0.0 cuando los valores calculados carezcan de sentido. Razones típicas de ésto pueden ser por ejemplo, que se hayan eliminado todos los casos debido a datos faltantes o una de las variables tuvo un valor constante. Nótese que MDSCAL no acepta estos "valores faltantes" y REGRESSN sí.

Matriz de covariancia

Cuando se especifica el parámetro WRITE=COVA, se produce la matriz de covariancia, sin la diagonal, en la forma de una matriz cuadrada estándar de IDAMS.

33.5 Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del análisis deben ser numéricas; pueden tener valores enteros o decimales.

33.6 Estructura del setup

<><><>

$RUN PEARSON

$FILES

Especificación de archivos

$RECODE (opcional)

Proposiciones de Recode

$SETUP

1. Filtro (opcional)

2. Título

3. Parámetros

$DICT (condicional)

Diccionario

$DATA (condicional)

Datos

Archivos:

FT02 matrices de salida si se especifica el parámetro WRITE

DICTxxxx diccionario de entrada (omitir si se usa $DICT)

DATAxxxx datos de entrada (omitir si se usa $DATA)

PRINT resultados (por defecto IDAMS.LST)

33.7 Proposiciones de control del programa

Referirse al capítulo "El archivo Setup de IDAMS" para una descripción más detallada de las proposiciones de control del programa, ítems 1-3, a continuación.

Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.

3. Ejemplo: INCLUDE V2=11-15,60 OR V3=9

Título (mandatorio). Una línea que contenga hasta 80 caracteres para titular los resultados.

6. Ejemplo: PRIMERA CORRIDA DE PEARSON - ABRIL 27

Parámetros (mandatorio). Para seleccionar opciones del programa.

9. Ejemplo: WRITE=CORR, PRINT=(CORR,COVA) ROWV=(V1,V3-V6,R47,V25)

INFILE=IN /xxxx

Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.

Por defecto: DICTIN, DATAIN.

BADDATA=STOP /SKIP/MD1/MD2

Tratamiento de los datos no numéricos. Ver el capítulo "El archivo Setup de IDAMS".

MAXCASES=n

Número máximo de casos (después de filtrar) a usar del archivo de entrada.

Por defecto: se usan todos los casos.

MATRIX=SQUARE /RECTANGULAR

SQUA

Calcular coeficientes de correlación de Pearson para todos los pares de variables de la lista en ROWV.

RECT

Calcular los coeficientes de correlación de Pearson para cada par de variables formado al tomar una variable de cada una de las dos listas en ROWV y COLV.

ROWVARS=(lista de variables)

Una lista de variables V o R a correlacionar (MATRIX=SQUARE) o la lista de variables de fila (MATRIX=RECTANGULAR).

Sin valor por defecto.

COLVARS=(lista de variables)

(Sólo MATRIX=RECTANGULAR).

Una lista de variables V o R a usar como variables de columna. Se escriben 8 columnas por página; si las listas de variables de columna o de fila tienen menos de 8 variables, es preferible (para facilidad de lectura del listado) tener la lista corta como la lista de variables de columna.

MDVALUES=BOTH /MD1/MD2/NONE

Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver el capítulo "El archivo Setup de IDAMS".

MDHANDLING=PAIR /CASE

Método para el manejo de datos faltantes.

PAIR

Eliminación por pares.

CASE

Eliminación por casos (no disponible con MATRIX=RECTANG).

WEIGHT=número de variable

Número de la variable de ponderación, si se van a ponderar los datos.

WRITE=(CORR, COVA)

Sólo MATRIX=SQUARE.

CORR

Escribir en un archivo de salida, la matriz de correlación con medias y desviaciones estándar.

COVA

Escribir en un archivo de salida, la matriz de covariancia con medias y desviaciones estándar.

PRINT=(CDICT/DICT, CORR /NOCORR, COVA, PAIR, REGR, XPRODUCTS)

CDIC

Imprimir el diccionario de entrada para las variables accedidas con registros C, si los hay.

DICT

Imprimir el diccionario de entrada sin registros C.

CORR

Imprimir la matriz de correlación.

COVA

Imprimir la matriz de covariancia.

PAIR

Imprimir estadísticas pareadas (sólo MATRIX=SQUARE).

REGR

Imprimir los coeficientes de regresión (sólo MATRIX=SQUARE).

XPRO

Imprimir la matriz de productos cruzados (sólo MATRIX=SQUARE).

33.8 Restricciones

Cuando se especifica MATRIX=SQUARE

El número máximo de variables permitido en una ejecución es 200. Este límite incluye todas las variables de análisis y variables usadas en proposiciones Recode.
Los números de las variables recodificadas no pueden exceder de 999 si se especifica el parámetro WRITE. (Salen como números negativos en la parte descriptiva de la matriz, la cual sólo tiene cuatro columnas reservadas para el número de variable, por ej. R862 saldría como -862).

Cuando se especifica MATRIX=RECTANGULAR

El número máximo de variables en la lista para filas o columnas es 100.
El máximo total variables de filas, columnas, variables usadas en Recode y variable de ponderación es 136.

33.9 Ejemplos

Ejemplo 1. Cálculo de una matriz cuadrada de coeficientes de correlación de Pearson, con eliminación de casos con datos faltantes por pares; la matriz se escribirá en un archivo de salida y se imprimirá.

$RUN PEARSON

$FILES

PRINT = PEARS1.LST

FT02 = BIRDCOR.MAT archivo Matriz de salida

DICTIN = BIRD.DIC archivo Diccionario de entrada

DATAIN = BIRD.DAT archivo Datos de entrada

$SETUP

MATRIZ DE COEFICIENTES DE CORRELACION

PRINT=(PAIR,REGR,CORR) WRITE=CORR ROWV=(V18-V21,V36,V55-V61)

Ejemplo 2. Cálculo de coeficientes de correlación de Pearson para las variables V10-V20, con las variables V5-V6.

$RUN PEARSON

$FILES

DICTIN = BIRD.DIC archivo Diccionario de entrada

DATAIN = BIRD.DAT archivo Datos de entrada

$SETUP

COEFICIENTES DE CORRELACION

MATRIX=RECT ROWV=(V10-V20) COLV=(V5-V6)

COEFICIENTE DE CORRELACIÓN -MOMENTO PRODUCTO- DE PEARSON

Medidas de Asociación y Regresión Lineal Simple

El estadístico se utiliza para:

1. Medir la asociación entre dos variables.

2. Determinar la recta de regresión.

3. Predecir e comportamiento de una variable (intervalo o razón) a partir del conocimiento de otra variable igual.

Contenidos:

1. Diagramas de dispersión

2. Correlación lineal de Pearson.

3. Correlación de Sperman y t de Kendall (variables ordinales)

4. Cálculo de la ecuación de regresión y sus propiedades.

Correlación lineal de Pearson.

Indica el grado en el cual una variable cuantitativa esta linealmente relacionada con una muestra. Cada individuo o cada caso debe tener puntajes en por lo menos dos variables cuantitativas.

El test de significancia de r evalúa si existe una relación lineal entre dos variables en la población. No se consideran en este ejercicio las correlaciones en las cuales una o dos variables son categóricas u ordinales.

Aplicaciones.

1. Existen dos variables y se quiere calcular el coeficiente de correlación entre ambas.

2. Existen múltiples variables entre un mismo grupo y se quiere calcular las correlaciones entre pares de variables de un mismo grupo.

3. Existe dos grupos de variables conceptualmente distintas y se quiere calcular las variables entre cada grupo y entre grupos diferentes.

DOS VARIABLES Y UN GRUPO DE DATOS.

Ana esta interesada en saber la relación existente, si alguna, entre la fortaleza de las piernas y la habilidad para correr. Ana obtuvo una muestra de cuarenta estudiantes de género masculino, de la clase de educación física de 5to año. Cada estudiante completo una serie de ejercicios de esfuerzo en una maquina. Ana calculo un índice de fortaleza de las piernas (IFP) que tomo en cuenta el desempeño de los estudiantes en la serie propuesta. Adicionalmente se le pidió a cada estudiante correr 200 mts. En línea recta y 200 mts en curva y zig-zag. Se calculo el índice de torpeza al correr (ITC), opuesto a la agilidad para correr, entendido como el total de segundos que le tomó recorrer la línea curva y en zig-zag menos el numero de segundos que le tomo en completar la carrera en línea recta. La data de Ana incluye, para los 40 casos, registros del IFP y del ITC.

UN GRUPO DE TRES O MÁS VARIABLES.

Juan esta interesado en investigar si las personas que tienen una visión positiva de si mismos en un determinado aspecto de su vida, tienden a tener una visión también positiva en otros aspectos de sus vidas.

Utilizo un cuestionario de cinco escalas diferentes que incluye ítems para las aspectos siguientes: 1. Relación consigo mismo, 2. relación con los demás, 3. sentido común, 4. razonamiento académico y 5.cuan competente se siente en general. Juan esta interesado en determinar las correlaciones entre los pares posibles, en total diez correlaciones.

DOS GRUPOS DE VARIABLES. Cada grupo contiene múltiples variables.

El director de personal de una compañía de seguros quiere saber si el test de personalidad aplicado a 50 vendedores de seguros en el momento de su contratación predice el desempeño en el trabajo.

El test de personalidad tiene tres escalas: 1. Extroversión, 2. Conciencia, y 3. Apertura. El desempeño en el trabajo fue medido con base a dos criterios: 1. Cantidad de seguros vendidos y 2. Calificación del supervisor.

El archivo de datos contiene dos grupos de variables para los 50 casos. Un grupo contiene las tres escalas predictoras y el otro grupo contiene los 2 criterios de desempeño.

Se procedió a calcular la correlación entre los grupos, pero principalmente la correlación existente entre los predoctores y los dos criterios de desempeño para un total de seis correlaciones.

Supuestos subyacentes

Las variables están normalmente distribuidas y son bivariadas. Si se cumple este supuesto la única correlación que puede existir entre las variables es una correlación lineal. Si se viola el supuesto existe una correlación no lineal, lo cual es importante determinar antes de describir los resultados. La relación no lineal se puede apreciar visualmente examinando el diagrama de dispersión.
Los casos representan una muestra al azar de la población y los puntajes de las variables para un caso son independientes de los puntajes de esta variable para los otros casos. Si se viola el supuesto de independencia el test de significancia de la correlación no debe ser calculado.

Pregunta de investigación.

¿Los hombres que se sienten confiados en un aspecto de su vida tienden a sentirse confiados en otros aspectos?
¿Los que se sienten inseguros en un aspecto de su vida tienden a sentirse inseguros en otros aspectos de su vida?

Calculando el efecto estadístico.

El índice calculado va de un rango de -1 a +1 . Este coeficiente indica el grado en el que los puntajes bajos o altos en una variable tienden a ir relacionados con los puntajes bajos o altos de otra variable. Un puntaje se considera bajo o alto en la medida que dicho puntaje cae por debajo o por encima de la media del puntaje de la otra variable.

Si r es positivo los puntajes bajos de la variable A tienden a asociarse con los puntajes bajos en B al igual que los puntajes altos en A se relacionan con los puntajes altos en B

Si r es igual 0 los puntajes bajos de la variable A tienden a asociarse con los puntajes bajos o altos en B, y los puntajes altos en A tienden a asociarse igualmente con puntajes altos o bajos en B

Si r es negativo los puntajes bajos de la variable A tienden a asociarse con los puntajes altos en B al igual que los puntajes altos en A se relacionan con los puntajes bajos en B

¿Que valor indica una fuerte relación entre dos variable?

0.10 = baja correlación/ 0.20 = Correlación media / 0.50 Correlación alta en ciencias de la conducta independientemente del signo.

Si una variable es considerada como predictor y la otra variable se considera como el criterio, podemos elevar la correlación al cuadrado para interpretar la fuerza de la correlación en términos de proporción...

El cuadrado de la correlación nos da la proporción en que la varianza de la variable de criterio cuenta en su relación lineal con la variable predictora.

Ej.: Si A es el predictor y B es el criterio y la correlación es igual a 0.40, podemos concluir que el 16 por ciento de la varianza (0.40)² de la variable A es explicada por su relación lineal con la variable B

Pearson coeficiente de correlación

De Wikipedia, la enciclopedia libre

Saltar a navegación , búsqueda

En las estadísticas , el Pearson coeficiente de correlación (a veces referido como el PPMCC o PCC ^[1] , o de Pearson r, y normalmente se denota por r) es una medida de la correlación (dependencia lineal) entre dos variables X e Y , dando un valor entre 1 y -1 inclusiva. Se utiliza ampliamente en las ciencias como una medida de la fuerza de la dependencia lineal entre dos variables. Fue desarrollado por Karl Pearson en una idea similar pero ligeramente diferente introducido por Francis Galton en la década de 1880. ^[2] ^[3]

Varios conjuntos de (x, y) puntos, con el coeficiente de correlación de X e Y para cada conjunto. Nótese que la correlación refleja la no linealidad y la dirección de una relación lineal (fila superior), pero no la pendiente de esta relación (medio), ni muchos aspectos de las relaciones no lineales (parte inferior). Nota: la figura en el centro tiene una pendiente de 0 pero en ese caso, el coeficiente de correlación es indefinido debido a la variación de Y es cero.

Contents Contenido

[hide]

1 Definition 1 Definición

4 Inference 4 Inferencia

[ edit ] Definition [ editar ] Definición

Coeficiente de correlación de Pearson entre dos variables se define como la covarianza de las dos variables divididos por el producto de sus desviaciones estándar

[ edit ] For a population [ editar ] Para una población

ρ Coeficiente de correlación de Pearson cuando se aplica a una población que comúnmente representado por la letra griega ρ (rho) y puede ser conocido como el coeficiente de correlación de la población o el coeficiente de correlación de Pearson de la población. ρ La fórmula para ρ es:

[ edit ] For a sample [ editar ] En una muestra

Coeficiente de correlación de Pearson cuando se aplica a una muestra es comúnmente representada por la letra R y puede ser denominado como el coeficiente de correlación de la muestra o el coeficiente de correlación de Pearson muestra. Podemos obtener una fórmula para r mediante la sustitución de las estimaciones de las covarianzas y varianzas basadas en una muestra en la fórmula anterior. La fórmula para r es:

Una expresión equivalente da el coeficiente de correlación como la media de los productos de las puntuaciones estándar . Basado en una muestra de pares de datos (x _i, y _i), el coeficiente de correlación de Pearson de la muestra es

donde

son el puntaje estándar , muestra de media , y la muestra la desviación estándar , respectivamente.

[ edit ] Mathematical properties [ editar ] Propiedades matemáticas

El valor absoluto de la muestra y la población coeficientes de correlación de Pearson son menores o iguales a 1. Las correlaciones iguales a 1 o -1 corresponden a puntos de datos situadas exactamente en una línea (en el caso de la correlación de la muestra), o para una distribución bivariada totalmente apoyado sobre una línea (en el caso de la correlación de la población). El coeficiente de correlación de Pearson es simétrica: corr (X, Y) = corr (Y, X).

Una característica clave matemática del coeficiente de correlación de Pearson es que es invariante (hasta un signo) para separar los cambios en la ubicación y la escala en las dos variables. Esto es, se puede transformar X a A + BX y transformar Y para c + dy, donde a, b, c, yd son constantes, sin cambiar el coeficiente de correlación (este hecho es válido para la población y muestra coeficientes de correlación de Pearson) . Tenga en cuenta que las transformaciones lineales más generales hacen cambiar la correlación: ver una sección posterior de una solicitud de este.

La correlación de Pearson se puede expresar en términos de momentos no centradas. μ _Xσ _X Desde μ _X = E (X), σ _X ² = E [(X - E (X)) ^2] = E (X ²⁾ - E ² (X) y también de Y, y desde

la correlación también se puede escribir como

Fórmulas alternativas para el coeficiente de correlación de Pearson de la muestra también están disponibles:

La fórmula anterior sugiere una conveniente una sola pasada algoritmo para calcular correlaciones de muestra, pero, dependiendo de los números implicados, a veces puede ser numéricamente inestable .

[ edit ] Interpretation [ editar ] Interpretación

El coeficiente de correlación oscila entre -1 a 1. Un valor de 1 implica que una ecuación lineal describe la relación entre X e Y a la perfección, con todos los puntos de datos se extiende sobre una línea para la que Y aumenta a medida que X aumenta. Un valor de -1 implica que todos los puntos de datos se encuentran en una línea para la que Y disminuye a medida que X aumenta. Un valor de 0 implica que no hay una correlación lineal entre las variables.

Más en general, en cuenta que _(i X - X) (Y _i - Y) es positivo si y sólo si X e Y _i mentira _i en el mismo lado de sus respectivos medios. Así, el coeficiente de correlación es positivo si X _i y Y _i tienden a ser simultáneamente mayor que, o simultáneamente a menos de, sus respectivos medios. El coeficiente de correlación es negativo si X _i e Y _i tienden a estar en lados opuestos de sus respectivos medios.

[ edit ] Geometric interpretation [ editar ] Interpretación geométrica

Líneas de regresión de y = g _{x (x)} [rojo] y x = g _{y (y)} [azul]

Para los datos no centradas, el coeficiente de correlación se corresponde con el coseno del ángulo entre las dos posibles líneas de regresión y = g _x (x) y x = g _{y (y).}

Para los datos centrados (es decir, los datos que han sido desplazadas por la media de la muestra a fin de tener un promedio de cero), el coeficiente de correlación también puede ser visto como el coseno del ángulo entre los dos vectores de muestras extraídas de las dos variables aleatorias (véase más adelante).

^who?^] Algunos practicantes ^[^¿quién?^] prefieren un coeficiente de correlación uncentered (no compatible con Pearson). Vea el siguiente ejemplo para una comparación.

A modo de ejemplo, supongamos que cinco países se encontró que el producto nacional bruto de 1, 2, 3, 5 y 8 dólares millones de dólares, respectivamente. Supongamos que estos mismos cinco países (en el mismo orden) se encontró que el 11%, 12%, 13%, 15% y el 18% de la pobreza. Entonces deja xey se ordenó 5-elemento vectores que contienen los datos anteriores: x = (1, 2, 3, 5, 8), y = (0,11, 0,12, 0,13, 0,15, 0,18).

Mediante el procedimiento habitual para encontrar el ángulo entre dos vectores (ver producto punto ), el coeficiente de correlación uncentered es la siguiente:

Nótese que los datos anteriores fueron elegidos deliberadamente para ser perfectamente correlacionados: y = 0,10 + 0,01 x. El coeficiente de correlación de Pearson por lo tanto, debe ser exactamente uno. Centrando los datos (cambio de x por E (x) = 3,8 e y por e (y) = 0.138) se obtiene x = (-2,8, -1,8, -0,8, 1,2, 4,2) ey = (-0.028, -0.018, -0,008, 0,012, 0,042), de la cual

como se esperaba.

[ edit [ editar ] Interpretación del tamaño de una correlación

Correlation Correlación	Negative Negativo	Positive Positiva
None Ninguno	−0.09 to 0.0 -0,09 A 0,0	0.0 to 0.09 0,0 a 0,09
Small Pequeño	−0.3 to −0.1 -0,3 A -0,1	0.1 to 0.3 0,1 a 0,3
Medium Medio	−0.5 to −0.3 -0,5 A -0,3	0.3 to 0.5 0,3 a 0,5
Strong Fuerte	−1.0 to −0.5 -1,0 A -0,5	0.5 to 1.0 0,5 a 1,0

Varios autores ^[4] ^[5] han ofrecido directrices para la interpretación de un coeficiente de correlación. ^{[ 5 ]} Sin embargo, todos estos criterios son de alguna manera arbitraria y no se debe observar muy estrictamente. ^[5] La interpretación de un coeficiente de correlación depende del contexto y los fines. Una correlación de 0,9 puede ser muy baja si se está verificando una ley física utilizando instrumentos de alta calidad, pero puede considerarse como muy alta en las ciencias sociales, donde puede haber una mayor contribución de los factores de complicación.

[ edit ] Pearson's distance [ editar distancia] de Pearson

Una métrica de distancia de dos variables X e Y se conocen como la distancia de Pearson se puede definir a partir de su coeficiente de correlación como ^[6]

Teniendo en cuenta que el coeficiente de correlación de Pearson se sitúa entre [-1, 1], la distancia de Pearson se encuentra en [0, 2].

[ edit ] Inference [ editar ] Inferencia

Un gráfico que muestra el valor mínimo del coeficiente de correlación de Pearson que es significativamente diferente de cero en el nivel de 0,05, para un determinado tamaño de muestra.

La inferencia estadística basada en el coeficiente de correlación de Pearson se centra a menudo en uno de los dos objetivos siguientes:

One aim is to test the null hypothesis that the true correlation coefficient ρ Uno de los objetivos es poner a prueba la hipótesis nula que el coeficiente de correlación ρ verdadero es igual a 0, basado en el valor de la muestra coeficiente de correlación r.
The other aim is to construct a confidence intervalρ . El otro objetivo es construir un intervalo de confianza alrededor de R que tiene una determinada probabilidad de que contenga ρ.

Se discuten métodos para lograr una o ambas de estas finalidades por debajo.

[ edit ] Use a permutation test [ editar ] Usar una prueba de permutación

Pruebas de permutación proporcionar un enfoque directo a la realización de las pruebas de hipótesis y construir intervalos de confianza. Una prueba de permutación para el coeficiente de correlación de Pearson involucra a los dos pasos siguientes:

(I) usando los datos originales en pares (x _i, y _i), al azar redefinir las parejas para crear un nuevo conjunto de datos (x _i, y _{i '),} donde la i' es una permutación del conjunto {1, .. ., n}. La permutación i 'se ha seleccionado al azar, con probabilidades iguales colocadas en todos los n! possible permutations. permutaciones posibles. Esto es equivalente a la elaboración de la i-azar "sin sustitución" del conjunto {1, ..., n}. bootstrapping Un estrechamente relacionadas y son justificados por igual ( bootstrapping ) consiste en elaborar por separado la i y la "i" con sustitución "de {1, ..., n};
(Ii) Construir un coeficiente de correlación r de los datos aleatorios.

Para realizar la prueba de permutación, repetir (i) y (ii) un gran número de veces. El valor de p para la prueba de permutación es uno menos la proporción de los valores r generados en la etapa (ii) que son más grandes que el coeficiente de correlación de Pearson que se calcula a partir de los datos originales. Aquí "grande" puede significar tanto que el valor es mayor en magnitud, o mayor en valor firmado, dependiendo de si uno de dos lados o caras una prueba que se desea.

[ edit ] Use a bootstrap [ editar ] Con un arranque

El arranque se puede utilizar para construir intervalos de confianza para el coeficiente de correlación de Pearson. En el "no-paramétrica" de arranque, n pares (x _i, y _i) se vuelven a muestrear "con sustitución" de la serie observada de n pares, y el coeficiente de correlación r se calcula sobre la base de los datos resampled. Este proceso se repite un número grande de veces, y la distribución empírica de los valores r resampled se utilizan para aproximar la distribución de muestreo de la estadística. ρ Un 95% intervalo de confianza para ρ se puede definir como el intervalo que va desde el 2,5 al ^{ª ª} 97,5 percentil de los valores r resampled.

[ edit [ editar ] Pruebas con la t de Student de distribución

Para los pares de una no correlacionada distribución normal bivariada , la distribución muestral del coeficiente de correlación de Pearson sigue la t de Student de distribución con grados de libertad n - 2. En concreto, si las variables subyacentes tienen una distribución normal bivariante, la variable

tiene una de distribución t de Student en el caso nulo (cero correlación). ^[7] Esto también es de aproximadamente, incluso si los valores observados no son normales, siempre que los tamaños de muestra que no son muy pequeñas. ^[8] Para la determinación de los valores críticos de r la inversa de esta transformación también se necesita:

Alternativamente, los enfoques de muestra grandes se pueden utilizar.

ρ Los primeros trabajos sobre la distribución del coeficiente de correlación de la muestra se llevó a cabo por RA Fisher ^[9] ^[10] y AK Gayen. ^[11] Otro documento de principios ^[12] ofrece gráficos y tablas de valores generales de ρ, para tamaños de muestra pequeños, y analiza los enfoques computacionales.

[ edit ] Use the exact distribution [ editar ] El uso de la distribución exacta

Para los datos que siguen una distribución normal bivariada , la función de densidad exacta de la correlación de la muestra de una normal bivariante es ^[13] ^[14]

donde es la función gamma , es la función hipergeométrica de Gauss . En el caso especial cuando , La densidad se puede escribir como:

donde es la función beta , que es una forma de escribir la densidad de una t de Student de distribución, como anteriormente.

^{citation needed}^] Tenga en cuenta que ^[^{cita requerida}^] , Por lo tanto, r es un estimador sesgado de la . Un estimador aproximadamente insesgado puede obtenerse mediante la resolución de la ecuación para . Sin embargo, la solución, ^{citation needed}^]^{citation needed}^]^{citation needed}^] , ^[^{cita requerida}^] es subóptima. ^[^{cita requerida}^] Un estimador aproximado imparcial, ^[^{cita requerida}^] con una variación mínima para valores grandes de n, con un sesgo de orden , Puede obtenerse mediante la maximización , Es decir ^{citation needed}^] . ^[^{cita requerida}^]

[ edit ] Use the Fisher transformation [ editar ] El uso de la transformación Fisher

En la práctica, los intervalos de confianza y pruebas de hipótesis relacionadas con ρ suelen llevarse a cabo mediante la transformación de Fisher :

Si F (r) es la transformación de Fisher de r, y n es el tamaño de la muestra, entonces F (r) sigue aproximadamente una distribución normal con

y el error estándar

Por lo tanto, un z-score es

bajo la hipótesis nula de que , Dado el supuesto de que los pares de muestras son independientes y se distribuyen de forma idéntica y seguir una distribución normal bivariada . Así, un aproximado de p-valor puede obtenerse a partir de una tabla de probabilidad normal. Por ejemplo, si z = 2,2 se observa y una de dos caras p-valor que se desea poner a prueba la hipótesis nula de que , El valor de p es 2 · Φ (-2,2) = 0,028, donde Φ es el estándar normal de la función de distribución acumulada .

Para obtener un intervalo de confianza para ρ, primero calculamos un intervalo de confianza para F ( ):

La transformación inversa de Fisher devolver al intervalo de la escala de correlación.

Por ejemplo, supongamos que observamos r = 0,3 con un tamaño de muestra de n = 50, y queremos obtener un intervalo de confianza del 95% para ρ. El valor es transformado artanh (r) = 0,30952, por lo que el intervalo de confianza en la escala transformada es 0,30952 ± 1,96 / √ 47, o (0.023624, 0.595415). Convertir de nuevo a los rendimientos de escala de correlación (0,024, 0,534).

[ edit [ editar correlación] de Pearson y el análisis de mínimos cuadrados de regresión

El cuadrado del coeficiente de correlación de la muestra, que también se conoce como el coeficiente de determinación , calcula la fracción de la varianza en Y que se explica por X en una regresión lineal simple . Como punto de partida, la variación total en el _Yi en torno a su valor promedio se puede descomponer de la siguiente manera

donde el son los valores ajustados a partir del análisis de regresión. Esto puede ser reorganizado para dar

Los dos sumandos anteriores son la fracción de la varianza en Y que se explica por X (derecha) y que no se explica por X (izquierda).

A continuación, aplicar una propiedad de los mínimos cuadrados de modelos de regresión, que la covarianza muestral entre y es cero. Así, el coeficiente de correlación muestral entre los valores de respuesta observados y ajustados en la regresión puede escribirse

Así

es la proporción de variación en Y explicada por una función lineal de X.

[ edit ] Sensitivity to the data distribution [ editar ] La sensibilidad a la distribución de datos

[ edit ] Existence [ editar ] Existencia

El coeficiente de correlación de Pearson población se define en términos de momentos , y por lo tanto, existe para cualquier bivariado distribución de probabilidad para que la población covarianza se define y los marginales varianzas de población se definen y son no-cero. Algunas distribuciones de probabilidad, como la distribución de Cauchy tienen varianza indefinido y, por tanto ρ no se define si X o Y sigue una distribución. En algunas aplicaciones prácticas, tales como las que implican los datos sospechosos de seguir una distribución de cola pesada , esta es una consideración importante. Sin embargo, la existencia del coeficiente de correlación no es generalmente una preocupación, por ejemplo, si el rango de la distribución está limitada, ρ se define siempre.

[ edit ] Large sample properties [ editar ] Las grandes propiedades de la muestra

En el caso de la bivariado distribución normal el coeficiente de correlación de Pearson población caracteriza la distribución conjunta, siempre y cuando los medios marginales y varianzas son conocidos. Para la mayoría de distribuciones bivariadas otros esto no es cierto. Sin embargo, el coeficiente de correlación es muy informativo sobre el grado de dependencia lineal entre dos cantidades al azar, independientemente de si su distribución conjunta es normal. ^[2] El coeficiente de correlación de la muestra es la estimación de máxima verosimilitud del coeficiente de correlación de dos variables de la población normal de los datos, y es asintóticamente insesgado y eficiente , que a grandes rasgos significa que es imposible construir una estimación más precisa que el coeficiente de correlación de la muestra si los datos son normales y el tamaño de la muestra es moderado o grande. Para las poblaciones no normales, el coeficiente de correlación de la muestra se mantiene aproximadamente imparcial, pero no puede ser eficiente. El coeficiente de correlación muestral es un estimador consistente del coeficiente de correlación de la población, siempre y cuando la muestra de medias, varianzas y covarianza son consistentes (que está garantizada cuando la ley de grandes números se puede aplicar).

[ edit ] Robustness [ edit ] Robustez

^{citation needed}^]^{[ 15 ]} Al igual que muchas estadísticas de uso común, el r estadística de la muestra no es robusta , ^[15] por lo que su valor puede ser engañosa si los valores atípicos están presentes. ^[16] ^[17] En concreto, el PMCC no es ni distributivos robusta, ^[^{cita requerida}^], ni resistente al valor atípico ^[15] (ver estadísticos robustos # Definición ). La inspección de la dispersión entre X e Y por lo general revela una situación en la falta de solidez puede ser un problema, y en tales casos puede ser aconsejable utilizar una medida robusta de la asociación. Note sin embargo que, si bien la mayoría de los estimadores robustos de medida de asociación dependencia estadística de alguna manera, generalmente no son interpretables en la misma escala que el coeficiente de correlación de Pearson.

La inferencia estadística para el coeficiente de correlación de Pearson es sensible a la distribución de datos. Pruebas precisas, y las pruebas asintóticas basadas en la transformación de Fisher se puede aplicar si los datos son aproximadamente una distribución normal, pero puede ser incierta. En algunas situaciones, el arranque se puede aplicar para construir intervalos de confianza, y pruebas de permutación se puede aplicar para llevar a cabo las pruebas de hipótesis. Estos no paramétricas enfoques pueden dar resultados más significativos en algunas situaciones en las que la normalidad bivariada no se sostiene. Sin embargo, las versiones estándar de estos enfoques se basan en la intercambiabilidad de los datos, lo que significa que no hay orden o la agrupación de los pares de datos analizados que podrían afectar al comportamiento de la estimación de correlación.

Un análisis estratificado es una manera de acomodar ya sea una falta de normalidad bivariada, o para aislar la correlación resultante de un factor de tiempo que controla para otro. Si W representa la pertenencia al clúster o de otro factor que es deseable para el control, se puede estratificar los datos basados en el valor de W, a continuación, calcular un coeficiente de correlación dentro de cada estrato. Las estimaciones por estrato de nivel se pueden combinar para estimar la correlación general mientras que el control de W. ^[18]

[ edit ] Calculating a weighted correlation [ editar ] Cálculo de una correlación ponderada

Supongamos que las observaciones que se correlacionan tienen diferentes grados de importancia que se pueden expresar con un vector de pesos w. Para calcular la correlación entre los vectores x e y con el vector de pesos w (todos de longitud n), ^[19] ^[20]

Weighted mean: Media ponderada de:

Weighted covariance Covarianza ponderada

Weighted correlation Correlación ponderada

[ edit ] Removing correlation [ editar ] Extracción de la correlación

Siempre es posible eliminar la correlación entre las variables aleatorias con una transformación lineal, incluso si la relación entre las variables no es lineal. Una presentación de este resultado para distribución de la población está dada por Cox y Hinkley. ^[21]

Un resultado correspondiente exista para las correlaciones de la muestra, en la que la correlación de la muestra se reduce a cero. Supongamos que un vector de n variables aleatorias se realiza un muestreo de m veces. Sea X una matriz donde es la variable j ª de la muestra i. Dejar ser un m por m matriz cuadrada con todos los elementos 1. Entonces D es los datos transformados de modo que cada variable aleatoria tiene media cero, y T es los datos transformados por lo que todas las variables tienen una correlación media cero y cero con todas las otras variables - la matriz de momentos de T será la matriz de identidad. Esto tiene que ser dividida por la desviación estándar para obtener la varianza unidad. Las variables transformadas se correlacionados, aunque no puede ser independiente .

donde un exponente de -1 / 2 representa la raíz matriz cuadrada de la inversa de una matriz. La matriz de covarianza de T será la matriz de identidad. Si una nueva muestra de datos x es un vector fila de n elementos, entonces la transformada mismo se puede aplicar a x para obtener la transformada vectores D y T:

Esta descorrelación está relacionado con análisis de componentes principales para datos multivariantes.

[ edit ] Reflective correlation [ editar ] correlación reflectante

^{citation needed}^] La correlación de reflexión es una variante de correlación de Pearson en la que los datos no están centradas en torno a sus valores medios. ^{[ cita requerida ]} La correlación de la población es reflexiva

La correlación reflectante es simétrica, pero no es invariante bajo traducción:

La correlación de la muestra es reflectante

La versión ponderada de la correlación de la muestra es reflectante

[ edit ] Scaled correlation [ editar ] correlación con escala

Main article: Scaled correlation Artículo principal: la correlación en escala

Correlación escalado es una variante de correlación de Pearson en el que se restringe el rango de los datos intencionadamente y de una manera controlada para revelar las correlaciones entre los componentes rápidos en series de tiempo. ^[22] correlación escalado se define como la correlación media a través de segmentos cortos de datos.

Dejar ser el número de segmentos que pueden encajar en la longitud total de la señal para una escala dada :

La correlación escala a través de las señales enteras Se calcula entonces como

donde es el coeficiente de correlación de Pearson para el segmento .

Al elegir el parámetro , El rango de valores se reduce y las correlaciones a escala mucho tiempo se filtran, sólo las correlaciones en escalas de tiempo cortos siendo revelado. Así, las contribuciones de los componentes lentos se eliminan y los de componentes rápido se retienen.

[ edit ] See also [ editar ] Véase también

Statistics portal Estadísticas del portal

Wikiversidad ha materiales educativos acerca de la correlación lineal

[ edit ] References [ editar ] Referencias

1. ^ "La red de las enfermedades humanas", Albert Barabási et al., Plos.org

2. ^a^b ^ ^un^b JL Rodgers y Nicewander WA. Trece maneras de mirar el coeficiente de correlación . El Estadístico de América, 42 (1) :59-66, febrero de 1988.

3. ^ Stigler, Stephen M. (1989). "Francis Galton cuenta de la invención de la correlación" de Estadística Ciencia 4 (2):. 73-79. doi : 10.1214/ss/1177012580 . JSTOR 2245329 .

4. ^ A. Buda y A.Jarynowski (2010) La vida en tiempo de correlaciones y de sus aplicaciones vol.1, Wydawnictwo Niezalezne: 5-21, Diciembre 2010, ISBN 978-83-915272-9-0

5. ^a^b ^ ^un^b Cohen, J. (1988). análisis de poder estadístico para las ciencias de la conducta (2 ª ed.)

6. ^ Fulekar (Ed.), MH (2009) Bioinformática: aplicaciones en la vida y de las Ciencias del Medio Ambiente, Springer (pp. 110) ISBN 1-4020-8879-5

7. ^ Rahman, NA (1968) Un curso de Estadística Teórica, Charles Griffin y Compañía, 1968

8. ^ Kendall, MG, Stuart, A. (1973) La Teoría Avanzada de Estadística, Volumen 2: inferencia y relación, Griffin. ISBN 0-85264-215-6 (Sección 31.19)

9. ^ Fisher, RA (1915). 10 "Distribución de frecuencias de los valores del coeficiente de correlación en las muestras de una población indefinidamente grande". Biometrika 10 (4): 507-521. doi : 10.1093/biomet/10.4.507 .

10. 1 ^ Fisher, RA . (1921) "Sobre el error probable de un coeficiente de correlación deduce de una pequeña muestra" ( PDF ). Metron 1 (4):. 3-32 http://hdl.handle.net/2440/ 15169 . Consultado el 03/25/2009.

11. ^ Gayen, AK (1951). 38 "La distribución de frecuencias del coeficiente de correlación producto momento en muestras aleatorias de cualquier tamaño extraer de universos no-normales". Biometrika 38:. 219-247 doi : 10.1093/biomet/38.1-2.219 .

12. ^ Soper, HE, joven, AW, Cueva, BM, Lee, A., Pearson, K. (1917). "En la distribución del coeficiente de correlación en pequeñas muestras. El Apéndice II a los papeles de" Estudiante "y RA Fisher. Un estudio cooperativo", Biometrika , 11, 328-413. doi: 10.1093/biomet/11.4.328

13. ^ Kenney, JF y mantener, ES, Matemática de la Estadística, Pt. 2, 2 ª ed. Princeton, NJ: Van Nostrand, 1951.

14. ^ Coeficiente de Correlación - distribución normal bivariada

15. ^a^b ^ ^un^b Wilcox, R. Rand (2005). Introducción a la estimación robusta y pruebas de hipótesis. Academic Press.

16. ^ Devlin, Susan J; Gnanadesikan, R; Kettenring JR (1975). "Estimación robusta y detección de valores atípicos con coeficientes de correlación" Biometrika 62 (3):. 531-545. doi : 10.1093/biomet/62.3.531 . JSTOR 2335508 .

17. ^ Huber, Pedro. J. (2004). Los estadísticos robustos. Wiley. ^{[ page needed ]} ^{[
la página es necesario ]}

18. ^ . Katz, Mitchell H. (2006) Análisis multivariante - Una guía práctica para los médicos. 2 ª Edición. Cambridge University Press. ISBN 978-0-521-54985-1 . ISBN 0-521 hasta 54.985-X doi : 10.2277/052154985X

19. ^ http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html

20. ^ Una caja de herramientas de MATLAB para el cálculo de coeficientes de ponderación de correlación

21. ^ Cox, DR, Hinkley, DV (1974) Estadística Teórica, Chapman & Hall (Apéndice 3) ISBN 0-412-12420-3

22. ^ D Nikolić, Muresan RC, Feng W, W Singer (2012) el análisis de correlación escala:. una mejor manera de calcular una cruzada correlograma European Journal of Neuroscience, pp 1-21,

MÉTODOS

jueves, 7 de junio de 2012

CORRELACION-1

No hay comentarios:

Publicar un comentario

Translate