Correlación
La correlación es una de las estadísticas
más comunes y más útiles. Una correlación es un número único que describe el grado de
relación entre dos variables.
Vamos a trabajar a través de un ejemplo para mostrar cómo se calcula esta
estadística.
Correlación Ejemplo
Supongamos que queremos
ver en la relación entre dos variables, la altura (en pulgadas) y la
autoestima. Tal vez tenemos una
hipótesis de que la altura que son los efectos de su autoestima (por cierto, no
creo que tengamos que preocuparnos acerca de la dirección de la causalidad aquí
- no es probable que la autoestima hace que su altura). Digamos que recoger
algo de información sobre las veinte personas (todos hombres - sabemos que la
altura promedio es diferente para hombres y mujeres que, para mantener este
sencillo ejemplo sólo tendremos que usar los hombres). La altura se mide en
pulgadas. La autoestima se mide con base en el promedio de 10 1-a-5
puntos de calificación (donde las puntuaciones más altas significan una
autoestima más alta). Aquí están los datos de los 20 casos
(no te lo tomes demasiado en serio - que hice estos datos para ilustrar lo que
la correlación es):
Persona
|
Altura
|
Autoestima
|
1
|
68
|
4.1
|
2
|
71
|
4.6
|
3
|
62
|
3.8
|
4
|
75
|
4.4
|
5
|
58
|
3.2
|
6
|
60
|
3.1
|
7
|
67
|
3.8
|
8
|
68
|
4.1
|
9
|
71
|
4.3
|
10
|
69
|
3.7
|
11
|
68
|
3.5
|
12
|
67
|
3.2
|
13
|
63
|
3.7
|
14
|
62
|
3.3
|
15
|
60
|
3.4
|
16
|
63
|
4.0
|
17
|
65
|
4.1
|
18
|
67
|
3.8
|
19
|
63
|
3.4
|
20
|
61
|
3.6
|
Ahora, echemos un rápido vistazo el
histograma para cada variable:
Y, aquí están las estadísticas descriptivas:
Variable
|
Media
|
StDev
|
Diferencia
|
Suma
|
Mínimo
|
Máximo
|
Serie
|
Altura
|
65,4
|
4,40574
|
19.4105
|
1308
|
58
|
75
|
17
|
Autoestima
|
3,755
|
0.426090
|
0.181553
|
75,1
|
3.1
|
4.6
|
1.5
|
Por último, vamos a ver lo simple bivariado
(es decir, de dos variables) Argumento:
Usted debe consultar inmediatamente en el
gráfico de dos variables que la relación entre las variables es positiva (si usted
no puede ver que, revise la sección sobre los
tipos de relaciones ), porque si tuviera que adaptarse a una sola línea
recta a través de los puntos lo haría tienen una pendiente positiva o moverse
de izquierda a derecha. Dado que la correlación no es
más que una estimación cuantitativa de la relación, podríamos esperar una
correlación positiva.
¿Qué significa una "relación
positiva" en este contexto? Esto significa que, en general,
las puntuaciones más altas en una variable tienden a ser emparejado con
puntuaciones más altas en el otro y que las puntuaciones más bajas en una
variable tienden a ser emparejado con puntuaciones más bajas en el otro. Debe confirmar visualmente que esto es
generalmente cierto en el diagrama anterior.
Cálculo de la correlación
Ahora estamos listos para calcular el valor de correlación. La
fórmula para la correlación es:
Utilizamos el símbolo r en reposo durante
la correlación. A
través de la magia de las matemáticas resulta que r siempre estará entre -1,0 y
1,0.
si la correlación es negativa, tenemos una relación negativa, y si es positivo,
la relación es positiva.
Usted no necesita saber cómo se nos ocurrió esta fórmula a menos que quieras
ser un estadista. Pero es probable que necesites saber
cómo la fórmula se refiere a los datos reales - cómo se puede utilizar la
fórmula para calcular la correlación. Echemos un vistazo a los datos
que necesitamos para la fórmula. Aquí están los datos
originales con las columnas necesarias otras:
Persona
|
Altura (x)
|
Autoestima (y)
|
x * y
|
x * x
|
y * y
|
1
|
68
|
4.1
|
278,8
|
4624
|
16,81
|
2
|
71
|
4.6
|
326,6
|
5041
|
21,16
|
3
|
62
|
3.8
|
235,6
|
3844
|
14,44
|
4
|
75
|
4.4
|
330
|
5625
|
19,36
|
5
|
58
|
3.2
|
185,6
|
3364
|
10,24
|
6
|
60
|
3.1
|
186
|
3600
|
9,61
|
7
|
67
|
3.8
|
254,6
|
4489
|
14,44
|
8
|
68
|
4.1
|
278,8
|
4624
|
16,81
|
9
|
71
|
4.3
|
305,3
|
5041
|
18,49
|
10
|
69
|
3.7
|
255,3
|
4761
|
13,69
|
11
|
68
|
3.5
|
238
|
4624
|
12,25
|
12
|
67
|
3.2
|
214,4
|
4489
|
10,24
|
13
|
63
|
3.7
|
233,1
|
3969
|
13,69
|
14
|
62
|
3.3
|
204,6
|
3844
|
10,89
|
15
|
60
|
3.4
|
204
|
3600
|
11,56
|
16
|
63
|
4
|
252
|
3969
|
16
|
17
|
65
|
4.1
|
266,5
|
4225
|
16,81
|
18
|
67
|
3.8
|
254,6
|
4489
|
14,44
|
19
|
63
|
3.4
|
214,2
|
3969
|
11,56
|
20
|
61
|
3.6
|
219,6
|
3721
|
12,96
|
Suma =
|
1308
|
75,1
|
4937.6
|
85912
|
285,45
|
Las primeras tres columnas son los mismos que en
el cuadro anterior.
Las siguientes tres columnas son simples cálculos basados en datos de la
altura y la autoestima. La fila inferior consta de la suma
de cada columna. Esta es toda la
información que necesitamos para calcular la correlación. Estos son los valores de la fila inferior de la tabla (donde N
es de 20 personas), ya que están relacionados con los símbolos de la fórmula:
Ahora, cuando nos conectamos estos valores en la fórmula anterior,
obtenemos lo siguiente (yo lo muestro aquí tediosamente, un paso a la vez):
Por lo tanto, la
correlación de los veinte casos es 0,73, que es una relación positiva bastante
fuerte. Creo que
hay una relación entre la altura y la autoestima, al menos en esta compuesto
por los datos!
Prueba de la significación de una correlación
Una vez que haya calculado una correlación, se puede determinar la probabilidad
de que la correlación observada se produjo por casualidad. hipótesis
:
Es decir, se puede llevar a cabo una prueba de significación.
Mayoría de las veces usted está interesado en determinar la probabilidad de que
la correlación es real y no una casualidad. En este caso, está probando los que se excluyen mutuamente
Hipótesis nula:
|
r = 0
|
Hipótesis Alternativa:
|
r <> 0
|
La forma más fácil de
probar esta hipótesis es encontrar un libro de estadística que tiene una tabla
de valores críticos de r. nivel
de significación . Aquí, voy a utilizar el
nivel de significación común de alfa = 0,05. Esto
quiere decir que estoy llevando a cabo una prueba en la que las probabilidades
de que la correlación es una casualidad no es más que 5 de cada 100. Antes de
buscar el valor crítico en una mesa que también tienen que calcular los grados
de libertad o df. El DF es simplemente
igual a N-2 o, en este ejemplo, es 20-2 = 18. Por último, tengo que decidir si estoy haciendo una de
una cola o dos
colas de prueba. En este ejemplo, ya que no tengo ninguna teoría sólida
antes de que sugieran que la relación entre la altura y la autoestima sería
positivo o negativo, voy a optar por la prueba de dos colas. Con estos tres datos: el nivel de significación (alfa = 0.05)),
grados de libertad (df = 18), y el tipo de prueba (dos colas) - Ahora puede probar
la significancia de la correlación que encontré . Cuando
miro hacia este valor en la tabla de pequeño y práctico en la parte trasera de
mi libro de estadística me parece que el valor crítico es 0.4438. Esto significa que si mi relación es mayor que o menor que
0,4438 - 0,4438 (recuerde, esta es una prueba de dos colas) puedo concluir que
las probabilidades son menores que 5 de cada 100 que se trata de una
casualidad. Desde mi relación 0f 0.73 es en realidad un
poco más alto, llego a la conclusión de que no es un hallazgo casual y que la
correlación es "estadísticamente significativa" (teniendo en cuenta
los parámetros de la prueba). Puedo rechazar la
hipótesis nula y aceptar la alternativa. La mayoría
de textos de estadística de introducción tendría una tabla como ésta. Al igual que en todas las pruebas de hipótesis, es necesario
determinar primero el
La matriz de correlación
Todo lo que he mostrado hasta ahora es la
forma de calcular una correlación entre dos variables. En la mayoría de los estudios que tenemos mucho más de dos
variables. Digamos
que tenemos un estudio con 10 a nivel de intervalo de las variables y queremos
que para estimar las relaciones entre todos ellos (es decir, entre todos los
posibles pares de variables). En este caso, tenemos 45 únicas correlaciones para estimar (más
adelante cómo sabía eso!). Podríamos
hacer los cálculos de más de 45 veces para obtener las correlaciones.
O podríamos utilizar casi cualquier programa de estadísticas para calcular de
forma automática a las 45 con un simple clic del ratón.
He utilizado un programa de estadísticas simple para generar datos
aleatorios para 10 variables con 20 casos (es decir, personas) para cada
variable. Entonces, le dije al
programa para calcular las correlaciones entre estas variables. Aquí está el resultado:
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
C1 1.000
C2 0.274 1.000
-0.134 -0.269 1.000 C3
C4 0,201 -0,153 0,075
1,000
C5 -0,129
-0,166 0,278 -0,011 1,000
C6
-0,095 0,280 -0,348 -0,378 -0,009 1,000
C7
0,171 -0,122 0,288 0,086 0,193 0,002 1,000
C8 0,219 0,242 -0,380 -0,227 -0,551 0,324 -0,082 1,000
C9 0,518 0,238 0,002 0,082 -0,015 0,304 0,347 -0,013 1,000
C10 0,299 0,568 0,165 -0,122 -0,106 -0,169 0,243 0,014
0,352 1,000
Este tipo de mesa se llama una matriz de
correlación. En él se
enumeran los nombres de las variables (C1-C10) en la primera columna y en la
primera fila. La diagonal de una matriz de
correlación (es decir, los números que van desde la esquina superior izquierda
hasta la inferior derecha) siempre se compone de seres. Eso es porque estas son las correlaciones entre cada variable y
en sí mismo (y una variable está siempre perfectamente correlacionada consigo
misma). Este programa sólo
muestra estadística del triángulo inferior de la matriz de correlación.
En cada matriz de correlación hay dos triángulos que son los valores por debajo
ya la izquierda de la diagonal (triángulo inferior) y por encima ya la derecha
de la diagonal (triángulo superior). No hay ninguna razón para imprimir los dos triángulos, porque los
dos triángulos de una matriz de correlación son siempre imágenes especulares el
uno del otro (la correlación de la variable x con variable y siempre es igual a
la correlación de la variable y con la variable x). Cuando una matriz
tiene este espejo de calidad de imagen por encima y por debajo de la diagonal
se refieren a ella como una matriz simétrica. Una
matriz de correlación es siempre una matriz simétrica.
Para localizar la correlación para cada par de
variables, encontrar el valor de la tabla de la fila y la intersección de
columna para esas dos variables. Por ejemplo, para encontrar la
correlación entre las variables C5 y C2, busco donde fila C2 y C5 columna es
(en este caso que está en blanco debido a que cae en el área de un triángulo
superior) y donde se encuentra la fila C5 y C2 de la columna y, en el segundo
caso, me parece que la correlación es - .166.
OK, así que ¿cómo sé que son 45 las
correlaciones únicos en que tenemos 10 variables? Hay una
fórmula sencilla práctica lo poco que le dice cuántos pares (por ejemplo, las
correlaciones) no son para cualquier número de variables:
donde N es el número de
variables. En el ejemplo,
yo tenía 10 variables, por lo que yo sé que tengo (10 * 9) / 2 = 90/2 = 45
pares.
Otras correlaciones
El tipo específico de
correlación que he ilustrado aquí se conoce como la correlación de Pearson
producto. nivel
de intervalo . Sin
embargo, hay una amplia variedad de otros tipos de correlaciones para otras
circunstancias. Por ejemplo, si usted
tiene dos variables ordinales, se puede utilizar el rango de correlación de
Spearman Orden (rho) o el grado de correlación Kendall orden (tau). Cuando una medida es un intervalo de un
nivel continuo y el otro es dicotómica (es decir, de dos categorías) se puede
utilizar la correlación punto biserial. Para otras situaciones, consultar el programa basado en la web las
estadísticas de la selección, Selección de Estadística en http://trochim.human.cornell.edu/selstat/ssstart.htm
. Es apropiado cuando ambas variables se miden a un
Correlación
de Pearson (PEARSON)
33.1 Descripción general
PEARSON calcula e imprime matrices de coeficientes
de correlación r de Pearson y covariancias para todos los pares de variables en
una lista (opción de matriz cuadrada) o para cada pareja de variables formada
al tomar una variable de cada dos listas de variables (opción de matriz
rectangular).
Se puede especificar la eliminación de datos
faltantes "por pares" o "por casos".
PEARSON se puede utilizar también para obtener una
matriz de correlación, la cual puede ser posteriormente leida por los programas
REGRESSN o MDSCAL. Aunque REGRESSN puede calcular su propia matriz de
correlación, su opción de manejo de datos faltantes sólo puede eliminar
"por casos". En contraste, PEARSON puede generar una matriz con el uso
de un algoritmo de eliminación "por pares" para datos faltantes.
33.2 Características estándar de IDAMS
Selección de casos y variables. Se puede utilizar el
filtro estándar para la selección de un subconjunto de casos de los datos de
entrada. Las variables para las cuales se desea la correlación se especifican
con los parámetros ROWVARS y COLVARS.
Transformación de datos. Se pueden usar las
proposiciones de Recode.
Ponderación de datos. Se puede usar una variable
para ponderar los datos de entrada; esta variable de ponderación puede tener
cifras enteras o decimales. Cuando el valor de la variable de ponderación para
un caso es cero, negativo, dato faltante o no numérico, entonces el caso
siempre se omite; se imprime el número de casos así tratados.
Tratamiento de datos faltantes. El parámetro MDVALUES está
disponible para indicar cuales valores de datos faltantes, si los hay, se
usarán para verificar los datos faltantes. Se calculan las estadísticas
univariadas para cada variable a partir de los casos que tengan datos válidos
(no faltantes) para la variable.
Datos faltantes: eliminación por pares. Las estadísticas por pares
y el coeficiente de correlación, se pueden calcular de los casos que tengan
datos válidos para ambas variables (MDHANDLING=PAIR). Así, un caso se puede
utilizar en los cálculos para algunos pares de variables y no usarse para
otros. Este método de manejo de datos faltantes se llama algoritmo de
eliminación "por pares". Nota: si hay datos faltantes, se pueden
calcular coeficientes de correlación individuales para diferentes subconjuntos
de datos. Si hay muchos datos faltantes, se pueden presentar inconsistencias
internas en la matriz de correlación, las cuales pueden causar dificultades en
análisis multivariados posteriores.
Datos faltantes: eliminación por casos. El programa puede también
recibir la instrucción (MDHANDLING=CASE) para calcular estadísticas pareadas y
correlaciones a partir de los casos que tengan datos válidos en todas las
variables de la lista de variables. De esta manera, un caso se usa en el
cálculo para todos los pares de variables o no se usa. Este método de manejar
los datos faltantes se llama algoritmo de eliminación "por casos"
(también se encuentra en el programa REGRESSN) y sólo se aplica a la opción de
matriz cuadrada.
33.3 Resultados
Diccionario de entrada. (Opcional: ver el
parámetro PRINT). Registros descriptores de variables y registros C, si los
hay, solamente para variables utilizadas en la ejecución.
Opción de matriz cuadrada
Estadísticas pareadas. (Opcional: ver el
parámetro PRINT). Para cada par de variables de la lista, se imprime la
siguiente información:
número de casos válidos (o suma ponderada de
casos),
media y desviación estándar de la variable X,
media y desviación estándar de la variable Y,
prueba T para el coeficiente de correlación,
coeficiente de correlación.
Estadísticas univariadas. Para cada variable de la
lista, se imprime la siguiente información:
número de casos válidos y suma de
ponderaciones,
suma de puntajes y suma de puntajes
cuadrados,
media y desviación estándar.
Coeficientes de regresión para puntajes primarios. (Opcional: ver el
parámetro PRINT). Para cada par de variables x, y se imprimen los coeficientes
de regresión a y c y los términos constantes b y d de las ecuaciones de
regresión x=ay+b y y=cx+d.
Matriz de correlación. (Opcional: ver el
parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz.
Matriz de productos cruzados. (Opcional: ver el
parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz.
Matriz de covariancia. (Opcional: ver el
parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz con
su diagonal.
En cada una de las tablas anteriores, se imprime
por página, un máximo de 11 columnas y 27 filas.
Opción de matriz rectangular
Tabla de frecuencias de variables. Número de casos válidos
para cada par de variables.
Tabla de valores de la media para las variables de
columnas. Se calculan y se imprimen las medias para
cada variable de columna en los casos que son válidos, a su turno, para cada
variable de fila.
Tabla de desviaciones estándar para variables de
columnas. Igual que para las medias.
Matriz de correlación. (Opcional: ver el
parámetro PRINT). Coeficientes de correlación para todos los pares de
variables.
Matriz de covariancia. (Opcional: ver el
parámetro PRINT). Covariancias para todos los pares de variables.
En cada una de las tablas anteriores, se imprime
por página, un máximo de 8 columnas y 50 filas.
Nota: si un par de variables no tiene casos
válidos, se escribe 0.0 para la media, desviación estándar, correlación y
covariancia.
33.4 Matrices de salida
Matriz de correlación
Cuando se especifica el parámetro WRITE=CORR, se
produce la matriz de correlación, en la forma estándar de una matriz cuadrada
IDAMS. El formato de las correlaciones es 8F9.6; el formato para la media y la
desviación estándar es 5E14.7. Las columnas 73-80, se utilizan para identificar
los registros.
La matriz contiene correlaciones, medias y
desviaciones estándar. Las medias y las desviaciones estándar están sin parear.
Los registros de diccionario que produce PEARSON, tienen números y nombres de
variable del diccionario de entrada y/o de proposiciones de Recode. El orden de
las variables lo determina el orden de las mismas en la lista.
PEARSON puede generar correlaciones iguales a
99.999901, y medias y desviaciones estándar iguales a 0.0 cuando los valores
calculados carezcan de sentido. Razones típicas de ésto pueden ser por ejemplo,
que se hayan eliminado todos los casos debido a datos faltantes o una de las
variables tuvo un valor constante. Nótese que MDSCAL no acepta estos
"valores faltantes" y REGRESSN sí.
Matriz de covariancia
Cuando se especifica el parámetro WRITE=COVA, se
produce la matriz de covariancia, sin la diagonal, en la forma de una matriz
cuadrada estándar de IDAMS.
33.5 Dataset de entrada
La entrada es un archivo Datos descrito por un
diccionario IDAMS. Todas las variables del análisis deben ser numéricas; pueden
tener valores enteros o decimales.
33.6 Estructura del setup
$RUN PEARSON
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. Título
3. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
FT02 matrices de salida si se especifica el
parámetro WRITE
DICTxxxx diccionario de entrada (omitir si se usa
$DICT)
DATAxxxx datos de entrada (omitir si se usa $DATA)
PRINT resultados (por defecto IDAMS.LST)
|
<><><>
>
33.7 Proposiciones de control del programa
Referirse al capítulo "El archivo Setup de
IDAMS" para una descripción más detallada de las proposiciones de control
del programa, ítems 1-3, a continuación.
- Filtro (opcional).
Selecciona un subconjunto de casos para usar en la ejecución.
2.
3. Ejemplo:
INCLUDE V2=11-15,60 OR V3=9
- Título (mandatorio). Una
línea que contenga hasta 80 caracteres para titular los resultados.
5.
6. Ejemplo:
PRIMERA CORRIDA DE PEARSON - ABRIL 27
- Parámetros (mandatorio). Para
seleccionar opciones del programa.
8.
9. Ejemplo:
WRITE=CORR,
PRINT=(CORR,COVA)
ROWV=(V1,V3-V6,R47,V25)
INFILE=IN /xxxx
Un sufijo de ddname de 1-4 caracteres para
los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP /SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el
capítulo "El archivo Setup de IDAMS".
MAXCASES=n
Número máximo de casos (después de filtrar) a
usar del archivo de entrada.
Por defecto: se usan todos los casos.
MATRIX=SQUARE /RECTANGULAR
SQUA
Calcular coeficientes de correlación de
Pearson para todos los pares de variables de la lista en ROWV.
RECT
Calcular los coeficientes de correlación de
Pearson para cada par de variables formado al tomar una variable de cada una de
las dos listas en ROWV y COLV.
ROWVARS=(lista de variables)
Una lista de variables V o R a correlacionar
(MATRIX=SQUARE) o la lista de variables de fila (MATRIX=RECTANGULAR).
Sin valor por defecto.
COLVARS=(lista de variables)
(Sólo MATRIX=RECTANGULAR).
Una lista de variables V o R a usar como
variables de columna. Se escriben 8 columnas por página; si las listas de
variables de columna o de fila tienen menos de 8 variables, es preferible (para
facilidad de lectura del listado) tener la lista corta como la lista de
variables de columna.
MDVALUES=BOTH /MD1/MD2/NONE
Cuales valores de datos faltantes se van a
usar para las variables accedidas en esta ejecución. Ver el capítulo "El
archivo Setup de IDAMS".
MDHANDLING=PAIR /CASE
Método para el manejo de datos faltantes.
PAIR
Eliminación por pares.
CASE
Eliminación por casos (no disponible con
MATRIX=RECTANG).
WEIGHT=número de variable
Número de la variable de ponderación, si se
van a ponderar los datos.
WRITE=(CORR, COVA)
Sólo MATRIX=SQUARE.
CORR
Escribir en un archivo de salida, la matriz
de correlación con medias y desviaciones estándar.
COVA
Escribir en un archivo de salida, la matriz
de covariancia con medias y desviaciones estándar.
PRINT=(CDICT/DICT, CORR /NOCORR, COVA, PAIR,
REGR, XPRODUCTS)
CDIC
Imprimir el diccionario de entrada para las
variables accedidas con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin
registros C.
CORR
Imprimir la matriz de correlación.
COVA
Imprimir la matriz de covariancia.
PAIR
Imprimir estadísticas pareadas (sólo
MATRIX=SQUARE).
REGR
Imprimir los coeficientes de regresión (sólo
MATRIX=SQUARE).
XPRO
Imprimir la matriz de productos cruzados
(sólo MATRIX=SQUARE).
33.8 Restricciones
Cuando se especifica MATRIX=SQUARE
- El número máximo de
variables permitido en una ejecución es 200. Este límite incluye todas las
variables de análisis y variables usadas en proposiciones Recode.
- Los números de las
variables recodificadas no pueden exceder de 999 si se especifica el
parámetro WRITE. (Salen como números negativos en la parte descriptiva de
la matriz, la cual sólo tiene cuatro columnas reservadas para el número de
variable, por ej. R862 saldría como -862).
Cuando se especifica MATRIX=RECTANGULAR
- El número máximo de
variables en la lista para filas o columnas es 100.
- El máximo total
variables de filas, columnas, variables usadas en Recode y variable de
ponderación es 136.
33.9 Ejemplos
Ejemplo 1. Cálculo de una matriz
cuadrada de coeficientes de correlación de Pearson, con eliminación de casos
con datos faltantes por pares; la matriz se escribirá en un archivo de salida y
se imprimirá.
$RUN PEARSON
$FILES
PRINT = PEARS1.LST
FT02 = BIRDCOR.MAT archivo Matriz de salida
DICTIN = BIRD.DIC archivo Diccionario de
entrada
DATAIN = BIRD.DAT archivo Datos de entrada
$SETUP
MATRIZ DE COEFICIENTES DE CORRELACION
PRINT=(PAIR,REGR,CORR) WRITE=CORR
ROWV=(V18-V21,V36,V55-V61)
Ejemplo 2. Cálculo de coeficientes de
correlación de Pearson para las variables V10-V20, con las variables V5-V6.
$RUN PEARSON
$FILES
DICTIN = BIRD.DIC archivo Diccionario de entrada
DATAIN = BIRD.DAT archivo Datos de entrada
$SETUP
COEFICIENTES DE CORRELACION
MATRIX=RECT ROWV=(V10-V20) COLV=(V5-V6)
COEFICIENTE DE
CORRELACIÓN -MOMENTO PRODUCTO- DE PEARSON
Medidas de
Asociación y Regresión Lineal Simple
El estadístico se utiliza para:
1. Medir la
asociación entre dos variables.
2. Determinar la
recta de regresión.
3. Predecir e
comportamiento de una variable (intervalo o razón) a partir del conocimiento de
otra variable igual.
Contenidos:
1. Diagramas de
dispersión
2. Correlación
lineal de Pearson.
3. Correlación
de Sperman y t de Kendall (variables ordinales)
4. Cálculo de la
ecuación de regresión y sus propiedades.
Correlación lineal de Pearson.
Indica
el grado en el cual una variable cuantitativa esta linealmente relacionada con
una muestra. Cada individuo o cada caso debe tener puntajes en por lo menos dos
variables cuantitativas.
El test de
significancia de r evalúa si existe una relación lineal entre dos
variables en la población. No se consideran en este ejercicio las correlaciones
en las cuales una o dos variables son
categóricas u ordinales.
Aplicaciones.
1. Existen dos
variables y se quiere calcular el coeficiente de correlación entre ambas.
2. Existen
múltiples variables entre un mismo grupo y se quiere calcular las correlaciones
entre pares de variables de un mismo grupo.
3. Existe dos
grupos de variables conceptualmente distintas y se quiere calcular las
variables entre cada grupo y entre grupos diferentes.
- DOS
VARIABLES Y UN GRUPO DE DATOS.
Ana esta
interesada en saber la relación existente, si alguna, entre la fortaleza de las
piernas y la habilidad para correr. Ana obtuvo una muestra de cuarenta
estudiantes de género masculino, de la clase de educación física de 5to año.
Cada estudiante completo una serie de ejercicios de esfuerzo en una maquina.
Ana calculo un índice de fortaleza de las piernas (IFP) que tomo en cuenta el
desempeño de los estudiantes en la serie propuesta. Adicionalmente se le pidió
a cada estudiante correr 200 mts. En línea recta y 200 mts en curva y zig-zag.
Se calculo el índice de torpeza al correr (ITC), opuesto a la agilidad para
correr, entendido como el total de segundos que le tomó recorrer la línea curva
y en zig-zag menos el numero de segundos que le tomo en completar la carrera en
línea recta. La data de Ana incluye, para los 40 casos, registros del IFP y del
ITC.
- UN GRUPO
DE TRES O MÁS VARIABLES.
Juan esta
interesado en investigar si las personas que tienen una visión positiva de si
mismos en un determinado aspecto de su vida, tienden a tener una visión también
positiva en otros aspectos de sus vidas.
Utilizo un
cuestionario de cinco escalas diferentes que incluye ítems para las aspectos
siguientes: 1. Relación consigo mismo, 2. relación con los demás, 3. sentido común,
4. razonamiento académico y 5.cuan competente se siente en general. Juan esta
interesado en determinar las correlaciones entre los pares posibles, en total
diez correlaciones.
- DOS
GRUPOS DE VARIABLES. Cada grupo contiene múltiples variables.
El director
de personal de una compañía de seguros quiere saber si el test de personalidad
aplicado a 50 vendedores de seguros en el momento de su contratación predice el
desempeño en el trabajo.
El test de
personalidad tiene tres escalas: 1. Extroversión, 2. Conciencia, y 3. Apertura.
El desempeño en el trabajo fue medido con base a dos criterios: 1. Cantidad de
seguros vendidos y 2. Calificación del supervisor.
El archivo de
datos contiene dos grupos de variables para los 50 casos. Un grupo contiene las
tres escalas predictoras y el otro grupo
contiene los 2 criterios de desempeño.
Se procedió a
calcular la correlación entre los grupos, pero principalmente la correlación
existente entre los predoctores y los dos criterios de desempeño para un total
de seis correlaciones.
Supuestos subyacentes
- Las variables están normalmente distribuidas y
son bivariadas. Si se cumple este supuesto la única correlación que puede
existir entre las variables es una correlación lineal. Si se viola el
supuesto existe una correlación no lineal, lo cual es importante
determinar antes de describir los resultados. La relación no lineal se
puede apreciar visualmente examinando el diagrama de dispersión.
- Los casos representan una muestra al azar de la
población y los puntajes de las variables para un caso son independientes
de los puntajes de esta variable para los otros casos. Si se viola el
supuesto de independencia el test
de significancia de la correlación no debe
ser calculado.
Pregunta de investigación.
- ¿Los hombres que se sienten confiados en un
aspecto de su vida tienden a sentirse confiados en otros aspectos?
- ¿Los que se sienten inseguros en un aspecto de su
vida tienden a sentirse inseguros en otros aspectos de su vida?
Calculando
el efecto estadístico.
El índice calculado va de un rango de
-1 a +1 .
Este coeficiente indica el grado en el que los puntajes bajos o altos en una
variable tienden a ir relacionados con los puntajes bajos o altos de otra
variable. Un puntaje se considera bajo o alto en la medida que dicho puntaje
cae por debajo o por encima de la media
del puntaje de la otra variable.
Si r es positivo los puntajes
bajos de la variable A tienden a asociarse con los
puntajes bajos en B al igual que los puntajes altos en A se relacionan con los puntajes
altos en B
Si r es igual 0 los
puntajes bajos de la variable A tienden a asociarse con los
puntajes bajos o altos en B, y
los puntajes altos en A tienden a asociarse
igualmente con puntajes altos o bajos en B
Si r es negativo los puntajes bajos
de la variable A tienden a asociarse con los
puntajes altos en B al igual que los puntajes altos en A se relacionan con los puntajes bajos
en B
¿Que
valor indica una fuerte relación entre dos variable?
0.10 = baja correlación/ 0.20 = Correlación media / 0.50 Correlación
alta en ciencias de la conducta independientemente del signo.
Si una variable es considerada como
predictor y la otra variable se considera como el criterio, podemos elevar la correlación
al cuadrado para interpretar la fuerza de la correlación en términos de proporción...
El cuadrado de la correlación nos da
la proporción en que la varianza de la variable de criterio cuenta
en su relación lineal con la variable predictora.
Ej.: Si A
es el predictor y B es el
criterio y la correlación es igual a 0.40, podemos concluir que el 16 por
ciento de la varianza (0.40)2 de la
variable A es explicada por su relación lineal con la variable B
Pearson coeficiente de correlación
De Wikipedia, la enciclopedia libre
Saltar a navegación
, búsqueda
En las estadísticas , el Pearson coeficiente de correlación
(a veces referido como el PPMCC o PCC [1] , o de Pearson r, y
normalmente se denota por r) es una medida de la correlación (dependencia lineal) entre dos variables X
e Y , dando un valor entre 1 y -1 inclusiva. Se utiliza ampliamente en las
ciencias como una medida de la fuerza de la dependencia lineal entre dos
variables. Fue desarrollado por Karl
Pearson en una idea similar pero
ligeramente diferente introducido por Francis
Galton en la década de 1880. [2]
[3]
Varios conjuntos de (x, y) puntos, con el coeficiente de correlación de X
e Y para cada conjunto. Nótese que la
correlación refleja la no linealidad y la dirección de una relación lineal
(fila superior), pero no la pendiente de esta relación (medio), ni muchos
aspectos de las relaciones no lineales (parte inferior). Nota: la figura en el centro tiene una pendiente de
0 pero en ese caso, el coeficiente de correlación es indefinido debido a la
variación de Y es cero.
[ editar ] Definición
Coeficiente de correlación de Pearson entre dos variables se define
como la covarianza de las dos variables divididos por el
producto de sus desviaciones estándar
Coeficiente de correlación
de Pearson cuando se aplica a una población que comúnmente representado por la
letra griega ρ (rho) y puede ser conocido como el coeficiente
de correlación de la población o el coeficiente de correlación de
Pearson de la población. La fórmula para ρ es:
Coeficiente de correlación de Pearson cuando
se aplica a una muestra es comúnmente representada por la letra R y
puede ser denominado como el coeficiente de correlación de la muestra o
el coeficiente de correlación de Pearson muestra. Podemos obtener una
fórmula para r mediante la sustitución de las estimaciones de las
covarianzas y varianzas basadas en una muestra en la fórmula anterior. La fórmula para r es:
Una expresión equivalente
da el coeficiente de correlación como la media de los productos de las puntuaciones
estándar .
Basado en una muestra de pares de datos (x i, y i),
el coeficiente de correlación de Pearson de la muestra es
donde
El valor absoluto de la
muestra y la población coeficientes de correlación de Pearson son menores o
iguales a 1. Las correlaciones iguales a 1 o
-1 corresponden a puntos de datos situadas exactamente en una línea (en el caso
de la correlación de la muestra), o para una distribución bivariada totalmente
apoyado sobre una línea (en el caso de la correlación de la población). El coeficiente de correlación de Pearson es simétrica: corr (X, Y)
= corr (Y, X).
Una característica clave matemática del coeficiente de correlación de Pearson
es que es invariante
(hasta un signo) para separar los cambios en la ubicación y la escala en las
dos variables. Esto es, se
puede transformar X a A + BX y transformar Y para c
+ dy, donde a, b, c, yd son constantes, sin cambiar el
coeficiente de correlación (este hecho es válido para la población y muestra
coeficientes de correlación de Pearson) . Tenga en cuenta que las
transformaciones lineales más generales hacen cambiar la correlación: ver una sección posterior de una solicitud de este.
La correlación de Pearson se puede expresar
en términos de momentos no centradas. Desde μ X = E (X), σ X 2 = E [(X - E (X)) 2] = E (X
2) - E 2 (X) y también de Y, y desde
la correlación también se puede escribir como
Fórmulas alternativas para
el coeficiente de correlación de Pearson de la muestra también están
disponibles:
La fórmula anterior sugiere una conveniente una sola pasada algoritmo
para calcular correlaciones de muestra, pero, dependiendo de los números
implicados, a veces puede ser numéricamente inestable .
El coeficiente de correlación oscila entre -1 a 1. Un valor de 1 implica que una ecuación lineal describe la relación
entre X e Y a la perfección, con todos los puntos de datos se
extiende sobre una línea para la que Y aumenta a medida que X
aumenta.
Un valor de -1 implica que todos los puntos de datos se encuentran en una línea
para la que Y disminuye a medida que X aumenta. Un valor de 0 implica que no hay una
correlación lineal entre las variables.
Más en general, en cuenta que (i X
- X) (Y i - Y) es positivo si y sólo si X e Y
i mentira i en el mismo lado de sus
respectivos medios. Así, el coeficiente de correlación es positivo si X
i y Y i tienden a ser simultáneamente mayor
que, o simultáneamente a menos de, sus respectivos medios. El coeficiente de correlación es negativo si X
i e Y i tienden a estar en lados opuestos de
sus respectivos medios.
[ editar ] Interpretación
geométrica
Líneas de regresión de y = g x (x)
[rojo] y x = g y (y) [azul]
Para los datos no centradas, el coeficiente
de correlación se corresponde con el coseno del ángulo
entre las dos posibles líneas
de regresión y = g x (x) y x
= g y (y).
Para los datos centrados (es decir, los
datos que han sido desplazadas por la media de la muestra a fin de tener un
promedio de cero), el coeficiente de correlación también puede ser visto como
el coseno del ángulo
entre los dos vectores de muestras extraídas de las dos variables
aleatorias (véase más adelante).
Algunos practicantes [ ¿quién? ] prefieren un coeficiente de correlación uncentered (no compatible con
Pearson). Vea el siguiente ejemplo para una comparación.
A modo de ejemplo, supongamos que cinco países se encontró que el
producto nacional bruto de 1, 2, 3, 5 y 8 dólares millones de dólares,
respectivamente. Supongamos que estos mismos cinco países (en el mismo
orden) se encontró que el 11%, 12%, 13%, 15% y el 18% de la pobreza. Entonces deja xey se ordenó
5-elemento vectores que contienen los datos anteriores: x = (1, 2, 3, 5,
8), y = (0,11, 0,12, 0,13, 0,15, 0,18).
Mediante el procedimiento habitual para encontrar el ángulo
entre dos vectores (ver producto
punto ), el coeficiente de
correlación uncentered es la siguiente:
Nótese que los datos
anteriores fueron elegidos deliberadamente para ser perfectamente
correlacionados: y = 0,10 + 0,01 x. El coeficiente de correlación de Pearson por lo tanto, debe ser
exactamente uno. Centrando los datos (cambio de
x por E (x) = 3,8 e y por e (y) = 0.138) se obtiene
x = (-2,8, -1,8, -0,8, 1,2, 4,2) ey = (-0.028, -0.018, -0,008,
0,012, 0,042), de la cual
como se esperaba.
Correlación
|
Negativo
|
Positiva
|
Ninguno
|
-0,09 A 0,0
|
0,0 a 0,09
|
Pequeño
|
-0,3 A -0,1
|
0,1 a 0,3
|
Medio
|
-0,5 A -0,3
|
0,3 a 0,5
|
Fuerte
|
-1,0 A -0,5
|
0,5 a 1,0
|
Varios autores [4] [5] han ofrecido directrices para la
interpretación de un coeficiente de correlación. Sin embargo, todos estos
criterios son de alguna manera arbitraria y no se debe observar muy estrictamente.
[5] La interpretación de un coeficiente de
correlación depende del contexto y los fines. Una correlación de 0,9 puede ser muy baja si se
está verificando una ley física utilizando instrumentos de alta calidad, pero
puede considerarse como muy alta en las ciencias sociales, donde puede haber
una mayor contribución de los factores de complicación.
Una métrica de distancia de dos variables X
e Y se conocen como la distancia de Pearson se puede definir a partir de
su coeficiente de correlación como [6]
Teniendo en cuenta que el
coeficiente de correlación de Pearson se sitúa entre [-1, 1], la distancia de
Pearson se encuentra en [0, 2].
[ editar ] Inferencia
Un gráfico que muestra el valor mínimo del
coeficiente de correlación de Pearson que es significativamente diferente de
cero en el nivel de 0,05, para un determinado tamaño de muestra.
La inferencia estadística
basada en el coeficiente de correlación de Pearson se centra a menudo en uno de
los dos objetivos siguientes:
- Uno de los objetivos
es poner a prueba la hipótesis
nula que el coeficiente de
correlación ρ verdadero es igual a 0, basado en el
valor de la muestra coeficiente de correlación r.
- El otro objetivo es construir un intervalo de confianza alrededor de R que tiene una
determinada probabilidad de que contenga ρ.
Se discuten métodos para lograr una o ambas
de estas finalidades por debajo.
Pruebas de permutación proporcionar un enfoque directo a la realización de las pruebas de
hipótesis y construir intervalos de confianza. Una prueba de permutación para el coeficiente
de correlación de Pearson involucra a los dos pasos siguientes:
- (I) usando los datos
originales en pares (x i, y i), al azar
redefinir las parejas para crear un nuevo conjunto de datos (x i,
y i '), donde la i' es una permutación del conjunto
{1, .. ., n}. La permutación i 'se ha
seleccionado al azar, con probabilidades iguales colocadas en todos los n!
permutaciones posibles. Esto es
equivalente a la elaboración de la i-azar "sin
sustitución" del conjunto {1, ..., n}. Un estrechamente relacionadas y son
justificados por igual ( bootstrapping ) consiste en elaborar por separado la i
y la "i" con sustitución "de {1, ..., n};
- (Ii) Construir un coeficiente de
correlación r de los datos aleatorios.
Para realizar la prueba de permutación,
repetir (i) y (ii) un gran número de veces. El valor de p para la prueba de permutación es uno menos
la proporción de los valores r generados en la etapa (ii) que son más
grandes que el coeficiente de correlación de Pearson que se calcula a partir de
los datos originales. Aquí "grande"
puede significar tanto que el valor es mayor en magnitud, o mayor en valor
firmado, dependiendo de si uno de
dos lados o caras
una prueba que se desea.
El arranque
se puede utilizar para construir intervalos de confianza para el coeficiente de
correlación de Pearson. En el "no-paramétrica" de
arranque, n pares (x i, y i) se vuelven a
muestrear "con sustitución" de la serie observada de n pares, y
el coeficiente de correlación r se calcula sobre la base de los datos
resampled. Este proceso se repite un número grande de
veces, y la distribución empírica de los valores r resampled se utilizan
para aproximar la distribución de muestreo de la estadística.
Un 95% intervalo
de confianza para ρ se puede definir como el intervalo que va
desde el 2,5 al ª ª 97,5 percentil de los valores r resampled.
Para los pares de una no correlacionada distribución normal bivariada , la distribución muestral del coeficiente de correlación de Pearson sigue la t de Student de distribución con grados de libertad n - 2. En concreto, si las
variables subyacentes tienen una distribución normal bivariante, la variable
tiene una de distribución
t de Student en el caso nulo (cero correlación). [7] Esto también es de aproximadamente, incluso
si los valores observados no son normales, siempre que los tamaños de muestra
que no son muy pequeñas. [8] Para la determinación de los valores
críticos de r la inversa de esta transformación también se necesita:
Alternativamente, los enfoques de muestra grandes se pueden utilizar.
Los primeros trabajos sobre la distribución
del coeficiente de correlación de la muestra se llevó a cabo por RA Fisher [9] [10] y AK Gayen. [11] Otro documento de principios [12] ofrece gráficos y tablas de valores
generales de ρ, para tamaños de muestra pequeños, y analiza los enfoques
computacionales.
Para los datos que siguen una distribución normal bivariada , la función de densidad exacta de la correlación
de la muestra de una normal bivariante es [13] [14]
donde
es la función
gamma ,
es la función
hipergeométrica de Gauss .
, La
densidad se puede escribir como:
En el caso especial cuando
donde
es la función
beta , que es una forma de
escribir la densidad de una t de Student de distribución, como anteriormente.
Tenga en cuenta que [ cita requerida ]
, Por lo
tanto, r es un estimador sesgado de la
. Un estimador aproximadamente insesgado puede obtenerse
mediante la resolución de la ecuación
para
. Sin embargo, la solución,
, [ cita requerida ] es subóptima. [ cita requerida ] Un estimador aproximado imparcial, [ cita requerida ] con una variación mínima para valores grandes de n, con un sesgo
de orden
,
Puede obtenerse mediante la maximización
, Es decir
. [ cita requerida ]
En la práctica, los intervalos de confianza y pruebas
de hipótesis relacionadas con ρ suelen llevarse a cabo mediante la transformación
de Fisher :
Si F (r) es la
transformación de Fisher de r, y n es el tamaño de la muestra,
entonces F (r) sigue aproximadamente una distribución
normal con
bajo la hipótesis
nula de que
, Dado el supuesto de que los pares de
muestras son independientes y se distribuyen de forma
idéntica y seguir una distribución normal bivariada . Así, un aproximado de p-valor puede obtenerse a partir de una tabla de
probabilidad normal.
Por ejemplo, si z = 2,2 se observa y una de dos
caras p-valor que se desea poner a prueba la hipótesis nula de que , El valor de p es 2 · Φ (-2,2) = 0,028, donde Φ es el estándar normal de la función de distribución acumulada .
Para obtener un intervalo
de confianza para ρ, primero calculamos un intervalo de
confianza para F (
):
La transformación inversa de Fisher devolver al intervalo de la escala de correlación.
Por ejemplo, supongamos que observamos r = 0,3 con un tamaño de muestra de n = 50, y queremos obtener un intervalo de confianza del 95% para ρ.
El cuadrado del coeficiente de correlación de la muestra, que también se conoce
como el coeficiente de determinación , calcula la fracción de la varianza en Y
que se explica por X en una regresión
lineal simple . Como punto de
partida, la variación total en el Yi en torno a su valor
promedio se puede descomponer de la siguiente manera
donde el
son los valores ajustados a partir del análisis de regresión. Esto puede ser reorganizado
para dar
Los dos sumandos anteriores son la fracción
de la varianza en Y que se explica por X (derecha) y que no se
explica por X (izquierda).
A continuación, aplicar
una propiedad de los mínimos cuadrados de modelos de regresión, que la
covarianza muestral entre
y
es cero.
Así, el coeficiente de correlación muestral entre los valores de respuesta
observados y ajustados en la regresión puede escribirse
Así
es la proporción de variación en Y
explicada por una función lineal de X.
El coeficiente de correlación de Pearson
población se define en términos de momentos , y por lo tanto, existe para cualquier
bivariado distribución de probabilidad para que la población covarianza se define y los marginales varianzas de población se definen y son no-cero.
Algunas distribuciones de probabilidad, como la distribución
de Cauchy tienen varianza indefinido
y, por tanto ρ no se define si X o Y sigue
una distribución. En algunas aplicaciones prácticas, tales
como las que implican los datos sospechosos de seguir una distribución de cola pesada , esta es una consideración importante. Sin embargo, la existencia del coeficiente
de correlación no es generalmente una preocupación, por ejemplo, si el rango de
la distribución está limitada, ρ se define siempre.
En el caso de la bivariado distribución
normal el coeficiente de
correlación de Pearson población caracteriza la distribución conjunta, siempre
y cuando los medios marginales y varianzas son conocidos. Para la mayoría de distribuciones bivariadas otros esto no
es cierto. Sin embargo, el coeficiente de correlación
es muy informativo sobre el grado de dependencia lineal entre dos cantidades al
azar, independientemente de si su distribución conjunta es normal. [2] El coeficiente de correlación de la muestra
es la estimación de máxima verosimilitud del coeficiente de correlación de dos
variables de la población normal de los datos, y es asintóticamente insesgado
y eficiente
, que a grandes rasgos significa que es imposible construir una estimación más
precisa que el coeficiente de correlación de la muestra si los datos son
normales y el tamaño de la muestra es moderado o grande. Para las poblaciones no normales, el coeficiente de
correlación de la muestra se mantiene aproximadamente imparcial, pero no puede
ser eficiente. El coeficiente de correlación muestral es un
estimador
consistente del coeficiente de
correlación de la población, siempre y cuando la muestra de medias, varianzas y
covarianza son consistentes (que está garantizada cuando la ley de grandes números se puede aplicar).
Al igual que muchas estadísticas de uso
común, el r estadística de la muestra no es robusta , [15] por lo que su valor puede ser engañosa si los
valores atípicos
están presentes. [16] [17] En concreto, el PMCC no es ni distributivos
robusta, [ cita requerida ], ni resistente al valor atípico [15] (ver estadísticos robustos # Definición ). La inspección de la dispersión entre X e Y por lo general
revela una situación en la falta de solidez puede ser un problema, y en tales
casos puede ser aconsejable utilizar una medida robusta de la asociación. Note sin embargo que, si bien la mayoría de
los estimadores robustos de medida de asociación dependencia estadística de alguna manera, generalmente no son interpretables en la misma escala
que el coeficiente de correlación de Pearson.
La inferencia estadística
para el coeficiente de correlación de Pearson es sensible a la distribución de
datos. Pruebas precisas, y las
pruebas asintóticas basadas en la transformación
de Fisher se puede aplicar si los
datos son aproximadamente una distribución normal, pero puede ser incierta. En algunas situaciones, el
arranque
se puede aplicar para construir intervalos de confianza, y pruebas de permutación se puede aplicar para llevar a cabo las pruebas de hipótesis. Estos no paramétricas enfoques pueden dar resultados más significativos en algunas
situaciones en las que la normalidad bivariada no se sostiene. Sin embargo, las versiones estándar de estos enfoques se basan en la intercambiabilidad de los datos, lo que significa que no hay orden o la agrupación de los
pares de datos analizados que podrían afectar al comportamiento de la
estimación de correlación.
Un análisis estratificado
es una manera de acomodar ya sea una falta de normalidad bivariada, o para
aislar la correlación resultante de un factor de tiempo que controla para otro.
Si W representa la pertenencia
al clúster o de otro factor que es deseable para el control, se puede
estratificar los datos basados en el valor de W, a continuación,
calcular un coeficiente de correlación dentro de cada estrato. Las estimaciones por estrato de nivel se
pueden combinar para estimar la correlación general mientras que el control de W.
[18]
Supongamos que las observaciones que se correlacionan tienen diferentes
grados de importancia que se pueden expresar con un vector de pesos w. Para calcular la correlación entre los
vectores x e y con el vector de pesos w (todos de longitud
n), [19] [20]
- Media ponderada de:
- Covarianza ponderada
- Correlación ponderada
Siempre es posible eliminar la correlación
entre las variables aleatorias con una transformación lineal, incluso si la relación
entre las variables no es lineal. Una presentación de este resultado para
distribución de la población está dada por Cox y Hinkley. [21]
Un resultado correspondiente exista para las correlaciones de la muestra, en la
que la correlación de la muestra se reduce a cero.
es la variable j ª de la muestra i. Dejar
ser un m por m matriz cuadrada con todos
los elementos 1.
Entonces D es los datos transformados de modo que cada variable
aleatoria tiene media cero, y T es los datos transformados por lo que
todas las variables tienen una correlación media cero y cero con todas las
otras variables - la matriz de momentos de T será la matriz de
identidad. Esto tiene que
ser dividida por la desviación estándar para obtener la varianza unidad. Supongamos que un vector de n variables aleatorias se
realiza un muestreo de m veces. Sea X una matriz donde
Las variables transformadas se correlacionados, aunque no puede ser independiente
.
donde un exponente de -1 / 2 representa la raíz
matriz cuadrada
de la inversa de una matriz.
La matriz de covarianza de T será la matriz de identidad. Si una nueva muestra de datos
x es un vector fila de n elementos, entonces la transformada
mismo se puede aplicar a x para obtener la transformada vectores D
y T:
Esta descorrelación está relacionado con análisis de componentes principales para datos multivariantes.
La correlación de reflexión es una variante de correlación de Pearson
en la que los datos no están centradas en torno a sus valores medios. [ cita requerida ] La correlación de la
población es reflexiva
La correlación reflectante es simétrica,
pero no es invariante bajo traducción:
La correlación de la
muestra es reflectante
La versión ponderada de la correlación de la
muestra es reflectante
Correlación escalado es una variante de
correlación de Pearson en el que se restringe el rango de los datos
intencionadamente y de una manera controlada para revelar las correlaciones
entre los componentes rápidos en series de tiempo. [22] correlación escalado se define como la
correlación media a través de segmentos cortos de datos.
Dejar
ser el número de segmentos que pueden
encajar en la longitud total de la señal
para una escala dada
:
La correlación escala a través de las señales enteras
Se calcula
entonces como
donde
es el coeficiente de correlación de Pearson para el segmento
.
Al elegir el parámetro
, El rango de valores se reduce y las
correlaciones a escala mucho tiempo se filtran, sólo las correlaciones en
escalas de tiempo cortos siendo revelado. Así, las contribuciones de los componentes
lentos se eliminan y los de componentes rápido se retienen.
[ editar ] Véase también
Wikiversidad ha
materiales educativos acerca de la
correlación lineal
|
- La correlación y dependencia
-
Coeficiente de correlación
de Spearman
- Asociación (estadísticas)
- Disattenuation
-
Coeficiente de la máxima
información
- Correlación con escala
- Distribución normal y la
correlación no implica independencia
[ editar ] Referencias
2. ^ un b JL Rodgers y Nicewander WA. Trece maneras de mirar el
coeficiente de correlación . El Estadístico de América, 42 (1) :59-66, febrero de 1988.
3. ^ Stigler, Stephen M. (1989). "Francis Galton cuenta de la invención
de la correlación" de Estadística Ciencia 4 (2):. 73-79. doi : 10.1214/ss/1177012580
. JSTOR 2245329
.
4. ^ A. Buda y A.Jarynowski (2010) La vida en
tiempo de correlaciones y de sus aplicaciones vol.1, Wydawnictwo
Niezalezne: 5-21, Diciembre 2010, ISBN 978-83-915272-9-0
5. ^ un b Cohen, J. (1988). análisis de poder
estadístico para las ciencias de la conducta (2 ª ed.)
6. ^ Fulekar (Ed.), MH (2009) Bioinformática:
aplicaciones en la vida y de las Ciencias del Medio Ambiente, Springer (pp.
110) ISBN 1-4020-8879-5
8. ^ Kendall, MG, Stuart, A. (1973) La Teoría
Avanzada de Estadística, Volumen 2: inferencia y relación, Griffin. ISBN
0-85264-215-6 (Sección 31.19)
9. ^ Fisher,
RA (1915). "Distribución de frecuencias de los
valores del coeficiente de correlación en las muestras de una población
indefinidamente grande". Biometrika 10 (4): 507-521. doi : 10.1093/biomet/10.4.507
.
10. ^ Fisher,
RA . (1921) "Sobre el error probable de un
coeficiente de correlación deduce de una pequeña muestra" ( PDF ). Metron 1 (4):. 3-32 http://hdl.handle.net/2440/
15169 .
Consultado el 03/25/2009.
11. ^ Gayen, AK (1951). "La distribución de frecuencias del
coeficiente de correlación producto momento en muestras aleatorias de cualquier
tamaño extraer de universos no-normales". Biometrika 38:. 219-247 doi : 10.1093/biomet/38.1-2.219
.
12. ^
Soper, HE, joven, AW, Cueva, BM, Lee, A., Pearson, K. (1917). "En la distribución del coeficiente de
correlación en pequeñas muestras. El Apéndice II a los papeles de"
Estudiante "y RA Fisher. Un estudio cooperativo", Biometrika , 11, 328-413. doi:
10.1093/biomet/11.4.328
13. ^ Kenney, JF y mantener, ES, Matemática de
la Estadística, Pt.
2, 2 ª ed.
Princeton, NJ: Van Nostrand, 1951.
15. ^ un b Wilcox, R. Rand (2005). Introducción a la
estimación robusta y pruebas de hipótesis. Academic Press.
16. ^
Devlin, Susan J; Gnanadesikan, R; Kettenring JR (1975). "Estimación robusta y
detección de valores atípicos con coeficientes de correlación" Biometrika
62 (3):. 531-545. doi : 10.1093/biomet/62.3.531
. JSTOR 2335508
.
18. ^ . Katz, Mitchell H. (2006) Análisis
multivariante - Una guía práctica para los médicos. 2 ª Edición. ISBN
978-0-521-54985-1 . ISBN
0-521 hasta 54.985-X doi : 10.2277/052154985X
Cambridge University Press.
20. ^ Una caja de herramientas de MATLAB
para el cálculo de coeficientes de ponderación de correlación
21. ^ Cox, DR, Hinkley, DV (1974) Estadística
Teórica, Chapman & Hall (Apéndice 3) ISBN 0-412-12420-3
22. ^ D Nikolić, Muresan RC, Feng W, W Singer
(2012) el análisis de correlación escala:. una mejor manera de calcular una
cruzada correlograma European Journal of Neuroscience, pp 1-21,
No hay comentarios:
Publicar un comentario