jueves, 7 de junio de 2012

CORRELACION


Correlación

The correlation is one of the most common and most useful statistics. La correlación es una de las estadísticas más comunes y más útiles. A correlation is a single number that describes the degree of relationship between two variables. Una correlación es un número único que describe el grado de relación entre dos variables. Let's work through an example to show you how this statistic is computed. Vamos a trabajar a través de un ejemplo para mostrar cómo se calcula esta estadística.

Correlation Example Correlación Ejemplo

Let's assume that we want to look at the relationship between two variables, height (in inches) and self esteem. Supongamos que queremos ver en la relación entre dos variables, la altura (en pulgadas) y la autoestima. Perhaps we have a hypothesis that how tall you are effects your self esteem (incidentally, I don't think we have to worry about the direction of causality here -- it's not likely that self esteem causes your height!). Tal vez tenemos una hipótesis de que la altura que son los efectos de su autoestima (por cierto, no creo que tengamos que preocuparnos acerca de la dirección de la causalidad aquí - no es probable que la autoestima hace que su altura). Let's say we collect some information on twenty individuals (all male -- we know that the average height differs for males and females so, to keep this example simple we'll just use males). Digamos que recoger algo de información sobre las veinte personas (todos hombres - sabemos que la altura promedio es diferente para hombres y mujeres que, para mantener este sencillo ejemplo sólo tendremos que usar los hombres). Height is measured in inches. La altura se mide en pulgadas. Self esteem is measured based on the average of 10 1-to-5 rating items (where higher scores mean higher self esteem). La autoestima se mide con base en el promedio de 10 1-a-5 puntos de calificación (donde las puntuaciones más altas significan una autoestima más alta). Here's the data for the 20 cases (don't take this too seriously -- I made this data up to illustrate what a correlation is): Aquí están los datos de los 20 casos (no te lo tomes demasiado en serio - que hice estos datos para ilustrar lo que la correlación es):

Person Persona
Height Altura
Self Esteem Autoestima
1 1
68 68
4.1 4.1
2 2
71 71
4.6 4.6
3 3
62 62
3.8 3.8
4 4
75 75
4.4 4.4
5 5
58 58
3.2 3.2
6 6
60 60
3.1 3.1
7 7
67 67
3.8 3.8
8 8
68 68
4.1 4.1
9 9
71 71
4.3 4.3
10 10
69 69
3.7 3.7
11 11
68 68
3.5 3.5
12 12
67 67
3.2 3.2
13 13
63 63
3.7 3.7
14 14
62 62
3.3 3.3
15 15
60 60
3.4 3.4
16 16
63 63
4.0 4.0
17 17
65 65
4.1 4.1
18 18
67 67
3.8 3.8
19 19
63 63
3.4 3.4
20 20
61 61
3.6 3.6

Now, let's take a quick look at the histogram for each variable: Ahora, echemos un rápido vistazo el histograma para cada variable:



And, here are the descriptive statistics: Y, aquí están las estadísticas descriptivas:

Variable Variable
Mean Media
StDev StDev
Variance Diferencia
Sum Suma
Minimum Mínimo
Maximum Máximo
Range Serie
Height Altura
65.4 65,4
4.40574 4,40574
19.4105 19.4105
1308 1308
58 58
75 75
17 17
Self Esteem Autoestima
3.755 3,755
0.426090 0.426090
0.181553 0.181553
75.1 75,1
3.1 3.1
4.6 4.6
1.5 1.5

Finally, we'll look at the simple bivariate (ie, two-variable) plot: Por último, vamos a ver lo simple bivariado (es decir, de dos variables) Argumento:


You should immediately see in the bivariate plot that the relationship between the variables is a positive one (if you can't see that, review the section on types of relationships ) because if you were to fit a single straight line through the dots it would have a positive slope or move up from left to right. Usted debe consultar inmediatamente en el gráfico de dos variables que la relación entre las variables es positiva (si usted no puede ver que, revise la sección sobre los tipos de relaciones ), porque si tuviera que adaptarse a una sola línea recta a través de los puntos lo haría tienen una pendiente positiva o moverse de izquierda a derecha. Since the correlation is nothing more than a quantitative estimate of the relationship, we would expect a positive correlation. Dado que la correlación no es más que una estimación cuantitativa de la relación, podríamos esperar una correlación positiva.

What does a "positive relationship" mean in this context? ¿Qué significa una "relación positiva" en este contexto? It means that, in general, higher scores on one variable tend to be paired with higher scores on the other and that lower scores on one variable tend to be paired with lower scores on the other. Esto significa que, en general, las puntuaciones más altas en una variable tienden a ser emparejado con puntuaciones más altas en el otro y que las puntuaciones más bajas en una variable tienden a ser emparejado con puntuaciones más bajas en el otro. You should confirm visually that this is generally true in the plot above. Debe confirmar visualmente que esto es generalmente cierto en el diagrama anterior.

Calculating the Correlation Cálculo de la correlación

Now we're ready to compute the correlation value. Ahora estamos listos para calcular el valor de correlación. The formula for the correlation is: La fórmula para la correlación es:


We use the symbol r to stand for the correlation. Utilizamos el símbolo r en reposo durante la correlación. Through the magic of mathematics it turns out that r will always be between -1.0 and +1.0. A través de la magia de las matemáticas resulta que r siempre estará entre -1,0 y 1,0. if the correlation is negative, we have a negative relationship; if it's positive, the relationship is positive. si la correlación es negativa, tenemos una relación negativa, y si es positivo, la relación es positiva. You don't need to know how we came up with this formula unless you want to be a statistician. Usted no necesita saber cómo se nos ocurrió esta fórmula a menos que quieras ser un estadista. But you probably will need to know how the formula relates to real data -- how you can use the formula to compute the correlation. Pero es probable que necesites saber cómo la fórmula se refiere a los datos reales - cómo se puede utilizar la fórmula para calcular la correlación. Let's look at the data we need for the formula. Echemos un vistazo a los datos que necesitamos para la fórmula. Here's the original data with the other necessary columns: Aquí están los datos originales con las columnas necesarias otras:

Person Persona
Height (x) Altura (x)
Self Esteem (y) Autoestima (y)
x*y x * y
x*x x * x
y*y y * y
1 1
68 68
4.1 4.1
278.8 278,8
4624 4624
16.81 16,81
2 2
71 71
4.6 4.6
326.6 326,6
5041 5041
21.16 21,16
3 3
62 62
3.8 3.8
235.6 235,6
3844 3844
14.44 14,44
4 4
75 75
4.4 4.4
330 330
5625 5625
19.36 19,36
5 5
58 58
3.2 3.2
185.6 185,6
3364 3364
10.24 10,24
6 6
60 60
3.1 3.1
186 186
3600 3600
9.61 9,61
7 7
67 67
3.8 3.8
254.6 254,6
4489 4489
14.44 14,44
8 8
68 68
4.1 4.1
278.8 278,8
4624 4624
16.81 16,81
9 9
71 71
4.3 4.3
305.3 305,3
5041 5041
18.49 18,49
10 10
69 69
3.7 3.7
255.3 255,3
4761 4761
13.69 13,69
11 11
68 68
3.5 3.5
238 238
4624 4624
12.25 12,25
12 12
67 67
3.2 3.2
214.4 214,4
4489 4489
10.24 10,24
13 13
63 63
3.7 3.7
233.1 233,1
3969 3969
13.69 13,69
14 14
62 62
3.3 3.3
204.6 204,6
3844 3844
10.89 10,89
15 15
60 60
3.4 3.4
204 204
3600 3600
11.56 11,56
16 16
63 63
4 4
252 252
3969 3969
16 16
17 17
65 65
4.1 4.1
266.5 266,5
4225 4225
16.81 16,81
18 18
67 67
3.8 3.8
254.6 254,6
4489 4489
14.44 14,44
19 19
63 63
3.4 3.4
214.2 214,2
3969 3969
11.56 11,56
20 20
61 61
3.6 3.6
219.6 219,6
3721 3721
12.96 12,96
Sum = Suma =
1308 1308
75.1 75,1
4937.6 4937.6
85912 85912
285.45 285,45

The first three columns are the same as in the table above. Las primeras tres columnas son los mismos que en el cuadro anterior. The next three columns are simple computations based on the height and self esteem data. Las siguientes tres columnas son simples cálculos basados ​​en datos de la altura y la autoestima. The bottom row consists of the sum of each column. La fila inferior consta de la suma de cada columna. This is all the information we need to compute the correlation. Esta es toda la información que necesitamos para calcular la correlación. Here are the values from the bottom row of the table (where N is 20 people) as they are related to the symbols in the formula: Estos son los valores de la fila inferior de la tabla (donde N es de 20 personas), ya que están relacionados con los símbolos de la fórmula:


Now, when we plug these values into the formula given above, we get the following (I show it here tediously, one step at a time): Ahora, cuando nos conectamos estos valores en la fórmula anterior, obtenemos lo siguiente (yo lo muestro aquí tediosamente, un paso a la vez):


So, the correlation for our twenty cases is .73, which is a fairly strong positive relationship. Por lo tanto, la correlación de los veinte casos es 0,73, que es una relación positiva bastante fuerte. I guess there is a relationship between height and self esteem, at least in this made up data! Creo que hay una relación entre la altura y la autoestima, al menos en esta compuesto por los datos!

Testing the Significance of a Correlation Prueba de la significación de una correlación

Once you've computed a correlation, you can determine the probability that the observed correlation occurred by chance. Una vez que haya calculado una correlación, se puede determinar la probabilidad de que la correlación observada se produjo por casualidad. That is, you can conduct a significance test. Es decir, se puede llevar a cabo una prueba de significación. Most often you are interested in determining the probability that the correlation is a real one and not a chance occurrence. Mayoría de las veces usted está interesado en determinar la probabilidad de que la correlación es real y no una casualidad. In this case, you are testing the mutually exclusive hypotheses : En este caso, está probando los que se excluyen mutuamente hipótesis :

Null Hypothesis: Hipótesis nula:
r = 0 r = 0
Alternative Hypothesis: Hipótesis Alternativa:
r <> 0 r <> 0

The easiest way to test this hypothesis is to find a statistics book that has a table of critical values of r. La forma más fácil de probar esta hipótesis es encontrar un libro de estadística que tiene una tabla de valores críticos de r. Most introductory statistics texts would have a table like this. La mayoría de textos de estadística de introducción tendría una tabla como ésta. As in all hypothesis testing, you need to first determine the significance level . Al igual que en todas las pruebas de hipótesis, es necesario determinar primero el nivel de significación . Here, I'll use the common significance level of alpha = .05. Aquí, voy a utilizar el nivel de significación común de alfa = 0,05. This means that I am conducting a test where the odds that the correlation is a chance occurrence is no more than 5 out of 100. Esto quiere decir que estoy llevando a cabo una prueba en la que las probabilidades de que la correlación es una casualidad no es más que 5 de cada 100. Before I look up the critical value in a table I also have to compute the degrees of freedom or df. Antes de buscar el valor crítico en una mesa que también tienen que calcular los grados de libertad o df. The df is simply equal to N-2 or, in this example, is 20-2 = 18. El DF es simplemente igual a N-2 o, en este ejemplo, es 20-2 = 18. Finally, I have to decide whether I am doing a one-tailed or two-tailed test. Por último, tengo que decidir si estoy haciendo una de una cola o dos colas de prueba. In this example, since I have no strong prior theory to suggest whether the relationship between height and self esteem would be positive or negative, I'll opt for the two-tailed test. En este ejemplo, ya que no tengo ninguna teoría sólida antes de que sugieran que la relación entre la altura y la autoestima sería positivo o negativo, voy a optar por la prueba de dos colas. With these three pieces of information -- the significance level (alpha = .05)), degrees of freedom (df = 18), and type of test (two-tailed) -- I can now test the significance of the correlation I found. Con estos tres datos: el nivel de significación (alfa = 0.05)), grados de libertad (df = 18), y el tipo de prueba (dos colas) - Ahora puede probar la significancia de la correlación que encontré . When I look up this value in the handy little table at the back of my statistics book I find that the critical value is .4438. Cuando miro hacia este valor en la tabla de pequeño y práctico en la parte trasera de mi libro de estadística me parece que el valor crítico es 0.4438. This means that if my correlation is greater than .4438 or less than -.4438 (remember, this is a two-tailed test) I can conclude that the odds are less than 5 out of 100 that this is a chance occurrence. Esto significa que si mi relación es mayor que o menor que 0,4438 - 0,4438 (recuerde, esta es una prueba de dos colas) puedo concluir que las probabilidades son menores que 5 de cada 100 que se trata de una casualidad. Since my correlation 0f .73 is actually quite a bit higher, I conclude that it is not a chance finding and that the correlation is "statistically significant" (given the parameters of the test). Desde mi relación 0f 0.73 es en realidad un poco más alto, llego a la conclusión de que no es un hallazgo casual y que la correlación es "estadísticamente significativa" (teniendo en cuenta los parámetros de la prueba). I can reject the null hypothesis and accept the alternative. Puedo rechazar la hipótesis nula y aceptar la alternativa.

The Correlation Matrix La matriz de correlación

All I've shown you so far is how to compute a correlation between two variables. Todo lo que he mostrado hasta ahora es la forma de calcular una correlación entre dos variables. In most studies we have considerably more than two variables. En la mayoría de los estudios que tenemos mucho más de dos variables. Let's say we have a study with 10 interval-level variables and we want to estimate the relationships among all of them (ie, between all possible pairs of variables). Digamos que tenemos un estudio con 10 a nivel de intervalo de las variables y queremos que para estimar las relaciones entre todos ellos (es decir, entre todos los posibles pares de variables). In this instance, we have 45 unique correlations to estimate (more later on how I knew that!). En este caso, tenemos 45 únicas correlaciones para estimar (más adelante cómo sabía eso!). We could do the above computations 45 times to obtain the correlations. Podríamos hacer los cálculos de más de 45 veces para obtener las correlaciones. Or we could use just about any statistics program to automatically compute all 45 with a simple click of the mouse. O podríamos utilizar casi cualquier programa de estadísticas para calcular de forma automática a las 45 con un simple clic del ratón.

I used a simple statistics program to generate random data for 10 variables with 20 cases (ie, persons) for each variable. He utilizado un programa de estadísticas simple para generar datos aleatorios para 10 variables con 20 casos (es decir, personas) para cada variable. Then, I told the program to compute the correlations among these variables. Entonces, le dije al programa para calcular las correlaciones entre estas variables. Here's the result: Aquí está el resultado:

  C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10

 C1 1.000 C1 1.000

 C2 0.274 1.000 C2 0.274 1.000

 C3 -0.134 -0.269 1.000 -0.134 -0.269 1.000 C3

 C4 0.201 -0.153 0.075 1.000 C4 0,201 -0,153 0,075 1,000

 C5 -0.129 -0.166 0.278 -0.011 1.000 C5 -0,129 -0,166 0,278 -0,011 1,000

 C6 -0.095 0.280 -0.348 -0.378 -0.009 1.000 C6 -0,095 0,280 -0,348 -0,378 -0,009 1,000

 C7 0.171 -0.122 0.288 0.086 0.193 0.002 1.000 C7 0,171 -0,122 0,288 0,086 0,193 0,002 1,000

 C8 0.219 0.242 -0.380 -0.227 -0.551 0.324 -0.082 1.000 C8 0,219 0,242 -0,380 -0,227 -0,551 0,324 -0,082 1,000

 C9 0.518 0.238 0.002 0.082 -0.015 0.304 0.347 -0.013 1.000 C9 0,518 0,238 0,002 0,082 -0,015 0,304 0,347 -0,013 1,000

 C10 0.299 0.568 0.165 -0.122 -0.106 -0.169 0.243 0.014 0.352 1.000 C10 0,299 0,568 0,165 -0,122 -0,106 -0,169 0,243 0,014 0,352 1,000

This type of table is called a correlation matrix . Este tipo de mesa se ​​llama una matriz de correlación. It lists the variable names (C1-C10) down the first column and across the first row. En él se enumeran los nombres de las variables (C1-C10) en la primera columna y en la primera fila. The diagonal of a correlation matrix (ie, the numbers that go from the upper left corner to the lower right) always consists of ones. La diagonal de una matriz de correlación (es decir, los números que van desde la esquina superior izquierda hasta la inferior derecha) siempre se compone de seres. That's because these are the correlations between each variable and itself (and a variable is always perfectly correlated with itself). Eso es porque estas son las correlaciones entre cada variable y en sí mismo (y una variable está siempre perfectamente correlacionada consigo misma). This statistical program only shows the lower triangle of the correlation matrix. Este programa sólo muestra estadística del triángulo inferior de la matriz de correlación. In every correlation matrix there are two triangles that are the values below and to the left of the diagonal (lower triangle) and above and to the right of the diagonal (upper triangle). En cada matriz de correlación hay dos triángulos que son los valores por debajo ya la izquierda de la diagonal (triángulo inferior) y por encima ya la derecha de la diagonal (triángulo superior). There is no reason to print both triangles because the two triangles of a correlation matrix are always mirror images of each other (the correlation of variable x with variable y is always equal to the correlation of variable y with variable x). No hay ninguna razón para imprimir los dos triángulos, porque los dos triángulos de una matriz de correlación son siempre imágenes especulares el uno del otro (la correlación de la variable x con variable y siempre es igual a la correlación de la variable y con la variable x). When a matrix has this mirror-image quality above and below the diagonal we refer to it as a symmetric matrix . Cuando una matriz tiene este espejo de calidad de imagen por encima y por debajo de la diagonal se refieren a ella como una matriz simétrica. A correlation matrix is always a symmetric matrix. Una matriz de correlación es siempre una matriz simétrica.

To locate the correlation for any pair of variables, find the value in the table for the row and column intersection for those two variables. Para localizar la correlación para cada par de variables, encontrar el valor de la tabla de la fila y la intersección de columna para esas dos variables. For instance, to find the correlation between variables C5 and C2, I look for where row C2 and column C5 is (in this case it's blank because it falls in the upper triangle area) and where row C5 and column C2 is and, in the second case, I find that the correlation is -.166. Por ejemplo, para encontrar la correlación entre las variables C5 y C2, busco donde fila C2 y C5 columna es (en este caso que está en blanco debido a que cae en el área de un triángulo superior) y donde se encuentra la fila C5 y C2 de la columna y, en el segundo caso, me parece que la correlación es - .166.

OK, so how did I know that there are 45 unique correlations when we have 10 variables? OK, así que ¿cómo sé que son 45 las correlaciones únicos en que tenemos 10 variables? There's a handy simple little formula that tells how many pairs (eg, correlations) there are for any number of variables: Hay una fórmula sencilla práctica lo poco que le dice cuántos pares (por ejemplo, las correlaciones) no son para cualquier número de variables:


where N is the number of variables. donde N es el número de variables. In the example, I had 10 variables, so I know I have (10 * 9)/2 = 90/2 = 45 pairs. En el ejemplo, yo tenía 10 variables, por lo que yo sé que tengo (10 * 9) / 2 = 90/2 = 45 pares.

Other Correlations Otras correlaciones

The specific type of correlation I've illustrated here is known as the Pearson Product Moment Correlation. El tipo específico de correlación que he ilustrado aquí se conoce como la correlación de Pearson producto. It is appropriate when both variables are measured at an interval level . Es apropiado cuando ambas variables se miden a un nivel de intervalo . However there are a wide variety of other types of correlations for other circumstances. Sin embargo, hay una amplia variedad de otros tipos de correlaciones para otras circunstancias. for instance, if you have two ordinal variables, you could use the Spearman rank Order Correlation (rho) or the Kendall rank order Correlation (tau). Por ejemplo, si usted tiene dos variables ordinales, se puede utilizar el rango de correlación de Spearman Orden (rho) o el grado de correlación Kendall orden (tau). When one measure is a continuous interval level one and the other is dichotomous (ie, two-category) you can use the Point-Biserial Correlation. Cuando una medida es un intervalo de un nivel continuo y el otro es dicotómica (es decir, de dos categorías) se puede utilizar la correlación punto biserial. For other situations, consulting the web-based statistics selection program, Selecting Statistics at http://trochim.human.cornell.edu/selstat/ssstart.htm . Para otras situaciones, consultar el programa basado en la web las estadísticas de la selección, Selección de Estadística en http://trochim.human.cornell.edu/selstat/ssstart.htm .



















Correlación de Pearson (PEARSON)



33.1 Descripción general

PEARSON calcula e imprime matrices de coeficientes de correlación r de Pearson y covariancias para todos los pares de variables en una lista (opción de matriz cuadrada) o para cada pareja de variables formada al tomar una variable de cada dos listas de variables (opción de matriz rectangular).

Se puede especificar la eliminación de datos faltantes "por pares" o "por casos".

PEARSON se puede utilizar también para obtener una matriz de correlación, la cual puede ser posteriormente leida por los programas REGRESSN o MDSCAL. Aunque REGRESSN puede calcular su propia matriz de correlación, su opción de manejo de datos faltantes sólo puede eliminar "por casos". En contraste, PEARSON puede generar una matriz con el uso de un algoritmo de eliminación "por pares" para datos faltantes.

33.2 Características estándar de IDAMS

Selección de casos y variables. Se puede utilizar el filtro estándar para la selección de un subconjunto de casos de los datos de entrada. Las variables para las cuales se desea la correlación se especifican con los parámetros ROWVARS y COLVARS.

Transformación de datos. Se pueden usar las proposiciones de Recode.

Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número de casos así tratados.

Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Se calculan las estadísticas univariadas para cada variable a partir de los casos que tengan datos válidos (no faltantes) para la variable.

Datos faltantes: eliminación por pares. Las estadísticas por pares y el coeficiente de correlación, se pueden calcular de los casos que tengan datos válidos para ambas variables (MDHANDLING=PAIR). Así, un caso se puede utilizar en los cálculos para algunos pares de variables y no usarse para otros. Este método de manejo de datos faltantes se llama algoritmo de eliminación "por pares". Nota: si hay datos faltantes, se pueden calcular coeficientes de correlación individuales para diferentes subconjuntos de datos. Si hay muchos datos faltantes, se pueden presentar inconsistencias internas en la matriz de correlación, las cuales pueden causar dificultades en análisis multivariados posteriores.

Datos faltantes: eliminación por casos. El programa puede también recibir la instrucción (MDHANDLING=CASE) para calcular estadísticas pareadas y correlaciones a partir de los casos que tengan datos válidos en todas las variables de la lista de variables. De esta manera, un caso se usa en el cálculo para todos los pares de variables o no se usa. Este método de manejar los datos faltantes se llama algoritmo de eliminación "por casos" (también se encuentra en el programa REGRESSN) y sólo se aplica a la opción de matriz cuadrada.

33.3 Resultados

Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.

Opción de matriz cuadrada

Estadísticas pareadas. (Opcional: ver el parámetro PRINT). Para cada par de variables de la lista, se imprime la siguiente información:

número de casos válidos (o suma ponderada de casos),

media y desviación estándar de la variable X,

media y desviación estándar de la variable Y,

prueba T para el coeficiente de correlación,

coeficiente de correlación.

Estadísticas univariadas. Para cada variable de la lista, se imprime la siguiente información:

número de casos válidos y suma de ponderaciones,

suma de puntajes y suma de puntajes cuadrados,

media y desviación estándar.

Coeficientes de regresión para puntajes primarios. (Opcional: ver el parámetro PRINT). Para cada par de variables x, y se imprimen los coeficientes de regresión a y c y los términos constantes b y d de las ecuaciones de regresión x=ay+b y y=cx+d.

Matriz de correlación. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz.

Matriz de productos cruzados. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz.

Matriz de covariancia. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo de la matriz con su diagonal.

En cada una de las tablas anteriores, se imprime por página, un máximo de 11 columnas y 27 filas.

Opción de matriz rectangular

Tabla de frecuencias de variables. Número de casos válidos para cada par de variables.

Tabla de valores de la media para las variables de columnas. Se calculan y se imprimen las medias para cada variable de columna en los casos que son válidos, a su turno, para cada variable de fila.

Tabla de desviaciones estándar para variables de columnas. Igual que para las medias.

Matriz de correlación. (Opcional: ver el parámetro PRINT). Coeficientes de correlación para todos los pares de variables.

Matriz de covariancia. (Opcional: ver el parámetro PRINT). Covariancias para todos los pares de variables.

En cada una de las tablas anteriores, se imprime por página, un máximo de 8 columnas y 50 filas.

Nota: si un par de variables no tiene casos válidos, se escribe 0.0 para la media, desviación estándar, correlación y covariancia.



33.4 Matrices de salida

Matriz de correlación

Cuando se especifica el parámetro WRITE=CORR, se produce la matriz de correlación, en la forma estándar de una matriz cuadrada IDAMS. El formato de las correlaciones es 8F9.6; el formato para la media y la desviación estándar es 5E14.7. Las columnas 73-80, se utilizan para identificar los registros.

La matriz contiene correlaciones, medias y desviaciones estándar. Las medias y las desviaciones estándar están sin parear. Los registros de diccionario que produce PEARSON, tienen números y nombres de variable del diccionario de entrada y/o de proposiciones de Recode. El orden de las variables lo determina el orden de las mismas en la lista.

PEARSON puede generar correlaciones iguales a 99.999901, y medias y desviaciones estándar iguales a 0.0 cuando los valores calculados carezcan de sentido. Razones típicas de ésto pueden ser por ejemplo, que se hayan eliminado todos los casos debido a datos faltantes o una de las variables tuvo un valor constante. Nótese que MDSCAL no acepta estos "valores faltantes" y REGRESSN sí.

Matriz de covariancia

Cuando se especifica el parámetro WRITE=COVA, se produce la matriz de covariancia, sin la diagonal, en la forma de una matriz cuadrada estándar de IDAMS.

33.5 Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del análisis deben ser numéricas; pueden tener valores enteros o decimales.

33.6 Estructura del setup

<><><>



     $RUN PEARSON
  
     $FILES
          Especificación de archivos

     $RECODE (opcional)
          Proposiciones de Recode

     $SETUP
          1. Filtro (opcional)
          2. Título
          3. Parámetros

     $DICT (condicional)
          Diccionario

     $DATA (condicional)
          Datos


     Archivos:
     FT02       matrices de salida si se especifica el parámetro WRITE
     DICTxxxx   diccionario de entrada (omitir si se usa $DICT)
     DATAxxxx   datos de entrada (omitir si se usa $DATA)
     PRINT      resultados (por defecto IDAMS.LST)
 



33.7 Proposiciones de control del programa

Referirse al capítulo "El archivo Setup de IDAMS" para una descripción más detallada de las proposiciones de control del programa, ítems 1-3, a continuación.

  1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.

2.   

3.       Ejemplo:  INCLUDE V2=11-15,60  OR  V3=9

  1. Título (mandatorio). Una línea que contenga hasta 80 caracteres para titular los resultados.

5.   

6.       Ejemplo:  PRIMERA CORRIDA DE PEARSON - ABRIL 27

  1. Parámetros (mandatorio). Para seleccionar opciones del programa.

8.   

9.       Ejemplo:  WRITE=CORR,  PRINT=(CORR,COVA)  ROWV=(V1,V3-V6,R47,V25)

INFILE=IN /xxxx

Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.

Por defecto: DICTIN, DATAIN.

BADDATA=STOP /SKIP/MD1/MD2

Tratamiento de los datos no numéricos. Ver el capítulo "El archivo Setup de IDAMS".

MAXCASES=n

Número máximo de casos (después de filtrar) a usar del archivo de entrada.

Por defecto: se usan todos los casos.

MATRIX=SQUARE /RECTANGULAR

SQUA

Calcular coeficientes de correlación de Pearson para todos los pares de variables de la lista en ROWV.

RECT

Calcular los coeficientes de correlación de Pearson para cada par de variables formado al tomar una variable de cada una de las dos listas en ROWV y COLV.



ROWVARS=(lista de variables)

Una lista de variables V o R a correlacionar (MATRIX=SQUARE) o la lista de variables de fila (MATRIX=RECTANGULAR).

Sin valor por defecto.

COLVARS=(lista de variables)

(Sólo MATRIX=RECTANGULAR).

Una lista de variables V o R a usar como variables de columna. Se escriben 8 columnas por página; si las listas de variables de columna o de fila tienen menos de 8 variables, es preferible (para facilidad de lectura del listado) tener la lista corta como la lista de variables de columna.

MDVALUES=BOTH /MD1/MD2/NONE

Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver el capítulo "El archivo Setup de IDAMS".

MDHANDLING=PAIR /CASE

Método para el manejo de datos faltantes.

PAIR

Eliminación por pares.

CASE

Eliminación por casos (no disponible con MATRIX=RECTANG).



WEIGHT=número de variable

Número de la variable de ponderación, si se van a ponderar los datos.

WRITE=(CORR, COVA)

Sólo MATRIX=SQUARE.

CORR

Escribir en un archivo de salida, la matriz de correlación con medias y desviaciones estándar.

COVA

Escribir en un archivo de salida, la matriz de covariancia con medias y desviaciones estándar.



PRINT=(CDICT/DICT, CORR /NOCORR, COVA, PAIR, REGR, XPRODUCTS)

CDIC

Imprimir el diccionario de entrada para las variables accedidas con registros C, si los hay.

DICT

Imprimir el diccionario de entrada sin registros C.

CORR

Imprimir la matriz de correlación.

COVA

Imprimir la matriz de covariancia.

PAIR

Imprimir estadísticas pareadas (sólo MATRIX=SQUARE).

REGR

Imprimir los coeficientes de regresión (sólo MATRIX=SQUARE).

XPRO

Imprimir la matriz de productos cruzados (sólo MATRIX=SQUARE).



33.8 Restricciones

Cuando se especifica MATRIX=SQUARE

  1. El número máximo de variables permitido en una ejecución es 200. Este límite incluye todas las variables de análisis y variables usadas en proposiciones Recode.
  2. Los números de las variables recodificadas no pueden exceder de 999 si se especifica el parámetro WRITE. (Salen como números negativos en la parte descriptiva de la matriz, la cual sólo tiene cuatro columnas reservadas para el número de variable, por ej. R862 saldría como -862).

Cuando se especifica MATRIX=RECTANGULAR

  1. El número máximo de variables en la lista para filas o columnas es 100.
  2. El máximo total variables de filas, columnas, variables usadas en Recode y variable de ponderación es 136.



33.9 Ejemplos

Ejemplo 1. Cálculo de una matriz cuadrada de coeficientes de correlación de Pearson, con eliminación de casos con datos faltantes por pares; la matriz se escribirá en un archivo de salida y se imprimirá.



     $RUN PEARSON

     $FILES

     PRINT  = PEARS1.LST

     FT02   = BIRDCOR.MAT               archivo Matriz de salida

     DICTIN = BIRD.DIC                  archivo Diccionario de entrada

     DATAIN = BIRD.DAT                  archivo Datos de entrada

     $SETUP

     MATRIZ DE COEFICIENTES DE CORRELACION

     PRINT=(PAIR,REGR,CORR)  WRITE=CORR  ROWV=(V18-V21,V36,V55-V61)

Ejemplo 2. Cálculo de coeficientes de correlación de Pearson para las variables V10-V20, con las variables V5-V6.



     $RUN PEARSON

     $FILES

     DICTIN = BIRD.DIC                  archivo Diccionario de entrada

     DATAIN = BIRD.DAT                  archivo Datos de entrada

     $SETUP

     COEFICIENTES DE CORRELACION

     MATRIX=RECT  ROWV=(V10-V20)  COLV=(V5-V6)



COEFICIENTE DE CORRELACIÓN -MOMENTO PRODUCTO- DE PEARSON

Medidas de Asociación y Regresión Lineal Simple





El estadístico se utiliza para:

1.    Medir la asociación entre dos variables.

2.    Determinar la recta de regresión.

3.    Predecir e comportamiento de una variable (intervalo o razón) a partir del conocimiento de otra variable igual.

Contenidos:

1.    Diagramas de dispersión

2.    Correlación lineal de Pearson.

3.    Correlación de Sperman y t de Kendall (variables ordinales)

4.    Cálculo de la ecuación de regresión y sus propiedades.



Correlación lineal de Pearson.

Indica el grado en el cual una variable cuantitativa esta linealmente relacionada con una muestra. Cada individuo o cada caso debe tener puntajes en por lo menos dos variables cuantitativas.

El test de significancia de r evalúa  si existe una relación lineal entre dos variables en la población. No se consideran en este ejercicio las correlaciones en las cuales  una o dos variables son categóricas u ordinales.



Aplicaciones.

1.    Existen dos variables y se quiere calcular el coeficiente de correlación entre ambas.

2.    Existen múltiples variables entre un mismo grupo y se quiere calcular las correlaciones entre pares de variables de un mismo grupo.

3.    Existe dos grupos de variables conceptualmente distintas y se quiere calcular las variables entre cada grupo y entre grupos diferentes.



  1. DOS VARIABLES Y UN GRUPO DE DATOS.

Ana esta interesada en saber la relación existente, si alguna, entre la fortaleza de las piernas y la habilidad para correr. Ana obtuvo una muestra de cuarenta estudiantes de género masculino, de la clase de educación física de 5to año. Cada estudiante completo una serie de ejercicios de esfuerzo en una maquina. Ana calculo un índice de fortaleza de las piernas (IFP) que tomo en cuenta el desempeño de los estudiantes en la serie propuesta. Adicionalmente se le pidió a cada estudiante correr 200 mts. En línea recta y 200 mts en curva y zig-zag. Se calculo el índice de torpeza al correr (ITC), opuesto a la agilidad para correr, entendido como el total de segundos que le tomó recorrer la línea curva y en zig-zag menos el numero de segundos que le tomo en completar la carrera en línea recta. La data de Ana incluye, para los 40 casos, registros del IFP y del ITC.     



  1. UN GRUPO DE TRES O MÁS VARIABLES.

Juan esta interesado en investigar si las personas que tienen una visión positiva de si mismos en un determinado aspecto de su vida, tienden a tener una visión también positiva en otros aspectos de sus vidas.



Utilizo un cuestionario de cinco escalas diferentes que incluye ítems para las aspectos siguientes: 1. Relación consigo mismo, 2. relación con los demás, 3. sentido común, 4. razonamiento académico y 5.cuan competente se siente en general. Juan esta interesado en determinar las correlaciones entre los pares posibles, en total diez correlaciones.



  1. DOS GRUPOS DE VARIABLES. Cada grupo contiene múltiples variables.

El director de personal de una compañía de seguros quiere saber si el test de personalidad aplicado a 50 vendedores de seguros en el momento de su contratación predice el desempeño en el trabajo.

El test de personalidad tiene tres escalas: 1. Extroversión, 2. Conciencia, y 3. Apertura. El desempeño en el trabajo fue medido con base a dos criterios: 1. Cantidad de seguros vendidos y 2. Calificación del supervisor.

El archivo de datos contiene dos grupos de variables para los 50 casos. Un grupo contiene las tres escalas  predictoras y el otro grupo contiene los 2 criterios de desempeño.

Se procedió a calcular la correlación entre los grupos, pero principalmente la correlación existente entre los predoctores y los dos criterios de desempeño para un total de seis correlaciones.



Supuestos subyacentes

  1. Las variables están normalmente distribuidas y son bivariadas. Si se cumple este supuesto la única correlación que puede existir entre las variables es una correlación lineal. Si se viola el supuesto existe una correlación no lineal, lo cual es importante determinar antes de describir los resultados. La relación no lineal se puede apreciar visualmente examinando el diagrama de dispersión.
  2. Los casos representan una muestra al azar de la población y los puntajes de las variables para un caso son independientes de los puntajes de esta variable para los otros casos. Si se viola el supuesto  de independencia el test de significancia de la correlación no debe  ser calculado.



   Pregunta de investigación.

  1. ¿Los hombres que se sienten confiados en un aspecto de su vida tienden a sentirse confiados en otros aspectos?
  2. ¿Los que se sienten inseguros en un aspecto de su vida tienden a sentirse inseguros en otros aspectos de su vida?







Calculando el efecto estadístico.

El índice calculado va de un rango de -1 a +1 . Este coeficiente indica el grado en el que los puntajes bajos o altos en una variable tienden a ir relacionados con los puntajes bajos o altos de otra variable. Un puntaje se considera bajo o alto en la medida que dicho puntaje cae por debajo o por encima  de la media del puntaje de la otra variable.

Si r es positivo los puntajes bajos de la variable A tienden a asociarse con los puntajes bajos en B al igual que los puntajes  altos en A se relacionan con los puntajes altos en B

Si r es igual 0 los puntajes bajos de la variable A tienden a asociarse con los puntajes bajos o altos  en B, y los puntajes altos en A tienden a asociarse igualmente con puntajes altos o bajos en B

Si r es negativo los puntajes bajos de la variable A tienden a asociarse con los puntajes altos en B al igual que los puntajes  altos en A se relacionan con los puntajes bajos en B



¿Que valor indica una fuerte relación entre dos variable?

0.10 = baja correlación/  0.20 = Correlación media / 0.50 Correlación alta en ciencias de la conducta independientemente del signo.

Si una variable es considerada como predictor y la otra variable se considera como el criterio, podemos elevar la correlación al cuadrado para interpretar la fuerza de la correlación en términos de proporción...

El cuadrado de la correlación nos da la proporción  en que  la varianza de la variable de criterio cuenta en su relación lineal con la variable predictora.

Ej.: Si A es el predictor y B es el criterio y la correlación es igual a 0.40, podemos concluir que el 16 por ciento de la varianza (0.40)2 de la variable A es explicada por su relación lineal con la variable B




























































Pearson coeficiente de correlación

From Wikipedia, the free encyclopedia De Wikipedia, la enciclopedia libre

Jump to: navigation , search Saltar a navegación , búsqueda

In statistics , the Pearson product-moment correlation coefficient (sometimes referred to as the PPMCC or PCC [ 1 ] , or Pearson's r , and is typically denoted by r ) is a measure of the correlation (linear dependence) between two variables X and Y , giving a value between +1 and −1 inclusive. En las estadísticas , el Pearson coeficiente de correlación (a veces referido como el PPMCC o PCC [1] , o de Pearson r, y normalmente se denota por r) es una medida de la correlación (dependencia lineal) entre dos variables X e Y , dando un valor entre 1 y -1 inclusiva. It is widely used in the sciences as a measure of the strength of linear dependence between two variables. Se utiliza ampliamente en las ciencias como una medida de la fuerza de la dependencia lineal entre dos variables. It was developed by Karl Pearson from a similar but slightly different idea introduced by Francis Galton in the 1880s. [ 2 ] [ 3 ] Fue desarrollado por Karl Pearson en una idea similar pero ligeramente diferente introducido por Francis Galton en la década de 1880. [2] [3]



Several sets of ( x , y ) points, with the correlation coefficient of x and y for each set. Varios conjuntos de (x, y) puntos, con el coeficiente de correlación de X e Y para cada conjunto. Note that the correlation reflects the non-linearity and direction of a linear relationship (top row), but not the slope of that relationship (middle), nor many aspects of nonlinear relationships (bottom). Nótese que la correlación refleja la no linealidad y la dirección de una relación lineal (fila superior), pero no la pendiente de esta relación (medio), ni muchos aspectos de las relaciones no lineales (parte inferior). NB: the figure in the center has a slope of 0 but in that case the correlation coefficient is undefined because the variance of Y is zero. Nota: la figura en el centro tiene una pendiente de 0 pero en ese caso, el coeficiente de correlación es indefinido debido a la variación de Y es cero.

Contents Contenido
[hide]

[ edit ] Definition [ editar ] Definición

Pearson's correlation coefficient between two variables is defined as the covariance of the two variables divided by the product of their standard deviations Coeficiente de correlación de Pearson entre dos variables se define como la covarianza de las dos variables divididos por el producto de sus desviaciones estándar

[ edit ] For a population [ editar ] Para una población

Pearson's correlation coefficient when applied to a population is commonly represented by the Greek letter ρ (rho) and may be referred to as the population correlation coefficient or the population Pearson correlation coefficient . Coeficiente de correlación de Pearson cuando se aplica a una población que comúnmente representado por la letra griega ρ (rho) y puede ser conocido como el coeficiente de correlación de la población o el coeficiente de correlación de Pearson de la población. The formula for ρ is: La fórmula para ρ es:


[ edit ] For a sample [ editar ] En una muestra

Pearson's correlation coefficient when applied to a sample is commonly represented by the letter r and may be referred to as the sample correlation coefficient or the sample Pearson correlation coefficient . Coeficiente de correlación de Pearson cuando se aplica a una muestra es comúnmente representada por la letra R y puede ser denominado como el coeficiente de correlación de la muestra o el coeficiente de correlación de Pearson muestra. We can obtain a formula for r by substituting estimates of the covariances and variances based on a sample into the formula above. Podemos obtener una fórmula para r mediante la sustitución de las estimaciones de las covarianzas y varianzas basadas en una muestra en la fórmula anterior. That formula for r is: La fórmula para r es:


An equivalent expression gives the correlation coefficient as the mean of the products of the standard scores . Una expresión equivalente da el coeficiente de correlación como la media de los productos de las puntuaciones estándar . Based on a sample of paired data ( X i , Y i ), the sample Pearson correlation coefficient is Basado en una muestra de pares de datos (x i, y i), el coeficiente de correlación de Pearson de la muestra es


where donde


are the standard score , sample mean , and sample standard deviation , respectively. son el puntaje estándar , muestra de media , y la muestra la desviación estándar , respectivamente.

[ edit ] Mathematical properties [ editar ] Propiedades matemáticas

The absolute value of both the sample and population Pearson correlation coefficients are less than or equal to 1. El valor absoluto de la muestra y la población coeficientes de correlación de Pearson son menores o iguales a 1. Correlations equal to 1 or -1 correspond to data points lying exactly on a line (in the case of the sample correlation), or to a bivariate distribution entirely supported on a line (in the case of the population correlation). Las correlaciones iguales a 1 o -1 corresponden a puntos de datos situadas exactamente en una línea (en el caso de la correlación de la muestra), o para una distribución bivariada totalmente apoyado sobre una línea (en el caso de la correlación de la población). The Pearson correlation coefficient is symmetric: corr ( X , Y ) = corr ( Y , X ). El coeficiente de correlación de Pearson es simétrica: corr (X, Y) = corr (Y, X).

A key mathematical property of the Pearson correlation coefficient is that it is invariant (up to a sign) to separate changes in location and scale in the two variables. Una característica clave matemática del coeficiente de correlación de Pearson es que es invariante (hasta un signo) para separar los cambios en la ubicación y la escala en las dos variables. That is, we may transform X to a + bX and transform Y to c + dY , where a , b , c , and d are constants, without changing the correlation coefficient (this fact holds for both the population and sample Pearson correlation coefficients). Esto es, se puede transformar X a A + BX y transformar Y para c + dy, donde a, b, c, yd son constantes, sin cambiar el coeficiente de correlación (este hecho es válido para la población y muestra coeficientes de correlación de Pearson) . Note that more general linear transformations do change the correlation: see a later section for an application of this. Tenga en cuenta que las transformaciones lineales más generales hacen cambiar la correlación: ver una sección posterior de una solicitud de este.

The Pearson correlation can be expressed in terms of uncentered moments. La correlación de Pearson se puede expresar en términos de momentos no centradas. Since μ X = E( X ), σ X 2 = E[( X − E( X )) 2 ] = E( X 2 ) − E 2 ( X ) and likewise for Y , and since Desde μ X = E (X), σ X 2 = E [(X - E (X)) 2] = E (X 2) - E 2 (X) y también de Y, y desde


the correlation can also be written as la correlación también se puede escribir como


Alternative formulae for the sample Pearson correlation coefficient are also available: Fórmulas alternativas para el coeficiente de correlación de Pearson de la muestra también están disponibles:


The above formula suggests a convenient single-pass algorithm for calculating sample correlations, but, depending on the numbers involved, it can sometimes be numerically unstable . La fórmula anterior sugiere una conveniente una sola pasada algoritmo para calcular correlaciones de muestra, pero, dependiendo de los números implicados, a veces puede ser numéricamente inestable .

[ edit ] Interpretation [ editar ] Interpretación

The correlation coefficient ranges from −1 to 1. El coeficiente de correlación oscila entre -1 a 1. A value of 1 implies that a linear equation describes the relationship between X and Y perfectly, with all data points lying on a line for which Y increases as X increases. Un valor de 1 implica que una ecuación lineal describe la relación entre X e Y a la perfección, con todos los puntos de datos se extiende sobre una línea para la que Y aumenta a medida que X aumenta. A value of −1 implies that all data points lie on a line for which Y decreases as X increases. Un valor de -1 implica que todos los puntos de datos se encuentran en una línea para la que Y disminuye a medida que X aumenta. A value of 0 implies that there is no linear correlation between the variables. Un valor de 0 implica que no hay una correlación lineal entre las variables.

More generally, note that ( X iX )( Y iY ) is positive if and only if X i and Y i lie on the same side of their respective means. Más en general, en cuenta que (i X - X) (Y i - Y) es positivo si y sólo si X e Y i mentira i en el mismo lado de sus respectivos medios. Thus the correlation coefficient is positive if X i and Y i tend to be simultaneously greater than, or simultaneously less than, their respective means. Así, el coeficiente de correlación es positivo si X i y Y i tienden a ser simultáneamente mayor que, o simultáneamente a menos de, sus respectivos medios. The correlation coefficient is negative if X i and Y i tend to lie on opposite sides of their respective means. El coeficiente de correlación es negativo si X i e Y i tienden a estar en lados opuestos de sus respectivos medios.

[ edit ] Geometric interpretation [ editar ] Interpretación geométrica



Regression lines for y=g x (x) [red] and x=g y (y) [blue] Líneas de regresión de y = g x (x) [rojo] y x = g y (y) [azul]

For uncentered data, the correlation coefficient corresponds with the cosine of the angle Para los datos no centradas, el coeficiente de correlación se corresponde con el coseno del ángulo between both possible regression lines y=g x (x) and x=g y (y). entre las dos posibles líneas de regresión y = g x (x) y x = g y (y).

For centered data (ie, data which have been shifted by the sample mean so as to have an average of zero), the correlation coefficient can also be viewed as the cosine of the angle Para los datos centrados (es decir, los datos que han sido desplazadas por la media de la muestra a fin de tener un promedio de cero), el coeficiente de correlación también puede ser visto como el coseno del ángulo between the two vectors of samples drawn from the two random variables (see below). entre los dos vectores de muestras extraídas de las dos variables aleatorias (véase más adelante).

Some practitioners [ who? ] prefer an uncentered (non-Pearson-compliant) correlation coefficient. Algunos practicantes [ ¿quién? ] prefieren un coeficiente de correlación uncentered (no compatible con Pearson). See the example below for a comparison. Vea el siguiente ejemplo para una comparación.

As an example, suppose five countries are found to have gross national products of 1, 2, 3, 5, and 8 billion dollars, respectively. A modo de ejemplo, supongamos que cinco países se encontró que el producto nacional bruto de 1, 2, 3, 5 y 8 dólares millones de dólares, respectivamente. Suppose these same five countries (in the same order) are found to have 11%, 12%, 13%, 15%, and 18% poverty. Supongamos que estos mismos cinco países (en el mismo orden) se encontró que el 11%, 12%, 13%, 15% y el 18% de la pobreza. Then let x and y be ordered 5-element vectors containing the above data: x = (1, 2, 3, 5, 8) and y = (0.11, 0.12, 0.13, 0.15, 0.18). Entonces deja xey se ordenó 5-elemento vectores que contienen los datos anteriores: x = (1, 2, 3, 5, 8), y = (0,11, 0,12, 0,13, 0,15, 0,18).

By the usual procedure for finding the angle Mediante el procedimiento habitual para encontrar el ángulo between two vectors (see dot product ), the uncentered correlation coefficient is: entre dos vectores (ver producto punto ), el coeficiente de correlación uncentered es la siguiente:


Note that the above data were deliberately chosen to be perfectly correlated: y = 0.10 + 0.01 x . Nótese que los datos anteriores fueron elegidos deliberadamente para ser perfectamente correlacionados: y = 0,10 + 0,01 x. The Pearson correlation coefficient must therefore be exactly one. El coeficiente de correlación de Pearson por lo tanto, debe ser exactamente uno. Centering the data (shifting x by E( x ) = 3.8 and y by E( y ) = 0.138) yields x = (−2.8, −1.8, −0.8, 1.2, 4.2) and y = (−0.028, −0.018, −0.008, 0.012, 0.042), from which Centrando los datos (cambio de x por E (x) = 3,8 e y por e (y) = 0.138) se obtiene x = (-2,8, -1,8, -0,8, 1,2, 4,2) ey = (-0.028, -0.018, -0,008, 0,012, 0,042), de la cual


as expected. como se esperaba.

[ edit ] Interpretation of the size of a correlation [ editar ] Interpretación del tamaño de una correlación

Correlation Correlación
Negative Negativo
Positive Positiva
None Ninguno
−0.09 to 0.0 -0,09 A 0,0
0.0 to 0.09 0,0 a 0,09
Small Pequeño
−0.3 to −0.1 -0,3 A -0,1
0.1 to 0.3 0,1 a 0,3
Medium Medio
−0.5 to −0.3 -0,5 A -0,3
0.3 to 0.5 0,3 a 0,5
Strong Fuerte
−1.0 to −0.5 -1,0 A -0,5
0.5 to 1.0 0,5 a 1,0

Several authors [ 4 ] [ 5 ] have offered guidelines for the interpretation of a correlation coefficient. Varios autores [4] [5] han ofrecido directrices para la interpretación de un coeficiente de correlación. However, all such criteria are in some ways arbitrary and should not be observed too strictly. [ 5 ] The interpretation of a correlation coefficient depends on the context and purposes. Sin embargo, todos estos criterios son de alguna manera arbitraria y no se debe observar muy estrictamente. [5] La interpretación de un coeficiente de correlación depende del contexto y los fines. A correlation of 0.9 may be very low if one is verifying a physical law using high-quality instruments, but may be regarded as very high in the social sciences where there may be a greater contribution from complicating factors. Una correlación de 0,9 puede ser muy baja si se está verificando una ley física utilizando instrumentos de alta calidad, pero puede considerarse como muy alta en las ciencias sociales, donde puede haber una mayor contribución de los factores de complicación.

[ edit ] Pearson's distance [ editar distancia] de Pearson

A distance metric for two variables X and Y known as Pearson's distance can be defined from their correlation coefficient as [ 6 ] Una métrica de distancia de dos variables X e Y se conocen como la distancia de Pearson se puede definir a partir de su coeficiente de correlación como [6]


Considering that the Pearson correlation coefficient falls between [-1, 1], the Pearson distance lies in [0, 2]. Teniendo en cuenta que el coeficiente de correlación de Pearson se sitúa entre [-1, 1], la distancia de Pearson se encuentra en [0, 2].

[ edit ] Inference [ editar ] Inferencia



A graph showing the minimum value of Pearson's correlation coefficient that is significantly different from zero at the 0.05 level, for a given sample size. Un gráfico que muestra el valor mínimo del coeficiente de correlación de Pearson que es significativamente diferente de cero en el nivel de 0,05, para un determinado tamaño de muestra.

Statistical inference based on Pearson's correlation coefficient often focuses on one of the following two aims: La inferencia estadística basada en el coeficiente de correlación de Pearson se centra a menudo en uno de los dos objetivos siguientes:

  • One aim is to test the null hypothesis that the true correlation coefficient ρ is equal to 0, based on the value of the sample correlation coefficient r . Uno de los objetivos es poner a prueba la hipótesis nula que el coeficiente de correlación ρ verdadero es igual a 0, basado en el valor de la muestra coeficiente de correlación r.
  • The other aim is to construct a confidence interval around r that has a given probability of containing ρ . El otro objetivo es construir un intervalo de confianza alrededor de R que tiene una determinada probabilidad de que contenga ρ.

We discuss methods of achieving one or both of these aims below. Se discuten métodos para lograr una o ambas de estas finalidades por debajo.

[ edit ] Use a permutation test [ editar ] Usar una prueba de permutación

Permutation tests provide a direct approach to performing hypothesis tests and constructing confidence intervals. Pruebas de permutación proporcionar un enfoque directo a la realización de las pruebas de hipótesis y construir intervalos de confianza. A permutation test for Pearson's correlation coefficient involves the following two steps: Una prueba de permutación para el coeficiente de correlación de Pearson involucra a los dos pasos siguientes:

  • (i) using the original paired data ( x i , y i ), randomly redefine the pairs to create a new data set ( x i , y i′ ), where the i′ are a permutation of the set {1,..., n }. (I) usando los datos originales en pares (x i, y i), al azar redefinir las parejas para crear un nuevo conjunto de datos (x i, y i '), donde la i' es una permutación del conjunto {1, .. ., n}. The permutation i′ is selected randomly, with equal probabilities placed on all n ! La permutación i 'se ha seleccionado al azar, con probabilidades iguales colocadas en todos los n! possible permutations. permutaciones posibles. This is equivalent to drawing the i′ randomly "without replacement" from the set {1,..., n }. Esto es equivalente a la elaboración de la i-azar "sin sustitución" del conjunto {1, ..., n}. A closely related and equally justified ( bootstrapping ) approach is to separately draw the i and the i′ "with replacement" from {1,..., n }; Un estrechamente relacionadas y son justificados por igual ( bootstrapping ) consiste en elaborar por separado la i y la "i" con sustitución "de {1, ..., n};
  • (ii) Construct a correlation coefficient r from the randomized data. (Ii) Construir un coeficiente de correlación r de los datos aleatorios.

To perform the permutation test, repeat (i) and (ii) a large number of times. Para realizar la prueba de permutación, repetir (i) y (ii) un gran número de veces. The p-value for the permutation test is one minus the proportion of the r values generated in step (ii) that are larger than the Pearson correlation coefficient that was calculated from the original data. El valor de p para la prueba de permutación es uno menos la proporción de los valores r generados en la etapa (ii) que son más grandes que el coeficiente de correlación de Pearson que se calcula a partir de los datos originales. Here "larger" can mean either that the value is larger in magnitude, or larger in signed value, depending on whether a two-sided or one-sided test is desired. Aquí "grande" puede significar tanto que el valor es mayor en magnitud, o mayor en valor firmado, dependiendo de si uno de dos lados o caras una prueba que se desea.

[ edit ] Use a bootstrap [ editar ] Con un arranque

The bootstrap can be used to construct confidence intervals for Pearson's correlation coefficient. El arranque se puede utilizar para construir intervalos de confianza para el coeficiente de correlación de Pearson. In the "non-parametric" bootstrap, n pairs ( x i , y i ) are resampled "with replacement" from the observed set of n pairs, and the correlation coefficient r is calculated based on the resampled data. En el "no-paramétrica" ​​de arranque, n pares (x i, y i) se vuelven a muestrear "con sustitución" de la serie observada de n pares, y el coeficiente de correlación r se calcula sobre la base de los datos resampled. This process is repeated a large number of times, and the empirical distribution of the resampled r values are used to approximate the sampling distribution of the statistic. Este proceso se repite un número grande de veces, y la distribución empírica de los valores r resampled se utilizan para aproximar la distribución de muestreo de la estadística. A 95% confidence interval for ρ can be defined as the interval spanning from the 2.5 th to the 97.5 th percentile of the resampled r values. Un 95% intervalo de confianza para ρ se puede definir como el intervalo que va desde el 2,5 al ª ª 97,5 percentil de los valores r resampled.

[ edit ] Testing using Student's t-distribution [ editar ] Pruebas con la t de Student de distribución

For pairs from an uncorrelated bivariate normal distribution , the sampling distribution of Pearson's correlation coefficient follows Student's t-distribution with degrees of freedom n − 2. Para los pares de una no correlacionada distribución normal bivariada , la distribución muestral del coeficiente de correlación de Pearson sigue la t de Student de distribución con grados de libertad n - 2. Specifically, if the underlying variables have a bivariate normal distribution, the variable En concreto, si las variables subyacentes tienen una distribución normal bivariante, la variable


has a Student's t-distribution in the null case (zero correlation). [ 7 ] This also holds approximately even if the observed values are non-normal, provided sample sizes are not very small. [ 8 ] For determining the critical values for r the inverse of this transformation is also needed: tiene una de distribución t de Student en el caso nulo (cero correlación). [7] Esto también es de aproximadamente, incluso si los valores observados no son normales, siempre que los tamaños de muestra que no son muy pequeñas. [8] Para la determinación de los valores críticos de r la inversa de esta transformación también se necesita:


Alternatively, large sample approaches can be used. Alternativamente, los enfoques de muestra grandes se pueden utilizar.

Early work on the distribution of the sample correlation coefficient was carried out by RA Fisher [ 9 ] [ 10 ] and AK Gayen. [ 11 ] Another early paper [ 12 ] provides graphs and tables for general values of ρ , for small sample sizes, and discusses computational approaches. Los primeros trabajos sobre la distribución del coeficiente de correlación de la muestra se llevó a cabo por RA Fisher [9] [10] y AK Gayen. [11] Otro documento de principios [12] ofrece gráficos y tablas de valores generales de ρ, para tamaños de muestra pequeños, y analiza los enfoques computacionales.

[ edit ] Use the exact distribution [ editar ] El uso de la distribución exacta

For data that follows a bivariate normal distribution , the exact density function for the sample correlation of a normal bivariate is [ 13 ] [ 14 ] Para los datos que siguen una distribución normal bivariada , la función de densidad exacta de la correlación de la muestra de una normal bivariante es [13] [14]


where donde is the gamma function , es la función gamma , is the Gaussian hypergeometric function . es la función hipergeométrica de Gauss . In the special case when En el caso especial cuando , the density can be written as: , La densidad se puede escribir como:


where donde is the beta function , which is one way of writing the density of a Student's t-distribution, as above. es la función beta , que es una forma de escribir la densidad de una t de Student de distribución, como anteriormente.

Note that [ citation needed ] Tenga en cuenta que [ cita requerida ] , therefore r is a biased estimator of , Por lo tanto, r es un estimador sesgado de la . . An approximately unbiased estimator can be obtained by solving the equation Un estimador aproximadamente insesgado puede obtenerse mediante la resolución de la ecuación for para . . However, the solution, Sin embargo, la solución, , [ citation needed ] is suboptimal. [ citation needed ] An approximately unbiased estimator, [ citation needed ] with minimum variance for large values of n , with a bias of order , [ cita requerida ] es subóptima. [ cita requerida ] Un estimador aproximado imparcial, [ cita requerida ] con una variación mínima para valores grandes de n, con un sesgo de orden , can be obtained by maximizing , Puede obtenerse mediante la maximización , ie , Es decir . [ citation needed ] . [ cita requerida ]

[ edit ] Use the Fisher transformation [ editar ] El uso de la transformación Fisher

In practice, confidence intervals and hypothesis tests relating to ρ are usually carried out using the Fisher transformation : En la práctica, los intervalos de confianza y pruebas de hipótesis relacionadas con ρ suelen llevarse a cabo mediante la transformación de Fisher :


If F ( r ) is the Fisher transformation of r , and n is the sample size, then F ( r ) approximately follows a normal distribution with Si F (r) es la transformación de Fisher de r, y n es el tamaño de la muestra, entonces F (r) sigue aproximadamente una distribución normal con

and standard error y el error estándar

Thus, a z-score is Por lo tanto, un z-score es


under the null hypothesis of that bajo la hipótesis nula de que , given the assumption that the sample pairs are independent and identically distributed and follow a bivariate normal distribution . , Dado el supuesto de que los pares de muestras son independientes y se distribuyen de forma idéntica y seguir una distribución normal bivariada . Thus an approximate p-value can be obtained from a normal probability table. Así, un aproximado de p-valor puede obtenerse a partir de una tabla de probabilidad normal. For example, if z = 2.2 is observed and a two-sided p-value is desired to test the null hypothesis that Por ejemplo, si z = 2,2 se observa y una de dos caras p-valor que se desea poner a prueba la hipótesis nula de que , the p-value is 2·Φ(−2.2) = 0.028, where Φ is the standard normal cumulative distribution function . , El valor de p es 2 · Φ (-2,2) = 0,028, donde Φ es el estándar normal de la función de distribución acumulada .

To obtain a confidence interval for ρ, we first compute a confidence interval for F ( Para obtener un intervalo de confianza para ρ, primero calculamos un intervalo de confianza para F ( ): ):



The inverse Fisher transformation bring the interval back to the correlation scale. La transformación inversa de Fisher devolver al intervalo de la escala de correlación.



For example, suppose we observe r = 0.3 with a sample size of n =50, and we wish to obtain a 95% confidence interval for
ρ. Por ejemplo, supongamos que observamos r = 0,3 con un tamaño de muestra de n = 50, y queremos obtener un intervalo de confianza del 95% para ρ. The transformed value is artanh( r ) = 0.30952, so the confidence interval on the transformed scale is 0.30952 ± 1.96/√47, or (0.023624, 0.595415). El valor es transformado artanh (r) = 0,30952, por lo que el intervalo de confianza en la escala transformada es 0,30952 ± 1,96 / √ 47, o (0.023624, 0.595415). Converting back to the correlation scale yields (0.024, 0.534). Convertir de nuevo a los rendimientos de escala de correlación (0,024, 0,534).

[ edit ] Pearson's correlation and least squares regression analysis [ editar correlación] de Pearson y el análisis de mínimos cuadrados de regresión

The square of the sample correlation coefficient, which is also known as the coefficient of determination , estimates the fraction of the variance in Y that is explained by X in a simple linear regression . El cuadrado del coeficiente de correlación de la muestra, que también se conoce como el coeficiente de determinación , calcula la fracción de la varianza en Y que se explica por X en una regresión lineal simple . As a starting point, the total variation in the Y i around their average value can be decomposed as follows Como punto de partida, la variación total en el Yi en torno a su valor promedio se puede descomponer de la siguiente manera


where the donde el are the fitted values from the regression analysis. son los valores ajustados a partir del análisis de regresión. This can be rearranged to give Esto puede ser reorganizado para dar


The two summands above are the fraction of variance in Y that is explained by X (right) and that is unexplained by X (left). Los dos sumandos anteriores son la fracción de la varianza en Y que se explica por X (derecha) y que no se explica por X (izquierda).

Next, we apply a property of least square regression models, that the sample covariance between A continuación, aplicar una propiedad de los mínimos cuadrados de modelos de regresión, que la covarianza muestral entre and y is zero. es cero. Thus, the sample correlation coefficient between the observed and fitted response values in the regression can be written Así, el coeficiente de correlación muestral entre los valores de respuesta observados y ajustados en la regresión puede escribirse


Thus Así


is the proportion of variance in Y explained by a linear function of X . es la proporción de variación en Y explicada por una función lineal de X.

[ edit ] Sensitivity to the data distribution [ editar ] La sensibilidad a la distribución de datos

[ edit ] Existence [ editar ] Existencia

The population Pearson correlation coefficient is defined in terms of moments , and therefore exists for any bivariate probability distribution for which the population covariance is defined and the marginal population variances are defined and are non-zero. El coeficiente de correlación de Pearson población se define en términos de momentos , y por lo tanto, existe para cualquier bivariado distribución de probabilidad para que la población covarianza se define y los marginales varianzas de población se definen y son no-cero. Some probability distributions such as the Cauchy distribution have undefined variance and hence ρ is not defined if X or Y follows such a distribution. Algunas distribuciones de probabilidad, como la distribución de Cauchy tienen varianza indefinido y, por tanto ρ no se define si X o Y sigue una distribución. In some practical applications, such as those involving data suspected to follow a heavy-tailed distribution , this is an important consideration. En algunas aplicaciones prácticas, tales como las que implican los datos sospechosos de seguir una distribución de cola pesada , esta es una consideración importante. However, the existence of the correlation coefficient is usually not a concern; for instance, if the range of the distribution is bounded, ρ is always defined. Sin embargo, la existencia del coeficiente de correlación no es generalmente una preocupación, por ejemplo, si el rango de la distribución está limitada, ρ se define siempre.

[ edit ] Large sample properties [ editar ] Las grandes propiedades de la muestra

In the case of the bivariate normal distribution the population Pearson correlation coefficient characterizes the joint distribution as long as the marginal means and variances are known. En el caso de la bivariado distribución normal el coeficiente de correlación de Pearson población caracteriza la distribución conjunta, siempre y cuando los medios marginales y varianzas son conocidos. For most other bivariate distributions this is not true. Para la mayoría de distribuciones bivariadas otros esto no es cierto. Nevertheless, the correlation coefficient is highly informative about the degree of linear dependence between two random quantities regardless of whether their joint distribution is normal. [ 2 ] The sample correlation coefficient is the maximum likelihood estimate of the population correlation coefficient for bivariate normal data, and is asymptotically unbiased and efficient , which roughly means that it is impossible to construct a more accurate estimate than the sample correlation coefficient if the data are normal and the sample size is moderate or large. Sin embargo, el coeficiente de correlación es muy informativo sobre el grado de dependencia lineal entre dos cantidades al azar, independientemente de si su distribución conjunta es normal. [2] El coeficiente de correlación de la muestra es la estimación de máxima verosimilitud del coeficiente de correlación de dos variables de la población normal de los datos, y es asintóticamente insesgado y eficiente , que a grandes rasgos significa que es imposible construir una estimación más precisa que el coeficiente de correlación de la muestra si los datos son normales y el tamaño de la muestra es moderado o grande. For non-normal populations, the sample correlation coefficient remains approximately unbiased, but may not be efficient. Para las poblaciones no normales, el coeficiente de correlación de la muestra se mantiene aproximadamente imparcial, pero no puede ser eficiente. The sample correlation coefficient is a consistent estimator of the population correlation coefficient as long as the sample means, variances, and covariance are consistent (which is guaranteed when the law of large numbers can be applied). El coeficiente de correlación muestral es un estimador consistente del coeficiente de correlación de la población, siempre y cuando la muestra de medias, varianzas y covarianza son consistentes (que está garantizada cuando la ley de grandes números se puede aplicar).

[ edit ] Robustness [ edit ] Robustez

Like many commonly used statistics, the sample statistic r is not robust , [ 15 ] so its value can be misleading if outliers are present. [ 16 ] [ 17 ] Specifically, the PMCC is neither distributionally robust, [ citation needed ] nor outlier resistant [ 15 ] (see Robust statistics#Definition ). Al igual que muchas estadísticas de uso común, el r estadística de la muestra no es robusta , [15] por lo que su valor puede ser engañosa si los valores atípicos están presentes. [16] [17] En concreto, el PMCC no es ni distributivos robusta, [ cita requerida ], ni resistente al valor atípico [15] (ver estadísticos robustos # Definición ). Inspection of the scatterplot between X and Y will typically reveal a situation where lack of robustness might be an issue, and in such cases it may be advisable to use a robust measure of association. La inspección de la dispersión entre X e Y por lo general revela una situación en la falta de solidez puede ser un problema, y en tales casos puede ser aconsejable utilizar una medida robusta de la asociación. Note however that while most robust estimators of association measure statistical dependence in some way, they are generally not interpretable on the same scale as the Pearson correlation coefficient. Note sin embargo que, si bien la mayoría de los estimadores robustos de medida de asociación dependencia estadística de alguna manera, generalmente no son interpretables en la misma escala que el coeficiente de correlación de Pearson.

Statistical inference for Pearson's correlation coefficient is sensitive to the data distribution. La inferencia estadística para el coeficiente de correlación de Pearson es sensible a la distribución de datos. Exact tests, and asymptotic tests based on the Fisher transformation can be applied if the data are approximately normally distributed, but may be misleading otherwise. Pruebas precisas, y las pruebas asintóticas basadas en la transformación de Fisher se puede aplicar si los datos son aproximadamente una distribución normal, pero puede ser incierta. In some situations, the bootstrap can be applied to construct confidence intervals, and permutation tests can be applied to carry out hypothesis tests. En algunas situaciones, el arranque se puede aplicar para construir intervalos de confianza, y pruebas de permutación se puede aplicar para llevar a cabo las pruebas de hipótesis. These non-parametric approaches may give more meaningful results in some situations where bivariate normality does not hold. Estos no paramétricas enfoques pueden dar resultados más significativos en algunas situaciones en las que la normalidad bivariada no se sostiene. However the standard versions of these approaches rely on exchangeability of the data, meaning that there is no ordering or grouping of the data pairs being analyzed that might affect the behavior of the correlation estimate. Sin embargo, las versiones estándar de estos enfoques se basan en la intercambiabilidad de los datos, lo que significa que no hay orden o la agrupación de los pares de datos analizados que podrían afectar al comportamiento de la estimación de correlación.

A stratified analysis is one way to either accommodate a lack of bivariate normality, or to isolate the correlation resulting from one factor while controlling for another. Un análisis estratificado es una manera de acomodar ya sea una falta de normalidad bivariada, o para aislar la correlación resultante de un factor de tiempo que controla para otro. If W represents cluster membership or another factor that it is desirable to control, we can stratify the data based on the value of W , then calculate a correlation coefficient within each stratum. Si W representa la pertenencia al clúster o de otro factor que es deseable para el control, se puede estratificar los datos basados ​​en el valor de W, a continuación, calcular un coeficiente de correlación dentro de cada estrato. The stratum-level estimates can then be combined to estimate the overall correlation while controlling for W . [ 18 ] Las estimaciones por estrato de nivel se pueden combinar para estimar la correlación general mientras que el control de W. [18]

[ edit ] Calculating a weighted correlation [ editar ] Cálculo de una correlación ponderada

Suppose observations to be correlated have differing degrees of importance that can be expressed with a weight vector w . Supongamos que las observaciones que se correlacionan tienen diferentes grados de importancia que se pueden expresar con un vector de pesos w. To calculate the correlation between vectors x and y with the weight vector w (all of length n ), [ 19 ] [ 20 ] Para calcular la correlación entre los vectores x e y con el vector de pesos w (todos de longitud n), [19] [20]

  • Weighted mean: Media ponderada de:


  • Weighted covariance Covarianza ponderada


  • Weighted correlation Correlación ponderada


[ edit ] Removing correlation [ editar ] Extracción de la correlación

It is always possible to remove the correlation between random variables with a linear transformation, even if the relationship between the variables is nonlinear. Siempre es posible eliminar la correlación entre las variables aleatorias con una transformación lineal, incluso si la relación entre las variables no es lineal. A presentation of this result for population distributions is given by Cox & Hinkley. [ 21 ] Una presentación de este resultado para distribución de la población está dada por Cox y Hinkley. [21]

A corresponding result exists for sample correlations, in which the sample correlation is reduced to zero. Un resultado correspondiente exista para las correlaciones de la muestra, en la que la correlación de la muestra se reduce a cero. Suppose a vector of n random variables is sampled m times. Supongamos que un vector de n variables aleatorias se realiza un muestreo de m veces. Let X be a matrix where Sea X una matriz donde is the j th variable of sample i . es la variable j ª de la muestra i. Let Dejar be an m by m square matrix with every element 1. ser un m por m matriz cuadrada con todos los elementos 1. Then D is the data transformed so every random variable has zero mean, and T is the data transformed so all variables have zero mean and zero correlation with all other variables - the moment matrix of T will be the identity matrix. Entonces D es los datos transformados de modo que cada variable aleatoria tiene media cero, y T es los datos transformados por lo que todas las variables tienen una correlación media cero y cero con todas las otras variables - la matriz de momentos de T será la matriz de identidad. This has to be further divided by the standard deviation to get unit variance. Esto tiene que ser dividida por la desviación estándar para obtener la varianza unidad. The transformed variables will be uncorrelated, even though they may not be independent . Las variables transformadas se correlacionados, aunque no puede ser independiente .





where an exponent of -1/2 represents the matrix square root of the inverse of a matrix. donde un exponente de -1 / 2 representa la raíz matriz cuadrada de la inversa de una matriz. The covariance matrix of T will be the identity matrix. La matriz de covarianza de T será la matriz de identidad. If a new data sample x is a row vector of n elements, then the same transform can be applied to x to get the transformed vectors d and t : Si una nueva muestra de datos x es un vector fila de n elementos, entonces la transformada mismo se puede aplicar a x para obtener la transformada vectores D y T:





This decorrelation is related to Principal Components Analysis for multivariate data. Esta descorrelación está relacionado con análisis de componentes principales para datos multivariantes.

[ edit ] Reflective correlation [ editar ] correlación reflectante

The reflective correlation is a variant of Pearson's correlation in which the data are not centered around their mean values. [ citation needed ] The population reflective correlation is La correlación de reflexión es una variante de correlación de Pearson en la que los datos no están centradas en torno a sus valores medios. [ cita requerida ] La correlación de la población es reflexiva


The reflective correlation is symmetric, but it is not invariant under translation: La correlación reflectante es simétrica, pero no es invariante bajo traducción:


The sample reflective correlation is La correlación de la muestra es reflectante


The weighted version of the sample reflective correlation is La versión ponderada de la correlación de la muestra es reflectante


[ edit ] Scaled correlation [ editar ] correlación con escala

Main article: Scaled correlation Artículo principal: la correlación en escala

Scaled correlation is a variant of Pearson's correlation in which the range of the data is restricted intentionally and in a controlled manner to reveal correlations between fast components in time series. [ 22 ] Scaled correlation is defined as average correlation across short segments of data. Correlación escalado es una variante de correlación de Pearson en el que se restringe el rango de los datos intencionadamente y de una manera controlada para revelar las correlaciones entre los componentes rápidos en series de tiempo. [22] correlación escalado se define como la correlación media a través de segmentos cortos de datos.

Let Dejar be the number of segments that can fit into the total length of the signal ser el número de segmentos que pueden encajar en la longitud total de la señal for a given scale para una escala dada : :


The scaled correlation across the entire signals La correlación escala a través de las señales enteras is then computed as Se calcula entonces como


where donde is Pearson's coefficient of correlation for segment es el coeficiente de correlación de Pearson para el segmento . .

By choosing the parameter Al elegir el parámetro , the range of values is reduced and the correlations on long time scale are filtered out, only the correlations on short time scales being revealed. , El rango de valores se reduce y las correlaciones a escala mucho tiempo se filtran, sólo las correlaciones en escalas de tiempo cortos siendo revelado. Thus, the contributions of slow components are removed and those of fast components are retained. Así, las contribuciones de los componentes lentos se eliminan y los de componentes rápido se retienen.



[ edit ] See also [ editar ] Véase también




Wikiversity has learning materials about Linear correlation Wikiversidad ha materiales educativos acerca de la correlación lineal


[ edit ] References [ editar ] Referencias

1.      ^ "The human disease network", Albert Barabasi et al., Plos.org ^ "La red de las enfermedades humanas", Albert Barabási et al., Plos.org

2.      ^ a b JL Rodgers and WA Nicewander. Thirteen ways to look at the correlation coefficient . ^ un b JL Rodgers y Nicewander WA. Trece maneras de mirar el coeficiente de correlación . The American Statistician, 42(1):59–66, February 1988. El Estadístico de América, 42 (1) :59-66, febrero de 1988.

3.      ^ Stigler, Stephen M. (1989). ^ Stigler, Stephen M. (1989). "Francis Galton's Account of the Invention of Correlation". Statistical Science 4 (2): 73–79. doi : 10.1214/ss/1177012580 . JSTOR 2245329 . "Francis Galton cuenta de la invención de la correlación" de Estadística Ciencia 4 (2):. 73-79. doi : 10.1214/ss/1177012580 . JSTOR 2245329 .

4.      ^ A. ^ A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1 , Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0 Buda y A.Jarynowski (2010) La vida en tiempo de correlaciones y de sus aplicaciones vol.1, Wydawnictwo Niezalezne: 5-21, Diciembre 2010, ISBN 978-83-915272-9-0

5.      ^ a b Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.) ^ un b Cohen, J. (1988). análisis de poder estadístico para las ciencias de la conducta (2 ª ed.)

6.      ^ Fulekar (Ed.), MH (2009) Bioinformatics: Applications in Life and Environmental Sciences , Springer (pp. 110) ISBN 1-4020-8879-5 ^ Fulekar (Ed.), MH (2009) Bioinformática: aplicaciones en la vida y de las Ciencias del Medio Ambiente, Springer (pp. 110) ISBN 1-4020-8879-5

7.      ^ Rahman, NA (1968) A Course in Theoretical Statistics , Charles Griffin and Company, 1968 ^ Rahman, NA (1968) Un curso de Estadística Teórica, Charles Griffin y Compañía, 1968

8.      ^ Kendall, MG, Stuart, A. (1973) The Advanced Theory of Statistics, Volume 2: Inference and Relationship , Griffin. ISBN 0-85264-215-6 (Section 31.19) ^ Kendall, MG, Stuart, A. (1973) La Teoría Avanzada de Estadística, Volumen 2: inferencia y relación, Griffin. ISBN 0-85264-215-6 (Sección 31.19)

9.      ^ Fisher, RA (1915). ^ Fisher, RA (1915). "Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population". Biometrika 10 (4): 507–521. doi : 10.1093/biomet/10.4.507 . "Distribución de frecuencias de los valores del coeficiente de correlación en las muestras de una población indefinidamente grande". Biometrika 10 (4): 507-521. doi : 10.1093/biomet/10.4.507 .


11.  ^ Gayen, AK (1951). ^ Gayen, AK (1951). "The frequency distribution of the product moment correlation coefficient in random samples of any size draw from non-normal universes". Biometrika 38 : 219–247. doi : 10.1093/biomet/38.1-2.219 . "La distribución de frecuencias del coeficiente de correlación producto momento en muestras aleatorias de cualquier tamaño extraer de universos no-normales". Biometrika 38:. 219-247 doi : 10.1093/biomet/38.1-2.219 .

12.  ^ Soper, HE, Young, AW, Cave, BM, Lee, A., Pearson, K. (1917). ^ Soper, HE, joven, AW, Cueva, BM, Lee, A., Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and RA Fisher. A co-operative study", Biometrika , 11, 328-413. "En la distribución del coeficiente de correlación en pequeñas muestras. El Apéndice II a los papeles de" Estudiante "y RA Fisher. Un estudio cooperativo", Biometrika , 11, 328-413. doi:10.1093/biomet/11.4.328 doi: 10.1093/biomet/11.4.328

13.  ^ Kenney, JF and Keeping, ES, Mathematics of Statistics , Pt. ^ Kenney, JF y mantener, ES, Matemática de la Estadística, Pt. 2, 2nd ed. 2, 2 ª ed. Princeton, NJ: Van Nostrand, 1951. Princeton, NJ: Van Nostrand, 1951.


15.  ^ a b Wilcox, Rand R. (2005). Introduction to robust estimation and hypothesis testing . ^ un b Wilcox, R. Rand (2005). Introducción a la estimación robusta y pruebas de hipótesis. Academic Press. Academic Press.

16.  ^ Devlin, Susan J; Gnanadesikan, R; Kettenring JR (1975). ^ Devlin, Susan J; Gnanadesikan, R; Kettenring JR (1975). "Robust Estimation and Outlier Detection with Correlation Coefficients". Biometrika 62 (3): 531–545. doi : 10.1093/biomet/62.3.531 . JSTOR 2335508 . "Estimación robusta y detección de valores atípicos con coeficientes de correlación" Biometrika 62 (3):. 531-545. doi : 10.1093/biomet/62.3.531 . JSTOR 2335508 .

17.  ^ Huber, Peter. ^ Huber, Pedro. J. (2004). Robust Statistics . J. (2004). Los estadísticos robustos. Wiley. Wiley. [ page needed ] [ la página es necesario ]

18.  ^ Katz., Mitchell H. (2006) Multivariable Analysis - A Practical Guide for Clinicians . ^ . Katz, Mitchell H. (2006) Análisis multivariante - Una guía práctica para los médicos. 2nd Edition. 2 ª Edición. Cambridge University Press. ISBN 978-0-521-54985-1 . ISBN 0-521-54985-X doi : 10.2277/052154985X Cambridge University Press. ISBN 978-0-521-54985-1 . ISBN 0-521 hasta 54.985-X doi : 10.2277/052154985X



21.  ^ Cox, DR, Hinkley, DV (1974) Theoretical Statistics , Chapman & Hall (Appendix 3) ISBN 0-412-12420-3 ^ Cox, DR, Hinkley, DV (1974) Estadística Teórica, Chapman & Hall (Apéndice 3) ISBN 0-412-12420-3

22.  ^ Nikolić D, Muresan RC, Feng W, Singer W (2012) Scaled correlation analysis: a better way to compute a cross-correlogram. European Journal of Neuroscience , pp. 1–21, ^ D Nikolić, Muresan RC, Feng W, W Singer (2012) el análisis de correlación escala:. una mejor manera de calcular una cruzada correlograma European Journal of Neuroscience, pp 1-21,


No hay comentarios:

Publicar un comentario en la entrada