Coeficiente de fórmulas de determinação, cálculo, interpretação, exemplos

1463
Charles McCarthy
Coeficiente de fórmulas de determinação, cálculo, interpretação, exemplos

O coeficiente de determinação é um número entre 0 e 1 que representa a fração de pontos (X, Y) que segue a linha de regressão de ajuste de um conjunto de dados com duas variáveis.

Também é conhecido como qualidade de ajuste e é denotado por Rdois. Para calculá-lo, toma-se o quociente entre a variância dos dados Ŷi estimada pelo modelo de regressão e a variância dos dados Yi correspondente a cada Xi dos dados..

Rdois = Sŷ / Sy

Figura 1. Coeficiente de correlação para quatro pares de dados. Fonte: F. Zapata.

Se 100% dos dados estiverem na linha da função de regressão, o coeficiente de determinação será 1.

Pelo contrário, se para um conjunto de dados e uma certa função de ajuste o coeficiente Rdois acaba sendo igual a 0,5, então pode-se dizer que o ajuste é 50% satisfatório ou bom. 

Da mesma forma, quando o modelo de regressão retorna valores de Rdois menor que 0,5, indica que a função de ajuste escolhida não se adapta satisfatoriamente aos dados, portanto é necessário procurar outra função de ajuste.

E quando o covariância ou o coeficiente de correlação tende a zero, então as variáveis ​​X e Y nos dados não estão relacionadas e, portanto, Rdois também tenderá a zero.

Índice do artigo

  • 1 Como calcular o coeficiente de determinação?
    • 1.1 Caso ilustrativo
  • 2 Interpretação
  • 3 exemplos
    • 3.1 - Exemplo 1
    • 3.2 - Exemplo 2
    • 3.3 - Exemplo 3
    • 3.4 Comparação de ajuste
    • 3.5 Conclusões
  • 4 referências

Como calcular o coeficiente de determinação?

Na seção anterior foi dito que o coeficiente de determinação é calculado encontrando o quociente entre as variâncias:

-Estimado pela função de regressão da variável Y 

-Aquela da variável Yi correspondente a cada uma das variáveis ​​Xi dos N pares de dados. 

Expresso matematicamente, é assim:

Rdois = Sŷ / Sy

Desta fórmula segue que Rdois representa a proporção da variância explicada pelo modelo de regressão. Alternativamente, R pode ser calculadodois utilizando a seguinte fórmula, totalmente equivalente à anterior:

Rdois = 1 - (Sε / Sy)

Onde Sε representa a variância dos resíduos εi = Ŷi - Yi, enquanto Sy é a variância do conjunto de valores Yi dos dados. Para determinar Ŷi a função de regressão é aplicada, o que significa afirmar que Ŷi = f (Xi).

A variação do conjunto de dados Yi, com i de 1 a N é calculada da seguinte forma:

Sy = [Σ (Yi - )dois ) / (N-1)]

E então proceda de forma semelhante para Sŷ ou para Sε.

Caso ilustrativo

A fim de mostrar o detalhe de como o cálculo do coeficiente de determinação pegaremos o seguinte conjunto de quatro pares de dados: 

(X, Y): (1, 1); (2,3); (3, 6) e (4, 7).

Um ajuste de regressão linear é proposto para este conjunto de dados, que é obtido usando o método dos mínimos quadrados:

f (x) = 2,1 x - 1 

Aplicando esta função de ajuste, os torques são obtidos:

(X, Ŷ): (1, 1,1); (2, 3,2); (3, 5.3) e (4, 7.4).

Em seguida, calculamos a média aritmética para X e Y:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Variance Sy

Sy = [(1 - 4,25)dois + (3 - 4,25)dois + (6 - 4,25)dois +….…. (7 - 4,25)dois] / (4-1) =

= [(-3,25)dois+ (-1,25)dois + (1,75)dois + (2,75)dois) / (3)] = 7.583

Variância Sŷ

Sŷ = [(1,1 - 4,25)dois + (3,2 - 4,25)dois + (5,3 - 4,25)dois +….…. (7,4 - 4,25)dois] / (4-1) =

= [(-3,25)dois + (-1,25)dois + (1,75)dois + (2,75)dois) / (3)] = 7,35

Coeficiente de determinação Rdois

Rdois = Sŷ / Sy = 7,35 / 7,58 = 0,97

Interpretação

O coeficiente de determinação para o caso ilustrativo considerado no segmento anterior acabou sendo 0,98. Em outras palavras, o ajuste linear por meio da função:

 f (x) = 2,1x - 1

É 98% confiável para explicar os dados com os quais foi obtido pelo método dos mínimos quadrados.. 

Além do coeficiente de determinação, existe o coeficiente de correlação linear ou também conhecido como coeficiente de Pearson. Este coeficiente, denotado como r, é calculado pela seguinte relação:

r = Sxy / (Sx Sy)

Aqui, o numerador representa a covariância entre as variáveis ​​X e Y, enquanto o denominador é o produto do desvio padrão para a variável X e o desvio padrão para a variável Y.

O coeficiente de Pearson pode assumir valores entre -1 e +1. Quando esse coeficiente tende a +1, há uma correlação linear direta entre X e Y. Se, em vez disso, tende a -1, há uma correlação linear, mas quando X aumenta, Y diminui. Por fim, está próximo de 0, não há correlação entre as duas variáveis.

Deve-se notar que o coeficiente de determinação coincide com o quadrado do coeficiente de Pearson, apenas quando o primeiro foi calculado com base em um ajuste linear, mas essa igualdade não é válida para outros ajustes não lineares..

Exemplos

- Exemplo 1

Um grupo de alunos do ensino médio se propôs a determinar uma lei empírica para o período de um pêndulo em função de seu comprimento. Para atingir este objetivo, realizam uma série de medições nas quais medem o tempo de oscilação de um pêndulo para diferentes comprimentos obtendo os seguintes valores:

Comprimento (m) Período (s)
0,1 0,6
0,4 1,31
0,7 1,78
1 1,93
1,3 2,19
1,6 2,66
1,9 2,77
3 3,62

É solicitado fazer um gráfico de dispersão dos dados e executar um ajuste linear por meio de regressão. Além disso, mostre a equação de regressão e seu coeficiente de determinação.

Solução

Figura 2. Gráfico de solução para o exercício 1. Fonte: F. Zapata.

Um coeficiente de determinação bastante alto pode ser observado (95%), então pode-se pensar que o ajuste linear é ótimo. No entanto, se os pontos forem vistos juntos, parece que eles têm uma tendência a se curvar para baixo. Este detalhe não está contemplado no modelo linear.

- Exemplo 2

Para os mesmos dados do Exemplo 1, faça um gráfico de dispersão dos dados. Nesta ocasião, ao contrário do exemplo 1, um ajuste de regressão é solicitado usando uma função potencial.

Figura 3. Gráfico de solução para o exercício 2. Fonte: F. Zapata.

Também mostra a função de ajuste e seu coeficiente de determinação Rdois.

Solução

A função potencial é da forma f (x) = AxB, onde A e B são constantes que são determinadas pelo método dos mínimos quadrados.

A figura anterior mostra a função potencial e seus parâmetros, bem como o coeficiente de determinação com um valor muito alto de 99%. Observe que os dados seguem a curvatura da linha de tendência.

- Exemplo 3

Usando os mesmos dados do Exemplo 1 e Exemplo 2, execute um ajuste polinomial de segundo grau. Mostrar gráfico, polinômio de ajuste e coeficiente de determinação Rdois correspondente.

Solução

Figura 4. Gráfico de solução para o exercício 3. Fonte: F. Zapata.

Com o ajuste polinomial de segundo grau, você pode ver uma linha de tendência que se ajusta bem à curvatura dos dados. Além disso, o coeficiente de determinação está acima do ajuste linear e abaixo do ajuste potencial..

Comparação de ajuste

Dos três ajustes mostrados, aquele com o maior coeficiente de determinação é o ajuste potencial (exemplo 2).

O ajuste potencial coincide com a teoria física do pêndulo, que, como se sabe, estabelece que o período de um pêndulo é proporcional à raiz quadrada de seu comprimento, sendo a constante de proporcionalidade 2π / √g onde g é a aceleração de gravidade.

Este tipo de ajuste potencial não apenas possui o maior coeficiente de determinação, mas o expoente e a constante de proporcionalidade correspondem ao modelo físico.. 

Conclusões

-O ajuste de regressão determina os parâmetros da função que se destina a explicar os dados usando o método dos mínimos quadrados. Este método consiste em minimizar a soma da diferença quadrática entre o valor Y de ajuste e o valor Yi dos dados para os valores Xi dos dados. Isso determina os parâmetros da função de ajuste.

-Como vimos, a função de ajuste mais comum é a linha, mas não é a única, pois os ajustes também podem ser polinomiais, potenciais, exponenciais, logarítmicos e outros.. 

-Em qualquer caso, o coeficiente de determinação depende dos dados e do tipo de ajuste e é uma indicação da qualidade do ajuste aplicado..

-Finalmente, o coeficiente de determinação indica a porcentagem da variabilidade total entre o valor Y dos dados em relação ao valor Ŷ do ajuste para o X dado.

Referências

  1. González C. Estatísticas Gerais. Recuperado de: tarwi.lamolina.edu.pe
  2. IACS. Instituto Aragonês de Ciências da Saúde. Recuperado de: ics-aragon.com
  3. Salazar C. e Castillo S. Princípios básicos de estatística. (2018). Recuperado de: dspace.uce.edu.ec
  4. Superprof. Coeficiente de determinação. Recuperado de: superprof.es
  5. USAC. Manual de estatísticas descritivas. (2011). Recuperado de: statistics.ingenieria.usac.edu.gt.
  6. Wikipedia. Coeficiente de determinação. Recuperado de: es.wikipedia.com.

Ainda sem comentários