Homocedasticidade o que é, importância e exemplos

4557
Jonah Lester

homocedasticidade em um modelo estatístico preditivo ocorre se em todos os grupos de dados de uma ou mais observações, a variância do modelo em relação às variáveis ​​explicativas (ou independentes) permanece constante.

Um modelo de regressão pode ser homocedástico ou não, caso em que falamos de heterocedasticidade.

Figura 1. Cinco conjuntos de dados e ajuste de regressão do conjunto. A variação em relação ao valor previsto é a mesma em cada grupo. (upav-biblioteca.org)

Um modelo de regressão estatística de várias variáveis ​​independentes é denominado homocedástico, apenas se a variância do erro da variável prevista (ou o desvio padrão da variável dependente) permanecer uniforme para diferentes grupos de valores das variáveis ​​explicativas ou independentes.

Nos cinco grupos de dados da Figura 1, foi calculada a variância em cada grupo, em relação ao valor estimado pela regressão, resultando em ser o mesmo em cada grupo. É ainda assumido que os dados seguem a distribuição normal.

No nível gráfico, significa que os pontos estão igualmente espalhados ou espalhados em torno do valor predito pelo ajuste de regressão, e que o modelo de regressão tem o mesmo erro e validade para o intervalo da variável explicativa..

Índice do artigo

  • 1 Importância da homocedasticidade
    • 1.1 Homocedasticidade versus heterocedasticidade
    • 1.2 Testes de homocedasticidade
    • 1.3 Variáveis ​​padronizadas
    • 1.4 Testes não gráficos de homocedasticidade
  • 2 referências

Importância da homocedasticidade

Para ilustrar a importância da homocedasticidade nas estatísticas preditivas, é necessário contrastar com o fenômeno oposto, a heterocedasticidade.

Homocedasticidade versus heterocedasticidade

No caso da figura 1, em que há homocedasticidade, é verdade que:

Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈… Var ((y4-Y4); X4)

Onde Var ((yi-Yi); Xi) representa a variância, o par (xi, yi) representa os dados do grupo i, enquanto Yi é o valor previsto pela regressão para o valor médio Xi do grupo. A variação dos n dados do grupo i é calculada da seguinte forma:

Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n

Ao contrário, quando ocorre heterocedasticidade, o modelo de regressão pode não ser válido para toda a região em que foi calculado. A Figura 2 mostra um exemplo desta situação.

Figura 2. Grupo de dados mostrando heterocedasticidade. (Elaboração própria)

A Figura 2 representa três grupos de dados e o ajuste do conjunto usando uma regressão linear. Deve-se notar que os dados do segundo e terceiro grupos são mais dispersos do que no primeiro grupo. O gráfico da figura 2 também mostra o valor médio de cada grupo e sua barra de erro ± σ, com o desvio padrão σ de cada grupo de dados. Deve ser lembrado que o desvio padrão σ é a raiz quadrada da variância.

Es claro que en el caso de la heterocedasticidad, el error de la estimación por regresión es cambiante en el rango de valores de la variable explicativa o independiente, y en los intervalos donde este error es muy grande, la predicción por regresión es poco confiable o não aplicável.

Em um modelo de regressão, os erros ou resíduos (e -Y) devem ser distribuídos com igual variância (σ ^ 2) ao longo do intervalo de valores da variável independente. É por esta razão que um bom modelo de regressão (linear ou não linear) deve passar no teste de homocedasticidade.. 

Testes de homocedasticidade

Os pontos mostrados na figura 3 correspondem aos dados de um estudo que busca uma relação entre os preços (em dólares) das casas em função do tamanho ou área em metros quadrados.

O primeiro modelo a ser testado é o de uma regressão linear. Em primeiro lugar, nota-se que o coeficiente de determinação R ^ 2 do ajuste é bastante alto (91%), portanto pode-se pensar que o ajuste é satisfatório..

No entanto, duas regiões podem ser claramente distinguidas do gráfico de ajuste. Um deles, o da direita encerrado em oval, cumpre homocedasticidade, enquanto a região da esquerda não apresenta homocedasticidade..

Isso significa que a previsão do modelo de regressão é adequada e confiável no intervalo entre 1800 m ^ 2 a 4800 m ^ 2, mas muito inadequada fora desta região. Na zona heterocedástica, além de o erro ser muito grande, os dados parecem seguir uma tendência diferente da proposta pelo modelo de regressão linear..

Figura 3. Preço da habitação vs área e modelo preditivo por regressão linear, mostrando zonas de homocedasticidade e heterocedasticidade. (Elaboração própria)

O gráfico de dispersão dos dados é o teste mais simples e visual de sua homocedasticidade, porém nas ocasiões em que não é tão evidente como no exemplo mostrado na figura 3, é necessário recorrer a gráficos com variáveis ​​auxiliares..

Variáveis ​​padronizadas

Para separar as áreas onde a homocedasticidade é cumprida e onde não é, são introduzidas as variáveis ​​padronizadas ZRes e ZPred:

ZRes = Abs (y - Y) / σ

ZPred = Y / σ

Ressalta-se que essas variáveis ​​dependem do modelo de regressão aplicado, uma vez que Y é o valor da previsão da regressão. Abaixo está o gráfico de dispersão ZRes vs ZPred para o mesmo exemplo:

Figura 4. Deve-se notar que na zona de homocedasticidade o ZRes permanece uniforme e pequeno na região de predição (Elaboração própria).

No gráfico da Figura 4 com as variáveis ​​padronizadas, a área onde o erro residual é pequeno e uniforme é claramente separada da área onde não é. Na primeira zona, a homocedasticidade é atendida, enquanto na região onde o erro residual é altamente variável e grande, a heterocedasticidade é atendida..

O ajuste de regressão é aplicado ao mesmo grupo de dados da figura 3, neste caso o ajuste é não linear, pois o modelo utilizado envolve uma função potencial. O resultado é mostrado na figura a seguir:

Figura 5. Novas zonas de homocedasticidade e heterocedasticidade no ajuste de dados com um modelo de regressão não linear. (Elaboração própria).

No gráfico da Figura 5, as zonas homocedástica e heterocedástica devem ser claramente observadas. Deve-se notar também que essas zonas foram trocadas em relação àquelas que foram formadas no modelo de ajuste linear.

No gráfico da figura 5 fica evidente que mesmo quando existe um coeficiente de determinação do ajuste bastante elevado (93,5%), o modelo não é adequado para todo o intervalo da variável explicativa, visto que os dados para valores maiores que 2.000 m ^ 2 apresentam heterocedasticidade.

Testes não gráficos de homocedasticidade

Um dos testes não gráficos mais utilizados para verificar se a homocedasticidade é cumprida ou não é o Teste Breusch-Pagan.

Nem todos os detalhes deste teste serão dados neste artigo, mas suas características fundamentais e as etapas do mesmo são descritas em linhas gerais:

  1. O modelo de regressão é aplicado aos dados n e sua variância é calculada em relação ao valor estimado pelo modelo σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
  2. Uma nova variável é definida ε = ((yj - Y) ^ 2) / (σ ^ 2)
  3. O mesmo modelo de regressão é aplicado à nova variável e seus novos parâmetros de regressão são calculados.
  4. O valor crítico Chi quadrado (χ ^ 2) é determinado, sendo esta metade da soma dos quadrados novos resíduos na variável ε.
  5. Se usa la tabla de la distribución Chi cuadrado considerando en el eje x de la tabla el nivel de significancia (usualmente 5%) y el número de grados de libertad (#de variables de la regresión menos la unidad), para obtener el valor de A tabela.
  6. O valor crítico obtido na etapa 3 é comparado com o valor encontrado na tabela (χ ^ 2).
  7. Se o valor crítico for inferior ao da tabela, temos a hipótese nula: há homocedasticidade
  8. Se o valor crítico estiver acima do da tabela, temos a hipótese alternativa: não há homocedasticidade.

A maioria dos pacotes de software estatístico como: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic e vários outros incorporam o teste de homocedasticidade de Breusch-Pagan. Outro teste para verificar a uniformidade de variância do Teste de Levene.

Referências

  1. Box, Hunter e Hunter. (1988) Estatísticas para pesquisadores. Editores revertidos.
  2. Johnston, J (1989). Métodos Econométricos, Vicens -Vives editores.
  3. Murillo e González (2000). Manual de econometria. Universidade de Las Palmas de Gran Canaria. Recuperado de: ulpgc.es.
  4. Wikipedia. Homocedasticidade. Recuperado de: es.wikipedia.com
  5. Wikipedia. Homocedasticidade. Recuperado de: en.wikipedia.com

Ainda sem comentários