Fellipe

5 minute read

Correlações

De maneira geral, quando estamos interessados em avaliar o grau de associação entre duas variáveis calculamos os coeficientes de associação ou correlação entre variáveis.

Essas medidas descrevem por meio de um único número a associação (ou dependência) entre duas variáveis.

De modo a facilitar a compreensão, esses coeficientes geralmente variam entre 0 e 1 ou entre -1 e +1, de maneira que a proximidade de zero indique a falta de associação entre elas.

Existem muitas medidas disponíveis para quantificar a associação entre variáveis, porém, um primeiro conceito que deve ser levado em conta é: quais são os tipos de variáveis?

Tipos de Variáveis

Existem dois tipos de variáveis que podem ser abordadas de maneiras diferentes, veja:

Quantitativas

  • Continua: Medidas (Peso, altura, renda, dinheiro, comprimento)
  • Discreta: Contagem (qnt. de coisas)

Qualitativas

  • Nominais: Nomes
  • Ordinais: Quando é possível ordenar os arquivos

E para cada relação ou associação que buscamos calcular, existe um tipo diferente de coeficiente, mas de maneira geral, todos eles possuem tais características em comum:

Tipos de Correlações

Coeficientes de correlação informam:

  • Intensidade
    • Fortemente relacionadas (Valores próximos de 1 ou -1)
    • Fracamente relacionadas (Valores próximos de 0)
  • Direção
    • Positiva (Se ambas as variáveis crescem no mesmo sentido)
    • Negativa (Se as variáveis crescem em sentidos opostos)
  • Significância

IMPORTANTE: CORRELAÇÃO NÃO INDICA RELAÇÃO DE CAUSALIDADE

E além dos coeficientes de correlação, existem outras medidas de associação igualmente importantes, veja:

Coeficiente de Correlação de Pearson

Sejam duas variáveis X e Y, ambas quantitativas, preferencialmente contínuas. A existência de relação linear entre essas variáveis pode ser detectada com auxílio do Diagrama de Dispersão, mas, também, com auxílio do Coeficiente de Correlação Linear de Pearson.

Coeficiente de Correlação de Spearman \(\rho\)

Utilizado quando não existe normalidade e/ou não existe relação linear, deve ser usado quando não se deseja utilizar nenhuma suposição de normalidade ou da presença de qualquer outra distribuição para a variável ou para a estatística de teste.

Este coeficiente se baseia nos postos das observações dentro de cada variável e se baseia sobre as diferenças entre os postos observados, nas variáveis X e Y, para um mesmo objeto de estudo.

Ideal quando temos variáveis medidas apenas em uma escala ordinal.

Coeficiente de Correlação de Kendall (\(\tau\) de kendall)

O coeficiente de correlação Tau de Kendall serve para verificar se existe correlação entre duas variáveis ordinais. É um método adequado quando amostras têm tamanhos reduzidos, pois o método é mais preciso. E pode ser estendido a correlações parciais, quando o efeito de uma terceira variável, que age sobre X e Y, é retirado antes de determinar se X e Y estão relacionadas.

Coeficiente de Kendall é, muitas vezes, interpretado como uma medida de concordância entre dois conjuntos de classificações relativas a um conjunto de objetos de estudo.

Qui-quadrado de independencia

Utiliza-se esta prova quando os dados da pesquisa se apresentam sob forma de frequências em categorias discretas. Pode aplicar a prova \(\chi^2\) para determinar a significância de diferenças entre dois grupos independentes e conseqüentemente, com respeito a frequências relativas com que os componentes do grupo se enquadram nas diversas categorias.

Suas hipóteses:

\[ H_0: \text{São independentes (Não associadas)} \\ H_1: \text{Não são independentes (São associadas) } \]

Teste exato de fisher

O teste qui-quadrado quando aplicado a amostras pequenas, como por exemplo com tamanho inferior a 20, veja:

Medidas de associação

os testes fornecem apenas a resposta se as variáveis estão ou não correlacionadas. Para saber a intensidade desta relação, utilizam-se medidas de associação.

Considere as seguintes medidas:

\(\phi\) (phi) (é o R de pearson quando aplicado a tabelas 2x2)

O coeficiente phi é uma medida de associação entre duas variáveis binárias. A interpretação é similar a de um coeficiente de correlação. Duas variáveis binárias são consideradas positivamente associadas se a maior parte dos dados (frequências) cai ao longo das células da diagonal (a e d maiores que b e c). E serão consideradas negativamente associadas se a maior parte dos dados cai fora da diagonal.

V de Crámer

O coeficiente V de Cramer serve para medir associação em tabelas não quadradas.

Coeficiente de contingência

O Coeficiente de Contingência C é uma medida de associação, relacionada à estatística de teste do teste qui-quadrado, e ajustada para diferentes tamanhos de amostra. Ele também está diretamente relacionado à estatística de teste do teste qui-quadrado e ao Coeficiente Phi (possui as mesmas vantagens e desvantagens de Phi).

Ambos variam de 0 (ausência de associação) a 1 (associação muito forte).

Kappa

O coeficiente Kappa é uma medida de concordância inter observador e mede o grau de concordância além do que seria esperado só por conta do acaso. Muitas vezes é usado no lugar do teste de McNemar.

Obs: Também pode ser utilizado o coeficiente de Kappa ponderado

Mãos a obra

É impressionante a gama de opções que já existe para avaliarmos variáveis por diversas perspectivas!

É bom ressaltar que é extremamente fácil se perder no meio de tantos resultados em tantas situações possíveis, por isso meu próximo post irá tratar justamente dos diferentes tipos de relações entre variáveis e quais tipos de medidas são possíveis para cada caso, até a próxima!

comments powered by Disqus