2.2.12. Regressão Linear Múltipla
A regressão linear múltipla é um método de associação de uma variável dependente a várias variáveis independentes. Este método é eficiente para variáveis bem comportadas ou que não apresentem multicolinearidade, que ocorre quando duas ou mais variáveis independentes apresentam correlação.
Para evitar o problema de colinearidade, a matriz de correlações entre as variáveis independentes deve ser analisada. Como regra geral, se a correlação entre duas variáveis for superior a 0,70, pode haver problemas de colinearidade. Esta regra , no entanto, é ineficiente quando combinações de variáveis independentes apresentam correlação. Uma alternativa então, seria analisar a correlação entre cada variável independente e todas as possíveis combinações entre as demais variáveis independentes.
Olhando para o coeficiente de correlação R2, o problema da colinearidade também pode ser identificado quando este coeficiente é alto e no entanto, todos os coeficientes de regressão são estatisticamente insignificantes.
Para eliminar o problema da colinearidade, algumas variáveis independentes podem ser removidas após análise das correlações.
Outros problemas podem comprometer a regressão múltipla como heteroskedasticity (variância do erro é constante) e autocorrelação (correlação serial entre os erros).
Uma observação importante da análise de regressão múltipla é que a existência de correlação entre uma variável independente e um conjunto de variáveis independentes não significa uma relação de causalidade, mas apenas uma relação estatística.
2.2.12.1. Comando RLM
Acesso:
- Menu - Metrixus | RLM
- Barra de ferramentas Metrixus
Descrição:
Realiza a regressão linear múltipla para as variáveis informadas. Retorna os coeficientes de regressão e outros parâmetros que permitem analisar a qualidade da regressão.
A opção Exibir equação de regressão reproduz a regressão linear para a variável dependente.
Para a exibição da tabela de ANOVA – análise da variância, a opção Apresentar ANOVA deve estar selecionada.
Através da opção Calcular correlações combinadas é possível avaliar a correlação entre cada variável independente e as possíveis combinações das demais variáveis independentes, ampliando o estudo da colinearidade. O resultado apresentado conterá os 5 maiores coeficientes de correlação encontrados para cada variável, bem como a combinação das demais variáveis independentes que gerou tal correlação. Esta opção efetua todas as possíveis combinações entre as variáveis independentes e efetua a regressão entre estas combinações e uma variável independente específica e por isto pode reduzir a performance de execução.
Importante:
A análise da tabela das correlações combinadas é uma ferramenta poderosa na análise de colinearidades!
|
A região ou intervalo de dados deve ser uma região contígua onde cada coluna representa valores (números reais) para uma variável, sendo a primeira coluna para a variável dependente e as demais colunas para as variáveis independentes. São necessárias pelo menos 2 colunas (ou 1 variável independente) e um número mínimo de linhas superior ao número de colunas. Campos com formato texto ou vazios são desconsiderados, bem como todos os correspondentes dados das demais colunas. O intervalo de dados deve ser selecionado antes de chamar este comando.
Este comando gera um novo arquivo contendo os resultados na forma de tabelas.
A geração de planilhas sem cores permite uma impressão fácil dos dados além de representar ganhos de performance de execução.
O resultado da regressão linear múltipla é uma nova planilha com dados estáticos, isto é, sem vínculos com a base dados que originou o resultado. Nesta nova planilha há as seguintes informações, onde n é o total de dados válidos e m é o numero de variáveis independentes:
- Equação: equação de regressão linear múltipla, onde bi são os coeficientes de regressão, xi são as variáveis independentes e y é a variável dependente. Só informada se a opção correspondente for selecionada.

- Média: média de cada variável ou coluna.

- DP: desvio padrão de cada variável ou coluna da amostra.

Importante:
Para a determinação dos parâmetros estatísticos dos dados - como média, desvio padrão - não é aplicado nenhum operador matemático (logarítmico, por exemplo). Desta forma, a média apresentada deve ser entendida como a esperança dos valores, bem como o desvio padrão deve ser entendido como a volatilidade da esperança dos valores!
|
Importante:
Todos os dados são considerados amostras e portanto todos os cálculos estatísticos de desvio padrão são baseados em amostras e não na população.
|
- CR: tabela contendo os coeficientes de regressão para cada variável independente. Contém:
- Slope: coeficientes de regressão para cada variável, incluindo a intersecção.
- SE: erro padrão para os coeficientes de regressão.
 onde rj é o coeficiente de correlação entre a variável independente em questão e as demais variáveis independentes.
- t: valor t de Student calculado para que cada coeficiente de regressão seja significante (não nula).

- p: probabilidade de significância para os coeficientes de regressão. Utiliza a função da distribuição t de Student do Microsoft Excel para retornar os valores de probabilidade de significância.
- Indicadores: tabela contendo os indicadores estatísticos para análise da regressão. Contém:
- R: coeficiente de correlação da regressão linear múltipla.

Importante:
A correlação entre uma variável dependente e um grupo de variáveis independentes é sempre informada positiva, pois os sinais da intersecção e dos slopes podem ser invertidos.
|
- R2: coeficiente de determinação da regressão. Significa o percentual da variância total da variável dependente que é explicado pela equação de regressão É igual ao quadrado do coeficiente de correlação.

- R2A: coeficiente de determinação ajustado. Na análise de regressão múltipla, toda vez que uma variável independente é adicionada, o coeficiente de determinação aumenta, mesmo que esta nova variável não contribua significativamente para a explicação da variância residual. Desta forma, é útil analisar o coeficiente ajustado, que, ao contrário do coeficiente de determinação, diminui se a variável adicionada possuir um poder de explicação baixo, podendo ter até um valor negativo.

- DW: estatística Durbin-Watson. Utilizada para verificação de autocorrelação entre as vaiáveis independentes. São analisados os resíduos (erros) da equação de regressão.

- ANOVA: tabela contendo a análise da variância. Só informada se a opção correspondente for selecionada. Contém:
- DF: graus de liberdade.
- SS: soma quadrática.
- MSS: variância quadrática média.

- F: estatística F.

- p: probabilidade de significância para F ou para a equação de regressão múltipla linear como um todo. Utiliza a função da distribuição F do Microsoft Excel para retornar os valores de probabilidade de significância.
- Correlações: matriz m x m contendo as correlações entre as variáveis. Só informada se houver mais de 1 variável independente.

- Combinadas: tabela contendo para cada variável os coeficientes de correlação a partir de grupos formados por combinações de outras variáveis independentes. São apresentados os módulos dos valores das cinco maiores correlações absolutas (|R|), bem como a combinação das demais variáveis que originou estas correlações. Estes valores são utilizados na análise de colinearidade. Só informada se a opção correspondente for selecionada. Só é possível gerar a tabela de correlações cominadas se houver mais de 2 variáveis independentes.
Importante:
A correlação entre uma variável independente e um conjunto de outras variáveis independentes é sempre informada em módulo, pois os sinais da intersecção e dos slopes podem ser invertidos. O objetivo é identificar a existência de altas correlações entre uma variável independente e combinações das demais.
|
Exemplo de utilização:
Os dados a seguir são hipotéticos e servem apenas para ilustrar as funcionalidades deste comando. No entanto, poderiam representar, por exemplo, variáveis econômicas regredidas contra lucro de empresas ou variáveis micro-econômicas.
- Exibir equação da regressão
- Apresentar ANOVA
- Calcular as combinações para regressão para estudar a colinearidade
- Dados: células A2:B17, onde a coluna A representa a variável dependente Y. As colunas B, C e D representam as variáveis independentes X1, X2 e X3, respectivamente.
| y | x1 | x2 | x3 |
| 7,0 | 2,9 | 1,0 | 4,0 |
| 5,0 | - | 3,0 | 3,0 |
| 10,0 | 0,9 | 5,0 | 6,0 |
| 13,0 | 0,1 | 7,0 | 7,0 |
| 15,0 | 3,8 | 4,0 | 8,0 |
| 16,0 | 1,1 | 8,0 | 9,0 |
| 5,0 | (7,0) | 9,0 | 2,0 |
| 11,0 | 3,0 | 3,0 | 6,0 |
| 5,0 | (1,0) | 3,0 | 2,0 |
| 8,0 | (0,9) | 4,0 | 3,0 |
| 10,0 | 2,0 | 5,0 | 7,0 |
| 15,0 | 3,0 | 6,0 | 9,0 |
| 3,0 | (9,5) | 12,0 | 2,0 |
| 8,0 | 1,5 | 4,0 | 6,0 |
| 10,0 | - | 8,0 | 8,0 |
| 6,0 | (2,5) | 7,0 | 4,0 |
|
Resultados:
Equação Y = 1.990 + 1.384*X1+ 1.209*X2+ 0.129*X3
Equação da regressão linear múltipla.
| Y | X1 | X2 | X3 |
| Médias | 9,188 | -0,163 | 5,563 | 5,375 |
| DP | 4,020 | 3,615 | 2,804 | 2,527 |
|
Indicadores estatísticos para os dados.
| CR | Slope | SE | t | p |
| Intersecção | 1,990 | 1,325 | 1,502 | 0,159 |
| X1 | 1,384 | 2,441 | 0,567 | 0,581 |
| X2 | 1,209 | 2,326 | 0,520 | 0,613 |
| X3 | 0,129 | 2,374 | 0,055 | 0,957 |
|
Coeficientes de regressão, incluindo intersecção. São apresentados também os erros, o valor da estatística t de Student e a probabilidade de significância dos coeficientes. Percebe-se que todos os coeficientes são insignificantes com 95% de certeza. O melhor coeficiente da regressão é a intersecção, que só é significante com 84,1% de certeza.
| R | 0,930 |
| R2 | 0,864 |
| R2A | 0,830 |
| DW | 0,924 |
|
Coeficientes de correlação, determinação, R2 ajustado e Durbin-Watson. O valor do coeficiente de determinação 0,864 é relativamente alto e indica um poder de explicação da equação de regressão de 86,4%. No entanto, como nenhum dos coeficientes de regressão são significativos, pode-se suspeitar da existência de colinearidade nas variáveis independentes (variáveis independentes correlacionadas).
O valor apresentado como Durbin-Watson permite a análise da autocorrelação, através da consulta e comparação deste valor com a estatística de mesmo nome – estatística Durbin-Watson.
| ANOVA | DF | SS | MSS | F | p |
| Regressão | 3 | 209,497 | 69,832 | 25,439 | 0,000 |
| Erro | 12 | 32,941 | 2,745 | | |
| Total | 15 | 242,438 | | | |
|
Tabela ANOVA permite inferir sobre a qualidade geral da regressão. Analisando o valor de p, percebe-se que a equação de regressão possui pelo menos um coeficiente significante. Olhando novamente para os coeficientes de regressão, percebe-se que nenhum deles é significante, o que contradiz a tabela ANOVA. Este é um dos efeitos da colinearidade entre as variáveis independentes!
| Correlações | X1 | X2 | X3 |
| X1 | 1,000 | -0,734 | 0,674 |
| X2 | -0,734 | 1,000 | 0,006 |
| X3 | 0,674 | 0,006 | 1,000 |
|
A tabela de correlações entre as variáveis confirma as suspeitas de colinearidade, pois existe uma alta correlação de X1 em relação a X2. A correlação entre X1 e X3 também é elevada, o que sugere mais estudos para concluir sobre a colinearidade.
| Combinadas |
X1 |R| | X2:X3 0,999 | X2 0,734 | X3 0,674 |
X2 |R| | X1:X3 0,998 | X1 0,734 | X3 0,006 |
X3 |R| | X1:X2 0,997 | X1 0,674 | X2 0,006 |
|
A tabela de correlações combinadas é uma ferramenta extremamente poderosa na verificação das correlações entre as variáveis independentes (colinearidade). Pela análise da tabela, verifica-se que a variável X1 apresenta forte correlação com a combinação das variáveis X2 e X3, sendo provavelmente a responsável pelas interpretações contraditórias de significância. Pela análise apenas da matriz de correlações, normalmente, não há dados suficientes para concluir quais variáveis podem ou não ser retiradas da regressão. Olhando para as combinadas, pode-se dizer que a variável X1 deve ser retirada da regressão, pois ela é representada pela combinação de X2 e X3.
|
|