uma introdução à regressão linear múltipla

uma introdução à regressão linear múltipla

modelos de regressão são usados para descrever as relações entre variáveis ajustando uma linha aos dados observados. A regressão permite estimar como uma variável dependente muda à medida que a(s) variável (s) independente (s) muda.

regressão linear múltipla é usada para estimar a relação entre duas ou mais variáveis independentes e uma variável dependente., Você pode usar regressão linear múltipla quando você quer saber:

  1. quão forte a relação é entre duas ou mais variáveis independentes e uma variável dependente (por exemplo, como a precipitação, temperatura e quantidade de fertilizante adicionado afetam o crescimento da cultura).o valor da variável dependente a um determinado valor das variáveis independentes (por exemplo, o rendimento esperado de uma cultura a certos níveis de precipitação, temperatura e adição de fertilizantes).,
Exemplo
Você é um pesquisador de saúde interessados em fatores sociais que influenciam a doença de coração. Você pesquisa 500 cidades e reúne dados sobre a porcentagem de pessoas em cada cidade que fumam, a porcentagem de pessoas em cada cidade que andam de bicicleta para trabalhar, e a porcentagem de pessoas em cada cidade que têm doenças cardíacas.porque você tem duas variáveis independentes e uma variável dependente, e todas as suas variáveis são quantitativas, você pode usar regressão linear múltipla para analisar a relação entre elas.,

Pressupostos da regressão linear múltipla

de regressão linear Múltipla faz todos os mesmos pressupostos regressão linear simples:

Homogeneidade de variância (homocedasticidade): o tamanho do erro em nossa previsão não alterar significativamente entre os valores da variável independente.

Independence of observations: the observations in the dataset were collected using statistical valid methods, and there are no hidden relationships among variables.,

em regressão linear múltipla, é possível que algumas das variáveis independentes estejam realmente correlacionadas umas com as outras, por isso é importante verificá-las antes de desenvolver o modelo de regressão. Se duas variáveis independentes estiverem muito correlacionadas (r2 > ~0.6), então apenas uma delas deve ser usada no modelo de regressão.

normalidade: os dados seguem uma distribuição normal.

linearidade: a linha de melhor ajuste através dos pontos de dados é uma linha reta, ao invés de uma curva ou algum tipo de fator de agrupamento.,

Como executar uma análise de regressão linear múltipla

de regressão linear Múltipla fórmula

A fórmula para uma regressão linear múltipla é:

  • y = valor previsto da variável dependente
  • B0 = y-intercepto (valor de y quando todos os outros parâmetros são definidos como 0)
  • B1X1= o coeficiente de regressão (B1) da primeira variável independente (X1) (uma.k.um., o efeito que o aumento do valor da variável independente tem sobre o valor y previsto)
  • … = fazer o mesmo, no entanto, muitas variáveis independentes que você está testando
  • BnXn = o coeficiente de regressão da última variável independente
  • e = modelo de erro (uma.k.um. o quanto de variação existe em nossa estimativa de y)

Para encontrar a melhor linha de ajuste para cada variável independente, regressão linear múltipla calcula três coisas:

  • Os coeficientes de regressão que levam para o menor global do modelo de erro.
  • a estatística em t do modelo global.,
  • o valor p associado (como é provável que a estatística-t teria ocorrido por acaso se a hipótese nula de nenhuma relação entre as variáveis independentes e dependentes fosse verdadeira).

então calcula o valor t-estatístico e p-para cada coeficiente de regressão no modelo.

regressão linear múltipla em R

embora seja possível fazer regressão linear múltipla à mão, é muito mais comumente feito através de software estatístico. Nós vamos usar R para nossos exemplos porque ele é livre, poderoso e amplamente disponível., Baixe o conjunto de dados de amostra para tentar você mesmo.

Dataset para regressão linear múltipla (.csv)

carregar o coração.,dados do conjunto de dados em seu ambiente R e execute o seguinte código:

R código de regressão linear múltipla
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Este código leva-o conjunto de dados heart.data e calcula o efeito que as variáveis independentes biking e smoking tem sobre a variável dependente heart disease usando a equação para o modelo linear: lm().,

aprenda mais seguindo o guia passo-a-passo completo de regressão linear em R.

Qual é a sua pontuação de plágio?Compare o seu trabalho com mais de 60 mil milhões de páginas web e 30 milhões de publicações.,/li>

Scribbr Verificador de Plágio

a Interpretação dos resultados

Para visualizar os resultados do modelo, você pode usar o summary() função:

summary(heart.disease.lm)

Esta função tem os parâmetros mais importantes do modelo linear e coloca-los em uma tabela que tem esta aparência:

O resumo do primeiro imprime a fórmula (“Chamar”), então o modelo de resíduos (‘Resíduos’)., Se os resíduos são centrados aproximadamente em torno de zero e com spread similar em ambos os lados, como estes fazem (mediana 0.03, e min e max em torno de -2 e 2), então o modelo provavelmente se encaixa na suposição de heterocedasticidade.

a seguir são os coeficientes de regressão do modelo (“coeficientes”). A linha 1 da tabela de coeficientes é rotulada (interceptação)-esta é a ordenada em y da equação de regressão. É útil conhecer a interceptação estimada a fim de conectá-la à equação de regressão e prever os valores da variável dependente:

doença cardíaca = 15 + (-0.,2 * ciclismo) + (0.178*tabagismo) ± e

as coisas mais importantes a notar neste quadro de saída são os dois quadros seguintes – as estimativas para as variáveis independentes.

a colunaEstimate é o efeito estimado, também chamado de coeficiente de regressão ou valor r2. As estimativas na tabela nos dizem que para cada aumento de um por cento no ciclismo para trabalhar há uma diminuição associada de 0,2 por cento na doença cardíaca, e que para cada aumento de um por cento no tabagismo há um associado .17% de aumento na doença cardíaca.,

a colunaStd.error mostra o erro padrão da estimativa. Este número mostra quanta variação há em torno das estimativas do coeficiente de regressão.

a colunat value apresenta a estatística do ensaio. Salvo especificação em contrário, a estatística de ensaio utilizada na regressão linear é o valor t de um ensaio em T com duas faces. Quanto maior for a estatística do ensaio, menor a probabilidade de os resultados terem ocorrido por acaso.

a colunaPr( > | t | ) mostra o valor p., Isto mostra como o valor t calculado teria ocorrido por acaso se a hipótese nula de nenhum efeito do parâmetro fosse verdadeira.

devido a estes valores serem tão baixos (p< 0,001 em ambos os casos), podemos rejeitar a hipótese nula e concluir que tanto o ciclismo para o trabalho como o tabagismo influenciam as taxas prováveis de doenças cardíacas.Ao comunicar os seus resultados, incluir o efeito estimado (ou seja, o coeficiente de regressão), o erro-padrão da estimativa e o valor p., Você também deve interpretar seus números para deixar claro aos seus leitores o que significa o coeficiente de regressão.

In our survey of 500 towns, we found significant relationships between the frequency of biking to work and the frequency of heart disease and the frequency of smoking and frequency of heart disease (p < 0,001 for each). Especificamente, encontramos uma diminuição de 0, 2% (± 0, 0014) na frequência da doença cardíaca para cada aumento de 1% no ciclismo, e um aumento de 0, 178% (±0.,0035) na frequência da doença cardíaca para cada aumento de 1% no tabagismo.

visualizando os resultados em um grafo

também pode ser útil incluir um grafo com seus resultados. A regressão linear múltipla é um pouco mais complicada do que a regressão linear simples, porque há mais parâmetros do que se encaixam num gráfico bidimensional.

no entanto, existem maneiras de mostrar os seus resultados que incluem os efeitos de múltiplas variáveis independentes sobre a variável dependente, mesmo que apenas uma variável independente pode realmente ser plotada no eixo x.,

Aqui, calculámos os valores previstos da variável dependente (doença cardíaca) em toda a gama de valores observados para a percentagem de pessoas de bicicleta a trabalhar.para incluir o efeito do tabagismo na variável independente, calculamos estes valores previstos mantendo o tabagismo constante nas taxas mínimas, médias e máximas observadas de tabagismo.

Perguntas Mais Frequentes sobre regressão linear múltipla

O que é um modelo de regressão?,

Um modelo de regressão é um modelo estatístico que estima a relação entre uma variável dependente e uma ou mais variáveis independentes usando uma linha (ou um avião no caso de duas ou mais variáveis independentes).

um modelo de regressão pode ser usado quando a variável dependente é quantitativa, exceto no caso de regressão logística, onde a variável dependente é binária.

O que é a regressão linear múltipla?,

regressão linear múltipla é um modelo de regressão que estima a relação entre uma variável dependente quantitativa e duas ou mais variáveis independentes usando uma linha reta.

como é calculado o erro num modelo de regressão linear?

regressão Linear mais frequentemente usa erro médio-quadrado (MSE) para calcular o erro do modelo., O MSE é calculado por:

  1. medindo a distância dos valores y observados a partir dos valores y previstos a cada valor de x;
  2. quadrando cada uma destas distâncias;
  3. calculando a média de cada uma das distâncias ao quadrado.

regressão Linear encaixa uma linha aos dados, encontrando o coeficiente de regressão que resulta na mais pequena EMA.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *