1.1. Por que
estudar regressão hoje
Mesmo em
tempos de machine learning, em que algoritmos complexos como redes neurais
profundas e gradient boosting estão em evidência, a regressão linear continua
sendo indispensável. Ela é:
· Um modelo de referência (baseline) para comparar a
performance de modelos mais sofisticados.
· Interpretável, permitindo entender como cada variável
influencia o resultado.
· Base conceitual para métodos modernos como regressão
penalizada (Lasso, Ridge) e modelos lineares generalizados.
· Ferramenta essencial para comunicar resultados de
forma clara a não especialistas.
Nota para ciência de dados: Em muitos projetos, antes
de treinar modelos complexos, testamos uma regressão linear como baseline. Se
ela já entrega boa precisão, modelos mais elaborados podem ser desnecessários.
1.2.
Apresentando o problema
Um gestor sabe
— ou deveria saber — que decisões estratégicas precisam se apoiar em dados. Mas
será que ele sabe interpretar uma análise estatística ou julgar se um modelo
faz sentido?
Você não
precisa fazer cálculos longos à mão. Hoje, softwares como Excel, R e Python
automatizam todos os passos. O que você precisa é compreender o raciocínio por
trás dos números.
Conceitos básicos:
· Variável dependente (target, resposta): o que queremos
entender ou prever.
· Variáveis independentes (features, explicativas):
fatores que acreditamos influenciar a variável dependente.
Regressão
simples: envolve uma única variável independente.
Regressão
múltipla: envolve duas ou mais variáveis independentes.
1.3. Como a
regressão é usada
Empresas
aplicam regressão para:
· Explicar fenômenos: “Por que o número de chamadas ao
SAC caiu no último mês?”
· Prever o futuro: “Qual será o faturamento no próximo
trimestre?”
· Apoiar decisões: “Vale a pena manter esta campanha de
marketing?”
1.4. Exemplo:
previsão do preço de casas
Imagine que
você se mudou para outra cidade e quer comprar uma casa. Uma amostra de 9 casas
à venda forneceu os seguintes dados:
Tabela 1.1. Preço, área construída, área do terreno e
idade da construção
1.5. Previsão usando
a média
A média dos
preços é:
Essa média é
um ponto de partida, mas não é precisa: o preço real pode variar bastante.
Limitação da média como preditor: No nosso exemplo, o
intervalo de confiança para o preço médio variou de R$ 95 mil a R$ 586 mil.
Isso é amplo demais para ser útil na tomada de decisão.
1.6. Previsão
usando uma variável independente
Para melhorar,
escolhemos a variável com maior correlação com o preço.
Tabela 1.2.
Correlação do preço com cada variável
1.7. Ajuste da reta
de regressão
A equação
ajustada é:
O coeficiente
angular indica o aumento médio no preço para cada metro quadrado adicional de
terreno.
1.8.
Pressuposições básicas
· Linearidade: relação média de Y e X é linear.
· Homoscedasticidade: variância dos resíduos é
constante.
· Independência: observações não influenciam umas às
outras.
· Normalidade dos resíduos: essencial para testes de
significância.
1.9. Precisão
da previsão com a regressão
Usamos o erro
padrão da estimativa e intervalos de confiança para prever o preço de uma casa
com terreno de 200 m²:
IC95% = [209 mil, 469 mil].
Muito mais
estreito do que com a média simples.
1.10. Ligação
com métodos modernos
O que
aprendemos aqui é a base de muitos modelos atuais:
· - Regressão múltipla: adiciona mais variáveis
explicativas.
· Regressão
regularizada (Ridge, Lasso): controla excesso de variáveis.
· Árvores de
decisão e redes neurais: substituem a reta por funções mais complexas, mas usam
o mesmo conceito de ajustar parâmetros para minimizar o erro.
Em machine
learning, esse processo é chamado de treinamento do modelo.
Resumo
· A média é um
preditor simples, mas muitas vezes impreciso.
· Se Y depende de
X, a previsão melhora usando regressão.
· A regressão
linear simples ajusta uma reta para descrever a relação entre duas variáveis.
· É possível
estimar não só valores, mas também intervalos de confiança para a previsão.
· Este é o
alicerce para técnicas mais avançadas de modelagem.
No comments:
Post a Comment