Sunday, August 10, 2025

— Simple Linear Regression: A Fundamental Tool for Data Analysis and Machine Learning

 

1.1. Why Study Regression Today


Even in the era of machine learning — with complex algorithms like deep neural networks and gradient boosting dominating the conversation — linear regression remains indispensable. It is:

·       A baseline model to compare against more sophisticated techniques.

·       Interpretable, allowing us to understand how each variable influences the result.

·       A conceptual foundation for modern methods such as penalized regression (Lasso, Ridge) and generalized linear models.

·       An essential tool for communicating results clearly to non-specialists.

Data Science Note: In many projects, we test a simple linear regression as a baseline before moving on to complex models. If it already delivers good accuracy, more elaborate approaches may be unnecessary.

1.2. Presenting the Problem


A manager should know that strategic decisions need to be backed by data. But can they interpret a statistical analysis or judge whether a model makes sense?

You don’t have to perform long calculations by hand — tools like Excel, R, and Python handle that. What you do need is to understand the reasoning behind the numbers.

Basic Concepts:

·       Dependent variable (target, response): what we want to understand or predict.

·       Independent variables (features, explanatory): factors we believe influence the dependent variable.

Simple regression: uses a single independent variable.

Multiple regression: uses two or more independent variables.

Practical examples:

·       Predicting weight of adults based only on height → simple regression.

·       Predicting weight of children based on age and height → multiple regression.

·       Studying the effect of sedentary lifestyle, smoking, and diet on the risk of heart disease → multiple regression.

1.3. How Regression Is Used


Organizations apply regression to:

·       Explain phenomena: “Why did customer service calls drop last month?”

·       Predict the future: “What will sales be in the next quarter?”

·       Support decisions: “Should we keep this marketing campaign?”

·       Regression answers key questions:

·       Which variables have the greatest impact?

·       Which variables can be ignored?

·       How much of the variation in the dependent variable does the model explain?

1.4. Example: Predicting House Prices


Imagine you move to a new city and want to buy a house. A sample of nine houses for sale provides the following data:

 

1.5. Prediction Using the Mean


The mean house price is:

 Its a starting point, but far from precise: the real price could vary widely.

Limitation of the Mean as Predictor: In our example, the 95% confidence interval for the mean price ranged from R$ 95,000 to R$ 586,000 — too broad for practical decision-making.

1.6. Prediction Using an Independent Variable


To improve accuracy, we choose the variable most correlated with price:

                                   
               1.7. Fitting the Regression Line

The fitted equation is: 

Ŷ = 145.42 + 0.9674 · X2. 

The slope indicates the average increase in price (in thousands of R$) for each additional square meter of lot size.

1.8. Basic Assumptions


·       Linearity: the average relationship between Y and X is linear.

·       Homoscedasticity: residual variance is constant.

·       Independence: observations don’t influence each other.

·       Normality of residuals: important for significance testing.


Using the standard error of estimate and confidence intervals, we predict the price of a house with a 200 m² lot: 

95% CI = [R$ 209,000, R$ 469,000]. 

This is far narrower than using the mean alone.

1.10. Links to Modern Methods


What we’ve learned here underpins many current models:

·       Multiple regression: adds more explanatory variables.

·       Regularized regression (Ridge, Lasso): controls for too many variables.

·       Decision trees and neural networks: replace the straight line with more complex functions, but still adjust parameters to minimize error.


In machine learning, this process is called training the model.

 Summary


·       The mean is a simple but often imprecise predictor.

·       If Y depends on X, regression improves predictions.

·       Simple linear regression fits a straight line to describe the relationship between two variables.

·       We can estimate both point predictions and confidence intervals.

·       This is the foundation for more advanced modeling techniques.


REGRESSÃO LINEAR SIMPLES: FUNDAMENTO ESSENCIAL PARA ANÁLISE DE DADOS E MACHINE LEARNING

 

1.1. Por que estudar regressão hoje


Mesmo em tempos de machine learning, em que algoritmos complexos como redes neurais profundas e gradient boosting estão em evidência, a regressão linear continua sendo indispensável. Ela é:

·       Um modelo de referência (baseline) para comparar a performance de modelos mais sofisticados.

·       Interpretável, permitindo entender como cada variável influencia o resultado.

·       Base conceitual para métodos modernos como regressão penalizada (Lasso, Ridge) e modelos lineares generalizados.

·       Ferramenta essencial para comunicar resultados de forma clara a não especialistas.

Nota para ciência de dados: Em muitos projetos, antes de treinar modelos complexos, testamos uma regressão linear como baseline. Se ela já entrega boa precisão, modelos mais elaborados podem ser desnecessários.

1.2. Apresentando o problema


Um gestor sabe — ou deveria saber — que decisões estratégicas precisam se apoiar em dados. Mas será que ele sabe interpretar uma análise estatística ou julgar se um modelo faz sentido?

Você não precisa fazer cálculos longos à mão. Hoje, softwares como Excel, R e Python automatizam todos os passos. O que você precisa é compreender o raciocínio por trás dos números.

Conceitos básicos:

·       Variável dependente (target, resposta): o que queremos entender ou prever.

·       Variáveis independentes (features, explicativas): fatores que acreditamos influenciar a variável dependente.

Regressão simples: envolve uma única variável independente.

Regressão múltipla: envolve duas ou mais variáveis independentes.

1.3. Como a regressão é usada


Empresas aplicam regressão para:

·       Explicar fenômenos: “Por que o número de chamadas ao SAC caiu no último mês?”

·       Prever o futuro: “Qual será o faturamento no próximo trimestre?”

·       Apoiar decisões: “Vale a pena manter esta campanha de marketing?”

1.4. Exemplo: previsão do preço de casas


Imagine que você se mudou para outra cidade e quer comprar uma casa. Uma amostra de 9 casas à venda forneceu os seguintes dados:

               Tabela 1.1. Preço, área construída, área do terreno e idade da construção                                                                             

1.5. Previsão usando a média


A média dos preços é:

Essa média é um ponto de partida, mas não é precisa: o preço real pode variar bastante.

Limitação da média como preditor: No nosso exemplo, o intervalo de confiança para o preço médio variou de R$ 95 mil a R$ 586 mil. Isso é amplo demais para ser útil na tomada de decisão.

1.6. Previsão usando uma variável independente


Para melhorar, escolhemos a variável com maior correlação com o preço.

Tabela 1.2. Correlação do preço com cada variável

1.7. Ajuste da reta de regressão


A equação ajustada é:

O coeficiente angular indica o aumento médio no preço para cada metro quadrado adicional de terreno.

1.8. Pressuposições básicas


·       Linearidade: relação média de Y e X é linear.

·       Homoscedasticidade: variância dos resíduos é constante.

·       Independência: observações não influenciam umas às outras.

·       Normalidade dos resíduos: essencial para testes de significância.

1.9. Precisão da previsão com a regressão

Usamos o erro padrão da estimativa e intervalos de confiança para prever o preço de uma casa com terreno de 200 m²:

IC95% = [209 mil, 469 mil].

Muito mais estreito do que com a média simples.

1.10. Ligação com métodos modernos


O que aprendemos aqui é a base de muitos modelos atuais:

·       - Regressão múltipla: adiciona mais variáveis explicativas.

·        Regressão regularizada (Ridge, Lasso): controla excesso de variáveis.

·        Árvores de decisão e redes neurais: substituem a reta por funções mais complexas, mas usam o mesmo conceito de ajustar parâmetros para minimizar o erro.

Em machine learning, esse processo é chamado de treinamento do modelo.

Resumo


·        A média é um preditor simples, mas muitas vezes impreciso.

·        Se Y depende de X, a previsão melhora usando regressão.

·        A regressão linear simples ajusta uma reta para descrever a relação entre duas variáveis.

·        É possível estimar não só valores, mas também intervalos de confiança para a previsão.

·        Este é o alicerce para técnicas mais avançadas de modelagem.


Monday, August 04, 2025

Nem simples demais, nem complicado demais: o equilíbrio entre viés e variância

 


Por que modelos muito simples erram... e modelos muito complexos também?

Quem já tentou ajustar um modelo a dados experimentais conhece o dilema:
1. Quando usa uma função muito simples, o modelo não representa bem os dados.
2. Quando usa uma função muito complexa, ele perde a capacidade de generalizar o fenômeno, pois se ajusta demais aos dados.
Esse dilema é conhecido como bias-variance tradeoff, ou compromisso entre viés e variância.

📉 Bias (viés): quando o modelo não apreende o essencial

Viés refere-se ao uso de um modelo excessivamente simples para descrever um conjunto de dados que vêm de um fenômeno mais complexo. A complexidade do fenômeno é subestimada e o modelo ignora padrões importantes presentes nos dados.

Viés é, portanto, uma medida da diferença entre a predição média do modelo e o valor real que se quer prever.
Exemplo: Ajustar uma reta a um conjunto de pontos que claramente seguem uma curva.
Consequência: o modelo erra sistematicamente, mesmo quando há muitos dados. Dizemos que ele sofre de underfitting (ajuste insuficiente).

📈 Variância: quando o modelo exagera nos detalhes

Se pequenas mudanças nos dados exigirem grandes mudanças no modelo, dizemos que ele tem alta variância.

Variância é uma medida da sensibilidade do modelo aos dados de treinamento: quanto o modelo muda quando os dados mudam.
Exemplo: Ajustar um polinômio de grau 10 a um pequeno conjunto de pontos. O modelo passa por todos os pontos, mas faz curvas exageradas entre eles.
Consequência: o modelo vai bem nos dados conhecidos, mas fracassa quando confrontado com dados novos. Dizemos que ele sofre de overfitting (ajuste excessivo).

🎯 Encontrar o ponto ótimo

Todo modelo comete erros, que podem ser decompostos em três componentes:
1. Erro por viés → o modelo é inadequado porque é muito simples;
2. Erro por variância → o modelo varia demais com diferentes amostras;
3. Ruído irreversível → é a variabilidade natural dos dados, independente do modelo.

O objetivo é encontrar um modelo que equilibre viés e variância, minimizando o erro total. É preciso captar o essencial do fenômeno, sem exagerar. Esse é o bias-variance tradeoff — uma situação em que melhorar um aspecto piora outro.

⚙️ Comparando modelos

Modelo

Viés

Variância

ANOVA

Baixo

Médio

Regressão linear

Médio

Baixo

Polinômio complexo

Baixo

Alto

🌽 Exemplo: produção de milho em diferentes níveis de fósforo

Suponha:
- Cinco níveis de fósforo: 20, 40, 60, 80, 100 kg/ha;
- Médias das dez repetições: 2,8 – 3,2 – 3,4 – 3,3 – 1,8 ton/ha.

O que fazer?
Depende do objetivo e da escolha do modelo:

🔹 Abordagem 1: ANOVA tradicional (modelo categórico)

Vantagens:
- Simples, interpretável;
- Sem necessidade de assumir uma relação funcional entre os níveis.

Desvantagens:
- Não detecta tendência;
- Alta variância se os dados forem ruidosos;
- Sem poder de predição fora dos níveis observados.

🔹 Abordagem 2: Regressão linear (modelo numérico)

Vantagens:
- Mais parcimonioso: apenas dois parâmetros;
- Permite interpolação e extrapolação.

Desvantagens:
- Alto viés se a relação não for linear;
- Ignora variações não lineares reais.

🔹 Abordagem 3: Polinômios (modelo mais flexível)

Vantagens:
- Captura efeitos não lineares;
- Pode representar melhor o comportamento real.

Desvantagens:
- Alta variância;
- Risco de overfitting — modelo ajustado demais aos dados disponíveis.




🔚 Encerramento

Entre a simplicidade que ignora o fenômeno e a complexidade que se perde nos ruídos, há um ponto de equilíbrio. O desafio da modelagem está em reconhecê-lo — com dados, bom senso e teoria.