Matemática Aplicada - UFRJ - Análise de Regressão

MAD357 Análise de Regressão

90 horas - 5 créditos

Pré-requisitos: Inferência Estatística I, Álgebra Linear II - Recomendação: 5o período

Ementa:

Regressão linear simples. Análise de ajuste. Estudo dos resíduos. Regressão múltipla. Correlação múltipla. Violações de hipóteses básicas. Transformações de variáveis. Seleção de modelos por encolhimento (Lasso e Ridge) e métodos de estimação para grandes bases de dados. Tratamento, por meio de exemplos, de questões relacionadas ao meio ambiente e de questões étnico-raciais.

Objetivos Gerais:

Definir modelos de regressão linear simples e múltiplos. Avaliar os resultados do ajuste e propor medidas remediadoras, em caso de violação das suposições básicas. Escolha de modelos e estimação para problemas de grande complexidade (grandes bases e número elevado de preditores).

Conteúdo Programático:

UNIDADE I

Regressão Linear Simples. Parâmetros do modelo, estimador de mímimosquadrados (EMQ);

análise de variância (ANOVA); coeficiente de determinação R2; erros e resíduos; normalidade dos

erros, estimador de máxima verossimilhança (EMV); Intervalos de confiança (IC) e testes de

hipóteses: para os parâmetros, para predições e para valores ajustados; análise dos resíduos.

UNIDADE II

Regressão Múltipla. Interpretação geométrica dos EMQ; adicionando mais umpreditor, correlação

parcial; ortogonalidade; notação matricial, ANOVA; gráficos de variáveis adicionadas; gráfico dos

resíduos parciais; regressão passando pela origem.

Mínimos quadrados ponderados, teste de falta de ajuste (variância conhecida e desconhecida);.teste F

generalizado e comparação de modelos; e elipsóides de confiança.

UNIDADE III = Diagnóstico.I – análise dos resíduos: Matriz H; a distância de Mahalanobis;

resíduos estudentizados; “outliers”; casos influentes, distância de Cook, Di e sua magnitude.

II – sintomas e terapias: Gráfico de dispersão; variância não constante; não linearidade;

transformação dos preditores e da variável resposta; falta de suposição de normalidade, papel de

probabilidade.

UNIDADE IV – Construção de modelos

I – definição de novos preditores: Regressão polinomial, polígonos com vários preditores,

superfície de resposta; variáveis indicadoras; propriedades de locação e escala; transformação linear

e componentes principais.

II colinearidade e seleção de variáveis: Medindo colinearidade; seleção de variáveis; algoritmos:

de seleção para frente, de eliminação para traz e do método stepwise; criação de seleção de subgrupos

de variáveis, Cp e todas as possíveis regressões.

III – Predição: Fazendo predições, interpolação versus extrapolação.

UNIDADE V – Métodos de penalização (Lasso e Ridge)

I – Métodos de seleção via encolhimento. Funções de perda; Seleção norma L1 (Lasso) e L2

(Ridge). Comparação entre os métodos e propriedades. Lasso agrupado. Aplicações. (Capítulo

3 Hastie)

II – Regressão para grandes bases de dados ( Capitulo 18 Hastie Hastie). O método o

gradiente descendente e gradiente descendente estocástico. Aplicações. (Boyd)

Unidade VI – Pós-análise e validação de modelos (Capítulo 7 Hastie)

I – Vício, variância, número efetivo de parâmetros e complexidade do modelo.

II – Amostras de treinamento e validação. Validação cruzada.

III – Medidas de comparação de modelos. Seleção forward stepwise, LARS e outras formas de

comparação tais como AIC, BIC e R2 ajustado.