Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

MÉTODOS ESTATÍSTICOS 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Olá! 
Quando fazemos estimações por meio de modelos estatísticos, é sempre 
uma preocupação saber quais variáveis incluir ou não no modelo, especialmente 
quando ele contempla um número grande das que são independentes. Espera-
se que haja embasamento teórico e empírico, para auxiliar nesta tarefa, mas isso 
nem sempre acontece. Esse é o conhecido problema de seleção de modelos, 
que estudaremos neste capítulo. Conhecer os conceitos básicos de análise 
multivariada, bem como suas principais técnicas, é um ponto importante para 
tratar de eventuais dúvidas quanto à inclusão ou não de determinada variável 
em um modelo. 
Bons estudos! 
 
 
AULA 8 - SELEÇÃO DE 
MODELOS 
 
 
 
 
 
 
 
 
 
 
Nesta aula, você vai conferir os contextos conceituais da psicologia entenderá 
como ela alcançou o seu estatuto de cientificidade. Além disso, terá a oportunidade 
de conhecer as três grandes doutrinas da psicologia, behaviorismo, psicanálise e 
Gestalt, e as áreas de atuação do psicólogo. 
 Compreender o conceito de psicologia 
 Identificar as diferentes áreas de atuação da psicologia 
 Conhecer as áreas de atuação do psicólogo. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Nesta Unidade de Aprendizagem, você estudará o processo de seleção 
de modelos, verificando os critérios utilizados para selecioná-los e a natureza 
das variáveis envolvidas em um problema. Você perceberá que o assunto é 
abrangente, e a proposta é trazer alguns conceitos básicos. 
 Identificar o processo de seleção de modelos. 
 Descrever a natureza das variáveis envolvidas em um problema. 
 Reconhecer os modelos mais utilizados em ciência de dados e suas 
particularidades. 
 
 
8 PROCESSO DE SELEÇÃO DE MODELOS 
Quando fazemos uma estimação, muitas vezes, existe um grande número de 
variáveis independentes sendo medidas. É necessário quais delas devem ser 
selecionadas para o modelo. Esse é o chamado problema de seleção do modelo, 
considerado um grande desafio. De modo geral, a seleção do modelo é feita por 
métodos ad hoc, sob orientação de qualquer intuição física que possa estar disponível 
(NAVIDI, 2012). 
Navidi (2012) explica que um bom modelo se baseia no princípio conhecido 
como navalha de Occam (parcimônia), que diz que o melhor modelo científico é o mais 
simples que explica os fatos observados. Em se tratando de modelos lineares, o 
princípio da parcimônia diz que um modelo deve conter o menor número de variáveis, 
suficiente para ajustar os dados. 
No entanto, existem exceções a esse princípio: a) um modelo linear sempre 
deve ter uma interseção, a menos que a teoria física afirme o contrário; b) se uma 
potência de uma variável for incluída no modelo, todas as potências menores do que 
elas devem ser incluídas também, a menos que a teoria física afirme o contrário; c) 
caso o produto de duas variáveis seja incluído em um modelo, elas devem ser 
incluídas separadamente também, a menos que a teoria física afirme o contrário 
(NAVIDI, 2012). 
Navidi (2012) explica que os modelos parcimônicos são aqueles que têm 
apenas variáveis necessárias ao ajuste dos dados e muito utilizados na prática em 
modelos de regressão múltipla. O autor apresenta um exemplo do princípio da 
parcimônia de forma detalhada, como segue: 
Exemplo 1: Os dados da Figura 1 foram obtidos a partir de um artigo sobre 
capacidades e características de desempenho de britadores de mandíbulas. As taxas 
de alimentação (FeedRate) e a quantidade de energia drenada (Power) foram 
medidas para vários desses britadores. 
 
 
 
 
 
 
 
 
Figura 1 – Taxas de alimentação e potências para britadores de mandíbulas 
industriais 
 
Fonte: Navid (2012, p. 380-382). 
 
O ajuste do modelo foi realizado pelo software Minitab e apresentou os 
seguintes resultados, mostrados na Figura 2, a seguir: 
 
 
Figura 2 – Resultados do ajuste do modelo 
 
Fonte: Adaptada de Navidi (2012). 
 
Pelos resultados observados, tem-se que o modelo ajustado é: 
Power = 21,028 + 24,595FeedRate 
 
Além disso, o coeficiente para FeedRate é significativamente diferente de zero 
(t ≈ 7,37, P ≈ 0). Para verificar se um modelo quadrático pode ajustar-se melhor aos 
dados do que esse modelo linear, ajustou-se o modelo como: 
 
Pelos resultados apresentados na Figura 3, observa-se que os valores para a 
 
 
interseção e para o coeficiente de FeedRate são diferentes do modelo linear, o que é 
comum ocorrer, pois a soma de uma nova variável a um modelo pode alterar os 
coeficientes das variáveis já existentes nele. 
 
Figura 3 – Resultados do modelo quadrático 
 
Fonte: Adaptada de Navidi (2012). 
 
Por esses resultados, tem-se que o modelo ajustado é: 
Power = 19,34 + 27,47FeedRate – 0,6387FeedRate2 
 
É importante destacar que o valor p igual a 0,838 para o coeficiente FeedRate2 
é alto e revela que a variável não é significativa. A inclusão de FeedRate2 no modelo 
aumenta o valor da qualidade de ajuste da estatística R2 de forma muito sutil, tanto 
que os três primeiros dígitos permanecem iguais, ou seja, observa-se no modelo 
linear, R2 = 68,5%, e no modelo quadrático, R2 = 68,5%. Portanto, não há evidência 
de que o modelo quadrático se ajusta melhor aos dados do que o linear. Sendo assim, 
pelo princípio da parcimônia, deve-se preferir o modelo linear. Uma ilustração gráfica 
do princípio da parcimônia pode ser vista na Figura 4, a seguir. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 4 - Gráfico de dispersão da potência versus a taxa de alimentação para 27 
britadores de mandíbulas industriais 
 
Fonte: Navidi (2012, p.381) 
 
Por meio desse gráfico, observa-se que a reta de mínimos quadrados e o 
modelo quadrático que melhor se ajusta aparecem superpostos. Ainda que os 
coeficientes dos modelos sejam diferentes, as duas curvas são praticamente idênticas 
Isso pode refletir o fato de que o coeficiente FeedRate2 no modelo quadrático não 
difere significativamente de zero. Essas análises levam a crer que não existem razões 
para incluir o termo quadrático no modelo, pois isso o tornaria mais complicado e sem 
qualquer melhoria no ajuste. 
Gianotti (2011) define a análise de múltiplas variáveis em um único 
relacionamento ou conjunto de relações como análise multivariada. Esse tipo de 
análise trata de todos os métodos estatísticos que analisam simultaneamente 
múltiplas medidas sobre cada objeto sob investigação e é bastante utilizado para a 
avaliação de comportamentos e tendências em diversas áreas do conhecimento. 
Muitas das técnicas multivariadas conhecidas são extensões de técnicas 
univariadas e bivariadas — por exemplo, a regressão multivariada é uma extensão da 
regressão simples. Existem técnicas multivariadas que foram elaboradas para uso em 
questões de múltiplas variáveis, como é o caso da análise fatorial ou da análise de 
discriminante (Essas técnicas serão abordadas em seções posteriores). A proposta 
da análise multivariada é medir, explicar e prever o grau de relacionamento entre 
variáveis estatísticas e combinações ponderadas de variáveis. Um método de análise 
multivariado deve ter todas as variáveis aleatórias e interrelacionadas, de tal forma 
 
 
que seus diferentes efeitos não possam ser significativamente interpretados 
separadamente (GIANOTTI, 2011). 
Alguns elementos merecem atenção, que são: a) a variável estatística que será 
uma combinação linear de variáveis com pesos empiricamente determinados; b) as 
escalas de medida, uma vez que possibilitam representar com precisão o conceito de 
interesse e contribuem para a seleção do método multivariado mais adequado; c) os 
erros de medida, que evidenciam o grau em que os valores observados não se 
aproximam dos verdadeiros valores — considera-se a validade (o grau em que a 
medida representará o que se espera) e a confiabilidade (o grau emque a variável 
observada medirá o verdadeiro valor, livre de erro) da medida. Sendo que, se o erro 
é 3%, a confiabilidade será de 97%; d) as medidas multivariadas, conhecidas como 
escalas múltiplas em que diversas variáveis são reunidas em uma medida composta 
para representar um conceito (GIANOTTI, 2011). 
Gianotti (2011) explica que as técnicas multivariadas podem ser classificadas 
como de interdependência — em que existe interesse no estudo da interrelação de 
múltiplas variáveis para verificar associações ou correlações — e de dependência — 
que são destinadas à determinação de modelos em que uma ou mais variáveis 
dependem do comportamento de uma ou mais variáveis. 
8.1 Natureza das variáveis envolvidas em um problema 
Frequentemente, ocorrem situações em que são criados modelos com um 
grande número de variáveis independentes. E avalia-se a possibilidade de retirar um 
subconjunto delas, sem que o modelo perca precisão (NAVIDI, 2012). Consideramos 
o seguinte modelo: 
 
Navidi (2012) explica que ele está correto na representação da relação real 
entre a variável x e y. Esse modelo será chamado de completo. Testamos a hipótese 
nula por meio de: 
 
Sendo H0 verdadeira, o modelo permanece correto, se retirarmos a variável 
 
 
xk+1, …, xp, de tal forma que podemos substituir o modelo completo pelo seguinte 
reduzido: 
 
Para testar H0, começamos calculando a soma dos quadrados dos erros para 
os modelos completo e reduzido. Denominamos esses parâmetros de SSEcompleto e 
SSEreduzido. O número de graus de liberdade, para SSEcompleto, é n – p – 1 e, para 
SSEreduzido, é n – k – 1 (NAVIDI, 2012). 
Com a informação de que o modelo completo está correto, sabe-se que 
SSEcompleto/(n – p – 1) é uma estimativa da variância do erro, σ2 . Na verdade, ele é 
apenas s2. Se H0 for verdadeira, o modelo reduzido também estará correto, e 
SSEreduzido/(n – k – 1) também é uma estimativa da variância do erro. Então, se H0 for 
verdadeira, a diferença (SSEreduzido – SSEcompleto) está próxima de (p – k) σ2, e o 
quociente (SSEreduzido – SSEcompleto)/(p – k) está próximo de σ2 (NAVIDI, 2012). 
Portanto, a estatística de teste será: 
 
Se H0 for verdadeira, tanto o numerador quanto o denominador de f são 
estimativas de σ2, de modo que f está próximo de 1. Por outro lado, se H0 for falsa, 
SSEreduzido tende a ser maior, assim como o valor de f também. A estatística F tem sua 
distribuição nula dada por Fp – k, n – p – 1. Esse método é bastante útil para trabalhar com 
modelos parcimônicos, removendo as variáveis que não são necessárias. Contudo, 
as condições sob as quais ele é válido raramente são satisfeitas na prática (NAVIDI, 
2012). Vejamos, a seguir, um exemplo de Navidi (2012). 
8.2 Modelos mais utilizados em ciências de dados – Análise Fatorial 
Também conhecida como análise de fatores comuns, é utilizada quando há 
interesse no comportamento das inter-relações entre um grande número de variáveis. 
A ideia é condensar a informação dos grupos originais em um conjunto menor de 
 
 
variáveis, sem que ocorra perda de informação. Esses conjuntos menores de variáveis 
são chamados de fatores (GIANOTTI, 2011). 
De acordo com Gianotti (2011), a análise fatorial pode ser explanatória, 
utilizada quando o pesquisador possui pouco ou nenhum conhecimento sobre a 
estrutura que será gerada de fatores, ou confirmatória, quando o pesquisador assume 
a estrutura fatorial como conhecida e apenas busca a verificação e confirmação da 
estrutura por meio da análise. 
É possível, ainda, incluir a análise de componentes principais e de fatores 
comuns. Pode-se utilizar como exemplo de uso da análise de componentes principais 
a de satisfação dos clientes quanto a determinado serviço e produto: poderia haver 
dimensões para satisfação com o produto e com o serviço, para então verificar se o 
grupo de variáveis pertence de fato à primeira dimensão e o outro à segunda 
(GIANOTTI, 2011). Vejamos, na Figura 5, um caso de análise de fatores de seleção 
de operadores logísticos. 
 
Figura 5 - Análise fatorial de seleção de operadores logísticos 
 
Fonte: Gianotti (2011, p.255). 
8.3 Análise de agrupamentos 
Também conhecida como análise de conglomerados, O objetivo dessa técnica 
é agrupar indivíduos, empresas ou objetos de modo homogêneos, dadas as 
 
 
similaridades de valores de suas variáveis. Sendo assim, cada indivíduo pertence a 
um agrupamento (cluster) com características comuns. Como é uma técnica 
exploratória, não encontraremos resposta ou modelo absolutamente preciso. No 
entanto, por meio dessa técnica, podemos ter indícios de respostas que conduzam a 
análises futuras (GIANOTTI, 2011). 
Conforme Hair et al. (2005), a técnica permite identificar, pelo menos, três 
passos: 1) medir a similaridade entre os elementos para definir quantos grupos 
realmente existem na amostra; 2) o próprio processo de agrupamento; 3) estabelecer 
o perfil dos elementos para determinar sua composição. 
Podemos pensar o uso da análise de agrupamentos para investigar 
similaridades entre instituições de ensino superior em função de indicadores 
educacionais, mesmo atuando em setores diferentes — por exemplo, público e 
privado. 
8.4 Análise de discriminante múltipla 
Esta é uma técnica multivariada de dependência, utilizada quando uma única 
variável dependente é dicotômica — por exemplo, grupo X, grupo Y — ou 
multicotômica — por exemplo, RS, MG, RJ e SP, ou seja, não é métrica. Ela permite 
ao pesquisador compreender as diferenças entre os grupos e prever a qual deles 
deverá pertencer um novo elemento, caso ele surja. O pesquisador pode estar 
interessado em verificar se a instituição aderirá ou não à determinada modalidade de 
ensino, com base em informações anteriores, ou distinguir clientes bons pagadores 
de maus pagadores, ou, ainda, se uma tarefa será realizada no prazo ou atrasará, 
entre outros (GIANOTTI, 2011). 
8.5 Regressão múltipla 
Esta é uma das técnicas multivariadas mais utilizadas, aplicada nas situações 
em que temos uma variável dependente métrica com correlação a mais de uma 
variável independente, que poderá ser métrica ou não. A proposta é estabelecer um 
modelo matemático capaz de explicar ou prever o comportamento da variável 
dependente de acordo com alterações/variações nas variáveis independentes 
 
 
(GIANOTTI, 2011). 
Navidi (2012) reforça que a técnica de seleção de modelo mais usada é a 
regressão passo a passo, ou regressão stepwise. O exemplo dado pelo autor é 
baseado nos valores p da estatística t para as variáveis independentes. Primeiro, o 
pesquisador escolhe dois valores p limiares, αin e αout, com αin ≤ αout. A regressão 
passo a passo iniciará com um passo chamado seleção progressiva, em que a variável 
independente com o menor valor p será selecionada, desde que satisfaça pPause · LCR tem o menor valor p (0,000) entre as sete, 
sendo que ela foi a primeira variável no modelo. No passo 2, LCR2 tem o menor valor 
p (0,000) entre as variáveis restantes, então ela foi acrescentada em seguida. O valor 
p para Pause · LCR permaneceu em 0,000 após o acréscimo de Pause ao modelo. 
Como ela não aumentou seu valor acima de αout = 0,15, ela não é eliminada do 
modelo. Nos passos 3 e 4, as variáveis LCR e Pause são acrescentadas. Em nenhum 
ponto, o valor p de uma variável no modelo excede ao limiar αin = 0,15, de modo que 
nenhuma variável é eliminada. Após cinco passos, nenhuma das variáveis restantes 
tem valor p menor do que αin = 0,15, o que faz com que o algoritmo encerre. Então, o 
modelo final contém as variáveis Pause · LCR, LCR2, LCR e Pause. 
8.6 Análise multivariada de variância 
Esta técnica também é conhecida como MANOVA, pois é a generalização da 
análise de variância (ANOVA), aplicada nas situações em que desejamos testar 
diferenças entre médias para diversas variáveis dependentes simultaneamente. Em 
outras palavras, é utilizada na exploração simultânea das relações entre variáveis 
independentes não métricas e duas ou mais variáveis dependentes métricas. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
REFERÊNCIAS BIBLIOGRÁFICAS 
 
GIANOTTI, R. C. Estatística. São Leopoldo: Unisinos, 2011. 122 p. 
HAIR JUNIOR, J. F. et al. Fundamentos de métodos de pesquisa em 
administração. 5. ed. Porto Alegre: Bookman, 2005. 471 p. 
NAVIDI, W. Probabilidade e estatística para ciências exatas. Porto Alegre: AMGH; 
Bookman, 2012. 616 p