Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

UNIVERSIDADE FEDERAL DE SERGIPE
PRÓ-REITORIA DE PÓS-GRADUAÇÃO E PESQUISA
PROGRAMA DE MESTRADO ACADÊMICO EM ECONOMIA
Po
UNIVERSIDADE FEDERAL DE SERGIPE
PRÓ-REITORIA DE PÓS-GRADUAÇÃO E PESQUISA
PROGRAMA DE MESTRADO ACADÊMICO EM ECONOMIA
DISCIPLINA	:	ECONOMETRIA I (PPGE0005) – PERÍODO: 2020.1
PROFESSOR	:	JOSÉ RICARDO DE SANTANA / MARCO ANTONIO JORGE 
Alunos: Daniel Rubas, Laudenor Morais e Jadenice Santana
TAKE-HOME (AVALIAÇÃO)
1ª. QUESTÃO
Observe a seguinte saída de computador proveniente de uma análise de componentes principais, onde HPAF05 = % de homicídios por arma de fogo em 2005, SPAF05 = % de suicídios por arma de fogo em 2005, AA05 = armas de fogo apreendidas pela polícia em 2005 por mil habitantes, ADPop05 = armas de fogo devolvidas na Campanha do Desarmamento em 2005 por mil habitantes, Referendo = percentual da votação contrário ao desarmamento em 2003 e EstoqueA = estoque de armas no Brasil calculado pela ONG Viva Rio em 2003por cem mil habitantes.
	 Tabela 1: Extração de Componentes Principais e % da Variância Explicada
	Componente
	Autovalores Iniciais
	Soma Rotacionada dos Loadings
	
	Total
	% Variância
	% Acum.
	Total
	% Variância
	% Acum.
	1
	2,204
	36,727
	36,727
	2,073
	34,548
	34,548
	2
	1,714
	28,565
	65,292
	1,845
	30,744
	65,292
	3
	0,928
	15,467
	80,759
	
	
	
	4
	0,601
	10,015
	90,774
	
	
	
	5
	0,368
	6,138
	96,912
	
	
	
	6
	0,185
	3,088
	100,000
	 
	 
	 
Matriz Padrão de Fatores
	PROXY
	COMPONENTE
	
	1
	2
	HPAF05
	0,241
	0,669
	SPAF05
	0,512
	-0,693
	AA05
	0,711
	-0,071
	ADPop05
	0,807
	0,197
	Referendo
	0,038
	-0,930
	EstoqueA
	0,769
	-0,019
Responda:
a) Que procedimentos podem ser utilizados para se determinar o número de componentes a serem extraídos? Explique três maneiras.
b) Como se podem interpretar os dois componentes extraídos com base na matriz de fatores?
c) Qual a diferença básica entre uma rotação oblíqua e uma ortogonal? Quando se deve utilizar a rotação oblíqua? No caso da matriz mostrada acima qual foi a rotação utilizada? Por que?
d) Qual o percentual da variância de HPAF05 explicada pela referida matriz? Como você chegou neste valor?
e) Qual a principal diferença entre escores fatoriais e escalas múltiplas? Qual deles seria mais apropriado para utilizarmos posteriormente em uma regressão linear múltipla? Por que?
a) Critério da raiz latente, Critério de percentagem da variância e Critério do teste scree. Escolhe-se o número de fatores a reter, em função do número de valores próprios acima de 1; Os valores próprios, autovalores ou eigenvalues, são ordenados por dimensão; Eigenvalues mostram a variância explicada por cada fator, ou seja, o quanto cada fator explica da variância total; No método de extração de componentes principais, a soma dos valores próprios iguala o número de variáveis. Consiste em escolher, como número de fatores, um número mínimo necessário para que o percentual de variância explicada alcance o nível satisfatório desejado (definido pelo pesquisador). Utilizado para identificar o número ótimo de fatores que podem ser extraídos antes que a quantia da variância única comece a dominar a estrutura da variância comum.
b) Os dois componentes são fatores que não são correlacionados ou que tenham correlação muito pequenas uns com outros. Neste caso, os fatores são chamados de ortogonais.
c)	Na prática, o objetivo de todos os métodos de rotação ortogonal é simplificar as linhas e colunas da matriz fatorial para facilitar a interpretação. As rotações oblíquas são semelhantes às ortogonais, porém as oblíquas permitem fatores correlacionados em vez de manterem independência entre os fatores rotacionados.
	Métodos de rotação oblíqua são mais adequados ao objetivo de se obter diversos fatores ou construtos teoricamente relevantes, pois, realisticamente falando, poucos construtos no mundo são não-correlacionados.
d) Cerca de 37%.
e)	O principal ponto que diferencia um escore fatorial de uma escala múltipla é que o escore fatorial é computado com base nas cargas fatoriais de todas as variáveis no fator, enquanto a escala múltipla é calculada combinando-se apenas variáveis selecionadas. Seria mais apropriado utilizar o escore fatorial, pois ele é obtido através da técnica denominada Análise Fatorial, podendo ser utilizado como variáveis de interesse em modelos de regressão.
2ª. QUESTÃO
A tabela abaixo apresenta dados de uma survey com 60 adolescentes sobre trabalho infantil (realizado por menores de 16 anos no estado do Mato Grosso, onde: y = dummy que indica se adolescente trabalha (1) ou não (0); 1 = anos de estudo do jovem; 2 = dummy que indica se domicílio é urbano (0) ou rural (1); 3 = dummy de gênero (feminino = 1, masculino = 0); 4 = número de anos de estudo da mãe; 5 = número de anos de estudo do pai; 6 = renda semanal da família em R$.
	Obs
	Y
	1
	2
	3
	4
	5
	6
	1
	0
	7
	0
	0
	7
	8
	1600
	2
	1
	4
	0
	0
	2
	4
	565
	3
	0
	6
	0
	0
	3
	5
	519
	4
	1
	4
	0
	0
	2
	4
	565
	5
	1
	6
	0
	0
	11
	4
	1750
	6
	0
	7
	0
	0
	6
	11
	400
	7
	0
	4
	0
	0
	7
	3
	300
	8
	0
	7
	0
	0
	11
	8
	960
	9
	0
	4
	0
	0
	0
	3
	440
	10
	0
	4
	0
	0
	0
	0
	980
	11
	0
	1
	0
	0
	0
	0
	720
	12
	0
	8
	0
	0
	15
	4
	2900
	13
	0
	5
	0
	0
	14
	5
	956
	14
	1
	5
	0
	0
	11
	0
	380
	15
	0
	7
	0
	0
	1
	0
	660
	16
	0
	6
	0
	0
	5
	1
	780
	17
	0
	8
	0
	0
	11
	15
	720
	18
	0
	6
	0
	0
	6
	8
	760
	19
	0
	6
	0
	0
	4
	3
	540
	20
	1
	8
	0
	0
	8
	11
	2500
	21
	0
	5
	0
	0
	3
	4
	720
	22
	0
	4
	0
	0
	0
	0
	350
	23
	0
	4
	0
	0
	2
	4
	0
	24
	0
	8
	0
	0
	15
	15
	6000
	25
	1
	7
	0
	0
	11
	12
	2610
	26
	0
	6
	0
	0
	11
	4
	1750
	27
	0
	6
	0
	0
	4
	1
	850
	28
	0
	6
	0
	0
	0
	0
	600
	29
	1
	7
	0
	1
	5
	3
	360
	30
	0
	8
	0
	1
	12
	11
	3480
	31
	1
	7
	0
	0
	6
	6
	2500
	32
	0
	6
	0
	0
	0
	4
	970
	33
	1
	7
	0
	0
	11
	11
	4000
	34
	1
	8
	0
	1
	5
	3
	480
	35
	0
	3
	0
	0
	1
	5
	1100
	36
	0
	7
	0
	1
	15
	12
	1900
	37
	1
	6
	0
	1
	7
	1
	780
	38
	1
	7
	0
	1
	0
	0
	1510
	39
	0
	4
	0
	1
	5
	4
	220
	40
	0
	6
	0
	1
	12
	11
	720
	41
	1
	8
	0
	1
	6
	1
	1197
	42
	0
	4
	0
	1
	0
	4
	520
	43
	0
	4
	0
	0
	5
	0
	1295
	44
	0
	8
	0
	1
	7
	11
	1000
	45
	0
	5
	0
	0
	3
	0
	1000
	46
	0
	6
	0
	1
	4
	11
	5500
	47
	0
	2
	0
	1
	0
	0
	480
	48
	1
	6
	0
	1
	3
	2
	3050
	49
	0
	8
	0
	0
	11
	4
	0
	50
	0
	5
	0
	0
	6
	0
	750
	51
	0
	8
	0
	1
	10
	4
	300
	52
	0
	0
	0
	1
	11
	11
	3050
	53
	0
	8
	0
	0
	13
	11
	880
	54
	0
	7
	0
	1
	10
	11
	1400
	55
	1
	7
	0
	1
	11
	11
	1740
	56
	0
	4
	0
	0
	0
	3
	440
	57
	0
	6
	0
	0
	0
	0
	240
	58
	1
	6
	0
	1
	4
	4
	450
	59
	0
	8
	0
	1
	5
	8
	1600
	60
	1
	7
	0
	0
	5
	11
	225
Estime um modelo de regressão logística para prever a probabilidade de um adolescente trabalhar naquele estado e:
a) Apresente os resultados do modelo;
b) Verifique a significância de cada variável utilizando o Teste de Wald ao nível de 5% de erro;
c) Estime a razão de chance para cada variável e interprete os resultados. Quais são as variáveis que implicam em aumento da probabilidade de trabalho dos adolescentes?
d) Calcule os coeficientes de sensibilidade, especificidade e acurácia (% de sucesso) do modelo.
a)
b)
c)
d)
3ª. QUESTÃO
Observe abaixo os resultados de uma análise de dados em painel por mínimos quadrados agrupados, efeitos fixos e efeitos aleatórios. O modelo estima a preferência pela liquidez (PLP) em relação ao Índice de Desenvolvimento Humano (IDH), o IDH-E (educação) como proxy para o nível educacional, a população de 20 anos ou mais de idade por agência bancária e, como informação complementar, o IDH-R (renda), utilizando dados de 1991 e 2000 para os 27 estados brasileiros.
Tabela 3: Resultados das Estimações
	 
	POLS
	FE
	RE
	r2 within
	0,328
	0,7091
	0,6755
	 between
	-
	0,1184
	0,0419
	 overall
	-
	0,0317
	0,2192
	
	
	
	
	rho
	-
	0,8453
	0,7106
	
	
	
	
	Constante
	1,076*
	1,0066*
	1,2300*
	
	(0,01)
	(0,000)
	(0,000)
	IDH
	-3,043
	-0,6634**
	-1,1591*
	
	(0,181)
	(0,046)
	(0,000)
	IDH-E
	1,853
	-
	-
	
	(0,138)
	
	
	IDH-R
	0,213
	-
	-
	
	(0,849)POPAG
	0,01
	-0,0271*
	-0,0119*
	
	(0,242)
	(0,000)
	(0,004)
	F
	3,83
	31,72
	-
	
	(0,003)
	(0,000)
	
	cor (u_i, Xb)
	-
	-0,4440
	-0,9198
	
	
	
	
	2
	-
	-
	197,25
	
	
	
	(0,000)
	*significativo ao nível de 1%; ** significativo ao nível de 5%; *** significativo ao nível de 10%
Responda:
a) Os betas e os desvios-padrão da estimação por mínimos quadrados agrupados são confiáveis? Por que? (Mencione duas razões)
R- Modelos de efeitos agrupados e individuais permitem observar a heterogeneidade das observações. A base de dados utilizada fundamenta-se em dados de corte transversal processados ao longo do tempo, formando dados em Painel, este, considera a existência de efeitos não observáveis. Neste sentido, é necessária a repetição das mesmas unidades de corte transversal ao longo do tempo, pois analisar as mesmas unidades ao longo do tempo ocasiona benefícios como o controle das características não observáveis de indivíduos, possibilitando maior variabilidade e menor colinearidade entre as variáveis, isto é, as variáveis explicativas estarão menos correlacionadas. Os dados em sua composição são dominantes transversalmente e desbalanceados, em outras palavras, uma unidade de corte transversal não é observada em todos os períodos de tempo, neste caso, apresentam os chamados missing aleatórios, ou seja, os dados ausentes são independentes das variáveis observadas. Vale salientar, supondo que neste caso o intervalo temporal é menor que o número de observações ou casos individuais, torna o modelo mais hábil para determinar resultados, dado que os coeficientes são influenciados pelo tamanho da amostra. Amostras grandes tendem a produzir valores pequenos, ainda que o efeito observado não tenha grande importância prática.
Para uma modelagem por Pooled OLS ser considerada, deve-se assumir que as observações são independentes entre indivíduos e entre períodos diferentes do tempo, pois o modelo desconsidera dimensões de tempo e espaço, deste modo, a diversidade das observações não é explicita. Este estimador assume correlação entre as variáveis explicativas e o termo de erro, esta relação se não controlada pode causar viés nos estimadores, caso Cov(Xj,c)≠0, corroborando para que os resultados sejam ineficientes e inconsistentes. Este estimador pode ser considerado consistente se os regressores forem exógenos. 
Os desvios padrão, trata de um índice de dispersão da amostra em relação à média, neste sentido, quanto menor o desvio padrão, mais homogênea é a amostra, como pode ser observado.
b) Os resultados da estimação por primeiras diferenças seriam iguais aos da estimação por efeitos fixos? Comente.
R- Não, mediante o modelo de efeitos Fixos é possível controlar a heterogeneidade não observada, é cabível, pois o intercepto de cada indivíduo é invariante no tempo, embora admita diversidade entre as unidades Cross-Section, ou seja, o intercepto pode diferir entre os individuos. Nesta abordagem não é possível acrescentar qualquer variável constante no tempo á estimação, deste modo é possível eliminar a heterogeneidade não observada ao remover a média temporal da variável dependente sustentando a eficiência do modelo, já que, o modelo é mais eficiente se não há correlação serial. Com base nesse modelo, a heterogeneidade não observada é eliminada, por a mesma ser fixa no tempo. Já na estimação com base no modelo de primeiras diferenças, deve-se assumir que as observações são independentes entre indivíduos e entre períodos diferentes do tempo, pois o modelo desconsidera dimensões de tempo e espaço, deste modo, a diversidade das observações não é explicita. Em resumo, a estimação por efeitos fixos explora variação transversal, em outras palavras, o modelo considera observações sobre unidades distintas para um especifico período do tempo em contraste com o efeito Pooled OLS que desconsidera dimensões de tempo.
c) Que fatores (e como) afetam a preferência pela liquidez de acordo com o modelo de efeitos fixos? E segundo o modelo de efeitos aleatórios? Quais as principais diferenças entre os dois modelos?
R- Os fatores que afetam por efeitos fixos e aleatórios a PPL são o IDH e a POPAG estes se manifestaram significativo ao modelo e afetaram negativamente a preferência pela liquidez, pois apresentam sinais negativos em seus coeficientes, com isso, à medida que uma variável aumenta, a outra diminui.
As principais diferenças consistem em, no modelo de efeitos Fixos o intercepto de cada indivíduo é invariante no tempo, embora admita diversidade entre as unidades Cross-Section, ou seja, o intercepto pode diferir entre os indivíduos. Nesta abordagem não é possível acrescentar qualquer variável constante no tempo a estimação, deste modo é possível eliminar a heterogeneidade não observada ao remover a média temporal da variável dependente sustentando a eficiência do modelo, já que, o modelo é mais eficiente se não há correlação serial.
Caso não haja correlação entre os indivíduos não observáveis e o termo de erro, é possível empregar o modelo de efeitos Aleatórios que especifica os efeitos individuais de forma não definida, ele propõe diferentes interceptos para cada o observação, contudo, os interceptos devem se manter fixos ao longo do tempo, desenvolvendo-se por meio de alterações na variância do termo de erro. 
O modelo adequado depende da correlação entre os componentes do erro e as variáveis, sendo assim, caso exista correlação entre eles, o modelo de efeitos Fixos será mais apropriado, caso contrário, o modelo de efeitos aleatórios será mais satisfatório.
d) O teste de Hausman apresentou um resultado de 12,48 (p-valor = 0,034), rejeitando a hipótese nula. O que isso significa? Como conseqüência, qual dos dois modelos (efeito fixo ou aleatório) deve ser escolhido?
R- Rejeitando-se a hipótese nula, neste sentido a 𝐶𝑜𝑣 (𝑢𝑖𝑡,𝑎𝑖) = 0, atestando o modelo de efeito Fixos como o mais apropriado. Com isso, o teste de Hausman conclui que não existem diferenças sistemáticas entre os estimadores de efeitos Fixos e Aleatórios, uma vez que rejeitou -se a hipótese nula. Assim, a utilização de efeitos fixos seria a mais indicada, visto que este tende a produzir coeficientes mais eficientes assintoticamente.
4ª. QUESTÃO
Foi noticiado em dois jornais locais que a política atual de redução da criminalidade de seu estado era eficaz. Em um dos jornais, a comprovação dessa eficácia foi associada à informação de que a taxa de roubos de veículos havia caído 10% nos últimos dois anos. Já no outro jornal, a efetividade da política foi consubstanciada por meio da comparação da taxa de roubo de veículos no último ano do seu estado com a média da mesma taxa para os demais estados do país. Como conhecedor da área de avaliação de impacto, ao ler os jornais, você considera ambas as matérias ingênuas e decide tentar estimar o verdadeiro impacto do programa (talvez porque você ou alguém próximo teve seu carro roubado recentemente!). Responda aos itens a seguir.
a) Por que você acha a matéria do primeiro jornal ingênua? E a segunda?
b) Você decide estimar o efeito da política usando o método das diferenças em diferenças. Quais os dados que você deve buscar?
c) O que você deveria testar com dados anteriores ao início da política para averiguar se o grupo de controle parece adequado aos seus propósitos?
d) A aplicação correta do estimador de diferenças em diferenças estima qual tipo de efeito de tratamento? Se os indivíduos dos estados de abrangência da política são afetados de forma diferente por ela o efeito sobre os tratados será igual ao dos não tratados? Discuta.
e) O gráfico abaixo mostra as trajetórias do salário médio dos grupos de tratamento e controle de uma avaliação de impacto de curso de treinamento que ocorreu no momento zero no gráfico. É possível que o método das diferenças em diferenças estime de forma enviesada o impacto do programa? Por que?
a)	Porque o jornal faz uma análise equivocada da situação. Ele toma como certa que a diminuição da taxa de roubos de veículos foi devido à política atual e, vai além aogeneralizar a redução em uma taxa a uma redução da criminalidade. Quando a redução dos roubos de veículos pode ter acontecido por outros n fatores, que só saberíamos se tivéssemos uma metodologia montada especificamente para essa área.
Já o segundo jornal, se utiliza de uma comparação descabida, visto que cada estado tem suas características, ao igualar todos perde a capacidade de verificação.
b) 	Para analisarmos um experimento natural sempre temos que ter: (1) um grupo de controle que não foi afetado pela mudança; e (2) um grupo de tratamento que foi afetado pelo evento. Estes grupos têm características semelhantes, com exceção do recebimento da política. Para estudarmos as diferenças entre os dois grupos precisamos de dados de antes e depois do evento para os dois grupos. 
c)	 A principal hipótese do método de Diferenças em Diferenças é que a trajetória temporal da variável de resultado para o grupo de controle represente o que ocorreria com o grupo tratado caso não houvesse a intervenção. Naturalmente, essa hipótese não pode ser testada diretamente nos dados, mas uma indicação de sua validade aparece quando as trajetórias dos dois grupos são parecidas com pré-programa. A ideia básica é que, se as trajetórias se assemelham durante o período antes do programa, então parece razoável supor que a evolução do grupo de controle após o programa represente com fidedignidade o que ocorreria com o grupo de tratados na situação de não tratamento. Assim, quando existem dados para vários períodos de tempo pré-programa, tipicamente testa-se se as séries da variável de resultado, para os dois grupos, possuem a mesma tendência temporal. De fato, caso a hipótese de mesma tendência não seja rejeitada, o teste confere maior credibilidade ao grupo de controle como contrafactual adequado para o grupo tratado.
d)	 Estima-se que o efeito de tratamento é homogêneo. Se os indivíduos são afetados de maneira diferente, seria um efeito de tratamento heterogêneo. Ou seja, uma mudança idiossincrática com o grupo de controle após a intervenção, a trajetória da variável de resultado desse grupo pode se alterar de forma a que ela deixe de representar adequadamente o contrafactual do grupo tratado. Uma mudança idiossincrática (independente do programa) também pode ocorrer com o grupo de tratados. Em ambos os casos, o método de DD captará os efeitos dessas mudanças, os quais serão erroneamente atribuídos aos efeitos do programa.
e)	Sim. Primeiro, quando usamos o método diferença em diferenças, devemos supor que, na ausência do programa, o resultado do grupo de tratamento teria evoluído em paralelo com o resultado do grupo de comparação. Essa é uma hipótese do método. Porém, o gráfico da questão ilustra uma violação dessa premissa fundamental. Se as tendências dos resultados forem diferentes para os grupos de tratamento e de comparação, o efeito estimado do tratamento obtido pelo método diferença em diferenças seria inválido ou enviesado. Isso ocorre porque a tendência para o grupo de comparação não é uma estimativa válida para a tendência contrafactual que teria prevalecido para o grupo de tratamento na ausência do programa. Conforme mostra o gráfico, se, na realidade, os resultados para o grupo de comparação crescerem mais rapidamente do que os resultados para o grupo de tratamento na ausência do programa, utilizar a tendência para o grupo de comparação como estimativa do contrafactual da tendência para o grupo de tratamento gera uma estimativa enviesada do impacto do programa.
	Entretanto, apesar de não podermos provar, a validade da hipótese da igualdade de tendências pode ser testada. Uma primeira verificação de validade consiste em comparar as alterações nos resultados dos grupos de tratamento e de comparação antes da implementação do programa. Na questão, isso significa que compararíamos a variação do salário entre os grupos de tratamento e de comparação antes do início do programa, ou seja, entre o mês -2 e o mês -1 e entre o mês -1 e o mês 0. Caso os resultados tenham evoluído em conjunto antes do início do programa, ganharemos confiança para afirmar que os resultados teriam continuado a avançar em conjunto após a intervenção. Para verificar a igualdade das tendências pré-intervenção, precisamos de, pelo menos, duas observações consecutivas sobre o grupo de tratamento e o grupo de comparação antes do início do programa.
	Ao analisarmos para verificar se alguma diferença nas tendências aparece entre os dois grupos, é visível que sim. Portanto, a estimativa de impacto do programa está enviesada. 
	Outro ponto importante, é que já se detectou que muitos trabalhadores que fazem cursos de treinamento experimentaram choques negativos e temporários de renda um pouco antes do começo do programa (Ashenfelter, 1978, e Heckman e Smith, 1999). Além de poder ter influenciado os indivíduos a fazerem o curso, essa queda temporária nos rendimentos poderá fazer com que o grupo tratado experimente um crescimento maior nos seus rendimentos mesmo se ele não tivesse participado do programa. Se essa mudança temporária não ocorrer com o grupo de controle, o procedimento de DD tenderá a sobre-estimar o verdadeiro impacto do programa.
5ª. QUESTÃO
Hirano e Imbens (2001) usam os métodos baseados no escore de propensão para estimar o efeito médio de um procedimento cardíaco, o cateterismo, sobre a probabilidade de sobrevivência dos indivíduos. Eles usam observações para 5.735 indivíduos, sendo 2.184 tratados e 3.551 não tratados. Para cada indivíduo, eles observam se um procedimento de cateterismo foi aplicado no período de 24 horas após a entrada no hospital com problemas cardíacos. Os indivíduos no grupo de tratamento são aqueles que sofreram a intervenção de um cateterismo, enquanto os indivíduos no grupo de controle são aqueles que não sofreram a intervenção. Alem disso, eles observam um vetor com 72 características para cada um dos indivíduos, por exemplo, sexo, raça, educação, renda, se possui plano de saúde, tipo de doença que possui, peso, etc. Eles estimam o escore de propensão baseado em um modelo logístico.
a) Antes de estimar o efeito médio do tratamento sobre os tratados, eles apresentam uma tabela que contém um teste de diferença de médias para as características observáveis. Eles obtem resultados para esse teste antes e depois da ponderação pelo escore de propensão. Esta tabela encontra-se abaixo, onde renda 1, renda 2 e renda 3 representam 3 faixas de renda - baixa, média e alta, respectivamente. Interprete estes resultados:
Tabela 4: Testes de Diferença de Médias para Tratados e Controles
R- Qualquer que seja o método utilizado, a estimação do escore de propensão usualmente é feita por um modelo de regressão logística, considerando o tratamento (grupo) como variável dependente e as demais características como variáveis independentes. Com esse modelo, é possível estimar a probabilidade de cada paciente ser alocado em um ou em outro grupo. A partir dessas estimativas, cada indivíduo recebe um peso correspondente ao inverso da probabilidade de pertencer ao grupo ao qual ele foi alocado.
 Um modelo logístico é uma forma especializada de regressão que é formulada para prever e explicar uma variável categórica binária (dois grupos). A forma da variável estatística de regressão logística é semelhante à da variável estatística da regressão múltipla. A variável estatística representa uma relação multivariada com coeficientes como os da regressão indicando o impacto relativo de cada variável preditora. Os coeficientes são estimados a partir do conjunto de dados, pelo método da máxima verossimilhança, em que encontra uma combinação de coeficientes que maximiza a probabilidade da amostra ter sido observada. Considerando uma certa combinação entre as variáveis.
 Posto isto, em estudos comparativos, quando a alocação dos pacientes nos grupos de tratamento é feita de forma aleatória, espera-se que os grupos sejam semelhantes em relação a todas as características iniciais e demais fatores que possam influenciar a respostade interesse, com isso é possível eliminar vieses, para que a diferença entre os grupos, no que diz respeito ao desfecho, seja atribuída exclusivamente ao tratamento investigado, e não a fatores externos ou a outras variáveis observadas. Para levar em conta as diferenças entre os grupos, a forma convencional é ajustar modelos estatísticos que permitam a inclusão de covariáveis. Exemplos frequentes desse tipo de abordagem são os modelos de regressão múltipla, conhecidos, na pesquisa médica, como “análise multivariada”. Entretanto, uma alternativa para reduzir o viés e controlar as diferenças entre grupos é analisar a participação dos indivíduos de acordo com a “propensão” de receber ou não o tratamento. O escore de propensão é definido pela probabilidade de receber um tratamento específico, condicionada às covariáveis observadas. 
 Neste sentido, vale ressaltar que um coeficiente positivo aumenta a probabilidade e um coeficiente negativo diminui a probabilidade. Sendo assim, é possível inferir que as variáveis idade, sexo e cor (preto) apresentam relação negativa, dessa forma, ao analisar estes fatores é percebido que tais características reduzem a probabilidade de sobrevivência dos indivíduos. No entanto, as demais variáveis preditas aumentam a probabilidade. Uma probabilidade permite que determinemos em que medida nosso valor-t é comum ou raro sob a suposição de que a hipótese nula é verdadeira. Se a probabilidade for baixa o suficiente, podemos concluir que o efeito observado em nossa amostra é inconsistente com a hipótese nula, em outras palavras, a evidência nos dados amostrais é forte o suficiente para rejeitar a hipótese nula para toda a população. Os cálculos por trás dos valores-t comparam sua(s) média(s) amostrais com a hipótese nula e incorporam o tamanho amostral e a variabilidade nos dados. Um valor-t de 0 indica que os resultados da amostra são exatamente iguais à hipótese nula. Neste caso, a hipótese nula consiste em que há igualdade entre as distribuições dos escores de pareamento dos grupos de controle e tratamento após pareamento. Quando analisamos os resultados após a ponderação, ao observarmos as características idade, sexo e renda 1 (baixa), percebemos uma relação negativa, o que significa que a probabilidade de sobrevivência dos indivíduos é baixa quanto a esses fatores e alta em relação aos demais. Assumindo que as distribuições t assumem que a hipótese nula é verdadeira. À medida que você se afasta do zero em qualquer direção, os valores-t se tornam menos prováveis. Um tratamento médico em potencial não tem nenhum efeito caso a hipótese seja verdadeira. Saliente-se que não rejeitar a hipótese nula significa apenas que não se conseguiu, através dos dados disponíveis, demonstrar a sua falsidade, o que difere completamente de provar a sua veracidade. Conforme aumenta a diferença entre os dados amostrais e a hipótese nula, o valor absoluto do valor-t aumenta (antes da ponderação) e conforme diminui a diferença entre os dados amostrais e a hipótese nula, o valor absoluto do valor-t diminui (após a ponderação). A comparação dos escores de propensão estimados para tratados e não tratados serve como uma ferramenta de diagnóstico bastante útil para avaliar a semelhança entre os mesmos e, portanto, a confiabilidade da estratégia de estimação.
b) Antes de estimar os efeitos, eles também mostram os histogramas do escore de propensão para o grupo de tratados e para o grupo de não tratados. Interprete estes gráficos:
R- Afim de simplificar a percepção da localização do valor central e da dispersão dos dados, os Histogramas demonstram que a maioria dos dados no grupo de não tratados concentram-se em valores menores mais próximo de zero e os indivíduos tratados referem- se a valores maiores, mais próximos de 1. As distribuições tornam-se menos dispersas em relação as suas respectivas medias e com assimetria menos acentuada em direção a valores mais elevados (assimetrias menos negativas). A comparação dos escores de propensão estimados para tratados e não tratados serve como uma ferramenta de diagnóstico bastante útil para avaliar a semelhança entre os mesmos e, portanto, a confiabilidade da estratégia de estimação, neste sentido, as diferenças entre as distribuições dos escores de propensão estimados, separados por grupo (0=controle, 1=intervenção), podemos observar que a maioria das estimativas dos escores de propensão dos indivíduos do grupo de intervenção está concentrada acima de 0,6, enquanto que para os indivíduos do grupo de controle estão abaixo de 0,4. 
c) Eles usam diferentes métodos para estimar o efeito médio do tratamento sobre a taxa de sobrevivência. Usando um estimador de pareamento simples baseado nos vizinhos mais próximos, eles encontram um efeito de - 0,081 (erro-padrão de 0,017). Ao combinar o método de pareamento com regressão simples, o efeito é de - 0,063 (erro-padrão de 0,016). Estimando o efeito médio do tratamento por regressão linear, eles encontram um efeito médio de -0,065 (erro-padrão de 0,014), enquanto usando o método de reponderação, eles encontram efeito médio de -0,060 (erro-padrão de 0,018). Combinando os métodos de regressão e reponderação, eles encontram efeito médio de - 0,062 (erro-padrão de 0,015). Interprete essas evidências, dando ênfase às hipóteses em que se baseia cada estimador. Qual seria a conclusão sobre o efeito desse procedimento na taxa de sobrevivência?
R- Usando um método de pareamento simples baseado nos vizinhos mais próximos, esse método consiste em ordenar os sujeitos de cada grupo (intervenção e controle) pelo valor do escore de propensão, identificando o primeiro indivíduo do grupo de intervenção e então encontrar o sujeito de controle com o escore de propensão mais próximo. Ambos os sujeitos são removidos e o processo é repetido consecutivamente até formar todos os pares.
Ao combinar o método de pareamento com regressão simples, para cada indivíduo no grupo de tratamento, o estimador de pareamento busca os indivíduos no grupo de controle mais próximos (em termos do seu vetor de variáveis observáveis) e usa os resultados desses indivíduos para obter o que seria o resultado do indivíduo no grupo de tratamento, caso ele não fosse tratado.
O modelo de regressão linear também pode ser visto como um estimador de pareamento em que consideramos que o programa tem o mesmo efeito em todos os indivíduos. Os coeficientes estimados nessa regressão simples para o grupo de controle são então usados para prever qual teria sido o resultado de cada indivíduo do grupo de tratados e não tratados. 
No método de ponderação o escore de propensão também pode ser usado como um peso que, ao balancear os indivíduos no grupo de controle, torna este grupo semelhante na média ao grupo de indivíduos tratados. Nesse caso, ponderamos cada unidade no grupo de controle pela probabilidade de não receber tratamento. Quando maior for a probabilidade do indivíduo no grupo de controle de não receber o tratamento, menor será o seu peso ao balancearmos o grupo de controle.
Quando o método em questão é de regressão e reponderação, esse estimador para o efeito médio do tratamento tem a propriedade de ser duplamente robusto, isto é, se o modelo paramétrico para o escore de propensão for corretamente especificado ou se o modelo paramétrico para a regressão linear for corretamente especificado, o estimador é consistente para o efeito médio do tratamento sobre os tratados. Um modelo paramétrico, possui apenas um número finito de parâmetros, que pode ser explicado, através da densidade condicional que nos permite determinar probabilidades condicionais, eventualmente relacionados com uma variável aleatória quando é dado o valor de uma outra variável aleatória. Esta combinação de métodos também pode ser usada para estimar o efeito médio do tratamento sobre os tratados. 
A partir das hipóteses dos modelos, pode-se mensurar o efeito do procedimento sobre a taxa de sobrevivência dos indivíduos, sendo assim, os modelos estimados buscam parear os grupos analisadoscom o intuito de encontrar os resultados para aqueles que foram ou não tratados. De acordo com os dados fornecidos para os modelos é possível perceber uma relação negativa entre as variáveis, neste sentido apresentam uma baixa probabilidade de sobrevivência dos indivíduos tratados e não tratados. E conforme os erros-padrão podemos medir a precisão das previsões, com isso valores menores são melhores porque indicam que as observações estão menos dispersas. Vale ressaltar que O erro padrão da estimativa diminui com o aumento do tamanho da amostra, refletindo o aumento de precisão da estimativa com o tamanho da amostra. Em suma, o erro- padrão presenta a média na amostra avaliada que é uma estimativa da média na população cuja precisão depende da dispersão da população e do tamanho da amostra.
d) Explique uma vantagem que o método de controle sintético possui o pareamento quando há apenas uma unidade tratada.
R- O método do controle sintético, é um meio para inferir o impacto de um evento sobre determinada trajetória, com isso, o controle sintético tenta expressar a trajetória da unidade tratada antes do evento como uma média ponderada das trajetórias dos elementos selecionados da amostra. A obtenção do controle sintético envolve a minimização de uma medida de distância entre os valores das variáveis do tratamento. Através de uma unidade de controle sintético como um possível contrafactual para a unidade de tratamento, busca-se balancear a influência de variáveis de confusão, sua obtenção será dada através da ponderação das unidades não tratadas disponíveis, com o intuito de construir para cada unidade tratada, uma unidade sintética, que equivale a média ponderada das unidades não tratadas, sendo assim, demonstrar a evolução das unidades tratadas frente as unidades não tratadas. Além do maior controle para influências de variáveis não observáveis, a estratégia de utilização do controle sintético apresenta outras vantagens em relação a outros métodos não experimentais. Entre estas, é possível destacar a própria possibilidade de avaliação quando só existe uma unidade tratada e, ainda assim, a possibilidade de realizar inferências. Além disto, como o método só utiliza informações sobre o período pré-intervenção, a escolha do controle não guarda qualquer relação direta com os resultados. Por fim, há evidente transparência na escolha do controle, uma vez que o próprio expediente envolve a consideração das similaridades a partir de variáveis do período pré-intervenção.
7
image4.png
image5.png
image6.png
image7.png
image1.png
image2.png
image3.png
image8.png

Mais conteúdos dessa disciplina