Aula 2 - Stata - Estatística descritiva

•

UNP

Edson Rodrigues

26/09/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 82 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 82 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 82 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

A blue and white sign
Description generated with high confidenceA close up of text on a white background
Description generated with high confidence
Estatística para Administração
2020.1
Prof. Marcelo Bila
Aula 2 – 11/05
Revisão de estatística no Stata
	Tutorial de O. Torres:
	http://www.princeton.edu/~otorres/Stata/
	
	Resumo de comandos (Stata Cheat Sheets)
	https://geocenter.github.io/StataTraining/portfolio/01_resource/
	
	Tutorial de Princeton
	http://data.princeton.edu/stata/
	
	Exemplos de vários livros resolvidos em stata (inclusive Wooldridge)
	http://www.ats.ucla.edu/stat/stata/examples/
	
	Recursos para aprender stata
	http://www.ats.ucla.edu/stat/stata/
	
	Stata no Youtube
	http://www.youtube.com/user/StataCorp/?utm_source=MailingList&utm_medium=email&utm_content=20121010+Training+YouTube
	
Boas referências
	Tratamento e exploração dos dados:
		Introdução
		Parte 1: Primeiros passos
		Parte 2: Explorando os dados
		Parte 3: Criando e alterando variáveis
		Parte 4: Juntando bases de dados
		Parte 5: Fazendo gráficos
		Parte 6: Importando dados
		Parte 7: Rodando regressões
		Parte 8: Salvando resultados em tabelas
Nesta Aula:
	É um pacote estatístico que permite tratamento, exploração e análise de bases de dados.
	
	Uma base de dados é um conjunto de informações sobre uma amostra ou população. Cada característica da população é chamada variável, geralmente arrumadas em forma de coluna.
	
	Outros pacotes estatísticos: R, SAS.
	
	As vantagens de stata são:
		Facilidade para tratamento de bases de dados
		Comandos simples
		Muitas metodologias já implementadas
	
	
	
	
O que é stata?
Tela de abertura do stata
Janela de revisão:
Lista dos últimos comandos usados
Janela das variáveis:
Lista das variáveis na base de dados
Janela dos resultados:
Mostra os resultados dos comandos que você digitou
Janela dos comandos:
Use esta janela para escrever os comandos que você quiser que o stata execute!
Tela de abertura do stata
Abre um novo do-file
Mostra ou Edita os dados!
Tela de abertura do stata
Primeiros passos
	Parte 1:
	Sempre é recomendado olhar o help do stata para cada comando que for ser usado. Simplesmente digite: help comando 
		help gen
		help sum
	
	Se o help não contiver nada sobre o comando, pode ser que ele exista mas não esteja instalado no seu computador! Nesse caso é bom fazer uma busca avançada: search comando, all
		search ourteg, all
	
	
	Alguns comandos foram desenvolvidos por pesquisadores independentes. Para instalar estes comandos: (veremos exemplos mais na frente!)
		ssc install comando
	
	Existe muito material disponível na internet sobre stata. Procurem stata tutorial no google para ver a quantidade de opções!
	
Buscando ajuda - help
	Para ver o diretório que está sendo usado:
	 pwd
	
		
	
	
	Para mudar o diretório de uma vez para evitar ter que digitar a cada vez que for abrir ou salvar base de dados:
	 cd "C:\Users\Stata\Dados"
		
	
	
	Obs: Usar aspas ("") sempre que o diretório contiver espaços em branco!
	
	
Mudando o diretório dos dados - cd
	Para abrir uma base de dados no formato do stata, existem 2 opções:
		Usando o mouse:
		
		
		
		
		
		
		
		
		Linha de comando:
		Mudar o diretório: cd "C:\Users\Dados"
		Abrir os dados: use "Alunos", clear
		
		
Abrindo dados do stata - use
Respeitar as letras maiúsculas!!
Substituir pelo pasta onde os dados estão salvos no seu computador!!
	Do files: arquivos que contém os comandos do stata.
	Vantagens de usar do files:
		os comandos executados ficam gravados, assim não é preciso refazer o trabalho.
		O editor do stata usa cores diferentes para destacar comandos. Mais fácil encontrar erros nos comandos.
		Os comandos são rodados diretamente usando: ctrl+d
	Para abrir a janela do editor de do file ou Ctrl+9
Criando um do file
	Exemplo de arquivo do file
Criando um do file
Comentários ficam em verde
Comandos em azul
Textos como nome do diretório ficam em vermelho.
Opções de editores convencionais:
Salvar, abrir, imprimir, procurar e sustituir....
Para executar os comandos:
Selecione a linha e clique em
Ctrl+d
	Depois de abrir a base de dados Alunos.dta:
"Vendo" os dados
Podemos ver as variáveis na janela de variáveis!
Diretório de trabalho.
	Para ver os dados:
		Na linha de comando:
			browse (abre a base de dados inteira)
			browse var1 var5 (mostra apenas as variáveis desejadas)
		
		Usando os ícones 
		
"Vendo" os dados - browse
Ícones para:
abrir (lupa) ou editar (lápis) os dados
	Ao executar o comando browse, uma planilha com os dados é aberta:
"Vendo" os dados - browse
Variáveis:
Numéricas – em preto
Texto – em vermelho
	Stata tem um código de cores para as variáveis:
"Vendo" os dados
var3 aparece em preto: é numérica, então pode fazer qualquer operação com ela.
var2 aparece em vermelho: é string, apesar de vermos números.
var1 aparece em azul: é um "label", legenda. 
Para o label "Fairly well", o valor de var1 é 2.
var4 aparece em vermelho: é uma variável string, ou seja, um texto.
	Se a base de dados é nova:
		save "meus dados"
		ou
		save "C:\Diretorio\meus dados"
	
	Se os dados já existirem:
		save "meus dados", replace
		ou
		save "C:\Diretorio\meus dados", replace
	
	Para salvar em versão antiga do stata:
		saveold "meus dados" 
		saveold "meus dados", replace
	
	
 Salvando os dados - save
Explorando os dados
	Parte 2:
	Para ter uma descrição geral dos dados, use o comando: describe ou F2
	
	
	
	
	
	
	
	Obs: digite help describe para mais informações...
Descrição dos dados - des
Lista:
variáveis (formato e legenda) e o número de observações
	Digite summarize para obter estatísticas descritivas básicas:
	
	
	
	
	
	
	
	Obs: digite help sum para mais informações...
	
Estatísticas Descritivas - sum
Os zeros indicam variáveis string.
sum lista:
nº de obs
A média
O desvio-padrão
O máximo
O mínimo
para variáveis numéricas!
	O comando sum também pode ser aplicado a variáveis:
	
	
	
	
	Com a opção detail, temos resumo detalhado das variáveis:
	
	
	
	
	
	
	
	 
	
Estatísticas Descritivas - sum
	A frequência absoluta conta o número de vezes que um valor se repete. 
	Para cada variável, digitar tab var.
	
Frequências - tab
variável
variável
Freq: conta o nº de vezes que um valor se repete. 
Percent: frequência relativa. Ex: 33% dos alunos estudam Economia.
Cum: frequência acumulada em ordem crescente. Ex: 66.67% dos alunos cursam Economia ou Matemática. 
Freq: aqui 6 estudantes leem jornal 3 dias por semana, 9 leem 5 dias por semana.
Percent: Os que leem 3 dias por semana representam 20% da amostra. 30% dos alunos leem 5 dias por semana. 
Cum: 66.67% dos alunos leem de 3 a 5 dias por semana. 
	Para incluir a frequência das observações missing, usar a opção missing
	
		tab curso, mi
Frequências - tab
54 observações estão vazias, i.e., são missing
	O comando table produz frequências e estatísticas descritivas por categoria. 
	Exemplos:
		table sexo, contents(freq mean idade mean nota)
	
	
	
	
		Existem 15 homens e 15 mulheres na amostra. A idade média das 	mulheres é 23.2 anos e dos homens 27.2 anos.
	
		table curso, contents(freq mean idade mean sat mean nota mean jornal)
	
	
	
	
	
	
	
Frequências e Estat. Desc - table
	Para variáveis numéricas contínuas podemos calcular uma série de estatísticas descritivas.
	
	As estatísticas descritivas podem ser:
		De tendência central: média, mediana e moda.
		De variação: variância, desvio-padrão, amplitude, mínimo e máximo, amplitude interquartil...
		
	Todas estas medidas podem ser obtidas usando o comando tabstat. 
	
Estatísticas descritivas - tabstat
	Comando tabstat:tabstat idade sat nota alturacm jornal, s(mean median sd var count range min max)
	
	
	
	
	
	
	
	
Estatísticas Descritivas - tabstat
Lista de estatísticas descritivas
Lista de variáveis
	Comando tabstat:
	tabstat age sat score heightin readnews, s(mean median sd var count range min max)
	
	Mean: média – soma das observações dividido pelo número total de observações.
	P50: mediana – o número do meio nos dados ordenados em ordem crescente.
	Sd: desvio-padrão – raiz da variância. Indica o quanto os dados estão próximos da média. Para uma distribuição normal, 68% dosvalores estão dentro de 1 desvio-padrão da média. 
	Variance: variância - mede a dispersão dos dados. Média dos quadrados dos desvios dos dados em relação à média.
	N: número de observações por variável. 
	Range: amplitude = maior valor – menor valor dos dados. Mede a dispersão.
	Min e Max: menor e maior valor dos dados. 
	Iqr: amplitude interquartil = 3º quartil – 1º quartil. Mede a amplitude, quando descartamos o valores 25% mais altos e 25% mais baixos. 
Estatísticas Descritivas - tabstat
	Estatísticas por categorias de variável:
	 tabstat idade sat, s(mean sd count min max) by(sexo)
	
Estatísticas Descritivas - tabstat
by(sexo) indica que queremos as estatísticas para cada categoria da variável sexo.
	Uma tabela cruzada permite a análise da relação entre duas variáveis categóricas. 
	Para fazer a tabela cruzada da variável var1 pela variável var2, use o comando tab var1 var2.
	
		tab sexo curso
		
		
		
		
		
	
Tabelas cruzadas - tab
7 pessoas são homens e cursam Economia.
15 pessoas são mulheres.
	O comando tab também fornece estatísticas por cruzamento das categorias de duas variáveis.
	 tab sexo curso, sum(nota)
Tabelas cruzadas e Estatísticas
Estatísticas:
1ª linha: média de nota
2ª linha: desvio-padrão de nota
3ª linha: frequência absoluta na categoria cruzada. 
A nota média de homens cursando Economia é 78.67, e o desvio-padrão 9.96. 
Existem 7 homens cursando Economia. 
Criando e alterando variáveis
	Parte 3:
	As vezes queremos trocar o nome de uma variável. Use o comando rename.
		rename jornal freq_jornal
		rename (alturapol alturacm) (altpol altcm) 
	
	Podemos adicionar uma legenda a uma variável: label var var1 "texto"
	 label var status "indica se o aluno pertence a graduação ou pós-graduação"
		
		
		
Alterando variáveis - rename
O label aparece na janela das variáveis!
	Para criar uma variável nova use o comando generate (ou simplismente gen):
	 gen [nova var] = [expressão]
		
	Exemplos:
	gen nota2 = nota/100
	
	
	Podemos criar variáveis constantes:
	gen x = 5
	gen y = 4*15
	gen z = y/x
	
	
	Também podemos usar para string
	gen nomecompleto = nome + " " + sobrenome
	browse id nomecompleto nome sobrenome
Criando uma variável nova - gen
	O comando if e outros comandos usam com os seguintes operadores lógicos
Operadores lógicos
		==
		Igual (comparação)
		>
		Maior que
		<
		Menor que
		>=
		Maior ou igual que
		<=
		Menor ou igual que
		!=
		Diferente
		&
		E
		|
		Ou 
	Para criar uma variável que depende da condição de outra variável, usar: 
	 gen [nova var] = [condição]
	
	gen idade1 = 20 if idade<=20 
	gen grad_eco = “Graduação Economia” if curso==“Economia” & status==“Graduação” 
	
	O problema com essas variáveis é que elas tem muito valores missing:
	
Condicional – gen ... if
	Para mudar valores de variáveis use o comando replace. 
	 replace freq_jornal = . if freq_jornal>5
	
	
	
	
	
	
	
	
	replace sexo= "F" if sexo=="Mulher"
	
Mudando variáveis - replace
Antes:
Depois:
6 e 7 viraram "."
Antes:
Depois:
	Voltando a variável idade1, podemos agora alterá-las para substituir os valores vazios que tinham sido criados:
	
	gen idade1 = 20 if idade<=20 
	replace idade1 = idade if idade>20
	
	
Condicional – gen e replace
	Para criar uma variável que depende da condição de outra variável, usar: 
	 gen [nova var] = [condição]
	
	Variável dummy para nota alta (acima de 80):
	 gen dnota_alta = (nota>80)
	
	
	
	Variável dummy para mulher:
	 gen dmulher = (sexo=="Mulher")
	
	
	Variável dummy para homem com nota alta:
	 gen dhomem_notaalta = (sexo=="Homem" & nota >80)
Criando variáveis dummy - gen
	Para criar dummies para todas as categorias de uma variável qualitativa, use o comando tab com a opção gen:
	 
	 tab curso, gen(Dcurso)
	
Criando variáveis dummy – tab ..., gen
	Os comando inlist e inrange podem facilitar o uso da condição if, por exigir menos digitação. 
	
	Por exemplo, se quisermos criar uma dummy para países da américa, podemos usar inlist
	gen america = inlist(pais, “US”, “Canada”, “Venezuela”, “Argentina”, “Mexico”)
	
	
	
	
	
	
	
	
	
Condicionais – if inlist
	Os comando inlist e inrange podem facilitar o uso da condição if, por exigir menos digitação. 
	
	Já o comando inrange funciona para variáveis numéricas. Para criar uma dummy para alunos com notas medias
	gen medio = inrange(nota, 50, 80)
Condicionais – if inrange
	As condicionais são na verdade usadas em muitos comandos, não apenas na criação de dummies. 
	
	Exemplo, podemos usar condições para rodar regressão, com o comando sum, etc...
	
	
Condicionais
	O comando egen tem várias funções mais avançadas para a criação de variáveis. Um exemplo muito útil é a função cut que serve para criar variáveis categoricas partindo de uma variável contínua. 
	
	egen idadecat = cut(idade), at(10,20,30,40) label
Criando variáveis – egen ... cut
Mais info sobre comando cut: http://www.ats.ucla.edu/stat/stata/faq/cut.htm
	Para ordenar os dados use o comando sort.
	Ordenar os dados por país (ordem alfabética): 
	 sort pais
	
	
	
	Ordenar os dados por curso e por nota:
	 sort curso nota
	
	
	
	
	
	
	
	Para voltar a ordem inicial: sort id
Ordenando os dados - sort
	Para criar um indicador para os dados na ordem que estão na memória: gen [var] = _n
	 gen idnovo = _n
	
	
	
	 by curso, sort: gen idcurso = _n
	
	
	
	
	Use _N para obter o nº total de observações em uma categoria.
	 by curso, sort: gen ncurso = _N
	
	
Indexando dados - _n e _N
	Use _N como indexador para outra variável:
	 sort curso nota
	 by curso, sort: gen maxnota = nota[_N]
	
	
	
	
	
	
	
	
	
	Também é possível usar outros indicadores:
	 sort curso nota
	 by curso, sort: gen minnota = nota[1]
	
	
	
Indexando dados - _n e _N
	O comando drop var1 var2 , joga fora as variáveis var1 e var2
	
	 					
	
	
	
	
	 			 drop x y z 
Deletando variáveis - drop
Antes:
Depois:
	O comando keep var1 var2 var3, mantém apenas as variáveis var1, var2 e vr3 na memória. 
	 					
	
	
	
	
	 			 keep id - alturacm 
Deletando variáveis - keep
Antes:
Depois:
O hífen ("-") indica todas as variáveis entre id e alturacm. 
Outro operador interessante: drop altura*
	Os comandos drop e keep também pode ser usados para deletar observações combinando com if. 
	Exemplos:
		Para apagar se a var1=1: drop if var1 ==1
		Para apagar os homens:
			 drop if sexo == "Homem" ou keep if sexo == "Mulher"
		Para manter apenas US:
			keep if pais=="US"
		Para manter apenas as maiores notas:
			keep if nota>=80 
Deletando observações 
Juntando bases de dados
	Parte 4:	
Fundindo bases de dados
	Merge
	Duas bases com mesmos indivíduos, com variáveis diferentes.
	Append
	Duas bases de dados com as mesmas variáveis, mas com indivíduos diferentes. 
	
	
	
	
	
	
	
	O comando append é muito simples:
	Com a base de dados 1 (MASTER) na memória, basta:
	 append using "Meu Diretorio\base2.dta"
Fundindo bases de dados - append
	O comando merge junta bases de dados com os mesmosindivíduos, mas variáveis diferentes. 
	
	Pelo menos uma das variáveis deve ser a mesma. São elas que identificam o indivíduo. Exemplo: id1 id2.
	
	Para juntar as bases é preciso:
		Que ambas as bases estejam no formato do stata .dta
		Que ambas as bases estejam ordenadas pelo identificador da fusão. 
		
	Então: 
		Abrir a base de dados 1
		Ordenar por id1 id2
		Salvar a base 1
		Repetir para a base 2
		
	Aí podemos fazer a fusão:
		merge 1:1 id1 id2 using "basededados2"
Fundindo bases de dados – merge 1:1
	Exemplo: Vamos juntar duas bases de dados – pais.dta e maes.dta
	
	
	
	
	
	
	
	O identificador comum é: famid
		A família 4 está presente apenas na base de dados pais.dta 
		A família 6 está presente apenas na base de dados pais.dta
		
	Vamos escolher pais.dta para ser base "MASTER" e maes.dta para ser a base "USING". 
	
Fundindo bases de dados – merge 1:1
pais.dta - Master Data
maes.dta - Using Data
	Exemplo: Vamos juntar duas bases de dados – pais.dta e maes.dta
	
	Primeiro abrir a base de dados "USING", ordenar e salvar:
	
	
	
	
	Depois abrir a base de dados "MASTER" e ordenar:
	
	
	 
	
	
Fundindo bases de dados – merge 1:1
A base master é a que está em uso!
Informar o identificador após merge.
Após using informamos a segunda base!
	Resultado:
	
	
	
	
	
	
	
	Stata cria uma variável nova (_merge), que indica se a fusão das bases foi perfeita ou não.
		_merge = 3 : a observação pertence as duas bases de dados
		_merge = 1 : a observação pertence apenas a base MASTER
		_merge = 2 : a observação pertence apenas a base USING
	
	É sempre indicado verificar a frequência de _merge:
		tab _merge
	Se estiver tudo certo, fique apenas com as variáveis cuja fusão foi perfeita:
		keep if _merge==3
Fundindo bases de dados – merge 1:1
	
	
	Merge apenas faz a fusão se o identificador estiver exatamente igual nas duas bases. 
	Exemplo que não funciona:
	
	
	
	
	
	
Fundindo base de dados
		Id em base 1
		Id em base 2
		João S. Ferreira
		João Ferreira
Fazendo gráficos
	Parte 5:
	Um gráfico de dispersão é uma "nuvem de pontos". Ele é útil para visualizarmos a relação entre duas variáveis e para identificamos valores extremos. O comando é: 
		twoway scatter y x
	Exemplos:
		tw sc nota idade
	
	
Gráfico de dispersão – tw scatter
	Exemplo com rótulo de dados: 
		twoway scatter nota idade, mlabel(sobrenome)
	
	
Gráfico de dispersão - tw scatter
Adiciona um rótulo para os dados igual ao sobrenome das pessoas.
	Exemplos: com rótulo de dados e reta
		twoway scatter nota idade, mlabel(sobrenome) || lfit nota idade
	
	
Gráfico de dispersão - tw scatter
Adiciona a reta que melhor se ajusta aos dados
	Histogramas ajudam a visualizar a dsitribuição de frequência de uma variável. 
	Exemplo: 
	 hist idade, frequency hist idade, frequency normal
Histogramas - hist
	Instalar comando catplot
		ssc install catplot
	Usar o comando: catplot var1 var2, blabel(bar)
	Exemplo:
		catplot curso sexo, blabel(bar)
	
Gráfico de barras paralelas - catplot
Adiciona um rótulo com o nº de observações em cada categoria.
	As páginas abaixo apresentam material para personalização de gráficos:
	http://data.princeton.edu/stata/graphics.html
	http://www.survey-design.com.au/Stata%20Graphs.html
	
Gráficos mais avançados
Importando dados
	Parte 6:
	Para importar dados do excel, podemos usar o comando import excel ou insheet
	
	O comando import excel funciona para uma base de dados do tipo xls ou xlsx.
	
	O comando insheet funciona para uma base de dados do tipo .csv. 
		
Abrindo dados do excel 
Abrindo dados do excel (.csv) - import
000000000000000000000000000000000000000000000000000000000000000000000000000000000000		Usar comando import:
			import excel "C:\Meu Diretorio\sexo", clear first
Não precisa digitar o diretório se tiver usado o comando:
cd "Meu Diretorio"
Limpa a memória para receber novos dados.
Usa a primeira linha como nome das variáveis
	Comandos:
		Para salvar dados no excel como .csv:
		
Abrindo dados do excel (.csv) - insheet
Ir em: Arquivo > Salvar como
Em Tipo, Selecionar a opção:
CSV (separado por vírgulas)
	Comandos
		Abrir base no excel. Salvar arquivo no formato .csv.
		Abrir stata. Usar comando:
			insheet using "C:\Meu Diretorio\Alunos.csv", clear delim(";")
Abrindo dados do excel (.csv) - insheet
000000000000000000000000000000000000000000000000000000000000000000000000000000000000Não precisa digitar o diretório se tiver usado o comando:
cd "Meu Diretorio"
Especificar que os dados estão em .csv
Limpa a memória para receber novos dados.
Especifica o caractere que separa os dados
Regressão linear – Veremos posteriormente
	Parte 7:
	Para fazer esta regressão, use comando reg:
	 reg [variável dependente] [variáveis independentes]
	Exemplos:
		reg y x
		reg y x1 x2 x3
Regressão linear - reg
O comando adiciona um intercepto, ao modelo
	Estados que gastam mais em educação tem nota (sat) média maior controlando por outros fatores?
	
	Abra a base de dados states.dta dos Estados Unidos. 
		use states, clear 
	
	Vamos usar as seguintes variáveis da base:
		csat : variável dependente – nota média por estado
		Variáveis independentes:
			expense: gasto por aluno 
			percent: % de Alunos do ensino média que fazem o teste sat
			income: renda mediana das famílias no estado
			high: % de adultos com diploma de ensino médio
			college: % de adultos com diploma de ensino superior
			region: região do país
			
			
			
	
Regressão linear - reg
	Adicionando as outras variáveis explicativas:
	 reg csat expense percent income high college, robust
Regressão linear - reg
csat = 851.56 + 0.003*expense 
–2.62*percent + 0.11*income + 1.63*high + 2.03*college
P-valor: expense, income e college não são estatisticamente significantes para explicar csat. 
high é significante apenas a 10%. 
percent é a única variável que explica csat (coef. diferente de 0).
R2: neste caso o modelo explica 82.43% da variância em csat.
	Vamos adicionar a dummies para a variável region. Esta variável tem a seguinte distribuição:
		tab region
	
	
	
	
	
	
	Podemos criar as dummies e adicionar ao modelo ou pedir ao comando para criar as dummies automaticamente, usando "xi" na frente da regressão e "i." na frente da variável de interesse:
	 xi: reg csat expense percent income high college i.region, robust
Regressão linear – xi
	 xi: reg csat expense percent income high college i.region, robust
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	Obs: por default xi exclui a primeira categoria da variável; Assim, a variável omitida foi a dummy de West. É possível alterar a categoria omitida.
Regressão linear – xi
Salvando os resultados
	Parte 08:
	Uma das melhores opção para salvar os resultados em formato de publicação é usando outreg2
	Instalar este comando:
		ssc install outreg2
	Depois é só usar outreg2 após cada estimação.
	
	Exemplo:
	reg csat expense, robust
	outreg2 using resultados, excel replace
	
	reg csat expense percent income high college, robust
	outreg2 using resultados, excel append
	
	xi: reg csat expense percent income high college i.region, robust
	outreg2 using resultados, excel append
Salvando os resultados – outreg2
	fazer regressão
	Usar outreg2 para salvar resultados em planilha.
	excel: informa que é uma tabela do excel. Também poderia ser word.
	replace: substitui arquivo se já existir na memória!
O arquivo resultados é salvo no diretório de trabalho.
	Exemplo:
	reg csat expense, robust
	outreg2 using resultados, excel replace
	
	reg csat expense percent income high college, robust
	outreg2 using resultados, excel appendxi: reg csat expense percent income high college i.region, robust
	outreg2 using resultados, excel append
Salvando os resultados – outreg2
Rodamos outra regressão
append: manda juntar os resultados da última regressão ao arquivo resultados já existente!
	O arquivo resultados fica assim:
Salvando os resultados - outreg2
	E se esperarmos uma relação não linear entre a variável dependente e alguma das variáveis explicativas?
		Podemos incluir um termo quadrático ()ou cúbico () ou a raiz ()...
		O importante para a regressão linear é que seja linear nos coeficientes ('s )
	Exemplo
	 twoway scatter csat percent
		
Incluindo termo quadrático
A relação entre csat e percent parece em forma de U!
	Exemplo:
	Para levar em conta relação em forma de U, incluir um termo quadrático (percent2) na regressão.
	Antes temos que criar a variável percent2= percent2:
		gen percent2 = percent^2
	
	Agora podemos incluir esta variável na regressão:
	xi: reg csat expense percent percent2 income high college i.region, robust
	
	Outra possibilidade é rodar a regressão com interações: percent##percent, inclui os dois termos. 
	
	Vejam mais opções nos Cheat Sheets Analysis!!
Incluindo termo quadrático
	xi: reg csat expense percent percent2 income high college i.region, robust
	
Incluindo termo quadrático
	A aula de hoje focou mais na introdução ao stata e em comandos usados para limpeza dos dados. 
	
	A ideia não é que vocês já saibam esses comandos decorados, mas sim permitir que vcs usem as “Cheat Sheets” com mais facilidade. 
	
	Outros comandos muito úteis, mas que são mais avançados, são os comandos de programação. Os loops, em especial, reduzem bastante o trabalho de digitação. Vejam o help dos comandos foreach e forvalues.
	
	Ao longo do curso, veremos outros comandos e pacotes de estimação. 
	
	
	
		
Resumo
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
Clique para editar o título mestre
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
Clique para editar o título mestre
Clique para editar o estilo do subtítulo mestre
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
Clique para editar o título mestre
	Clique para editar o texto mestre
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
Clique para editar o título mestre
	Clique para editar o texto mestre
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
	Clique para editar o texto mestre
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
Clique para editar o título mestre
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
	Clique para editar o texto mestre
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
Clique para editar o título mestre
	Clique para editar o texto mestre
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
Clique para editar o título mestre
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
Clique para editar o título mestre
	Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível
12/05/2020
Clique para editar o texto mestre
		Segundo nível
			Terceiro nível
				Quarto nível
					Quinto nível