Buscar

Anotacoes de aula Introdução a Estatística UFRJ

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 81 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 81 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 81 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Anotações de aula Introdução à Estatística
Aula 1 – 30/03/2021 Assíncrona
CONCEITOS INICIAIS
Probabilidade-Modelos determinísticos e probabilísticos
Modelo determinístico é possível prever com exatidão o resultado a partir das suas condições iniciais. Modelo probabilístico não é possível prever o resultado, conhecendo apenas os possíveis resultados (ex: na moeda, cara ou coroa; no dado, faces 1 a 6).
Probabilidade-Experimento Aleatório
Existe apenas no modelo probabilístico.
Probabilidade-Espaço amostral
Representado pela letra ômega. Conjunto dos resultados possíveis de um experimento aleatório. Os elementos nem sempre são apenas valores, podendo também ser: conjuntos, pares ordenados, entre outros.
É muito importante medir o espaço amostral como o experimento está dizendo. Todo o espaço possível que possa retornar resultados.
Os elementos de ômega são chamados: pontos amostrais ou eventos elementares.
Observação do exemplo da lâmpada (conjunto dos reais, t>0): não podemos afirmar que a lâmpada não dure todo este tempo se não há nenhuma afirmação a mais sobre o limite de vida da mesma. Se um experimento consiste em medir a vida útil de uma lâmpada apenas é verdade que o tempo tem que ser uma medida positiva (anos, horas...) que pode durar até qualquer valor.
Observação do exemplo das partículas: também é utilizado “até o infinito” porque são todas as possibilidades possíveis, não sabemos quantas partículas podem passar pelo contador.
Porém para os exemplos 3 e 4, com o passar do tempo ou de um determinado número de partículas, diminuem as chances e entra a probabilidade de que a partir deste tempo/partículas isso não ocorra, com a probabilidade tendendo a zero.
Probabilidade-Evento
Evento é qualquer subconjunto do espaço amostral. Normalmente representado por uma letra do alfabeto (E..D...C..X...). E está contido no espaço amostral/ômega. 
B_Omega está contido dentro dele, ou seja, o próprio conjunto é um subconjunto contido nele.
E_O evento complementar A é o que falta em um determinado grupo para que ele se torne ômega, portanto, seus resultados pertencem, a ômega mas não ao próprio evento. 
Exemplo 1: O espaço amostral são as faces do dado, portanto, de 1 a 6. O evento é tirar par no dado, portanto, o subconjunto do espaço amostral se torna E={2,4,6}.
E assim por diante nos demais exemplos.
 Qual seria o conjunto que representaria o mesmo exemplo 1 caso o evento fosse tirar impar no dado? F={1,3,5}. E por isso, a intersecção entre os eventos E e F não existem, sendo eles incompatíveis ou mutualmente exclusivos. O F também seria o evento complementar ao E, ou seja, é somente com o complemento de F que E se torna equivalente ao espaço amostral. 
A intersecção do evento com o seu complementar precisa ser vazio.
Leis de Morgan
Uma sequencia de eventos em ômega de a1 até an (subconjuntos do meu espaço amostral): o complementar da união desses eventos é igual a intersecção dos complementares. E o complementar da intersecção dos eventos é igual a união destes complementares. 
Em alguns experimentos o diagrama de venn auxilia na medição das chances de eventos ocorrerem.No diagrama temos o conjunto A e o conjunto B dentro do espaço ômega com todas as possibilidades:
.3 pontos pertencem somente a A;
um ponto esta na intersec. A com B;
e 4 pontos pertencem somente a B. 
8 pontos pertencem a A união com B;
5 elementos no complementar de A união com B;
E conforme a Lei de Morgan, o complementar da união desses eventos (AuB) é igual a intersecção dos complementares (complementares de A e complementares de B).
Probabilidade-Definição
Chande de um determinado evento A dentro do espaço amostral ômega ocorrer.
Hipoteses:
1)Cada evento elementar são igualmente provaveis, ou seja, com a mesma chance de acontecer (equiprovaveis – cada um terá a mesma chance: 1/elementos em omega).
2)O espaço amostral é finito. 
Ou seja, voltando aos exemplos anteriores, não é possivel medir com a definicao de probabilidade classica que estamos estudando para:
Depois será visto a forma de medir para esses exemplos (modelos de probabilidade).
Exmplo:
A probabilidade é uma medida adimensional, que pode ser representada em percentual, e está entre 0 e 1 (por isso não existe 120%... ou probabilidade negativa). Ou seja, optando pela representação não percentual, ela só vai até 1.
Exemplo 2 
Aula 2 – 01/04/2021 Assíncrona
A cardinalidade do espaço amostral é de 365 elevado a K (Quantidade de pessoas) porque cada pessoa pode fazer aniversário em um dia dentre os 365, inclusive o mesmo dia:
Para a probabilidade do evento A, 2+ pessoas realizarem aniversario no mesmo dia, é muito mais complicado fazer da maneira que está sendo pedido. É mais fácil aderir a estratégia de contar quantas pessoas faz em dias totalmente diferentes uma das outras e diminuir da cardinalidade do espaço amostral.
Levando o cálculo para a probabilidade temos que:
A probabilidade de um evento é igual a “1-a probabilidade do seu evento complementar”.
Nesse exercício foi mais fácil calcular a probabilidade do evento complementar do que o evento em si.
Outro ex:
Medir a cardinalidade do espaço amostral da questão: de quantas formas podem ser tiradas essas 5 cartas?
E para obter um Full House? (Tres cartas com o mesmo numero e Duas com outros mesmos números)
13 são as quantidades de cartas para cada naipe. (e 3 a quantidade de cartas). 12 significa 13-1, porque já foi retirado um numero para o trio de cartas anterior.(e2 a quantidade de cartas).
Para todas as qustões: cardinalidade do espaço amostral é 36.
Letra A_
Letra B_
Letra C_
Probabilidade_Axiomas da probabilidade
Se a probabilidade não se encaixa em uma dessas leis, ela não existe.
A1- Probabilidade deve estar entre 0 e 1, inclusos. 0 é o evneto impossível e 1 é o evento certo.
A2-A probabilidade do espaço amostral deve ser igual a 1 ou seja algum evento deve ocorrer.
A3-Se uma sequencia de eventos a1 até an2 são disjuntos, então, a probabilidade da união desses eventos é igual a soma das probabilidades individuais desses eventos.
Probabilidade_Propriedades da probabilidade
P1_A probabilidade de um evento complementar é 1-probablidade do evento.
P2_A probabilidade do vazio tem que ser igual a 0.
P3_Se A está contido em B, então a probabilidade de B – A = probabilidade de B menos a probabilidade de A
P4_Se A está contido em B então a probabilidade de A é <= que a probabilidade de B
P5_A probabilidade de A união B tem que ser igual a probabilidade de A + probabilidade B – probabilidade de A intersec com B.
P6_Mesmo que P5 para três conjuntos
Provando P1:
A e Ac são disjuntos, ou seja, a intersecção de A e Ac é um conjunto vazio.
A união Ac é igual a ômega, logo, a probabilidade de ômega precisa ser também a probabilidade de A união Ac.
Pelos axiomas 1 temos que a probabilidade de ômega é igual a 1. Pelo axioma 3 temos que a probabilidade da união de uma sequencia de eventos disjuntos é igual a probabilidade de cada um individualmente. 
Provando P2:
Uma sequencia de eventos igual a vazio, e estes eventos são disjuntos pois a intersec entre eles também dará um conjunto vazio. A união desses eventos também é um conjunto vazio.
Logo, a probabilidade da união dessa sequencia de eventos disjuntos é igual ao somatório das probabilidades individuais desses eventos, que é vazio.
Provando P3_
B-A são disjuntos, sua intersec é um conjunto vazio. 
B é igual a A união com B-A
Logo, a probabilidade do B tem que ser igual a probabilidade de A união com B-A que por consequencia é igual a probabilidade de A mais a probabilidade de B-A.
E ai chegamos a probabilidade de B-A que é igual a probabilidade de B menos a probabilidade de A.
Provando P_4
Como A está contido em B, o valor máximo que sua probabilidade pode ser é igual a probabilidade de B, ou menor, para respeitar a igualdade (prob B sempre diminuída de alguma outra probabilidade).
Provando P5
Provando P6
Aula 3 – 06/04/2021 Sincrona
Espaço amostral induzido pelo novo evento de conhecer a informação de tirar um numeropar.
Todos os homens=174
Todas as mulheres=186
Todas as pessoas=360
Falam ingles=193
Falam alemao=68
Falam frances=99 
Probabilidade de falar ingles escolhido uma pessoa que é mulher:
Dados gerais da questão
Letra A_ Dois eventos: ser do flamengo e ser convertido. São dois eventos, tomar cuidado.
Letra B_Probabilidade de ser gol (independente do time)
LetraC_Probabilidade do gol ter sido perdido
G complementar é a probabilidade do gol ter sido perdido
Também poderia ser resolvido com a árvore de decisão:
E_Escrever --- Ec_Marina não escrever
P_Perder – Pc_Correio não perder
C_Carteiro entregar – Cc_Carteiro não entregar
R_Receber –Rc_Veronica não recebeu
Probabilidade_Particao de um espaço amostral
Teorema da Probabilidade Total
Probabilidade_Teorema de Bayes
Teorema de Bayes quando há a partição dos eventos dentro dado que sabemos que um evento x ocorreu.
Agosto Choveu 0,4 Agosto não choveu 0,6
Fluminense ganha com dia de chuva 0,6 ganha com dia sem chuva 0,4
Aula 4 – 08/04/2021 Sincrona
Subdivisão do espaço amostral em Saber e Não saber a resposta. Partição do espaço amostral, são disjuntos, e juntos somam o espaço amostral. O evento acertar está dentro deles.
Outra maneira de resolver:
A_
Supondo que as maquinas funcionam de forma independente, a intersec. Desses dois eventos é igual a probabilidade de cada um, multiplicadas
B_
Mesma suposição.
=0,12
Eventos são independentes dois a dois mas não independentes entre si.
Testando ABA
Ganhar de A e Ganhar de B + Perder de A, Ganhar de B e Ganhar de A
Testando BAB
Ganhar de B e Ganhar de A + Perder de B, Ganhar de A e Ganhar de B
Resposta é ABA.
Probabilidade-Variável Aleatória
Função que relaciona um elemento do espaço amostral ao conjunto dos números reais.
Com a introdução da variável aleatória., passaremos a não mais calcular a pobabilidade do evento A, e sim de uma variável x (equivalente ao evento).
O que quer dizer distribuição: indicar quais valores a variável pode ter e a probabilidade do x ter esses valores. A função p(x)=P(X=x) representa a função de probabilidade.
Geralmente uma variável aleatória é representada por letras maiúsculas, deixando as letras minúsculas para representação dos seus valores.
A grande sacada da variável aleatória é que não se sabe os valores de x, mas sabe-se que tem uma chance de se obter cada um desses valores a partir da distribuição.
A partir da distribuição da variável aleatória, veremos que, estando mais distante da realidade (EX: VALORES DE CHAMADAS RECEBIDAS EM 5 MINUTOS SER 1BILHÃO) quer dizer que a probabilidade é menor, mas sim, ainda pode existir.
Todos os exemplos acima foram variáveis aleatórias discretas já que seu conjunto é enumerável. Existe um outro tipo de variável aleatória, a continua, que exige um outro tipo de modelo probabilístico, com propriedades diferentes, definindo a função de probabilidade que rege o evento.
Var.continua: quantidade infidavel de valores.
Como só tem três bolas pretas, os valores que x pode assumir está no intervalo de 0 a 3, com bprobabilidades iguais, porque há a reposição das bolas na urna.
Qual a probabilidade de tirar 0 bolas pretas? Tirando todas vermelhas, e os eventos são independentes portanto:
Qual a prob de tirar 1 bola preta? Um arranjo porque a ordem importa para o calculo das probabilidades (quantidade total de posições 3 porém para a cor preta apenas 1)
Qual a prob de tirar 2 bolas pretas? (quantidade total de posições 3 porém para a cor preta apenas 2)
E para tirar 3 bolas pretas:
A função de probabilidade é uma probabilidade portanto a soma precisa dar 1 e não pode ser menor que 0.
Aula 5 – 13/04/2021 Sincrona
Esperança: Média ponderada com os pesos sendo a probabilidade de ocorrência.Somatorio para cada valor multiplicado pela possibilidade de obter cada valor. Formula para caso discreto.
Variança: Desvio com relação a média ou seja desvio com relação ao valor esperado sendo os pesos os valores esperados
A esperança de uma constante é a própria constante
Menor valor vai estar quando a constante for igual a esperança de X
No caso de uma variável continua, não será um somatório e sim uma integral, mas não é o caso agora.
A função da probabilidade é o tamanho do salto
Modelos de probabilidade são situações comuns onde há o desejo de medir a probabilidade. Para cada um vai existir uma função, uma esperança... etc especificas a cada modelo. O modelo de Bernoulli há apenas dois resultados possíveis.
Aula 6 – 15/04/2021 Síncrona
Probabilidade de sucesso do experimento é determinada pelo parâmetro p(não confundir com variável p(x)).
(Variavel) X ~ (que segue) ber(p) (parâmetro Bernoulli p)
Modelar com Bernoulli quer dizer que o evento ocorre e só há dois resultados possívels (0,1) sendo o parâmetro p o parâmetro de sucesso.
Modelo Bernoulli preconiza que os eventos sejam independentes entre si.
Voltando aos exemplos do modelo anterior vemos que, por exemplo, ao querer saber “quantas caras” deu eu já não consigo mais modelar por Bernouli. Então é onde entra o modelo binomial, nele você pode saber quantas tentativas n de um modelo de Bernoulli.
A cada “n” vezes (experimento de Bernoulli é sempre assim) as relações serão independentes. E como no modelo de Bernoulli queremos saber a probabilidade de sucesso ou de fracasso, mas agora para as “n” vezes, e por isso entra o modelo binomial. 
Se houver dependência entre as realizações (diminuição do espaço amostral, exemplo, havendo retirada no caso das bolas), não dá pra modelar por um modelo binomial. Todas as retiradas precisam ter a mesma probabilidade para modelar por Bernoulli ou Binomial.
Acima: Resolução do Ex1 e Simulando uma situação de FDA
Ou de forma simplificada, admitindo que sabemos da modelagem em bernoulli:
A variância de x só pode ser o somatório da variância porque não há dependência entre os xs. Quando não é, a fórmula é outra porque depende da covariância entre x e y.
Aula 7 – 20/04/2021 Ssíncrona
Caso os dados pra o seu problema esteja se comportando dessa maneira sinótica, é possível modelar dentro de uma distribuição normal.
O calculo da área sob a curva por integral define também o percentual porém há como calcular de outra maneira, uma vez que os percentuais sob a curva foram tabelados.
A medida que mi (u) é aumentado, desloca-se a distribuição da curva. Já o parâmetro da variância, ela achata mais a curva porque quanto maior a variância mais os valores estão sendo distribuídos entre os extremos.
Mi é o valor esperado da minha variável Y. sigma^2 é a Variancia. 
Para trabalhar com a tabela de distribuição normal padrão, é preciso padronizar a partir da fórmula modelando-a, assim, como uma distribuição normal.
A padronização nada mais é que uma função acumulada.Para variáveis continuas não há probabilidade pontual e porque é igual a 0
Aula 8 – 22/04/2021 Síncrona - Tira dúvidas
Aula 9– 27/04/2021 Síncrona
Geralmente não conseguimos trabalhar com população e por isso pegamos amostras, que podem ser tão bem representativas quanto. 
 
Com reposição possui propriedades amostrais melhores, porém, o sem reposição faz mais sentido.
Digamos que eu queira medir a altura de todos os alunos da UFRJ, porém, eu não tenho esse dado. Então, precisamos estimá-lo. A altura é o parâmetro e é calculado baseado na população. A estatística é calculada com base na amostra. É usada para estimar o parâmetro na população.
Geralmente a gente não tem a população e sim a estatística, que é uma estimativa para o parâmetro.
Quando falamos “seja... uma amostra aleatória” estamos falando que é uma amostra independente e identicamente distribuídas e possuem a mesma distribuição e X.
A esperança da minha média amostral é igual ao valor da média da minha população.
Apenas para média (estimador não viciado)
Quando um n é suficientemente grande, podemos chegar a uma distribuição padrão transformando por TLC mesmo que as amostras sejam distribuídas por binômio ou outrasdistribuições.
Para uma amostra utiliza a primeira fórmula.
Para um somatório de amostras, utiliza o Sn, e a formula associada.
Aula 10 – 29/04/2021 Assincrona
Estatística utilizada como estimador de p(proporção amostral que estamos querendo medir).
Proporção é um caso especial da média.
^p -> é o estimador do p(proporção populacional que eu desconheço informações da populacao)
Não segue exatamente uma binomial porque os quantis mudam. Sendo uma proporção, agora é dividido pelo total de amostras n.
Ou seja, a estatística (^p) menos a esperança da estatística dividido pela raiz quadrada da variância da estatística . 
Para Sn:
Cada variável e uma bernoulli com (n,p).
Uma distribuição bin assume valores discretos e uma normal é continua. Por isso precisamos de correções para trabalhar com esses dados.
Intervalo de confiança agora serve para estimar uma área, e não um estimador pontual, e medir a incerteza associada a amostra.
Quando não conhecemos sigma (a variância da população), e utilizamos S como estimador, a distribuição não é mais a normal padrão e sim a t de student.
A t de Student na verdade é a razão entre uma normal padronizada e uma distribuição quiquadrada.
Ambas simétricas em torno do zero porém as caudas são diferentes, a distribuição normal cai mais rapidamente, da t cai mais lentamente, são mais “longas,pesadas”.
O ni vai ser o controle de como caem essas caudas.
v
Qual o objetivo do intervalo de confiança?
Vamos supor que eu tenho uma população e dessa população vou tirar n amostras x. A média da população (mi) não é conhecida e queremos um estimador.
A probabilidade do meu mi estar em um determinado intervalo em (1-alfa)% das vezes é dado:
Caso o sigma^2 <var> seja desconhecido, que é o caso mais geral, eles não seram mais parte de uma distribuição normal e sim de uma distribuição t de student.
c
Aula 11 – 04/05/2021
Na tabela t, a primeira coluna estão os valores de mi que são os graus de liberdade e a partir da segunda estão algumas possibilidades que podem ser obtidas. Os quantis obtidos são levados em conta com toda a área sob a curva.
Para cálculos utilizando a tabela t de Student:
Se for probabilidade, olha a primeira linha. Se for buscar um quantil, dado a probabilidade, busca pelas colunas da tabela dentro da probabilidade dada e o nível de liberdade.
Nos casos intervalares, atentar porque a tabela dará o valor de um quantil menor que a, ou b. 
80mmHg já é a minha média, porém pontual. Queremos calcular a incerteza associada a esse valor, visto que pode ocorrer de cair dentro ou fora do intervalo.
Atenção tmbem para a obtenção do quantil z. “1 menos alfa/2” alfa/2 é 0,05/2. Então alfa é 0,975
atenção que para o uso da tabela normal são valores até 0,5. Para esse exemplo foi tirado -0,5 do valor de 0,975, obtendo 0,475 para localizar na tabela e ai sim somados os 0,5.
Um exemplo de calculo informal para obtenção do quantil: Dividir o intervalo de confiança no meio
Agora para uma variância populacional DESCONHECIDA
Subsituicao do z pelo t e também o sigma^2 vira o s.
Demais cálculos continuam iguais.
Para descobrir t: 1) Ir na tabela verificar na coluna com 95% de intervalo de confiança o quantil com 24 graus de liberdade (24 -> 25 -1). 
 
Aula 12 – 06/05/2021
Proporção: somar todos os x, dividir pelo número de n; Apresenta mesmas características da média. Assumem valor 1 ou 0.
TLC para conseguir transformar essa bin em uma distribuição normal.
^p é o estimador da minha proporção populacional (p) 
Probabilidade da minha quantidade pivotal estar entre dois quantis -z e z é igual a 1-alfa (coeficiente de confiança).
O problema aqui é que a minha quantidade pivotal depende da variável p que eu não possuo informações e estou querendo estimar. Por isso é preciso resolver essa qustão de outra maneira:
sendo n a quantidade de dados da sua amostra.
E o intervalo não conservativo se dá substituindo o p pelo próprio estimador p^. 
Pode ser resolvido tmbém através do intervalo conservativo quando não se tem certeza do valor de ^p.
 		
Explicando o uso da notação:
Que é igual a 1-a (igualdade do inicio)
ou no caso de desconhecer a variância pop (sigma). S é .
No exemplo:
Padronizou a variável divivindo pelo desvio padrão (sigma^2/n). |x-mi| é o erro absoluto de estimação.
Extração de amostra piloto com amostragem simples ou outro método.
 
Ex: eu quero que o meu x barra seja mais próximo a mi, que o meu p^ seja mais próximo de p...
Como a esperança de ô^2 não foi igual ao o^2, ele é um estimador tendencioso. Por isso, utilizar o n-1 no denominador é para conseguir um estimador não tendencioso.
Medir o quanto o estimador é bom ou não com o erro quadrático médio EQM
Aula 13 – 11/05/2021
Testar entre duas hipóteses, aceitando ou rejeitando.
Afirmar sobre algum parâmetro populacional em cima do calculo de uma estatística da amostra.
H0 será o foco do problema, então, se aceita ou rejeita a hipótese nula.
170 é o corte, se estiver menor que isso está na região crítica que rejeita h0.
A pré-especificação é feita com base no alfa porque há um consenso de que aceitar uma hipótese nula quando ela é falsa é pior do que rejeitar uma verdadeira.
Se o P valor for alto, eu aceito a hipótese nula. Baixo, eu rejeito. Maior que o nível de significaçancia.
Aula 14 – 13/05/2021
Se a minha T or <-tc ou >tc, a gente rejeita a hipótese nula. Estando entre esses valores a gente aceita.
Se o nível de significância de P valor for menor do que o estipulado então rejeitamos a hipótese. Só será verdadeira se o p valor ultrapassasse o valor estipulado de significância.
Exemplo unilateral

Continue navegando