Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof. Me. José Lorandi UNIDADE IV Estatística Variável aleatória discreta unidimensional Variável aleatória é uma função que associa a todo evento pertencente a uma partição do espaço amostral um único número real. O que é uma variável discreta aleatória; O que são funções de probabilidade; O que é e como calcular o valor esperado e a variância de uma variável discreta aleatória. Modelos Teóricos Discretos e Contínuos e Inferência Estatística Definição de variável discreta aleatória Uma variável aleatória é dita discreta se assume apenas determinados valores, não qualquer valor contido em um intervalo de valores (nesse caso, teríamos uma variável contínua). Um exemplo de quantidades discretas está nos resultados do lançamento de um dado, em que se pode obter apenas números inteiros de 1 a 6, nunca números fracionários. Variável Discreta Aleatória Define-se função de probabilidade como a função que associa cada valor assumido pela variável aleatória à probabilidade do evento correspondente. Define-se ainda distribuição de probabilidade como o conjunto formado pelos valores das variáveis aleatórias e suas probabilidades correspondentes. A distribuição de probabilidades pode ser representada de forma gráfica, colocando-se os valores da variável aleatória no eixo horizontal e as probabilidades correspondentes no eixo vertical. Como se trata de uma variável discreta, o gráfico é composto por pontos, e não se pode traçar uma curva sobre esses pontos. Função de Probabilidade Note que há probabilidades apenas para valores inteiros da face do dado, pois trata-se justamente de um problema discreto e, por isso, não é possível traçar uma curva sobre os pontos. Função de Probabilidade 0,30 0,20 0,10 Probabilidade de ocorrência 1 2 3 4 5 6 Face Figura 1 - Distribuição de probabilidades para o lançamento do dado 0,30 0,20 0,10 Fonte: adaptado de: Livro-texto. Valor esperado de uma variável discreta aleatória O valor esperado de uma variável aleatória, também conhecido como esperança matemática, é igual ao valor médio dessa variável. O valor esperado de uma variável aleatória X é indicado por E(X). O valor esperado E(X) é calculado pela média ponderada dos valores assumidos pela variável, em que os pesos são as probabilidades: Note que, na expressão, usa-se probabilidades como peso. Então, não é preciso dividir a média pelo número de ocorrências, já que a soma de todas as probabilidades do evento deve ser igual a 1 (no caso, seria equivalente a dividir a equação por 1, o que não se faz necessário). Valores de uma Variável Discreta Aleatória Variância de uma variável discreta aleatória A variância de uma variável aleatória e discreta X, representada por VAR(X), é calculada por: Variância de uma Variável Discreta Aleatória Na equação: xi representa cada valor da variável aleatória; 𝜇x representa o valor verdadeiro (ou valor médio) da grandeza; p(xi) representa a probabilidade de ocorrência de cada valor da variável aleatória xi; A variância ainda pode ser indicada por V(X), 𝜎2 (X), 𝜎X 2 ou 𝜎2; A variância é um indicador de dispersão, fornecendo, portanto, uma medida do espalhamento dos dados. Um dado honesto é lançado três vezes. A probabilidade de que, nesses três lançamentos, obtenhamos a face 1 duas vezes é aproximadamente igual a: a) 0,50. b) 0,25. c) 0,18. d) 0,07. e) 0,03. Interatividade Um dado honesto é lançado três vezes. A probabilidade de que, nesses três lançamentos, obtenhamos a face 1 duas vezes é aproximadamente igual a: a) 0,50. b) 0,25. c) 0,18. d) 0,07. e) 0,03. Resposta Análise da questão: o dado honesto tem 6 faces, numeradas de 1 a 6. Vamos considerar as situações a seguir: Sucesso (S): ocorrência da face 1 no lançamento do dado. Fracasso (F): não ocorrência da face 1 no lançamento do dado. Em cada lançamento do dado honesto, temos o que segue: Probabilidade de sucesso (p): p = 1/6. Probabilidade de fracasso (q): q = 1 – p = 1 – 1/6 → q = 5/6 O espaço amostral Ω da situação em estudo é o seguinte: Ω = {SSS, SSF, SFS, SFF, FSS, FSF, FFS, FFF} Distribuição binomial A distribuição binomial é uma distribuição discreta de probabilidades que se aplica sempre que o processo de amostragem tem as seguintes características: Em cada tentativa, há apenas dois resultados possíveis, chamados de sucesso e fracasso, que são mutuamente exclusivos; Os eventos de uma série de tentativas são independentes; O processo é estacionário, ou seja, a probabilidade de sucesso não varia entre uma tentativa e outra; Os processos de amostragem com essas características são conhecidos como processos de Bernoulli. Modelos Teóricos Discretos e Contínuos de Probabilidade Distribuição normal A distribuição normal de probabilidades é uma distribuição de probabilidades contínua, simétrica em relação à média, e cuja curva tem o formato de uma gaussiana. Essa curva que dá a distribuição de probabilidades é chamada de função densidade de probabilidade (fdp). A probabilidade de ocorrência de um evento está relacionada com a área sob a curva da função densidade de probabilidade. Em uma distribuição normal de probabilidades, temos o seguinte: Modelos Teóricos Discretos e Contínuos de Probabilidade Isso pode ser visto na figura a seguir: Modelos Teóricos Discretos e Contínuos de Probabilidade Figura 2 – Distribuição normal e probabilidades 68% 95% 99,7% Fonte: adaptado de: Livro-texto. Então, a probabilidade de um valor estar no intervalo entre 1 vez o desvio padrão, tanto para o lado negativo como para o lado positivo, é de 68% para uma distribuição normal. A probabilidade de um valor estar no intervalo dentro de 2 vezes o desvio padrão, tanto para o lado negativo como para o positivo, é de 95%. Já a probabilidade de um valor estar no intervalo limitado por 3 vezes o desvio padrão, tanto para o lado negativo como para o positivo, é de 99,7%. Outra implicação disso é que a probabilidade de um valor estar além de 3 vezes o desvio padrão é cerca de 0,3%. Modelos Teóricos Discretos e Contínuos de Probabilidade A função densidade de probabilidade de uma distribuição normal de média x e desvio padrão 𝜎 é dada por: Modelos Teóricos Discretos e Contínuos de Probabilidade Inferência estatística é o processo estatístico que tem como objetivo fazer generalizações de uma população a partir de uma amostra. A inferência estatística envolve amostragem, estimadores e intervalos de confiança, conceitos que serão detalhados a seguir. Inferência Estatística Amostragem A seleção de uma amostra de uma população é chamada de levantamento amostral. Esse levantamento amostral pode ser de dois tipos: probabilístico ou não probabilístico. Os levantamentos amostrais probabilísticos podem ser classificados em: Amostragem aleatória simples; Amostragem aleatória sistemática; Amostragem aleatória estratificada; Amostragem aleatória por conglomerados. Inferência Estatística Na amostragem aleatória simples, todos os elementos de uma população têm igual probabilidade de serem selecionados para a amostra. Nesse processo de seleção, é comum sortear aleatoriamente os elementos participantes. Esse é o método mais simples de compor uma amostra. Na amostragem aleatória sistemática, os elementos da população são selecionados de acordo com critérios preestabelecidos, como seleção pela inicial do nome, por exemplo. Esse processo de amostragem é bastante usado para compor amostras em pesquisas de opinião. Inferência Estatística Na amostragem aleatória estratificada, a população é dividida em grupos homogêneos, chamados de estratos e, em seguida, é feita uma amostragem aleatória simples dentro de cada estrato. Os estratos podem ser faixas salariais em uma empresa ou faixas etárias de umapopulação, por exemplo. Na amostragem aleatória por conglomerados, a população é dividida por áreas geográficas e então é feita uma amostragem simples em uma pequena área geográfica. Inferência Estatística Inferência estatística Os levantamentos amostrais não probabilísticos podem ser classificados em: Amostragem não aleatória intencional; Amostragem não aleatória voluntária; Amostragem não aleatória acidental. Inferência Estatística Na amostragem não aleatória intencional, o pesquisador escolhe uma característica da população para compor sua amostra, como: selecionando pessoas de seu time de futebol. Na amostragem não aleatória voluntária, as pessoas tomam a iniciativa de fazer parte da amostra, oferecendo-se para participar da pesquisa. Na amostragem não aleatória acidental, os elementos que compõem a amostra são escolhidos sem nenhum critério estabelecido, como: selecionando todas as pessoas que passam por determinada rua. Inferência Estatística Imagine que a distribuição dos pesos das pessoas com mais de 18 anos que moram na cidade fictícia Vila Feliz obedeça a um modelo normal com média µ desconhecida e com variância σ2 igual a 15,7kg. Foi feita uma amostra aleatória de 40 dessas pessoas, o que forneceu média amostral observada é X, obs: igual a 73kg. Para essa situação, assinale a alternativa que apresenta corretamente a estimativa intervalar da média populacional µ com coeficiente de confiança de 90%. a) [61,8kg; 79,3kg]. b) [60,0kg; 80,0kg]. c) [65,0kg; 75,0kg]. d) [68,8kg; 75,2kg]. e) [71,9kg; 74,1kg]. Interatividade Imagine que a distribuição dos pesos das pessoas com mais de 18 anos que moram na cidade fictícia Vila Feliz obedeça a um modelo normal com média µ desconhecida e com variância σ2 igual a 15,7kg. Foi feita uma amostra aleatória de 40 dessas pessoas, o que forneceu média amostral observada é X, obs: igual a 73kg. Para essa situação, assinale a alternativa que apresenta corretamente a estimativa intervalar da média populacional µ com coeficiente de confiança de 90%. a) [61,8kg; 79,3kg]. b) [60,0kg; 80,0kg]. c) [65,0kg; 75,0kg]. d) [68,8kg; 75,2kg]. e) [71,9kg; 74,1kg]. Resposta Análise da questão: vamos fazer um resumo dos dados fornecidos na questão. Modelo de distribuição de probabilidades dos pesos: normal. Média populacional dos pesos: parâmetro µ desconhecido. Variância populacional dos pesos: parâmetro σ2 = 15,7kg. Desvio padrão populacional dos pesos: parâmetro 2 σ = 15, 7 3,96kg. Média amostral dos pesos: estimador X. Tamanho da amostra: n = 40. Média amostral dos pesos observada na amostra: estimativa = 73 X kg, obs: coeficiente de confiança da estimativa intervalar: c = 0,90. Média amostral dos pesos observada na amostra: estimativa = 73 X kg, Coeficiente de confiança da estimativa intervalar: c = 0,90. Com confiança de 90%, “acreditamos” que a média populacional dos pesos µ das pessoas com mais de 18 anos que moram na cidade fictícia Vila Feliz esteja entre 71,9kg e 74,1kg. Resposta Estimadores Define-se estimador como uma grandeza obtida a partir de observações de uma amostra. O estimador é considerado um indicador de um parâmetro desconhecido da população. Chamamos de estimativa o valor atribuído a um estimador. A estimativa de um parâmetro pode ser feita de duas formas: Estimativa por ponto; Estimativa por intervalo. Inferência Estatística A estimativa por ponto é o nome dado ao valor obtido a partir de cálculos estatísticos com os elementos da amostra, servindo como uma aproximação do parâmetro estimado. Um exemplo de estimativa por ponto é o valor médio de uma amostra, calculado a partir dos elementos dessa amostra, e assumido como uma aproximação do valor médio da população a partir da qual a amostra foi selecionada. A estimativa por intervalo não é feita por um único valor, mas por uma faixa de valores que são considerados uma aproximação do parâmetro estimado. As estimativas por intervalo são chamadas de intervalo de confiança. Em geral, calcula-se intervalos de confiança que tenham uma chance de 95% de conter o valor verdadeiro. Inferência Estatística Intervalos de confiança O nível de confiança é o valor que exprime o grau de confiança associado a dado intervalo de confiança. Chama-se de X o valor médio, de S o desvio padrão da amostra, de 𝜇 o valor médio e de 𝜎 o desvio padrão da população a partir da qual a amostra foi obtida. No caso de uma distribuição simétrica, o valor médio da amostra está no meio do intervalo de confiança. Inferência Estatística Definindo o erro amostral C e considerando a probabilidade de 95% do valor médio da população estar contido nesse intervalo de confiança, temos: No caso de uma população infinita, o erro amostral C é determinado por: Inferência Estatística Intervalos de confiança O nível de confiança é o valor que exprime o grau de confiança associado a dado intervalo de confiança. Chama-se de X o valor médio, de S o desvio padrão da amostra, de 𝜇 o valor médio e de 𝜎 o desvio padrão da população a partir da qual a Amostra foi obtida. No caso de uma distribuição simétrica, o valor médio da amostra está no meio do Intervalo de confiança. Inferência Estatística Definindo o erro amostral C e considerando a probabilidade de 95% do valor médio da população estar contido nesse intervalo de confiança, temos: No caso de uma população infinita, o erro amostral C é determinado por: Inferência Estatística Na equação: 𝜎 é o desvio padrão da população, que pode ser aproximado pelo desvio padrão da amostra caso esse primeiro seja desconhecido; n é o tamanho da amostra; z é a abcissa da distribuição normal padronizada para um dado nível de confiança. Se a população for finita e de tamanho N, o erro amostral C é determinado por: Inferência Estatística Na equação: 𝜎 é o desvio padrão da população, que pode ser aproximado pelo desvio padrão da amostra caso esse primeiro seja desconhecido; n é o tamanho da amostra; z é a abcissa da distribuição normal padronizada para um dado nível de confiança. No caso de um nível de confiança de 95%, o mais usual, z é obtido da forma descrita a seguir: Como a área sob a curva da distribuição gaussiana a partir do eixo de simetria, é preciso dividir a probabilidade de 95% por 2: Inferência Estatística Procurando por esse valor de áreas sob a gaussiana, vemos que ele é localizado no cruzamento das probabilidades 0,06 na horizontal e 1,9 na vertical, o que resulta em: Inferência Estatística Na regressão linear, é ajustada uma reta aos dados. Antes de discutir a regressão em si, é importante tratar de funções lineares, ou funções do primeiro grau, cujos gráficos são retas. A função do primeiro grau tem equação do tipo: y a.x b Regressão Linear Simples Na equação: x é a variável independente; y é a variável dependente; a é coeficiente angular; b é o coeficiente linear. É dito que essa função é uma função do primeiro grau porque a variável independente x está elevada à primeira potência. Gráficos de funções do primeiro grau são retas. Relação entre duas variáveis Quando estudamos um processo, frequentemente desejamos saber se duas quantidades estão correlacionadas. Será que o número de usuários de uma rede está relacionado com o tempo de resposta nessa rede? Se essas quantidades estão relacionadas, como se dá essa relação? Quanto mais usuários, o tempo de resposta é maior ou menor? Qual será o tempo de resposta na rede quando houver 50 usuários conectados? São perguntas desse tipo que desejamos responder quando estudamos correlação de variáveis. Um exemplo clássico de relação incomum é a venda de fraldas descartáveis e a venda de cervejas em supermercados. Regressão Linear Simples Em uma empresa com1000 funcionários, deseja-se estimar a percentagem dos favoráveis a certo treinamento. Qual deve ser o tamanho da amostra aleatória simples que garanta um erro amostral não superior a 5%? a) 282 empregados. b) 286 empregados. c) 288 empregados. d) 280 empregados. e) 284 empregados. Interatividade Em uma empresa com 1000 funcionários, deseja-se estimar a percentagem dos favoráveis a certo treinamento. Qual deve ser o tamanho da amostra aleatória simples que garanta um erro amostral não superior a 5%? a) 282 empregados. b) 286 empregados. c) 288 empregados. d) 280 empregados. e) 284 empregados. Resposta N = 1000 empregados. E0 = erro amostral tolerável = 5% (E0 = 0,05). n0 = 1/(0,05) 2 = 400 empregados. N = 1000x400/(1000+400) = 286 empregados. Correlação linear Ao analisar o espalhamento para verificar se há correlação entre duas grandezas e se os pontos se espalham ao longo de uma reta, define-se se os dados apresentam correlação linear ou se são linearmente correlacionados. Os dados podem ter: Correlação linear positiva; Correlação linear negativa; Correlação não linear; Nenhuma correlação. Regressão Linear Simples Coeficiente de correlação linear O coeficiente de correlação linear de Pearson dá uma medida do grau de correlação entre duas grandezas, além de fornecer o sinal dessa correlação, que diz se os dados são direta ou inversamente relacionados. O coeficiente de correlação linear de Pearson é representado por r e é calculado pela seguinte expressão: Regressão Linear Simples Na igualdade, temos que: xi é o um valor qualquer da variável x. yi é o um valor qualquer da variável y, correspondente a xi. n é o número de pares de dados. Para simplificar o cálculo dessa equação, pode-se calcular cada somatório separadamente para, depois, calcular o coeficiente de correlação, o que pode ser feito da seguinte forma: Regressão Linear Simples Ajuste de reta aos dados Caso seja notado que a correlação entre duas variáveis tem comportamento linear, pode-se ajustar uma reta sobre esses dados. A equação da reta ajustada pode ser usada para fazer predições da grandeza que foi medida. A seguir, será abordado como fazer esse ajuste de reta. É importante conhecermos os métodos não só de ajuste de reta para não tratarmos essas ferramentas como caixas pretas, mas para entendermos o processo de cálculo e as suas limitações. Regressão Linear Simples Método dos mínimos quadrados Em um processo de tomada de dados, são obtidas informações de duas variáveis, x e y, além da incerteza 𝜎 associada à variável y. Se temos n dados, eles podem ser representados por: Aqui, considera-se a variável x isenta de erros. Regressão Linear Simples Ajuste de reta para incertezas diferentes Considere a variável y medida em função da variável x. Considere também que há incertezas σ associadas apenas à variável y. O conjunto de n dados experimentais pode, portanto, ser escrito da seguinte forma: Ajustando sobre esses dados uma reta de equação y = a.x + b, os coeficientes angular e linear dessa reta ajustada são dados, respectivamente, por: Regressão Linear Simples Ajuste de reta para incertezas iguais Quando as incertezas associadas a cada dado experimental são iguais, o cálculo do ajuste de reta aos dados torna-se mais simples. O conjunto de n dados experimentais pode, nesse caso, ser escrito da seguinte forma: Ajustando sobre esses dados uma reta de equação y a.x b = + , os coeficientes angular e linear dessa reta ajustada são dados, respectivamente, por: Regressão Linear Simples Coeficiente de determinação O coeficiente de determinação é indicado por R2 e tem como objetivo indicar quão adequada foi a escolha de determinada função para ser ajustada a um conjunto de pontos experimentais. O valor de R2 pode ser expresso como um número entre 0 e 1 ou na forma de porcentagem. Como vimos quando estudamos probabilidades, para converter um número para porcentagem, basta multiplicá-lo por 100%. Dessa forma: 0,70 .100% = 70%. O coeficiente de determinação R2 é calculado por: Regressão Linear Simples Temos o seguinte: n é o número de dados; yi é o valor observado para a grandeza; ŷ é o valor previsto pela função ajustada para a grandeza yi; ȳ é o valor médio para a grandeza yi. O coeficiente de determinação calculado dessa forma tem um inconveniente: quanto maior o número de parâmetros da função, maior o coeficiente de determinação calculado. Isso passa uma falsa ideia de que é sempre melhor usar funções com mais parâmetros, o que não é verdade. Para contornar esse problema, usa-se o coeficiente de explicação ajustado. Regressão Linear Simples Na equação: k é o número de parâmetros da função ajustada; n é o número de dados; R é o coeficiente de determinação. Regressão Linear Simples Funções linearizáveis Podemos ter funções que, a princípio, não têm gráficos lineares (ou seja, representados por uma reta), mas que, com algumas adaptações, podem ter os gráficos linearizados. Por exemplo, considere a função matemática a seguir: Regressão Linear Simples Na equação, a e b são constantes, ou seja, são números. O gráfico desse tipo de função é uma reta apenas se b = 1. Nos demais casos, o gráfico não é linear. Considere os valores da tabela a seguir e calcule o coeficiente de correlação linear por meio da fórmula do coeficiente de correlação de Pearson. Considere os valores da tabela a seguir e calcule o coeficiente de correlação linear por meio da fórmula do coeficiente de correlação de Pearson. a) r = 0,7466. b) r = 0,7464. c) r = 0,8464. d) r = 0,9464. e) r = 0,9466. Interatividade x 3 5 8 13 16 17 20 22 y 6 17 27 20 45 28 34 53 Considere os valores da tabela a seguir e calcule o coeficiente de correlação linear por meio da fórmula do coeficiente de correlação de Pearson. Considere os valores da tabela a seguir e calcule o coeficiente de correlação linear por meio da fórmula do coeficiente de correlação de Pearson. a) r = 0,7466. b) r = 0,7464. c) r = 0,8464. d) r = 0,9464. e) r = 0,9466. Resposta x 3 5 8 13 16 17 20 22 y 6 17 27 20 45 28 34 53 X Y XY X² Y² 3 6 18 9 36 5 17 85 25 289 8 27 216 64 729 13 20 260 169 400 16 45 720 256 2025 17 28 476 289 784 20 34 680 400 1156 22 53 1166 484 2809 104 230 3621 1696 8228 ATÉ A PRÓXIMA!
Compartilhar