Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA BÁSICA- 2017-2 ENGENHARIA DE PRODUÇÃO NOTURNO - DTI adaptado de vários autores Prof:Ayres Geraldo Loriato 1 amostra ou população Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender um conjunto de dados. Se forem informações sobre uma amostra ou população, ele necessitará resumir os dados para que eles sejam informativos, ou para compará-los com outros resultados, ou ainda para julgar sua adequação a alguma teoria 2 CLASSIFICAÇÃO DAS VARIÁVEIS Uma variável é denominada qualitativa Nominal quando não existe qualquer possibilidade de ordenação nas possíveis realizações. É considerada qualitativa Ordinal quando existe alguma ordem nos possíveis resultados. 3 ESTATÍSTICA DESCRITIVA Medidas de Tendência Central Medidas de Dispersão MEDIDAS DE TENDÊNCIA CENTRAL Uma medida de Tendência Central é um valor no centro ou no meio de um conjunto de dados. Busca-se um valor representativo para este conjunto de dados. Sendo um medida central: Média Mediana Moda Ponto Medio MÉDIA ARITMÉTICA A média aritmética de um conjunto de valores é o valor obtido somando-se todos eles e dividindo-se o total pelo número de valores. x é a variável usada para representar valores individuais dos dados n representa o número de valores em uma amostra Amostra População MEDIDAS DE DISPERSÃO Neste momento serão abordadas as características da variação, de grande importância para Estatística. Busca-se um valor representativo para este conjunto de dados. Sendo uma medida de dispersão: Amplitude Variância Desvio-Padrão DESVIO-PADRÃO E VARIÂNCIA O desvio-padrão é a mais importante medida de variação. Leva em consideração todos os valores e por isso possui os cálculos mais trabalhosos. Definição: O desvio-padrão de um conjunto de valores é uma medida da variação dos valores em relação à média. Dados amostrais Dados populacionais MEDIDAS DE POSIÇÃO Permitem a comparação de valores mais facilmente. Escores z Quartis Decis Percentis DEFINIÇÃO O escore padronizado, ou escore z é o número de desvios-padrão pelo qual um valor x dista da média (para mais ou para menos). Amostra População É recomendável o seguinte processo para achar probabilidades de uma variável aleatória com distribuição de probabilidades normal: Trace uma curva normal, assinale a média e outros valores de interesse, e sombreie a região que representa a probabilidade desejada. Para cada valor x fronteira da região sombreada, aplique a fórmula de padronização para achar o escore z correspondente. Recorra a tabela para achar a área da região sombreada. Essa área será a probabilidade desejada. EXEMPLO As alturas das mulheres têm distribuição normal com média de 63,6 in. e desvio-padrão de 2,5 in., (dados do Serviço Nacional de Saúde dos EUA). Selecionada ao acaso uma mulher, determine a probabilidade de a sua altura estar entre 63,6 e 68,6 in. z 0 2 63,6 68,6 x altura 1° 2° Recorremos a tabela e para z = 2 temos a área de 0,4772 3° OS CINCO NÚMEROS DOS QUARTIS Covariância e Correlação Variância é uma medida unidimensional. É calculada de maneira independente pois não leva em consideração as outras dimensões. Covariância por sua vez, é uma medida bi-dimensional. Verifica a dispersão, mas levando em consideração duas variáveis aleatórias. Também pode se escrever: Coeficiente de determinação [adimensional], O coeficiente de determinação (R2) tem interpretação física diferente do coeficiente de correlação, neste caso quando o coeficiente R2 assume o valor igual a um ele indica que as estimativas das concentrações observadas e modeladas têm uma relação linear e caso assuma o valor zero não existe uma relação linear. Pode representar o percentual de explicação do Modelo em relação aos dados observados. DIAGRAMA EM ÁRVORE São dadas 3 caixas, como segue: A caixa I tem 10 lâmpadas, das quais 4 são defeituosas. A caixa II tem 6 lâmpadas, das quais 1 é defeituosa. A caixa III tem 8 lâmpadas, das quais 3 são defeituosas. Selecionamos uma caixa aleatoriamente e então retiramos uma lâmpada, também aleatoriamente. Qual é a probabilidade (p) de a lâmpada ser defeituosa? PROBABILIDADE CONDICIONAL 1- Selecionamos uma das 3 caixas 2- Selecionamos uma lâmpada que é defeituosa (D) ou não-defeituosa (ñD) Caixa I Caixa II Caixa III 1/3 1/3 1/3 Lâmp. D Lâmp. ñD Lâmp. D Lâmp. ñD Lâmp. D Lâmp. ñD 4/10 6/10 1/6 5/6 3/8 5/8 TEOREMA DE BAYES E PARTIÇÕES A1 A2 An A3 A4 ...... B Portanto Teorema de Bayes DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS ALEATÓRIAS DISCRETAS e CONTÍNUAS 21 1, se ocorrer “sucesso” X = 0, se ocorrer “fracasso” e sua função de probabilidade pode ser representada pela tabela Repetições independentes de um ensaio de Bernoulli, com a mesma probabilidade de ocorrência de “sucesso”, dão origem ao modelo de probabilidade binomial. Segue que E(X) = p, Var(X) = p(1 – p). X 1 0 P(X=x) p 1 -p “X ~ Bernoulli (p)” indica uma v.a. com distribuição de Bernoulli com parâmetro p, isto é, 21 DEFINIÇÃO Um experimento binomial satisfaz as seguintes condições: O experimento deve comportar um número fixo de provas; As provas devem ser independentes; Cada prova deve ter todos os resultados classificados em duas categorias; As probabilidades devem permanecer constantes para cada prova. FÓRMULA DA PROBABILIDADE BINOMIAL Em um experimento binomial, as probabilidades podem ser calculadas utilizando-se a fórmula da probabilidade binomial n = número de provas. x = número de sucessos em n provas. p = probabilidade de sucesso em qualquer prova. q = probabilidade de falha em qualquer prova. DISTRIBUIÇÃO DE POISSON A distribuição de Poisson é uma distribuição discreta de probabilidade, aplicável a ocorrências de um evento em um intervalo especificado. A variável aleatória x é o número de ocorrências do evento em um intervalo. O intervalo pode ser o tempo, a distância, a área ou o volume ou outra unidade análoga. Exemplos: Clientes chegando ao caixa de um supermercado; Carros chegando a um posto de gasolina; Os usuários de micro-computadores ligados a internet, ... Que a variável aleatória k seja o número de ocorrências de um evento em um intervalo de tempo; Que as ocorrências sejam aleatórias; Que as ocorrências sejam independentes e Que as ocorrências sejam distribuídas uniformemente sobre o intervalo considerado. A DISTRIBUIÇÃO DE POISSON EXIGE: Fórmula: EXEMPLO Para fins de análise dos impactos de bombas V-1 na Segunda Guerra Mundial, o sul de Londres foi subdividido em 576 regiões com área de 0,25 Km2 cada. A área conjunta das 576 regiões foi atingida por 535 bombas. Escolhida aleatoriamente uma região, determine a probabilidade de ela ter sido atingida exatamente duas vezes. Como tratamos de ocorrências de impactos de bomba no intervalo de uma região, adotamos a distribuição de Poisson Precisamos do número médio de impactos por região Logo a probabilidade de uma região particular ser atingida exatamente duas vezes é 0,170 = 1,7% Principais Modelos Contínuos Adaptado de Prof. Víctor Hugo Lachos Dávila Modelo UNIFORME Modelo EXPONENCIAL Modelo NORMAL Distribuição QUI-QUADRADO Distribuição t-STUDENT 28 Distribuições Marginais • Se P(X=xi, Y=yj) para i=1,m e j=1,n representa a probabilidade conjunta do evento bivariado (X,Y) • As funções abaixo representam as probabilidades marginais para X=xi e Y=yj Y\X 0 1 2 3 P(y) 0 1/8 1/4 1/8 0 1/2 1 0 1/8 2/8 1/8 1/2 p(x) 1/8 3/8 3/8 1/8 1 Na tabela abaixo: Basta olhar o final linha ou coluna que impõe a condição da probabilidade marginal (setas). Probabilidade Marginal DISTRIBUIÇÃO CONDICIONAL REPRESENTA A PROPORÇÃO DE UM ELEMENTO DE UMA LINHA OU COLUNA EM RELAÇÃO AO TOTAL DELAY\X 0 1 2 3 p(y) 0 1/8 1/4 1/8 0 1/2 1 0 1/8 2/8 1/8 1/2 p(x) 1/8 3/8 3/8 1/8 1 DA MESMA FORMA: Distribuição Condicional DENSIDADES CONDICIONAIS CONTÍNUAS Densidade condicional de X, dado que Y=y é definida por: Densidade condicional de Y, dado que X=x é definida por: Símbolos dos parâmetros de população e amostra INFERÊNCIA ESTATÍSTICA PRINCIPAIS CONCEITOS HIPÓTESE ESTATÍSTICA Trata-se de uma suposição quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de probabilidade de uma variável populacional. TESTE DE HIPÓTESE É uma regra de decisão para aceitar ou rejeitar uma hipótese estatística com base nos elementos amostrais. LÓGICA DO TESTE DE SIGNIFICÂNCIA ATRIBUEM-SE BAIXOS VALORES PARA , GERALMENTE 1-10%; FORMULA-SE Ho COM A PRETENSÃO DE REJEITÁ-LA, DAÍ O NOME DE HIPÓTESE NULA; SE O TESTE INDICAR A REJEIÇÃO DE Ho TEM-SE UM INDICADOR MAIS SEGURO DA DECISÃO; CASO O TESTE INDIQUE A ACEITAÇÃO DE Ho, DIZ-SE QUE, COM O NÍVEL DE SIGNIFICÂNCIA , NÃO SE PODE REJEITAR Ho. Os testes de hipóteses são normalmente realizados fixando o seu nível de significância. Os níveis de significância mais utilizados são de 5%, 1% e 0,1%. Por exemplo, ao fixar um nível de significância de 5% num determinado teste, estamos a afirmar que em 5% das vezes rejeitaremos a hipótese nula sendo esta verdadeira. 37 Ex: Distribuição amostral da média Se forem retiradas várias amostras aleatórias de n elementos da população. Calculadas as médias de todas as amostras. Distribuição das médias aproxima-se de uma uma normal. Item 10.8 eq. 11.44 37 Pode dividir a partir daqui: 1-11, 12-24 Teorema do Limite Central (TLC) (n >30) Para AAS (X1; : : : ;Xn), retiradas de uma população com média e variância finita, a distribuição amostral de aproxima-se, para n grande, de uma distribuição normal, com média e variância . Distribuição Amostral de uma Estatística T ASPECTOS GERAIS Neste momento iremos descrever a relação entre variáveis traçando o gráfico e determinando a equação da reta que representa aquela relação. A esta equação denominamos de reta de regressão. DEFINIÇÕES Dada uma coleção de dados amostrais emparelhados, a equação de regressão Descreve a relação entre duas variáveis. O gráfico da equação de regressão é chamado de reta de regressão ou reta de mínimos quadrados. Variável dependente Variável independente 41 As equações normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais): Outra forma de escrevermos: coeficiente angular intercepta y 1) 2) é mínima 3) 4) A reta de regressão passa sempre pelo ponto Propriedades da equação de regressão X Y Yi Abordagem da Análise de Variância na Análise de Regressão 0 20 40 60 80 X Y SQTo = SQReg + SQRes Coeficiente de determinação 0 R2 1 Interpretação: R2 mede a fração da variação total de Y explicada pela regressão. Soma dos quadrados entre grupos Soma dos quadrados dentro grupos Abordagem da Análise de Variância na Análise de Regressão se H0 verdadeiro E(F) = 1 se H0 falso E(F) >>>> 1 Causas da Variação Soma de Quadrados Graus de Liberdade Quadrados Médios Regressão 1 Resíduo n - 2 Total n - 1
Compartilhar