Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade I MATEMÁTICA INTEGRADA Prof. MSc. Elvis Pontes Agenda Apresentação Introdução Amostragem Correlação linear Regressão linear Estimativa de parâmetros Apresentação Doutorando – USP / Escola Politécnica. CNPq. DoD (USA). MSc – USP / IPT – Instituto de Pesquisas Tecnológicas de São Paulo (USP). MBA – USP / IPEN – Instituto de Pesquisas Energéticas e Nucleares. BSc – FAC-FITO – Fac. Ciências da FITO. Técnico – Processamento de Dados – ITB. Apresentação Publicações internacionais: Universidade de Michigan (EUA); Universidade Lakehead (Canadá); East London University (UK); Parque Tecnológico Itaipu (PTI) – Foz do Iguaçu, Brasil; Risk Management – Book 2 (Áustria); Earthquake (Áustria). Editor-chefe do livro E-learning (Áustria). Universidade de Melbourne (Austrália). Área de pesquisa: Cyber-security. Introdução A estatística apresenta um referencial teórico para a coleta, a organização e o tratamento de informações no âmbito da Ciência, dos processos industriais e comerciais, bem como de situações cotidianas. Amostragem A escolha do método a ser utilizado na amostragem deve garantir uma amostra representativa da população em relação ao interesse que se tem sobre ela, tanto em gênero como em número. A utilização de amostras na realização de pesquisas é justificada pelo fato de que as populações (universo) nem sempre são totalmente acessíveis. Tempo e custo são fatores decisivos na opção pela amostragem. Tipos de amostragem Amostragem probabilística: Neste caso, cada elemento da população tem probabilidade conhecida e diferente de zero de pertencer à amostra. Amostragem não probabilística: Neste método, é feita uma escolha deliberada dos elementos que irão compô-la. Os resultados dessa amostra não podem ser generalizados para a população; a confiabilidade diminui. Técnicas de amostragem (I) Amostragem aleatória simples: Todos os elementos da população têm a mesma probabilidade de pertencer à amostra. A determinação dos elementos pode ser feita por tabela de números aleatórios e sorteios. Seja N o número de elementos da população Ω e n o no de elementos de uma amostra A = {a1, a2,..., an}. Cada elemento da população tem probabilidade n/N de pertencer à amostra. Assim, p(an) = n/N. Por definição, 0 < p(A) < 1. Técnicas de amostragem (II) Amostragem aleatória estratificada: Utilizada quando a população em questão é heterogênea. Ela se divide em subpopulações homogêneas, chamadas de estratos. Dessa forma, a variável em estudo pode apresentar comportamento homogêneo dentro de cada estrato. Exemplo: selecionar uma amostra com números de homens e mulheres proporcionais à composição de homens e mulheres existentes na população, por classe social. Técnicas de amostragem (III) Amostragem por conglomerados: Existem alguns casos em que pode ser muito fácil a identificação dos elementos em alguns subgrupos (conglomerados) dessa população. Pode ser realizada nessa situação uma amostra aleatória simples desses conglomerados. Em cada conglomerado sorteado, faz-se a contagem completa dos elementos. Exemplos comuns de conglomerados: turmas de escolas, quarteirões de bairros etc. O IBGE utiliza muito esse tipo de amostragem. Técnicas de amostragem (IV) Amostragem sistemática: Utilizada quando os elementos da população se apresentam ordenados de acordo com algum critério. Um exemplo seria a retirada de elementos de uma amostra, periodicamente, a partir de listas. Amostragem em múltiplas etapas: Técnica utilizada para produzir uma amostra representativa de uma população muito espalhada. Similar à técnica por conglomerados, mas nesse caso, o processo só é finalizado quando há seleção de unidades individuais de amostragem. Dados de uma amostra As formas que os dados de uma amostra são explorados podem mudar completamente um estudo. Em um estudo, o cuidado na escolha da amostra é importante para o emprego adequado dos métodos estatísticos. Existem várias técnicas de amostragem que podem ser utilizadas para facilitar o trabalho de pesquisa, evitando, dessa forma, um custo excessivo e desnecessário na caracterização de todos os elementos de uma população. Interatividade A Secretaria de Educação de um município deseja investigar os casos de fraude e burla da fila de espera para matrícula de alunos na rede municipal de ensino. Assim, analisam-se (1) as listas de espera com ordenação por data de inserção dos candidatos; (2) listas de alunos matriculados, ordenados por data de matrícula. A técnica de amostragem adotada é: a) Amostragem aleatória simples. b) Amostragem aleatória estratificada. c) Amostragem sistemática. d) Amostragem em múltiplas etapas. e) Amostragem não probabilística. Correlação linear O significado do termo “correlação” é a existência da relação em dois sentidos (co + relação). O termo é usado em estatística para demonstrar a força da relação entre dois conjuntos de dados. Verificar se a possível existência e o grau de relação entre as variáveis são objetos de estudo da correlação. Exemplo: a estatura de uma pessoa e o seu peso. Para uma estatura maior, corresponde, em geral, a um peso maior. Dizemos, por isso, que entre as variáveis peso e estatura existe correlação. Coeficiente de correlação de Pearson O coeficiente de correlação linear, ou coeficiente de Pearson, indica se existe correlação entre as variáveis analisadas. Existirá correlação linear se esse coeficiente estiver entre -1 e + 1, o que em porcentagem representa um valor entre -100% e + 100%. Coeficiente de correlação de Pearson: cálculo Esse coeficiente é calculado assim: r = coeficiente de correlação x = variável independente y = variável dependente n = número de possíveis correlações entre as variáveis r = – – Tipo de correlação, segundo o coeficiente de correlação r Correlação positiva Dizemos que existe uma correlação positiva entre duas variáveis quando o aumento da variável independente resulta no aumento da variável dependente. Exemplo: Se o aumento de horas extras (variável independente) corresponder ao crescimento da produtividade de uma empresa (variável dependente), então ocorre correlação positiva. Diagrama de dispersão Os diagramas de dispersão mostram o comportamento da relação entre variáveis em decorrência do coeficiente de correlação linear. Correlação negativa Dizemos que existe uma correlação negativa entre duas variáveis quando o aumento da variável independente resulta no decréscimo da variável dependente. Exemplo: Se o aumento das horas de atividades físicas (variável independente) corresponder à diminuição do peso dos pacientes (variável dependente), então ocorre correlação negativa. Diagrama de dispersão Exemplo de aplicação Deseja-se estudar as despesas com investimentos em treinamento de pessoal e a produtividade (toneladas) durante certo período de uma empresa. Pede-se: a) Verificar se existe correlação entre as variáveis. b) Em caso afirmativo, que tipo de correlação: positiva ou negativa? Fraca, forte ou moderada? Justifique. Tabela: investimento (R$) x produtividade (toneladas) Cálculo das somatórias Primeiro passo, calcular as somatórias: Σ x, Σ y, Σ x², Σ y² e Σ x.yCálculo do coeficiente de correlação r r = – – r = – – r = = = = 0,95 r = – – Conclusão a) Existe correlação entre as variáveis. b) A correlação linear é forte e positiva, uma vez que o coeficiente r se encontra dentro do intervalo 0,8 ≤ r < 1, conforme classificação. Pode-se concluir que: o aumento do investimento em treinamento de pessoal aumenta a produtividade. Interatividade Um empresário analisou 6 registros dos gastos com manutenção e o número de lotes produzidos de determinado componente de uma fábrica. Depois de tabulados os dados, obteve-se Σx = 33, Σy = 152, Σxy = 714, Σx² = 199, Σy² = 5386. O coeficiente de correlação entre as variáveis é: a) r = 0,75 b) r = 0,70 c) r = -0,74 d) r = -0,75 e) r = 0,80 Regressão linear O uso da análise de regressão tem como prioridade fazer previsões, estimativas ou projeções. O objetivo é desenvolver um modelo estatístico que será usado para estimar valores de uma variável dependente y em função de uma variável independente x. Conceito de regressão linear A regressão linear é um método para se estimar valores da variável y, dados outros valores das variáveis x, ou seja, trata-se de uma técnica estatística em que se deseja estimar um valor condicional esperado. O modelo de regressão linear é chamado linear porque levamos em consideração que a relação entre as variáveis é uma função linear de alguns parâmetros. Diagrama de dispersão Um instituto de pesquisa administra o desenvolvimento de seus pesquisadores de acordo com o número de entrevistas realizadas por eles e com os respectivos tempos de experiência. Sendo assim, esse instituto de pesquisa deseja desenvolver um modelo para prever o número de entrevistas em um certo dia. Acredita-se que a experiência do entrevistador (medida em semanas trabalhadas) é determinante em relação ao número de entrevistas realizadas. Uma amostra de 10 entrevistadores revelou os seguintes dados: Tabela e diagrama de dispersão Sendo y = número de entrevistas realizadas e x = semanas de experiência, inicialmente construímos o diagrama de dispersão. Diagrama de dispersão A análise do gráfico indica uma relação entre as variáveis. Quando o número de semanas trabalhadas aumenta (aumentando a experiência do entrevistador), o número de entrevistas realizadas também aumenta. Determinação da equação de regressão linear simples y = a + bx: Sendo: Em que: y = valor previsto para um valor dado de x b = inclinação da reta x = valor dado a = - b = = b = – n= número de possíveis correlações entre x e y Aplicação prática Em um exemplo já estudado, calculamos o coeficiente de correlação entre as despesas com investimentos em treinamento de pessoal e a produtividade (toneladas) investigada durante certo período de uma empresa. Obter a equação da reta para o investimento em treinamento de pessoal e a produtividade da empresa. Vamos usar as somatórias calculadas: n = 10; Σx = 80; Σx2 = 756; Σy2 = 7097; Σy = 255; Σx.y = 2289. Solução da aplicação prática Equação da reta de regressão: y = a + bx Cálculo da inclinação da reta: b b = – = – b = – = b = b = 2,15 Cálculo das médias x e y e a: Substituindo a e b na equação da reta: y = a + bx Logo: y = 8,3 + 2,15x = = = = = 8 = 25,5 a = - b a = 25,5 – 2,15.8 a = 25,5 – 17,2 a = 8,3 Estimativa de parâmetros O método de “estimação de parâmetros” é utilizado para se obter estimadores em casos específicos, por exemplo, quando fazemos alguma hipótese sobre algum parâmetro relativo à distribuição da população. Esse processo utiliza dados da amostra para fazer a estimativa de valores de parâmetros populacionais. Estimativa e o valor numérico assumido pelo estimador, ou seja, valor aproximado do parâmetro, calculado com base na amostra. Parâmetros (população) e estatísticas (amostra) Entre os estimadores mais comuns estão: Amostras Média amostral: Desvio padrão amostral: s População Média populacional: μ Desvio padrão populacional: σ Teorema do limite central Para entender o Teorema do Limite Central, é preciso ter claros os conceitos de distribuição amostral e de distribuição amostral de médias das amostras. Assim: Distribuição amostral pode ser definida como a distribuição de probabilidade de uma estatística qualquer da amostra, formada a partir de repetidas amostras de tamanho n coletadas de uma população. Distribuição amostral de médias das amostras é quando a estatística da amostra é sua média. Distribuição amostral Considere todas as amostras possíveis de tamanho n que podem ser retiradas de uma população de tamanho N (com ou sem reposição). Para cada amostra, é possível calcular uma grandeza estatística, como a média, mediana, variância, desvio padrão etc.; que irá sofrer uma variação de uma amostra para outra. Assim, obtém-se uma distribuição da grandeza calculada de cada amostra possível de ser extraída, denominada distribuição amostral. Propriedades das distribuições amostrais de médias das amostras A média das médias das amostras (μx) é considerada igual à média populacional μ. O desvio padrão das médias das amostras (σx) é igual à razão do desvio padrão populacional σ pela raiz quadrada de N. O desvio padrão da distribuição amostral de médias das amostras é chamado de erro padrão da média. = Interatividade Um empresário analisou 6 registros de gastos com manutenção e o número de lotes produzidos de determinado componente de uma fábrica. Depois de tabulados os dados, obteve-se Σx = 33, Σy = 152, Σxy = 714, Σx² = 199, Σy² = 5386. A equação da reta de regressão linear é: a) y = 63,67x – 6,97 b) y = -38,67x – 6,97 c) y = -63,67x – 6,97 d) y = -6,97 x – 38,67 e) y = -6,97x + 63,68 Intervalo de confiança para a média populacional (n≥30) A distribuição das médias amostrais se aproxima de uma distribuição normal. α = nível de significância populacional: (mais usados são 1% e 5%). Diagrama: região de aceitação e região crítica - Zc e + Zc são valores críticos obtidos a partir da tabela de distribuição normal. 1 - α = nível de confiança do intervalo. Zc = Intervalo de confiança para a média populacional (n≥30) Para amostras grandes, temos: P( -ZC < Z < +ZC ) = (1 - α) Se o desvio padrão populacional for conhecido: Amostragem de população infinita ou amostragem de população finita com reposição: P ( - z . < μ < + z . ) = (1 – α) P ( – zc . σ < μ < + zc . σ = (1 – α) Intervalo de confiança para a média populacional (n≥30) Se o desvio padrão populacional for desconhecido e n ≥ 30: Normalmente, o desvio padrão da população σ não é conhecido e é necessário, então, em substituição a σ, usar a estimativa do desvio padrão S obtida da amostra, com a condição de que n ≥ 30. Intervalo de confiança para média populacional (n<30) Caso n < 30, a aproximação pela curva normal não será suficiente, devendo ser feita uma correção usando-se a variável t de Student. Cálculo de tc: distribuição t-Student Temos a variável com distribuição t de Student (tc), com Ø grau de liberdade. O grau de liberdade é definido como: g.l = n – 1. tc = P ( - tc . ≤ μ ≤ + tc . )= (1 – α) Exemplo Uma amostra de 10 medidas do diâmetro de uma esfera apresenta média de 4,38 e desvio padrão de 0,06. Determine os limites de confiança de 99% para o diâmetro efetivo (população infinita). Solução: x = 4,38 n = 10 (n < 30) (Distribuição t-Student) S = 0,06 g.l. = n - 1 = 10 -1 = 9 1 - α = 0,99, então α = 0,01 Consulta tabela (Distr. T-Student) Consultando a tabela de distribuição t Student com α = 0,01 e g.l. = 9: Valor tabelado encontrado é: tc = 3,250 Solução (continuação) Cálculo do intervalo de confiança: Resposta: Pelo resultado encontrado, com 99% de confiança, podemos admitir que a verdadeira média populacional (μ) esteja contida no intervalo 4,32 ≤ μ ≤ 4,44. P ( - tc . < μ < + tc . ) = (1 – α) P (4,38 – 3,25 . < μ < 4,38 + 3,25. ) = (1 - 0,01) P (4,32 < μ < 4,44) = 0,99 Intervalo de confiança para a variância e o desvio padrão A construção do intervalo de confiança para a variância é feita utilizando-se a distribuição de X² (lê-se “qui-quadrado”), sendo definido por: O valor de X² é tabelado sendo: P = (1 – α) com ; ( n- 1) graus de liberdade (g.l.) e com 1- ; ( n- 1) g.l. Exemplo de aplicação A amostra a seguir refere-se às vendas em kg de uma amostra de produtos hortigranjeiros de certo estabelecimento. Construa um intervalo de confiança para o desvio padrão populacional das vendas, com nível de confiança de 90%. Vendas - xi: 2, 2, 4, 4, 5, 7, 8, 8, 8, 9, 9 Solução: Média aritmética das vendas. = = = = 6,0 kg Solução (continuação) Determinação do desvio padrão amostral das vendas. s² = 6,8 = s² = = Cálculo do intervalo de confiança P = (1 – α) com = = 5% = 0,05 e g.l.: ( n- 1) = (11 – 1) = 10 = 18,307 com 1- = 1 - = 95% = 0,95 e g.l. ( n- 1) = (11-1) = 10 = 3,940 Cálculo do intervalo de confiança P ( ) < σ² < ) = (1- 0,10) P ( < σ² < ) = 0,90 P ( < σ² < ) = 0,90 P = (1 – α) Solução (continuação) Resposta O desvio padrão populacional está situado no intervalo 1,927 e 4,154, com uma confiança de 90%. Intervalo de confiança para a variância: P ( < σ² < ) = 0,90 Intervalo de confiança para o desvio padrão: P ( < σ < ) = 0,90 Conclusão Um Intervalo de Confiança (IC) é um intervalo estimado a respeito de um parâmetro estatístico. Em vez de fazermos a estimativa do parâmetro por apenas um valor, é dado um intervalo de estimativas prováveis. O quanto serão prováveis essas estimativas, ou seja, o quanto podemos confiar nelas, é determinado pelo coeficiente de confiança (α). Interatividade Sabe que a vida útil de uma peça de equipamento tem σ = 5h. Uma amostra de 100 unidades dessas peças forneceu x = 500h. O intervalo de confiança com nível de 95% para média μ é: a) 499,42 < μ < 500,98 b) 498,32 < μ < 499,98 c) 499,12 < μ < 500,78 d) 499,02 < μ < 500,98 e) 501,02 < μ < 501,98 ATÉ A PRÓXIMA! Slide Number 1 Agenda Apresentação Apresentação Introdução Amostragem Tipos de amostragem Técnicas de amostragem (I) Técnicas de amostragem (II) Técnicas de amostragem (III) Técnicas de amostragem (IV) Dados de uma amostra Interatividade Resposta Correlação linear Coeficiente de correlação de Pearson Coeficiente de correlação de Pearson: cálculo Tipo de correlação, segundo o coeficiente de correlação r Correlação positiva Diagrama de dispersão Correlação negativa Diagrama de dispersão Exemplo de aplicação Tabela: investimento (R$) x produtividade (toneladas) Cálculo das somatórias Cálculo do coeficiente de correlação r Conclusão Interatividade Resposta Regressão linear Conceito de regressão linear Diagrama de dispersão Tabela e diagrama de dispersão Diagrama de dispersão Determinação da equação de regressão linear simples Aplicação prática Solução da aplicação prática Slide Number 38 Estimativa de parâmetros Parâmetros (população) e estatísticas (amostra) Teorema do limite central Distribuição amostral Propriedades das distribuições amostrais de médias das amostras Interatividade Resposta Intervalo de confiança para a média populacional (n≥30) Diagrama: região de aceitação e região crítica Intervalo de confiança para a média populacional (n≥30) Intervalo de confiança para a média populacional (n≥30) Intervalo de confiança para média populacional (n<30) Cálculo de tc: distribuição t-Student Exemplo Consulta tabela (Distr. T-Student) Solução (continuação) Intervalo de confiança para a variância e o desvio padrão Exemplo de aplicação Solução (continuação) Cálculo do intervalo de confiança Cálculo do intervalo de confiança Solução (continuação) Conclusão Interatividade Resposta Slide Number 64
Compartilhar