Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Universidade Federal de Santa Maria Colégio Politécnico da UFSM Cursos Gestão de Cooperativas Geoprocessamento Administração Agroindústria Estatística Básica Profs.: Aier Tadeu Morcelli/Valmir Viera/ Antoninho Pegoraro 1 ESTATÍSTICA É uma metodologia ou conjunto de técnicas que utiliza a coleta de dados, sua classificação, sua apresentação ou representação, sua análise e sua interpretação visando a sua utilização dentro de um processo decisório. 2 RAMOS DA ESTATÍSTICA Descritiva: procura descrever e analisar um certo grupo de observações, denominado por amostra. A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e sumarizar um conjunto de dados. Se diferencia da estatística inferencial, ou estatística indutiva, pelo objetivo: organizar, sumarizar dados ao invés de usar os dados em aprendizado sobre a população. Esse princípio faz da estatística descritiva independente. Fonte:Wikipédia Inferencial : compreende um processo de generalização, a partir da análise e interpretação de dados amostrais. Teoria da Probabilidade: preocupa-se em estudar a margem de risco ou incerteza das inferências feitas a partir de dados amostrais 3 CONCEITOS BÁSICOS População: é o conjunto que reúne todos os elementos com uma característica comum e que é objeto de estudo. Amostra: é um subconjunto não vazio de uma população. Amostragem Aleatória: é uma técnica de amostragem onde cada elemento da população tem a mesma probabilidade de ser selecionado. Experimento Aleatório: ex: lançar o dado e observar o resultado, jogar uma moeda e verificar a face voltada para cima, tirar uma carta de um baralho. Espaço Amostral: é o conjunto de todos os resultados possíveis de um experimento. Evento: é um subconjunto do espaço amostral. Evento Certo: é um subconjunto igual ao espaço amostral. Evento Impossível: é um subconjunto cujos elementos não pertencem ao espaço amostral. Não se realiza. 4 DADOS ESTATÍSTICOS Quanto à Organização: Brutos: dados dispostos conforme coletados. ex: lista de chamada com respectivas notas. Rol: dados organizados em ordem crescente ou decrescente. Quanto à Espécie: Contínuos: Valores pertencentes ao conjunto dos números reais. ex: altura, peso, comprimento. Discretos: Valores pertencentes ao conjunto dos números naturais ex: nº de livros, nº de alunos. Nominais ou Categóricos: ex: sexo, cor, campo de estudo. Por Postos: dados sujeitos à avaliações subjetivas. Ex: concurso de beleza, melhor ou pior, 1º, 2º, 3º colocados. 5 VARIÁVEIS E ATRIBUTOS Variáveis: quando os dados têm expressão quantitativa; relacionada à mensuração. Atributos: quando os dados têm expressão qualitativa; não trazendo em si a ideia de mensuração. Ex: cor dos olhos. 6 DISTRIBUIÇÃO DE FREQUÊNCIAS É a representação dos dados em forma de tabela. Podem ser discretas ou contínuas. 7 DISTRIBUIÇÃO DE FREQUÊNCIAS PARA DADOS DISCRETOS Classe: cada um dos agrupamentos de dados em que dividimos um conjunto de dados. Frequência Simples Absoluta (fi): É a quantidade de dados de um certo valor. Amplitude Amostral: É a diferença entre o maior valor e o menor valor da amostra. Frequência Relativa: É a frequência simples absoluta dada em porcentagem. Frequência Absoluta Acumulada: É a acumulação das frequências em ordem crescente ou decrescente. ESQUEMA DAS FREQUÊNCIAS: Absoluta Frequência Simples Relativa Absoluta Crescente Relativa Frequência Acumulada Absoluta Decrescente Relativa 8 DISTRIBUIÇÃO DE FREQUENCIAS DE DADOS CONTÍNUOS Não existe uma regra única para definir o número de classes, procedimento que tem um pouco de tentativa e erro na procura do melhor histograma que represente as observações. A série se transforma numa nova série cujos valores são os limites dos intervalos de classes, resultando em perda de informações. Melhora a distribuição dos erros: + erro do observador + erro do método utilizado + erro do equipamento de medida A representação por intervalos pode ser usada para dados discretos, no caso de amostras grandes (n>30). Classe: É cada um dos grupos ou intervalos obtidos do conjunto de dados. Número de Classes: Regra de Sturges: K = 1 + 3,3 log n K = nº de classes n = nº total de observações Recomenda-se 5 K 16 Amplitude Total: É a diferença entre o maior valor e o menor valor da amostra ou população. Amplitude de Classe: É a diferença entre o limite superior e inferior de uma classe. Quando a amplitude de classe for zero, devemos diminuir o número de classes em uma unidade (n-1). Ponto Médio de uma Classe: É a média aritmética dos limites inferior e superior da mesma classe. Passos para construção da Tabela de Frequência: lista de dados brutos fazer o Rol calcular a Amplitude Amostral A calcular o nº de classes K – utilizar apenas o valor inteiro de K determinar a Amplitude do intervalo de classe C = A/K escolher os limites da classe nº inteiros se possível construir a tabela REPRESENTAÇÃO GRÁFICA 9.1 gráficos de hastes ou bastões: Utilizado na representação de dados não agrupados em classes, o que ocorre geralmente para dados discretos. Dizemos que neste não há perda de informações. Sempre utilizamos a coluna da frequência absoluta da tabela de dados não agrupados. 9. 2 Histograma: Utilizado na representação de dados agrupados em classes, o que normalmente ocorre com dados contínuos. Dizemos que nesse caso há perda de informações. Sempre utilizamos a coluna da frequência absoluta da tabela de dados agrupados. 9.3 Ogiva: São gráficos semelhantes aos histogramas, porém utilizam as frequências acumuladas. 9.4 setores: São gráficos que também são conhecidos como PIZZA. São representados por círculos com fatias de área proporcional às porcentagens ou frequências absolutas. 9.5 Pareto É o gráfico de colunas que ordena as frequências das ocorrências, da maior para a menor, permitindo priorização dos problemas, procurando levar a cabo o princípio de Pareto (poucas essenciais, muitas triviais). Sua maior utilidade é a de permitir uma fácil visualização e identificação das causas ou problemas mais importantes. É uma das sete ferramentas da qualidade. -As sete ferramentas do controle de qualidade Diagrama de Pareto Diagramas de causa e efeito Histogramas Folhas de verificação Gráficos de dispersão Fluxogramas Cartas de controle MEDIDAS DE POSIÇÃO 10.1 MÉDIA ARITMÉTICA SIMPLES: É o quociente entre o somatório dos valores observados e o seu nº total (quantidade). É um tipo de média que pode induzir à incorreções, pois a diferença entre os valores extremos pode produzir uma média que não é a realidade. = ; Fórmula 1: Média aritmética simples 10.2 MÉDIA ARITMÉTICA PONDERADA: É o quociente entre o somatório dos produtos dos valores pelos seus respectivos pesos e o somatório dos pesos. = ; Fórmula 2: Média aritmética Ponderada 10.3 MÉDIA GEOMÉTRICA: Consiste em multiplicar os valores de um conjunto de dados não nulos e extrair a raiz do produto encontrado, utilizando como índice da raiz o nº de valores multiplicados. Não é muito influenciado pelos valores extremos. Deve ser utilizada quando os dados estão em progressão geométrica. = ; Fórmula 3: Média Geométrica 10.4 MÉDIA HARMÔNICA SIMPLES e PONDERADA: Corresponde ao quociente do nº de valores de uma sequência, pela soma dos inversos desses elementos. = ; Fórmula 4: Média Harmônica Simples = ; Fórmula 5: Média Harmônica Ponderada 10.5 MÉDIA INTERNA (EXCEL): Extrai-se uma porcentagem dos extremos para o cálculo da média. Esta média é encontrada no EXCEL cuja fórmula é: =MÉDIA.INTERNA (matriz ; porcentagem) Exercícios - Completar o cálculo das médias dos alunos Notas dos alunos da turma de Técnico em Administração Bimestre 1 2 3 4 Média Aritmética Média Ponderada Média Geométrica Média Harmônica Média Harmônica Ponderada Peso 2 4 6 8 1 João 2 4 6 10 5,5 6,8 4,680 3,934 5,263 2 Maria 10 6 4 2 3 José 5 6 6 5 4 Pedro 3 3 6 6 5 Antonio 4 4 7 7 6 Julia 5 5 8 8 10.6 MEDIANA (Md): Também denominada Valor Mediano, corresponde ao valor que ocupa a posição central numa sequência de números ordenados. Procedimento para obter a Mediana: colocar a sequência em ordem crescente ou decrescente; se a sequência tiver nº ímpar de elementos, a Md será o elemento central; se a sequência tiver nº par de elementos, fazemos a média aritmética dos 2 elementos centrais. Exemplo: encontrar o aluno (ou os alunos) que está(ão) na posição central da lista de chamada. 10.7 MODA (Mo): Também denominada Valor Modal, é o valor que apresenta maior frequência no conjunto de dados em estudo, ou seja, é o que se repete mais vezes. Uma sequência pode ter ou possuir vários valores modais: Unimodal – quando um único valor se repete. Bimodal – quando 2 valores se repetem na maior frequência. Multimodal – quando 3 ou mais valores se repetem na maior frequência. 11 MEDIDAS DESCRITIVAS PARA DADOS TABULADOS 11.1 MEDIA ARITMÉTICA: = ; Fórmula 6: Média Aritmética fi = frequência da classe pm = ponto médio da classe k = nº de classes 11.2 MEDIANA: Procedimento: Determinar a classe mediana que é aquela em que se encontra o termo central da distribuição de dados. Encontra-se a classe mediana, fazendo-se: ou A partir deste valor, procura-se sua posição na coluna das frequências acumuladas para verificar a que classe pertence a mediana. A partir daí, trabalha-se apenas com essa classe; Substituir os valores na fórmula: ; Fórmula 6: Média Mediana onde: fiMd = frequência absoluta da classe mediana faant = frequência acumulada anterior à classe mediana fi = frequência absoluta da classe mediana li = limite inferior da classe mediana h = intervalo da classe mediana 11.3 MODA: Há 3 fórmulas para determinar a moda: fórmula de Czuber, fórmula de King e de Pearson. Na fórmula de King, primeiro é necessário descobrir a CLASSE MODAL que é aquela que é a de maior frequência absoluta e, a partir dela, encontrar a moda. Caso haja mais de uma classe com a mesma frequência (maior), calculam-se as várias modas. ; Fórmula 7. Fórmula moda por King Onde: fpost = frequência absoluta posterior à classe modal fant = frequência absoluta anterior li = limite inferior da classe modal (aquela ou aquelas que tem maior frequência) h=amplitude da classe 12 MEDIDAS DE DISPERSÃO Medem a variabilidade dos elementos em relação à média, uma vez que a média, tomada como medida representativa de posição central dos dados esconde toda informação sobre a variabilidade do conjunto de dados. As medidas de dispersão servem para avaliar o quanto os dados são semelhantes, descreve então o quanto os dados distam do valor central. As medidas de dispersão medem a consistência de uma distribuição de frequências. Por consistência, podemos entender o grau de variabilidade das ocorrências da distribuição em relação a uma medida de posição com tendência central (por exemplo, a média aritmética simples ou ponderada e a mediana) 12.1 DESVIO (di): É a diferença entre qualquer valor e a média. Pode ser positivo, negativo ou nulo. É a distância de cada dado à média. O somatório dos desvios deve ser sempre nulo. Exemplo: A={5,4,3,2,1}; = 3 Desvios= {2,1,0,-1,-2} B={105,104,103,102,101}; = 103 Desvios = {2,1,0,-1,-2} Pesos de uma turma de 15 alunos: C={50;55;56;56;57;58;60;60;61;63;65;70;70;70;75;}; = 62,4; Desvios = {(50-62,4); (55-62,4); (56-62,4); (56-62,4); (57-62,4); (58-62,4); (60-62,4); (60-62,4); (61-62,4); (63-62,4); (65-62,4); (70-62,4); (70-62,4); (70-62,4); (75-62,4)} Desvios = {-12,4; -6,4; -6,4; -5,4; -4,4; -2,4; -2,4; -1,4; 0,6; 0,6; 2,6; 2,6; 7,6; 7,6; 7,6; 12,6} 12.2 DESVIO MÉDIO ABSOLUTO (dma): É a média aritmética dos módulos de todos os desvios, tomados em relação à média do conjunto de dados. Deve ser mínimo, isto é, se a média for alterada, para um mesmo conjunto de dados o valor será maior. Exemplo: Desvios dos pesos de uma turma de 15 alunos – distância de cada peso da média Desvios = {-12,4; -6,4; -6,4; -5,4; -4,4; -2,4; -2,4; -1,4; 0,6; 0,6; 2,6; 2,6; 7,6; 7,6; 7,6; 12,6} Distâncias = {12,4; 6,4; 6,4; 5,4; 4,4; 2,4; 2,4; 1,4; 0,6; 0,6; 2,6; 2,6; 7,6; 7,6; 7,6; 12,6} DMA = Média das distâncias=(82,4/15)= 5,493. 12.3 VARIÂNCIA: É a média dos quadrados dos desvios, portanto é sempre um valor positivo. Quando todos os valores da série são iguais, a variância é igual a zero. == ; Fórmula 8. Variância Amostral == ;Fórmula 9.Variância Populacional Exemplo: Desvios dos pesos de uma turma de 15 alunos – Média dos quadrados dos desvios ou quadrados das distâncias de cada peso da média ao quadrado Quadrados dos Desvios = {(-12,4)2; (-6,4)2; (-6,4)2; (-5,4)2; (-4,4)2; (-2,4)2; (-2,4)2; (-1,4)2; (0,6)2; (0,6)2; (2,6)2; (2,6)2; (7,6)2; (7,6)2; (7,6)2; (12,6)2} Quadrados dos Desvios = {(153,76); (40,96); (40,96); (29,16); (19,36); (5,76); (5,76); (1,96); (0,36); (0,36); (6,76); (6,76); (57,76); (57,76); (57,76); (158,76)} Média dos quadrados dos desvios= 643,60/15= 80,45 Variância populacional 12.4 DESVIO PADRÃO: É a medida mais usada na comparação de diferenças entre agrupamentos. Ele determina a dispersão dos valores em relação à média. É igual a raiz quadrada da média aritmética dos quadrados dos desvios. = = ; Fórmula 10.Desvio Padrão (DPpop) = = ; Fórmula 11. Desvio Padrão (DPam) Exemplo: Desvio padrão dos pesos de uma turma de 15 alunos= Raiz quadrada (80,45)= 8,96939 A Variância e o Desvio Padrão são consideradas medidas de dispersão e utilizadas nas situações em que grupos com médias de valores iguais, possuem características diferentes. A Variância estabelece os desvios em relação à média aritmética e o Desvio Padrão analisa a regularidade dos valores. Vamos através de um exemplo prático, demonstrar uma aplicação básica envolvendo as duas medidas. Exemplo prático: Na preparação para os jogos Olímpicos de Atenas, quatro atletas do salto em altura ao realizarem um treinamento diário, consideraram seus quatro melhores saltos em centímetros. 167 Dentre os atletas, a melhor média foi a do Atleta Z, veja: Atleta X = (144 + 171 + 150 + 138) / 4 = 150,75 Atleta Y = (146 + 170 + 152 + 137) / 4 = 151,25 Atleta Z = (145 + 169 + 154 + 140) / 4 = 152 Atleta W = (150 + 167 + 149 + 141) / 4 = 151,75 Em situações que envolvam disputas olímpicas, o atleta com melhor média, às vezes não é considerado o mais indicado, pois verifica-se a questão da regularidade dos resultados obtidos. É referente a esses casos que aplicamos os cálculos ligados à Variância e ao Desvio Padrão. Lembre-se de que o desvio padrão consiste na raiz quadrada da variância. Cálculo da Variância e do Desvio Padrão O atleta que obteve o menor Desvio Padrão deve ser considerado o de melhor regularidade em resultados. Dessa forma, temos que o atleta W se enquadra nessa condição de melhor regularidade. Por Marcos Noé Pedro Da Silva em http://www.mundoeducacao.com.br/matematica/variancia-desvio-padrao.htm 12.4.1 APLICAÇÃO DO DESVIO PADRÃO Conhecido o valor do desvio padrão, de uma série de dados, o próximo passo é usar este valor para avaliar a dispersão dos dados. Sabemos que se duas séries têm a mesma média e desvios padrões diferentes, a série com desvio padrão maior terá uma distribuição de frequências mais aberta que a série com desvio padrão menor. Nesta parte veremos que, se o desvio de uma observação de uma série é menor que o valor do desvio padrão da série, então essa observação está mais próxima da média do que outra observação que tenha desvio padrão maior. 12.4.2 TEOREMA DE CHEBYSHEV A média e o desvio padrão de uma série de observações X permitem estabelecer um intervalo de valores definidos como , onde K é uma constante positiva. Pelo Teorema de Chebyshev conseguimos determinar a proporção mínima de observações de uma série que se encontram dentro de um determinado número de desvios padrões. REGRA PRÁTICA, especialmente para grandes amostras (n≥30) Seja os intervalos entre a média e um nº de desvios padrões : - encontram-se entre 60 e 80 % das observações. Em distribuições simétricas ocorrem 68 %. Quando a distribuição é assimétrica, com acentuada inclinação para um dos lados, esse valor se aproxima de 90%; - para distribuições simétricas, a porcentagem de observações é próxima de 95 %, Quando a distribuição é assimétrica, com acentuada inclinação para um dos lados, esse valor se aproxima de 100%; ; para todas as distribuições, a porcentagem será próxima de 100 %. 12.5 COEFICIENTE DE VARIAÇÃO: É uma medida relativa de dispersão, pois mede percentualmente a relação entre o desvio padrão e a média de um conjunto de dados. Com isso, torna-se possível comparar conjuntos de dados com variáveis diferentes.(Análise de dispersão de séries heterogêneas). Ainda permite a análise de séries que tiverem mesma variável, porem ordem de grandeza diferenciada. É uma medida relativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média. Exemplo: Série A : Média = 70 t desvio padrão=8,2 t Média= 820 t Desvio padrão=12 t. Quanto menor seu valor, mais homogêneo é o conjunto de dados. DESVANTAGEM: não pode ser usado quando a média é nula ou próxima de zero (no primeiro caso é impossível e no segundo altera-se enormemente). ; Fórmula 12.Coeficiente de Variação para amostras(1) ; Fórmula 13.Coeficiente de Variação para população(2) Exercício - Completar a tabela e determinar o aluno que teve maior e o que teve menor coeficiente de variação das notas Coeficiente de Variação das notas de alguns alunos de uma turma Bimestre 1 2 3 4 Média Aritmética Desvio Padrão amostral Coeficiente de variação Peso 2 4 6 8 1 João 2 4 6 10 2 José 5 6 6 5 3 Pedro 3 3 6 6 4 Antonio 4 4 7 7 5 Julia 5 5 8 8 6,5 1,73205081 26,6% 13 COVARIÂNCIA E CORRELAÇÃO Medem a tendência e a força da relação linear entre duas séries. Coeficiente de Correlação Linear ‘r’ mede o grau de relacionamento linear entre valores emparelhados x e y em uma amostra. 13.1 COVARIÂNCIA É igual ao resultado de dividir a soma dos produtos dos desvios das duas séries pelo número de observações N; Ou É a medida de uma nova série, cujos elementos estão formados pelos produtos dos desvios das observações de cada variável com relação a sua própria média. A covariância resume num único número a tendência e a força da relação linear entre duas séries. A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias. Simbologia População = σXY = COV(X,Y) = Amostra = SXY = COV(X,Y) = 13.2 Coeficiente de Correlação Também chamada de coeficiente de correlação, indica a força e a direção do relacionamento linear de duas variáveis. É um conceito usado para medir o grau de dependência linear entre duas variáveis, variando entre -1 e 1, indicando o sentido da dependência. Serve para facilitar a interpretação da covariância e eliminar a sua unidade de medida. É definida pela expressão. = Características importantes: seus valores estão limitados entre –1 e 1, isto é: -1≤ Rxy ≤1 é um valor único para a população ou amostra pode-se dizer que o coeficiente de correlação padroniza a covariância. A correlação é definida apenas se ambos os desvios padrões são finitos e diferentes de zero. 13.3 Interpretação do Coeficiente de Correlação Séries com r =+1 as duas séries estão perfeitamente correlacionadas em sentido positivo. quando os incrementos dos valores das observações nas duas variáveis são proporcionais e na mesma direção(ambas aumentam ou ambas diminuem). se os incrementos são iguais, os pares de valores se encontram na reta com declividade 45º. Séries com r=-1 as duas séries estão perfeitamente correlacionadas no sentido negativo. quando os incrementos dos valores das observações nas duas variáveis são proporcionais e em direções opostas, os pontos formados pelos pares fazem parte de uma reta com declividade negativa. se os incrementos são iguais, os pares de valores se encontram na reta com declividade de 135º. Séries com r próximo de +1 forte correlação positiva. A maioria dos pares de valores observados estão próximos de uma reta com declividade positiva. Séries com r próximo de zero fraca correlação positiva. A maioria dos pares de valores observados estão afastados de uma reta. Os pares formam uma nuvem, sugerindo alguma tendência com declividade positiva. Séries com r = zero não existe nenhuma relação. Todas as observações estão afastadas da reta, formando uma nuvem sem nenhuma tendência nem declividade. 13.4 Cálculo do Coeficiente de Determinação É utilizado para avaliar a qualidade do ajuste de um modelo de regressão. Ele indica quanto da variação total de Y é explicada pelo modelo de regressão ajustado aos dados. O quadrado do coeficiente de correlação de Pearson é chamado de coeficiente de determinação ou simplesmente R. É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. É pouco comum que tenhamos uma correlação perfeita () na prática, porque existem muitos fatores que determinam as relações entre variáveis na vida real. Da Wikipédia: O coeficiente de determinação, também chamado de R², é uma medida de ajustamento de um modelo estatístico linear generalizado, como a Regressão linear, em relação aos valores observados. O R² varia entre 0 e 1, indicando, em percentagem, o quanto o modelo consegue explicar os valores observados. Quanto maior o R², mais explicativo é modelo, melhor ele se ajusta à amostra. Por exemplo, se o R² de um modelo é 0,8234, isto significa que 82,34% da variável dependente consegue ser explicada pelos regressores presentes no modelo. Campo de variação de R2: Interpretação de R2: R2=1, todos os pontos observados estão sobre a função estimada. Neste caso, as variações de Y são 100% explicadas pelas variações de X, através da função especificada, não havendo desvios em torno da função estimada. R2=0, conclui-se que as variáveis de Y são puramente aleatórias e a inclusão da variável X no modelo não trará informação alguma sobre as variações de Y. 14 PROBABILIDADES Destina-se basicamente a estabelecer uma maneira de analisar experimentos. Apartir do conhecimento da forma como a população funciona, obtemos as probabilidades de acontecimento dos resultados desejados. Experimento Aleatório É aquele que tem resultado imprevisível, incerto. Exemplos: lançamento de um dado; lançamento de uma moeda; sorteio um número inteiro de um a cem. Espaço Amostral (S) É o conjunto de todos os resultados possíveis e diferentes de um experimento aleatório. Ex.: No lançamento de uma moeda temos: S={cara, coroa} No lançamento de um dado temos S={1,2,3,4,5,6} Evento É qualquer subconjunto do espaço amostral S. Ex.: A={cara} B={ coroa} C={1,2,3}={ x ∈ R/ x ≤ 3} D={1,3,5}={ x ∈ R/ x é impar} E={2,4,6}={ x ∈ R/ x é par} Probabilidade de um Evento Probabilidade é um conceito filosófico e matemático que permite a quantificação da incerteza, permitindo que ela seja aferida, analisada e usada para a realização de previsões ou para a orientação de intervenções. É aquilo que torna possível se lidar de forma racional com problemas envolvendo o imprevisível. A probabilidade teve o inicio de seus estudos nos jogos de azar Representa a chance de ocorrer um evento A. O valor p(A) ou probabilidade de ocorrer o evento A é igual ao nº de elementos de A dividido pelo número de elementos do espaço amostral. P(A)= OBS.: Se p(A) é a probabilidade de A ocorrer, então a probabilidade de A não ocorrer é p(Ā)= 1 – p(A) onde Ā = evento complementar de A. Ā também pode ser chamado de “não A”. P(A) + P(Ā) = 1 ou P(Ā) = 1 – P(A) Exemplo: Exemplo 1: No lançamento de um dado, determinar a probabilidade de se obter um número múltiplo de 3. SOLUÇÃO: O espaço amostral é U = { 1, 2, 3, 4, 5, 6}, portanto n(U) = 6 A ocorrência de um múltiplo de 3 é A = {3, 6}, portanto n(A) = 2 Logo a probabilidade de ocorrer o evento A é: P(A) = n( A) / n (S) = 2/6 = 33,33%. Exemplo 2: Se a probabilidade de um piloto ganhar uma corrida é de 1/5. Qual a probabilidade desse piloto não ganhar essa corrida ? SOLUÇÃO: Seja P(A) = 1/5, probabilidade de ganhar a corrida e P(Ā) a probabilidade de não ganhar a corrida, então: P(A) + P(Ā) = 1 → 1/5 + P(Ā) = 1 → P(Ā) = 1 – 1/5 = 4/5 ou 80% Regra da Adição ou da união de dois eventos Consideramos dois eventos A e B de um mesmo espaço amostral S, a probabilidade de ocorrer A ou B é dada por: Se A ∩ B = ø , teremos: P(A U B) = P( A ) + P( B ). Desta forma chamaremos A e B de eventos mutuamente exclusivos. Exemplo 1: Em uma amostra de 150 estudantes, 70 disseram que somente têm um aparelho de CD, 50 disseram que somente têm uma TV e 30 disseram que têm ambos. O Diagrama de Venn a seguir descreve esta situação. Se um estudante é selecionado ao acaso, qual é a probabilidade de que ele tenha somente um aparelho de CD ? De somente uma TV? De tanto uma TV como um aparelho de CD? 50 30 70 Espaço Amostral S= 150 estudantes, n(S)=150 Evento A= estudantes que só têm um aparelho de CD, n(A) = 70 Evento B= estudantes que só têm uma TV, n(B)= 50 A ∩ B = estudantes que têm Um aparelho de CD e TV, n(A ∩ B)=25 Pelo diagrama de Venn verificamos como os 150 estudantes estão distribuídos graficamente. P(A U B) = P( A ) + P( B )- P(A ∩ B) Exemplo 2: Sejam dois eventos do experimento lançamentos de um dado: Qual a probabilidade de ocorrer o evento A ou o evento B? Sendo A={1,3,5} ou evento dos números ímpares e B={2,4,6} ou evento dos números pares. Podemos ver que a interseção dos eventos é nula, isto é A ∩ B = ø. Portanto P(A U B) = P( A ) + P( B )= 3/6 + 3/6 = 6/6 = 1 = 100% Regra do Produto Considerando 2 eventos A e B, de um mesmo espaço amostral, a probabilidade de ocorrer A e B é dada por: ou Probabilidade condicional: Dados dois eventos A e B, a probabilidade condicional de A dado que ocorreu B é denotada por e definida por: sendo , ou sendo De outra maneira: Denomina-se probabilidade de A condicionada a B a probabilidade de ocorrência do evento A sabendo-se que ocorreu ou vai ocorrer o evento B, e é dada por: P(A/B) = n( A ∩ B ) / n ( B) Exemplo 1: Lança-se um par de dados não viciados. Se a soma dos pontos nos dois dados foi 8, calcule a probabilidade de ocorrer a face 5 em um deles. SOLUÇÃO: Considere os eventos: A: o 5 em uma das faces, então A={(1,5),(5, 1), (2,5), (5,2), (3,5), (5,3), (4,5) (5, 4), (5, 5)} , logo n(A)=9 B: A soma dos pontos igual a oito, então B= { (2,6), (6,2), (3,5), (5,3), (4,4)}, logo: n(B)=5 A ∩ B = {(3,5), (5,3)}, então n(A ∩ B)= 2 Logo a probabilidade de ocorrer, dado que ocorreu B é: P(A/B) = n( A ∩ B ) / n ( B) = 2/5 = 40%. Fonte: Apostila Introdução a Probabilidades - Elaborada pelo Prof. Carlinhos da Escola Dr Alfredo José Balbi, UNITAU Eventos Independentes Dizemos que E1 e E2 e ...En-1, En são eventos independentes quando a probabilidade de ocorrer um deles não depende do fato de os outros terem ou não terem ocorrido. Fórmula da probabilidade dos eventos independentes: P(E1 e E2 e E3 e ...e En-1 e En) = P(E1).P(E2).p(E3)...P(En) Exemplo: Uma urna tem 30 bolas, sendo 10 vermelhas e 20 azuis. Se sortearmos 2 bolas, 1 de cada vez e repondo a sorteada na urna, qual será a probabilidade de a primeira ser vermelha e a segunda ser azul? SOLUÇÃO: Como os eventos são independentes, a probabilidade de sair vermelha na primeira retirada e azul na segunda retirada é igual ao produto das probabilidades de cada condição, ou seja, P(A∩B) = P(A).P(B). Ora, a probabilidade de sair vermelha na primeira retirada é 10/30 e a de sair azul na segunda retirada 20/30. Daí, usando a regra do produto, temos: Observe que na segunda retirada foram consideradas todas as bolas, pois houve reposição. Assim, P(B/A) =P(B), porque o fato de sair bola vermelha na primeira retirada não influenciou a segunda retirada, já que ela foi reposta na urna. 15 TÉCNICAS DE AMOSTRAGEM Definida a população, é preciso estabelecer a técnica de amostragem, isto é, o procedimento que será adotado para escolher os elementos que irão compor a amostra. Em geral. As técnicas de amostragem dividem-se em: a) Probabilísticas: aleatória ou ao acaso; b) Não-probabilísticas: acidentais ou intencionais. 15.1 - MÉTODOS PROBABILÍSTICOS O método de amostragem probabilístico exige que cada elemento da população possua determinada possibilidade de ser selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o tamanho da população, a probabilidade de cada elemento será: Pi = Trata-se do método que garante cientificamente a aplicação das técnicas estatísticas de inferências. Somente com base em amostras probabilísticas é que se podem realizar inferências ou induções sobre a população, a partir do conhecimento da amostra. a) Amostragem Aleatória Simples A amostra aleatória simples é composta por elementos retirados ao acaso da população. Então todo elemento da população tem igual probabilidade de ser escolhido para a amostra. É o processo mais elementar e frequentemente utilizado. Atribui-se a cada elemento da população um número distinto. Efetuam-se inúmeros sorteios até completar o tamanho da amostra n. Para realizar estes sorteios, pode-se utilizar uma Tabela de Números Aleatórios(TNA) que apresenta sequências dos dígitos de 0 a 9 distribuídos aleatoriamente e que podem ser encontradas em livros de estatística. Outra maneira e bem mais simples consiste em obetr números aleatórios a partir da função randômica de calculadoras científicas ou do Microsoft Excel com as funções:{(=aleatório() ou (=aleatorioentre(inferior;superior)}. Exemplos. a1) Amostragem Aleatória Simples sem utilizar a TNA Imagine que um professor quer obter uma amostra casual simples dos alunos de sua escola. Para isso, pode-se organizar um sorteio com fichas numeradas, de zero a nove. Para fazer o sorteio, o professor retira de uma urna e anota o número. Esse número será o primeiro digito do número do aluno que será sorteado para a amostra. Feito isso, o professor recoloca a ficha na urna, mistura, retira outra ficha e anota o número, que será o segundo dígito do número do aluno que será sorteado para a amostra. Esse procedimento deve ser repetido até que sejam retirados todos os dígitos do número do aluno sorteado. A2) Amostragem Aleatória Simples utilizando a Tabela de Números Aleatórios Se uma população tem N= 1000 elementos, e deseja-se sortear 50 elementos para compor a amostra. O processo constitui-se de: 1. Numerar todos os indivíduos de 000 a. 999; 2. Estabelecer uma posição na TNA onde vai-se começar a rota a ser seguida Exemplo: Começar na 3a linha e 1a coluna e ir até o final da linha, retornando pela esquerda na 4a linha e 1a coluna e ir até o final da linha. E assim sucessivamente, sorteando sempre 3 algarismos consecutivos. b) Amostragem Sistemática Trata-se de uma variação da amostragem aleatória simples, conveniente quando a população está ordenada segundo algum critério, como fichas de um fichário, lista telefônica, etc. Calcula-se o intervalo de amostragem: a = N/n. Aproximando-se para o inteiro mais próximo. -Utiliza-se a TNA e sorteia-se um número "x” entre 1 e "a", formando-se a amostra dos elementos correspondentes aos números: x; x+a; x + 2a; x + 3a;... Por exemplo, seja uma população com N= 1.000 elementos, o tamanho da amostra que queremos retirar é de n= 200, então: 2. -Sorteia-se o número “x" entre 1 e 5; 3. -Se o sorteio resulta no número 3; então os elementos da amostra serão: 3, 8, 13, 18. ... c) Amostragem Estratificada Muitas vezes a população se divide, em subpopulações, subconjuntos ou estratos, sendo razoável supor que em cada estrato a variável de interesse (sendo estudada) apresente um comportamento substancialmente diverso. Por outro lado, pode-se supor que o comportamento é razoavelmente homogêneo dentro de cada estrato. Em tais casos, se o sorteio dos elementos da amostra for realizado sem se levar em consideração a existência dos estratos, pode acontecer que os diversos estratos não sejam convenientemente representados na amostra, o que influenciara o resultado pelas características dos estratos mais favorecidos pelo sorteio. Evidentemente, a tendência á ocorrência desta influência será tanto maior quanto menor for o tamanho da amostra. Para evitar este efeito, pode-se adotar uma amostragem estratificada. A amostragem estratificada consiste essencialmente em pré-determinar quantos elementos da amostra serão retirados de cada estrato. As amostras estratificadas são divididas em dois tipos principais. E para explicá-las utilizaremos o seguinte exemplo: Suponhamos que na escola São João, as 120 crianças matriculadas na faixa de 7 anos de idade estejam distribuídas em cinco classes, com quantidades diferentes de alunos. A primeira série A tem 20 alunos com 7 anos, a primeira série B tem 15, a C tem 35, a D 30 e a E tem 20. Como faríamos a seleção? 1. Amostragem estratificada uniforme: sorteia-se igual número de elementos de cada estrato. SOLUÇÃO: o pesquisador decidiu retirar 2 elementos de cada classe para compor a sua amostra: Classe População % Amostra A 20 10% 2 B 15 13,33% 2 C 35 5,71% 2 D 30 6,67% 2 D 20 10% 2 Total 120 10% 12 2. Amostra estratificada proporcional: o número de elementos em cada estrato é proporcional ao número de elementos existentes no estrato. É recomendada quando existe uma divisão natural da população em grupos com números de elementos diversos. SOLUÇÃO: A amostra deve ter no mínimo 10% da população = 120* 10% =12 elementos Calculamos a percentagem de crianças com 7 anos de idade cm cada classe. A primeira série A. com 20 aluno, tem 16,7% dos elementos da população; logo, 16,7% dos elementos sairão dessa classe. O cálculo para as demais classes segue o mesmo raciocínio. A: 16,7% de 20 = 2; B: 12,2% de 15=2 Classe População % Amostra A 20 16,7 2 B 15 12,2 2 C 35 29,1 3 D 30 25 3 D 20 16,7 2 Total 120 100 12 d) Amostragem por Conglomerados Divide-se a população em subconjuntos mutuamente excludentes e exaustivos, heterogêneos, de acordo com as variáveis que caracterizam o universo e com aproximadamente o mesmo número de elementos. Logo, sorteia-se certo número de subconjuntos que recebem o nome de conglomerados. Em cada conglomerado sorteado, estabelece-se uma base de amostragem e seleciona-se em cada um deles uma amostra aleatória simples. Obs: Eventos mutuamente excludentes: quando não têm elemento comum, ou se não podem ocorrer simultaneamente. SE não tiverem elementos em comum. São aqueles cuja intersecção é Φ, ou seja: A∩B=Φ Ex. No lançamento de um dado a saída de um número par ou ímpar é um exemplo de eventos mutuamente excludentes. Eventos coletivamente exaustivos: se nenhum outro resultado é possível para o experimento em causa. Ex: No lançamento de um dado os eventos a seguir são coletivamente exaustivos. E1; saída dos números 1 e 2, E2; saída dos números 3 e 4, E3; saída dos números 5 e 6 Na prática, selecionam-se os conglomerados geograficamente. Escolhem-se aleatoriamente algumas regiões, em seguida algumas sub-regiões e finalmente alguns lares. Esse processo possibilita ao pesquisador entrevistar apenas poucas pessoas É exemplo de amostragem por conglomerado, famílias, organizações e quarteirões. 15.2 MÉTODOS NÃO PROBABILISTICOS São amostragens em que há escolha deliberada dos elementos da amostra. Não é possível generalizar os resultados das pesquisas para a população, pois as amostras não probabilísticas não garantem a representatividade da população. a) Amostragem acidental Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, isto é, que são possíveis de obter até completar o número de elementos da amostra. Geralmente, utilizadas cm pesquisa da opinião, em que os entrevistados são acidentalmente escolhidos. b) Amostragem intencional De acordo com determinado critério, é escolhido intencionalmente o grupo dc elementos que irão compor a amostra. O investigador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião. Por exemplo, numa pesquisa sobre determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas ali presentes. c) Amostragem de conveniência A amostra de conveniência é formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles. Então se o professor tomar alunos de sua classe como a amostra de toda a escola, estará utilizando uma amostra de conveniência. Os estatísticos têm muitas restrições quanto ao uso das amostras de conveniência. Mesmo assim, as amostras de conveniência são comuns na área da saúde, onde se fazem pesquisas com pacientes em uma só clinica ou de um só hospital. Mas ainda, as amostras de conveniência constituem muitas vezes, a única maneira de estudar determinado problema. De qualquer forma, o pesquisador que utiliza esse tipo de amostra precisa ter muito senso crítico. Os dados devem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por desidratação não se deve recorrer aos dados de um hospital. Como só são internados os casos graves, é possível que a mortalidade entre pacientes internados seja muito maior que entre pacientes não internados. Consequentemente, a amostra de conveniência seria tendenciosa. Finalmente, o pesquisador que trabalha com amostras sempre pretende fazer inferências, isto é, estender os resultados da amostra para a população. Então é muito importante caracterizar bem a amostra e estender os resultados obtidos na amostra apenas para a população de onde veio a amostra. d) Amostragem por quotas Um dos métodos de amostragem mais comumente usados em levantamentos de mercado e em prévias eleitorais. Ele abrange três fases: Classificação da população em termos de propriedades que se sabe, ou presume, serem relevantes para a característica a ser estudada; Determinação da proporção da população para cada característica, com base na constituição conhecida, presumida ou estimada, da população; Fixação de quotas para cada entrevistador a quem tocará a responsabilidade de selecionar entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção e cada classe tal como determinada na 2ª fase. Exemplo: Numa pesquisa sobre o "trabalho das mulheres na atualidade". Provavelmente se terá interesse em considerar: a divisão cidade e campo, a habitação, o número de filhos, a idade dos filhos, a renda média, as faixas etárias etc. A primeira tarefa é descobrir as proporções (porcentagens) dessas características na população. Imagina-se que haja 47% de homens e 53% de mulheres na população. Logo, uma amostra de 50 pessoas deverá ter 23 homens e 27 mulheres. Então o pesquisador receberá uma "quota" para entrevistar 27 mulheres. A consideração de várias categorias exigirá uma composição amostral que atenda ao n determinado e às proporções populacionais estipuladas. EXERCÍCIOS: 1- Uma escola de 1º grau abriga 124 alunos. Obtenha uma amostra representativa correspondente a 15% da população, utilizando a partir do início da 5ª linha da Tabela de números aleatórios. 2- Tenho 80 lâmpadas numeradas numa caixa. Como obtemos uma amostra de 12 lâmpadas ? 3- Uma população encontra-se dividida em três estratos,com tamanhos, respectivamente, n 1 = 40, n 2 = 100 e n 3 = 60. Sabendo que, ao realizar uma amostragem estratificada proporcional, 9 elementos da amostra foram retirados do 3º estrato, determine o número de elementos da amostra. 4- Mostre como seria possível retirar uma amostra de 32 elementos de uma população ordenada formada por 2.432 elementos. Na ordenação geral, qual dos elementos abaixo seria escolhido para pertencer a amostra, sabendo-se que o elemento 1.420º a ela pertence ? 1.648º, 290º, 725º, 2.025º ou 1.120º Fonte: Marina Serafin(internet) Tabela de Números aleatórios com 2 dígitos 20 58 29 24 10 04 58 83 39 05 94 88 52 34 62 97 44 58 37 32 95 82 57 23 41 04 96 91 05 42 22 02 06 18 59 22 28 13 36 45 40 98 32 24 68 68 73 72 19 20 89 8? 18 52 57 67 91 81 65 88 31 06 70 26 09 73 22 09 05 98 20 83 62 79 78 17 96 06 39 34 91 54 04 33 22 75 60 62 17 40 30 06 99 82 88 54 10 38 20 02 40 77 44 99 65 Tabela de Números aleatórios com 3 dígitos 436 438 311 831 112 489 648 210 842 459 510 135 483 671 057 527 192 082 351 826 900 953 352 150 550 487 579 702 402 176 237 177 133 192 965 662 223 734 548 858 615 836 967 616 122 069 873 839 237 365 841 999 567 110 758 553 579 409 802 680 568 661 989 425 178 615 394 903 223 756 303 015 510 155 178 499 843 118 202 897 327 165 643 080 870 143 881 908 136 090 696 776 051 553 018 592 307 626 376 035 875 210 640 676 176 633 954 690 841 583 872 345 150 277 760 117 264 102 856 889 813 729 853 611 390 814 363 036 571 362 359 475 833 525 700 094 850 123 066 219 730 978 555 804 263 745 686 480 659 322 202 560 951 370 798 943 608 040 745 201 973 479 140 312 729 165 990 814 931 315 491 Exemplos de questões de avaliações: Fazer a distribuição por frequências dos dados contínuos de uma amostra, com dados, referente à renda média mensal dos associados de uma cooperativa em reais(R$). Rendimentos={ 1147; 1200;1250; 1270; 1307; 1311; 1342; 1362; 1457; 1481; 1588; 1662; 1765; 1862; 1876; 1900; 1900; 1950; 2035; 2136; 2141; 2223; 2321; 2321;2321;2321;2321; 2428; 2432;2470; 2500; 2571; 2600; 2638; 2645 } A partir dos dados amostrais da Produção em toneladas={11; 11; 14; 17; 17; 20;20;20;20;22;25; 27}, determinar: Montar a expressão com todos os dados afim de demonstrar o conhecimento Média Aritmética Média ponderada ( números abaixo de 14 têm peso 2, entre 13 e 21 peso 7 e acima de vinte peso 3) Média Geométrica Média Harmônica Simples e Ponderada Desvio Padrão Amostral Variância Amostral Mediana Moda Fazer, a partir da distribuição de dados contínuos da questão 1, o histograma e a ogiva no mesmo gráfico. A partir da tabela dada, calcular: Nº Classes Ponto Médio Frequência Absoluta Frequência Acumulada 1 800 a 1500 45 2 1500 a 2200 5 3 2200 a 2900 9 4 2900 a 3600 45 Média Aritmética Mediana Moda O número de filhos dos pequenos produtores da região é representado pela amostra B={1; 1; 2; 2; 2; 2; 2; 3; 3; 3; 5; 7}, determinar: Média Aritmética (com a função estatística da calculadora) Média Geométrica Média Harmônica Desvio Padrão Amostral (com a função estatística da calculadora) Variância Amostral (com a função estatística da calculadora) Mediana Moda A partir da tabela dada, calcular a média aritmética, mediana e moda: Nº Classes Ponto Médio Frequência Absoluta Frequência Acumulada 1 800 a 1500 25 2 1500 a 2200 25 3 2200 a 2900 9 4 2900 a 3600 25 Considerando as 2 amostras de números de filhos A={1; 1; 2; 2; 2; 2; 2; 3; 3} e B={1; 1; 2; 2; 2; 2; 2; 3; 3; 3; 5; 7}, calcular o coeficiente de variação e identificar aquela que menos variou. O número de filhos dos pequenos produtores da região é representado pela amostra B={1,1; 1; 2; 2; 2; 2; 2; 3; 3; 3; 5; 7, 7, 7}, determinar: Média Aritmética (com a função estatística da calculadora) Média Geométrica Média Harmônica Desvio Padrão Amostral (com a função estatística da calculadora) Variância Amostral (com a função estatística da calculadora) Mediana Moda A partir da tabela dada, calcular a média aritmética, mediana e moda: Nº Classes Ponto Médio Frequência Absoluta Frequência Acumulada 1 800 a 1000 20 2 1000 a 2000 25 3 2000 a 2900 9 4 2900 a 4.000 25 Considerando as 2 amostras de números de filhos A={1,1; 1; 2; 2; 2; 2; 2; 3; 3, 3} e B={1, 1; 1; 2; 2; 2; 2; 2; 3; 3; 3; 5; 7, 7, 7}, calcular o coeficiente de variação e identificar aquela que menos variou. A partir da tabela dada, calcular: Nº Classes Ponto Médio Frequência Absoluta Frequência Acumulada 1 1.000 a 1500 5 2 1500 a 2.000 35 3 2.000 a 3.000 9 4 3000 a 4000 35 Fazer a distribuição por frequências dos dados contínuos de uma amostra, com dados referentes ao número de reses dos associados de uma cooperativa. Reses={ 120; 120;125; 127; 130; 130; 130; 136; 146; 148; 158; 166; 176; 186; 187; 190; 195; 195; 195; 195; 203; 213; 214; 222; 232; 232;232;232;232; 242; 243;247; 250; 257 } --------------------------------------------------------------------------------------------------- Fazer, a partir da distribuição de dados contínuos da questão 1, o histograma e a ogiva no mesmo gráfico. No eixo auxiliar da direita, fazer o gráfico da ogivaReses Média Aritmética Mediana Moda Completar o cálculo das médias dos alunos, demonstrando os cálculos. Notas dos alunos da turma de Técnico em Administração Bimestre 1 2 3 4 Média Aritmética Média Ponderada Média Geométrica Média Harmônica Média Harmônica Ponderada Peso 2 3 5 6 1 João 3 4 6 10 2 Maria 10 6 4 3 3 Julia 7 6 8 8 Com o uso da calculadora científica, completar a tabela e determinar o aluno que teve melhor e o que teve pior coeficiente de variação das notas . Coeficiente de Variação das Notas dos alunos da turma de T. em Administração Bimestre 1 2 3 4 Média Aritmética Desvio Padrão amostral Coeficiente de variação 1 Pedro 5 4 6 6 4 Antonio 5 6 7 7 5 Julia 6 7 8 8
Compartilhar