Baixe o app para aproveitar ainda mais
Prévia do material em texto
FACULDADE DE TECNOLOGIA DE SOROCABA APOSTILA DE ESTATÍSTICA CURSO: PROCESSAMENTO DE DADOS Ao escrever esta Apostila não pretendi outra coisa, senão proporcionar aos alunos da disciplina ESTATÍSTICA, a facilidade de dispor de notas de aulas dos temas do Programa da Disciplina. O acompanhamento das aulas e a pesquisa em Bibliografia sobre o assunto, tornam-se necessárias para o adequado aproveitamento do curso. PROF. OSNI PAULA LEITE ÍNDICE 1.0 DEFINIÇÕES DE ESTATÍSTICA ......................................................................... 1 1.1 POR QUE ESTUDAR ESTATÍSTICA?......................................................... 1 1.2 A NATUREZA DOS DADOS ........................................................................ 1 1.3 TIPOS DE DADOS ....................................................................................... 2 1.4 TIPOS DE LEVANTAMENTOS .................................................................... 3 1.5 PLANEJAMENTO DE EXPERIMENTOS ..................................................... 4 EXERCÍCIOS: E-1...................................................................................................... 5 2.0 AMOSTRAGEM ................................................................................................... 6 2.1 DEFINIÇÕES................................................................................................ 6 2.2 AMOSTRAGEM ALEATÓRIA BASEADA EM NÚMEROS ALEATÓRIOS (RANDÔMICOS) ................................................................................................ 8 2.3 OUTROS PLANOS DE AMOSTRAGEM...................................................... 9 2.4 AMOSTRAGEM POR JULGAMENTO (NÃO PROBABILÍSTICA) ................ 9 2.5 AMOSTRAGEM PROBABILÍSTICA ........................................................... 10 2.5.1 AMOSTRAGEM SISTEMÁTICA............................................................... 10 2.5.2 AMOSTRAGEM ESTRATIFICADA ......................................................... 11 2.5.3 AMOSTRAGEM POR CONGLOMERADO............................................. 11 RESUMO.......................................................................................................... 11 EXERCICIOS: E-2.................................................................................................... 13 3.0 ANÁLISE EXPLORATÓRIA DE DADOS........................................................... 14 4.0 DISTRIBUIÇÃO DE FREQÜÊNCIA ................................................................... 15 5.0 REPRESENTAÇÃO GRÁFICA DAS VARIÁVEIS QUANTITATIVAS ............... 19 6.0 APRESENTAÇÃO GRÁFICA ............................................................................ 20 6.1 DIAGRAMA DE ORDENADAS................................................................... 20 6.2 DIAGRAMA DE BARRAS........................................................................... 21 6.3 DIAGRAMA DE CÍRCULOS ....................................................................... 22 6.4 DIAGRAMA DE SETORES CIRCULARES ................................................ 23 6.5 DIAGRAMA LINEAR .................................................................................. 25 6.6 O PICTOGRAMA ................................................................................................ 26 7.0 MONTAGEM DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS ........................... 27 7.1 HISTOGRAMA E POLIGONO DAS FREQÜÊNCIAS................................. 31 7.2 HISTOGRAMA E POLIGONO DAS FREQÜÊNCIAS RELATIVAS ............ 32 7.3 POLIGONO DE FREQÜÊNCIA ACUMULADA OU OGIVA........................ 33 7.4 POLIGONO DA FREQÜÊNCIA ACUMULADA RELATIVA ........................ 34 8.0 TIPOS DE DISTRIBUIÇÃO ................................................................................ 35 8.1 DISTRIBUIÇÃO SIMÉTRICA OU EM FORMA DE SINO ........................... 35 8.2 DISTRIBUIÇÃO ASSIMÉTRICA................................................................. 36 8.3 DISTRIBUIÇÃO MODAL, AMODAL, BIMODAL E MULTIMODAL ............. 37 8.4 APRESENTAÇÃO TIPO RAMO-E-FOLHAS .............................................. 38 9.0 MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL ............................... 40 9.1 MÉDIA ARITMÉTICA SIMPLES ................................................................. 40 9.2 MÉDIA ARITMÉTICA PONDERADA.......................................................... 41 9.3 MEDIANA (x̃) .............................................................................................. 41 9.4 MODA ( xˆ ) ............................................................................................... 43 10.0 MEDIDAS DE VARIABILIDADE (DISPERSÃO).............................................. 44 10.1 AMPLITUDE TOTAL (R.T.) ...................................................................... 44 10.2 DESVIO PADRÃO.................................................................................... 45 10.2.1 DESVIO PADRÃO AMOSTRAL (S) ....................................................... 45 10.2.2 DESVIO PADRÃO DA POPULAÇÃO (σ) ............................................... 46 10.2.3 REPRESENTAÇÃO GRÁFICA DO DESVIO PADRÃO.......................... 46 10.2.4 SISTEMATIZAÇÃO PARA O CÁLCULO................................................ 47 10.3 VARIÂNCIA .............................................................................................. 48 11.0 DISTRIBUIÇÃO NORMAL .............................................................................. 49 EXERCÍCIOS: E-3.................................................................................................... 55 12.0 PROBABILIDADE............................................................................................ 56 12.1 ESPAÇO AMOSTRAL E EVENTOS......................................................... 57 12.2 TRÊS ORIGENS DA PROBABILIDADE................................................... 58 12.3 A MATEMÁTICA DA PROBABILIDADE ................................................... 59 EXERCÍCIOS: E-4.................................................................................................... 62 13.0 TECNICAS DE CONTAGEM ........................................................................... 63 13.1 O PRINCIPIO DA MULTIPLICAÇÃO........................................................ 64 13.2 PERMUTAÇÃO, ARRANJO E COMBINAÇÃO. ....................................... 65 13.3 REGRAS DE CONTAGEM....................................................................... 68 EXERCÍCIOS: E-5.................................................................................................... 69 14.0 DISTRIBUIÇÃO DE PROBABILIDADES......................................................... 70 14.1 DISTRIBUIÇÃO BINOMIAL ...................................................................... 72 EXERCICIOS: E-6.................................................................................................... 76 14.2 DISTRIBUIÇÃO DE POISSON......................................................................... 77 EXERCICIOS: E-7.................................................................................................... 79 15.0 CORRELAÇÃO................................................................................................ 80 15.1 INTRODUÇÃO ......................................................................................... 80 15.2 RELAÇÃO FUNCIONAL E RELAÇÃO ESTATÍSTICA ............................. 80 15.3 DIAGRAMA DE DISPERSÃO................................................................... 81 15.4 CORRELAÇÃO LINEAR..........................................................................82 15.5 COEFICIENTE DE CORRELAÇÃO LINEAR........................................... 85 15.6 CUDADOS COM OS ERROS COM A INTERPLETAÇÃO DE CORRELAÇÃO ................................................................................................ 87 EXERCICIOS: E-8.................................................................................................... 88 16.0 REGRESSÃO LINEAR .................................................................................... 91 16.1 AJUSTAMENTO DE CURVAS ................................................................. 91 16.2 MÉTODO DOS MÍNIMOS QUADRADOS ................................................ 92 16.3 ANÁLISE DE REGRESSÃO..................................................................... 95 EXERCÍCIOS E-9......................................................................................................98 1 ESTATÍSTICA 1.0 DEFINIÇÕES DE ESTATÍSTICA Etimologicamente a palavra estatística vem de “status” expressão latina que significa, ”sensu lato”, o estudo do estado. Os primeiros a empregarem esse termo foram os Alemães seguidos pela Itália, França, Inglaterra e ainda por outros paises. Para Levasseur a estatística é : “O estudo numérico dos fatos sociais”. Yule define estatística como: “Dados quantitativos afetados marcadamente por uma multiplicidade de causas”. Uma definição mais usual nos dias de hoje seria: “Um método cientifico que permite a análise, em bases probabilística, de dados coligados e condensados” Ou ainda podemos dizer que é: “A coleta, o processamento, a interpretação e a apresentação de dados numéricos que pertencem ao domínio da estatística” 1.1 POR QUE ESTUDAR ESTATÍSTICA? Por hora podemos dizer que o raciocínio estatístico é largamente utilizado no governo e na administração; assim, é possível que, no futuro, um empregador venha a contratar ou promover um profissional por causa do seu conhecimento de estatística. 1.2 A NATUREZA DOS DADOS O dados estatísticos constituem a matéria prima das pesquisas estatísticas, eles surgem quando se fazem mensurações ou se restringem observações. Estatística descritiva: Trata-se da descrição e resumo dos dados. 2 Probabilidade: É um estudo que envolve o acaso. Interferência: É a analise e interpretação de dados amostrais (Amostragem). Modelo: São versões simplificadas (Abstrações) de algum problema ou situação real. 1.3 TIPOS DE DADOS Quantitativos Contínuos Discretos Qualitativos Nominais Por postos As variáveis contínuas podem assumir qualquer valor num intervalo contínuo. Os dados referentes a tais variáveis dizem-se dados contínuos. Ex. Peso, comprimento, espessura onde usa-se a mensuração. As variáveis discretas assumem valores inteiros de dados discretos são os resultados da contagem de números de itens. Ex. alunos da sala de aula, número de defeitos num carro novo, acidentes de uma fábrica. Os dados nominais surgem quando se definem categorias e se conta o número de observações pertencentes a cada categoria. Ex.: atuam dentro das variáveis “Qualitativas” as quais devemos associar a valores numéricos para que possamos processar estatisticamente. Ex.: cor dos olhos (azuis, verdes, castanhos), sexo (masculino e feminino), desempenho (excelente, bom, sofrível, mau) etc. Os dados por postos consistem de valores relativos atribuídos para denotar ordem: primeiro, segundo, terceiro, quarto, etc. Ex.: concurso de beleza se classificam em 1ª,2ª,3ª colocadas. 3 TABELA: 1 A mesma população pode originar diferentes tipos de dados. TIPOS DE DADOS POPULAÇÕES CONTÍNUOS DISCRETOS NOMINAIS POR POSTO Alunos de administração idade/peso N. De classes Homens/Mulheres 3º grau 1.4 TIPOS DE LEVANTAMENTOS Os levantamentos podem ser classificados em contínuos, periódicos e ocasionais: CONTÍNUO: Quando os eventos vão sendo registrados à medida que ocorrem.Exemplos os registros civis dos fatos vitais (nascimento, óbitos e casamentos). PERIÓDICOS: Acontecem ciclicamente. Exemplo é o rescenceamento, feito no Brasil a cada dez anos. OCASIONAIS: São aqueles realizados sem a preocupação de continuidade ou periodicidade preestabelecidas, exemplos a maioria dos trabalhos de investigação cientifica. DADOS PRIMÁRIOS: Quando o investigador não encontra dados publicados adequados ao seu estudo, parte para a realização de um inquérito, isto é, os dados são levantados diretamente na população no momento da investigação. DADOS SECUNDÁRIOS: Quando o investigador para verificar as sua hipóteses de trabalho utiliza- se de dados já existentes, arquivados, registrados ou publicados. Podem ser até mesmo dados gerados pelo Departamento de Estatísticas de Populações da Fundação Instituto Brasileiro de Geografia e Estatística (IBGE). 4 1.5 PLANEJAMENTO DE EXPERIMENTOS 1. Definição do problema: Um Estudo ou Uma Análise 2. Formular plano para coleta de dados adequados 3. Coligir os dados 4. Analisar e interpretar os dados 5. Relatar as conclusões 5 EXERCÍCIOS: E-1 1- Identifique os seguintes exemplos em termos de tipos de dados: a- 17 gramas b- 3 certos, 2 errados c- 25 segundos d- 25 alunos na classe e- tamanho de camisa f- Km/litro g- O mais aprazível h- O mais lento i- 5 acidentes no mês de maio 2- Responder as perguntas: a- Defina o termo Estatística. b- Responder a pergunta: Por que estudar estatística? c- Dar exemplos de como um administrador pode se beneficiar do conhecimento de Estatística? 6 2.0 AMOSTRAGEM AMOSTRAGEM VERSUS SENSO: Uma amostra usualmente envolve o estudo de uma parcela dos ítens de uma população, enquanto que o censo requer o estudo de todos os ítens. Restrições ao Censo: - Custo - Populações infinitas - Dificuldade nos critérios (Precisão) - Produtos de testes Destrutivos (fósforos, munições) - Tempo despendido (atualização) - Tipos de informações mais restritivas Casos de excessão: - Populações pequenas - Amostras grandes em relação a população - Se exige precisão completa - Se já são disponíveis informações completas 2.1 DEFINIÇÕES POPULAÇÃO: é o conjunto de indivíduos (ou objetos), que tem pelo menos uma variável comum observável. AMOSTRA: é qualquer sub-conjunto da população extraída para se realizar estudos estatísticos . POPULAÇÃO AMOSTRA 7 A estatística indutiva é a ciência que busca tirar conclusões probabilísticas sobre a população, com base em resultados verificados em amostras retiradas dessa população. Entretanto não basta que saibamos descrever convenientemente os dados da amostra para que possamos executar, com êxito, um trabalho estatístico completo. Antes de tudo é preciso garantir que a amostra ou amostras que serão utilizadas sejam obtidas por processos adequados. - O que é necessário garantir, em suma, é que a amostra seja “Representativa” da população. Dois aspectos nas amostras são fundamentais, e que dão a sua representatividade em termos: - Qualitativos: Amostras que representem todas as sub-populações, quando for o caso. - Quantitativos: Que possua quantidade de dados suficientes para representara População. Na indústria onde amostras são freqüentemente retiradas para efeito de Controle da Qualidade dos produtos e materiais, em geral os problemas de amostragem são mais simples de resolver. Por outro lado, em pesquisas sociais, econômicas ou de opinião, a complexibilidade dos problemas de amostragem são normalmente bastante grandes. - Interferência estatística envolve a formulação de certos julgamentos sobre um todo após examinar apenas uma parte, ou a amostra, dele. A probabilidade e a amostragem estão estreitamente correlacionadas e juntas formam o fundamento da teoria de interferência. - Amostragem é o ato de retirar amostra, isto é, a ação. 8 - Amostra é a quantidade de dados especificado para representar a população. Amostragem aleatória permite estimar o valor do erro possível, isto é, dizer “quão próxima” está à amostra da população, em termos de representatividade. Amostragem não aleatória não apresenta esta característica. Há vários métodos para extrair uma amostra talvez o mais importante seja a amostragem aleatória de modo geral, a amostragem aleatória exige que cada elemento tenha a mesma oportunidade de ser incluído na amostra. Nas Populações discretas uma amostra aleatória é aquela em que cada item da população tem a mesma chance de ser incluído na amostra. Nas Populações contínuas, uma amostra aleatória é aquela em que a probabilidade de incluir na amostra qualquer intervalo de valores é igual à percentagem da população que está naquele intervalo. Populações finitas: é quando, temos constituído por números finitos, ou fixos de elementos, medidas ou observações. Ex.: Peso bruto de 3000 latas de tinta de um certo lote de produção. Populações infinitas: são aquelas que contém, pelo menos hipoteticamente, um número infinito de elementos. Ex. Produção de carros V.W. produzidos no Brasil e a serem produzidos (universo volkswagem), processo probabilístico. 2.2 AMOSTRAGEM ALEATÓRIA BASEADA EM NÚMEROS ALEATÓRIOS (RANDÔMICOS) As tabelas de números aleatórios contém os dez algarismos 0,1,2,3,4,......,9. Esses números podem ser lidos isoladamente ou em grupos; podem ser lidos em qualquer ordem. A probabilidade de qualquer algarismo aparecer em qualquer ponto é 1/10. Portanto todas as combinações são igualmente prováveis. 9 Conceitualmente, poderíamos construir uma tabela de números aleatórios numerando dez bolinhas com os algarismos de 0 a 9 , colocando-as numa urna, misturando bem e extraindo uma de cada vez, com reposição, anotando os valores obtidos. A titulo de ilustração poderíamos querer selecionar aleatoriamente 15 clientes de uma lista de 830 de um grande magazine, a finalidade poderia ser : Estimar a freqüência de compras; Determinar o valor médio de cada compra; Registrar as queixas contra o sistema. 2.3 OUTROS PLANOS DE AMOSTRAGEM Amostragem probabilística versus Amostragem não probabilística Os planos de amostragem probabilística são delineados de tal modo que se conhece a probabilidade de todas as combinações amostrais possíveis. Em razão disso, pode-se determinar a quantidade de variável amostral numa amostra aleatória e uma estimativa do erro amostral. A amostragem aleatória é um exemplo da amostragem probabilística. A amostragem não probabilística é a amostragem subjetiva, ou por julgamento, onde a variabilidade amostral não pode ser estabelecida com precisão, conseqüentemente, não é possível nenhuma estimativa do erro amostral. A verdade é que, sempre que possível, deve-se usar a amostragem probabilística. 2.4 AMOSTRAGEM POR JULGAMENTO (NÃO PROBABILÍSTICA) Se o tamanho da amostra é bem pequeno; digamos, de uns 5 itens, a amostragem aleatória pode dar resultados totalmente não representativos, ao passo que uma pessoa familiarizada com a população pode especificar quais os itens mais representativos da população. 10 Exemplo: Uma equipe médica deve trabalhar com pacientes que se apresentem com voluntários para testar um novo medicamento. Nenhum desses grupos podem ser considerados como uma amostra aleatória do público em geral, e seria perigoso tentar tirar conclusões gerais com base em tal estudo. Todavia, os resultados poderiam proporcionar uma base para a elaboração de um plano de amostragem aleatório para validar os resultados básicos. Os perigos inerentes à pesquisa médica , bem como outro tipo de pesquisa, freqüentemente obrigam a limitar a pesquisa inicial a um pequeno grupo de voluntários. Exemplo: A aplicação de hormônios em mulheres na menopausa, após um período de tempo notou-se o aumento das chances de adquirirem câncer de mama, doenças cardíacas etc. 2.5 AMOSTRAGEM PROBABILÍSTICA SISTEMÁTICA ESTRATIFICADA CONGLOMERADO 2.5.1 AMOSTRAGEM SISTEMÁTICA É muito parecida com a amostragem aleatória simples. Podemos ter uma amostragem realmente aleatória, escolhendo-se cada K-ésima amostra, onde K obtem-se dividindo o tamanho da população pelo tamanho da amostra. K= N onde: N= Tamanho da População n n= Tamanho da Amostra EX. N= 200 e n=10 então K=200/10 = 20 Significa que será escolhido um item a cada seqüência de 20 de uma lista. Para iniciar pode-se usar uma tabela de números aleatórios de 0 a 9 para iniciar os grupos. Por exemplo se der o 9, escolhemos o 9º, 29º, 39º ,49º , etc. 11 2.5.2 AMOSTRAGEM ESTRATIFICADA Pressupõe a divisão da população em sub-grupos Homogêneos (Estratos), procedendo então a amostragem de cada sub-grupo. Ex.: Para se fazer o inventário do estoque, é comum termos 10% dos itens representarem cerca de 60% do valor total em quanto que os 90% restantes representam só 40% do valor total (Curva A,B,C; Pareto; regra 80/20). 2.5.3 AMOSTRAGEM POR CONGLOMERADO Pressupõe a disposição dos itens de uma população em sub-grupos heterogêneos (sub-populações) representativos da população global. Neste caso cada conglomerado pode ser encarado como uma minipopulação. Ex.: Estudo pré-eleitoral para medir a preferência dos eleitores. (Sub-grupos: sexo, educação, faixa etária, poder aquisitivo, região da habitação,etc). RESUMO A finalidade da amostra é permitir fazer interferência sobre a população após inspeção de apenas parte dela. Fatores com custo, ensaios destrutivos e populações infinitas, tornam a amostragem preferível a um estudo completo (Censo) da população. Naturalmente espera-se que a amostra seja representativa da população da qual foi extraída. Potencialmente, este objetivo é atingido quando a amostragem é aleatória. Para populações discretas o termo “Aleatório” significa que cada item da população tem a mesma chance de participar na amostra. No caso de populações contínuas, significa que a probabilidade de incluir qualquer valor de um dado intervalo de valores é igual à proporção com valores naquele intervalo. 12 As amostras aleatórias podem ser obtidas: - Através de um processo de mistura, com o embaralhamento de cartas; - Pela utilização de um processo mecânico (Misturadores); - Utilizando-se uma tabela de números aleatórios para proceder à seleção de uma lista. Em certas condições, podem ser mais eficientes variantes da amostragem aleatória simples, tais como amostragem sistemática (periódica), estratificada (sub-grupos Homogêneos), ou amostragem por aglomerados (sub-grupos convenientes e heterogêneos). A principal vantagem da amostragem aleatória é quese pode determinar o grau de variabilidade amostral, o que é essencial na interferência estatística. À amostragem não probabilística falta esta característica. 13 EXERCICIOS: E-2 QUESTÕES PARA RECAPITULAÇÃO 1- Em que circunstância é a amostragem preferível a um censo completo? 2- Quando se deve preferir um censo a uma amostragem? 3- Defina “Amostra Aleatória”. 4- Descreva os vários métodos de obtenção de uma amostra aleatória. Como escolher o método a ser usado em determinada situação? 5- Explique rapidamente as características: a. da amostragem por conglomerado; b. da amostragem estratificada; c. da amostragem sistemática. 7- Que è amostragem por julgamento e em que circunstância deve ser usada? 8- Que é amostragem probabilística e quando deve ser usada? 9- Explique o significado de “Amostra Aleatória” quando a população è: a. contínua b. Discreta 14 3.0 ANÁLISE EXPLORATÓRIA DE DADOS Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender uma massa de dados, relevantes ao seu particular objeto de estudos. De modo geral, podemos dizer que a essência da ciência é a observação e que seu objetivo básico é a interferência. Esta é à parte da metodologia da ciência que tem por objetivos a coleta, redução, análise e modelagem dos dados, a partir do que, finalmente, faz-se a interferência para uma população, da qual os dados (amostras) foram obtidos. 15 4.0 DISTRIBUIÇÃO DE FREQÜÊNCIA Para cada tipo de variável existem técnicas mais apropriadas para resumir as informações. Porem podemos usar algumas técnicas empregadas num caso, podemos adaptá-las para outros. Quando se estuda uma variável, o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realizações (valores) da mesma. Exemplo 1: Dados relativos a uma amostra de 36 funcionários de uma população de 2000 funcionários da empresa Milsa. Ver resultados anotados na tabela abaixo. 16 TABELA 1 Nº ESTADO GRAU DE Nº DE SALÁRIO IDADE REGIÃO DE CIVIL INSTRUÇÃO FILHOS (X SAL. MIN) ANOS MESES PROCEDÊNCIA 1 solteiro 1º grau --- 4 26 03 interior 2 casado 1º grau 1 4,56 32 10 capital 3 casado 1º grau 2 5,25 36 05 capital 4 solteiro 2º grau --- 5,73 20 10 outro 5 solteiro 1º grau --- 6,26 40 07 outro 6 casado 1º grau 0 6,66 28 00 interior 7 solteiro 1º grau --- 6,86 41 00 interior 8 solteiro 1º grau --- 7,39 43 04 capital 9 casado 2º grau 1 7,59 34 10 capital 10 solteiro 2º grau --- 7,44 23 06 outro 11 casado 2º grau 2 8,12 33 06 interior 12 solteiro 1º grau --- 8,46 27 11 capital 13 solteiro 2º grau --- 8,74 37 05 outro 14 casado 1º grau 3 8,95 44 02 outro 15 casado 2º grau 0 9,13 30 05 interior 16 solteiro 2º grau --- 9,35 38 08 outro 17 casado 2º grau 1 9,77 31 07 capital 18 casado 1º grau 2 9,8 39 07 outro 19 solteiro superior --- 10,53 25 08 interior 20 solteiro 2º grau --- 10,76 37 04 interior 21 casado 2º grau 1 11,06 30 09 outro 22 solteiro 2º grau --- 11,59 34 02 capital 23 solteiro 1º grau --- 12,OO 41 00 outro 24 casado superior 0 12,79 26 01 outro 25 casado 2º grau 2 13,23 32 05 interior 26 casado 2º grau 2 13,6 35 00 outro 27 solteiro 1º grau --- 13,85 46 07 outro 28 casado 2º grau 0 14,69 29 08 interior 29 casado 2º grau 5 14,71 40 06 interior 30 casado 2º grau 2 15,99 35 10 capital 31 solteiro superior --- 16,22 31 05 outro 32 casado 2º grau 1 16,61 36 04 interior 33 casado superior 3 17,26 43 07 capital 34 solteiro superior --- 18,75 33 07 capital 35 casado 2º grau 2 19,4O 48 11 capital 36 casado superior 3 23,3O 42 02 interior 17 Exemplo 2: Freqüência e percentagem da amostra de 36 empregados da empresa Milsa segundo o grau de instrução. TABELA 2 Exemplo 3: Freqüência e percentagem dos 2000 empregados (População) da empresa Milsa (Censo x Probabilidade) TABELA 3 Exemplo 4: Freqüência e percentagens dos 36 empregados (Amostra) da empresa Milsa. GRAU DE TABULAÇÃO FRQÚÊNCIA FREQ. RELATIVA INSTRUÇÃO F FR % 1º grau I I I I I I I I I I I I 12 33,33 2º grau I I I I I I I I I I I I I I I I I I 18 50,OO superior I I I I I I 6 16,67 TOTAL 36 100 GRAU DE FRQÜÊNCIA FREQ. RELATIVA FREQ. RELATIVA INSTRUÇÃO F FR % Censo FR % Provável 1º grau 650 32,50 33,33 2º grau 1020 51,00 50,OO superior 330 15,50 16,67 TOTAL 2000 100 100 18 TABELA 4 CLASSE DE SALÁRIOS FRQÜÊNCIA FREQ. RELATIVA F FR % 4 I------- 8 10 27,78 8 I------- 12 12 33,33 12 I------- 16 8 22.22 16 I------- 20 5 13,89 20 I------- 24 1 2,78 TOTAL 36 100 Exemplo 5: Freqüências e percentagem dos empregados da empresa Milsa, segundo Nº de filhos. TABELA 5 NÚMERO DE FILHOS FREQÜÊNCIA FREQ. RELATIVA Xi F FR % 0 4 20 1 5 25 2 7 35 3 3 15 5 1 5 TOTAL 20 100 EXERCÍCIO - Representar a distribuicao de frequencia para Idade e a Regiao de procedencia dos funcionarios da Empresa Milsa. 19 5.0 REPRESENTAÇÃO GRÁFICA DAS VARIÁVEIS QUANTITATIVAS A representação gráfica da distribuição de freqüências de uma variável tem a vantagem de, rápida e concisamente, informar sobre a variabilidade da mesma. Podemos optar por vários tipos de gráficos, porem qualquer que seja ele, devemos especificar os elementos essenciais para a sua interpretação, que são: - o título; - o corpo; - o cabeçario; - as colunas indicadoras. TÍTULO é a indicação que, precedendo a tabela, é colocado na parte superior da mesma. Deve ser preciso, claro e conciso, indicando a natureza dos fatos estudados (o que), e a época (quando) em que o mesmo foi observado. CORPO da tabela é o conjunto de linhas e colunas que contem respectivamente, as séries Horizontais e verticais de informações. Casa, cela ou célula é o cruzamento de uma linha com uma coluna, onde se tem a freqüência com que a categoria (ou categorias) aparecem. CABEÇARIO é à parte da tabela em que é designada a natureza (as categorias, as modalidades da variável) do conteúdo de cada coluna. COLUNA INDICADORA é à parte da tabela em que é designada a natureza (as categorias, as modalidades da variável) do conteúdo de cada linha. Os elementos complementares de uma tabela são: - Fontes; - Notas. FONTE é o indicativo, no rodapé da tabela, da entidade responsável pela sua organização ou fornecedora dos dados primários. A razão da presença da fonte não é somente honestidade cientifica, mas também permitir ao leitor a possibilidade de consultar o trabalho original de onde procedemas informações. NOTAS são colocadas no rodapé da tabela para esclarecimentos de ordem geral. E são numeradas, podendo-se também usar símbolos gráficos, sendo comum o asterisco. 20 6.0 APRESENTAÇÃO GRÁFICA A apresentação gráfica dos dados e respectivos resultados de sua análise pode também ser feita sob forma de figuras, em geral gráficos ou diagramas. Gráficos devem ser auto-explicativos e de fácil compreensão, de preferência sem comentários inseridos.Devem ser simples, atrair a atenção do leitor e inspirar confiança. 6.1 DIAGRAMA DE ORDENADAS Para sua construção é traçada uma reta horizontal (ou vertical) de sustentação; a partir de pontos eqüidistantes na reta, traça-se perpendiculares cujos comprimentos sejam proporcionais às freqüências. freqüências 12 10 8 6 4 2 0 4 I------- 8 8 I-------12 12 I-------16 16 I-------20 20 I-------24 Salários 21 6.2 DIAGRAMA DE BARRAS A mesma distribuição acima poderia ser representada por meio de diagrama que levasse em conta a magnitude da área da figura geométrica, já que a vista repousa melhor sobre uma superfície do que sobre uma linha. freqüências 12 10 8 6 4 2 0 4 I-------8 8 I-------12 12 I-------16 16 I------- 20 20 I-------24 Salários 22 6.3 DIAGRAMA DE CÍRCULOS Alem do retângulo, outra figura geométrica utilizada é o círculo ou conjunto de círculos. Lembrando que a área do círculo é o produto do número irracional π = (3,1416) pelo quadrado do raio (r), isto é, C= π.r ² , e desde que as áreas dos diversos círculos devem ser proporcionais às magnitudes das freqüências, isto é, C = α. f onde α é o fator de proporcionalidade, segue-se que: α . f = π. r ² , ou seja, r = √ α .f Se chamar √ α de α`, tem-se : π π portanto, os raios dos círculos devem ser proporcionais a raiz quadrada das freqüências das modalidades da variável. Assim se quisermos representar graficamente a distribuição da tabela 1.4, os raios do círculo deverão ser: r1 = √ 27,78 . α`= 5,27 . α`→ 5,27. 3 = 15.8 mm r2 = √ 33,33 . α`= 5.77 . α`→ 5,77. 3 = 17,3 mm r3 = √ 22.22. α`= 4,71. α`→ 4,71. 3 = 14,1 mm r4 = √13,89 . α`= 3.72. α`→ 3,72. 3 = 11,1 mm r5 = √ 2,78 . α` = 1,66 α`→ 1,66. 3 = 5,00 mm A figura abaixo representa esta distribuição, com um α` adotado de 3 mm. 2,7 % 22,22 % 27,78 % 33,33 % 13,89 % r = α`.√ f 23 6.4 DIAGRAMA DE SETORES CIRCULARES Outra opção seria através de setores circulares, na qual se divide a área total de um círculo em subáreas (setores) proporcionais as freqüências. Lembrando que o círculo compreende setores cujas áreas (S) são produto do raio (r) pelo tamanho do arco (a), isto é, S = r.a, e com S deve ser proporcional a freqüência f, tem-se S= α.f , onde α é o fator de proporcionalidade; então: α .f = r. a a = α . f r Se chamarmos α de α`, tem-se S = α`. f , isto é, os arcos e os respectivos r ângulos centrais de um círculo é igual a 360°, e sendo F a freqüência total, tem-se 360° = α`. F ou seja: α`= 360° Portanto a = 360°. f F F Assim, a distribuição de freqüência da tabela 4 representando faixas de salários fica: a1 = 360° x 27,78 = 100° 100 a2 = 360° x 33,33 = 120° 100 a3 = 360° x 22,22 = 80° 100 a4 = 360° x 13,89 = 50° 100 S5 = 360° x 2,78 = 10° 100 24 Diagrama de Setores Circular . Diagrama de Setores Circular feito automaticamente pelo excel 28% 33% 22% 14% 3% 120° 50° 100° 80° 10° 25 6.5 DIAGRAMA LINEAR No diagrama linear deve-se plotar os pontos nos eixos como foi feito no diagrama de barras e em seguida unir esses pontos por semi-retas contituindo-se desta forma o diagrama linear. freqüências 12 x 10 x x 8 6 x 4 2 x 0 4 I-------8 8 I-------12 2 12 I-------16 16 I------- 20 20 I------- 24 salários 26 6.6 O PICTOGRAMA A figura abaixo mostra um exemplo de apresentação pictográfica de dados temporais (comumente encontrada em jornais, revistas e relatórios de vários tipos), no caso abaixo representa a população dos Estados Unidos. 1920 1930 1940 1950 1960 1970 1980 1990 Cada símbolo = 10 milhões de pessoas Pictograma da população dos Estados Unidos 27 7.0 MONTAGEM DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS A análise estatística de dados relativos a uma amostra de uma população, requer uma aglutinação organizada de informações, conforme regras cuja prática demonstrou serem eficientes. Consideremos uma relação de pesos de pacotes de manteiga, em gramas, de uma amostra de 100 pacotes extraídos parcialmente de um processo automático de empacotamento. A especificação de fabricação é 215 ±15 gramas (200 a 230 gramas) TABELA 6 AMOSTRA PESO AMOSTRA PESO AMOSTRA PESO AMOSTRA PESO AMOSTRA PESO 1 207 21 220 41 210 61 210 81 217 2 213 22 204 42 214 62 220 82 211 3 210 23 213 43 219 63 213 83 213 4 21524 211 44 215 64 217 84 218 5 201 25 214 45 217 65 214 85 213 6 210 26 217 46 213 66 219 86 216 7 212 27 224 47 218 67 214 87 218 8 204 28 211 48 214 68 215 88 216 9 209 29 220 49 215 69 223 89 206 10 212 30 209 50 212 70 217 90 212 11 215 31 214 51 221 71 213 91 207 12 216 32 208 52 211 72 218 92 213 13 221 33 217 53 218 73 207 93 215 14 219 34 214 54 205 74 210 94 212 15 222 35 209 55 220 75 208 95 223 16 225 36 212 56 203 76 214 96 210 17 215 37 208 57 216 77 211 97 226 18 218 38 215 58 222 78 205 98 224 19 213 39 211 59 206 79 215 99 214 20 216 40 216 60 221 80 207 100 215 O agrupamento destes dados em sub-grupos é feito com base nos seguintes conceitos: 28 Amplitude total (R.T.): é a diferença entre a medida máxima e a medida mínima. No caso da amostra de pacotes de manteiga acima, temos: R.T. = 226 – 201 = 25 gramas Número de classes (d) : é o número de divisões que estipulamos para a Amplitude Total. Normalmente pode-se usar d =̃ √ n onde n= número de itens na amostra para o exercício temos d =̃ √ 100 → 10 classes, porem deve-se utilizar sempre que possível número impar de classes no caso 9 classes. Classe: é o intervalo de variação das medidas. Amplitude do intervalo de classe (R.I.): é a diferença entre os valores máximos e mínimos de cada classe. Amplitude intervalo de cada classe R.I . = R.T Número de Classes No caso do exercício temos: Amplitude intervalo de cada classe R.I . = 25 = 2,7 aprox. 3 7 RI adotado = 3 RT adotado = 27 diferenca 2 comeca uma antes do menor e termina um antes do maior valor. As classes devem ser mutuamente exclusivas, para que não haja duvida na localização dos valores das variáveis, podemos dai utilizar as seguintes simbologias para os intervalos: 0 ----I 10 intervalo aberto & fechado, para significar que o intervalo compreende os valores da variável maiores do que 0 (excluído) e até 10 (inclusive); 0 I---- 10 intervalo fechado & aberto, para significar que compreende os valores da variável a partir de 0 (inclusive) e até 10 (exclusive); 0 ----- 10 Intervalo aberto & aberto, para significar que compreende valores maiores do que 0 e menores do que 10. 29 0 I----I 10 intervalo fechado & fechado, para significar que compreende os valores da variável a partir de 0 (inclusive) e até 10 (inclusive). TABELA de DISTRIBUIÇÃO das FREQÜÊNCIAS Para a facilidade e metodização do processo de análise estatística, monta-se um tabela que agrupe as informações obtidas, de forma de Tabela de Freqüências. Para os pacotes em pauta, teremos a seguinte tabela de freqüências: TABELA 7 VALOR COMPRIMENTO FREQ. FREQUENCIA FREQUENCIA FREQUENCIA CLASSE CLASSE TABULAÇÃO F RELATIVA % ACUM. ACUM. REL.% 1 200 ---I 203 I I 2 2 2 2 2 203 ---I 206 I I I I I I 6 6 8 8 3 206 ---I 209 I I I I I I I I I I 10 10 18 18 4 209 ---I 212 I I I I I I I I I I I I I I I I I I 18 18 36 36 5 212 ---I 215 I I I I I I I I I I I I I I I I I I I I I I I I I I I I 28 28 64 64 6 215 ---I 218 I I I I I I I I I I I I I I I I I I 18 18 82 82 7 218 ---I 221 I I I I I I I I I I 10 10 92 92 8 221 ---I 224 I I I I I I 6 6 98 98 9 224 ---I 227 I I 2 2 100 100 ∑ 100 100% 30 Onde: Freqüência (F) = é o numero de vezes que as medidas ocorrem no intervalo de classes Freqüência relativa (FR) = é a percentagem da freqüência de cada classe em relação ao total de elementos. FR = F d x 100 N Freqüência acumulada (FA) = é a soma das freqüências até o intervalo de classe considerado. Ex. Fa5 = F1+ F2 + F3 + F3 + F5 → 2+ 6+ 10+ 18+ 28 = 64 Freqüência acumulada relativa (FAR) = é a soma das freqüências relativas até o intervalo considerado Far3 = Fr1 + Fr2 + Fr3 → 2 + 6 + 10 = 18 31 7.1 HISTOGRAMA E POLIGONO DAS FREQÜÊNCIAS freqüências 28 21 14 7 1 2 3 4 5 6 7 8 9 CLASSES POLIGONO DE FREQÜÊNCIAS 32 7.2 HISTOGRAMA E POLIGONO DAS FREQÜÊNCIAS RELATIVAS % 28% 21% 14% 7% 0 1 2 3 4 5 6 7 8 9 CLASSES POLIGONO DE FREQÜÊNCIA RELATIVA 33 7.3 POLIGONO DE FREQÜÊNCIA ACUMULADA OU OGIVA F.AC. 100 80 60 40 20 01 2 3 4 5 6 7 8 9 CLASSES POLIGONO DE FREQÜÊNCIAS ACUMULADA 34 7.4 POLIGONO DA FREQÜÊNCIA ACUMULADA RELATIVA % F.AC REL. 100 % 80 % 60 % 40 % 20 % 0 %1 2 3 4 5 6 7 8 9 CLASSES POLIGONO DE FREQÜÊNCIAS ACUMULADA RELATIVA 35 8.0 TIPOS DE DISTRIBUIÇÃO As distribuições de freqüência podem se apresentar de diversas formas conforme as figuras a seguir: 8.1 DISTRIBUIÇÃO SIMÉTRICA OU EM FORMA DE SINO A distribuição é simétrica quando os valores se distribuem igualmente em torno da média (X) A) Normal B) Alongada36 C) Achatada 8.2 DISTRIBUIÇÃO ASSIMÉTRICA É aquela em que as freqüências dos valores medidos, se distribuem de forma desigual em torno da média. A) Assimétrica Positiva 37 B) Assimétrica Negativa 8.3 DISTRIBUIÇÃO MODAL, AMODAL, BIMODAL E MULTIMODAL Chamamos de moda numa distribuição, ao valor da medida ou classe que corresponde à freqüência máxima. Sob o critério da moda as distribuições classificam-se em: A) DISTRIBUIÇÃO MODAL – Quando a distribuição tem freqüência máxima ela è denominada modal. mo B) DISTRIBUIÇÃO AMODAL – Quando a distribuição não tem moda 38 C) DISTRIBUIÇÃO BIMODAL – Quando a distribuição tem duas modas. mo mo D) DISTRIBUIÇÃO MULTIMODAL – Quando a distribuição tem mais de duas modas mo mo mo 8.4 APRESENTAÇÃO TIPO RAMO-E-FOLHAS Uma alternativa para o uso da tabela de distribuição de freqüências é usar o gráfico do tipo ramo-e-folhas. Podermos estudar a partir de um exemplo prático: Observamos os seguintes números de passageiros em 50 viagens de um avião que faz ponte aérea Rio - São Paulo: 39 61 52 64 84 35 57 58 95 82 64 50 53 103 40 62 77 78 66 60 41 58 92 51 64 71 75 89 37 54 67 59 79 80 73 49 71 97 62 68 53 43 80 75 70 45 91 50 64 56 86 SOLUÇÃO: F F.A. 3 5 7 2 2 4 0 1 3 5 9 5 7 5 0 0 1 2 3 3 4 6 7 8 8 9 12 19 6 0 1 2 2 4 4 4 4 6 7 8 11 30 7 0 1 1 3 5 5 7 8 9 9 39 8 0 0 2 4 6 9 6 45 9 1 2 5 7 4 49 10 3 1 50 A MEDIANA NESTE CASO SERÁ X̃ = 64 40 9.0 MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL Como o próprio nome indica, a medida de tendência central visa a determinar o centro da distribuição. Esta determinação, porem, não é bem definida daí parece razoável chamarmos de “tendência central”. São medidas de tendência central: MÉDIA ARITMÉTICA SIMPLES/PONDERADA; MEDIANA; MODA. 9.1 MÉDIA ARITMÉTICA SIMPLES Dada uma distribuição de freqüências, chama-se de média aritmética desta destituição, e representa-se por a soma de todos os valores da variável, dividida pelo número de variáveis “n”. = Σx n n Sendo: Σx i= 1 Exemplo: Calcular a média aritmética simples de 8, 3, 5, 12, 10. = 8 + 3 + 5 + 12 + 10 = 38 = 7,6 5 5 41 9.2 MÉDIA ARITMÉTICA PONDERADA K Σ xi .fi i= 1 = K Σx fi i= 1 onde: f = freqüência dos números x = números Exemplo: Calcular a média ponderada dos números 5, 8, 6, 2 os quais ocorrem com as freqüências 3, 2, 4 e 1, respectivamente Números x = 5, 8, 6, 2 Freqüências f = 3, 4, 2, 1 = 3x5 + 4x8 + 2x6 + 1x2 = 57 = 5,7 3+4+2+1 10 9.3 MEDIANA (x̃) Se ordenarmos uma seqüência de números do menor para o maior e se a quantidade desses números for impar, então a mediana será o valor do meio, ou a média dos dois valores do meio caso a quantidade de números seja par. O símbolo que usamos para representar a mediana é x̃ lê-se “x til”. No caso de calculo da mediana quando estamos trabalhando com distribuição de freqüência determinamos o valor mais provável dessa distribuição a partir de: x̃ = Freqüência acumulada total = FA (para números pares) 2 2 42 Ou ainda A posição DA MEDIANA é definida por { n+1 } -ésimo elemento quando ”n” é 2 é í̃mpar temos um número inteiro e dá a posiçã́o da mediana; Exemplo: Determine a posição da mediana para a) n=15 b) n=45 c)n=88 a) n+1 = 15+1 = 8, e a mediana é o valor do 8° elemento; 2 2 b) n+1 = 45+1 = 23, e a mediana é o valor do 23° elemento; 2 2 c) n = 88 = 44 e a mediana é o valor correspondente ao valor do 44°elemento. 2 2 No caso do exercício da distribuição dos 100 valores de peso de pacotes de manteiga temos: X = n = 100 = 50, e a mediana é o valor do 50° elemento 2 2 FA 0 2 8 18 36 64 82 92 98 100 X 200 203 206 209 212 215 218 221 224 227 50° (64 – 36) (215 – 212) (64 – 50) Δ 36 64 212 215 50° valor 43 Δ = 14 x 3 = 1,5 28 portanto a mediana será 212 + Δ logo, X = 212 + 1,5 = 213,5 9.4 MODA ( xˆ ) Em um conjunto de números a moda é o valor que ocorre com maior freqüência, isto é, o valor mais comum. Exemplos: 1) 2, 2, 3, 7, 8, 8, 8, 9, 10 moda=8 2) 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 moda = Ф (não existemoda) 3) 2, 2, 4, 4, 4, 5, 6, 7, 8, 8, 8, 9 moda = 4 e 8 Para o exemplo do exercício das distribuições de freqüências dos pacotes de manteiga temos que a moda é o ponto médio da classe modal, localiza-se a classe modal como sendo a classe com maior freqüência e em seguida determina-se seu ponto médio. Classe modal é a 5° classe, portanto moda = 212 + 215 = 213,5 2 44 10.0 MEDIDAS DE VARIABILIDADE (DISPERSÃO) As medidas de dispersão indicam se os valores estão relativamente próximos uns dos outros, ou separados. Podemos dizer que dispersão é o grau com o qual os valores numéricos de uma distribuição tendem a se distanciar em torno de um valor médio. Em todos os casos, o valor zero indica ausência de dispersão; a dispersão aumenta à proporção que aumenta o valor da medida (amplitude,desvio-padrao, variância). xx x x x x xxx xxx xx x x a) pequena dispersão xx x x xxx x x x x x x x x xx x x xxx x x x xx x x x x xx b) grande dispersão 10.1 AMPLITUDE TOTAL (R.T.) É a medida mais simples de dispersão. É a diferença entre o maior e o menor valor das observações. R.T. = Xmax – Xmin Embora exista simplicidade de cálculo, existem duas restrições ao seu generalizado: 1- Utiliza apenas uma parcela das informações contidas nas observações. O seu valor não se modifica mesmo que os valores das observações variem, desde que conservem os seus valores Máximo e mínimo. 2- Depende do número de observações na amostra. Em geral o valor da amplitude cresce quando cresce o tamanho da amostra. 45 X min.I I x max. R.T. = pequeno X min. I I X max. R.T. = Grande 10.2 DESVIO PADRÃO É à medida que determina a variação dos valores observados em torno da média da distribuição, e representa a distância do ponto de inflexão da curva até a linha da média. 10.2.1 DESVIO PADRÃO AMOSTRAL (S) O desvio padrão da amostra representa a dispersão da amostra e é dada pela equação: S = (X1- )² + (X2- )² + (X3- )² + ..... +(Xn- )² n 46 Onde: Xi = Medidas individuais S = Σ ( Xi - ) ² n n = Número de elementos ou valores 10.2.2 DESVIO PADRÃO DA POPULAÇÃO (σ) O desvio padrão da população representa a o grau de dispersão da população em torno da média é representado por σ, também representa a distância do ponto de inflexão, e é dado pela expressão: σ = (X1- )² + (X2- )² + (X3- )² + ..... +(Xn- )² n - 1 σ = Σ ( Xi - ) ² n - 1 10.2.3 REPRESENTAÇÃO GRÁFICA DO DESVIO PADRÃO σ +σ 47 10.2.4 SISTEMATIZAÇÃO PARA O CÁLCULO Para sistematizar o cálculo do desvio padrão de uma amostra é utilizado o seguinte procedimento: 1- Calcular o valor da média; 2- Montar a tabela abaixo observações Xi Xi - (Xi - )² medidas 1 X1 X1 - (X1 - )² 2 X2 X2 - (X2 - )² 3 X3 X3 - (X3 - )² . . . . . . . . . . . . n Xn Xn - ( Xn - )² Σ (Xi- )² 3-Aplicam-se as fórmulas: S = Σ ( Xi - ) ² n σ = Σ ( Xi - ) ² n - 1 48 10.3 VARIÂNCIA Variância da população é a soma dos quadrados dos desvios de cada observação em relação à média de “x”, divide-se por n – 1. Indica-se a Variância da População por σ² . Podemos fazer a mesma analogia com a Variância da Amostra dada por S². Fórmula da variância da Amostra n Σ ( Xi - ) ² S ² = i = 1 n Fórmula da variância da População n Σ ( Xi - ) ² σ ² = i = 1 onde n – 1 = número de graus de liberdade n - 1 Como medida de dispersão, a Variância tem a desvantagem de apresentar unidade de medida igual ao quadrado da unidade de medida dos dados. Se os dados estão em metros, a Variância fica em metros quadrados. O desvio padrão por sua vez, fica com valor na mesma da unidade da variável. 49 11.0 DISTRIBUIÇÃO NORMAL (ou de GAUSS, ou de LAPLACE, ou ainda, dos ERROS DAS OBSERVAÇÕES) É uma distribuição contínua e simétrica, cujo gráfico tem a forma de um sino. A distribuição normal é o resultado da atuação conjunta de causas aleatórias. Parâmetros da Distribuição Normal µ → Média da População Determinam o formato da curva σ → Desvio padrão da população Equação da Função de Probabilidade – A equação da função de probabilidade é dada pela expressão: - ( x - µ )² 2 σ² f(x) = 1 e σ√ 2π Do estudo de estatística concluímos que: - a variável x pode assumir qualquer valor real no intervalo - ∞< x < +∞ F (x) σ x- 3σ x- 2σ x- 1σ x +1σ x+ 2σ x+ 3σ 50 - a variável x obedecerá a uma Distribuição Normal, se a probabilidade de que um valor x seja menor ou igual a outro xo for:- ( x - µ )² x0 2 σ² P( x < x0 ) = f(x0) = 1 e dx σ√ 2π - ∞ - a integral da expressão representa a área compreendida entre - ∞ e xo. - ∞ + ∞ Portanto: “ A probabilidade de ocorrência de um valor menor ou igual à área abaixo da curva, entre os valores - ∞ e xo” . Os valores π = 3,1416 e e ( número neperiano) = 2,718 são constantes numéricas. CARACTERISTICAS DA CURVA DE DISTRIBUIÇÃO NORMAL A curva normal obedece necessariamente às seguintes características: a- A média µ é o valor da variável x para o qual a f(x) é máxima. F (x) σ X0 51 b- O desvio Padrão σ, é a distância entre a média e o ponto de inflexão da curva. c- A área total sob a curva normal é igual a 1, pela própria equação da probabilidade. d- Em virtude da simetria as áreas à direita e à esquerda do valor µ são iguais DISTRIBUIÇÃO NORMAL PADRONIZADA Se tomarmos a equação auxiliar: Z = X - µ σ o que significa adotar como origem dos z o ponto em que x = µ e como unidade de escalados z e o desvio padrão σ, teremos transformado a expressão da função das probabilidades na distribuição normal reduzida: - z² 2 f(z)= 1 e σ√ 2π Considerando, a partir da equação auxiliar: dz = 1 dx σ dx = σ. dz Portanto a função da probabilidade, em função de Z, será dada pela expressão: 52 - z² z 2 f(z)= 1 e dz σ√ 2π - ∞ As áreas sob a curva permanecem as mesmas, mas agora podem ser tabuladas em função dos valores de Z (Ver figura abaixo, eixo dos Z). Basta construir a tábua das áreas para os valores I(z), na tábua 1. Por exemplo, a área desde Z=0, até Z= 1,0 é I(1,0) = 0,3413 ou 34,13% da área total da curva; conseqüentemente, dentro do intervalo ± 1 σ temos 68,26% da área total da curva. Se procurarmos a probabilidade de encontrarmos um valor de “x” dentro do intervalo µ ± 0,95 onde é a media, σ é o desvio padrão da população, teremos: P(- Z0 < Z < Z0) = P (µ – 0,95 σ < Z < µ + 0,95 σ) Iz1 = 0,3289 It= 0,6578 ou 65,78%. Apresentamos na tabela abaixo alguns dos mais importantes intervalos de distribuição normal para aplicações em exercícios de probabilidade na curva normal. TÁBUAS DE ÁREAS DA CURVA NORMAL A partir da equação auxiliar Z = X - µ podemos transformar valores de x em σ valores de z e em seguida construir uma tabela com resultados das integrais, que corresponde à área sob a curva xo intervalo de 0 a Z0 identificada por Iz0. 53 -3 -2 -1 0 1 2 3 Z Transformação de X em Z F (x) σ x- 3σ x- 2σ x- 1σ x +1σ x+ 2σ x+ 3σ Xo Z= X - µ Zo σ µ µ - µ 0 σ µ + 1σ µ + 1σ- µ 1 σ µ + 2σ µ + 2σ- µ 2 σ µ + 3σ µ + 3σ- µ 3 σ µ - 1σ µ - σ - µ -1 σ µ - 2σ µ - 2σ - µ -2 σ µ - 3σ µ - 3σ - µ -3 σ 54 I Zo 0 Zo AREAS I ZO = P (0 ≤ z ≤ Z0) para Z0= (x - µ)/ σ Z0 I Z0 Z0 I Z0 Z0 I Z0 Z0 I Z0 Z0 I Z0 Z0 I Z0 0,00 0,0000 0,60 0,2257 1,20 0,3849 1,80 0,4641 2,40 0,4918 3,00 0,4987 0,05 0,0199 0,65 0,2422 1,25 0,3944 1,85 0,4678 2,45 0,4929 3,05 0,4989 0,10 0,0398 0,70 0,2580 1,30 0,4032 1,90 0,4713 2,50 0,4938 3,10 0,4990 0,15 0,0596 0,75 0,2734 1,35 0,4115 1,95 0,4744 2,55 0,4946 3,15 0,4992 0,20 0,0793 0,80 0,2881 1,40 0,4192 2,00 0,4772 2,60 0,4953 3,20 0,4993 0,25 0,0987 0,85 0,3051 1,45 0,4279 2,05 0,4798 2,65 0,4960 3,25 0,4994 0,30 0,1179 0,90 0,3159 1,50 0,4332 2,10 0,4821 2,70 0,4965 3,30 0,4995 0,35 0,1369 0,95 0,3289 1,55 0,4394 2,15 0,4842 2,75 0,4970 3,35 0,4996 0,40 0,1554 1,00 0,3413 1,60 0,4452 2,20 0,4861 2,80 0,4974 3,40 0,4997 0,45 0,1736 1,05 0,3531 1,65 0,4505 2,25 0,4878 2,85 0,4978 3,50 0,4998 0,50 0,1915 1,10 0,3643 1,70 0,4554 2,30 0,4893 2,90 0,4981 3,70 0,4999 0,55 0,2088 1,15 0,3749 1,75 0,4599 2,35 0,4906 2,95 0,4984 3,90 0,5000 55 EXERCÍCIOS: E-3 1- Trace uma curva normal e sombreie a área desejada a partir das informações: a- área à direita de z=1,0 b- área da esquerda de z= 1,0 c- área entre z=0 e z=1,5 d- área entre z=0 e z= - 2,9 e- área entre z=1,0 e z= 2,0 f- área entre z= -2,0 e z= 2,0 g- área entre z= 2,5 e z=3,0 2- Ache os valores de z correspondentes as seguintes áreas: a- área à esquerda de µ para Iz = 0,0505 b- área à esquerda de µ para Iz = 0,0228 c- área à esquerda Iz= 0,4505 e área da direita Iz = 0,4861 3- Uma distribuição normal tem media 50 e desvio padrão 5. Que percentagem da população estaria provavelmente dentro dos intervalos: a- P ( x ≤ 60) b- P ( 35 ≤ x ≤ 62) c- P ( 55 ≤ x ≤ 65) d- P ( x > 55) e- P ( 35 ≤ x ≤ 45) 4- Suponha uma renda média de uma grande comunidade possa ser razoavelmente aproximada por uma distribuição normal com media anual de R$ 10.000,00 e desvio padrão de R$ 2.000,00. a- Que percentagem da população terá renda superior a R$ 15.000,00? b- Numa amostra de 50 assalariados, quantos podemos esperar que tenham menos de R$ 8.000,00 de renda? 56 12.0 PROBABILIDADE O problema fundamental da estatística consiste em lidar com o acaso e a incerteza. Chama-se probabilidade de um acontecimento a razão entre o número de casos favoráveis ao mesmo e o número total de acontecimentos possíveis. Assim quando se considera uma população limitada de P indivíduos, a probabilidade de cada um ser escolhido, ao acaso, é de 1/P. Laplace definiu probabilidade como: “O quociente do número de casos favoráveis sobre o número de casos igualmente possíveis”. Por exemplo, se jogarmos uma moeda “não viciada” para o ar, de modo geral não podemos afirmar se vai dar cara ou coroa. Porém existem apenas dois eventos possíveis: sair “cara” ou “coroa” Nesse exemplo existe um caso favorávela esse evento em dois casos possíveis. A P (K) = ½ ou 50%. Considerando-se “cara” como sucesso e “coroa” como fracasso e representando-se o acontecimento favorável como “P” e o não favorável como “Q”, temos as razões: P= ½ e Q = ½ Sendo P+Q = 1 Então P= (1 - Q) e Q = (1 - P) A probabilidade de um evento A, denotada por P (A), é um número de 0 a 1, que indica a chance de ocorrência do evento A. Quanto mais próxima de 1,00 é P(A), maior é a chance de ocorrência do evento A, e quanto mais próxima de Zero, menor é a chance de ocorrência do evento A. Um evento impossível atribui-se a probabilidade Zero. Um evento certo tem probabilidade de 1. As probabilidades podem ser expressas, inclusive por valores decimais, frações e percentagem como: 20%; 2 em 10; 0,2; ou ainda 1/5. 57 Além do uso na interpretação de jogos de azar, usa-se ainda a probabilidade mediante determinada combinação de julgamento, experiência ou dados históricos, para predizer Quao Provável é a ocorrência de determinado evento futuro. Há numerosos exemplos de tais situações no campo dos Negócios e do Governo. A previsão da aceitação de um novo produto, o cálculo dos custos de produção, a contratação de um novo empregado, o preparo do orçamento, a avaliação do impacto de uma redução de impostos sobre a inflação – tudo isso contém algum elemento de Acaso. 12.1 ESPAÇO AMOSTRAL E EVENTOS Consideremos o experimento que consiste em “extrair uma carta de um baralho de 52 cartas”. Há 52 eventos elementares no espaço amostral. Quanto aos eventos podemos classificá-los em: ESPAÇO AMOSTRAL COMPLEMENTO Cartas vermelhas e cartas pretas Não se interceptam cartas de MUTUAMENTE EXCLUDENTE copas e cartas de paus NAO SÃO MUTUAMENTE Cartas de copas e figuras, tem EXCLUDENTE elementos em comum. Cartas de paus, ouro, copas e COLETIVAMENTE EXAUSTIVO A B C D espadas A A B A B 58 12.2 TRÊS ORIGENS DA PROBABILIDADE Há três maneiras diferentes de calcular ou estimar probabilidades, O método Clássico, quando o espaço amostral tem resultados igualmente prováveis. O método Empírico, que se baseia na freqüência relativa de ocorrência de um evento num grande número de provas repetidas; e o método Subjetivo, que utiliza estimativas pessoais baseadas num certo grau de crença. OBJETIVO SUBJETIVO CLÁSSICO EMPÍRICO Opinião Pessoal (resultados igualmente prováveis) (dados históricos) O Método Clássico Os jogos de azar (lançamento de moedas, jogo de dados, extração de cartas) usualmente apresentam resultados igualmente prováveis. Nestes casos temos: P(cada resultado) = 1 Número de resultados possíveis Se cada carta de um baralho de 52 tem a mesma chance de ser escolhida, então a probabilidade de extrair cada uma delas é de 1/52 : P (A) = 1/52 1,92%. Da mesma forma a probabilidade de termos uma cara no lançamento de uma moeda é ½ ou 50%. O mesmo ocorre com uma coroa, ou seja ½ ou 50%. No caso de um dado temos a probabilidade de dar qualquer número: 1,2,3,4,5,6 é de 1/6 ou de 16,66%. De forma geral vale também a expressão: 59 P(A) = Número de resultados associados ao evento A Número total de resultados possíveis Por exemplo, a probabilidade de extração de uma dama, de acordo com esta definição, é P (dama) = 4 damas = 4 = 1 = 7,69% 52 cartas 52 13 Analogamente, a probabilidade de obter número ímpar no lance de um dado é P(ímpar) = 3 faces = 3 ou 50% 6 faces possíveis 6 12.3 A MATEMÁTICA DA PROBABILIDADE Muitas aplicações de estatística exigem a determinação da probabilidade de combinações de eventos. Há duas categorias de eventos de interesse, A e B, no espaço amostral. Pode ser necessário determinar P(A e B), isto é; a probabilidade de ocorrência de ambos os eventos. Em outras situações, podemos querer a probabilidade de ocorrência de A ou B P(A ou B). Cálculo da Probabilidade da ocorrência de dois eventos “independentes” P(A e B) Se dois eventos são independentes, então a probabilidade da ocorrência de ambos é igual ao produto de suas probabilidades individuais: P(A e B) = P(A) . P(B) Exemplo Jogam-se duas moedas equilibradas.Qual a probabilidade da ocorrência de ambas darem cara? É razoável admitir que os resultados das duas moedas sejam independentes um do outro. Além disso, para moedas equilibradas, P(cara)= ½ . Logo p(cara e cara) será: 60 1° moeda 2°moeda ½ x ½ = ¼ ou 25% Cálculo da Probabilidade da ocorrência de dois eventos “mutuamente excludente” P(A ou B ocorrerá) Se dois eventos mutuamente excludentes, a probabilidade de ocorrência de qualquer um deles é a soma de suas probabilidades individuais. Para dois eventos A e B temos: P(A ou B) = P(A) + P(B) Exemplo, qual é a probabilidade de aparecer cinco ou seis numa jogada de um dado equilibrado? P(cinco) ou P(seis) = P (5) + P(6) = 1 + 1 = 2 = 33,33% 6 6 6 Cálculo da Probabilidade da ocorrência de dois eventos “não mutuamente excludente” P(A ou B ou ambos ocorrerão) Suponhamos a probabilidade de extração de uma carta de paus ou um dez de um baralho de 52 cartas . Como é possível que uma carta seja simultaneamente de “paus” e um “dez”, os eventos não são mutuamente excludentes. Assim devemos excluir a probabilidade de interseção. Então temos: P(paus) = 13 , P(dez)= 4 , P( dez de paus) = 1 , 52 52 52 P(paus ou dez,ou ambos) = P(paus) + P(dez) - P(dez de paus) = 13 + 4 - 1 = 16 52 52 52 52 61 NAIPE PAUS OUROS COPAS ESPADA PRETA VERMELHA VERMELHA PRETA ♣ K ♦ K ♥ K ♠ K ♣ Q ♦ Q ♥ Q ♠ Q ♣ J ♦ J ♥ J ♠ J ♣ 10 ♦ 10 ♥ 10 ♠ 10 ♣ 9 ♦ 9 ♥ 9 ♠ 9 a carta é um dez ♣ 8 ♦ 8 ♥ 8 ♠ 8 ♣ 7 ♦ 7 ♥ 7 ♠ 7 ♣ 6 ♦ 6 ♥ 6 ♠ 6 ♣ 5 ♦ 5 ♥ 5 ♠ 5 ♣ 4 ♦ 4 ♥ 4 ♠ 4 ♣ 3 ♦ 3 ♥ 3 ♠ 3 ♣ 2 ♦ 2 ♥ 2 ♠ 2 ♣ A ♦ A ♥ A ♠ A Carta de paus Os eventos “paus” e “dez” se interceptam. Regra de probabilidade P (A e B), para eventos independentes (Multiplicação) P(A) x P(B) P (A ou B), para eventos mutuamente excludentes (Soma) P(A) + P(B) P (A ou B ou ambos ocorrerão), para eventos não mutuamente excludentes P(A) + P(B) - P(A intercepta B) 62 EXERCÍCIOS: E-4 1- Extrai-se uma só carta de um baralho de 52. Determine a probabilidade de obter: a- Um valete b- Uma figura c- Uma carta vermelha d- Uma carta de ouros e- Um dez de paus f- Um nove vermelho ou um oito preto 2- Relacione os
Compartilhar