Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 2 SUMÁRIO 1 ESTATÍSTICA: HISTÓRICO .............................................................. 5 2 ESTATÍSTICA: DEFINIÇÕES E CONCEITOS .................................. 6 2.1 Ferramentas e aplicações da estatística ..................................... 7 3 ESTATÍSTICA VITAL E BIOESTATÍSTICA ....................................... 8 3.1 Dados .......................................................................................... 9 3.2 Processos Estatísticos de Abordagem ...................................... 12 3.3 Dados Estatísticos ..................................................................... 13 3.4 Dados ou Variáveis Estatísticas ................................................ 15 3.5 Fases do Experimento (ou método) Estatístico ......................... 16 3.6 Coleta de Dados ........................................................................ 18 4 CRÍTICA DOS DADOS .................................................................... 20 5 APURAÇÃO OU PROCESSAMENTO DOS DADOS (APRESENTAÇÃO DOS DADOS) ................................................................... 21 6 EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS (TABELAS E GRÁFICOS) ..................................................................................................... 21 7 ANÁLISE E INTERPRETAÇÃO DOS DADOS ................................. 22 7.1 Estatística Descritiva ................................................................. 23 7.2 Distribuições de Frequência ...................................................... 23 8 REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQUÊNCIA .................................................................................................. 26 8.1 Diagrama de Setores (Gráfico de Pizza) ................................... 27 8.2 Diagrama de Coluna/Barras ...................................................... 29 8.3 Diagrama de Linhas Simples/Em Faixa ..................................... 30 8.4 Diagrama de Linhas Simples ..................................................... 30 8.5 Diagrama de Linhas em Faixa ................................................... 31 9 MEDIDAS ESTATÍSTICAS .............................................................. 32 3 9.1 Medidas de Tendência Central .................................................. 33 9.2 Os quartis .................................................................................. 42 9.3 Os Percentis .............................................................................. 43 10 MEDIDAS DE DISPERSÃO.......................................................... 44 10.1 Amplitude Total ...................................................................... 45 10.2 Variância ................................................................................ 46 10.3 Desvio-padrão ........................................................................ 46 11 PROBABILIDADE ......................................................................... 49 11.1 Experimento Aleatório ............................................................ 50 11.2 Espaço Amostral .................................................................... 51 11.3 Eventos .................................................................................. 52 12 REGRAS DE PROBABILIDADE ................................................... 55 12.1 Propriedades da Probabilidade .............................................. 55 12.2 Teorema da Probabilidade Total ............................................ 56 12.3 Probabilidade Condicional e Regra Da Multiplicação ............... 60 12.4 Independência de Eventos ..................................................... 61 12.5 Distribuição de Probabilidade ................................................. 61 12.6 Distribuições Contínuas de Probabilidade ............................... 62 13 INFERÊNCIA ESTATÍSTICA ........................................................ 63 14 TEORIA ELEMENTAR DA AMOSTRAGEM ................................. 63 15 TEORIA DA ESTIMAÇÃO ............................................................ 64 15.1 Estimação por ponto .............................................................. 64 15.2 Intervalo de confiança para a média quando a variância é conhecida 66 16 TESTES DE SIGNIFICÂNCIA ...................................................... 66 16.1 Hipótese Estatística ............................................................... 67 16.2 Passos para a Construção de um Teste de Hipóteses .......... 68 4 17 INTERVALO DE CONFIANÇA ..................................................... 69 17.1 Intervalo de confiança para média ......................................... 69 17.2 Intervalo de confiança ............................................................ 70 17.3 Amostragem ........................................................................... 70 17.4 Plano de Amostragem ............................................................ 70 17.5 Tipos de Amostragem ............................................................ 71 17.6 Tamanho da Amostra ............................................................. 72 18 REGRESSÃO ............................................................................... 73 18.1 Correlação .............................................................................. 73 18.2 Análise de Regressão ............................................................ 74 19 ORGANIZAÇÃO DA PESQUISA .................................................. 74 19.1 Estudo Descritivo ................................................................... 75 19.2 Estudo Caso-Controle ............................................................ 75 19.3 Estudos Tipo Coorte .............................................................. 75 19.4 Ensaios Clínicos Aleatorizados .............................................. 75 20 REGRESSÃO ............................................................................... 76 20.1 Correlação .............................................................................. 76 20.2 Análise de Regressão ............................................................ 76 21 ORGANIZAÇÃO DA PESQUISA .................................................. 77 21.1 Estudo Descritivo ................................................................... 77 21.2 Estudo Caso-Controle ............................................................ 78 21.3 Estudos Tipo Coorte .............................................................. 78 21.4 Ensaios Clínicos Aleatorizados .............................................. 78 BIBLIOGRAFIA ...................................................................................... 79 5 1 ESTATÍSTICA: HISTÓRICO Fonte: grupoescolar.com A origem da palavra Estatística está associada à palavra latina status (Estado). Há indícios de que 3000 anos A.C. já se faziam censos na Babilônia, China e Egito e até mesmo o 4º livro do Velho Testamento faz referência à uma instrução dada a Moisés, para que fizesse um levantamento dos homens de Israel que estivessem aptos para guerrear. Usualmente, estas informações eram utilizadas para a taxação de impostos ou para o alistamento militar. O Imperador César Augusto, por exemplo, ordenou que se fizesse o Censo de todo o Império Romano. A palavra CENSO é derivada da palavra CENSERE, que em Latim significa TAXAR. Em 1085, Guilherme, O Conquistador, solicitou um levantamento estatístico da Inglaterra, que deveria conter informações sobre terras, proprietários, uso da terra, empregados e animais. Os resultados deste censoforam publicados em 1086 no livro intitulado “Domesday Book” e serviram de base para o cálculo de impostos. Contudo, mesmo que a prática de coletar dados sobre colheitas, composição da população humana ou de animais, impostos, etc., fosse conhecida pelos egípcios, hebreus, caldeus e gregos, e se atribuam a Aristóteles cento e oitenta descrições de Estados, apenas no século XVII a Estatística 6 passou a ser considerada disciplina autônoma, tendo como objetivo básico a descrição dos BENS do Estado. As primeiras aplicações da estatística estavam voltadas para as necessidades de Estado, na formulação de políticas públicas, fornecendo dados demográficos e econômicos à administração pública. No século XVIII, Godofredo Achenwall batizou esses estudos como uma nova ciência com o nome de Estatística. Surgiram tabelas mais complexas, representações gráficas e cálculo de probabilidade. Formou-se a ferramenta que através da observação de partes (amostras) chega-se a conclusões sobre um todo (população). A abrangência da estatística aumentou no começo do século XIX para incluir a acumulação e análise de dados de maneira geral. 2 ESTATÍSTICA: DEFINIÇÕES E CONCEITOS Fonte: posgraduando.com A Estatística é considerada por alguns autores como Ciência no sentido do estudo de uma população. É considerada como método quando utilizada como instrumento por outra Ciência. A palavra estatística frequentemente está associada à imagem de aglomeração de números, dispostos em uma imensa variedade de tabelas e gráficos, representando informações tão diversas como nascimentos, mortes, taxas, populações, rendimentos, débitos, créditos, etc. Isto é devido ao uso comum da palavra estatística como sinônimo de dados, como, por exemplo, 7 quando falamos das estatísticas de uma eleição, estatísticas da saúde, estatísticas de acidente de trânsito ou as estatísticas de acidentes de trabalho. No sentido moderno da palavra, estatística lida com o desenvolvimento e aplicação de métodos para coletar, organizar, analisar e interpretar dados de tal modo que a segurança das conclusões baseada nos dados pode ser avaliada objetivamente por meio de proposições probabilísticas. O propósito da estatística não é exclusivo de qualquer ciência isolada. Ao contrário, a estatística fornece um conjunto de métodos úteis em toda área científica onde haja a necessidade de se coletar, organizar, analisar e interpretar dados. Estes métodos podem ser usados tão eficazmente em engenharia, como em biologia ciências sociais ou em física. 2.1 Ferramentas e aplicações da estatística Estatística pode ser pensada como a ciência de aprendizagem a partir de dados. Em linhas gerais, ela fornece métodos que auxiliam o processo de tomada de decisão a partir de dados. Durante sua aplicação, a estatística: Coleta, organiza, sintetiza e faz a apresentação de dados; Faz o levantamento de dados e mede a variação que pode ocorrer nestes; Produz a estimativa dos parâmetros da população e se preocupa com a determinação da precisão das estimativas; Aplica os testes de hipótese em relação aos parâmetros; Realiza a análise da relação entre duas ou mais variáveis. Algumas ciências utilizam a estatística aplicada largamente, e possuem uma terminologia especializada, por exemplo: Bioestatística Controle de qualidade Contabilometria Controle de qualidade Estatística comercial Controle de qualidade Estatística populacional Estatística engenharia Geoestatística Estatística social 8 Pesquisa operacional 3 ESTATÍSTICA VITAL E BIOESTATÍSTICA Fonte: br.depositphotos.com A ciência não é apenas a descrição de fatos, organização de dados, enunciação de leis, apresentação de novas descobertas. O método científico, exige organização de dados, análise, tomadas de decisões em condições de incerteza. E nos dá suporte técnico através da estatística (ferramenta do método científico). Estatística Vital é instrumento de mensuração dos níveis de saúde, servindo para planejamento, programação e avaliação dos serviços de saúde. A estatística vital e a Bioestatística é a estatística aplicada às ciências médicas e biológicas. São fundamentais à epidemiologia, à ecologia, à psicologia social e à medicina baseada em evidência, entre outras. A necessidade da criação e uso desses termos se deve por particularidades dessa área como: Familiarização com o jargão próprio da área. Alguns termos d vocabulário comum têm significado técnico e científico específico quando usado em bioestatística. 9 Por meio da atuação e uso da Bioestatística é possível a análise e ponderação sobre os dados relacionados à saúde, os quais a partir disso podem ser usados para: Estruturar a organização e ações para a assistência em saúde. Comprovar a eficácia de novas drogas/vacinas. Desenvolver pesquisas. Analisar dados obtidos de experimentos. Comprovar a eficácia de tratamentos. Identificar, planificar e executar ações de saúde pública. Como a bioestatística e a estatística vital são uma terminologia da estatística, elas adotam as etapas e os métodos da própria estatística. Como a Estatística é a ciência que trata da coleta, do processamento e da disposição dos dados, sua primeira etapa está relacionada aos dados. 3.1 Dados Coleta de dados Fonte: emaze.com 10 Diversos problemas podem ocorrer durante o processo de coleta de dados, os quais podem comprometer seriamente as soluções propostas no final do processo, ou seja, a qualidade da solução do problema de gestão está diretamente relacionada com a qualidade dos dados obtidos. Podemos evitar que alguns problemas ocorram observando fatos como: Não se deve coletar dados sem que antes se tenha definido claramente o problema ou situação a ser enfrentada, bem como os objetivos com relação aos mesmos: Os sistemas de medição (instrumento, operadores, método, meio) que serão utilizados devem ser avaliados e ter capacidade de medição. Os cálculos e leituras devem ser feitos com muita atenção para evitar distorções. Devem ser utilizados métodos adequados para coleta de dados de acordo com o problema estudado. Após a definição do problema a ser estudado e o estabelecimento do planejamento da pesquisa (forma pela qual os dados serão coletados; cronograma das atividades, custos envolvidos; exame das informações disponíveis; delineamento da amostra etc.), o passo seguinte é a coleta de dados, que consiste na busca ou compilação dos dados das variáveis, componentes do fenômeno a ser estudado. A coleta de dados pode ser direta ou indireta. Coleta direta: Quando os dados são obtidos na fonte originária. Os valores assim compilados são chamados de dados primários, como, por exemplo, nascimentos, casamentos e óbitos, todos registrados no Cartório de Registro Civil; opiniões obtidas em pesquisas de opinião pública, ou ainda, quando os dados são coletados pelo próprio pesquisador. A coleta direta pode ser classificada relativamente ao fator tempo em: Contínua: Quando feita continuamente, como por exemplo, nascimentos e óbitos, frequência dos alunos às aulas; Periódica: Quando é feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos); 11 Ocasional: Quando é feita sem época preestabelecida. Coleta indireta: Quando os dados obtidos provêm da coleta direta. Os valores assim compilados são denominados de dados secundários, como, porexemplo, o cálculo do tempo de vida média, obtido pela pesquisa, nas tabelas demográficas publicadas pela Fundação Instituto Brasileiro de Geografia e Estatística – IBGE constitui-se em uma coleta indireta. Objetivando o estudo quantitativo e qualitativo dos dados (ou informações), obtidos nos vários campos da atividade científica, a Estatística manipula dois conjuntos de dados fundamentais: a "população" e a "amostra". População População (ou Universo) é o conjunto dos seres, objetos ou informações que interessam ao estudo de um fenômeno coletivo segundo alguma (s) característica (s). É, portanto, um conjunto definido de informações relativas a qualquer área de interesse, podendo, quanto ao número de elementos, ser: finita (tamanho N) ou infinita. Na maioria das vezes não é conveniente, ou mesmo possível, realizar o levantamento dos dados referentes a todos os elementos de uma população. Portanto, analisamos parte da população, isto é, uma amostra. Amostra É um subconjunto não vazio ou parte da população. Duas considerações devem ser feitas sobre o estudo amostral dos fenômenos: Uma diz respeito aos cuidados que se deve tomar para assegurar que a amostra seja representativa da população. Para atender a essa exigência, deve- se selecionar os elementos de forma aleatória, de modo que todo e qualquer elemento da população tenha a mesma chance de participar da amostra. A outra diz respeito à precisão dos dados coletados, buscando minimizar os erros que poderiam induzir a conclusões equivocadas. O número de elementos de uma amostra é chamado de tamanho da amostra, e denotado por n. 12 Algumas definições Parâmetro Uma característica numérica estabelecida para toda uma população é denominada parâmetro. São valores, geralmente desconhecidos (e que, portanto, têm de ser estimados), que representam certas características da população. Estimador É uma característica baseada em observações amostrais e usada para indicar o valor de um parâmetro populacional desconhecido. Estimativa O valor numérico assumido pelo estimador numa determinada amostra é denominada estimativa. Exemplo: No fenômeno coletivo eleição para reitor da UFPB, a população é o conjunto de todos os eleitores habilitados na Universidade. Um parâmetro é a proporção de votos do candidato A. Uma amostra pode ser um grupo de 300 eleitores selecionados em toda a UFPB. Um estimador é a proporção de votos do candidato A obtida na amostra. O valor resultante do estimador, a proporção amostral, é a estimativa. 3.2 Processos Estatísticos de Abordagem Quando solicitados a estudar um fenômeno coletivo podemos optar entre os seguintes processos estatísticos: Censo: Avaliação direta de um parâmetro, utilizando-se todos os componentes da população. Entre as principais características de um Censo, podemos destacar: admite erro processual zero e tem confiabilidade 100%, caro, lento e quase sempre desatualizado. Nem sempre é viável. Amostragem (inferência): Avaliação indireta de um parâmetro, com base em um estimador através do cálculo das probabilidades. Entre as principais características, podemos destacar: admite erro processual 13 positivo e tem confiabilidade menor que 100%, é barata, rápida e atualizada. É sempre viável. 3.3 Dados Estatísticos Fonte: indaiabira.mg.gov.br Normalmente, no trabalho estatístico, o pesquisador se vê obrigado a lidar com grande quantidade de valores numéricos resultantes de um censo ou de uma amostragem. Estes valores numéricos são chamados dados estatísticos. A Estatística ensina métodos racionais para a obtenção de informações a respeito de um fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permitir tomada de decisões, através dos dados estatísticos observados. Desta forma, a estatística pode ser dividida em duas áreas: Estatística Descritiva e Estatística Inferencial. Estatística Descritiva: É a parte da Estatística que tem por objetivo descrever os dados observados. A Estatística Descritiva, na sua função de descrição dos dados, tem as seguintes atribuições: A obtenção dos dados estatísticos: ou coleta dos dados é normalmente feita através de um questionário ou de observação direta de uma população ou amostra. 14 A organização dos dados: consiste na ordenação e crítica quanto à correção dos valores observados, falhas humanas, omissões, abandono de dados duvidosos, etc. A redução dos dados: envolve o entendimento e a compreensão de grande quantidade de dados através de simples leitura de seus valores individuais. A representação dos dados: compreende de técnicas para uma melhor visualização dos dados estatísticos, facilitando sua compreensão. Por exemplo, os gráficos, quando bem representativos, tornam-se importantes instrumentos de trabalho. A obtenção de algumas informações que auxiliam a descrição do fenômeno observado. Estatística Inferencial (ou indutiva): é a parte da Estatística que tem por objetivo obter e generalizar conclusões para a população a partir de uma amostra. Complementando o processo descritivo, a Estatística Indutiva estuda parâmetros a partir do uso de estimadores usando o cálculo das probabilidades, elemento este que viabiliza a Inferência Estatística. Fonte: ceciliatomasmpel5mico.blogspot.com 15 3.4 Dados ou Variáveis Estatísticas As informações ou dados característicos dos fenômenos ou populações são denominados variáveis estatísticas ou simplesmente variáveis. Conforme suas características particulares podem ser classificadas da seguinte forma: Quantitativas: São aquelas que podem ser expressas em termos numéricos. Em geral são as resultantes de medições, enumerações ou contagens. São subdivididas em contínuas e discretas: Contínuas: São aquelas que podem assumir qualquer valor num certo intervalo de medida, podendo ser associados ao conjunto dos números reais, ou seja, é um conjunto não enumerável. Entre outras, enquadram-se nesta categoria as medidas de tempo, comprimento, espessura, área, volume, peso, velocidade, dosagem de hemoglobina no sangue, concentração de flúor na água oferecida à população, etc. Discretas: Quando só podem assumir determinados valores num certo intervalo, ou seja, é um conjunto finito ou enumerável. Em geral, representam números inteiros resultantes de processo de contagem, como o número de alunos por sala, de créditos por disciplinas, de pacientes atendidos diariamente num hospital, etc. De modo geral, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis discretas. Designamos estas variáveis por letras latinas, em geral, as últimas: X, Y, Z. Qualitativas: Nem sempre os elementos de uma população são exclusivamente contáveis. Muitas vezes, eles podem ser qualificados também segundo algumas de suas características típicas. Nesses casos, as variáveis podem ser agrupadas em nominais ou ordinais (por postos): Nominais: Quando puderem ser reunidas em categorias ou espécies com idênticos atributos. Aqui se incluem os agrupamentos por sexo, área de estudo, desempenho, cor, raça, nacionalidade e religião. 16 Ordinais: Quando os elementos forem reunidos segundo a ordem em que aparecem dispostos numa lista ou rol. São típicas desta forma de agrupamento, variáveis como classe social, grau de instrução, entre outras. Em geral, uma mesma população pode ser caracterizada por mais de um tipode variável. Assim, os inscritos num vestibular, por exemplo, podem ser contados, medidos ou pesados, podem ser agrupados segundo o sexo ou área de estudo e podem ainda ser classificados segundo as notas obtidas nas provas prestadas. Fonte: youtube.com 3.5 Fases do Experimento (ou método) Estatístico Fonte: slideplayer.com.br 17 Num estudo estatístico, normalmente, segue-se um conjunto de passos que designamos por fases do método (ou experimento) estatístico. Essas fases variam entre cinco e sete, pois alguns autores mesclam duas ou três fases, em apenas uma, para um melhor entendimento. Em linhas gerais, podemos distinguir no método estatístico as seguintes etapas: Definição do Problema Saber exatamente o que se pretende pesquisar, ou seja, definir corretamente o problema. Essa primeira fase consiste na formulação correta do problema a ser estudado. Planejamento É o trabalho inicial de coordenação no qual define-se a população a ser estudada estatisticamente, formulando-se o trabalho de pesquisa através da elaboração de questionário, entrevistas, etc. A organização do plano geral implica em obter respostas para uma série tradicional de perguntas, antes mesmo do exame das informações disponíveis sobre o assunto, perguntas que procuram justificar a necessidade efetiva da pesquisa, a saber: Quem", "o que", "sempre", "por que", "para que", "para quando". Por exemplo: O Governo do Estado tem a necessidade de obter informações acerca do desempenho em Biologia dos estudantes matriculados na rede pública de ensino. O primeiro trabalho da equipe encarregada da pesquisa será, evidentemente, o de obter respostas para aquelas perguntas. Seriam então: Ainda na fase do planejamento, temos: * Quem deseja as informações? * O que devemos perguntar no questionário? * A pesquisa será periódica ou ocasional? Será executada sempre? * Por que desejam as informações? * Quando deverá estar concluída a pesquisa? * Qual a época oportuna para a aplicação dos questionários? * Para que desejam as informações? 18 O Exame das Informações Disponíveis Trabalho inicial de coleta de trabalhos ou publicações sobre o assunto, obtendo-se relatórios sobre atividades semelhantes ou correlatas; A Definição do Universo Isto é, saber qual o conjunto a ser pesquisado, distribuindo, classificando ou agrupando os elementos desse conjunto em subpopulações, para permitir um trabalho mais fácil, mais lógico, mais racional; O tipo de levantamento, Censo ou Amostragem Deverá ser decidido com a devida antecedência e a necessária análise das vantagens e desvantagens de um e de outro, em virtude do custo financeiro e do prazo determinado para a conclusão do trabalho. 3.6 Coleta de Dados Fonte: researchgate.net Após cuidadoso planejamento e a devida determinação das características mensuráveis do fenômeno coletivamente típico que se quer pesquisar, damos início à coleta dos dados numéricos necessários à sua descrição. A coleta dos dados poderá ser feita de diversas formas. 19 A ideal é aquela que maximiza os recursos disponíveis, dados os objetivos e a precisão previamente estipulados. No seu planejamento, deve-se considerar o tipo de dado a ser coletado, o local onde este se manifestará, a frequência de sua ocorrência, e outras particularidades julgadas importantes. Quando os dados se referirem ou estiverem em poder de pessoas, sua coleta poderá ser realizada mediante respostas a questionários previamente elaborados. Esses questionários podem ser enviados aos entrevistados para devolução posterior ou podem ser aplicados pelos próprios pesquisadores ou por entrevistadores externos ou contratados. Os dados ou informações representativas dos fenômenos ou problema em estudo podem ser obtidos de duas formas: por via direta ou por via indireta. Por Via Direta: Quando feita sobre elementos informativos de registro obrigatório (Exemplo: fichas no serviço de ambulatório, nascimentos, casamentos, óbitos, matrículas de alunos etc.) ou, ainda, quando os dados são coletados pelo próprio pesquisador através de entrevistas ou questionários. A coleta direta de dados, com relação ao fator tempo, pode ser classificada em: Contínua: Também denominada registro, é feita continuamente, tal como a de nascimentos e óbitos, etc. Também são do tipo contínuo o registro de certas doenças, como câncer, hanseníase, tuberculose e também algumas doenças infecciosas agudas com finalidade de controle. Periódica: Quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos), os balanços de uma farmácia, etc.; Ocasional: Quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam seres humanos. Por Via Indireta: Quando é inferida de elementos conhecidos (coleta direta) e/ou conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos via coleta direta. 20 4 CRÍTICA DOS DADOS Fonte: pt.slideshare.net Os dados colhidos por qualquer via ou forma e não previamente organizados são chamados de dados brutos. Esses dados brutos, antes de serem submetidos ao processamento estatístico propriamente dito, devem ser "criticados", visando eliminar valores impróprios e erros grosseiros que possam interferir nos resultados finais do estudo. A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; é interna quando se observa o material constituído pelos dados coletados. É o caso, por exemplo, da verificação de somas de valores anotados. 21 5 APURAÇÃO OU PROCESSAMENTO DOS DADOS (APRESENTAÇÃO DOS DADOS) Fonte: blog.maxieduca.com.br Uma vez assegurado que os dados brutos são consistentes, devemos submetê-los ao processamento adequado aos fins pretendidos. A apuração ou processamento dos dados pode ser manual, eletromecânica ou eletrônica. Os processos e métodos estatísticos aos quais os conjuntos de dados podem ser submetidos serão nosso objeto de estudo nas seções seguintes. 6 EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS (TABELAS E GRÁFICOS) Fonte: pt.dreamstime.com 22 Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico. No caso particular da estatística descritiva, o objetivo do estudo se limita, na maioria dos casos, à simples apresentação dos dados, assim entendida a exposição organizada e resumida das informações coletadas através de tabelas ou quadros, bem como dos gráficos resultantes. 7 ANÁLISE E INTERPRETAÇÃO DOS DADOS Fonte: pt.slideshare.net Consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema, descrevendo o fenômeno através do cálculo de medidas estatísticas. O objetivo último da Estatística é tirar conclusões sobre o todo (população) a partir de informações fornecidas por parte representativa do todo (amostra). Realizadas as fases anteriores (Estatística Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Inferencial, que tem por base a indução ou inferência, e tiramos desses resultados conclusõese previsões. 23 7.1 Estatística Descritiva A Estatística Descritiva é a parte da estatística que se ocupa com a coleta, crítica, ordenação e apresentação das informações fundamentais à caracterização e descrição do fenômeno que se deseja estudar e interpretar. Aqui se trabalhará com alguma característica notável do objeto de estudo, a qual terá de ser coletada de alguma forma e em algum lugar. Na coleta das informações deve-se considerar, preferencialmente, toda a população; caso a obtenção de dados sobre toda a população (censo) seja difícil ou até mesmo impossível (dado o grande número de elementos ou a sua dispersão no tempo ou no espaço), o estudo poderá ser feito com base numa amostra representativa. 7.2 Distribuições de Frequência Os dados numéricos, após coletados, são colocados em série e apresentados em tabelas ou quadros. Quando se estuda uma variável (qualitativa ou quantitativa), o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realizações (valores) da mesma. Iremos, pois, ver uma maneira de se dispor um conjunto de valores, de modo a se ter uma boa ideia global sobre esses valores, ou seja, de sua distribuição. Uma distribuição de frequências pode ser apresentada nas seguintes maneiras: Distribuição de Frequências por Valores (variável qualitativa ou quantitativa discreta): É construída considerando-se todos os diferentes valores ou categorias, levando em consideração suas respectivas repetições. Distribuição de Frequências por Intervalos ou Classes (variável quantitativa): Constroem-se classes de valores, levando em consideração o número de valores que pertencem a cada classe e quando a variabilidade dos dados é grande. A construção de tabelas 24 de frequências para variáveis contínuas necessita de certos cuidados. Exemplo: A Tabela 1 apresenta a distribuição de frequência da variável PROCEDÊNCIA, a partir dos dados do Quadro 1. Tabela 1 – Frequências e percentuais dos 46 estudantes de EV, segundo a região de procedência. João Pessoa, 1997. Procedência Nº Estudantes ( Fi ) Percentual ( fi %) Capital 20 43,5 Interior 16 34,8 Outra Região 10 21,7 Total 46 100 Quadro 1 – Informações sobre sexo, curso, idade (anos), procedência, renda familiar, número de disciplinas matriculado (a), peso (kg) e altura (cm) de 46 alunos matriculados na disciplina Estatística Vital (EV). ID SEXO CURSO IDADE (Anos) PROCEDÊNCIA RENDA FAMILIAR NO. DISCIP. MATRIC. PESO (kg) ALTURA (cm) 1 Fem Física 19 Interior Média 6 47 156 2 Masc Matem. 18 Capital Média 6 75 167 3 Fem Matem. 18 Outra Região Média 6 61 169 4 Fem Matem. 18 Capital Média 6 56 163 5 Masc Matem. 18 Capital Média 6 80 178 6 Fem Matem. 20 Interior Média 6 44 158 7 Fem Matem. 20 Interior Média 6 52 158 8 Masc Matem. 19 Capital Média 6 67 174 9 Fem Matem. 19 Outra Região Média 3 48 167 10 Masc Matem. 18 Capital Média 6 83 180 11 Fem Matem. 18 Capital Média 6 53 163 12 Masc Matem. 21 Outra Região Média 5 66,5 175 13 Masc Matem. 18 Interior Média 6 78 180 25 14 Fem Matem. 18 Interior Não Info. 6 46 158 15 Fem Matem. 18 Capital Média 6 54 160 16 Fem Matem. 19 Capital Média 6 56 162 17 Fem Matem. 19 Capital Média 7 53 160 18 Fem Matem. 18 Capital Média 6 57 164 19 Fem Física 23 Outra Região Média 6 53 160 20 Masc Matem. 18 Interior Média 6 76 180 21 Masc Matem. 21 Outra Região Média 6 65 171 22 Masc Matem. 19 Capital Média 6 78,5 180 23 Masc Matem. 19 Outra Região Média 6 104 183 24 Fem Matem. 17 Interior Média 6 47,5 155 25 Masc Matem. 18 Interior Baixa 6 67,5 175 26 Masc Matem. 19 Outra Região Média 6 61 160 27 Masc Matem. 17 Interior Não Info. 6 68 169 28 Masc Matem. 21 Interior Média 5 75 178 29 Fem Matem. 18 Interior Média 5 58 154 30 Masc Matem. 21 Outra Região Média 6 65 165 31 Masc Matem. 21 Capital Média 6 67 178 32 Fem Matem. 18 Capital Alta 6 47 167 33 Masc Matem. 21 Capital Média 5 69 179 34 Fem Matem. 19 Outra Região Média 6 68 170 35 Masc Matem. 18 Capital Média 6 53 166 36 Fem Matem. 17 Capital Média 6 51 153 37 Fem Matem. 19 Capital Média 6 63 168 38 Masc Matem. 19 Capital Média 6 60 166 39 Masc Matem . 1 8 Capital Média 6 72 174 40 Masc Matem . 2 1 Interior Média 5 54 163 41 Masc Matem . 1 8 Interior Baixa 6 60 165 42 Masc Matem . 1 9 Interior Média 6 75 181 43 Fem Matem . 1 8 Capital Média 6 52 160 44 Masc Matem . 1 8 Outra Região Média 6 100 175 45 Masc Matem . 2 2 Interior Média 6 80 179 46 Masc Matem 2 Interior Média 6 50 166 26 . 1 Exemplo 2: A tabela 2 apresenta distribuição de frequência da variável “Nº de disciplina matriculado (a) ”, a partir dos dados do Quadro 1 (dados agrupados sem intervalos). Tabela 2: Frequências e percentuais do número de disciplinas matriculadas dos 46 estudantes de EV. João Pessoa, 1997. Nº Disciplinas Matriculadas (Xi) Nº Estudantes (Fi) Percentual (fi %) 3 1 2,2 5 5 10,9 6 39 84,8 7 1 2,2 Total 46 100,0 8 REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQUÊNCIA Fonte: infoescola.com Fonte: vemqueteexplico.blogspot.com 27 O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é produzir, no investigador ou no público em geral, uma impressão rápida e viva do fenômeno em estudo. Para tornarmos possível uma representação gráfica, estabelecemos uma correspondência entre os termos da série estatística (tabela) e determinada figura geométrica, de tal modo que cada elemento da série seja representado por uma figura proporcional. A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos primordiais: Simplicidade – Indispensável devido à necessidade de levar a uma rápida apreensão do sentido geral do fenômeno apresentado a fim de não nos perdermos na observação de minúcias de importância secundária. Clareza – O gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. Veracidade – Indispensável qualquer comentário, posto que, se não representa uma realidade, perde o gráfico sua finalidade. Os principais tipos de gráficos estatísticos para as distribuições de frequências são os diagramas, que são gráficos geométricos de, no máximo duas dimensões. Para sua construção, em geral, fazemos uso só do sistema cartesiano. Dentre os principais tipos de diagramas, destacamos: 8.1 Diagrama de Setores (Gráfico de Pizza) Funcionam dividindo seus dados em categorias ou grupos distintos. O gráfico consiste de um círculo dividido em fatias de pizza, cada qual representando um grupo. O tamanho de cada fatia é proporcional a quantidade de algo em cada grupo em comparação com os outros. 28 Fonte: portalaction.com.br Fonte: portalaction.com.br Quanto maior a fatia, maior a popularidade relativa daquele grupo. A quantidade de algo em cada grupo é chamada de frequência. Dividem seu conjunto inteiro de dados em grupos distintos. Isto é, se você somar a frequência de cada fatia, obterá 100%. Os gráficos de setores podem ser úteis se você deseja comparar proporções básicas. Geralmente é fácil dizer à primeira vista quais grupos têm uma frequência alta em comparação aos outros. No entanto,essa forma gráfica é pouco útil se todas as fatias tiverem tamanhos semelhantes, pois se torna difícil visualizar diferenças sutis entre os tamanhos das fatias. 29 8.2 Diagrama de Coluna/Barras Permitem comparar tamanhos relativos, mas a vantagem de usar essa forma gráfica é que ela permite um maior grau de precisão. Fonte: guiadoexcel.com.br Fonte: portalaction.com.br São ideais em situações em que as categorias têm praticamente o mesmo tamanho, pois é possível identificar com muito mais precisão qual a categoria tem a frequência mais alta. Torna-se mais fácil enxergar as pequenas diferenças. Cada coluna/barra representa uma determinada categoria, e o seu comprimento indica o valor. Todas as colunas/barras têm a mesma largura, o que facilita sua comparação, e quanto mais longa maior o valor. 30 8.3 Diagrama de Linhas Simples/Em Faixa O diagrama de linhas simples é útil na representação de tabelas ou séries que evoluem ao longo do tempo (séries temporais), possibilitando a identificação de tendências. O diagrama de linhas em faixa é usado para comparar a evolução de duas variáveis e, ao mesmo tempo, a evolução de cada uma delas isoladamente. 8.4 Diagrama de Linhas Simples Fonte: pt.wikipedia.org O “gráfico de colunas” apresenta as categorias no eixo horizontal e a frequência ou porcentagem no eixo vertical. No “gráfico de barras” os eixos são invertidos. As categorias são mostradas no eixo vertical e a frequência no eixo horizontal. Portanto, as colunas são dispostas no sentido vertical e as barras no sentido horizontal. O gráfico de colunas tende a ser mais comum, mas gráficos de barras são úteis se os nomes de suas categorias forem muito longos, pois dão mais espaço para mostrar o nome de cada categoria. 31 8.5 Diagrama de Linhas em Faixa Fonte: vemqueteexplico.blogspot.com Perceba que todas essas formas gráficas estão associadas as variáveis qualitativas, ou seja, aquelas que expressam categorias. No caso das variáveis quantitativas discretas também podemos fazer uso de formas gráficas como diagrama de colunas/barras. No entanto, para representar as variáveis contínuas necessitamos de formas gráficas especificas como o histograma ou o polígono de frequências. Histograma Fonte: citisystems.com.br 32 Histogramas são como gráficos de colunas, mas com duas importantes diferenças. A primeira é que a área de cada coluna é proporcional à frequência, e a segunda é que não há espaço vazio entre as colunas no gráfico. É a representação gráfica de uma distribuição de frequências de variável quantitativa contínua (dados agrupados em intervalos) por meio de retângulos justapostos, entrado nos pontos médios das classes e cujas áreas são proporcionais às frequências das classes. Polígonos de frequência Fonte: alexandreprofessor.blogspot.com É outra forma de representar graficamente uma distribuição de frequências de variável quantitativa contínua (dados agrupados em intervalos). Corresponde a uma linha poligonal traçada a partir do ponto médio de cada retângulo do histograma, cuja área total é igual à do histograma. Pode referir-se às frequências absolutas ou às frequências relativas, conforme a escala utilizada no eixo vertical. 9 MEDIDAS ESTATÍSTICAS Vimos anteriormente a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de frequências. Agora vamos tratar dos cálculos de 33 medidas que possibilitem representar um conjunto de dados (valores de uma variável quantitativa, isto é, informações numéricas), relativos à observação de determinado fenômeno de forma reduzida. Os dados quantitativos, apresentados em tabelas e gráficos, constituem a informação básica do problema. É conveniente apresentar medidas que mostrem a informação de maneira resumida. Um conjunto de dados pode se reduzir a uma ou a algumas medidas numéricas que resumem todo o conjunto. Duas características importantes dos dados, que as medidas numéricas podem evidenciar são: o valor central do conjunto e a dispersão dos números. Estes índices estatísticos são as MEDIDAS DE POSIÇÃO e, dentre as mais importantes, citamos as “Medidas de Tendência Central”, que recebem tal denominação pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendência central, destacamos: Média aritmética ou Média; Moda; Mediana. As outras medidas de posição são as “Separatrizes”, que englobam: Mediana; Quartis; Decis. Percentis. 9.1 Medidas de Tendência Central São medidas que tendem para o centro da distribuição e tem a capacidade de representá-la como um todo. Dão o valor do ponto em torno do qual os dados se distribuem. As principais são: Média Aritmética, Mediana, Moda. Média Aritmética (ou simplesmente MÉDIA) Esta é a mais importante medida de locação e que é mais comumente usada para descrever um conjunto de observações. A média aritmética simples Pode ser difícil identificar padrões e tendências em uma grande quantidade de números, e achar a média é geralmente o primeiro passo para conseguir enxergar o cenário mais geral. Com a média à sua disposição, é possível rapidamente achar os valores mais representativos dos seus dados e tirar importantes conclusões. 34 de um conjunto de n observações é o quociente entre a soma dos dados e a quantidade dessas observações. É denotada por Em linguagem matemática, a média amostral se expressa de forma seguinte: Exemplo: Calcule a média da variável X: 3, 5, 8, 12, 7, 12, 15, 18, 20, 20. Diante da pergunta “Como interpretar a média? ”, as respostas mais comuns são: “Representa a posição da maioria” ou “É o valor que está no meio da amostra”. Ambas estão erradas. Quem representa a posição da (s) maioria (s) locais é a moda, e quem está no meio do rol é a mediana. O gráfico abaixo demonstra o que é a média: 35 Fonte: home.ufam.edu.br Média Aritmética Ponderada Em algumas situações os números que queremos sintetizar têm graus de importância diferentes, usa-se então a média aritmética ponderada. A média aritmética ponderada de um conjunto de n observações é o quociente da divisão pela soma dos pesos da soma das observações multiplicadas por seu respectivo peso. Com intervalos de Classe Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada, por meio da fórmula: Onde é ponto médio da classe. Exemplo: Consideremos a distribuição relativa a 34 famílias de 4 filhos, seja X o número de filhos do sexo masculino: 36 Nº de meninos 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 Σ = 34 Σ = 78 Temos, então: Logo: Isto é: Nota: sendo X uma variável discreta, como interpretar o resultado obtido, 2 meninos e 3 décimos de menino? O valor médio 2,3 meninos sugerem, neste caso que o maior número de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral de uma leve superioridade numérica em relação ao número de meninos. Exemplo: Suponha que tenhamos feito uma coleta de dados relativos às estaturas de 40 alunos, que compõemuma amostra dos alunos de um colégio A, resultando a seguinte tabela de valores. i Estaturas (cm) 01 150 |---- 154 04 152 608 02 154 |---- 158 09 156 1404 03 158 |---- 162 11 160 1760 04 162 |---- 166 08 164 1312 05 166 |---- 170 05 168 840 06 170 |---- 174 03 172 516 37 Σ = 40 Σ = 6440 Temos, neste caso: Logo: Mediana A mediana de um conjunto de n observações é o valor “do meio” do conjunto, quando os dados estão ordenados. Se n é ímpar esse valor é único; se n é par, a mediana é a média aritmética simples dos dois valores centrais. Exemplo: Determinar a mediana do conjunto X: 2, 20, 12, 23, 20, 8, 12. Ordenando os termos: 2, 8, 12, 12, 20, 20, 23. A mediana será o número 12, pois ele divide o conjunto em duas partes iguais. Portanto, Md = 12. Exemplo: Determinar a mediana da série X: 7, 21, 13, 15, 10, 8, 9, 13. Ordenando os termos: 7, 8,9, 10, 13, 13, 15, 21. A mediana será: Com intervalos de Classe Neste caso, o problema consiste em determinar o ponto do intervalo em que está compreendida a mediana. Para tanto, temos inicialmente que determinar a classe na qual se encontra a mediana – classe mediana: É o valor que divide as observações em duas partes, onde 50% dos dados ficam acima dele e o restante abaixo. Tal classe será, evidentemente, aquela corresponde à frequência acumulado imediatamente superior a . 38 Na prática seguimos os seguintes passos: Determinamos as frequências acumuladas. Calculamos Marcamos a classe correspondente à frequência acumulada imediatamente superior a – classe mediana – e, em seguida, empregamos a fórmula: Onde: LI é o limite inferior da classe mediana é a frequência acumulada da classe anterior à classe mediana é a frequência simples da classe mediana é a amplitude da classe mediana Exemplo: Tomemos a distribuição relativa à tabela do nº de meninos, completando-a com a coluna correspondente à frequência acumulada: Nº de meninos 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 Σ = 34 Sendo: A menor frequência acumulada que supera este valor é 18, que corresponde ao valor 2 da variável, sendo este o valor mediano. Logo: Md = 2 meninos 39 Exemplo: Tomemos a distribuição relativa à tabela da estatura dos alunos, completando-a com a coluna correspondente à frequência acumulada: i Estaturas (cm) 1 150 |---- 154 4 4 2 154 |---- 158 9 13 3 158 |---- 162 11 24 4 162 |---- 166 8 32 5 166 |---- 170 5 37 6 170 |---- 174 3 40 Σ = 40 Classe Mediana Temos: Como há 24 valores incluídos nas três primeiras classes da distribuição e como pretendemos determinar o valor que ocupa o 20º lugar, a partir do início da série, vemos que este deve estar localizado na terceira classe ), supondo que as frequências dessas classes estejam uniformemente distribuídas. Como há 11 elementos nessa classe e sendo o intervalo de classe igual a 4, devemos tomar do limite inferior, a distância: e a mediana será dada por: Logo: Md = 160,5 cm. 40 Moda (Mo) É o valor de maior freqüência em um conjunto de dados. Ela é denotada por Mo. Exemplo: Determinar a moda dos conjuntos de dados: X: 2, 8, 3, 5, 4, 5, 3, 5, 5, 1. O elemento de maior frequência é 5. Portanto, Mo = 5. É uma sequência unimodal, pois só temos uma moda. X: 6, 10, 5, 6, 10, 2. Este conjunto de dados apresenta o elemento 6 e 10 como elementos de maior frequência. Portanto, Mo = 6 e Mo = 10. Por isso é chamada de bimodal. Quando não houver elementos que se destaquem pela maior frequência, dizemos que a série é amodal. Exemplo: X: 3, 3, 3, 4, 4, 4. Não há moda, pois, os elementos têm a mesma frequência. Com intervalos de Classe A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. Para determinação da moda, Czuber criou a seguinte expressão denominada fórmula de Czuber e, na qual: LI é o limite inferior da classe modal h é a amplitude da classe modal 41 Onde: é a frequência simples da classe modal é a frequência simples da classe anterior à classe modal é a frequência simples da classe posterior à classe modal Exemplo: Tomemos a distribuição relativa à tabela da estatura dos alunos: Classe modal Temos: A classe modal é: D1 = 11 – 9 D1 = 2 D2 = 11 – 8 D2 = 3 E como: Temos: Logo: i Estaturas (cm) 1 150 |---- 154 4 2 154 |---- 158 9 3 158 |---- 162 11 4 162 |---- 166 8 5 166 |---- 170 5 6 170 |---- 174 3 Σ = 40 42 9.2 Os quartis Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto, três quartis: O primeiro quartil (Q1) que é o valor que está situado de tal modo na série que uma quarta parte (25%) dos dados é menor e as três quartas partes restantes (75%) maiores do que ele; O segundo quartil (Q2) que é, evidentemente, coincidente com a mediana (Q2 = Md); O terceiro quartil (Q3), que é o valor situado de tal sorte que as três quartas partes (75%) dos termos são menores e uma quarta parte (25%), maior que ele. Quando os dados são agrupados para determinar os quartis, usamos a mesma técnica do cálculo da mediana, bastando substituir, na fórmula da mediana, Sendo k o número de ordem do quartil. Assim, temos: Exemplo: Tomemos a distribuição relativa à tabela da estatura dos alunos. Estaturas (cm) 1 150 |---- 154 4 4 2 154 |---- 158 9 13 3 158 |---- 162 11 24 4 162 |---- 166 8 32 5 166 |---- 170 5 37 43 6 170 |---- 174 3 40 Σ = 40 2: Q1 / 4: Q2 Primeiro quartil Terceiro quartil Temos: Temos: 9.3 Os Percentis Denominamos percentis aos noventa e nove valores que separam uma série em 100 partes iguais. O cálculo de um percentil segue a mesma técnica do cálculo da mediana, porém, a fórmula: Sendo k o número de ordem do percentil. Assim, para o k-ésimo percentil, temos: Exemplo: Considerando a distribuição relativa à tabela da estatura dos alunos, temos para oitavo percentil 44 Logo: Então: 10 MEDIDAS DE DISPERSÃO Fonte: brasilescola.uol.com.br Raramente uma única medida é suficiente para descrever de modo satisfatório um conjunto de dados. As medidas de posição fazem um excelente trabalho fornecendo um valor típico para o conjunto de dados analisados, mas elas não informam a história completa. É possível saber onde está o centro dos dados, mas, muitas vezes, a média, a mediana e a moda sozinhas, não são informações suficientes, em situações em que se está resumindo um conjunto de dados. O quadro a seguir apresenta as notas de 5 avaliações aplicadas em uma turma com 4 alunos. O professor deseja premiar o melhor aluno com uma bolsade estudo. A questão é, qual deles escolher? Cada aluno tem a mesma média de pontos X Antônio X João X José X Pedro 5, mas há diferenças nítidas entre cada conjunto de dados. É necessária uma forma de medir essas diferenças. 45 Alunos Notas Média Antônio 5 5 5 5 5 5 João 6 4 5 4 6 5 José 10 5 5 5 0 5 Pedro 10 10 5 0 0 5 Observando-os detalhadamente, nota-se que em cada grupo, os valores se distribuem diferentemente em relação à média. Necessitando-se assim, de uma medida estatística complementar para melhor caracterizar cada conjunto apresentado. Podemos diferenciar cada conjunto de dados observando a forma em que os pontos se dispersam em relação a uma medida de posição. As pontuações de cada aluno são distribuídas de forma diferente, e, se medirmos como os pontos estão dispersos, o professor poderá tomar uma decisão mais embasada. As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto de dados são as medidas de dispersão ou de variabilidade, onde se destacam a amplitude total, a variância, o desvio padrão e o coeficiente de variação. Em princípio, entre dois ou mais conjuntos de dados, o mais disperso (ou menos homogêneo) é aquele que tem a maior medida de dispersão. 10.1 Amplitude Total A amplitude nos diz quantos números os dados abrangem, como se estivéssemos medindo sua largura. Para calculá-la tomamos o maior número do conjunto de dados (chamado de limite superior – LS) e, em seguida, subtraímos do menor (chamado de limite inferior – LI): Exemplo: Com base no exemplo anterior, a amplitude de cada aluno é AT = LS – LI 46 Solução: * ATAntônio = 5 – 5 = 0 * ATJosé = 10 – 0 = 10 * ATJoão = 6 – 4 = 2 * ATPedro = 10 – 0 = 10 A amplitude: Só descreve a largura dos dados e não como eles são dispersos entre os limites. Pode medir até que ponto os valores estão dispersos, mas é difícil ter uma ideia real de como os dados são distribuídos. É uma excelente forma rápida de ter uma ideia de como os valores são distribuídos, mas é um pouco limitada. 10.2 Variância É a soma dos quadrados dos desvios em relação à média. Com ela estabeleceremos uma medida de variabilidade para um conjunto de dados. É denotada por S2 no caso amostral ou σ2 no caso populacional. Para Dados Brutos: Para Dados Agrupados em Intervalos de Classe: Variância Populacional 10.3 Desvio-padrão É a raiz quadrada positiva da variância, representado por S ou DP no caso amostral ou σ no caso da população. As notas de José e Pedro têm mesma amplitude, mas os valores são distribuídos de forma diferente. Será que a amplitude realmente mede bem a dispersão dos dados? 47 Exemplo: Calcule a variância e o desvio padrão da série abaixo, representativa de uma população. 2 3 6 2,72 8,17 3 5 15 0,42 2,11 4 8 32 0,12 0,98 5 4 20 1,82 7,29 20 73 - 18,55 Primeiro, calculamos a média Como estamos trabalhando com uma população a variância é dada por: O desvio padrão será: 0,9275 = 0,963 Coeficiente de Variação de Pearson Por vezes é conveniente exprimir a variabilidade em termos relativos, isto porque, por exemplo, um desvio padrão de 10 pode ser insignificante se a observação típica é 10.000, mas altamente significativo para uma observação típica de 100. Toma-se então uma medida relativa da variabilidade, comparando o desvio padrão com a média. Esta medida é o Coeficiente de Variação. 48 Já vimos que o desvio padrão tem a mesma unidade de medida que os dados, de modo que o coeficiente de variação é adimensional. A grande utilidade do coeficiente de variação é permitir a comparação da variabilidade de diferentes conjuntos de dados. Se: CV 15% Baixa dispersão – Homogênea, estável, regular. 15% CV 30% Média dispersão. CV 30% Alta dispersão – Heterogênea. Exemplo: Dois grupos de 50 alunos de Estatística foram submetidos a uma avaliação de probabilidade e o resultado foram os seguintes. Como pode-se observar o grupo B apresentou um nível de dispersão menor do que o grupo A, para confirmar a análise iremos utilizar o Coeficiente de Variação de Pearson conforme a tabela acima. Grupo Média das notas Desvio-padrão CV A 6 2 B 6,2 1,5 49 11 PROBABILIDADE Fonte: conteudo.icmc.usp.br A teoria das probabilidades é o fundamento para a inferência estatística. O conceito de probabilidade faz parte do dia-a-dia dos trabalhadores das áreas das ciências exatas, ciências da saúde, ciências biológicas, ecologia, engenharia, etc., uma vez que seu conceito é frequentemente usado na comunicação diária. Por exemplo, podemos dizer que uma espécie tem 30% de chance de ser extinta. Um laboratório está 90% seguro de que um medicamento proporcione a cura de uma doença. O conceito de probabilidade é fundamental para o estudo de situações onde os resultados são variáveis, mesmo quando mantidas inalteradas as condições de sua realização. Não é possível fazer inferências estatísticas sem utilizar alguns resultados da teoria das probabilidades. Esta teoria, embora intimamente associada à estatística, tem suas características próprias. Ela procura quantificar as incertezas existentes em determinada situação, ora usando um número, ora uma função matemática. Definimos probabilidade clássica como: 50 Suponha o lançamento de um dado. Qual a probabilidade da face superior ser 6? O nº de resultados favoráveis é 1, uma vez que existe somente um 6. O nº total de resultados possíveis são 6 (1, 2, 3, 4, 5, 6). Então a probabilidade é 1/6. Outra definição de probabilidade é da frequência relativa de ocorrência de um evento em um grande nº de repetições. Utilizando o caso do dado, calculamos a probabilidade de aparecer 6 lançando o dado um grande número de vezes e então observando a proporção de vezes que o número 6 apareceu, esta proporção nos dará a probabilidade do nº da face superior ser 6. 11.1 Experimento Aleatório Em quase tudo, em maior ou menor grau, vislumbramos o acaso. Assim, da afirmação “é provável que meu time ganhe a partida hoje” pode resultar: Que, apesar do favoritismo, ele perca; Que, como pensamos, ele ganhe; Que empate. Como vimos, o resultado final depende do acaso. Fenômenos como esse são chamados de fenômenos aleatórios ou experimentos aleatórios. Experimentos ou fenômenos aleatórios são aqueles que, mesmo repetidos várias vezes sob condições semelhantes, apresentam resultados imprevisíveis 51 11.2 Espaço Amostral Fonte alfaconnection.pro.br A cada experimento correspondem, em geral, vários resultados possíveis. Assim, ao lançarmos uma moeda, há dois resultados possíveis: ocorrer cara ou ocorrer coroa. Já ao lançarmos um dado há seis resultados possíveis: 1, 2, 3, 4, 5 ou 6. Ao conjunto desses resultados possíveis damos o nome de espaço amostral ou conjunto universo, representados por . Os dois experimentos citados anteriormente têm os seguintes espaços amostrais: -Lançamento de uma moeda: = {Cara, Coroa}; -Lançamento de um dado: = {1, 2, 3, 4, 5, 6}. Do mesmo modo, como em dois lançamentos sucessivos de uma moeda podemos obter cara nos dois lançamentos, ou cara no primeiroe coroa no segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois lançamentos, o espaço amostral é: = {(Cara, Cara), (Cara, Coroa), (Coroa, Cara), (Coroa, Coroa)}. Cada um dos elementos de que corresponde a um resultado recebe o nome de ponto amostral. Assim: {(Cara, Cara)} (Cara, Cara) é um ponto amostral de . 52 11.3 Eventos Fonte: alfaconnection.pro.br Chamamos de eventos a qualquer subconjunto do espaço amostral de um experimento aleatório. Operações com Eventos Interseção O evento interseção de dois eventos A e B equivale à ocorrência de ambos. Ela contém todos os pontos do espaço amostral comum a A e a B. Denota-se por A B (ou às vezes, por AB). A interseção é ilustrada pela área hachurada do diagrama abaixo. Exemplo: Seja A o conjunto de alunos de uma instituição que frequentam o curso secundário, e B o conjunto dos que frequentam um curso facultativo de 53 interpretação musical. A interseção A B é o conjunto dos alunos que fazem o curso secundário e frequentam o curso facultativo. Exclusão Dois eventos A e B dizem-se mutuamente exclusivos ou mutuamente excludentes quando a ocorrência de um deles impossibilita a ocorrência do outro. Os eventos não têm nenhum elemento em comum. Exprime-se isto escrevendo A B = . O diagrama a seguir ilustra esta situação. Exemplo: Na jogada de um dado, seja A o evento “aparecer número par” e B o evento “aparecer número ímpar”. A e B são mutuamente excludentes; A B = ; nenhum número pode ser par e ímpar ao mesmo tempo. União O evento união de A e B equivale à ocorrência de A, ou de B, ou de ambos. Contém os elementos do espaço amostral que estão em pelo menos um dos dois conjuntos. Denota-se por A B. A área hachurada do diagrama ilustra a situação. 54 A Nota-se que à interseção está associada à conjunção e, enquanto que à união está associada à conjunção ou. Exemplo: Se A é o conjunto dos alunos de um estabelecimento que frequentam o curso de ciências contábeis e B é o conjunto de aluno do mesmo estabelecimento que fazem administração de empresas, então A B é o conjunto dos alunos que fazem pelo menos um daqueles dois cursos. Negação (Complementar) A negação do evento denotada por A é chamada de evento complementar de A. É ilustrada na parte hachurada. Exemplo: Se, na jogada de um dado, o evento E1 consiste no aparecimento das faces 1, ou 2, ou 5, ou 6. Então: e Exemplo: Sejam A, B e C eventos arbitrários. Exprimir, em notação de conjuntos, os eventos: (a) apenas A ocorre, (b) todos os três ocorrem, (c) ao menos dois ocorrem. Solução: a) Se só A ocorre, então B não ocorre, C não ocorre. O evento é representado por A ˉB Cˉ . É ocorrência simultânea, ou interseção, de A, Bˉ , Cˉ . Ilustração a seguir. 55 b) A B C. c) (A B Cˉ) (A Bˉ Cˉ) (Aˉ B C) (A B C). Isto é, ocorrem A, B, Cˉ , ou A Bˉ C, ou Aˉ , B, C ou A, B, C. É uma união de interseções. 12 REGRAS DE PROBABILIDADE Independente do ponto de vista de probabilidade (clássico ou frequentaste) as regras para o cálculo de probabilidade são as mesmas. Antes das regras precisamos de algumas definições. Eventos A1, A2, A3,... são ditos mutuamente exclusivos se, quando um ocorre os outros não ocorrem. Eles são ditos exaustivos se exaurem todas as possibilidades. No caso do lançamento de um dado, os enventos A1,A2,A3,...A6 de que o dado mostre 1,2,3,4,5, e 6 são mutuamente exclusivos e exaustivos. Podemos escrever PA B como a probabilidade de que os eventos A ou B ou ambos ocorram, a isto denominamos união de eventos, neste caso união de A e B. Escrevemos PA B como a probabilidade da ocorrência conjunta de A e B, e denominamos de interseção dos eventos A e B. 12.1 Propriedades da Probabilidade Sendo A um evento qualquer. Sendo A e B dois eventos quaisquer, temos: Se então 56 Exemplo: Sejam os eventos A: O dado mostra 1, 3 ou 5 B: O dado mostra 3 Então: A B: O dado mostra 1, 3 ou 5 A B: O dado mostra 3 A regra de adição de probabilidade afirma que: Se A e B são mutuamente exclusivos não podem ocorrer conjuntamente, assim P(A B) = 0. Então para eventos mutuamente exclusivos: Se, em adição, A e B são exaustivos, . Nós denotamos por A o complementar de A. A representa a não corrência de A. Porque A ocorre ou não (isto é, A ocorre), A e A são mutuamente exclusivos e exaustivos. Então: 12.2 Teorema da Probabilidade Total Inicialmente, consideremos n eventos B1, B2, ..., Bn. Diremos que eles formam uma partição do espaço amostral , quando: 1) 2) ; 3) Isto é, os eventos B1, B2, ..., Bn são dois a dois mutuamente exclusivos e exaustivos (sua união é ). 57 B1 B2 B B8 4 B3 B7 B9 B5 B6 B10 B 11 Ilustração para n = 11: Seja um espaço amostral, A um evento qualquer de e B1, B2, ..., Bn uma partição de . É válida a seguinte relação: A = (B1 A) (B2 A) (B3 A) ... (Bn A). A figura ilustra o fato para n = 5 B 2 B B1 B3 B5 A B2 B4 58 Nesse caso: A = (B1 A) (B2 A) (B3 A) ... (B5 A). Notemos que (B1 A) (B2 A) ... (Bn A) são dois a dois mutuamente exclusivos, portanto: P(A) = P(B1 A) + P(B2 A) + ... + P(Bn A). Exemplo: Na tabela abaixo temos dados referentes a alunos matriculados em quatro cursos de uma universidade em dado ano. Tabela: Distribuição de alunos segundo sexo e escolha de curso. Vamos indicar por M o evento que ocorre quando, escolhendo-se ao acaso um aluno do conjunto desses quatro cursos, ele for estudante de Matemática Pura. A, E, C, H e F têm significados análogos. Dessa maneira, vemos que , ao passo que Dados os eventos A e H, podemos considerar dois novos eventos: A H, chamado a reunião de A e H, quando pelo menos um dos eventos ocorre; A H, chamado a intersecção de A e H, quando A e H ocorrem simultaneamente É fácil ver que , pois o aluno escolhido terá de estar, ao mesmo tempo, matriculado no curso de matemática Aplicada e ser homem. Vemos que e ; suponha que nosso cálculo para exo otal Curso Matemática Pura (M) Matemática Aplicada (A) Estatística (E) Computação (C) Total 0 0 10 0 81 0 5 5 0 Mulheres (F) Homens (H) 59 P(A H) fosse: P(A H) = P(A) + P(H) P(A H) 200 200 200 Se assim o fizéssemos, estaríamos contando duas vezes os alunos que são homens e estão matriculados no curso de Matemática Aplicada, como destacado na Tabela. Portanto a resposta correta é: P(A H) = P(A) + P(H) - P(A H) P(A H) = 200 200 200 200 No entanto, considerando-se os eventos A e C, vemos que e . Neste caso, os eventos A e C são disjuntos ou mutuamente exclusivos, pois se A ocorre, então C não ocorre evice-versa. Exemplo: Uma urna contém 100 bolinhas numeradas, de 1 a 100. Uma bolinha é escolhida e observa-se seu número. Admitindo probabilidades iguais a 1 para todos os eventos elementares, qual a probabilidade de? 100 a) Observarmos um múltiplo de 6 e de 8 simultaneamente? b) Observarmos um múltiplo de 6 ou de 8? c) Observarmos um número não múltiplo de 5? Solução: Temos = {1, 2, 3, ..., 99, 100} Um múltiplo de 6 e 8 simultaneamente terá que ser múltiplo de 24; portanto, o evento que nos interessa é: A = {24, 48, 72, 96}. 60 b) Sejam os eventos: B: o número é múltiplo de 6. C: o número é múltiplo de 8. O evento que nos interessa é , então: B = {6, 12, 18, 24, 30, 36, 42, 48, 54, 60, 66, 72, 78, 84, 90, 96 } e C = {8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88, 96} e Portanto : Ora, B C nada mais é do que o evento A (do item a). Logo, P(B C) = 1 25 Segue-se então que: P(B C) = 4 +3 – 1 = 6 25 25 25 25 d) Seja D o evento, o número é múltiplo de 5. Temos: D = {5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100} P(D) = 20 = 1 100 5 O evento que nos interessa é . Logo, 12.3 Probabilidade Condicional e Regra Da Multiplicação Às vezes, nós restringimos nossa obtenção ao subconjunto de todos os eventos possíveis. Por exemplo, suponha que ao lançarmos um dado, os casos 1, 2 e 3 não sejam levados em consideração; considere o evento B o dado mostrar 4, 5 ou 6. Considere o evento A de que o dado mostre 6. A probabilidade 61 P( A B) P( A) P(B) de A é agora 1/3 porque o número total de resultados é 3 e não 6. A probabilidade condicional é definida como segue: A probabilidade de um evento A dado que outro evento B ocorreu, é denotada e é definido por 12.4 Independência de Eventos Dizemos que dois eventos A e B são independentes, se as probabilidades condicionais P(A | B) = P(A) e P(B | A) = P(B). Isto equivale, a partir da regra da multiplicação, escrever a ocorrência simultânea de A e B como sendo: 12.5 Distribuição de Probabilidade Variáveis Aleatórias e Distribuições de Probabilidade A variável X é dita variável aleatória se para todo n.º real a existe uma probabilidade que X assuma os valores menores ou iguais que a, ou seja, é a variável que associa um número real ao resultado de um experimento aleatório. Distribuições Discretas de Probabilidade Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos. Um estudo dessas variáveis é de grande importância para a construção de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros. Para algumas destas distribuições, existem tabelas que facilitam o cálculo das probabilidades em função dos seus parâmetros. Existem dois modelos discretos mais importantes: a distribuição binomial e a distribuição de Poisson. 62 Distribuição Binomial: Uma das mais comuns em estatística. Deriva de um processo conhecido como teste de Bernoulli em que cada tentativa tem duas possibilidades excludentes de ocorrência chamada de sucesso e falha (ex. moeda). O Processo de Bernoulli: Uma sequência de testes de Bernoulli forma um Processo de Bernoulli, sob as seguintes condições: a) Cada tentativa resulta em um de dois resultados mutuamente excludentes. Um dos resultados possíveis é chamado (arbitrariamente) de sucesso e o outro de falha; b) A probabilidade de sucessos denotada p, permanece constante em todas as tentativas. A probabilidade da falha, 1 - p, é denotada por q. c) As tentativas são independentes; isto é, o resultado de uma tentativa particular não é afetado pelos resultados das outras tentativas. Assim, a probabilidade de obtermos exatamente X sucessos em n tentativas é a distribuição binomial: 12.6 Distribuições Contínuas de Probabilidade De modo geral, podemos dizer que as variáveis aleatórias cujos valores resultam de algum processo de mensuração são variáveis aleatórias contínuas. Distribuição Normal: A distribuição normal é uma distribuição em forma de sino que é usado muito extensivamente em aplicações estatísticas em campos bem variados. Sua densidade de probabilidade (f.d.p.) é dada por: Distribuição Normal Padrão: Caracterizada pela média igual a zero e desvio padrão igual a 1. 63 13 INFERÊNCIA ESTATÍSTICA Consiste em um conjunto de procedimentos por meio dos quais as informações obtidas com base em dados amostrais são utilizadas para o estabelecimento de conclusões e a tomada de decisões sobre a população da qual a amostra foi extraída. Os problemas básicos da inferência estatística são: o chamado teste de hipótese e a estimação. O problema de estimação apresenta-se em todas as situações, seja no cotidiano ou em qualquer ciência. A estimativa pode ser de uma média de uma medida de variabilidade ou de uma proporção. Distribuição Amostral É a distribuição que descreve o padrão de variação dos valores de uma estatística, para diferentes amostras extraídas da população de interesse, é denominada distribuição amostral. Amostra Aleatória As observações X1, X2, ..., Xn constituem uma amostra aleatória de tamanho n da população, se cada observação resulta de seleções independentes dos elementos da população e se cada tem a mesma distribuição da população da qual foi extraída. 14 TEORIA ELEMENTAR DA AMOSTRAGEM A essa teoria é um estudo das relações existentes entre uma população e as amostras dela extraídas. É útil em: estimação de parâmetros populacionais; determinação das causas de diferenças observadas entre amostras. Constitui o que chamamos de estatística indutiva ou inferência estatística que consiste em inferir conclusões importantes sobre uma população a partir da análise de resultados observados em amostras aleatórias. Como toda conclusão deduzida a partir da amostragem é acompanhada de um grau de incerteza ou risco, o problema fundamental da inferência estatística é medir este grau de incerteza ou risco das generalizações. 64 Parâmetro: medida numérica que descreve uma população. Genericamente representado por θ. Exemplos: média (µ ), variância ( 2 σ ). Estatística ou estimador: medida numérica que descreve uma amostra. Genericamente representado por θ ˆ. Exemplos: média ( x ), variância ( 2 S ). Estimativa: valor numérico de um estimador. Erro amostral: erro que ocorre pelo uso da amostra. Denotado por ε e definido por: ε =θ −θ ˆ. 15 TEORIA DA ESTIMAÇÃO Um dos métodos para realizar inferências a respeito dos parâmetros é a estimação, que determina estimativas dos parâmetros populacionais. Consiste em utilizar dados amostrais para estimar (ou prever) os valores de parâmetros populacionais desconhecidos, tais como média, desvio padrão, proporções, etc. Existem dois tipos de estimação de um parâmetro populacional: estimação por ponto e a estimação por intervalo. 15.1 Estimação por ponto É a estimativa de um parâmetro populacional dada por um único número. A partir das observações, usando o estimador, procura-se encontrar um valor numérico único (estimativa) que esteja bastante próximo do verdadeiro valor do parâmetro. Este procedimento não permite julgar a magnitude do erro que podemos estar cometendo, mas a distribuição por amostragem dos estimadores torna possível o estudo das qualidades
Compartilhar