Baixe o app para aproveitar ainda mais
Prévia do material em texto
FACULDADE DOM ALBERTO ESTATÍSTICA BÁSICA SANTA CRUZ DO SUL – RS 1 1 ESTATÍSTICA E MÉTODO ESTATÍSTICO No âmbito educacional, a estatística surge como uma potente ferramenta pedagógica, na medida em que oferece uma grande variedade de recursos capazes de permitir visualizar uma situação qualquer e agir sobre ela. Cabe a Estatística coletar dados, organizá-los, elaborar diagnósticos e, finalmente, apresentar soluções. Com exemplo, citemos o caso de uma unidade escolar pública que enfrenta problemas com a elevada ausência de alunos apresentada em suas aulas diárias. Aplicando o método estatístico como instrumento de solução no caso em questão, o primeiro passo é levantar os motivos apresentados pelos alunos como justificativa pelas ausências. O segundo passo consiste em padronizar tais motivos, e enquadrar cada aluno ausente em um destes. O passo seguinte envolve organizar os dados em planilhas e gráficos. A partir daí, inicia-se a fase de análise e tomada de decisão. Estatística A estatística, é um dos ramos da matemática aplicada que coleta um conjunto de dados, organiza-os, apresenta-os de uma forma conveniente, de modo a permitir a análise dos dados com o intuito central de constituir uma sólida base para a tomada de decisões e formulação de soluções. O mundo contemporâneo é caracterizado pela disponibilidade de um grande volume de informações que passam a integrar nosso dia a dia. Neste cenário, jornais, revistas, Internet e outros meios de comunicação veiculam diversas notícias pautadas em dados estatísticos, como podemos ver nos dois exemplos abaixo: 1) “Quando se cruzam os dados de escolaridade com os de salário, colhidos na última Pesquisa Nacional por Amostra de Domicílios, do IBGE, é possível verificar que o maior salto de renda se dá entre o ensino médio e o superior. ” (Revista Veja, São Paulo, n. 1.972, 6 set. 2006) 2) “Em 1976, os índices de analfabetismo na China beiravam os 60% (...) em apenas 3 décadas (...) país conseguiu formar nada menos que 1,2 milhão de pesquisadores com doutorado e reduzir o analfabetismo a 4%.” (Revista Veja, São Paulo, n. 1.968, 9 ago. 2006) AULAS 01 A 10 2 A maioria das pessoas, ao deparar-se com tais informações, concebem a estatística apenas como um meio de organização e descrição dos dados. Elas desconhecem o seu aspecto essencial que é o de proporcionar métodos indutivos, proporcionando conclusões capazes de transcender os dados obtidos inicialmente. Método Estatístico Método é um modo de proceder a um conjunto de meios dispostos, convenientemente, para se alcançar um fim desejado. O Método Estatístico admite todas as causas presentes em determinado fenômeno aleatório, variando-as, registrando-as e procurando determinar que influência cabe a cada uma delas no resultado final. O Método Estatístico envolve, usualmente, as seguintes etapas: a) Coleta de Dados; b) Organização de tais dados; c) Descrição dos Dados através de Planilhas e Gráficos; d) Análise e Interpretação; e) Tomada de Decisões, Soluções. A coleta, organização e a descrição de dados fazem parte da Estatística Descritiva, ao passo que a análise e interpretação, bem como a Tomada de Decisões e Soluções, integram a Estatística Inferencial ou Indutiva. 1. Estatística Descritiva Corresponde à parte da Estatística que trata da coleta e da organização de dados. O objetivo é efetuar, posteriormente, a descrição dos dados coletados através de planilhas e gráficos sem, no entanto, propor qualquer tipo de conclusão. 2. Estatística Indutiva Também conhecida por Estatística Inferencial, tem por objetivo tirar conclusões sobre o todo (população), a partir de informações fornecidas por parte representativa do todo (amostra). 3 População População corresponde a todos os elementos do grupo a serem estudados. Para uma maior precisão de resultados, seria preferível trabalhar sempre com todo o universo estudado, porém, por questões que envolvem aspectos pertinentes a tempo, custo e logística, dentre outros, normalmente torna-se inviável tal proposta, surgindo, aí, o grande objetivo da estatística: estudar a amostra e tirar conclusões sobre a população. Amostra Amostra é a parte do todo efetivamente estudada. É um subconjunto finito de elementos de uma população. Vamos agora fixar os nossos conhecimentos Imagine a seguinte situação problema: Um conjunto de pedagogos desenvolveu uma técnica nova para a aprendizagem da leitura, que encurta o tempo de aprendizagem tradicional. Podemos dizer que a População desse experimento: é o conjunto de todos os alunos que ingressam na escola sem saber ler. Por sua vez, a Amostra desse experimento: é o conjunto de alunos matriculados em algumas escolas selecionadas para tal estudo. Os alunos serão separados em dois grupos para se aplicarem as duas técnicas em confronto. Cabe a Estatística Descritiva efetuar: a) Coleta de Dados: coletar o resultado obtido pelos alunos dos dois grupos em avaliações idênticas aplicadas a ambos, através da NOTA. Além de outros dados classificados como pertinentes ao estudo, tal como SÉRIE, IDADE, SEXO e ESCOLA. b) Organização de Dados: agrupar os dados coletados, conforme o interesse do estudo podendo adotar critérios, por exemplo, dividir os avaliados em dois grupos. O Grupo 1 corresponde à Aprendizagem Tradicional e o Grupo 2 à Aprendizagem Nova. c) Descrição dos Dados: descrever os dados organizados em tabelas, abrindo mão de apresentação gráfica destes. 4 Estatística Indutiva: Análise de Dados: através da simples análise do gráfico acima, podemos concluir que a média obtida pelo grupo de alunos que aprendeu a ler pelo método novo obteve melhores resultados que os demais. Fato que induz à ideia de que realmente o aprendizado é mais rápido. Porém, através de fórmulas que iremos aprender nas próximas aulas, a estatística nos oferece a possibilidade de analisar tais informações de forma mais detalhada e precisa. 2 VARIÁVEIS Estatisticamente falando, a cada fenômeno corresponde um número de resultados possíveis. Para o fenômeno “sexo”, podemos encontrar dois resultados possíveis: masculino e feminino; 1. Para o fenômeno “quantidade de filhos”, há um número de resultados possíveis expresso através de números inteiros, que podem ir de 0 a n, pois ninguém pode ter 1,3 filho; 2. Para o fenômeno “estatura” temos uma situação diferente, uma vez que os resultados podem tomar um número infinito de valores numéricos dentro de um intervalo determinado. As pessoas podem medir 1,28 m, 2,14 m, 1,82 m. Tal como visto nos exemplos acima, as variáveis podem ser qualitativas ou quantitativas. 5 2.1 Variáveis Qualitativas As variáveis qualitativas são aquelas que podem ser expressas em atributos. Atributo é tudo aquilo que é próprio, peculiar ou característico de alguém ou alguma coisa. a) Sexo - masculino e feminino. b) Cor - branco, preto, pardo. As variáveis qualitativas podem também ser classificadas em qualitativas nominais ou qualitativas ordinais. Variável Estatística Qualitativa Nominal: este tipo de variável permite apenas a categorização (ou separação em "sacolas" distintas) mas sem uma ordenação entre as categorias ou "sacolas". Exemplos: cor dos olhos (castanho, verde, azul, etc). Não faz sentido dizermos que os olhos castanhos são "maiores" ou estão em uma categoria "acima" das categorias de outras cores de olhos. Outros exemplos de variáveis qualitativas nominais: religião (católico, evangélico, muçulmano, ateu, agnóstico, etc); nacionalidade (brasileiro, argentino, chinês, russo, francês, inglês, croata, mexicano, etc); torcidas de futebol (corintianos, palmeirenses, flamenguistas, fluminenses, santistas, vascaínos, etc); sexo (masculino e feminino).Variável Estatística Qualitativa Ordinal: são variáveis que permitem que se estabeleça algum tipo de ordem. Exemplos: grau de instrução (ensino fundamental, ensino médio, ensino superior) ou classe social (A, B, C, D, E). 2.2 Variáveis Quantitativas As variáveis quantitativas admitem apenas valores expressos em números. a) Média bimestral - 9,5, 10, 7,5 b) Idade dos alunos - 8,7, 15 Como exemplificado aqui, uma variável quantitativa pode assumir valores delimitados por um intervalo (contínuas) ou valores pertencentes a um conjunto enumerável (discreta). 6 Variáveis Quantitativas Contínuas Quando uma variável quantitativa for capaz de assumir valores entre dois limites, ou seja, um intervalo delimitado, recebe o nome de contínua. O peso dos alunos é uma Variável Quantitativa Contínua, pois eles podem pesar tanto 85kg como 43,21kg. Depende da precisão da medida. Variáveis Quantitativas Discretas Quando uma variável quantitativa apenas admitir valores pertencentes a um conjunto enumerável, recebe o nome de discreta. Dessa forma, o número de alunos de uma escola pode assumir qualquer um dos valores do conjunto N= {1,2,3,….,50,....}, mas nunca valores como 2,5 ou 3,66, ou ainda 2,321. Portanto, número de alunos é uma Variável Quantitativa Discreta. Por outro lado, o peso destes mesmos alunos é uma Variável Quantitativa Contínua, pois eles podem pesar tanto 85kg, como 43,21kg, dependendo da precisão da medida. Em regra geral, podemos afirmar que as medições dão origem às variáveis contínuas, enquanto que as contagens ou enumerações originam variáveis discretas. 3 FASES DO MÉTODO ESTATÍSTICO O planejamento de uma pesquisa envolve, basicamente, quatro etapas: delimitação do tema, definição da população e amostra, formulação do problema e construção da hipótese. 1. Delimitação do tema Para que uma pesquisa seja objetiva e nos conduza a respostas específicas, devemos sempre pesquisar temas específicos. Quando necessário podemos encaminhar pesquisas paralelas, porém cada uma delas dentro de temas mais específicos possíveis. 7 Definição da População (Universo) e Amostra Uma vez determinado o Universo ou População a ser estudado, o passo seguinte consiste em conceituar a Amostra, ou seja, um conjunto representativo de todos os itens (pessoas, objetos, conhecimentos ou fenômenos) que interessam ao estudo de um fenômeno coletivo segundo alguma característica. Formulação do Problema Um Problema (questão) de pesquisa deve expressar a dúvida que queremos esclarecer sobre o tema delimitado, de sorte que exista a possibilidade de respostas através de pesquisas. Construção da hipótese Uma hipótese de pesquisa é a resposta que você imagina para o problema formulado. Ela deve conter todos os conceitos e variáveis envolvidas. Deve ser redigida de forma clara, sem termos ou conceitos implícitos. Após o cuidadoso trabalho de planejamento da pesquisa, podemos dar início à coleta dos dados numéricos necessários à sua descrição. A coleta de dados pode ser realizada de forma direta ou indireta. A coleta direta é feita de três formas: 1) sobre elementos informativos de registro obrigatório, como nascimentos, casamentos e óbitos; 2) sobre elementos pertinentes a registros ou arquivos, como os prontuários de alunos de uma escola; 3) diretamente pelo pesquisador, através de inquéritos e questionários, como notas de verificação e de exames, censo demográfico. A coleta direta pode ser ainda classificada em relação ao fator tempo: a) contínua – também conhecida como registro, é feita continuamente, tal como o registro de nascimentos, óbitos e a frequência dos alunos às aulas; 8 b) periódica - quando efetuada em intervalos constantes de tempo, como as avaliações mensais, ou bimestrais, dos alunos; c) ocasional - realizada de forma extemporânea, visando satisfazer determinada conjuntura ou uma emergência, como uma epidemia. Define-se uma coleta como indireta quando ela é realizada a partir de conclusões sobre dados coletados de forma direta, ou ainda sobre o conhecimento de outros fenômenos relacionados com o fenômeno estudado. Coleta direta: notas bimestrais dos alunos; coleta indireta: avaliação do desempenho dos alunos nas provas bimestrais. Coleta direta: entrevista diretamente com alunos; coleta indireta: considerações a partir de dados extraídos das entrevistas. Tabela Primitiva – Rol Após a coleta de dados, tem início a fase de descrição dos dados. A forma inicial de apresentação dos dados coletados resultantes de variáveis quantitativas, denomina-se Tabela Primitiva. Vamos voltar ao exemplo dado nas aulas anteriores: Um conjunto de pedagogos desenvolveu uma técnica nova para a aprendizagem da leitura, que encurta o tempo de aprendizagem tradicional. A nossa População: é o conjunto de todos os alunos que ingressam na escola sem saber ler. A nossa Amostra: é o conjunto de alunos matriculados em algumas escolas selecionadas para tal estudo. Os alunos serão separados em dois grupos para se aplicarem as duas técnicas em confronto. Cabe a Estatística Descritiva efetuar: A Coleta de Dados: coletar o resultado obtido pelos alunos dos dois grupos em avaliações idênticas. Cada um dos grupos integrantes da amostra foi composto por 35 alunos do ensino fundamental. 9 A primeira avaliação aplicada aos dois grupos foi composta por 40 questões valendo 0,25 cada. Notas de 35 alunos de ensino fundamental do grupo da Nova Aprendizagem, na primeira avaliação. Da forma como os dados estão descritos, no exemplo acima, fica difícil fazer qualquer tipo de análise, pois os dados coletados não foram numericamente organizados. A princípio, o modo mais simples de organizar tais dados é através de uma certa ordenação, crescente ou decrescente. Notas de 35 alunos do Ensino Fundamental. Grupo: Nova Aprendizagem Avaliação: 01 10 A tabela acima, organizada em ordem crescente, ou decrescente, recebe o nome de Rol. A partir do Rol, com relativa facilidade, podemos fazer algumas análises, por exemplo, identificar que a menor nota foi 2,50 e a maior 10. Por um exame mais apurado, pode-se observar ainda que a maioria dos alunos obteve nota no intervalo entre 6 e 9. E ainda que apenas dois alunos atingiram a nota máxima (10), sendo que nenhum aluno obteve a nota mínima (0). Então podemos dizer que a organização do dos dados é algo muito importante – Podemos organizar em quadros ou tabelas. – As tabelas podem ser: simples ou de dupla entrada. – Tabelas simples: são aquelas que apresentam dados ou informações relativas a uma variável. – Exemplo: A REDE FUTURA DE ENSINO tem em sua Faculdade de Economia 30 professores. Foi levantado o tempo de serviço de cada um deles, em anos: 3,3,3,4,4,4,4,5,5,5,5,5,6,6,6,6,6,6,6,6,6,7,7,7,8,8,8,8,9,9. Assim, organizando uma tabela simples, temos: Tabelas dupla entrada ou cruzada: são aquelas que apresentam dados ou informações relativas a pelo menos duas variáveis. 11 FACULDADE DOM ALBERTO ESTATÍSTICA BÁSICA SANTA CRUZ DO SUL – RS 1 1 DISTRIBUIÇÃO E FREQUÊNCIA Frequência é o número de vezes que um dado coletado se repete. Assim sendo, ao dispor os dados de maneira que os valores ordenados fiquem em uma coluna e ao lado de cada valor apareça o número de vezes que ele se repete no rol, teremos então uma tabela que será denominada Distribuição de frequência. Frequência simples ou absoluta: Da apostila da Profª. Elizabeth, conforme bibliografia, vamos considerar o seguinte exemplo ⇛ notas dos alunos em História de uma turma do 1o. Ano do Colégio Máster: 2, 5, 4, 8, 8, 5, 6, 8, 6, 7, 6, 5, 9, 1, 5, 6, 9, 7, 5, 6. Essas notas nos levam a seguinte organizaçãoou rol. Considerando o exemplo acima, a nota dos alunos é a nossa variável (variável discreta), a que chamaremos de Xi, e o número de alunos que obtiveram essas notas é a frequência simples; Fi, pois, é o nosso número de observações. Notas de 35 alunos de ensino fundamental do grupo da Nova Aprendizagem, na primeira avaliação. AULAS 11 A 20 2 Agora temos uma tabela um pouco mais organizada, onde podemos visualizar claramente o número de vezes que uma nota se repete, porém, a estatística nos oferece uma outra forma de organizar esses dados a qual chamamos de Distribuição de Frequência com Intervalo de Classe. A Distribuição de Frequência com Intervalo de Classe consiste em agrupar os valores da variável contínua “nota” em intervalos. Cada intervalo destes é conceituado como intervalo de classe. E a frequência de cada intervalo passa a ser definida como frequência de uma classe. 3 O símbolo indica que o intervalo de classe vai do número à esquerda do mesmo até o número exatamente anterior aquele localizado à sua direita. Tal regra não se aplica ao último intervalo de classe da tabela, pois, caso o número que indique o seu limite superior integre os dados coletados, tal número incidirá na apuração da frequência da classe, como é o caso do exemplo acima. Vejamos um outro exemplo retirado do livro Introdução a Bioestatística de Sonia Vieira, Editora Campus Abaixo, temos uma tabela que representa o número de nascidos vivos segundo peso ao nascer, em quilogramas 4 Elementos de uma Distribuição de Frequência Classes de Frequência: Também conhecida simplesmente como Classe, as Classes de Frequência são intervalos de variação dos valores que integram uma variável. A Classe ou Classe de Frequência é simbolicamente representada pelo “i”, sendo i = 1,2,3,....k, onde k representa o número total de classes da distribuição. 5 Limites de Classe: Como o próprio nome sugere, os Limites de Classe são os extremos da classe. O menor número do intervalo é o limite inferior da classe (li) e o maior número é o limite superior da classe (Li). Uma vez conhecidas as definições de limite inferior e superior da classe, cabe retomar os esclarecimentos acerca do símbolo ├-. Tecnicamente falando, os intervalos de classe devem respeitar os parâmetros impostos pela Resolução 886/66 do IBGE, que assim prega: “o intervalo vai desta quantidade até menos aquela”, usando como símbolo para esta afirmação o “├-”, que indica a inclusão do li e a exclusão do Li. Assim a nota 4 não está inclusa no intervalo 02├- 04, mas sim no intervalo 04 ├- 06. Amplitude de um Intervalo de Classe: A Amplitude de um Intervalo de Classe, ou somente Intervalo de Classe, é a medida do intervalo que define a amplitude da classe. Ou seja, em palavras mais simples, poderíamos dizer que é a distância, ou a diferença, entre o limite inferior e o limite superior da classe. 6 Assim sendo, o intervalo de classe é obtido através da seguinte fórmula: hi = Li - li Ponto Médio de uma Classe: O Ponto Médio de uma Classe é justamente aquilo que sua denominação sugere, ou seja, o ponto que divide o intervalo de classe em duas partes iguais. A fórmula para a sua obtenção é a seguinte: Abaixo, vemos um outro exemplo retirado do livro Introdução a Bioestatística Vieira, Sônia 3ª edição – 4ª tiragem Editora Campus 7 De acordo com o IBGE (1988) a distribuição dos suicídios ocorridos no Brasil em 1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por dificuldade financeira, 700 por doença mental, 189 por outro tipo de doença, 416 por desilusão amorosa, 217 por outras causas. De acordo com estas informações: Apresente esta distribuição em uma tabela. – Números de classes intervalares: Regra de Sturges Esta regra permite a determinação do número de classes de uma distribuição, que nos dá o número de classes em função do número de valores da variável: Onde: i: é o número de classes; n: é o número total de dados 8 Decidido o número de classes intervalares que deve ter a distribuição, devemos determinar a amplitude do intervalo de classe, o que conseguimos dividindo a amplitude total pelo número de classes: 2 AMPLITUDES Amplitude total da Distribuição A Amplitude total da Distribuição é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. É representada por “AT” e pode ser encontrada através da seguinte fórmula: AT = L(máx) – l(mín) Sempre que as classes possuírem o mesmo intervalo, poderá ser observada a seguinte relação: k =(número total de classes) = AT(amplitude total da distribuição) ÷ hi (intervalo de classe) 9 L(máx) = 10 l (mín) = 02 AT = 10 – 02 = 08 k = AT ÷ hi k = 08 ÷ 02 = 04 Amplitude Amostral: A Amplitude Amostral é a diferença entre o valor mínimo e o valor máximo da amostra resultante da coleta de dados. É calculada através da fórmula: AA = x(máx) – x(mín) Onde x(máx) é o maior valor da amostra e x(mín) é o menor valor da amostra. Vejamos um exemplo: Abaixo temos as Notas de 35 alunos na Avaliação 01 de Geografia do sexto ano do Ensino Fundamental Avaliação: 01 10 x(máx) = 10,00 x(mín) = 02,50 AA = x(máx) – x(mín) AA = 10,00 – 02,50 = 07,50 O que nos leva aos seguintes valores para a Amplitude Total e Amplitude Amostral AT = 08,00 AA = 07,50 3 FREQUÊNCIA Frequência Simples ou Absoluta, ou ainda simplesmente Frequência, como já explicado, é o número de vezes que um dado coletado se repete, ou ainda, o número de valores que integram a classe. A Frequência Simples é representada por fi, sendo que a soma de todas as frequências é representada pelo símbolo: ∑ fi. 11 Onde frequência 1 = 04, frequência 2 = 07, frequência 3 = 10, frequência 4 = 14 E a somatória das frequências .... ∑ fi = 35 Em outras palavras: De posse dos conhecimentos abordados sobre Distribuição de Frequência com Intervalo de Classe, até o momento, podemos transformar aquela tabela bruta apresentada inicialmente que continha as notas de 35 alunos do Ensino Fundamental na Avaliação 01 Na seguinte representação tabular técnica: Notas de 35 alunos do Ensino Fundamental Avaliação: 01 FACULDADE DOM ALBERTO ESTATÍSTICA BÁSICA SANTA CRUZ DO SUL – RS 1 1 DISTRIBUIÇÃO DE FREQUÊNCIA SEM INTERVALO DE CLASSE Quando se trata de variável discreta com uma variação relativamente pequena, cada valor pode ser tomado como um intervalo de classe. Neste caso, a distribuição de frequência é denominada Distribuição de Frequência sem Intervalo de Classe. Vamos supor que aquela avaliação imposta aos 35 alunos do grupo de amostra, fosse composta por cinco questões, cada uma delas valendo 1 ponto. Isto quer dizer que cada aluno avaliado só poderia obter uma das seguintes notas: 0, 1, 2, 3, 4 ou 5. Neste caso a variável nota passaria a ser classificada como variável quantitativa discreta. Vamos agora criar um ROL hipotético para tal situação. A partir de tal ROL, a tabela de Distribuição de Frequência sem Intervalo de Classe, ficaria assim: Notas de 35 alunos de Ensino Fundamental AULA 21 A 30 2 Aplicando as frequências vistas na última aula à nossa tabela de Distribuição de Frequência sem Intervalo de Classe, encontraríamos: Notas de 35 alunos de Ensino Fundamental 3 2 REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA Uma Distribuição de Frequência pode ser representada graficamente pelo histograma, pelo polígono de frequência e pelo polígonode frequência acumulada também conhecido por Ogiva de Dalton. Qualquer um destes três gráficos mencionados é construído da mesma forma: Linha Horizontal, que são os valores da variável e Linha Vertical, que são as frequências. Histograma: O Histograma é formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe. As larguras dos retângulos equivalem às amplitudes dos intervalos de classe. A altura de cada retângulo deve ser proporcional às frequências das classes. 4 Polígono de Frequência: O Polígono de Frequência é um gráfico em linha, sendo as frequências marcadas sobre as perpendiculares ao eixo horizontal levantadas pelos pontos médios do intervalo de classe. Em outras palavras, as junções são formadas pelo ponto médio da classe na vertical, com a frequência da classe na horizontal. Para realmente termos um polígono, devemos ligar os extremos da linha obtida aos pontos médios da classe anterior e da posterior à última, da distribuição. Por exemplo, se o limite inferior de intervalo da primeira classe é 02 e o limite superior da última classe é 10, o polígono será encerrado em 01 e 11. Exemplo: 5 Polígono de Frequência Acumulada: O Polígono de Frequência Acumulada é traçado marcando-se as frequências acumuladas sobre perpendiculares ao eixo horizontal, levantadas nos pontos correspondentes aos limites superiores dos intervalos de classe. 6 Representação Gráfica de uma Distribuição de Frequência sem Intervalo Vamos dar continuidade ao assunto. O tema é o mesmo, mas a distribuição de frequência não terá intervalo. Vejamos: A Distribuição de Frequência sem intervalo de classe é composta por uma variável discreta com uma variação relativamente pequena, cada valor pode ser tomado como um intervalo de classe. Ela pode ser representada graficamente por um diagrama onde cada valor da variável é descrito por um segmento de reta vertical e de comprimento proporcional à respectiva frequência. Exemplo: 7 3 GRÁFICOS ESTATÍSTICOS Para tornar tais explicações mais fáceis de assimilar, para a elaboração de cada um dos gráficos vamos adotar o exemplo abaixo, cujos dados foram coletados junto ao site: www.inep.gov.br. http://www.inep.gov.br/ 8 Gráfico Estatístico: O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo consiste em produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries. Para tornarmos possível uma representação gráfica, estabelecemos uma correspondência entre os termos da série e de uma determinada figura geométrica, de modo que cada elemento da série seja representado por uma figura proporcional. Diagrama: Os diagramas são gráficos geométricos de, no máximo, duas dimensões. Para sua construção, em geral, fazemos uso do sistema cartesiano. O sistema cartesiano utiliza duas retas perpendiculares. As retas são os eixos coordenados. O ponto de intersecção é a origem. O eixo horizontal é chamado eixo X ou eixo das abscissas, e o vertical é conhecido por eixo Y ou das ordenadas. Os principais diagramas são: Gráfico em linha ou curva, gráfico em colunas ou em barras e o Gráfico em Setores. 9 Gráfico em Linha ou em Curva O gráfico em linha faz uso da linha poligonal para representar a série estatística, constituindo uma aplicação do processo de representação das funções num sistema de coordenadas cartesianas. Para elaborar o gráfico em linha, fazendo uso do exemplo colhido junto ao Instituto Nacional de Estudos Pesquisas Educacionais – INEP, vamos adotar como abscissas os tipos de avaliações, e como ordenadas as médias obtidas pelas escolas da cidade de Santos. Assim sendo, cada tipo de avaliação transcrita no eixo X, junto com a respectiva média no eixo Y, formarão um par (X, Y), que poderá ser representado num sistema cartesiano. Determinados, graficamente, todos os pontos da série, utilizando as coordenadas (X, Y), unindo todos estes pontos, dois a dois, por segmentos de reta, o que irá originar uma poligonal. Tal poligonal é justamente o gráfico em linha ou em curva correspondente ao exemplo adotado. . 10 Como o eixo X inicia de um intervalo entre 0 e a primeira média, superior à escala entre os demais intervalos, utilizamos o símbolo ( ) acima para indicar tal situação. Analisando o gráfico acima, podemos perceber que o desempenho dos alunos avaliados foi positivo em redação, visto que a Média Total cresce quando os resultados da Redação são acrescidos àqueles obtidos na Prova Objetiva. Gráfico em colunas ou em barras: O gráfico em colunas ou em barras são representados por meio de retângulos, dispostos verticalmente em colunas, ou horizontalmente em barras. Quando em colunas, os retângulos possuem a mesma base, sendo que as alturas são proporcionais aos seus respectivos dados. Quando em barras, os retângulos possuem a mesma altura, sendo que os comprimentos são proporcionais aos seus respectivos dados. Dessa maneira, estaremos assegurando a proporcionalidade entre as áreas dos retângulos e dados estatísticos. Gráfico de Colunas 11 Analisando o gráfico acima podemos, fácil e claramente, perceber que a Média Total, ou seja, considerando os resultados na prova objetiva e na redação dos alunos avaliados na cidade de Santos, foi superior à Média Nacional e Estadual. Gráfico em barras: Do mesmo modo que no gráfico em colunas, podemos observar que o desempenho dos alunos concluintes do ensino médio, no ano de 2005, no ENEM, das escolas da cidade de Santos foi superior à média nacional e estadual. Isto considerando apenas a prova objetiva. 12 Gráfico em colunas ou em barras múltiplas: O gráfico em colunas ou em barras múltiplas é representado por retângulos, dispostos verticalmente em colunas, ou horizontalmente em barras. É empregado, usualmente, quando precisamos representar, simultaneamente, dois ou mais fenômenos estudados com o propósito de comparação. Gráfico em Setores O Gráfico em Setores é um tipo de gráfico construído com base em um círculo, e é empregado sempre que desejarmos ressaltar a participação de um certo dado em relação ao total. O total é representado pelo círculo em sua íntegra. As partes deste total são representadas ao dividi-lo em setores. Os setores têm suas áreas respectivamente proporcionais aos dados da série. A área de cada setor é obtida através da regra de três simples e direta, lembrando que o total do gráfico corresponde sempre a 360˚. 13 FACULDADE DOM ALBERTO ESTATÍSTICA BÁSICA SANTA CRUZ DO SUL – RS 1 1 MEDIDAS DE TENDÊNCIA CENTRAL As Medidas de Tendência Central, recebem tal nome porque os dados observados tendem, em regra geral, a se agrupar em torno dos valores centrais. Tais medidas são definidas como as medidas típicas ou representativas de um conjunto de dados. Dentre as Medidas de Tendência Central destacam-se: a média aritmética, a mediana e a moda. Média Aritmética: A Média Aritmética é o ponto de qualquer distribuição em torno do qual se equilibram as diferenças positivas e negativas. Neste sentido, situa-se entre o valor máximo e o mínimo da distribuição, podendo inclusive vir a ser um número não presente na distribuição. Quando comparada entre dois grupos possibilita algumas interpretações, identificado qual o grupo com resultados mais ou menos elevados.O cálculo da média aritmética é feito através da soma de todos os valores da distribuição dividida pelo número total de observações da série, em outras palavras, é o quociente da divisão da soma dos valores da variável pelo número total deles. A fórmula adotada para calcular a Média Aritmética é: Média Aritmética de Dados não agrupados: A média aritmética dos dados não agrupados é apurada através da média aritmética simples. Exemplo: AULAS 31 A 40 2 a) Número de participantes de nove Escolas Estaduais da Cidade de Santos no ENEM/2005: 11 – 46– 56 – 62 – 65 – 80 – 104 – 130 – 166. (Fonte: INEP) Neste exemplo, a média aritmética é um número pertencente à série de dados que ele representa, porém, como dito acima, a média pode ser um número que não integra a série. Número de participantes de seis Escolas Privadas da Cidade de Santos no ENEM/2005: 29 – 21 – 07 – 37 – 84 – 26. (Fonte: INEP) Desvio em relação à média: Desvio em relação à média(di) é a diferença entre cada elemento da série e a média que o representa. Calculada através da fórmula: Para um melhor entendimento sobre o desvio em relação à média, vamos relembrar a definição da média acima transcrita: “A Média Aritmética é o ponto de qualquer distribuição em torno do qual se equilibram as discrepâncias positivas e negativas”. Apliquemos sua fórmula sobre os exemplos propostos: 3 Exemplo: 2 PROPRIEDADES DA MÉDIA 1ª propriedade: A soma algébrica dos desvios tomados em relação à média é nula. Ou seja, a soma de todos os desvios de uma série é igual a ZERO: ∑ di = 0. Exemplo: a) (-69) + (-18) + 24 + (-34) + (-15) + 50 + (-24) + 86 = 0 b) (-05) + (-13) + (-27) + 03 + 50 + (-08) = 0 2ª propriedade - Somando-se, ou subtraindo-se, uma constante (c) de todos os valores de uma variável, a média do conjunto fica aumentada, ou diminuída, dessa constante. Ou seja, se somarmos, ou diminuirmos, um valor constante a cada uma das variáveis da série, por exemplo, 2 ou -2, teremos a média acrescida, ou reduzida, em exatamente tal valor: 4 Exemplo 3ª propriedade: Multiplicando-se, ou dividindo-se, todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada, ou dividida, por tal constante. Exemplo: Média Aritmética de Dados Agrupados: Sem intervalo de Classe: A média aritmética dos dados agrupados sem intervalo de classe é apurada através da média aritmética ponderada. Esta é a fórmula usada para o cálculo: 5 Notas de 25 alunos em avaliação mensal cujas notas variam entre 0 e 5: 6 Cabe esclarecer que mesmo x sendo uma variável discreta, o valor médio 2,6 sugere que a maioria dos alunos obtiveram nota entre 2 e 3. Com intervalo de Classe: No cálculo da média aritmética dos dados agrupados com intervalo de classe, leva-se em conta que todos os valores incluídos em um certo intervalo de classe coincidem com seu ponto médio. Esta é a fórmula: Vamos agrupar a distribuição acima em intervalos: Assim sendo: 7 3 MODA E MEDIANA A Moda é o valor que ocorre com maior frequência em uma série de valores. Neste exemplo, a nota modal é 5, visto que é a nota que mais se repete entre os alunos. 8 A Moda em dados não agrupados: Quando tratamos com dados não agrupados, a moda é facilmente identificada. Na série de dados: 3, 3, 3, 4, 5, 5, obviamente a moda é 3. Vale destacar que existem séries de dados sem números que se repetem. A série de dados: 1, 2, 3, 4, 5, é chamada amodal. Da mesma forma, há séries com números que se repetem identicamente. A série de dados: 1, 1, 4, 4, 5, é chamada bimodal, pois tem duas modas, o 1 e o 4. A Moda em dados agrupados: Sem intervalo de classe: Uma vez agrupados os dados, a moda é imediatamente localizada. Como é o caso da tabela anterior, da onda a moda é, evidentemente “5”. Com intervalo de classe: A classe com maior frequência é denominada classe modal, ou seja, o valor dominante estará compreendido entre os limites da classe modal. O método mais simples para se calcular a moda consiste em somar os limites da classe e dividir por dois: Mo = li + Li, onde li é o limite inferior e Li é o limite superior da classe 2 O resultado de tal fórmula é denominado Moda Bruta. 9 Como a frequência maior está na segunda classe, a Moda será assim calculada: Mo = (2+4) /2 = 3 li = 02 Li = 04 Mediana (Md) A Mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de tal forma que o separa em dois subconjuntos de mesmo número de elementos. Ou seja, é o número que divide uma série de valores exatamente ao meio. Exemplo: a) Notas de 11 alunos: 2, 3, 6, 9, 10, 4, 5, 2, 1, 8, 7. O primeiro passo para o cálculo da mediana consiste em ordenar tais dados: 1, 2, 2, 3, 4, 5, 6, 7, 8, 9, 10 Em seguida, observamos o número que se situa exatamente ao centro da série de valores expostos em ordem crescente. No caso, a mediana é o 5, visto que a sua esquerda ficará cinco números e a sua direita mais cinco números. Temos então: Md = 5 Em nosso exemplo, a série é composta por onze valores, então fica fácil determinar a Mediana. Porém, como seria a apuração da Mediana no caso de uma série com dez valores? Para séries com número de valores par, convencionou-se utilizar o chamado ponto médio. a) 1, 2, 2, 3, 4, 6, 7, 8, 9, 10. Nesta série de dados temos dois valores centrais, daí o cálculo do ponto médio será encontrado através da média aritmética entre os dois valores centrais 4 e 6. Assim sendo: Md = (4+6) /2 = 5 10 Neste exemplo, podemos notar que o valor da mediana não fará parte da série de dados quando o número de valores de tal série for par. Observações: a) A média aritmética e a mediana nem sempre terão o mesmo valor. b) A mediana depende da posição física dos dados ordenados, e não dos valores em si. Essa é uma das marcantes distinções entre média e mediana. Exemplo: 1, 2, 3, 4, 5 => Mediana = 3 e Média = (1+2+3+4+5) /5 = 3 Mediana em dados agrupados: A forma de apuração da mediana em dados agrupados não difere muito daquela aplicada em dados não agrupados. Para o cálculo da mediana em dados agrupados, o primeiro passo consiste em encontrarmos a frequência acumulada da distribuição para, posteriormente, determinarmos um valor que separe tal distribuição em dois grupos com o mesmo número de elementos. Neste sentido, deveremos utilizar a fórmula: Sem intervalo de classe: Para entender melhor o cálculo da mediana em dados agrupados sem intervalo de classe, vamos adotar o seguinte exemplo: 11 Sendo = 35/2 = 17,5, o valor de Fi que mais se aproxima de 17,5 é 17. Na distribuição o valor 17 equivale à nota 4, que, observando, podemos perceber claramente ser o valor que divide a tabela em duas partes iguais, com duas classes abaixo e duas classes acima. Neste exemplo, o número de classes é ímpar, porém, no caso de uma distribuição com número de classe par, o cálculo da mediana será elaborado da seguinte fórmula: Md = (xi + xi + 1) / 2. Sendo xi os valores correspondentes à frequência acumulada encontrada, é a seguinte. Sendo Md = (x3 + x4 + 1) / 2 = (4+5+1) /2 = 5. O valor de Fi se encontra entre 17 e 20. Na distribuição o valor 17 equivale à nota 4, bem como, 20 corresponde à nota 5, que, observando, podemos perceber claramente serem os valores que dividem a tabela em duas partes iguais, com duas classes abaixo e duas classes acima. 4 MEDIANA EM DADOS AGRUPADOS COM INTERVALO DE CLASSE No caso da apuração da mediana em dados agrupados com intervalo de classe, o problema consiste em localizar o intervalo de classe em que está contida a 12 mediana. Nestecaminho, o primeiro passo reside na determinação da classe mediana. Classe mediana é aquela correspondente à frequência acumulada imediatamente superior ao resultado da fórmula: Exemplo: Aplicando a fórmula, teremos: Portanto, a classe mediana será aquela cuja frequência acumulada é superior a 12,5. Considerando que o valor de Fi mais próximo de 12,5 é F3 = 20, que equivale ao intervalo da segunda classe, podemos afirmar que a terceira classe é a classe mediana da distribuição. Ainda neste exemplo, o próximo passo consiste em aplicar a seguinte fórmula: 13 Onde: - li = limite inferior da classe mediana - F(ant) = frequência acumulada anterior à classe mediana - fi = frequência simples da classe mediana - hi = amplitude da classe mediana Assim sendo: Md = 02+[ (25÷2) -05] x 02 = 2+(12,5-5) x 2 = 2 + (7,5x2) /15 = 15 15 = 2+(15/15) = 2+1 Md = 3 Passos para a apuração da Mediana: 1) Calcular os valores de Fi(frequência acumulada); 2) Calcular 3) Localizar a classe mediana 4) A partir da classe mediana aplicamos a seguinte fórmula: FACULDADE DOM ALBERTO ESTATÍSTICA BÁSICA SANTA CRUZ DO SUL – RS 1 1 DESVIO PADRÃO Toda totalidade de valores da variável possui uma variância, que é simbolizada pelo σ2 (sigma ao quadrado). Esta variância não é nada clara ou fácil de identificar. Por esta razão, temos de utilizar uma medida que possibilite tal identificação. Esta medida é conhecida como desvio padrão e representa a raiz quadrada positiva da variância. A variância apura a distância média entre os resultados da série e a sua média. Estas distâncias são elevadas ao quadrado, para que uma distância negativa não anule uma distância positiva. Assim, o desvio padrão e a variância medem o grau de dispersão dos valores em torno da média. Desvio-Padrão em Dados Não Agrupados Fórmula : S= √(∑xi²÷n)-(∑xi÷n)² Onde: S = Desvio Padrão Xi = é cada conteúdo da variável Xi² = é cada conteúdo da variável ao quadrado N = é a quantidade de conteúdos de uma variável Número de matrículas dos alunos no ensino médio de primeira à quarta série, no Brasil: AULA 41 A 50 2 1.1 Desvio-Padrão em Dados Agrupados Desvio-Padrão em Dados Agrupados Sem intervalo de classe: Fórmula 3 Onde: S = Desvio Padrão fi = é frequência simples Xi = os valores das variáveis N = é o total de fi Com intervalo de classe: Fórmula: Onde: S = Desvio Padrão 4 fi = é frequência simples Xi = ponto médio N = é o total de Exemplo: 5 2 PROBABILIDADE Antes de explicarmos probabilidade, cabe uma prévia explanação sobre alguns conceitos importantes para a compreensão de probabilidade. Em quase tudo que integra a vida, nosso dia a dia, podemos encontrar o famoso acaso. Por exemplo, “é provável que meu time ganhe”; resultados possíveis: a) derrota, mesmo que seja favorito; b) vitória; c) empate. 6 O fenômeno cujo resultado final é influenciado pelo acaso é chamado experimento aleatório. Experimentos aleatórios são aqueles que, mesmo repetidos várias vezes, sob condições semelhantes, apresentam resultados imprevisíveis. A cada fenômeno ou experimento correspondem resultados possíveis. Ao lançarmos uma moeda, há dois resultados possíveis: cara ou coroa. Já no caso de lançarmos um dado, teremos seis resultados possíveis. Nesses dois exemplos o espaço amostral será representado da seguinte forma: Moeda – S = {Ca,Co} Dado – S={1,2,3,4,5,6} Espaço Amostral são os resultados possíveis em um certo experimento aleatório. É representado por S. Se ao invés de lançarmos uma moeda, lançarmos duas moedas. S={(Ca, Ca ),( Ca, Co), (Co, Ca), (Co, Co)} Cada um dos elementos de S recebe o nome de ponto amostral. Cada um dos subconjuntos de S recebe o nome de evento. São chamamos de evento qualquer subconjunto do espaço amostral S de um experimento aleatório. Fórmula da Probabilidade: Probabilidade de um evento (A) Onde : n(A) = é o número de elementos de A n(S) = é o número de elementos de S 1) Retomando o exemplo da moeda, vamos calcular a probabilidade de dar cara. (A) Chances de dar cara = 1 (S) Resultados possíveis = {CA,CO} = 2 então: P(A) = ½ = 0,50 ou 50% 2) No caso do dado, qual a possibilidade de obtermos um par? (A) Pares Possíveis = {2,4,6} = 3 7 (S) = Resultados Possíveis = {1,2,3,4,5,6} = 06 então: P(A) = 3/6 = 0,5 ou 50% 3) Ainda sobre o dado, qual a possibilidade de obtermos um número inferior a 5? (A) Números inferiores a 5 = {1,2,3,4} = 04 (S) = Resultados Possíveis = {1,2,3,4,5,6} = 06 então: P(A) = 4/6 = 0,6667 ou 66,67% Eventos Complementares: Como vimos, um evento pode ocorrer ou não ocorrer. Sendo p a probabilidade de que venha a ocorrer e q a probabilidade de que ele não ocorra. Para cada evento sempre existirá a relação: p+q=1 => q=1-p. Qual a possibilidade de obtermos um número inferior a 5 no lançamento de um dado? (A) Números inferiores a 5 = {1,2,3,4} = 04 (S) = Resultados Possíveis = {1,2,3,4,5,6} = 06 então: P(A) = 4/6 Portanto p=4/6 e q=1-4/6. Então q = 1 – 0,6667 = 0,3333 ou 33,33% Em outras palavras, a possibilidade de um número ser inferior a 5 no lançamento de um dado é 66,67%, bem como a possibilidade de não sair um número inferior a 5 é igual a 33,33%. Eventos Independentes: Dois eventos são independentes quando a realização ou não realização de um dos eventos não afeta a probabilidade do outro, e vice-versa. 8 Se dois eventos são independentes, a probabilidade de que eles sejam realizados simultaneamente é igual ao produto das probabilidades de realização dos dois eventos. Ou seja, p = p1 x p2. Dois dados são lançados. Qual a chance de obtermos 1 em cada dado? Primeiro dado: (A) Chance de sair 1 = 01 (S) = Resultados Possíveis = {1,2,3,4,5,6} = 06 então: P1(A) = 1/6 = 0,1667 ou 16,67% Segundo dado: (A) Chance de sair 1 = 01 (S) = Resultados Possíveis = {1,2,3,4,5,6} = 06 então: P2(A) = 1/6 = 0,1667 ou 16,67% Logo, a probabilidade de obtermos simultaneamente 1 em cada dado é igual a: p = p1(A) x p2(A) = 0,1667 x 0,1667 = 0,0277 ou 2,77%. Eventos Mutuamente Exclusivos: Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s). A possibilidade de que um ou outro ocorra é igual a soma das possibilidades de que cada um dos eventos se realize. Ou seja: p = p1 + p2. No lançamento de uma moeda, a probabilidade de dar cara como resultado exclui, automaticamente, a possibilidade de sair coroa no mesmo lançamento. Ou seja, os eventos cara e coroa são mutuamente exclusivos. Ao aplicarmos a fórmula p = p1 + p2, teríamos: Cara: (A) Chance de sair cara = 01 (S) = Resultados Possíveis = {Cara, Coroa} = 02 então: P1(A) = 1/2 = 0,5 ou 50% Coroa: 9 (A) Chance de sair coroa = 01 (S) = resultados possíveis = {cara, coroa} = 2 Então, P(A) = ½ = 0,5 ou 50% Exercícios de Fixação Numa avaliação com notas inteiras entre 0 e 5, qual a chance de um aluno obter uma nota 3? De 0 a 5, temos apenas uma nota 3 possíveis, tendo em vista que o 3 vai aparecer apenas uma vez no conjunto. Sendo assim, temos: P(A) = Chance de tirar nota 3 na prova = {03} = 01 No grupo de 0 a 5, nós temos 6 números. Logo, o aluno pode ter 6 possíveis notas: P(S) = Notas possíveis = {0,1,2,3,4,5} = 06 Então, dividindo as chances pelo número de possibilidade, temos: P= 01/06 = 0,1667 ou 16,67% Qual a chance de alcançar uma nota maior que 3? P(A) = Chance de tirar nota maior que3 na prova = {4,5} = 02 P(S) = Notas possíveis = {0,1,2,3,4,5} = 06 Então: P= 02/06 = 0,3333 ou 33,33% Qual a possibilidade de tirar nota 02 na avaliação, e não tirar 02 nesta mesma avaliação? A chance de alcançar a nota 02 é 1/6 ou 0,1667. Sendo assim, a chance de não tirar nota 02 é q= 01-0,1667 = 0,8333 ou 83,33%. Em outras palavras, há 16,67% de chance de tirar nota 02 e 83,33%, que é o restante, de chance de não tirar. Considerando que este aluno, além da avaliação acima, participe de mais uma outra avaliação oral com notas inteiras entre 0 e 5, qual a possibilidade de alcançar nota 3 na primeira e 2 na segunda? P1(A) = Chance de tirar nota maior que 3 na prova = {3} = 01 10 P1(S) = Notas possíveis = {0,1,2,3,4,5} = 06 Então: P= 01/06 = 0,1667 ou 16,67% P2(A) = Chance de tirar nota maior que 2 na prova = {2} = 01 P2(S) = Notas possíveis = {0,1,2,3,4,5} = 06 Então: P= 01/06 = 0,1667 ou 16,67% Logo: p= p1 x p2 = 0,1667 x 0,1667 = 0,0278 = 2,78% 3 CORRELAÇÃO Quando consideramos variáveis do tipo peso e altura de um grupo de pessoas, procuramos verificar se há alguma relação entre este par de variáveis e qual o grau desta possível relação. Por exemplo, em regra, quanto maior a altura maior deve ser o peso da pessoa. Caso tal relação estudada seja entre variáveis quantitativas, a correlação é o instrumento adequado para descobri-la e medi-la. Uma vez caracterizada a relação, o próximo passo é descrevê-la através de uma função matemática. Relação funcional e relação estatística: As relações entre o perímetro e o lado de um quadrado são estudadas através da fórmula: 2p=4ℓ, onde 2p = perímetro e ℓ = lado. Já no caso da relação entre peso e altura, o estudo entre elas requer uma precisão muito maior, pois as pessoas podem ter peso e altura iguais, pesos iguais e alturas diferentes, pesos diferentes e alturas iguais, embora a tendência natural seja: quanto maior a altura, maior o peso. As relações do tipo perímetro e lado são chamadas funcionais. As relações do tipo peso e altura são chamadas estatísticas. Quando duas variáveis estão ligadas por uma relação estatística, dizemos que há correlação entre elas. 11 Diagrama de Dispersão: Da tabela acima vamos obter a seguinte distribuição: 12 Representando em um sistema coordenado cartesiano ortogonal, os pares ordenados (xi, yi), obtemos uma nuvem de pontos denominada: Diagrama de Dispersão. 4 COIFICIENTE DE CORRELAÇÃO LINEAR O instrumento adotado para a medida da correlação linear é o chamado coeficiente de correlação. Tal coeficiente deve indicar o grau de intensidade da correlação entre duas variáveis e, ainda, o sentido dessa correlação, ou seja, negativo ou positivo. Para a apuração de tal correlação faremos uso do coeficiente de correlação de Pearson, que é dado por: 13 Esta fórmula, assim, à primeira vista, nos parece algo complicado, de difícil resolução, porém, tomemos um exemplo de aplicação sobre distribuição de frequência para podermos perceber, que sua compreensão é muito mais fácil do que parece. Considerando como população, todas as escolas de Santos que participaram do ENEM/2005, e como amostra um grupo formado por dez destas instituições de ensino, obtemos a seguinte distribuição: 14 Para efeito de didática, estipulamos uma legenda para cada coluna: A,B,C,D,E. Onde A(xi) são os valores da variável Prova Objetiva, e B(yi) são os valores da Média Total de cada Escola da cidade de Santos, no ENEM/2005. Para calcularmos o coeficiente de correlação precisamos encontrar os valores de xi.yi, coluna C, que corresponde a cada valor de xi multiplicado por seu respectivo yi. Na coluna D, temos xi² que equivale a cada valor da coluna A(xi) elevado ao quadrado. O mesmo acontece com a coluna E, onde temos yi ² que equivale a cada valor da coluna B(yi) elevado ao quadrado. Agora ficou mais fácil compreender a fórmula do coeficiente de correlação de Pearson: Onde: n = quantidade de escolas que integram a amostra = 10 (∑xi ) = total da coluna A = 388,91 (∑yi ) = total da coluna B = 459,61 ∑ xi.yi = total da coluna C = 18.507,74 ∑xi ² = total da coluna D = 15.903,17 ∑yi ² = total da coluna E = 21.645,09 Assim, temos: 15 Os valores limites de r são -1 e +1, isto é, o valor de r pertence ao intervalo [-1, +1]. Dessa forma: a) se a correlação entre duas variáveis é perfeita e positiva, então r = + 1; b) se a correlação é perfeita e negativa, então r = -1; c) se não há correlação entre as variáveis, então r = 0. Logo: a) se r = +1, há uma correlação perfeita e positiva entre as variáveis; b) se r = -1, há uma correlação perfeita e negativa entre as variáveis; c) se r = 0, ou não há correlação entre as variáveis, ou a relação, que acaso exista, não é linear. Vamos agora calcular o coeficiente de correlação relativo à seguinte tabela, onde constam as notas de dez alunos em matemática e estatística. Como já aprendemos o modo mais prático para obtermos r é abrir colunas correspondentes aos valores de xi.yi, xi ², yi ². Assim: 16 17 Sendo r = 0,91, podemos afirmar que há uma correlação linear positiva consideravelmente significante entre as duas variáveis. FACULDADE DOM ALBERTO ESTATÍSTICA BÁSICA SANTA CRUZ DO SUL – RS 1 1 ESTATÍSTICA BÁSICA, PROBABILIDADE Volume 1 Morettin, Luiz Gonzaga 7ª Edição Editora Makron Books A tabela abaixo pretende verificar se existe uma relação entre a renda familiar e o número de aparelhos de TV em cores em cada lar brasileiro: Sejam X: renda familiar em R$1.000,00 e Y: nº de aparelhos de TV em cores Considere o quadro: Verificar, usando o coeficiente de correlação ρ, se há dependência entre as duas variáveis. AULAS 51 A 60 2 3 Há dependência Linear entre X e Y Parece complicado à primeira vista, mas, se você praticar tudo isso, ficará mais simples. Refaça os exemplos para ver se assimilou tudo. Caso tenha dúvida, converse com seus amigos no Ambiente Virtual de Aprendizagem ou entre em contato conosco! Correlação Linear: Os pontos obtidos formam uma elipse em diagonal. Podemos correlação linear. Cada correlação está associada como imagem relações funcionais são chamadas relações perfeitas. então afirmar que houve uma de uma relação funcional. As relações funcionais são chamadas relações perfeitas. 4 A correlação linear pode ser: 5 2 REGRESSÃO Sempre que desejamos estudar determinada variável em relação à outra, fazemos uma análise de regressão. A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação entre duas variáveis, partindo de n observações da mesma. A variável sobre a qual se pretende fazer uma estimativa recebe o nome de variável dependente e a outra recebe o nome de variável independente. Supondo que X seja a variável independente e Y seja a variável dependente, obtemos a função definida por: Y = aX + b, onde a e b são os parâmetros. A fórmula Y = aX + b permite o ajustamento de uma reta ao diagrama de dispersão. Vamos agora calcular os valores de a e b: Onde: n = número de observações Porém, antes disso precisamos montar a tabela com os valores de xi, yi, xi.yi e xi²: 6 b = 6,25 - 0,9048 x 5,5 = 6,25 - 4,9764 = 1,2736 7 3 AJUSTAMENTO DE RETA, INTERPOLAÇÃO E EXTRAPOLAÇÃO Visando traçarmos uma reta no gráfico de dispersão, basta definir dois pontos desta. Para encontrarmos o primeiro ponto,vamos assumir que o valor de X é ZERO, então a fórmula ficaria: Y = (0,90 x 0) + 1,27 Y = 0 + 1,27 Y = 1,27 Logo para X = 0 o valor de Y será 1,27, então temos que o primeiro ponto para traçarmos a reta será (0;1,27), ou seja no cruzamento onde a reta x equivale a 0 e a reta Y é igual a 1,27. Na obtenção do segundo ponto, vamos propor que X seja igual a 5. Y = (0,90 x 5) + 1,27 Y = 4,50 + 1,27 Y = 5,77 Logo para X = 5 o valor de Y será 5,77, então temos que o segundo ponto para traçarmos a reta será (5;5,77), ou seja no cruzamento onde a reta x equivale a 5 e a reta Y é igual a 5,77. 8 O ponto Ο corresponde ao cruzamento entre X=0 e Y=1,27, ao passo que o ponto Ο corresponde ao cruzamento entre X=5 e Y=5,77. Interpolação e Extrapolação: Interpolação ocorre quando utilizamos um valor que não integra a variável, mas está dentro do intervalo de valores desta, na fórmula: Y=aX+b. Extrapolação ocorre quando utilizamos um valor que não integra a variável, e não está dentro do intervalo de valores desta, na fórmula: Y=aX+b 9 Y = 0,90X + 1,27 Extrapolação: O intervalo de X vai de 2 a 9, então tomaremos X=1 na fórmula acima. Y = 0,9 x 1 + 1,27 Y = 2,17 Neste caso, como 5 E [2,9], dizemos que foi feita uma extrapolação. Interpolação: Para um exemplo de interpolação, vamos supor que o número 5 não seja um valor da variável x. X= 5 => Y= 0,90 x 5 + 1,27 = 4,50 + 1,27 = Y = 5,77 Neste caso, como 5 E [2,9], dizemos que foi feita uma interpolação. 4 DISTRIBUIÇÃO NORMAL Considerando as distribuições teóricas de variável aleatória contínua, podemos afirmar que a Distribuição Normal é uma das mais adotadas. A maioria das pesquisas que são veiculadas através de jornais e revistas faz uso de variáveis socioeconômicas. Tais variáveis tendem a corresponder à Distribuição Normal, ou se aproxima bastante desta. A Distribuição Normal é assim representada graficamente: 10 A partir do gráfico acima representado poderemos rápido e facilmente perceber ou identificar as seguintes propriedades da Distribuição Normal: A variável X é capaz de assumir qualquer valor real; A Distribuição Normal é representada graficamente por meio de uma curva que lembra a forma de um sino; Curva da Distribuição Normal é simétrica em torno da média x que é denominada como Curva Normal ou Curva de Gauss; A Área Total da Distribuição Normal, que têm como limites as dimensões da curva de um lado e o eixo das abscissas de outro, será igual a 1, visto que tal área irá corresponder à probabilidade de uma variável aleatória X assumir qualquer valor real; A Curva Normal é Assintótica em relação aos eixos das abscissas, ou seja, aproxima-se indefinidamente do eixo das abscissas sem, no entanto, alcançá-lo ou tocá-lo; Uma vez que a curva será simétrica em torno de x, a probabilidade de ocorrer um valor maior do que a média também será idêntica à probabilidade de ocorrer um valor inferior ao da média. Em outras palavras, a probabilidade de X ser maior que a média será 0,5, da mesma maneira que a probabilidade de X ser menor que a média será igual a 0,5. Uma distribuição normal fica completamente especificada por dois parâmetros: sua média e seu desvio-padrão, ou seja, existe uma única distribuição normal para cada combinação de uma média e um desvio- padrão, assim o número de distribuições normais é ilimitado. Ao estudarmos uma variável aleatória com distribuição normal, a principal intenção será determinar a probabilidade de a mesma assumir um valor dentro de certo intervalo. 11 Exemplo: Considerando X uma variável aleatória que representa os diâmetros dos parafusos produzidos por determinada máquina, vamos imaginar que X = 2 cm e o desvio padrão seja s = 0,04 cm. Vamos agora apurar a probabilidade de um parafuso ser fabricado com um diâmetro entre 2 e 2,05 cm. Podemos definir que: P (2 < X < 2,05) Graficamente tal probabilidade será assim representada: Para calcular essa probabilidade, utilizaremos a tabela de probabilidade: Áreas de uma distribuição Normal Padrão. A distribuição normal constitui uma família infinitamente grande de distribuições, uma para cada combinação possível de média e desvio-padrão. Na maioria das vezes em que necessitamos da área sob uma curva normal, devemos recorrer a uma tabela. Seria impossível elaborar uma tabela para cada distribuição normal com todos os valores possíveis da média e variância. Podemos achar os resultados para qualquer distribuição normal apelando para uma tabela de distribuição normal com média √ = 0 e variância s2 = 1. Esta distribuição normal especial é chamada de distribuição normal padrão. 5 DISTRIBUIÇÃO NORMAL REDUZIDA Se X é uma variável aleatória com distribuição normal de média [1] x e desvio padrão [1] s, a variável resultante da fórmula a seguir terá distribuição normal reduzida de média = 0 e desvio padrão = 1. 12 As probabilidades associadas a uma Distribuição Normal Padronizada não são obtidas através de cálculos, mas sim por meio de localização em tabelas. A tabela demonstrada na página a seguir nos fornece as probabilidades de Z assumir qualquer valor no intervalo entre a média 0 e certo valor de z, ou seja: Logo, quando X for uma variável aleatória com distribuição normal de média [1] x e desvio padrão [1] s, escreveremos: Exemplo: Os funcionários de certa empresa ganham em média R$ 400,00 mensais, com desvio padrão de R$ 40,00. Qual a probabilidade de um funcionário ganhar um salário mensal entre R$ 380,00 e R$ 410,00? Solução: Temos que: 13 Os valores 0,1915 e 0,0987, correspondem respectivamente à localização dos valores 0,50 e 0,25 na tabela normal padrão a seguir (a tabela completa está no final da aula). Portanto, podemos dizer que em média, 29,02% dos funcionários recebem salários entre R$ 380,00 e R$ 410,00. 14 Exemplo: Sabe-se que o faturamento diário de um restaurante segue uma distribuição de média R$ 20 mil e desvio padrão de R$ 2 mil. Qual a probabilidade, em um período de 60 dias, do faturamento total ultrapassar R$ 1230 mil? Solução: Seja X o faturamento diário do restaurante, em mil reais. Sabemos que: Obtemos uma amostra aleatória de 60 valores de X, denotada por: X1, X2, ..., X60, sendo xi o faturamento do restaurante no dia i, i = 1, 2, ..., 60. Então, 15 16 Áreas sob a curva normal padrão. (Para os valores negativos de z as áreas são obtidas por simetria) 17 6 BIBLIOGRAFIA DONAIRE, D.; MARTINS, G. A. Princípios de estatística. 4. ed. São Paulo: Atlas, 1990. MARTINS, G. A.; FONSECA, J. S. Curso de estatística. 6. ed. São Paulo: Atlas, 1996. NOVAES, D. V.; COUTINHO, C. Q. S. Estatística para educação profissional. 4. ed. São Paulo: Atlas, 2009. BIBLIOGRAFIA COMPLEMENTAR ARA, A. B. Introdução à estatística. 3. ed. São Paulo: Edgard Blucher, 2001. HOFFMANN, R.; VIEIRA, S. Elementos de estatística. 4. ed. São Paulo: Atlas, 2004. MARTINS, G. A. Estatística geral e aplicada. 3. ed. São Paulo: Atlas, 2005. MORETTIN, P. A.; BUSSAB, W. O. Estatística básica. 5. ed. São Paulo: Saraiva, 2002. STEVENSON, W. J. Estatística aplicada à administração. São Paulo, Harbra, 1987.
Compartilhar