Prévia do material em texto
E S T A T Í S T I C A A P L I C A D A E D U A R D O L U I Z H O E H N E E S T A T Í S T I C O 2 0 1 1 1 OPERAÇÕES ALGÉBRICAS E NUMÉRICAS Arredondamento de decimais A regra usada para se arredondar um número para uma casa decimal é que se o segundo dígito à direita da vírgula é: 4 ou menos, ele é simplesmente esquecido, e o primeiro dígito à direita da vírgula continua o mesmo (exemplo: 1,74 1,7); 5 ou mais, então, o primeiro dígito à direita da vírgula é acrescido de um (exemplos: 2,87 2,9 e 1,98 2,0). Para se arredondar para duas ou mais casas decimais a regra é a mesma, devendo ser observado o dígito seguinte daquele que se deseja arredondar (caso se deseje arredondar para duas casas decimais, observar o terceiro; caso se deseje arredondar para três casas decimais, observar o quarto dígito, e assim por diante). Frequência Relativa É a proporção de elementos de cada categoria. Supondo, como exemplo, que em uma empresa trabalhem 163 pessoas do sexo feminino e 137 do sexo masculino. Seja a frequência relativa do sexo feminino denotada por x e a do sexo masculino por y. Como o total das frequências absolutas vale 300 (163+137) e o total das frequências relativas vale 100%, então: 300 100% 163 x ...%333,54 3 163 300 100.163 100.163300 xxxx 300 100% 137 y ...%666,45 3 137 300 100.137 100.137300 yyyy Arredondando os resultados para uma casa decimal, tem-se que: x 54,3% e y 45,7%. Nesse caso, como há somente duas categorias, há outro modo de cálculo para as frequências relativas: bastaria encontrar uma frequência relativa pelo método descrito acima e subtrair o resultado de 100% (ou seja, como x 54,3%, então y 100,0% - 54,3% 45,7%). Portanto, há na empresa, aproximadamente, 54,3% de mulheres e 45,7% de homens. 2 Somatórios Tem-se que uma aluna fez 4 provas, obtendo as seguintes notas: 3, 7, 9 e 6. Pode-se chamar nota de “variável X” (maiúscula) e os valores que ela assume de “x” (minúscula). Assim, 6 9 ,7 ,3 4321 xexxx ; onde o índice (i) dos valores de x varia de 1 até 4. Soma n i ix 1 (o símbolo é a letra grega sigma maiúscula). A soma dessas notas pode ser escrita por 4 1i ix (lê-se: “somatório de ix , para i variando de 1 a 4”). Portanto, 2569734321 4 1 xxxxx i i . Quadrado da Soma: é a soma elevada ao quadrado 2 1 n i ix No caso das notas, o resultado é: 62525224321 2 4 1 xxxxx i i . Soma dos Quadrados: os quadrados devem ser somados n i ix 1 2 Então, nesse caso: 17536814996973 222224 2 3 2 2 2 1 4 1 2 xxxxx i i . Soma de Produtos: os produtos são somados n i ii y.x 1 Seja o exemplo: x 1 3 2 Então, 292270129301 332211 3 1 ... y.xy.xy.xy.x i ii y 0 9 1 3 Intervalos No intervalo a | b (lê-se: “intervalo fechado em a e aberto em b”) estão contidos todos os valores entre a (inclusive) e b (exclusive). Exemplo: O intervalo 7 | 11 contém todos os valores entre 7 (inclusive) e 11 (exclusive). Tipos de Variáveis Antes de se começar a análise de um conjunto de dados, é necessário saber quais são os tipos das variáveis que se deseja trabalhar; há dois tipos: as variáveis qualitativas e as variáveis quantitativas. A variável será qualitativa quando se distribui em categorias. Ela pode ser: nominal, para a qual não há ordenação (exemplos: sexo, cor de automóveis, lucro em aplicação financeira) ou ordinal, para a qual existe uma certa ordem (exemplos: escolaridade fundamental, médio, superior). A variável quantitativa é uma medida. Ela pode ser: discreta, cujos possíveis valores formam um conjunto enumerável (Ex.: número de itens defeituosos 0, 1, 2,...) ou contínua, cujos possíveis valores formam um intervalo de números reais (Ex.: volume médio diário de vendas, peso, altura). Obs.: Toda variável cujas categorias forem somente “sim” ou “não” é classificada como qualitativa nominal. 4 APRESENTAÇÃO TABULAR Uma tabela estatística pode ser definida, de modo geral, como um resumo de dados numéricos dispostos em linhas e colunas para fins de comparação. Toda tabela deve ter significado próprio, não sendo necessárias consultas ao texto onde esteja inserida. Seja o seguinte exemplo: em março de 2011, havia 92 mulheres e 87 homens matriculados como alunos do curso X da Faculdade Y, segundo a secretaria da faculdade. Para tabular esses dados, deve-se: 1) Identificar a variável e seu respectivo tipo. variável: sexo tipo: qualitativa nominal 2) Escrever “Feminino” e “Masculino” em coluna. Na respectiva linha, escrever o número de indivíduos de cada sexo. Feminino 92 Masculino 87 Obs.: Como a variável é qualitativa nominal, as categorias poderiam estar em qualquer ordem. 3) Escrever sobre cada coluna o que ela contém. Sexo Frequência Feminino 92 Masculino 87 4) Fazer traços horizontais. Evite os traços verticais. Sexo Frequência Feminino 92 Masculino 87 5 5) Colocar o título, na parte superior. Obs.: O título explica o que a tabela contém. No caso da coleta de dados, ele deve responder a três perguntas: “o que?”, “onde?” e “quando?”. Distribuição dos alunos, segundo o sexo, do curso X da Faculdade Y, em março de 2011 Sexo Frequência Feminino 92 Masculino 87 A tabela pode conter outros componentes, como: fonte, total e frequências relativas. frequência relativa do sexo feminino: 179 100% 92 x %4,51 179 100.92 100.92179 xxx frequência relativa do sexo masculino: y 100,0% - 51,4% 48,6% Obs.: Quando houver mais de uma tabela no mesmo trabalho, elas devem ser numeradas. Tabela 1 – Distribuição dos alunos, segundo o sexo, do curso X da Faculdade Y, em março de 2011 Sexo Frequência Frequência Relativa (%) Feminino 92 51,4 Masculino 87 48,6 Total 179 100,0 Fonte: Secretaria da Faculdade Y 6 Tabela de Distribuição de Frequências Quando os valores são inteiros e se repetem pode ser organizada uma tabela denominada Tabela de Distribuição de Frequências. Exemplo: Quantidade de acidentes de trabalho, em 2010, em uma amostra de microempresas do município X: 3; 0; 1; 0; 3; 2; 1; 1; 0; 3; 0; 0; 4; 0; 1; 2; 0; 0; 3; 1; 0. Para se construir a Tabela de Distribuição de Frequências, deve-se: 1) Identificar a variável e seu respectivo tipo. variável: quantidade de acidentes de trabalho tipo: quantitativa discreta2) Encontrar o menor e o maior números: 0 é o menor e 4 é o maior. 3) Escrever números inteiros consecutivos, em coluna, e contar quantas vezes cada um aparece. 0 9 1 5 2 2 3 4 4 1 4) Organizar a tabela. Tabela 2 – Distribuição da quantidade de acidentes de trabalho em uma amostra de microempresas do município X, em 2010 Acidentes de trabalho Frequência Frequência Relativa (%) 0 9 42,9 1 5 23,8 2 2 9,5 3 4 19,0 4 1 4,8 Total 21 100,0 Obs.: Suponha que a pessoa responsável pela elaboração da tabela foi a mesma que coletou os dados. Nesse caso, não há necessidade de se colocar a fonte. 7 Tabela para Dados Agrupados Os dados também podem ser organizados em faixas ou classes. Exemplo: Salários, em reais, de uma amostra de empregados da Empresa A, em janeiro de 2011: 1521 2575 5507 3842 6478 4250 2867 3328 1075 2749 3756 2409 1872 2645 2903 3229 1654 5703 2687 1950 Obs.: A variável é “salário”, que é quantitativa contínua. Para se organizar os dados em classes, é necessário, primeiramente, definir os intervalos de cada uma; a seguir, se faz a contagem dos indivíduos em cada classe e se constrói a tabela. Tabela 3 – Salários de uma amostra de empregados da Empresa A, em janeiro de 2011 Salário (R$) Frequência Frequência Relativa (%) 1000 | 2000 5 25,0 2000 | 3000 7 35,0 3000 | 4000 4 20,0 4000 | 5000 1 5,0 5000 | 6000 2 10,0 6000 | 7000 1 5,0 Total 20 100,0 Fonte: Departamento de Recursos Humanos da Empresa A Tabela de Contingência ou Tabela de Dupla Entrada Utilizada para dados classificados de acordo com duas variáveis. Como exemplo, tem-se: Tabela 4 – Distribuição da população com 18 anos ou mais de idade, segundo o sexo e o emprego formal, do município X, em 2010 Sexo Emprego Formal Total Sim Não Feminino 501 1526 2027 Masculino 2819 118 2937 Total 3320 1644 4964 Fonte: Prefeitura do Município X 8 APRESENTAÇÃO GRÁFICA Para variáveis qualitativas, utiliza-se o gráfico de colunas ou o gráfico de barras; para variáveis quantitativas, utiliza-se o histograma. Gráfico de Colunas e Gráfico de Barras A próxima tabela será utilizada para a construção do gráfico de colunas (barras verticais) e também para o gráfico de barras (barras horizontais): Tabela 5 – Amostra de investidores em ações, segundo a lucratividade, em 2010 Lucratividade Frequência Frequência Relativa (%) Não 407 74,0 Sim 143 26,0 Total 550 100,0 Fonte: Jornal AB Obs.: A variável é “lucratividade”, que é qualitativa nominal. Para se desenhar o gráfico de colunas, deve-se: 1) Traçar o sistema de eixos cartesianos, com a variável no eixo horizontal (abscissa) e as frequências no eixo vertical (ordenada). Optou-se pelas frequências relativas. 0 10 20 30 40 50 60 70 80 Não Sim Lucratividade % 9 2) Traçar colunas, separadas, com altura igual ao percentual da categoria e, de preferência, preenchê-las. As bases das colunas precisam ser iguais. 0 10 20 30 40 50 60 70 80 Não Sim Lucratividade % 3) Colocar o título com a devida numeração e, se necessário, a fonte; ambos na parte inferior. Caso se deseje, fazer traços horizontais nos valores do eixo y e colocar os respectivos valores nas colunas. 74,0 26,0 0 10 20 30 40 50 60 70 80 Não Sim Lucratividade % Figura 1 – Amostra de investidores em ações, segundo a lucratividade, em 2010 Fonte: Jornal AB Para o gráfico de barras, o procedimento é semelhante, mas com a “troca” dos eixos. 74,0 26,0 0 10 20 30 40 50 60 70 80 Não Sim Lucratividade % Figura 2 – Amostra de investidores em ações, segundo a lucratividade, em 2010 Fonte: Jornal AB 10 A próxima tabela será utilizada para a construção do histograma: Tabela 6 – Amostra de domicílios do Bairro Y, segundo o consumo mensal de energia elétrica, em maio de 2011 Consumo de energia elétrica (kWh) Frequência Frequência Relativa (%) 100 | 150 16 21,3 150 | 200 25 33,3 200 | 250 14 18,7 250 | 300 13 17,3 300 | 350 7 9,3 Total 75 100,0 Fonte: Companhia de Energia Elétrica Z Obs.: A variável é “consumo de energia elétrica”, que é quantitativa contínua. Para se desenhar o histograma, deve-se: 1) Traçar o sistema de eixos cartesianos, com as classes nas abscissas e as frequências nas ordenadas. Optou-se pelas frequências absolutas. 0 5 10 15 20 25 30 Consumo (kWh) Fr eq uê nc ia 100 150 200 250 300 350 Obs.: Fez-se um corte no eixo das abscissas (x), devido à não proporcionalidade. 11 2) Traçar colunas justapostas e, de preferência, preenchê-las. A altura de cada coluna é dada pela frequência da respectiva classe. 0 5 10 15 20 25 30 Consumo (kWh) Fr eq uê nc ia 100 150 200 250 300 350 3) Colocar o título com a devida numeração e, se necessário, a fonte; ambos na parte inferior. Caso se deseje, fazer traços horizontais nos valores do eixo y e colocar os respectivos valores nas colunas. 16 25 13 7 14 0 5 10 15 20 25 30 Consumo (kWh) Fr eq uê nc ia 100 150 200 250 300 350 Figura 3 – Amostra de domicílios do Bairro Y, segundo o consumo mensal de energia elétrica, em maio de 2011 Fonte: Companhia de Energia Elétrica Z O histograma acima só pôde ser feito dessa maneira porque as amplitudes de cada classe (diferença entre o limite superior e o limite inferior) são sempre as mesmas, ou seja, igual a 50 quilowatts-hora; caso contrário (por exemplo: 100 | 150; 150 | 200; 200 | 250; 250 | 300; 300 | 400), a figura não poderia ser desenhada de forma direta. A área total de um histograma é igual a 1 (ou 100%); portanto, as colunas devem ser proporcionais às frequências. Quando as amplitudes das classes não forem iguais, deve ser utilizada a densidade, que é dada pela divisão da frequência pela amplitude do intervalo. Então, o histograma é construído utilizando-se das densidades no eixo y. 12 MEDIDAS DE POSIÇÃO (Dados Não Agrupados) São as medidas que indicam a localização dos dados. Podem ser divididas em dois grupos: as medidas de tendência central e as separatrizes. MEDIDAS DE TENDÊNCIA CENTRAL Elas são utilizadas para resumir o conjunto de dados em um único valor (ou seja, em torno de qual valor tende a se concentrar a maioria dos dados). Há três medidas de tendência central: média, mediana e moda. Média A média (aritmética) é indicada por x (lê-se: x barra). Ela pode ser simples ou ponderada. A média (aritmética) simples é a soma de todos os valores divididapelo número de valores: n x x n i i 1 , onde n é o número de elementos do conjunto de dados. Exemplo: 8; 3; 7; 5; 8 26 5 31 5 85738 5 543211 , xxxxx n x x n i i A média (aritmética) ponderada é utilizada quando os valores de um conjunto de dados possuem ponderações (pesos) diferentes. A fórmula é: n i i n i ii p x.p x 1 1 , onde n i ip 1 é a soma das ponderações. Exemplo: A nota bimestral de uma disciplina é dada de acordo com duas listas de exercícios e uma prova. Cada lista tem peso um e, a prova, peso oito. Suponha que um aluno tire 8, 9 e 7, respectivamente. Então a sua média ponderada será: 37 10 73 10 5698 811 789181 321 332211 1 1 , ... ppp x.px.px.p p x.p x n i i n i ii Obs.: Na média aritmética simples todos os valores possuem o mesmo peso. Obs.: Há outros tipos de médias, como a geométrica e a harmônica. 13 Mediana A mediana (Md) é o valor que ocupa a posição central dos dados ordenados. Exemplos: n ímpar: 8; 3; 7; 5; 8 ordenando: 3; 5; 7; 8; 8 Md = 7 n ímpar: 2; 3; 7; 4; 9; 6; 9 ordenando: 2; 3; 4; 6; 7; 9; 9 Md = 6 n par: 8; 3; 7; 5; 8; 9 ordenando: 3; 5; 7; 8; 8; 9 Md = 7,5 (quando n é par, a mediana é a média dos dois valores centrais) Obs.: A mediana pode dar melhor idéia da tendência central dos dados do que a média quando existem valores discrepantes. Exemplo: 1; 2; 8; 5; 54 média 14 5 70 5 5458211 x n x x n i i mediana ordenando: 1; 2; 5; 8; 54 Md = 5 Moda A moda (Mo) é o valor que ocorre com maior frequência. Exemplos: 8; 3; 7; 5; 8 Mo = 8 (pois aparece duas vezes, e o demais valores somente uma). 6; 5; 7; 6; 8; 5; 6; 5 Mo = 5 e 6 (é um conjunto bimodal, pois há dois números que aparecem mais vezes). 1; 8; 5; 3 conjunto amodal (não existe moda). 14 SEPARATRIZES São medidas que dividem um conjunto de dados ordenados em partes iguais correspondentes. As mais comuns são: a mediana, os quartis, os decis e os percentis. Quartis Os quartis são valores que dividem o conjunto de dados em quatro partes iguais (é necessário ordenar os dados). Eles são chamados de primeiro, segundo e terceiro quartil e representados, respectivamente, por Q1, Q2 e Q3. Nota-se que o segundo quartil coincide com a mediana, isto é, Q2 = Md (vide o esquema abaixo). 0% 25% 50% 75% 100% Q1 Q2 = Md Q3 Obs.: O primeiro quartil (Q1) também é chamado de quartil inferior e o terceiro quartil (Q3) também é chamado de quartil superior. Para se encontrar o primeiro quartil deve-se dividir o número de elementos por 4 e considerar a parte inteira do resultado; no caso do terceiro quartil, multiplica-se o número de valores por 3 e divide-se por 4, considerando-se, também, a parte inteira. Agora, há duas situações: se essa divisão não for exata, então o quartil desejado será dado pelo valor que ocupa a posição representada pela parte inteira acrescida de 1; se essa divisão for exata, então o quartil desejado será dado pela média dos valores que ocupam as posições representadas pela parte inteira e pela parte inteira acrescida de 1. Obs.: Idem para a mediana, mas multiplica-se o número de elementos por 1/2 ( = 2/4 ). Exemplo: Encontrar a mediana, Q1 e Q3 para os tempos de espera por atendimento, em minutos, de uma amostra de clientes de uma agência bancária em determinado dia: 15 10 12 8 19 20 23 16 13 ordenando: 8 10 12 13 15 16 19 20 23 Q1: 252 4 9 , [2] divisão não-exata posição do Q1: 2+1 = 3 o Q1 = 12min Q2: 504 2 9 4 92 , . [4] divisão não-exata posição do Q2: 4+1 = 5 o Q2 = 15min Q3: 756 4 93 , . [6] divisão não-exata posição do Q3: 6+1 = 7 o Q3 = 19min 15 MEDIDAS DE DISPERSÃO (Dados Não Agrupados) O resumo de um conjunto de dados, através de uma única medida representativa de posição central (a média, por exemplo), esconde toda a informação sobre a variabilidade desse conjunto. Exemplo: Sejam os quatro conjuntos de dados a seguir: 1 o ) 3; 4; 5; 6; 7 Então, 5 5 25 5 76543 xx 2 o ) 5; 1; 7; 3; 9 Então, 5 5 25 5 93715 xx 3 o ) 5; 5; 5; 5; 5 Então, 5 5 25 5 55555 xx 4 o ) 3; 3; 7; 7 Então, 5 4 20 4 7733 xx A identificação de cada um desses conjuntos pela sua média (5 em todos os casos) nada informa sobre as diferentes variabilidades dos mesmos. Nota-se, portanto, a conveniência de se criar uma medida que resuma a variabilidade de um conjunto de dados. As medidas de dispersão ou de variabilidade são aquelas que quantificam a variabilidade dos valores em um conjunto de dados. Algumas medidas usadas são: a amplitude, os desvios, a variância e o desvio-padrão. Amplitude A amplitude (R) é a diferença entre os valores extremos de um conjunto de dados, ou seja, é a diferença entre o maior e menor valor mínmáx xxR . No exemplo anterior, tem-se: 1 o ) R = 7 - 3 = 4 2 o ) R = 9 - 1 = 8 3 o ) R = 5 - 5 = 0 4 o ) R = 7 - 3 = 4 Obs.: A amplitude é fácil de se calcular e de se interpretar, mas não mede bem a variabilidade. 16 Desvios Dado um conjunto de dados, o desvio (d) é a diferença entre um determinado valor e a média desse conjunto xxd ii . No exemplo anterior, tem-se: 1 o ) 2531 d 1542 d 0553 d 1564 d 2575 d 2 o ) 0551 d 4512 d 2573 d 2534 d 4595 d 3 o ) 0551 d 0552 d 0553 d 0554 d 0555 d 4 o ) 2531 d 2532 d 2573 d 2574 d Obs.: Para qualquer conjunto de dados, a soma dos desvios é zero. Variância Amostral A variância amostral é a soma dos quadrados dos desvios dividida pelo número de elementos menos um; é representada por s2: 1 1 2 2 n xx s n i i Obs.: A unidade de medida da variância é igual ao quadrado da unidade de medida dos dados, pois os valores são elevados ao quadrado (por exemplo, se os valores estivessem em minutos, então a unidade da variância seria em minutos2, ou seja, min min2). Para os dados dos quatro conjuntos do exemplo anterior, tem-se: 1 o ) 5,2 4 10 4 41014 4 21012 22222 2 s 2 o ) 0,10 4 40 4 1644160 4 42240 22222 2 s 3 o ) 0002 ,s (pois todos os valores são iguais; não há variabilidade) 4 o ) 35 3 16 3 4444 3 2222 2222 2 ,s 17 Desvio-Padrão Amostral É a raiz quadrada (positiva) da variância amostral e é representado pela letra s: 1 1 2 n xx s n i i O desvio-padrão é a mais importante medida de variabilidade utilizada. Obs.: A unidade de medida do desvio-padrão é a mesma dos dados. Então, utilizando os dados do exemplo anterior, tem-se: 1 o ) 6,15,22 ss 2 o ) 2,30,102 ss 3 o ) 0,00,02 ss 4 o ) 3,23,52 ss Obs.: As medidas de tendência central de um conjunto de dados são tanto mais descritivas desse conjunto quanto menor for a variabilidade (dispersão). Exemplo: Calcular a média, a variância e o desvio-padrão das seguintes idades, em anos, de uma amostra de compradores de um certo produto: 25 28 26 21 26. anos n x x n i i 2,25 5 126 5 26212628251 4 2,250,262,250,212,250,262,250,282,250,25 1 22222 1 2 2 n xx s n i i 4 80,26 4 64,064,1764,084,704,0 4 8,02,48,08,22,0 22222 2 s 22 7,6 anoss Então, anossanoss 6,2 7,6 2 18 MEDIDAS DE POSIÇÃO E DE DISPERSÃO (Dados Agrupados) Em certos casos os resultados estão disponíveis somente em classes, ou seja, não se tem os dados brutos. Nessas situações, algumas das medidas utilizadas, com suas respectivas fórmulas, são: Média: n i i k i ii f mf x 1 1 onde: k é o número de classes if é a frequência da classe i im é o ponto médioo da classe i Mediana: h f f n LIMd Md antac Md . 2 onde: MdLI é o limite inferior da classe que contém a mediana )(antacf é a frequência acumulada da classe anterior à classe mediana Mdf é a frequência da classe que contém a mediana h é a amplitude da classe mediana Moda: Será utilizada apenas a classe modal, ou seja, aquela que apresenta a maior frequência. Primeiro Quartil: h f f n LIQ Q antac Q . 4 1 11 onde: 1Q LI é o limite inferior da classe que contém o primeiro quartil ( 1Q ) )(antacf é a frequência acumulada da classe anterior à classe que contém o 1Q 1Q f é a frequência da classe que contém o 1Q h é a amplitude da classe que contém o 1Q Terceiro Quartil: h f f n LIQ Q antac Q . 4 3 3 33 onde: 3Q LI é o limite inferior da classe que contém o terceiro quartil ( 3Q ) )(antacf é a frequência acumulada da classe anterior à classe que contém o 3Q 3Q f é a frequência da classe que contém o 3Q h é a amplitude da classe que contém o 3Q Variância: 1 1 2 2 n fxm s k i ii onde os símbolos são os mesmos da definição da média Desvio-padrão: 1 . 1 2 n fxm s k i ii onde os símbolos são os mesmos da definição da média 19 Como exemplo, serão utilizados os dados da Tabela 6, referentes ao consumo mensal de energia elétrica de uma amostra de domicílios do Bairro Y, em maio de 2011; encontrando-se os pontos médios de cada classe e as frequências acumuladas, tem-se: Consumo (kWh) im if acf 100 | 150 125 16 16 150 | 200 175 25 41 200 | 250 225 14 55 250 | 300 275 13 68 300 | 350 325 7 75 Total ── 75 ── Média: kWhx f mf x n i i k i ii 205 75 15375 75 325.7275.13225.14175.25125.16 1 1 Mediana: kWhMdh f f n LIMd Md antac Md 1934315050. 25 16 2 75 150. 2 Classe Modal: 150 | 200kWh 1 o Quartil: kWhQh f f n LIQ Q antac Q 5,1555,515050. 25 16 4 75 150. 4 11 1 1 3 o Quartil: kWhQh f f n LIQ Q antac Q 8,2548,425050. 13 55 4 75.3 250. 4 3 33 3 3 Variância: 1 1 2 2 n fxm s k i ii e Desvio-padrão: 1 . 1 2 n fxm s k i ii 175 7.20532513.20527514.20522525.20517516.205125 22222 2 s 222 5,3986 74 295000 kWhss Então, kWhskWhs 1,635,3986 2 20 COEFICIENTE DE CORRELAÇÃO LINEAR Nessa etapa, se analisará o comportamento conjunto de duas variáveis quantitativas, através do coeficiente de correlação linear. Obs.: A correlação entre duas variáveis pode ser linear ou não; aqui, se tratará somente do comportamento linear. Suponha que se queira analisar o comportamento conjunto das variáveis “lucro” e “gasto com publicidade” de uma loja de eletrônicos, em milhares de reais, para um período de oito meses. Os dados, fornecidos pelo Departamento Financeiro da loja, estão descritos a seguir: Mês Gasto (x) Lucro (y) 1 4 109 2 7 145 3 10 149 4 14 165 5 12 176 6 18 249 7 15 208 8 20 299 A correlação deve ser analisada, primeiramente, quanto ao sentido: positivo ou negativo. Para isso, é feito o diagrama de dispersão (vide gráfico a seguir). 0 50 100 150 200 250 300 350 0 5 10 15 20 25 Gasto com publicidade (milhares de reais) Lu cr o (m ilh ar es d e re ai s) Figura 4 – Gasto com publicidade e lucro de uma loja de eletrônicos para um período de oito meses Fonte: Departamento Financeiro da loja 21 Por esse gráfico, nota-se que, para o aumento dos valores do gasto com publicidade, há uma tendência linear para o aumento dos valores do lucro; nesse caso, diz-se que a correlação é positiva. Obs.: Se o aumento dos valores de uma variável provoca diminuição dos valores da outra variável, diz-se, então, que a correlação é negativa. Depois de visto o sentido, é necessário se quantificar a força dessa correlação linear. Para isso, calcula-se o coeficiente de correlação linear de Pearson (r), que é dado por: 2 11 2 2 11 2 1 1 1 n i i n i i n i i n i i n i n i n i iiii yynxxn yxyxn r Essa correlação é um número que varia entre -1 (correlação perfeita negativa) e +1 (correlação perfeita positiva); se for igual a 0 (zero), há ausência de correlação. Para os dados anteriores, tem-se: Mês x y x . y x 2 y 2 1 4 109 436 16 11881 2 7 145 1015 49 21025 3 10 149 1490 100 22201 4 14 165 2310 196 27225 5 12 176 2112 144 30976 6 18 249 4482 324 62001 7 15 208 3120 225 43264 8 20 299 5980 400 89401 100 1500 20945 1454 307974 Utilizando a fórmulaanterior, tem-se: 225000024637921000011632 150000167560 1500307974.81001454.8 1500.10020945.8 22 r 94,0 348908544 17560 213792.1632 17560 rr Esta correlação linear é classificada como positiva forte. Em outras palavras, o gasto com publicidade e o lucro possuem uma forte correlação positiva. Obs.: Se a correlação for próxima a 0,50, então ela é classificada como moderada. 22 REGRESSÃO LINEAR No caso de haver uma tendência linear entre as variáveis X e Y, pode ser traçada uma reta no meio desses pontos. A equação da reta é dada por: bxay , onde a é o coeficiente linear e b é a inclinação da reta. A “melhor” reta (no sentido das propriedades estatísticas desejáveis) é a reta dos mínimos quadrados (também chamada de reta de regressão). Nesse caso, os coeficientes são calculados através das seguintes fórmulas: n i n i i i n i n i n i ii ii n x x n yx yx b 1 2 12 1 1 1. e xbya No caso do exemplo anterior, tem-se: 76,10 204 2195 12501454 1875020945 8 100 1454 8 1500.100 20945 2 bb 00,5350,13450,18750,12.76,1050,187 axbya Portanto, a equação da reta, através do método dos mínimos quadrados, é: xy 76,1000,53 0 50 100 150 200 250 300 350 0 5 10 15 20 25 Gasto com publicidade (milhares de reais) Lu cr o (m ilh ar es d e re ai s) Figura 5 – Gasto com publicidade e lucro de uma loja de eletrônicos para um período de oito meses Fonte: Departamento Financeiro da loja 23 PROBABILIDADE Antes de se falar em probabilidades, é necessária a definição de alguns termos: Experimento: é qualquer processo que permite ao pesquisador fazer observações. Em cada uma das situações a seguir está descrito um experimento: Nível de escolaridade dos trabalhadores de uma empresa; Número de pacientes que chegam a um pronto-socorro nos finais de semana; Sexo dos bebês nascidos em uma maternidade num determinado período. Espaço amostral (S) de um experimento: todos os possíveis resultados desse experimento. Aqui se trabalhará somente com o espaço amostral finito (existe também o infinito). Evento: é qualquer subconjunto do espaço amostral; será denotado por letras maiúsculas. Obs.: O espaço amostral (S) e o conjunto vazio () são eventos. O primeiro é chamado de evento certo, enquanto que o segundo é chamado de evento impossível. Exemplo: Considere um experimento que consiste em jogar um dado e observar o número da face voltada para cima. Neste caso, o espaço amostral será S = {1, 2, 3, 4, 5, 6}. E sejam os eventos A: obter um número ímpar e B: obter um número maior do que 3. Então, A = {1, 3, 5} e B = {4, 5, 6}. Exemplo: Suponha um experimento conduzido com a finalidade de se observar o resultado de um teste para verificar se um componente eletrônico opera corretamente. Para isso, dois componentes foram submetidos a este teste. Então, S = {+ +, + -, - +, - -}. E três eventos são definidos: A: ocorrer somente um resultado positivo B: ocorrer dois resultados negativos C: ocorrer menos do que três resultados positivos Com isso, tem-se que A = {+ -, - +} B = {- -} C = {+ +, + -, - +, - -} Obs.: O evento C é um evento certo. 24 Pode-se fazer operações com os eventos, gerando outros: A B é o evento que ocorre se A ou B ocorre ou ambos ocorrem A B é o evento que ocorre se A e B ocorrem simultaneamente Figura 6 - União entre dois eventos (Diagrama de Venn) Figura 7 - Intersecção entre dois eventos (Diagrama de Venn) No caso do Exemplo 1, tem-se: A B = {1, 3, 4, 5, 6} e A B = {5}. Dois eventos são denominados mutuamente exclusivos quando eles não puderem ocorrer simultaneamente, isto é, a intersecção entre os eventos é vazia (A B = ). Exemplo: Seja um experimento que consiste em perguntar a cor/raça de uma determinada pessoa nascida no Brasil, segundo os critérios do IBGE (Instituto Brasileiro de Geografia e Estatística). Com isso, o espaço amostral S = {branca, negra, parda, amarela, indígena}. Dados os eventos A: a pessoa é negra e B: a pessoa é branca, nota-se que eles são mutuamente exclusivos, pois não podem ocorrer simultaneamente (ou seja, A B = ). Propriedades Elementares de Probabilidade As propriedades elementares de probabilidade são três: 1) Seja um experimento com n eventos mutuamente exclusivos, E1, E2,...,En. Então, a probabilidade de cada evento Ei deve ser maior ou igual a zero, ou seja, P(Ei) 0 2) A soma das probabilidades de todos os eventos mutuamente exclusivos vale um, isto é, P(E1) + P(E2) + ... + P(En) = 1 25 3) Sejam Ei e Ej dois eventos mutuamente exclusivos. Então, a probabilidade da ocorrência ou de Ei ou de Ej é igual a soma de suas probabilidades individuais, ou seja, P(Ei ou Ej) = P(Ei Ej) = P(Ei) + P(Ej) Com essas propriedades, chega-se a um outro resultado: a probabilidade de qualquer evento Ei, além de ser maior ou igual a zero, deve ser menor ou igual a um, ou seja, 0 P(Ei) 1 Definição de Probabilidade Considere um experimento com espaço amostral S eqüiprovável (isto é, igualmente provável) e um evento A associado a esse experimento. Então, a probabilidade de ocorrência do evento A, denotado por P(A), é dada pelo número de resultados favoráveis (ao evento A) dividido pelo número de resultados possíveis, ou seja, Sdeelementosde.n Adeelementosde.n )A(P o o Exemplo: Considere um baralho com cinquenta e duas cartas. Selecione, ao acaso, uma carta desse baralho. Se os eventos são A: a carta é de copa e B: a carta é um “rei”, então, %25250,0 52 13 . . )( cartasdetotaln copadecartasden AP o o %7,7077,0 52 4 . "" . )( cartasdetotaln reisden BP o o Exemplo: Suponha que uma pessoa seja retirada ao acaso da amostra descrita pela tabela seguinte. Qual é a probabilidade dessa pessoa ser do sexo masculino? E de ser fumante? Tabela 7 – Hábito de fumar e sexo dos alunos de uma faculdade, em março de 2011 H á b i t o d e f u m a r S e x o T o t a l M a s c u l i n o F e m i n i n o F u m a n t e 25 9 34 N ã o - f u m a n t e 50 27 77 T o t a l 75 36 111 Fonte: Secretaria da Faculdade %6,67 111 75 ) ( masculinosexoP %6,30 111 34 )( fumanteP 26 ANÁLISE COMBINATÓRIA Há situações onde é necessária a utilização da Análise Combinatória para se contar o número de resultados favoráveis e o número total de possibilidades do espaço amostral e, com isso, se aplicar a definição de probabilidade. Considere n um número inteiro e maior do que zero. Por definição, n! (lê-se: “fatorial de n” ou “n fatorial”) é dado por: n! = n . (n-1) . (n-2) . ... . 4 . 3 . 2 . 1 Por exemplo, 5! = 5 . 4 . 3 . 2 . 1 = 120 6! = 6 . 5 . 4 . 3 . 2 . 1 = 720 ou 6! = 6 . 5! = 6 . 120 = 720 Obs.: Por definição,0! = 1 e 1! = 1 Dado um conjunto de n elementos, onde n > 0 e sendo x n , então: !! ! , xnx n x n C xn , lê-se: combinação de n elementos, x a x. Por exemplo, se n = 7 e x = 3, então: 35 6 5.6.7 !4!3 !4.5.6.7 !4!3 !7 !37!3 !7 3 7 3,7 C Obs.: Quando se trabalha com combinação, não importa a ordem dos elementos (1-2 = 2-1). Exemplo: Em uma competição esportiva, serão escolhidos 2 entre 5 atletas (numerados de 1 a 5) para serem submetidos ao exame anti-doping. De quantos modos distintos podem ser escolhidos estes atletas? Qual a probabilidade do atleta 1 e do atleta 2 serem escolhidos? Qual a probabilidade ou do atleta 1 ou do atleta 2 ou ambos serem escolhidos? 10 2 4.5 !3!2 !3.4.5 !3!2 !5 !25!2 !5 2 5 2,5 C modos distintos; ou seja, S={1-2; 1-3; 1-4; 1-5; 2-3; 2-4; 2-5; 3-4; 3-5; 4-5} %0,10 10 1 )2. 1.( atleatlP %0,70 10 7 ) 2. 1.( ambosouatlouatlP 27 VARIÁVEL ALEATÓRA Variável aleatória (v.a.) é uma função que atribui um valor numérico para cada possível resultado de um experimento; ela pode ser discreta ou contínua. Para cada valor observado de uma variável aleatória está associada uma probabilidade. Com isso, têm-se as chamadas Distribuições de Probabilidades. Aqui se enfocarão duas delas: a Binomial e a Normal. DISTRIBUIÇÃO BINOMIAL A Distribuição Binomial é uma das distribuições de probabilidade mais largamente encontradas em estatísticas aplicadas. A distribuição é derivada de um processo conhecido como um ensaio de Bernoulli. Quando um ensaio único de algum processo ou experimento pode resultar em somente um de dois resultados mutuamente exclusivos, tal como homem ou mulher, peça defeituosa ou não, o ensaio é chamado de Bernoulli. Um dos possíveis resultados num ensaio de Bernoulli é denotado (arbitrariamente) como um sucesso, com probabilidade p de ocorrer; essa probabilidade permanece constante de ensaio para ensaio. O outro resultado possível é denotado como uma falha, com probabilidade 1 - p (ou q) de ocorrer. Além disso, os ensaios de Bernoulli são independentes, isto é, o resultado de qualquer ensaio particular não é afetado pelo resultado de qualquer outro ensaio. 28 Repetindo-se n vezes o ensaio de Bernoulli, tem-se a Distribuição Binomial. Então, a probabilidade de se obter exatamente x sucessos é dada pela expressão: , ... ,2 ,1 ,0 / nxpxnqxp x n xXP A Distribuição Binomial é aplicável em situações onde a amostra é proveniente de uma população infinita ou de uma população finita com reposição. Desde que, na prática, as amostras são usualmente retiradas sem reposição de populações finitas, a questão naturalmente surge com respeito à conveniência da Distribuição Binomial sob essas circunstâncias. É usualmente aceito que quando n (tamanho da amostra) é pequeno em relação a N (tamanho da população), o modelo binomial é apropriado. Segundo alguns autores tomados como referências, N deve ser, no mínimo, 10 vezes o tamanho de n. Exemplo: Suponha que 20% de uma certa população possuam computadores. Uma amostra aleatória de 10 pessoas é retirada dessa população. Assumindo que N é suficientemente grande relativo a n, qual é a probabilidade de: (a) encontrar exatamente 2 pessoas que possuam computadores? 8282 80,0 . 20,0 . !8!2 !10 80,0 . 20,0 . 2 10 )2(XPxnqxp x n xXP %20,303020,0)2(1678,0 . 0400,0 . 45)2( XPXP (b) encontrar exatamente 3 pessoas que possuam computadores? 7373 80,0 . 20,0 . !7!3 !10 80,0 . 20,0 . 3 10 )3(XPxnqxp x n xXP %13,202013,0)3(2097,0 . 0080,0 . 120)3( XPXP 29 (c) no máximo, 3 pessoas possuírem computadores? (*))3()2()1()0()3( XPXPXPXPXP 2684,0)0(1342,0 . 0000,2 . 1080,0 . 20,0 . 1 10 )1( 1074,0)0(80,080,0 . 20,0 . 0 10 )0( 91 10100 XPXP XPXP %91,878791,0)3(2013,03020,02684,01074,0)3( (*) XPXP (d) 4 ou mais pessoas possuírem computadores? %09,121209,0)4(8791,01)4()3(1)4(1)4( XPXPXPXPXP ou, de outra forma: 1098)7()6()5()4()4( XPXPXPXPXPXPXPXP 0000,00000,00001,00008,00055,00264,00881,04XP %09,121209,04 XP Obs.: Somando-se todas as possíveis probabilidades de sucesso o total é igual a um (1). 30 DISTRIBUIÇÃO NORMAL Distribuição Normal ou Distribuição Gaussiana é uma das mais importantes e uma das mais utilizadas distribuições de probabilidades. Muitas características mensuráveis presentes na natureza apresentam (ou ao menos se assemelham à) essa distribuição como, por exemplo, a altura humana, o comprimento de determinada peça, o Quociente de Inteligência (QI). Seja X uma v.a. com Distribuição Normal com média populacional (lê-se: mi) e desvio- padrão populacional (lê-se: sigma), isto é, X ~ N(; ). Então, ela apresenta a seguinte forma: FIGURA 8 - CURVA DA DISTRIBUIÇÃO NORMAL São características da Distribuição Normal: A variável aleatória pode assumir qualquer valor real; As áreas sob a curva podem ser entendidas como medidas de probabilidades, sendo que a área total vale 1 (ou 100%); O gráfico da Distribuição Normal é uma curva em forma de “sino” e simétrica em torno de ; portanto, valores maiores e menores que a média ocorrem com igual probabilidade. 31 Distribuição Normal Padrão Para se obter as probabilidades de uma v.a. que tenha Distribuição Normal é necessária a utilização de cálculos refinados e trabalhosos; uma alternativa seria a adoção de tabelas que apresentassem estes resultados. Como a Distribuição Normal depende dos valores que e assumem, deveriam existir tantas tabelas para os cálculos de probabilidades quanto o número de possibilidades destes valores, ou seja, infinitas. Por este motivo, foi criada a Distribuição Normal Padrão (também chamada de Distribuição Normal Reduzida), onde é igual a zero e igual a um; com isso, é utilizada uma única tabela. A figura a seguir representa a Distribuição Normal Padrão: FIGURA 9 - CURVA DA DISTRIBUIÇÃO NORMAL PADRÃO Obs.: Uma variável aleatória com Distribuição Normal Padrão é representada pela letra Z maiúscula, isto é, Z ~ N(0;1). A probabilidade de uma v.a. contínua assumir exatamente um determinado valor é igual a zero ( por exemplo, 0501 ),Z(P ); sempre se utilizará de intervalos (isto é, ou menor ou maior ou entre dois valores). 32 Cálculos de Probabilidades com a Tabela da Distribuição Normal Padrão Para cálculos de probabilidades com variáveis aleatórias que apresentam Distribuição Normal Padrão (ou seja, Z ~ N(0;1) ) utiliza-se, como dito anteriormente, a tabela correspondente. Esta tabela, dependendo da referênciaque é adotada, pode ser representada de formas diferentes, mas todas apresentam os mesmos resultados. Aqui se trabalhará com aquela que fornece as áreas sob a curva de valores inferiores a um determinado z (ANEXO 1). Exemplo: Encontre as seguintes probabilidades: 6844,048,048,0 ZPZP 9826,011,2 ZP 1020,027,1 ZP 1867,089,089,0 ZPZP ou 1867,08133,0189,0189,0 ZPZP 9608,076,176,1 ZPZP ou 9608,00392,0176,1176,1 ZPZP 0230,00009,00239,013,398,198,113,3 ZPZPZP 5432,01587,07019,000,153,053,000,1 ZPZPZP Transformação para a Distribuição Normal Padrão Já foram citados exemplos de v.a.’s que se distribuem de forma aproximadamente normal; mas elas, assim como a grande maioria, não possuem média igual a zero e desvio-padrão igual a um. Então, há a necessidade de transformá-las em v.a’s com Distribuição Normal Padrão, isto é, X ~ N(; ) Z ~ N(0;1) . Para isto, basta definir X Z Exemplo: Sabe-se que a distribuição de QI’s de uma certa população é Normal, com média 100 e desvio-padrão 16 (isto é, ~ N(100;16) ). Qual é a probabilidade que uma pessoa escolhida ao acaso deste grupo tenha QI acima de 120? E do QI estar entre 80 e 92? 1056,0)25,1(25,1 16 100120120 120 ZPZPZP X PXP 16 10092 16 100809280 9280 ZP X PXP 2029,01056,03085,025,150,050,025,1 ZPZPZP 33 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Inferência é o ramo da Estatística que procura fazer afirmações sobre características de uma população, baseando-se em resultados de uma amostra. Definições População é um conjunto de indivíduos que possuem pelo menos uma variável comum. Amostra é qualquer subconjunto da população. As amostras são utilizadas porque, em geral, se levaria muito tempo e seria muito caro se estudar toda a população. Além disso, se a população é muito grande, fica impossível estudá-la em sua totalidade (por exemplo, computadores existentes no Brasil). Em outras situações, ainda, onde as unidades de estudo são destruídas, só pode ser feita amostragem (por exemplo, vida útil de um tipo de componente eletrônico). A maneira de se obter uma amostra é muito importante e existem vários modos de fazê-la. Há os planos probabilísticos e os não-probabilísticos; ambos têm suas vantagens e desvantagens. A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida, baseando-se no resultado contido na própria amostra. O que irá ser visto aqui é o caso mais simples de amostragem probabilística: a amostragem aleatória simples. 34 Amostragem Aleatória Simples Se cada elemento da população tem a mesma probabilidade de pertencer à amostra, então esse processo é conhecido como amostragem aleatória simples. Para se fazer o sorteio de uma amostra aleatória, recomenda-se o uso de Tabelas de Números Aleatórios (ANEXO 2), que são coleções de dígitos construídos aleatoriamente e que simulam o processo de sorteio. Exemplo: Deseja-se selecionar uma amostra aleatória simples de 8 elementos (n = 8) de uma população com 700 pessoas (N = 700). Numera-se cada elemento da população: 001, 002, 003, ..., 698, 699, 700; Sorteia-se ou escolhe-se um local qualquer da Tabela de Números Aleatórios para o ponto de partida do processo (por exemplo, a décima segunda linha e a primeira coluna); Toma-se três algarismos em seqüência e em sentido pré-determinados (por exemplo, as três colunas consecutivas e, em seguida, desloca-se no sentido descendente), até ser atingido o tamanho da amostra; Considera-se somente os números contidos no intervalo de 001 a 700. Então, os números obtidos são: 436 296 551 086 685 432 314 792 971 497 Obs.: Nota-se que os números 792 e 971 não fazem parte da amostra. Caso se permita que os elementos pertencentes à população possam ser sorteados mais de uma vez, se terá a chamada amostragem aleatória simples com reposição; caso contrário, será chamada sem reposição, que é a preferida, na prática. Obs.: Faz pouca diferença a reposição ou não dos elementos quando o tamanho da amostra é “pequeno” em comparação com o tamanho da população, isto é, n <<N. 35 Cálculo do Tamanho da Amostra para a Proporção Aqui será utilizado o método mais simples para o cálculo do tamanho da amostra para a proporção, que não leva em consideração o tamanho da população. Com isso, a amostra ficará superestimada. Deve-se conhecer: a proporção de indivíduos com a característica de interesse na população p a proporção de indivíduos sem a característica de interesse na população q a diferença d entre a proporção amostral p e a proporção populacional p o nível de significância Então, o tamanho amostral será determinado por: 2 2 2 d q.p.z n / 645110 96015 0502 02502 ,zz%/p ,zz%/p ,/ ,/ Exemplo: Suponha-se que 70% dos usuários de uma marca de computadores estejam satisfeitos com o produto. Quantos usuários devem ser entrevistados de modo que a diferença entre a proporção amostral e a proporção populacional seja de, no máximo, 0,04 com probabilidade de 95%? E se a diferença entre essas proporções fosse de, no máximo, 0,03? 96,1 %5%951 04,0 30,0 70,0 2/ zdqp 2,504 )04,0( 30,0 . 70,0 .)96,1(.. 2 2 2 2 2/ d qpz n usuários 505n p/ d = 0,03, tem-se: 4,896 )03,0( 30,0 . 70,0 .)96,1(.. 2 2 2 2 2/ d qpz n usuários 897n 36 REFERÊNCIAS BIBLIOGRÁFICAS ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS. NBR 14724 - Informação e documentação: trabalhos acadêmicos: apresentação. Rio de Janeiro, 2002. BERQUÓ, E.S.; SOUZA, J.M.P.; GOTLIEB, S.L.D. - Bioestatística. São Paulo, EPU, 1981. 350p. BUSSAB, W.O. & MORETTIN, P.A. - Estatística básica. 5.ed. São Paulo, Editora Saraiva, 2006. 526p. DANIEL, W.W. - Biostatistics: a foundation for analysis in the health sciences. 6.ed. New York, John Wiley & Sons, Inc., 1995. 780p. FUNDAÇÃO INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. - Normas de Apresentação Tabular. 3.ed. Rio de Janeiro, 1993. GUEDES, M.L.S. & GUEDES, J.S. - Bioestatística para profissionais de saúde. Brasília, Ao Livro Técnico S.A., 1988. 201p. VIEIRA, S. - Introdução à bioestatística. 4.ed. Rio de Janeiro, Elsevier Editora Ltda., 2008. 345p. 37 ANEXO 1 38 ANEXO 2 Fonte: Guedes, M.L.S. & Guedes, J.S – Bioestatística para profissionais de saúde, 1988, pág. 40