Baixe o app para aproveitar ainda mais
Prévia do material em texto
Geovana Sanches - TXXIV Bioestatística Professora Márcia Magnani ESTATÍSTICA A estatística abrange métodos e procedimentos de coleta, classificação, descrição e análise de dados. A Análise Estatística pode ser dividida em duas grandes áreas: a estatística descritiva e a inferência estatística (ou estatística indutiva). A estatística descritiva faz a análise exploratória dos dados através de tabelas e gráficos, da média, moda, mediana, variância e desvio padrão. Ela faz um “retrato” do que está ocorrendo naquela situação. A inferência estatística faz afirmações sobre características de uma população, ou seja, nos permite fazer conclusões e generalizar resultados. VARIÁVEIS Na área da saúde coletam-se dados para serem utilizados em questões de interesse da área como eficiência de medicamentos, causas de mortes, incidência de doenças etc. Esses dados são chamados de variáveis, sendo uma variável tudo aquilo que pode ser questionado e há opções de resposta; cada variável vira uma pergunta para os formulários das pesquisas, ajudando-nos a responder o objetivo da mesma. As variáveis devem estar muito bem definidas, para não causar dúvidas a quem responderá a pergunta. As variáveis podem ser classificadas como qualitativas e quantitativas. Uma variável é qualitativa quando os dados podem ser distribuídos em categorias mutuamente exclusivas e pode ser subdividida em: (A) Qualitativa nominal: as opções são nomes e não há uma ordem nas respostas. Exemplos: sexo, cor, causa de morte, grupo sanguíneo, cor dos olhos. (B) Qualitativa ordinal: os dados podem ser distribuídos em categorias mutuamente exclusivas que têm ordenação natural, ou seja, as respostas apresentam uma ordem. Exemplos: grau de instrução (1º grau, 2º grau...), status social, aparência, estágio de doença. Uma variável é quantitativa quando é expressa por números e pode ser subdividida em: (A) Quantitativa discreta: só pode ser expressa por valores inteiros. Exemplos: números de filhos, número de cáries dentárias, número de irmãos. (B) Quantitativa contínua: pode ser expressa através de números fracionários. É necessário acrescentar a unidade de medida acompanhando a variável contínua. Exemplos: idade (anos), peso (g), altura (cm). POPULAÇÃO E AMOSTRA População é o conjunto de elementos que têm pelo menos uma característica em comum; elas podem ser finitas ou infinitas. Quando são coletadas informações de toda a população, dizemos que foi feito um recenseamento. Em alguns dicionários, recenseamento é considerado sinônimo de censo. Todavia, outros consideram o recenseamento como a coleta de dados e o censo como o resultado obtido a partir dessa coleta. Em muitas pesquisas não é necessário trabalhar com a população e, assim, utiliza-se apenas um subconjunto, a qual é denominado amostra. Amostra é, portanto, um subconjunto não vazio e com menor número de elementos do que a população. Quando são coletadas informações de apenas parte da população, foi feita uma amostragem. O pesquisador que trabalha com amostra sempre pretende fazer uma inferência, isto é, estender os resultados da amostra para toda a população. TÉCNICAS DE AMOSTRAGEM Técnica de amostragem é o procedimento usado para escolher os elementos que irão compor a amostra. Amostra casual simples (ou aleatória) é composta por elementos retirados ao acaso da população. É resultado de um sorteio. Na amostra sistemática os elementos são escolhidos não por acaso, mas por um sistema. Anteriormente, é selecionado um critério e a partir dele, vemos quais integrantes se encaixam. Cuidado: o pesquisador não pode conhecer a população nesse critério pois, caso contrário, há um viés, demonstrando desonestidade do mesmo à deixa de ser uma técnica de amostragem. A amostra estratificada é composta por elementos provenientes de todos os estratos da população. Para selecionar os participantes dentro de cada estrato são necessárias outras técnicas, como a casual simples ou sistemática. Exemplo: pesquisa de intenção de voto – o Estado é dividido entre as regiões e, de cada uma delas, são selecionadas uma amostra. A amostra de conveniência é formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles, ou seja, é uma amostra gerada de maneira conveniente para o pesquisador, uma facilidade para ele. Entretanto, vale ressaltar que o pesquisador tem que ter embasamento teórico para discutir o porquê dessa escolha, de forma que recomenda-se evitar essa técnica. Os dados coletados podem ser apresentados através de tabelas e gráficos. EXERCÍCIOS 1. Os prontuários dos pacientes de um hospital estão organizados em um arquivo, por ordem alfabética. Qual a maneira mais rápida de amostrar 1/3 do total de prontuários? Geovana Sanches - TXXIV Seleciona-se, para a amostra, um de cada três prontuários ordenados (por exemplo, o terceiro de cada três). 2. Um pesquisador tem dez gaiolas que contém, cada uma, seis ratos. Qual técnica de amostragem pode ser utilizada pelo pesquisador para selecionar dez ratos para uma amostra? A técnica de amostragem que pode ser utilizada nesse caso é de uma amostra estratificada, para que ratos de todas as gaiolas sejam utilizados. 3. Dada uma população de 4 pessoas, Antônio, Luís, Pedro e Carlos, quantas amostras casuais simples de tamanho 2 podem ser obtidas? Quais são essas amostras? Podem ser obtidas 6 amostras casuais simples de tamanho 2, sendo elas: Antônio e Luís; Antônio e Pedro; Antônio e Carlos; Luís e Pedro; Luís e Carlos; Pedro e Carlos. 4. Dada uma população de 8 elementos A, B, C, D, E, F, G e H, descreva três formas diferentes de obter uma amostra sistemática de 4 elementos. *** Pode-se escolher os elementos por ordem alfabética, alternando os elementos (A sim, B não, C sim...) ou escolher os primeiros considerando a ordem. 5. Dada uma população de 40 alunos, descreva uma forma de obter uma amostra casual simples de 6 alunos. Poderia escrever o nome de cada um dos 40 alunos em uma folha de papel e sortear 6 deles. 6. Dê dois exemplos de variável qualitativa. Etnia e Religião. 7. Dê dois exemplos de variável ordinal. Grau de escolaridade e estágios de um câncer. 8. Dê dois exemplos de variável quantitativa. Número de filhos e número de irmãos. 9. Se quisermos saber quantas pessoas fumam na cidade de São Paulo, como poderemos proceder? Podemos realizar uma amostragem da população a partir da amostra estratificada, considerando grupos de diferentes bairros da cidade. APURAÇÃO DE DADOS A apuração de dados refere-se ao processo no qual se conta o número de vezes que a variável assume um determinado valor (frequência de ocorrência), ou seja, é a contagem da amostra. Distribuição de frequência é a correspondência entre categorias (valores) e frequência de ocorrência. Pode ser expressa por valores pontuais (apuração pontual) e por intervalos de classe (apuração intervalar). Na apuração pontual sabemos exatamente qual a frequência, ou seja, quantas pessoas responderam a cada uma das variáveis. A vantagem é que sabemos exatamente quantas pessoas tem em cada uma das variáveis. Todavia, ela pode ficar muito extensa, dificultando a visualização dos resultados. Exemplo: número de irmãos. Número de irmãos Frequência 0 1 2 3 4 3 2 4 1 0 A apuração intervalar, por sua vez, é dada através de intervalos. Intervalo de classe é o conjunto de observações contidas entre dois valores limite (limite inferior e limite superior). Os intervalos de classe devem ser mutuamente exclusivos (um indivíduo não pode ser classificado em dois intervalos ao mesmo tempo) e exaustivos (nenhum indivíduo pode ficar sem classificação). A maior desvantagem da apuração intervalar é que não sabemos exatamente quantas pessoas fazem parte de cada variável. Entretanto, é muito útil quando existem muitasvariáveis. Exemplo: idade Idade (anos) Frequência 0 |– 10 10 |– 20 20 |– 30 30 |– 40 20 |– 50 7 8 3 5 15 Obs.: Notação à quando queremos que o número entre no intervalo devemos utilizar o símbolo |-|. Exemplo: intervalo de 0 a 10, incluindo os dois números é representado por 0|-|10. Com essa notação, não há dúvidas em que intervalo determinada variável será incluída. TABELA A tabela sempre deve conter um título. O título explica o que a tabela contém e responde as seguintes questões: o que (natureza do fato estudado), como (variáveis), onde e quando. Ao lermos o título, não devem restar dúvidas sobre o conteúdo da tabela. Sendo assim, a tabela é um ente independente. Além do título, ela é constituída pelo corpo, cabeçalho e coluna indicadora. O corpo é formado pelas linhas e colunas de dados. O cabeçalho especifica o conteúdo das colunas. A coluna indicadora, o conteúdo das linhas. As tabelas podem conter fonte, notas e chamadas. A fonte dá indicação da entidade ou do pesquisador que forneceu ou publicou os dados. As notas devem esclarecer aspectos relevantes do levantamento dos dados ou apuração. As chamadas dão esclarecimentos sobre os dados. Devem ser feitas através de algarismos arábicos escritos entre parênteses, e colocados a direita da coluna. Geovana Sanches - TXXIV Título: Distribuição em número e porcentagem da idade dos visitantes do Museu do Ipiranga, São Paulo, 15/08/2020. Idade (anos) Frequência absoluta Frequência relativa (%) 0 |- 10 10 |- 20 20|- 30 7 8 3 38,9 44,4 16,7 Total 18 100 Fonte: x Normas ABNT • As palavras, como frequência absoluta e frequência relativa não podem ser abreviadas. • Toda tabela deve ser limitada por traços horizontais. Podem ser feitos traços verticais para separar as colunas, mas não para delimitar a tabela. Ou seja, a tabela possui 3 linhas obrigatórias: as duas que determinam o cabeçalho e a última; não é permitido o fechamento lateral da tabela. • O título e a fonte (pesquisador responsável pelos dados coletados) são componentes obrigatórios. Quando a fonte não aparece na tabela, o responsável pelos dados é o próprio autor do trabalho. • Padronização de casas decimais: o autor é quem escolhe a quantidade de casas decimais, mas essa quantidade deve ser igual para todas as variáveis. • Regras de arredondamento: o arredondamento contém um erro e, sendo assim, temos que analisar qual o erro é menor. Por exemplo: 38,88 é mais próximo de 38,9 ou 38,8? Escolheremos, portanto, o 38,9. • Ao somarmos as frequências relativas, elas devem somar 100%. Esse valor não é acompanhado de nenhuma casa decimal. • Nenhuma casela deve ficar em branco. Usa-se – quando o valor numérico é nulo ou quando não se dispõe do dado; 0/ 0,0/ 0,00 quando o valor numérico é muito pequeno; ? quando há dúvidas quanto à exatidão da frequência. GRÁFICO O gráfico, assim como a tabela, é um ente independente e, sendo assim, deve conter um título e uma fonte com informações suficientes à interpretação do gráfico. O título pode ser colocado tanto acima como abaixo do gráfico. Outro componente é a escala, as quais devem crescer da esquerda para a direita e de baixo para cima. As legendas explicativas devem ser colocadas, de preferência, à direita do gráfico. Geralmente o gráfico é monocromático, mas isso dependerá do seu público e do foco das informações. Dependendo da variável trabalhada, diferentes gráficos são mais adequados. Gráfico de barras Utilizado para variável discreta, nominal e ordinal. Nesse tipo de gráfico as barras apresentam-se separadas uma das outras. É conveniente que as barras apresentem a mesma base. É denominado gráfico de coluna no excel. Setor circular É utilizado para variáveis qualitativas (nominal e ordinal). No excel é chamado de gráfico de pizza, mas esse nome não é adequado. Histograma O histograma é como um gráfico de barras grudadas uma na outra. É utilizado para variável contínua. Exceção: para a variável tempo (horas) ou série histórica, apesar de ser uma variável contínua, utilizamos o gráfico de linhas (diagrama linear). Normas Tabulares IBGE https://biblioteca.ibge.gov.br/visualizacao/livros/ liv23907.pdf EXERCÍCIO 1. O Centro de Saúde da área A, em 1999, fez uma pesquisa de campo, para conhecer a situação Geovana Sanches - TXXIV sanitária dos poços artesianos da área. Foram percorridos, então, os 100 domicílios com poços, da área A. Dos 100 domicílios, 30 estavam, na zona rural e os demais eram da zona urbana. Quanto à situação dos poços artesianos, 20 domicílios apresentaram poços contaminados e os demais domicílios apresentaram poços não contaminados. Sabendo que apenas cinco domicílios urbanos apresentaram poços contaminados, construa uma tabela completa para apresentar esses resultados. Título: Domicílios com poços artesanais contaminados e não contaminados, no centro de saúde da área A, 1999. Domicílios Poço contaminado Poço não contaminado Total Zona rural 15 15 30 Zona urbana 5 65 70 Total 20 80 100 Fonte: autor MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central são maneiras de resumir o conjunto de dados. São elas: média, moda e mediana. Podem ser consideradas medidas fracas, pois apesar de passarem alguma informação, restam muitas dúvidas. Apesar disso, são informações importantes e quando aparecem em conjunto podem permitir achar a amostra. Média Símbolo: Média aritmética: é obtida através da soma de todos os dados, dividido pelo tamanho da amostra. Médica ponderada: é calculada pela somatória das multiplicações entre valores e pesos, divididos pelo somatório dos pesos. A partir da média, não é possível identificar quantos números foram incluídos na amostra e qual a variação entre eles. Moda Símbolo: Mo A moda é o valor que ocorre com maior frequência na amostra. Sendo assim, caso todos os valores apareçam na mesma frequência ou apenas um valor apareça repetidamente, não existe moda e o conjunto é denominado amodal. Todavia, caso dois valores apareçam na mesma frequência e esta seja maior que a frequência dos demais valores, teremos duas modas. Exemplo 2 2 2 à não tem moda 2 2 3 3 à não tem moda 2 2 3 1 à Mo= 2 2 2 3 3 3 à Mo= 3 2 2 3 3 1 à Mo= 2 e 3 Mediana Símbolo: Md A mediana é o valor que ocupa a posição central do conjunto dos dados ordenados, ou seja, ela divide a amostra em duas partes: uma com números menores ou iguais à mediana, outra com números maiores ou iguais a mediana. Quando o número de dados é ímpar, existe um único valor na posição central e ele é a mediana. Todavia, quando o número de dados é par, existem dois valores na posição central. A mediana, nesse caso, é a média entre esses dois valores. Entre as três medidas, é a menos fraca, ou seja, passa uma informação mais consistente, tendo em vista que nos informa a faixa em que está 50% dos valores. É ainda a melhor medida de tendência em caso de conjuntos com dados discrepantes pois esses valores não afetam a grandeza da mediana. Exemplos • Amostra: 3 2 4 7 1 • Organizando: 1 2 3 4 7 • Md: 3 • Amostra: 1 2 3 4 • Md: 2+3/2= 2,5 MEDIDAS DE TENDÊNCIA CENTRAL EM INTERVALOS DE CLASSE Moda (mo) para intervalos de classe é a amplitude do intervalo modal à extremo superior menos o extremo inferior, independente do valor pertencer ao conjunto ou não. é o extremo inferior do intervalo modal é a diferença entre a frequência do intervalo modal e a frequência do intervalo anterior à utilizar a frequência absoluta para realizar a conta. é a diferença entre a frequência do intervalo modal e a frequência do intervalo posterior à utilizar aqui a frequência absoluta para realizar a conta. • Inicialmente, devemos identificar qual o intervalo que contém a moda. • Intervalo modal= intervalo que aparece com maiorfrequência; é o intervalo que contém a moda. x a infe aD pD Geovana Sanches - TXXIV • O valor da moda deve estar entre 50 e 55, pois esse é o intervalo modal Mediana (md) para intervalos de classe é o limite inferior real do intervalo que contém a mediana é a amplitude do intervalo que contém a mediana à subtração entre os dois extremos do intervalo, independente se o valor está contido no intervalo ou não. é o tamanho da amostra à a amostra tem 50 pessoas. é a frequência absoluta acumulada no intervalo anterior ao que contém a mediana à frequência acumulada será a soma de todas as frequências anteriores a da mediana, ou seja, 3 + 8= 11. é a frequência absoluta simples no intervalo que contém a mediana à frequência do intervalo que contém a mediana. • A mediana é o valor que ocupa posição central no conjunto de dados. Sendo assim, nesse caso, ela deve estar entre o 25º e 26º elementos. • Para encontrar o intervalo que contém a mediana utilizaremos a frequência absoluta acumulada, ou seja, no primeiro intervalo há 3 pessoas + 8 pessoas + 16 pessoas= 27 pessoas. Sendo assim, a mediana está contida no 3º intervalo (50 l- 50). • O resultado deve estar dentro do intervalo da mediana. Média ( ) para intervalos de classe é o número de intervalos de classe à são 7 intervalos de classe, então k=7. é a frequência absoluta do intervalo i é o ponto médio do intervalo i n é o número de elementos da amostra • Para iniciar a conta, devemos encontrar o ponto médio de cada um dos intervalos. Idade Frequência absoluta Ponto médio 40 l- 45 3 42,5 45 l- 50 8 47,5 50 l- 55 16 52,5 55 l- 60 12 57,5 60 l- 65 7 62,5 65 l- 70 3 67,5 70 l- 75 1 72,5 • Para fazer a média, somaremos os valores encontrados e dividiremos por 50, pois esse é o tamanho da amostra. • O i é o número do intervalo, então ele varia de acordo com o intervalo. Exemplo: intervalo 1 à i=1; intervalo 2 à i=2, ... Apesar de não sabermos a idade de nenhum dos participantes, essas três medidas são a melhor aproximação que poderemos chegar com os dados apresentados. MEDIDAS DE DISPERSÃO As medidas de dispersão dão força as medidas de tendência central. Elas medem a “lonjura” dos dados a partir da média e auxiliam no resumo dos dados encontrados nas variantes. As principais medidas de dispersão são: • Amplitude (a): é a diferença entre o maior e o menor número do conjunto. Quando a=0, todas as variáveis apresentam o mesmo valor. • Variância (S2): é utilizado para encontrar o desvio padrão. O cálculo será demonstrado a partir do exemplo abaixo. • Desvio Padrão (S): quanto em média o conjunto todo de valores se afasta da média do conjunto de dados. Quanto menor o desvio padrão, mais concentrados os dados estão; quanto maior, mais dispersos eles estão em relação a média do conjunto. • Coeficiente de Variação (C.V.): calculado a partir da divisão entre o desvio padrão e a média. • Quartil: refere-se a divisão do conjunto de dados por 4. LIRmd h n Fant fmd x k if , ix , ix Geovana Sanches - TXXIV Exemplo: Notas de 4 alunos em 4 provas Aluno Notas (x) a S2 S Antônio 5 5 5 5 5 0 0 0 Luís 3 4 7 6 5 4 3,3 1,81 Pedro 0 5 5 10 5 10 16,66 4,08 Lucas 0 10 0 10 5 10 33,3 5,77 Luís x (x- ) (x- )2 3 (3-5)= -2 (-2)2= 4 4 (4-5)= -1 (-1)2= 1 7 (7-5)=2 (2)2= 4 6 (6-5)=1 (1)2= 1 = 5 Σ (x- )= 0 Σ (x- )2= 10 • (x- ): desvios dos dados em relação a média. A partir da somatória entre esses valores, obrigatoriamente encontraremos 0. A fim de alterar isso, calcularemos o quadrado dos desvios em relação a média e a sua somatória. • Σ (x- )2/n-1: é a variância, sendo n o número de elementos da amostra. o Para Luís, 10/4-1= 10/3= 3,33. • Ao encontrarmos a variância, a medida está ao quadrado. Por isso, devemos fazer a raiz quadrada desse valor. A raiz quadrada positiva da variância é o desvio padrão. o Para Luís, S=1,81 Antonio x (x- ) (x- )2 5 0 0 5 0 0 5 0 0 5 0 0 = 5 Σ (x- )= 0 Σ (x- )2= 0 Pedro x (x- ) (x- )2 0 (0-5)= -5 (-5)2= 25 5 (5-5)= 0 (0)2= 0 5 (5-5)= 0 (0)2= 0 10 (10-5)= 5 (5)2= 25 = 5 Σ (x- )= 0 Σ (x- )2= 50 • S2= 50/4-1= 50/3= 16,66 • S= 4,07 Lucas x (x- ) (x- )2 0 (0-5)= -5 (-5)2= 25 10 (10-5)= 5 (5)2= 25 0 (0-5)= -5 (-5)2= 25 10 (10-5)=5 (5)2= 25 = 5 Σ (x- )= 0 Σ (x- )2= 100 • S2= 100/4-1= 100/3= 33,3 • S= 5,77 Há outra fórmula para o cálculo da variância, cuja raiz quadrada também nos apresentará o desvio padrão. Exemplo: Pedro x x2 0 (0)2= 0 5 (5)2= 25 5 (5)2= 25 10 (10)2= 100 Σx = 20 Σ (x)2= 150 Σx2 = 400 à S2= 16,6 e S=4,07 Coeficiente de Variação (C.V.) O coeficiente de variação é uma das medidas mais utilizadas, principalmente quando trabalhamos com grupos que possuem unidades de medidas diferentes à a unidade de medida some ao calcularmos o C.V. Normalmente, trabalha-se o coeficiente de variação em porcentagem (C.V. %), multiplicando a divisão anterior por 100. • CV Antonio= 0/5 x 100= 0 • CV Luis = 1,81/5 x 100 = 0,36 x 100= 36% • CV Pedro= 4,07/5 x 100= 0,81 x 100= 81% • CV Lucas= 5,77/5 x 100= 1,15 x 100= 115% o A maior dispersão está nas notas do Lucas Quartil Quando fazemos o quartil de uma amostra, ela é dividida entre: o 1º quartil: ¼ da amostra o 2º quartil: ½ da amostra (mediana) o 3º quartil: ¾ da amostra o 4º quartil: fim da amostra Uma das medidas importantes que envolve o quartil é a Distância inter-quartílica. Essa distância é x x x x x x x x x x x x x x x x x x x x x x x Geovana Sanches - TXXIV calculada a partir de Q3-Q1. Isso é importante pois entre o 1º e o 3º quartil temos 50% dos elementos. Exemplo 2 3 4 6 7 l 8 9 10 12 13 • Mediana ou 2º quartil: 7,5 à 50% dos dados estão abaixo de 7,5 e 50% dos dados estão acima de 7,5. • Q1= 4 e Q3= 10 Percentil O percentil é obtido quando a amostra é dividida em 100 partes. à Percentil 50: é igual ao 2º quartil, tendo em vista que se refere a metade da amostra. à Percentil 25: refere-se ao 1º quartil à Percentil 75: refere-se ao 3º quartil Box Plot O box plot é um diagrama de cinco pontos, criado a partir das medidas mínima e máxima da amostra, associado aos quartils. Por exemplo: 2 3 4 6 7 l 8 9 10 12 13 Mínimo= 2 Q1= 4 Q2= 7,5 Q3= 10 Máximo= 13 NOÇÕES DE CORRELAÇÃO As noções de correlação indicam qual o grau de correlação entre duas variáveis, ou seja, o quanto elas “andam juntas”. Diagrama de dispersão O diagrama de dispersão é um gráfico que demonstra a relação entre duas variáveis numéricas. Ele deve ser feito através dos seguintes passos: 1. Traçar um sistema de eixos cartesianos, representando cada variável em um eixo. 2. Estabelecer as escalas de maneira a dar ao diagrama o aspecto de um quadrado. 3. Escrever os nomes das variáveis nos respectivos eixos e fazer, posteriormente, as graduações. 4. Desenhar um ponto para representar cada par de valores das variáveis. A correlação entre as variáveis pode ser positiva, quando as duas crescem no mesmo sentido (diretamente proporcional) ou pode ser negativa, quando as elas variam em sentidos opostos (inversamente proporcional). Quanto menor for a dispersão dos pontos, maios será a correlação entre as variáveis. Pode acontecer da variação de uma variável não estar relacionada com a outra. Nesses casos, o diagrama de dispersão mostra que X cresce e Y varia ao acaso. Assim, dizemos que a correlação entre as variáveis é nula ou que não existe correlação entre elas. A correlação não necessariamente é linear, como a apresentada no exemplo a seguir. É importante saber que correlação não implica causa. Uma correlação positiva entre duas variáveis mostra que essas variáveis crescem no mesmo sentido, mas não indica que aumentos sucessivos em uma delas causam aumentos sucessivos na outra variável. Damesma forma, uma correlação negativa mostra apenas que as duas variáveis variam em sentidos contrários, mas não indica que acréscimos em uma delas causam descréscimos na outra. Coeficiente de correlação de Pearson (r) O coeficiente de correlação de Pearson, representado pela letra “r” mede o grau de correlação linear entre duas variáveis numéricas. A fórmula não funciona com correlações não lineares e, sendo assim, é importante que se faça inicialmente o diagrama de dispersão, o qual deve apresentar-se em torno de uma linha reta para que possamos utilizar o coeficiente de Pearson. O coeficiente de correlação varia entre -1 e +1, sendo que quanto mais próximo de 0, mais fraca é a correlação entre as variáveis e quanto mais próximo de 1 ou -1, mais forte é essa correlação. O sinal no número 1 diz respeito apenas se as variáveis são diretamente ou inversamente proporcionais. Exemplo: r1= -0,8 e r2=0,2 à a correlação entre as primeiras variáveis analisadas (r1) é mais forte que a correlação entra as segundas. Entendendo a fórmula Σxy = somatória de x multiplicado por y Σ (x) = somatória de todos os valores de x Σ (y) = somatória de todos os valores de y • A porção debaixo da fórmula refere-se as variâncias de x e y. X Y 2 3 3 4 4 5 5 2 6 1 0 1 2 3 4 5 6 0 5 10 Diagrama de dispersão Geovana Sanches - TXXIV Exemplo X Y 1 3 2 3,5 3 4 4 5 Para facilitar a aplicação da fórmula, indica-se que os dados necessários sejam organizados em uma tabela inicialmente: X Y XY X2 Y2 1 3 3 1 9 2 3,5 7 4 12,25 3 4 12 9 16 4 5 20 16 25 Somatória (Σ) 10 15,5 42 30 62,25 Com r=0,98, temos que as duas variações apresentam uma correlação muito forte, quase perfeita, o que significa que elas crescem concomitantemente. Exercícios forms 1. Faça os diagramas de dispersão e calcule os valores de r para os conjuntos de dados da tabela a seguir. 2. O diagrama de dispersão apresentado abaixo representa uma correlação? Forte! REGRESSÃO LINEAR Ao avaliamos duas variáveis em um diagrama de dispersão, caso os pontos fiquem dispersos em torno de uma reta, é razoável traçar uma reta no meio desses pontos. A reta que melhor aproxima os pontos do experimento, com as propriedades estatísticas desejáveis, recebe o nome de reta de regressão; ela não precisa passar por nenhum dos pontos apresentados. Na matemática, é referida como método dos mínimos quadrados. Isso é importante pois, ao fazermos um experimento, as vezes é necessário identificar qual o valor esperado para um determinado X e, como não podemos replicar o experimento, é possível fazer a reta de regressão e estimar o valor para a variável em questão. Um cuidado é ser tomado é o modo de variação da variável estudada. Por exemplo, se fizermos a correlação entre os meses do ano e a temperatura no Brasil, uma estimativa é possível apenas até julho, tendo em vista que após esse mês, as temperaturas começam a subir e não há mais uma linearidade. Caso fizéssemos a correlação mesmo assim, encontraríamos temperaturas negativas ao final do ano, o que não é uma realidade. Fórmulas 𝒂 = 𝒀$ − 𝒃𝑿$ 𝒃 = 𝚺𝑿𝒀 − (𝚺𝐗)(𝚺𝐘)𝒏 𝚺𝑿𝟐 − (𝚺𝐗) 𝟐 𝒏 𝒚0 = 𝒂 + 𝒃𝒙0 Para a primeira fórmula, devemos encontrar as médias de X e Y. Para a segunda, efetuar todas as somatórias e inseri-las corretamente. O n representa o número de pares ordenados que estão sendo trabalhados. Exemplo Para os valores apresentados, quando x=3, qual é o y esperado? X Y XY X2 1 2 4 5 3 4 6 8 3 8 24 40 1 4 16 25 0 2 4 6 0 2 4 6 Geovana Sanches - TXXIV 1. Fazer o diagrama de dispersão desses números. 2. Calcular o b e o a 𝒃 = 𝟕𝟓 − (𝟏𝟐)(𝟐𝟏)𝟒 𝟒𝟔 − 𝟏𝟒𝟒𝟒 𝑏 = "#$%& '%$&% = () (* =1,2 𝒂 = 𝒀$ − 𝒃𝑿$ 𝑎 = 5,25 − 1,2 𝑥 3 = 1,65 3. Resolvendo o exercício 𝒚0 = 𝟏, 𝟔𝟓 + 𝟏, 𝟐𝒙0 𝑦C = 1,65 + 1,2 𝑥 3 𝑦C = 5,25 Observação Caso os valores de X e Y sejam trocados, a reta de regressão mudará. Entretanto, o coeficiente de correlação de Pearson permanecerá o mesmo. Coeficiente de determinação O coeficiente de determinação é indicado por R2 e mede a contribuição de uma variável na previsão de outra, ou seja, é a proporção da variação de Y explicada pela variação de X. Ele é dado pelo quadrado do coeficiente de correlação, não podendo, portanto, ser negativo; varia entre 0 e 1. Para interpretar o resultado, é melhor transformá-lo em porcentagem, multiplicando o resultado obtido em seu cálculo por 100. Exemplo: ao comprar uma camiseta para uma criança, a vendedora costuma perguntar qual a idade da mesma. Isso pois, o tamanho de uma criança é função da idade e, portanto, saber a idade dela ajuda na previsão do tamanho de sua camiseta. DISTRIBUIÇÃO NORMAL Teoria da probabilidade Na teoria da probabilidade, identificamos todas as possibilidades temos e quantas vezes o valor de cada uma delas aparece na amostra. A partir disso, encontramos a probabilidade de algo ocorrer, ou seja, analisamos um evento futuro. Caso queiramos inserir em um gráfico a distribuição das probabilidades, inserimos em um eixo as possibilidades (espaço amostral) e, no outro, a probabilidade de ocorrência de cada um deles. Isso nos dá a base do gráfico que será estudado na aula de hoje, o qual nos trás como a probabilidade de todos os eventos possíveis está distribuída. Gauss Muitas distribuições de frequência têm a aparência de uma distribuição teórica denominada distribuição normal ou distribuição de Gauss. Nenhuma distribuição empírica, no entanto, tem todas as características da distribuição normal, mas o fato de pressupor que uma variável tem distribuição normal permite resolver muitos problemas em estatística. Um exemplo prático está na variável altura. Considerando 1,65m como a média das alturas numa dada população, caso fossemos às ruas, a probabilidade de encontrar uma pessoa com essa altura é maior do que a de encontrar pessoas com alturas superiores ou inferiores a essa, ou seja, ao deslocar a variável para as laterais, identifica-se uma diminuição progressiva da probabilidade. Isso forma a curva em sino, denominada curva de Gauss ou Gaussiana, como a representada na imagem acima. Características da distribuição normal Algumas características da distribuição normal são bem conhecidas: • Média, moda e mediana coincidem e estão no centro da distribuição (ponto mais alto da curva). • O gráfico tem aspecto típico: curva em sino, simétrica em torno da média. • Sendo a curva simétrica em relação a média, 50% dos valores são iguais ou maiores do que a média e 50% dos valores são iguais ou menores do que a média. A distribuição normal fica definida quando são dados dois parâmetros: a média e o desvio padrão. Tendo em vista que deixamos de trabalhar com amostras para trabalhar com uma população, a notação é alterada. Média Desvio Padrão Amostra �̅� S População μ ς A notação N(μ, ς) representa a curva normal, qual a média e qual o desvio padrão, sendo que o último corresponde a distância dos valores até a média. A grande vantagem de pressupor que uma variável tem distribuição normal é o fato de ser 0 2 4 6 8 10 0 2 4 6 Diagrama de Dispersão Geovana Sanches - TXXIV possível calcular as probabilidades relacionadas a essa variável, as quais são dadas pelas áreas sob a curva (área abaixo da curva). Com isso, torna-se possível identificar a probabilidade de uma variável estar entre a média mais um desvio padrão (μ + ς) ou entre a média menos um desvio padrão (μ - ς). Teoricamente, para cada um deles temos 34,13% de probabilidade, de forma que se somarmos as porcentagens, temos nesse intervalo a probabilidade de 68,26%. Da mesma forma, temos que 13,59% da área sob a curva está entre a média mais dois desvios padrões (μ + 2ς), assim como a média menos dois desviospadrões (μ - 2ς). Somando-se, entre esse intervalo, incluímos 95,44% da amostra. Vale ressaltar que esses dados pressupõem valores obtidos na distribuição normal e, na prática, encontramos distribuições aproximadamente normais. Sendo assim, os resultados são aproximações. Apesar disso, essa curva auxilia muito na tomada de decisão, quando acompanhados de outras análises. Ao realizarmos exercícios, diversos valores são utilizados e é necessário que encontremos a área sob a curva utilizando-os. Para tal, podemos calcular a integral da curva, o que não é fácil. Para facilitar, temos uma a tabela da distribuição normal reduzida (tabela Z), a qual apresenta a distribuição normal de média zero e variância 1 (ou seja, vai de 1 a -1). Sendo assim, a maior dificuldade para nós é ajustar os intervalos de leitura para encontrar os valores na tabela. A variável que tem distribuição normal reduzida é chamada de variável reduzida ou padronizada e é indicada pela letra Z. 𝑍𝑐 = 𝑋𝑐 − µ ς Ao definirmos o valor de Zc (z crítico), o que é realizado a partir da fórmula demonstrada acima, identificaremos na tabela qual o seu valor correspondente. Para tal, identificamos os primeiros dois dígitos na primeira coluna vertical e o outro dígito nas colunas horizontais. Para facilitar o entendimento, os conceitos serão exemplificados a partir de um exercício. Exercício 1 A quantidade de colesterol em 100ml de plasma sanguíneo humano apresenta uma distribuição normal com média 200mg e desvio padrão de 20mg. Notação: N(200; 20). a) Probabilidade de alguém apresentar entre 200 e 225? Nesse exercício, queremos identificar P(200 < x < 225). Para isso, devemos inicialmente construir a curva de Gauss e encontrar o Zc para x=225. Tendo em vista que 200 é a média, já temos que o seu valor na distribuição reduzida é 0. 𝑍𝑐 = 𝑋𝑐 − µ ς 𝑍𝑐 = 225 − 200 20 Zc= 1,25 Com os valores identificados, temos que P (200 < x < 225) = P (0 < z < 1,25). Agora, basta identificarmos na tabela abaixo qual a probabilidade correspondente. Para esses valores temos P=0,3944= 39,44% b) P (200 < x < 220) Para realizarmos esse exercício, a mesma lógica deve ser seguida. Inicialmente faz-se a curva de Gauss e, posteriormente a distribuição normal reduzida, encontrando o valor de Zc a partir da fórmula. 𝑍𝑐 = ))*$ 20020 = 1 Identificamos que o valor é igual a 1. Isso pois, quando trabalhamos com a distribuição normal reduzida, vemos na realidade qual é a distância do valor que queremos até a média, em relação ao desvio padrão. No exercício, do 200 ao 220, temos 20 unidades de distância, a qual corresponde a 1 desvio padrão. Na tabela, para 1,00, temos = 0,3413, então a P(0 < z < 1)= P (200 < x < 220) = 34,13% Geovana Sanches - TXXIV c) P (180 < x < 220) Para realizarmos esse exercício, a mesma lógica deve ser seguida. Inicialmente faz-se a curva de Gauss e, posteriormente a distribuição normal reduzida, encontrando o valor de Zc a partir da fórmula. Entretanto, agora temos dois valores a serem encontrados, ou seja, teremos 2 Zc. Realizando as contas, o Zc de 180 é negativo (= -1) e o valor de Zc de 220= 1. Isso pois, temos aqui a média menos o desvio padrão e a média mais o desvio padrão, ou seja, queremos P ( -1 < z < 1). Sabendo disso, identificaremos na tabela os valores, mas nela não há números negativos. Assim, devemos lembrar que a curva é simétrica em relação a área, de forma que a área entre 0 e 1 é igual a área entre 0 e -1. Assim, para finalizar, faremos: P( -1 < z < 0 ) + P( 0 < z < 1)= 0,3413 + 0,3413= 0,6826= 68,26% d) P (x > 230) É necessário fazer inicialmente a curva de Gauus, seguida da distribuição normal reduzida, encontrando o valor de Zc a partir da fórmula. 𝑍𝑐 = )&*$ 20020 = 1,5 Sendo assim, P (x > 230)=P (z > 1,5). A partir disso, teremos que interpretar a tabela, mas há um problema: a tabela trabalha apenas com intervalos. Quando existe essa “cauda”, devemos calcular P (z > 0), a qual sabemos que é de 50% e subtrair a probabilidade entre o intervalo de 0 ao valor que queremos. No exercício, portanto, teremos que P (z > 1,5)= P (z > 0) – p (0 < z < 1,5) = 50% - 43,32% = 6,68%. Caso seja necessário trabalhar com uma cauda negativa, podemos espelhar o resultado para o lado positivo e efetuar as contas da mesma maneira. e) P (210 < x < 240) Como em todos os outros casos, devemos inicialmente fazer a curva de Gauss e a distribuição normal, encontrando os dois Z críticos. 𝑍𝑐1 = )(*$ 20020 =0,5 𝑍𝑐2 = )'*$ 200 20 = 2 A partir disso, temos que P (210 < x < 240)= P (0,5 < z < 2). Nesse caso, todavia, ambos os valores se encontram acima da média (200) e novamente a temos um problema com a tabela, pois, ela nos dá apenas o intervalo entre 0 e algum outro valor. Para resolver, utilizaremos a mesma lógica do exercício anterior: utilizaremos o intervalo entre 0 e 2, subtraindo o intervalo entre 0 e 0,5. A partir disso, encontraremos o intervalo entre 0,5 e 2. Voltando ao exercício, P (210 < x < 240)= P (0,5 < z < 2)= P (0 < z < 2) – P (0 < z < 0,5)= 47,72% - 19,15%= 28,57%. Exercício 2 As notas de bioestatística de um determinado curso ocorrem segundo uma distribuição N(7,0; 1,6). a) Calcular a probabilidade de um aluno tirar no mínimo 7. Lembrando que 7 é a média e dos conceitos da distribuição normal, 50% dos alunos possuem nota igual ou superior a 7, assim como 50% dos alunos possuem nota igual ou inferior a 7. b) Calcular a probabilidade de um aluno tirar no máximo 7. Lembrando que 7 é a média e dos conceitos da distribuição normal, 50% dos alunos possuem nota igual ou superior a 7, assim como 50% dos alunos possuem nota igual ou inferior a 7. c) Calcular a probabilidade de um aluno tirar entre 7,0 e 8,6. Nesse caso temos o valor da média mais um desvio padrão. Sendo assim, ao identificarmos o valor na tabela temos a probabilidade de 34,13%. d) Calcular a probabilidade de um aluno tirar no mínimo 8,2. Ø P (x > 8,2) Ø 𝑍𝑐 = ,,)$ 71,6 =0,75 Ø P (x > 8,2)= P(z > 0,75)= P (z > 0) – P (0 < z < 0,75)= 50% - 27,34%= 22,66% e) Calcular a probabilidade de um aluno tirar no mínimo 4. Ø P (x > 4) Ø 𝑍𝑐 = '$ 71,6 = -1,87 Ø P (x > 4)= P (z > -1,87)= P (- 1,87 < z < 0) + P (z > 0)= 46,93% + 50%= 96,93% Exercício 3 Supondo que a distribuição etária, para uma determinada população com 100.000 habitantes, é uma variável aleatória normalmente distribuída com média 40 anos e desvio padrão de 10 anos, calcular quantas pessoas têm idade acima de 50 anos. 1. N (40,0; 10,0) 2. P (x > 50) 3. 𝑍𝑐 = #*$ 4010 =1 4. P (x > 50)= P (z > 1)= P (z > 0) – P (0 < z <1)= 50% - 34,13% = 15,87% 5. 15,87% de 100.000 habitantes = 15.870 indivíduos.
Compartilhar