Baixe o app para aproveitar ainda mais
Prévia do material em texto
Leandro Vinhas de Paula Bioestatística Unidade 2 Distribuição normal de probabilidade e aplicações Livro didático digital Diretor Executivo DAVID LIRA STEPHEN BARROS Diretora Editorial ANDRÉA CÉSAR PEDROSA Projeto Gráfico MANUELA CÉSAR ARRUDA Autor LEANDRO VINHAS DE PAULA Desenvolvedor CAIO BENTO GOMES DOS SANTOS Olá! Meu nome é Leandro Vinhas de Paula, sou bacharel e licenciado em Educação Física (Faculdade de Educação Física e Fisioterapia – Universidade Federal de Uberlândia), mestre em Ciências do Esporte (Escola de Educação Física, Fisioterapia e Terapia Ocupacional – Universidade Federal de Minas Gerais – EEFFTO/UFMG) e especialista em Estatística Aplicada (Departamento de Estatística – Instituto de Ciências Exatas – ICEX/UFMG) com uma experiência técnico-profissional na área de educação física e esportes por mais de 10 anos em atividades de ensino, pesquisa e extensão na Universidade Federal de Ouro Preto e no meio privado. Atualmente sou doutorando na área de Biomecânica (EEFFTO - UFMG). Por isso fui convidado pela Editora Telesapiens a integrar seu elenco de autores independentes. Estou muito feliz em poder ajudar você nesta fase de muito estudo e trabalho. Conte comigo! Autor LEANDRO VINHAS DE PAULA INTRODUÇÃO: para o início do desenvolvimen- to de uma nova competência; DEFINIÇÃO: houver necessidade de se apresentar um novo conceito; NOTA: quando forem necessários obser- vações ou comple- mentações para o seu conhecimento; IMPORTANTE: as observações escritas tiveram que ser prioriza- das para você; EXPLICANDO MELHOR: algo precisa ser melhor explicado ou detalhado; VOCÊ SABIA? curiosidades e indagações lúdicas sobre o tema em estudo, se forem necessárias; SAIBA MAIS: textos, referências bibliográficas e links para aprofun- damento do seu conhecimento; REFLITA: se houver a neces- sidade de chamar a atenção sobre algo a ser refletido ou discutido sobre; ACESSE: se for preciso aces- sar um ou mais sites para fazer download, assistir vídeos, ler textos, ouvir podcast; RESUMINDO: quando for preciso se fazer um resumo acumulativo das últimas abordagens; ATIVIDADES: quando alguma ativi- dade de autoapren- dizagem for aplicada; TESTANDO: quando o desen- volvimento de uma competência for concluído e questões forem explicadas; Iconográficos Olá. Meu nome é Manuela César de Arruda. Sou a responsável pelo pro- jeto gráfico de seu material. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que: SUMÁRIO Introdução......................................................................................10 Competências................................................................................11 Essencial sobre o software estatístico “R”:.........................12 Instalação do software estatístico “R”: primeiros passos.................12 Conhecendo os objetos do R...................................................................18 Entendendo o que é uma distribuição normal de probabilidade................................................................................30 Aprendendo a utilizar a tabela “z”.........................................40 Aprendendo a tipificar respostas individuais....................43 Bibliografia.....................................................................................58 Bioestatística 9 UNIDADE 02 DISTRIBUIÇÃO NORMAL DE PROBABILIDADE E APLICAÇÕES Bioestatística10 Nesta unidade você será apresentado à distribuição normal de probabilidade, aprenderá a utilizar a tabela “z” e aprenderá a tipificar respostas individuais para uma determinada variável aleatória, serão apresentados exemplos práticos para que possa entender com aplicar estes conceitos. Então vamos lá! INTRODUÇÃO Bioestatística 11 Olá. Seja muito bem-vindo à Unidade 2. Nosso objetivo é auxiliar você no desenvolvimento das seguintes competências profissionais até o término desta etapa de estudos: 1. Essencial sobre o software estatístico “R” 2. Entendendo o que é uma distribuição normal de probabilidade 3. Aprendendo a utilizar a tabela “z” 4. Aprendendo a tipificar respostas individuais. Vamos começar? Está preparado? Então vamos ao trabalho! COMPETÊNCIAS Bioestatística12 Essencial sobre o software estatístico “R” Nesta unidade você iniciará a aprendizagem de um software livre de análise de estatística “R”, conceitos sobre a distribuição normal de probabilidade e a como é realizada a tipificação de respostas individuais, baseado nesta distribuição de probabilidade. Instalação do software estatístico “R”: primeiros passos. Para realizar o estudo desta unidade você deverá realizar instalar o software “R”, ele pode ser encontrado facilmente na internet. O site chamado de CRAN – “The Comprehensive R Archive Network”, disponibiliza o download do instalador (https://cran.r-project.org/). É importante que você esteja atento e escolha corretamente o arquivo, uma vez que existem versões para o Windows, MAC e Linux. Você deverá baixar o pacote adequado a você e executar o programa de instalação. Acima você verá a tela principal do software “R”. Como você pode observar, a primeira que irá aparecer na tela é a data e o número da versão do software selecionado, em seguida um cabeçalho explicando que não há nenhuma garantia para este software livre e alguns comandos importantes. Abaixo do cabeçalho, uma linha em branco com o símbolo “>” na margem esquerda aparecerá. Este símbolo é denominado chamado de alerta, como se fosse uma maneira do software dizer “E AGORA?” e é aonde digitaremos os comandos. Caso ao invés de “>” aparecer um “+” significa que o último comando digitado não está completo e será necessário digitar os caracteres que faltam. Caso tenha Bioestatística 13 errado o comando, pressione “ESC” e o chamado de alerta “>” reaparecerá. Figura 01: Interface do software “R”. Fonte: Autor. Um recurso importante é o de que o R armazena em sua memória os comandos executados. Assim, ao teclar a seta para cima, é possível recuperar o comando passado podendo corrigi-lo sem ter que digitá-lo todo novamente. O comando citation(), por exemplo, mostra como citar o software em seu trabalho escrito. Bioestatística14 Figura 02: Citação do software “R”. Fonte: Autor. Figura 02: Pedindo ajuda no software “R”. Fonte: Autor VOCÊ SABIA?: A utilização do R é feita basicamente através da criação de comandos sobre objetos (Ex.: Vetores, Fatores, Matrizes, Listas e Dataframes). A abordagem destes conceitos não é o objetivo desta unidade, para maiores informações sugerimos a você a obra de Crawley (2007). O domínio do software “R” tem sido amplamente valorizado no mercado de trabalho. Nós encorajamos você a conhecer essa ferramenta que agregará muita a sua formação. Bioestatística 15 Figura 03: Utilizando o comando example(). Fonte: Autor. Para pedir ajuda, a maneira mais simples de obter ajuda no R é clicar no botão “ajuda” na barra de ferramentas do RGUI ou acessar o site do CRAN. No entanto, se souber o nome da função sobre a qual quer a ajuda, pode-se digitar apenas um ponto de interrogação (?) na linha de comando seguido do nome da função. Assim, para obter ajuda a função read.table, basta digitar: Para ver um exemplo trabalhado basta utilizar o comando “example()” escrevendo o nome da função desejada entre os parênteses, como na figura 03. Uma boa maneira de ver a gama de opções que o “R” oferece é utilizando a função “demo()”. O pacote básico do software não contém algumas das bibliotecas que podem ser empregados por você. No entanto a instalação é bem simples. Basta estar conectado à internet e executar a linha de comandos “install.packages()”, que é a função para baixar as bibliotecas solicitadas. Após o comando, será questionado qual o espelho mais próximo e após responder, o restante é realizado automaticamente. Por exemplo, instale a biblioteca “MASS” utilizandoo comando Bioestatística16 abaixo, para se utilizar a biblioteca deve-se utilizar a linha de comando “library(MASS)”. Figura 04: Instalação de pacotes no software R: MASS. Fonte: Autor. Ao escrever funções e outras seções de linha de entrada, perceberá que é útil usar um editor de texto ao invés de executar tudo diretamente na linha de comando. O editor é acessado na barra de menu do “RGUI”. Ao clicar em “Arquivo>Novo script” o R abrirá uma janela intitulada “Untitled – R editor”, onde se pode digitar e editar os comandos. Assim quando for executar uma linha de comando ou um grupo de linhas, basta destacá-los e pressionar “CTRL + R”. As linhas são automaticamente transferidas para a janela de comando Bioestatística 17 Figura 05: Utilização do pacote MASS e comando de edição de dados(“fix()”). Fonte: Autor. e executadas. Ao pressionar “CTRL + S” o conteúdo do editor é salvado em um arquivo e será necessário selecionar o local e o nome. Ao nomear o arquivo é interessante acrescentar (.R) ao final do nome do arquivo para ficar no formato utilizado pelo R. Os dados podem ser editados no próprio R, com o comando “fix()”, após o banco de dados estar disponível, como por exemplo, utilizando a base de dados “bactéria” do pacote MASS: Algumas pessoas preferem editar o banco utilizando planilhas eletrônicas como excel e salvar no formato “.txt” (separado por tabulações) e depois importar os dados, ou importar diretamente do excel, após salvar o arquivo no formato “.csv” (separado por vírgulas). É importante destacar que o R importa dados em diversos formatos e de diferentes softwares. Há funções para importar dados diretamente de softwares como Minitab, S-PLUS, SPSS, SAS, Stata, etc. Ao atribuir um nome ao banco de dados ou a um objeto, esse ficará arquivado na memória do programa. O comando abaixo funciona como uma borracha na memória Bioestatística18 do R. Tudo que estava armazenado será apagado, evitando erros em análises subsequentes. Assim, ao iniciar uma nova análise, é indicado utilizar o comando “rm(list=ls())”. Conhecendo os objetos do R Como a utilização do R é feita através dos comandos sobre os objetos (Vetores, Fatores, Matrizes, Listas e Dataframes), se faz necessário conhecer o que caracteriza cada objeto, como cria-los e manuseá-los. Podemos definir um vetor como uma sequência de valores. A função “c()” é usada para criar um vetor a partir de seus argumentos. Como exemplo, vamos criar um vetor composto por uma sequência de números. No exemplo, definimos como x o vetor composto pelos números 21, 31, 51, 71 e 111. Os caracteres “<-” são utilizados para denominar que x “recebe” os valores contidos os valores contidos dentro da função “c()”. Ao digitar na linha de comando o nome do vetor e pressionar “enter”, o R exibirá os valores armazenados no vetor. Se for necessário adicionar mais informação em um vetor, basta criar um novo vetor (no exemplo denominaremos como y) utilizando o anterior como primeiro elemento, a seguir serão adicionados número primos à sequência. Há ainda outras formas de se gerar um vetor, por exemplo, para gerar uma sequência de números inteiros de 1 até 10. Se o vetor é muito longo e não cabe em uma linha, o R irá usar as linhas seguintes para continuar imprimindo o vetor. Abaixo, os comandos são testados: Bioestatística 19 Figura 05: Criação de vetores e geração de dados. Fonte: Autor. Fonte: Autor. Figura 06: Utilização dos comandos “seq()” e “rep()”. Adicionalmente, uma maneira mais geral de produzir sequências de valores é usando a função “seq()” que tem como argumentos o início, fim e passos da sequência. Como exemplo, serão criadas sequência com os números inteiros abaixo. Uma outra função útil para produzir vetores é a função “rep()” que retorna o primeiro argumento repetido o número de vezes indicado pelo segundo argumento. Para aprendê-los você deverá reproduzir tais comandos para entendê-los. Bioestatística20 Figura 07: Operações com vetores. Fonte: Autor. Para operações aritméticas simples envolvendo vetores são efetuadas entre cada um de seus elementos. No caso em que os vetores possuírem tamanhos diferentes, os elementos do menor vetor serão repetidos até atingir o tamanho do maior vetor. Na operação a seguir, o primeiro elemento do vetor x (1), foi somado ao primeiro do vetor y (1); o segundo elemento de x (2), somado ao segundo elemento de y (2); e assim por diante. Entretanto, se o comprimento do maior vetor não é um múltiplo do tamanho do menor vetor, o R vai processar o comando e emitir uma mensagem de alerta (“warning”). Os fatores constituem-se em outro tipo de objeto em que são usados para armazenar dados categóricos, como exemplo, suponha que se queira armazenar em um banco de dados a informação sobre o sexo dos indivíduos. Pode- se usar um código numérico como “0” para homens e “1” para mulheres ou pode – se na forma de caractere como “M” para masculino e “F” para feminino. Mas em ambos os casos deve-se usar a função “as.factor()”, onde os fatores são facilmente construídos a partir de vetores alfanuméricos. Bioestatística 21 Figura 08: Construção de fatores. Fonte: Autor. Note que os fatores são mostrados de forma semelhante, mas não idêntica aos vetores alfanuméricos. Os valores dos fatores são impressos sem aspas e os níveis do fator são também impressos. Além disto, os níveis de um fator podem ser facilmente modificados assinalando um novo vetor alfanumérico aos níveis do fator. Suponha que temos dados de altura de 4 homens e 3 mulheres. As alturas dos homens em centímetros são: 175, 184, 180, 182. As alturas das mulheres são: 176, 174, 169. Na figura 08 entramos com os dados e calculamos a média geral das alturas e, também, a média para cada sexo. Bioestatística22 Figura 08: Construção de fatores. Fonte: Autor. O software R é capaz de operar matrizes e existem várias formas de se criar uma matriz. Na figura 09, uma matriz composta por 3 colunas e 4 linhas composta pelos números de 1 a 12 foi construída, verifique que a matriz é preenchida ao longo das colunas. Para inverter este padrão deve-se adicionar o argumento “byrow=T”, para dizer que a matriz deve ser preenchida por linhas. Há outras funções que podem ser usadas para construir matrizes como “cbind” e “rbind” que aumentam ou criam matrizes adicionando colunas e linhas, respectivamente. Para acrescentarmos mais uma coluna, com os valores de 1 a 5 na matriz x, pode-se executar o comando “cbind()”. Para sabermos a Bioestatística 23 Figura 09: Resumo: Estatística descritivas. Fonte: Autor. dimensão sobre a matriz basta utilizar o comando “dim()”, que retorna um vetor com o número de linhas e colunas da matriz, nesta ordem. Adicionalmente, para transpor uma matriz, ou seja, trocar as linhas pelas colunas deve-se utilizar o comando “t()”, como se segue. Posso pedir um resumo das medidas descritivas básicas por colunas da matriz, com execução do comando “summary()”, por exemplo. Perceba que ele retorna o mínimo, primeiro quartil, mediana, média, terceiro quartil e o valor máximo, ou ainda o resumo de toda a matriz. As funções usuais operam em matrizes da mesma forma que operam com vetores, elemento por elemento. Portanto, multiplicar duas matrizes com um asterisco (*) terá o produto de cada elemento de uma matriz pelo elemento correspondente na outra matriz e não a multiplicação de matrizes usual, ao contrário de outros softwares. Para fazer a multiplicação de matrizes deve-se usar o símbolo %*%, como se segue. Porém, abaixo é evidenciado um erro na operação. Isto ocorre porque as dimensões das matrizes são diferentes. Da mesma maneira que extraímos partes de vetores utilizando colchetes, podem ser extraídas partes de uma matriz. Porém, isto é um pouco mais complicado, pois a matriz é um elemento que possui duas dimensões, enquanto vetores possuem apenas uma. Para extrair um único elemento da matriz deve ser usado colchetescom Bioestatística24 dois números separados por vírgula. O primeiro número indica o número da linha enquanto o segundo indica o número da coluna. Primeiramente é necessário definir uma matriz onde as colunas armazenam: índices 1 a 4, idade e sexo (“0”,”1”) de quatro pessoas. Figura 10: Operações com matrizes. Fonte: Autor. Bioestatística 25 Uma coisa comum durante análises é querer selecionar todas as linhas de uma matriz que obedecem a alguma condição definida pelas colunas. Por exemplo, agora queremos extrair todas as pessoas que têm mais que 50 anos. Podemos fazer isto com um único comando como este: Veja a seguir que este simples comando combina diversas operações de uma só vez. Pode-se inspecionar parte a parte do comando começando pela parte interna. Esta parte simplesmente selecionou a segunda coluna da matriz, que é um vetor. Em seguida utilizamos o comando abaixo para selecionar o vetor e verificar quais elementos são maiores que 50. O resultado será um vetor lógico com respostas “TRUE” (Correto) e “FALSE” (Falsa), e podemos também selecionar linhas para as quais a condição (Idade>50) for verdadeira (figura 11). Figura 11: Seleção de elementos de uma matriz. Fonte: Autor. Por fim, outro objeto que pode ser manipulado no R, as listas são empregadas para combinar diferentes objetos em um único. Estas podem ser vetores, matrizes, números e outros caracteres e até mesmo outras listas, conforme o exemplo da figura 12. As listas são construídas com a função “list()”. Os componentes da lista são introduzidos usando a forma usual (nome=arg) de atribuir argumentos em uma função. Bioestatística26 Ao digitar o nome de uma lista, cada componente é mostrado com seu nome e valor. Várias funções do R retornam seu resultado na forma de listas. Por exemplo, a função “t.test()” que realiza o teste t student, retorna um objeto que é uma lista. Cada elemento da lista pode ser acessado individualmente por seu nome antecedido pelo símbolo “$”. Figura 12: Listas. Fonte: Autor. Para realizar as análises, os dados são organizados em formato de quadros de dados (“dataframes”). Os dataframes são muito parecidos com matrizes, possuindo linhas e colunas e, portanto, tem duas dimensões. Entretanto, diferentemente das matrizes, cada coluna pode armazenar elementos de diferentes tipos, como exemplo, a primeira coluna pode ser numérica enquanto a segunda pode ser constituída de caracteres. Por isso se torna a melhor forma de se armazenar dados, onde cada linha corresponde a uma unidade, individuo ou pessoa, e cada coluna representa uma medida realizada em cada unidade. Bioestatística 27 Figura 13: Organização do quadro de dados (“dataframe”). Fonte: Autor. Para analisar seus dados corretamente, há a necessidade da montagem correta de um dataframe, na maioria dos casos são utilizadas planilhas para inserir e editar os dados. O principal aspecto na organização dos dados é o seguinte: todos os valores de uma mesma variável devem estar na mesma coluna. A maneira correta de organizar os dados seria com apenas duas colunas (uma coluna para a variável respostas e outra para os níveis do fator estudado). Nesse sentido, é mostrado como organizar um dataframe na figura 13. Bioestatística28 Após organizar os dados no excel, é necessário salvar o dataframe em um formato de arquivo que possa ser lido pelo R. A maneira mais simples é salvá-los como texto separado por tabulações, ou no formato “csv” separado por vírgulas. Este arquivo pode então ser lido no R diretamente como um dataframe, usando a função “read.table” ou “read. csv2”, respectivamente. Para facilitar o comando podemos mudar o diretório direto para a pasta que contém os arquivos com os bancos de dados, conforme a seguir (figura 14). Figura 13: Mudando o diretório no R. Fonte: Autor. Dentro da função read.table existem vários argumentos. Dentre os mais utilizados estão o “header”, no qual você vai informar se o dataframe possui ou não cabeçalho com as iniciais “T=True” (quando possuir) e “F=False” (quando não possuir). Caso não seja informado o programa utiliza como default “F”. O argumento “dec” é utilizado para informar como os números decimais estão identificados, se por pontos ou vírgulas. O default é o ponto, dessa forma se os dados numéricos estiverem separados por vírgula, deve-se utilizar dec=”,” para não ocorrer erro. Bioestatística 29 O argumento sep é utilizado para informar como os dados estão separados, o default da função read.table é sep=” ”, ou seja, a separação ocorre por espaço. Caso os dados estejam separados por vírgulas, devemos usar sep=”,”. Caso não opte por não mudar o diretório, deve-se informar nos comandos “read.table” ou “read.csv2”, o endereço do documento que irá importar conforme abaixo: Após aprender a importar um dataframe para o R é interessante conhecer algumas funções úteis para lidar com o banco de dados. Para se visualizar somente as primeiras linhas do dataframe geralmente utiliza-se o comando “head()”. Como são realizados diversos procedimentos, é conveniente utilizar o comando “attach()” para anexar o objeto ao caminho de procura. Dessa forma não se precisa concatenar o caractere $ entre o nome do dataframe e da variável que será utilizada. Bioestatística30 Entendendo o que é uma distribuição normal de probabilidade Após coletar alguns dados de uma determinada variável e apresentar aspectos da estatística descritiva, pode-se assumir um modelo de probabilidade, e com isso, estimar a probabilidade de ocorrência de cada resultado. Os testes estatísticos, assim como modelos lineares e outros campos da estatística se baseiam em distribuições de probabilidade para se tomar decisões sobre hipóteses e parâmetros. Sendo assim, faz se necessário um entendimento breve sobre esse assunto para avançarmos em nosso curso. Em um primeiro momento há a necessidade de definirmos alguns conceitos. A distribuição de probabilidade consiste da representação de um gráfico, tabela ou fórmula que dá a probabilidade para cada valor de um variável aleatória, que possui um valor numérico, determinado ao acaso para cada resultado obtido. Basicamente existem dois grupos de distribuições: (1) Discretas, formadas por variáveis de natureza discreta, tais como as distribuições binomial, geométrica e poisson; (2) contínuas, formadas por variáveis classificadas como contínuas, compreendidas pelas distribuições gama, qui- quadrado e normal. Nesta unidade, será tratado especificamente da distribuição normal de probabilidade, talvez a distribuições mais importantes para a estatística devido ao teorema central do limite. O teorema central do limite mostra que para qualquer que seja tipo de distribuição da variável de interesse, para grandes amostras, a distribuição de médias amostrais terá distribuição aproximadamente normal, tendendo a uma distribuição normal na medida em que o tamanho da amostra aumentar. Desta forma pode-se ter uma variável original com uma distribuição totalmente Bioestatística 31 diferente da normal, mas se tomarmos várias amostras grandes desta distribuição e então fizermos um histograma das médias amostrais, a forma se parecerá como uma curva normal. Se uma variável aleatória contínua possui uma distribuição com um histograma simétrico e em forma de “sino” e que também pode ser descrita pela seguinte equação (não se assuste!), pode se dizer que ela possui uma distribuição normal: 𝑓 𝑥 = 1 2𝜋𝜎2� 𝑒𝑥𝑝 − 1 2𝜎2 𝑥 − 𝜇 2 A distribuição normal possui dois parâmetros: a média e o desvio padrão. A notação para representar que uma determinada variável “x” possui distribuição normal de média (μ) = 20 e desvio padrão (σ) = 5 é x ~ N (20,5), ou seja, a variável “x” tende a uma média 20 e desvio padrão 5. Dessa forma, a curva da distribuição varia de acordo com sua média e desvio, observe o exemplo a seguir: Com o conhecimento da distribuição de probabilidade deuma determinada variável podemos saber a probabilidade de cada evento ocorrer, apenas realizando o procedimento matemático de integração da área da curva desejada. Porém, como esta prática não é muito simples, os estatísticos transformam uma curva qualquer normal, na famosa normal reduzida (ou também padronizada), N (0,1), ou seja, com média (μ) = 0 e desvio padrão (σ) = 1. Isso é feito com a padronização da variável no escore “z”, visto a seguir. É encontrado utilizando a seguinte expressão: 𝑧 = 𝑥𝑖 − 𝜇 𝑠 Bioestatística32 EXPLICANDO MELHOR: Vamos entender melhor a utilização desse escore com o seguinte exemplo. Entendendo que a variável altura como uma variável quantitativa contínua e que respeita uma distribuição normal de probabilidade, queremos comparar as alturas do ex - atleta Michael Jordan (198 cm) com a modelo Ana Hickmann (185 cm) em relação às populações de homens e mulheres. Qual dos dois são mais altos em relação ao seu sexo? Para responder melhor a essa pergunta, precisamos então padronizar aquelas alturas convertendo em escores “z” para então compará-los. Estima-se que a média da altura de homens é de 172,9 cm com um desvio padrão 5,8 e a das mulheres é de 160,7 com um desvio padrão de 4,8. A partir da equação para padronização do escore “z”, represente-a no software “R”. Note que para “declarar” uma variável você deverá usar qualquer nome do seu interesse (ex.: “Z_Jordan”) que representará o valor de “z” e os símbolos “<-“, conforme abaixo: Nota – se que o ex-jogador de basquetebol está a 4,33 desvios padrões da média da população do sexo masculino e Ana Hickmann a 5,06. Dessa forma, pode-se afirmar que Ana Hickmann é mais alta em relação a seu sexo do que Michael Jordan. Bioestatística 33 Vamos apresentar algumas funções do R importantes nesta etapa de operações com distribuições: dnorm() – calcula a densidade de probabilidade f(x) em um determinado ponto, ou seja, a probabilidade de ocorrência de um determinado valor; pnorm() – calcula a função de probabilidade f(x) acumulada em determinado ponto; qnorm() – calcula o quantil correspondente a uma dada probabilidade; rnorm() – retira uma amostra aleatória da distribuição. Vamos utilizar esses comandos na curva gerada acima N (20,5), você deverá digitar os comandos e teclar “enter”: O valor de 0,07 é a densidade de probabilidade no valor 20, na distribuição N(20,5). O valor de 0,158 é a probabilidade em um distribuição N(20,5) de aparecimento de valores menores que 15. Bioestatística34 O valor de probabilidade da ordem de 0,185 é a probabilidade do valor da variável estar entre 15 e 18. O comando acima significa que um valor menor que 29,79 tem probabilidade de 0,975 de ocorrer. Logo um valor maior do que 29,79 possui 0,025 de probabilidade de ocorrência. Adicionalmente, podemos simular valores de uma distribuição normal conforme a figura abaixo. Abaixo declaramos 4 variáveis (x1, x2, x3 e x4) e teclar “enter”, com média (μ) = 100 e desvio padrão (σ) = 8, para gerar quatro subconjuntos de 10, 100, 1.000 e 10.000 elementos amostrais. Bioestatística 35 Figura 14: Simulação de subconjuntos amostrais e histogramas de frequência. Fonte: Autor. Bioestatística36 Observe na figura 14, que na medida em que a amostra vai aumentando, os histogramas progressivamente apresentam um comportamento mais semelhante à curva normal apresentada, ou seja, o formato da distribuição de frequência acumuladas assemelha-se gradualmente a um formato de “sino”. Suponha que a altura em posição sentada de motoristas tem que ser considerada no projeto de um novo modelo de automóvel. Os homens têm alturas em posição sentada que são normalmente distribuídas, com média de 36 polegadas e desvio padrão de 1,4 polegadas. Os engenheiros forneceram projetos que podem acomodar homens com alturas em posição sentada de até 38,8 polegadas, mas homens mais altos não podem ser acomodados. Se selecionarmos um homem aleatoriamente, qual a probabilidade de que sua altura em posição seja menor que 38,8 polegadas? O projeto é possível de ser realizado? Com este comando, a probabilidade de ocorrência de um valor de altura sentado menor que 38,8 é de 0,9772. Para calcular a probabilidade de ocorrer um valor maior que 38,8, basta subtrair 1 do valor de probabilidade obtido acima e executar o seguinte comando e teclar “enter”: Em síntese, a execução desse projeto causará à empresa uma perda de aproximadamente 2,28% dos clientes do sexo masculino. Neste caso, a empresa deve Bioestatística 37 decidir se essa perda é aceitável para o projeto. É importante a familiarização com a distribuição normal reduzida, dessa forma vamos resolver o problema acima transformando os 38,8 em escore “z” e inferir através da distribuição normal reduzida. Então temos: Como era esperado, temos que o valor de probabilidade o valor obtido é o mesmo após a padronização. Após observar uma amostra de dados de uma determinada variável, podemos pensar assim, respeitando os rigores da amostragem pode-se supor uma distribuição que melhor se adequa aos dados. Obtendo-se a distribuição, pode-se inferir sobre a variável. Após a análise descritiva dos dados, aprendida na unidade anterior, faz se necessário a execução de alguns testes estatísticos para testar duas hipóteses de interesse. Para isso existem dois grandes grupos de testes clássicos de hipóteses: (1) paramétricos; e (2) não – paramétricos. Os paramétricos exigem o conhecimento da distribuição de probabilidade que os dados possuem. Porém, nesta unidade, o que irá separar os métodos paramétricos dos não – paramétricos é a suposição de normalidade dos dados, ou o pequeno número amostral, dessa forma é necessário testar a normalidade das variáveis de interesse. Sendo assim, é de suma importância conhecer algum teste estatístico capaz de inferir se a distribuição de probabilidade das variáveis a serem analisadas é normal. 𝑃 𝑋 > 38,8 = 𝑃 𝑋 > 38,8 − 36 1,4 = 𝑃 𝑍 > 2 Bioestatística38 A mais simples verificação de normalidade é através do “quantile – quantile plot” (abaixo). Abaixo, será apresentado o gráfico para que possamos verificar a suposição de normalidade: Figura 15: Suposição de normalidade: “Quantile – quantile plot”. Fonte: Autor. Bioestatística 39 Se amostra é normalmente distribuída, os pontos devem estar próximos da linha reta. Os desvios de normalidade aparecem como vários tipos de não- linearidade. As funções (comandos) utilizadas para isso são “qqnorm” e “qqline” (quantil-quantil). Basicamente, os quantis são separatrizes que dividem o intervalo de frequência de uma determinada amostra ou população. Ao observar a figura 15, a variável peso criada parece normalmente distribuída. Mas como existem alguns pontos que estão distantes da linha reta produzida é importante realizar algum teste de hipótese. Nesta unidade empregaremos o tradicional teste de hipótese para normalidade de “Shapiro-Wilk”. Para isso emprega-se o comando “shapiro.test()”, digite este comando e dentro dos parêntesis o nome da variável teclando “enter”: As hipóteses do teste de Shapiro são: H0: A variável peso possui uma distribuição normal; H1: A variável peso não possui uma distribuição normal; O valor de probabilidade (“p-value”) é a probabilidade de rejeitar H0 sendo ela verdadeira. Dessa forma o valor de probabilidade está nos informando que se rejeitarmos H0 a probabilidade de estarmos errados é de 0,9772. Na maioria das ciências o nível de significância, a ser abordado na unidade 3, é de 0,05, ou seja, para valores maiores que 0,05 NÃO rejeitamos H0. Portanto, como o valor de probabilidade obtido é maior que 0,05 não rejeitamos H0 e concluímos que a variável peso segue uma distribuição normal. Bioestatística40 Aprendendo a utilizar a tabela “z” Para calcularmos os valores de probabilidade corretamente e sem o concurso da operação de integração conforme já destacado, utilizamosa tabela de áreas sob a curva normal de uma variável padronizada “z”, caracterizada pela média (μ) = 0 e desvio padrão (σ) = 1. Esta tabela apresenta áreas compreendidas calculadas previamente entre o ponto central da distribuição, média 0, e qualquer valor de “z”. A primeira coluna contém valores inteiros e decimais da variável “z” e cada coluna seguinte, o seu valor centesimal. A normal reduzida é tabelada e assim pode se inferir sobre a probabilidade sem uso de computadores. O escore padronizado (“z”) é o número de desvios padrões acima ou abaixo da média que se situa um determinado valor. Veja a tabela a seguir. Bioestatística 41 Tabela 01: Curva normal reduzida (padronizada). Fonte:http://www.datalyzer.com.br/site/suporte/administrador/info/arquivos/ info73/73.html A tabela acima apresenta somente metade da área da curva normal padronizada, para determinarmos o valor de probabilidade correspondente entre o valor de z = 0 e o valor de z=1,96, basta localizar valor inteiro e decimal de “z” na primeira coluna (1,9) e o respectivo valor centesimal (0,06), no interior da tabela o valor encontrado que cruza a projeção entre a linha e a coluna localizadas, corresponde ao valor de probabilidade (P=0,4750). Considerando a Bioestatística42 simetria entre os dois lados da curva de distribuição normal, a diferença entre o valor da área da metade da curva (P=0,5) e o valor obtido acima é igual a 0,025. Temos então que a probabilidade de encontrarmos um valor acima de +1,96 é de 0,025 [P(Z>1,96) = 0,025]. Para encontrar o valor da variável padronizada “z”, basta realizar o procedimento inverso. A partir do valor de probabilidade na porção interna da tabela encontra-se os valores da variável “z”. Por exemplo, para o valor de 0,4418, encontramos os valores de 1,5 e 0,07, logo, z=1,57. Mas, e os valores de correspondentes à outra porção da curva normal padronizada? Os valores de probabilidade são exatamente iguais para os valores negativos, à esquerda, da variável “z”. Podemos observar que na distribuição da variável padronizada “z”, que para um determinado intervalo de respostas típicas de 95%, os valores limites correspondem a -1,96 (à esquerda) e +1,96 (à direita). Pois, se a área de z=0 a z=+1,96 é de 0,4750, e de z=0 a z=-1,96 também será de 0,4750, uma vez que as duas metades da curva normal padronizada são simétricas e sua área total é igual a 1. A partir destes valores é possível tipificar respostas individuais conhecendo os valores de média e desvio padrão para determinada variável resposta a partir da equação do escore “z” padronizado apresentada previamente. Porém, esta temática será melhor abordada com exemplos práticos na próxima subseção. Bioestatística 43 Aprendendo a tipificar respostas individuais Nesta subseção, trabalharemos com mais exemplos práticos para suplantar os conhecimentos teóricos obtidos. A determinação da área central de 95% sob a curva normal pode ser resolvida, conforme destacamos anteriormente, pelo procedimento de integração. Para tal necessitaríamos de definir a função matemática sob a qual se deseja calcular a área compreendida entre duas coordenadas quaisquer, proposta por Gauss, integrar esta função entre essas duas coordenadas: o valor obtido será a área percentual em relação a área percentual em relação a área total sob toda a função de -∞ a +∞, que corresponderia a 100%. Para um exemplo específico na agropecuária do peso ao abate de suínos (média de 90 kg e desvio padrão 12kg), se o valor de X1 for a média (90 kg) e o de X2 = 100 kg, a área relativa calculada pela integração corresponderia ao percentual da população ali contida. Para que X1 = 100 kg fosse o limite superior do intervalo de respostas individuais típicas, a área calculada deveria ser de 0,4750 (47,5%) porque a outra porção estaria simetricamente do outro lado da média, na verdade forneceria um percentual de 29,67%. Quando nossa variável for diferente de “z”, como identificar o intervalo de respostas típicas do peso de abate de suínos, com os valores de média e desvio padrão reportados? A relação 𝑧 = 𝑥𝑖 − 𝜇 𝑠 transforma qualquer variável biológica normalmente distribuída em distribuição padrão “z”. Como os valores de “z” que limitam o grupo de respostas típicas (95% da população) são -1,96 e 1,96, a relação para cálculo dos escores “z” nos fornecerá os mesmos limites para qualquer variável normal, ou seja: Bioestatística44 Onde 𝑥1 = 𝜇 − 1.96𝑠 será a menor resposta típica e 𝑥2 = 𝜇 + 1.96𝑠 será a maior resposta típica. O intervalo de 𝑥1 e 𝑥2 é denominado de intervalo de respostas típicas individuais, ou ainda, o intervalo de confiança que corresponde a 95% das observações dispersas em torno da média. Logo, o peso de abate de suínos será: Adicionalmente, considerando que 300 animais foram empregados para descrever a variável peso ao abate, 95% deles (285), estarão probabilisticamente no intervalo definido. O domínio do cálculo de probabilidade envolvendo a curva normal fundamenta a teoria estatística que permitirá a comparação de grupos experimentais, tema de nossa próxima unidade. A distribuição “z” entretanto possibilita algumas aplicações práticas onde a resposta individual é o alvo do usuário. Vejamos duas situações práticas abaixo. ±1.96 = 𝑥𝑖 − 𝜇 𝑠 = 𝑥𝑖 = 𝜇 ± 1.96𝑠 𝑖 = 1,2 … 𝑥1 = 90 ± 1.96 12 = 66,5𝑘𝑔 𝑎 113𝑘𝑔 Bioestatística 45 TESTANDO: Consideremos uma granja de aves caracterizada por uma produção média diária de 3000 ovos pesando em média 55 gramas e com desvio padrão de 12 gramas, vende seus produtos segundo os respectivos pesos. Uma panificadora deseja reservar diariamente 30 duzias de ovos industriais (com peso inferior a 38 gramas), por serem mais baratos, para a fabricação de pães e bolos. Será que a granja poderá atender este pedido? Se x = 38 gramas então seu valor correspondente em uma distribuição de “z” será 𝑧 = 38−55 12 = −1,412 ≈ −1,42. Na tabela “z” (tabela 1), a área entre -1,42 e 0 é de 0,422. Porém, a área de interesse de ovos industriais mais leves que 38 gramas, corresponde à área inferior à z=-1,42. Portanto, a probabilidade de encontrar ovos mais leves que 38g na granja será a diferença entre o valor de probabilidade da metade da curva normal (0,5) e o valor de “z” Z = -1,42 Bioestatística46 obtido. Em outras palavras: P(X≤38g) = 0,50 – 0,422 = 0,0778 ou 7,78% dos ovos. Uma vez que a granja produz 3000 ovos por dia, multiplicando 3000 vezes o valor de probabilidade de 0,0778, temos que 233,4 ovos serão de natureza industrial, ou seja, abaixo de 38 gramas. Neste sentido a granja não poderá fornecer o montante pedido de 300 ovos comerciais. Logo, a panificadora deverá encontrar mais fornecedores ou outro fornecedor para atender sua demanda. Bioestatística 47 TESTANDO: Vamos considerar ainda o exemplo do abatedouro de suínos. Caso este abatedouro se interessar por animais com peso mínimo de 90kg [P(X≥90kg)], qual a porcentagem de animais que estará apta para o abate quando a média do lote for de 95kg e o desvio padrão de 15kg? A área correspondente ao intervalo de “z” de -0,33 a 0 (ou de 90 a 95kg na distribuição original) é de 0,1293. Logo a probabilidade de encontrar animais com no mínimo 90kg naquele grupo é de 0,1293 + 0,5 = 0,6293 ou 62,93%. Z = -0,33 𝑧 = 90 − 95 15 = −0,333 Bioestatística48 Na experimentação em bioestatística, a utilização de desempenhos individuais será muito restrita. Os ensaios em sua maioria desejarão comparar médias de tratamentos e não tipificar possíveis respostas individuais. Assim sendo, nosso interesse passa a ser não como a maioria dos indivíduos podem responder a um tratamento, mas como a média de n indivíduos tratados igualmente pode variar de experimento para experimento. Isso significa que estaremos procurando um intervalo que englobe 95% de todas as médias possíveis de serem encontradas quandoutilizarmos n indivíduos sob um mesmo tratamento. Este será o intervalo de confiança da média, a ser estudado na próxima unidade. Nesta unidade você teve acesso a conceitos sobre a distribuição normal de probabilidade, uso da tabela “z”, como tipificar de respostas individuais e deu os primeiros passos na utilização do software “R”, revise seus conceitos e explore novas bibliografias! Agora é com você! Bioestatística 49 BIBLIOGRAFIA CRAWLEY, M.J. The R book. San Francisco: John Wiley & Sons. 942p. TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2011. 836p. SHAHBABA, B. Biostatistics with R. New York: Springer, 2012. 352p. SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na Área da Saúde: conceitos, metodologia, aplicações e prática computacional. Belo Horizonte: Coopmed, 2011. 520p. PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 2. ed. São Paulo: Pioneira Thompson Learning, 2004. 522p. ZAR, J.H. Biostatistical analysis. New Jersey: Prentice- Hall.1984. 718p.
Compartilhar