Prévia do material em texto
BIOESTATÍSTICA Juliane Silveira Freire da Silva Análise estatística utilizando o Excel Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: Descrever os dados estatísticos por meio de planilhas elaboradas no Excel. Construir tabelas e gráficos utilizando o Excel. Listar os testes estatísticos paramétricos e não paramétricos utilizando o Excel. Introdução É por meio de um levantamento de informações a respeito de determi- nados assuntos que os dados estatísticos são coletados. No entanto, o levantamento de dados estatísticos de forma isolada é de pouco uso. Desse modo, é importante que seja possível analisar e comparar esses dados, para se atingir uma totalidade de informações, o que pode ser feito por meio da ferramenta Excel, em que é possível unir o levantamento de dados com a sua análise. Neste capítulo, você aprenderá a como montar um banco de dados estatístico no Excel, como organizar os dados de forma correta para posteriores análises estatísticas, bem como construirá tabelas e gráficos com o auxílio do Excel e conhecerá os principais testes que podem ser realizados nesse software. Dados estatísticos Quando fazemos um levantamento de informações ou fazemos algum tipo de observação e anotamos esse resultado, estamos coletando dados estatísticos. Quando, por exemplo, preenchemos uma fi cha de avaliação de um novo aluno em uma academia, estamos coletando algumas informações sobre esse indiví- duo, e assim o fazemos a cada novo aluno que inicia a atividade. O conjunto dessas informações é o que chamamos de dados estatísticos. Mas, se deixarmos esses dados anotados nas fichas de cadastro, não ob- teremos toda a informação que esses dados podem nos fornecer. Precisamos, então, tabular esses dados e analisá-los com as demais fichas de outros alunos; caso isso não seja feito, teremos apenas fichas isoladas e não poderemos verificar alguma tendência e nem poderemos fazer comparações, como, por exemplo, analisar a evolução dos alunos dessa academia. Para construirmos um banco de dados, precisamos organizar as variáveis de forma que cada coluna da planilha seja uma variável, e cada linha dessa planilha seja uma unidade amostral ou populacional. Considere uma ficha contendo variáveis pertinentes à anamnese física e a algumas variáveis comportamentais para preenchimento de novos alunos dessa academia, considerando as variáveis quantitativas de idade, peso, altura e as variáveis qualitativas sexo, histórico de dores, doença diagnosticada pré- -existente. Observe, na Tabela 1, que as variáveis estão dispostas em cada uma das colunas, e cada linha contém as informações de um paciente. Na primeira linha, então, o aluno tem 32 anos, é do sexo masculino, tem 72 kg e 1,70 m, tem histórico de dores e não tem doença pré-existente. Idade Sexo Peso Altura Histórico de dores Doença 32 Masculino 72 170 Sim Não 18 Feminino 55 165 Sim Não 25 Feminino 60 155 Não Não 36 Feminino 65 160 Sim Não 40 Masculino 80 190 Não Não 44 Feminino 70 163 Não Diabetes 52 Feminino 81 157 Não Diabetes 19 Masculino 69 180 Não Asma 18 Masculino 79 185 Não Não 23 Masculino 78 180 Não Não Tabela 1. Dados das fichas (Continua) Análise estatística utilizando o Excel2 Os dados assim representados não nos fornecem muita informação ainda. Imagine se, em vez de termos esses poucos dados, tivéssemos uma planilha com 100 alunos: teríamos apenas um monte de números e palavra anotados e não conseguiríamos observar nenhuma tendência. Contudo, essa é a forma que os dados devem estar organizados para que possamos realizar as primeiras análises, as quais chamamos de análises descritivas. Segundo Callegari-Jacques (2007), a descrição das variáveis é imprescin- dível como um passo prévio para a adequada interpretação dos resultados de uma investigação, e a metodologia empregada faz parte da estatística descritiva. A análise descritiva é uma das divisões da estatística. Nessa fase de análise, é feito o primeiro resumo dos dados. A estatística descritiva, então, corresponde a coleta, organização, apresentação e resumo de dados (com diagramas e gráficos ou utilizando um valor numérico resumido) (DOANE; SEWARD, 2014). As estatísticas descritivas podem ser produzidas em forma de tabelas de distribuição de frequências, em forma de gráficos e em forma de resumos numéricos, como a média e o desvio-padrão. Para as variáveis quantitativas, podemos calcular as medidas de posição (média, moda e mediana) e as medidas de variabilidade (variância e desvio padrão) com o uso do Excel. Para isso, precisamos apenas do banco de dados, conforme a Tabela 1, para iniciarmos as análises. Idade Sexo Peso Altura Histórico de dores Doença 52 Masculino 90 182 Sim Pressão alta 31 Feminino 79 165 Não Não 37 Feminino 97 170 Sim Não 46 Masculino 95 180 Não Não 55 Feminino 69 155 Não Não 36 Feminino 55 165 Sim Diabetes 23 Masculino 60 175 Sim Não 25 Feminino 58 168 Sim Não 47 Feminino 68 157 Não Não Tabela 1. Dados das fichas (Continuação) 3Análise estatística utilizando o Excel No Excel, temos algumas funções já definidas. Clicando-se em fx, aparecem as funções classificadas por categorias, e clicando em estatís- tica, encontramos todas as funções dessa categoria. Dentro da categoria estatística, aprenderemos a utilizar as funções predefinidas pelo Excel para o cálculo da média, da mediana, da moda, da variância e do desvio padrão (Figura 1). Figura 1. Tela explicativa de funções do Excel. A média de uma amostra é definida pela soma de todos os elementos, dividida pela quantidade de elementos. Efetuamos esse cálculo facilmente no Excel: digitamos na célula de destino “=média(núm1, núm2....)”, ou então clicamos em fx e buscamos pela palavra média, de uma forma ou de outra (Figura 1). Após ter escolhido a função, basta selecionar os dados e clicar em enter. Sendo a mediana o valor central de um conjunto ordenado de valores, digitamos na célula de destino “=med(núm1, núm2,...)”, ou então clicamos em fx e buscamos pela palavra mediana, de uma forma ou de outra. Após ter escolhido a função, basta selecionar os dados e clicar em enter. Para a Análise estatística utilizando o Excel4 moda, que é o valor mais frequente da distribuição de dados, digitamos “=modo(núm1, núm2,...)”, selecionamos os dados e clicamos em enter. Para o cálculo do desvio-padrão, que mede a variabilidade dos dados, digitamos na célula de destino “=desvpad.a(núm1, núm2,...)”, ou então clicamos em fx e buscamos pela palavra desvio-padrão amostra, de uma forma ou de outra. Após ter escolhido a função, basta selecionar os dados e clicar em enter. É importante ressaltar que essa é a função para o cálculo do desvio-padrão de uma amostra. Figura 2. Tela explicativa cálculo de média. Tabelas e gráficos utilizando o Excel Para o primeiro resumo dos dados, podemos construir as tabelas de distribuição de frequências utilizando tabelas para dados categóricos, que são as tabelas de distribuição de frequências para variáveis qualitativas, como exemplifi cado na Tabela 2, a seguir. 5Análise estatística utilizando o Excel Sexo Frequência % Feminino 11 57,9 Masculino 8 42,1 Total 19 100,0 Tabela 2. Distruibuição de frequências para variáveis qualitativas A primeira coluna da tabela de distribuição de frequências é a variável estudada, a segunda coluna resulta da contagem que cada uma das respostas recebeu na amostra, a terceira coluna é o percentual, que pode ser calculado por regra de três. Temos também a tabela de distribuição de frequências por ponto, utilizada para as variáveis quantitativas discretas, como exemplificado na Tabela 3, a seguir. Número de dias que pratica atividade física Frequência % 1 6 10,3 2 8 13,8 3 13 22,4 4 12 20,7 5 10 17,2 6 7 12,1 7 2 3,4 Total 58 100,0 Tabela 3. Distruibuição de frequências para variáveis quantitativas discretas E, ainda, quando tivermos uma variável quantitativa contínua e, em algunscasos, as quantitativas discretas, é necessário que façamos a construção dessa tabela por intervalos de valores, como exemplificado na Tabela 4. Análise estatística utilizando o Excel6 Faixa de altura Frequência % 155|—160 4 21,1 160|—165 2 10,5 165|—170 4 21,1 170|—175 2 10,5 175|—180 1 5,3 180|—185 4 21,1 185|—|190 2 10,5 Total 19 100,0 Tabela 4. Distruibuição de frequências para variáveis quantitativas por intervalos de valores Nessa representação, o símbolo da barra na vertical ( | ) indica que o número está contido no intervalo onde a barra está presente ao seu lado. A|—B – A está contido e B não está. A—|B – A não está contido e B está contido. A—B – A e B não estão contidos. A|—|B – A e B estão contidos. Em todos os tipos de tabelas de distribuição de frequências simples, temos sempre, na primeira coluna, a variável, na segunda coluna, a contagem da fre- quência observada, e, na terceira coluna, o percentual. A tabela de distribuição de frequências por intervalos (também chamada de tabela de distribuição de frequências por classes) não é fornecida diretamente no Excel, pois antes pre- cisamos organizar os intervalos para, posteriormente, podermos fazer a tabela. A maneira mais rápida para montarmos as tabelas de distribuição de fre- quências por ponto e para dados categóricos é com o uso do recurso de tabelas dinâmicas do Excel. Na barra de ferramentas, clicamos na aba inserir e sele- cionamos tabela dinâmica (ver Figura 3). O Excel, então, pede para selecionar os dados, e selecionamos toda a planilha. Nesse momento, o Excel cria uma 7Análise estatística utilizando o Excel nova aba na sua planilha, onde podemos produzir todas as tabelas que forem interessantes de serem elaboradas. Com o recurso de tabelas dinâmicas podemos elaborar tabelas de distribui- ção de frequências simples, conforme as que foram apresentadas anteriormente, a tabela de dados categóricos e a tabela de distribuição de frequências por ponto. Além das tabelas simples, o recurso ainda permite que se façam tabelas cruzadas, como exemplificado na Tabela 5. Histórico de dores Sexo Não Sim Total Feminino 6 5,0 11 Masculino 5 3,0 8 Total 11 8 19 Tabela 5. Tabela cruzada Figura 3. Tela explicativa para inserção de tabela dinâmica. Análise estatística utilizando o Excel8 Com as tabelas dinâmicas, conseguimos construir nossas tabelas simples e cruzadas. Quando tivermos uma tabela de distribuição de frequências por intervalos, precisamos, primeiramente, construir os intervalos para, depois, podermos gerar a tabela. O recurso das tabelas dinâmicas nos permite também fazer médias segmentadas por sexo, por exemplo, assim como outros resumos numéricos segmentados. Depois de termos as tabelas de distribuição de frequências prontas, podemos construir gráficos para essas tabelas. As tabelas dinâmicas trazem muitos recursos, e você pode saber mais assistindo ao vídeo disponível no link a seguir. https://qrgo.page.link/6BX5m Agora, nosso enfoque serão os gráficos mais simples, que fazem parte da estatística descritiva, o primeiro resumo que fazemos com nosso banco de dados. Existe um grande número de gráficos disponíveis, mas, aqui, estuda- remos os gráficos básicos. Depois de termos as tabelas prontas, podemos construir os gráficos no Excel. Novamente, vamos na aba inserir e, dessa vez, inserimos gráficos (nessa janela temos vários gráficos disponíveis). Para a tabela de distribuição de frequências para dados categóricos, podemos utilizar gráficos de setores (pizza), gráficos de colunas e gráficos de barras. Em nosso exemplo para os dados da tabela da variável sexo, podemos obter o seguinte gráfico (Figura 4). 9Análise estatística utilizando o Excel Figura 4. Tela explicativa para inserção de gráficos. É importante saber que o gráfico de setores tem uso recomendado apenas para variáveis qualitativas. Para os dados da nossa tabela de distribuição de frequências por pontos, podemos elaborar gráficos de colunas ou de barras, como mostra a Figura 5. Análise estatística utilizando o Excel10 Figura 5. Tela explicativa para inserção de gráficos de colunas. O gráfico de colunas resultante ficaria conforme a Figura 6, depois de formatado. Figura 6. Gráfico de colunas. O gráfico correto para uma tabela de distribuição de frequências por intervalos é o histograma, que nada mais é do que um gráfico de colunas “grudadas”, sem nenhum espaço entre elas. Basta fazer um gráfico de 11Análise estatística utilizando o Excel colunas no Excel e clicar com o botão direito do mouse sobre as colunas, ir em formatar séries de dados e zerar o espaçamento entre as colunas (Figura 7). Figura 7. Histograma. Além desses gráficos, o Excel ainda nos fornece gráficos de linhas, para quando tivermos uma variável quantitativa que seja acompanhada em um período temporal. Utilizamos o diagrama de dispersão quando temos duas variáveis quantitativas e queremos verificar a correlação entre uma variável dependente e uma variável independente. Testes estatísticos paramétricos e não paramétricos utilizando o Excel Quando já temos o primeiro resumo dos nossos dados e temos as estatísticas descritivas dos dados, muitas vezes ainda queremos explorar a parte da esta- tística chamada de inferência estatística. Utilizamos a inferência estatística quando, com base em uma amostra, queremos inferir para toda a população. Isso é possível quando realizamos testes estatísticos. A inferência estatística refere-se a generalizar resultados de uma amostra para uma população, estimar parâmetros desconhecidos, chegar a conclusões e tomar decisões (DOANE; SEWARD, 2014). Análise estatística utilizando o Excel12 O Excel fornece alguns recursos para podermos efetuar testes estatísticos paramétricos e não paramétricos. Usamos testes paramétricos quando os dados seguem uma distribuição normal ou aproximadamente normal. Já os testes não paramétricos são utilizados quando os dados não seguem uma distribuição normal ou aproximadamente normal, ou simplesmente quando não conhecemos a distribuição que os dados seguem, ou, ainda, quando a variabilidade dos dados é alta demais. Os testes não paramétricos também são apropriados para quando estamos analisando variáveis qualitativas. Os testes paramétricos exigem suposições específicas sobre a população, ou populações, de onde provêm as amostras. Em muitos casos, devemos admitir que as populações tenham aproximadamente a forma de distribuição normal, que suas variâncias sejam conhecidas ou que se saiba que são iguais, ou que as amostras sejam independentes. Como há muitas situações em que é duvidoso se todas as suposições necessárias podem ser satisfeitas, os estatísticos elabo- raram procedimentos alternativos baseados em suposições menos restritivas, que passam a ser conhecidas como testes não paramétricos (FREUND, 2006). O Excel nos fornece os valores de estatísticas de teste de várias distribui- ções, bem como algumas probabilidades de distribuições conhecidas. Essas funções estão disponíveis em fx. Alguns exemplos são: DIST.F = retorna a distribuição de probabilidade F; DIST.NORMP.N = retorna a distribuição normal padrão; DIST.NORM.N = retorna a distribuição normal com média e desvio- -padrão especificados; DIST.QUIQUA.CD = retorna a probabilidade da cauda direita da dis- tribuição qui quadrado e informa a probabilidade da estatística de teste do qui quadrado; DIST.T = retorna a probabilidade da cauda esquerda da distribuição t-student. Podemos citar as distribuições F, t-student e distribuição normal como sendo distribuições utilizadas para testes paramétricos, e a distribuição qui quadrado para testes não paramétricos. Essas funções apresentadas e outras disponíveis no Excel entregam valores de probabilidades, e algumas revelam as probabilidades da estatística de teste, os conhecidos valores de p (p-value). Existe outro recurso no Excel que precisa ser habilitado, mas que nos fornece testes estatísticosparamétricos completos. É necessário habilitar as ferramentas de análises nos suplementos do Excel. 13Análise estatística utilizando o Excel Aprenda como habilitar o suplemento ferramentas de análise do Excel no link a seguir. https://qrgo.page.link/tprwr Habilitando as ferramentas de análise, temos disponíveis os testes para- métricos: ANOVA, que serve para testar mais de duas médias; testes z, para testar duas médias onde se conheça a variância populacional; testes t, para testar a média duas amostras; e teste t, para amostras pareadas e análise de regressão, que verifica a correlação entre duas variáveis. Um estudo sobre o QI de pessoas em idades entre 25 e 45 anos investigou, por meio de um teste de QI, uma amostra segmentada pelo nível de instrução. Verifique se os QIs são iguais para os três níveis de instrução investigados. As hipóteses formuladas são: hipótese nula de que não existe diferença do QI nos três níveis de instrução; hipótese alternativa de que existe diferença do QI em pelo menos um dos níveis de instrução. No Excel, iniciamos a análise depois de habilitar o suplemento ferramentas de análise: Análise estatística utilizando o Excel14 Como estamos testando a média do QI em mais de duas amostras (mais de dois tipos de formação), utilizamos o teste ANOVA. Os resultados obtidos são: Observando a análise apresentada, pode-se verificar que o valor-p é significativo, ou seja, inferior a 0,05 (nível de significância do teste de 5%). Sendo assim, podemos rejeitar a hipótese nula de que sempre será a hipótese de igualdade. Concluímos, então, que existe diferença da média do QI em pelo menos um dos níveis de formação, ao nível de significância de 5%. 15Análise estatística utilizando o Excel Como podemos perceber, o Excel é um grande aliado às análises estatísticas aplicadas à bioestatística. O Excel nos auxilia primariamente na obtenção de um banco de dados, para que possamos realizar as análises. Essas análises vão desde a estatística descritiva, fornecendo tabelas e gráficos para todos os tipos de variáveis, até medidas de posição (média, moda, mediana) e medidas de variabilidade (variância, desvio-padrão, amplitude) para variáveis numéricas, ou seja, variáveis qualitativas. Além da análise descritiva, podemos realizar testes paramétricos, como, por exemplo, a ANOVA, que compara mais de duas médias, o teste t, para comparar duas médias, e o teste t em par de médias, que testa duas médias comparadas antes e depois de um tratamento. CALLEGARI-JACQUES, S. M. Bioestatística. Porto Alegre: Artmed, 2007. DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. Porto Alegre: Bookman, 2014. FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, –2006. Leituras recomendadas LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005. SCHMULLER, J. Análise estatística com Excel: para leigos. 3. ed. Rio de Janeiro: Alta Books, 2018. Análise estatística utilizando o Excel16