Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise Estatística de Dados Profa. Josiane Rodrigues AULA 1 O que é Estatística? Estatística é um conjunto de técnicas que permite coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. O que é Estatística? Podemos dividir a Estatística em três áreas: Estatística Descritiva; Probabilidade; Inferência Estatística. Estatística Descritiva Conjunto de técnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusões a respeito das características de interesse. Probabilidade Teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório. Inferência Estatística Técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de um conjunto de dados de menor dimensão. Estudos complexos que envolvem o tratamento estatístico dos dados, usualmente, incluem as três áreas mencionadas. População e amostra Em Estatística, o grande conjunto de dados que contém a característica de interesse recebe o nome de população. Esse termos refere-se não somente a uma coleção de indivíduos, mas também ao alvo sobre o qual temos interesse: Todos os habitantes de Araras; Todas as lâmpadas produzidas por uma fábrica; O sangue no corpo de uma pessoa. População e amostra Nem sempre podemos acessar toda a população para estudarmos características de interesse: Razões econômicas; Tempo; Inviabilidade de acessar toda a população; Experimentos em laboratórios que envolvem o uso de seres vivos. População e amostra Dessa forma, é muito comum selecionarmos uma parte da população (amostra) para ser estudada. População e amostra A seleção da amostra pode ser feita de várias formas, dependendo, entre outros fatores, do grau de conhecimento que temos da população e da quantidade de recursos disponíveis, por exemplo. Tipos de amostragem: Amostragem simples; Amostragem estratificada; Amostragem sistemática. Amostragem simples Neste tipo de amostragem selecionamos, ao acaso, com ou sem reposição, os itens da população que irão compor a amostra. Amostragem estratificada Se numa cidade temos mais mulheres do que homens, podemos selecionar um certo número de indivíduos entre as mulheres e outro número entre os homens. Amostragem sistemática Neste tipo de amostragem selecionamos os indivíduos de forma pré-determinada, por exemplo de 8 em 8 ou de 10 em 10. Variável Cada uma das características observadas na população ou na amostra são chamadas de variáveis. Existem dois tipos de variáveis: as qualitativas e as quantitativas. Variável Qualitativa São aquelas que se baseiam em qualidades e não podem ser mensuradas. Variável Qualitativa Ordinal: são aquelas que podem ser colocadas em ordem. Exemplo: classe social (A, B, C, D, ou E). Variável Qualitativa Nominal: são aquelas que não podem ser hierarquizadas ou ordenadas. Exemplos: cor dos olhos, cor do cabelo. Variável Quantitativa São aquelas que são mensuráveis, ou seja, que seus possíveis valores podem ser numéricos ou de contagem. Variável Quantitativa Discreta: pode ser vista como resultante de um processo de contagem, assumindo assim valores inteiros. Exemplos: número de filhos, número de alunos numa escola. Variável Quantitativa Contínua: assume valores em intervalos dos números reais, e geralmente são provenientes de uma mensuração. Exemplos: peso, massa, altura, pressão sistólica, nível de açúcar no sangue. Organização dos dados Os dados iniciais obtidos na pesquisa, muitas vezes, por não terem grande organização, não fornecem muita informação sobre o objeto em estudo. Este conjunto de dados inicial é chamado de conjunto de dados brutos. Organização dos dados Exemplo: Uma amostra de 50 casais de uma cidade é avaliada quanto ao número de filhos. Organização dos dados A partir do conjunto de dados brutos é possível construir uma tabela com as informações resumidas, chamada tabela de frequências. Nesta tabela devem constar a frequência absoluta e a frequência relativa de cada um dos valores assumidos pela variável de interesse. Tabela de frequências A frequência absoluta (𝑛𝑖) de um valor é o número de vezes que uma determinada variável assume esse valor. A frequência relativa (𝑓𝑖) é a porcentagem relativa à frequência absoluta. Ao conjunto das frequências dos diferentes valores da variável dá-se o nome de distribuição de frequências. Tabela de frequências Distribuição de frequências – variável “número de filhos” Número de Filhos Frequência absoluta Frequência relativa 0 5 5 / 50 = 0,10 = 10% 1 7 7 / 50 = 0,14 = 14% 2 10 10 / 50 = 0,20 = 20% 3 11 11 / 50 = 0,22 = 22% 4 6 6 / 50 = 0,12 = 12% 5 4 4 / 50 = 0,08 = 8% 6 7 7 / 50 = 0,14 = 14% Total n = 50 1 = 100% Tabela de frequências Algumas vezes faz sentido incluirmos também uma coluna contendo as frequências acumuladas 𝑓𝑎𝑐. A frequência acumulada até um certo valor é obtida pela soma das frequências de todos os valores da variável, menores ou iguais ao valor considerado. Tabela de frequências Número de Filhos Frequência absoluta (𝒏𝒊) Frequência relativa (𝒇𝒊) Frequência acumulada (𝒇𝒂𝒄) 0 5 0,10 = 10% 0,10 = 10% 1 7 0,14 = 14% 0,24 = 24% 2 10 0,20 = 20% 0,44 = 44% 3 11 0,22 = 22% 0,66 = 66% 4 6 0,12 = 12% 0,78 = 78% 5 4 0,08 = 8% 0,86 = 86% 6 7 0,14 = 14% 1,00 = 100% Total n = 50 1 = 100% --- Organização dos dados Muitas vezes é inviável construir uma tabela de frequência como a da variável “número de filhos”, devido a grande variedade de valores obtidos para a variável de interesse. A alternativa utilizada consiste em construir classes ou faixas de valores e contar o número de ocorrência em cada faixa. Organização dos dados Exemplo: alturas, em cm, de 45 estudantes. Tabela de frequências Para construir a tabela de frequências: 1. Calculamos a diferença entre a maior e a menor altura registrada, obtendo a amplitude total (195 – 160 = 35); 2. Escolhemos o número de classes e determinamos a amplitude de cada uma. No nosso exemplo, vamos considerar 5 classes. Então, fazemos 35 : 5 = 7 cm; 3. Elaboramos a tabela de frequência. Tabela de frequências Distribuição de frequências – variável “altura” A LT U R A ( C M ) F R E Q U Ê N C I A A B S O LU TA ( 𝑛 𝑖 ) F R E Q U Ê N C I A R E L AT I VA ( 𝑓𝑖 ) F R E Q U Ê N C I A A C U M U L A DA ( 𝒇 𝒂𝒄 ) 160 ⊢ 167 9 9 / 45 = 0,20 = 20% 0,20 = 20% 167 ⊢174 11 11 / 45 = 0,24 = 24% 0,44 = 44% 174 ⊢ 181 7 7 / 45 = 0,16 = 16% 0,60 = 60% 181 ⊢ 188 6 6 / 45 = 0,13 = 13% 0,73 = 73% 188 ⊢⊣ 195 12 12 / 45 = 0,27 = 27% 1,00 = 100% Total n = 45 1 = 100% --- Gráficos A representação gráfica fornece uma visão de conjunto mais rápida que a observação direta dos dados numéricos. Gráficos Existem diversas formas de representação gráfica de um conjunto de dados, dentre elas as mais usuais são o gráfico de barras, o gráfico de setores e o histograma. Gráfico de barras O gráfico de barras utiliza o plano cartesiano com os valores da variável no eixo-x e as frequências absolutas representadas no eixo-y. Este tipo de gráfico se adapta bem às variáveis discretas ou qualitativas ordinais. 0 2 4 6 8 10 12 0 1 5 6 2 3 4 Frequência absoluta Histograma Quando uma variável tem seus valores indicados por classes, é comum o uso de um tipo de gráfico conhecido por histograma. O histograma consiste em retângulos contínuos com base nas faixas de valores da variável. A altura de cada retângulo é determinada pela frequência absoluta de cada uma das faixas. O histograma é muito utilizado para representar variáveis contínuas. Gráfico de setores O gráfico de setores se adapta muito bem às variáveis qualitativas nominais. Para representar os dados em umgráfico de setores é preciso que os valores estejam em porcentagem, e para isso devemos definir a frequência relativa dos dados observados. Gráfico de setores Exemplo: uma escola realizou uma pesquisa com seus 400 alunos sobre a preferência por modalidades esportivas. Esportes Frequência absoluta Frequência relativa Futebol 160 0,40 = 40% Vôlei 120 0,30 = 30% Basquete 60 0,15 = 15% Natação 40 0,10 = 10% Outros 20 0,05 = 5% Total n = 400 1 = 100% Esportes Frequência absoluta Frequência relativa Ângulo Futebol 160 0,40 = 40% 40 . 3,6 = 144° Vôlei 120 0,30 = 30% 30 . 3,6 = 108° Basquete 60 0,15 = 15% 15 . 3,6 = 54° Natação 40 0,10 = 10% 10 . 3,6 = 36° Outros 20 0,05 = 5% 5 . 3,6 = 18° Total n = 400 1 = 100% 100 . 3,6 = 360° Gráfico de setores Variável “esportes” Software R R é um software livre utilizado para a análise de dados. Por que utilizar o R? Software gratuito com código aberto com uma linguagem acessível; Expansão exponencial entre pesquisadores, engenheiros e estatísticos; Se reinventa constantemente por meio de novas aplicações (aproximadamente 11.200 pacotes); Cobertura inigualável, tecnologia de ponta; Totalmente flexível, permitindo desenvolver facilmente funções e pacotes para facilitar o trabalho; Capacidade gráfica; Disponível para diferentes plataformas: Windows, Linux e Mac. INSTALANDO O R... INSTALANDO O R... COMEÇANDO A USAR O R Um dos primeiros hábitos que você deve adquirir para trabalhar com o R é não digitar os comandos diretamente no R, e sim em um editor de texto Tinn-R O Tinn-R é um editor de texto para o sistema operacional Windows, muito bem integrado ao ambiente estatístico e computacional R, para o qual possui características de interface gráfica e ambiente de desenvolvimento integrado. Pode ser baixado gratuitamente. Na imagem anterior há duas janelas com o funcionamento e objetivos muito diferentes: a janela da parte superior apresenta um arquivo de texto puro que pode ser editado (script) – Tinn-R; a janela na parte inferior é o prompt do R, ou seja o programa propriamente dito. Essa janela recebe informações que são processadas pelo R e apresenta o resultado final desse processamento. USO INICIAL DO R: O R COMO CALCULADORA A forma de uso mais básica do R é usá-lo como calculadora. OPERADORES RELACIONAIS E LÓGICOS OBJETOS DO R: O QUE SÃO? vetores: uma sequência de valores numéricos ou de caracteres (letras, palavras). matrizes: coleção de vetores em linhas e colunas, todos os vetores dever ser do mesmo tipo (numérico ou de caracteres). dataframe: O mesmo que uma matriz, mas aceita vetores de tipos diferentes (numérico e caracteres). listas: conjunto de vetores, dataframes ou de matrizes. funções: as funções criadas para fazer diversos cálculos também são objetos do R. ALGUMAS FUNÇÕES... ATRIBUIÇÃO DE VALORES Vetor É uma estrutura de dados básica do R, que permite armazenar um conjunto de valores numéricos ou de caracteres sob um mesmo nome. Vamos criar um conjunto de dados de contém o número de espécies de aves (riqueza) coletadas em 10 locais. As riquezas são 22, 28, 37, 34, 13, 24, 39, 5, 33, 32. aves <- c(22,28,37,34,13,24,39,5,33,32) Vetor A letra c significa concatenar (colocar junto). Entenda como "agrupe os dados entre parênteses dentro do objeto que será criado", neste caso no objeto aves. Vetor Para ver os valores (o conteúdo de um objeto), basta digitar o nome do objeto na linha de comandos. aves A função length fornece o número de observações (n) dentro do objeto. length(aves) Vetores com caracteres Também podemos criar vetores que contêm letras ou palavras ao invés de números. Porém, as letras ou palavras devem vir entre aspas. letras <- c("a","b","c","d","e") palavras <- c("Manaus","Boa Vista","Belém","Brasília") OPERAÇÕES COM VETORES Podemos fazer diversas operações usando o objeto aves, criado anteriormente. max(aves) min(aves) sum(aves) aves^2 aves/10 mean(aves) MATRIZES 1 4 7 Como definir a matriz 2 5 8 no R? 3 6 9 OPERAÇÕES COM MATRIZES Data frame É uma tabela que permite armazenar diferentes tipos de dados (numéricos, caracteres). Data frame df <- data.frame( nome <- c(“João”,”Pedro”,”Amanda”,”Fabio”,”Fernanda”,”Gustavo”), altura <- c(1.80,1.77,1.71,1.65,1.66,1.63), sexo <- c(“M”,”M”,”F”,”M”,”F”,”M”)) df Listas Uma lista pode ser entendida como um vetor capaz de armazenar elementos com diferentes tipos de dados. Logo, uma mesma lista pode armazenar um vetor, um data frame e uma matriz, por exemplo. GRÁFICOS NO R GRÁFICO DE BARRAS No eixo vertical são construídas as barras que representam a variação de um fenômeno ou de um processo de acordo com sua intensidade. Essa intensidade é indicada pela altura da barra. No eixo horizontal especifica-se as categorias da variável. As barras devem sempre possuir a mesma largura e a distância entre elas deve ser constante. GRÁFICO DE BARRAS Para construir este tipo de gráfico no R, utilizaremos os dados da tabela abaixo, referente a matrícula de professores e alunos no município de Niterói (RJ), em 2009. GRÁFICO DE BARRAS O primeiro passo na construção do gráfico é ter os dados armazenados em objeto apropriado. No caso de gráfico de barras é necessário que os dados estejam armazenados em um vetor ou matriz. Vamos primeiramente construir um gráfico de barras referente a matrícula de professores: prof <- c(1751,1186,947,29) GRÁFICO DE BARRAS Em seguida devemos nomear as posições do vetor prof através do comando names(): names(prof) <- c("privada","estadual","municipal","federal") Uma vez nomeada as posições do vetor, basta fazer: barplot(prof) GRÁFICO DE BARRAS Como colocar título no gráfico? barplot(prof, main="Distribuição dos professores na cidade de Niterói, em 2009") GRÁFICO DE BARRAS Colocando nomes nos eixos x e y: barplot(prof, main="Distribuição dos professores na cidade de Niterói, em 2009", xlab="escolas", ylab="número de matrículas de professores") GRÁFICO DE BARRAS Acrescentando subtítulo citando a fonte: barplot(prof, main="Distribuição dos professores na cidade de Niterói, em 2009", xlab="escolas", ylab="número de matrículas de professores" sub="Fonte: IBGE") Gráfico de barras barplot(prof, main="Distribuição dos professores na cidade de Niterói, em 2009", xlab="escolas", ylab="número de matrículas de professores", sub="Fonte: IBGE", col=rainbow(4)) Gráfico de barras Alterando o limite do eixo-y: barplot(prof, main="Distribuição dos professores na cidade de Niterói, em 2009", xlab="escolas", ylab="número de matrículas de professores", sub="Fonte: IBGE", col=rainbow(4), ylim=c(0,2000)) GRÁFICO DE BARRAS Também podemos criar o gráfico de barras de duas variáveis, um ao lado do outro, na mesma janela gráfica. Para isso, vamos imaginar que os dados estejam armazenados em um objeto do tipo matriz, conforme comando a seguir. profalunos <-matrix(c(1751,1186,947,29,25280,21328,18432,280), nrow=4, ncol=2) GRÁFICO DE BARRAS Para colocarmos nome nas linhas e colunas da matriz, utilizamos o argumento dimnames. profalunos <- matrix(c(1751,1186,947,29,25280,21328,18432, 280), nrow=4, ncol=2, dimnames=list(c("privada", "estadual", "municipal", "federal"), c("professores", "alunos"))) barplot(profalunos) GRÁFICO DE BARRAS O default desse comando é colocar todas as categorias uma em cima da outra, acumulando os resultados. Às vezes, essa maneira não é a mais adequada para visualizar o que se deseja, então poderemos usar o seguinte argumento para obtermos barras lado a lado: barplot(profalunos, beside=TRUE) GRÁFICO DE BARRAS Para finalizarmos a apresentação do gráfico, adicionaremos legenda, título, nomes nos eixos e cores. barplot(profalunos, beside=TRUE, legend.text=rownames(profalunos), main="Distribuiçãode matrícula de professores e alunos do ensino fundamental em Niterói, 2009", ylab="n. de matrículas", xlab="matrícula", col=rainbow(4)) Gráfico de setor Os gráficos de setor (ou pizza) são representados por círculos divididos proporcionalmente de acordo com os dados do fenômeno ou do processo a ser representado. Os valores são expressos em números ou em percentuais (%). GRÁFICO DE SETOR Os dados da tabela ao lado são referentes a preferência por modalidade esportiva. Utilizaremos estes dados para fazer um gráfico de setor no R. ESPORTE NÚMERO DE PESSOAS Futebol 160 Vôlei 120 Basquete 60 Natação 40 Outros 20 Total 400 GRÁFICO DE SETOR O primeiro passo na construção do gráfico é ter os dados armazenados em objeto apropriado, nomeando cada posição do vetor. esporte <- c(160,120,60,40,20) names(esporte) <-c("futebol","vôlei","basquete","natação","outros") pie(esporte, main="Preferência por modalidades esportivas") GRÁFICO DE SETOR Transformando os números em porcentagens: porc <- esporte/400 porc porc <- c("40%","30%","15%","10%","5%") porc GRÁFICO DE SETOR Para colocar as porcentagens utilizamos o argumento labels. Aqui é necessário que se coloque uma legenda para que o leitor compreenda o gráfico. pie(esporte, main="Preferência por modalidades esportivas", label=porc, col=rainbow(5)) legend("topright",names(esporte),col = rainbow(5), pch=rep(20,5)) Histograma Para construir um histograma no R consideremos os dados referentes às alturas de 25 pessoas. altura = c(1.3, 1.33, 1.4, 1.42, 1.45, 1.5, 1.5, 1.52, 1.55, 1.56, 1.58, 1.6, 1.62, 1.64, 1.65, 1.67, 1.68, 1.68, 1.7, 1.72, 1.72, 1.74, 1.8, 1.83,1.85) Histograma Para construir o histograma referente aos dados usamos o comando: hist(altura) Histograma hist(altura, main="Histograma da variável altura", xlab="altura", ylab="frequência", col="green") Histograma Para alterar o número de faixas, basta acrescentar o argumento breaks=c(), que permite definir o limite de cada classe. hist(altura, breaks=c(1.3,1.45,1.6,1.75,1.9), main="Histograma da variável altura", xlab="altura", ylab="frequência", col="green") 40% 30% 15% 10% 5% Preferência por modalidades esportivas futebol vôlei basquete natação outros
Compartilhar