Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inserir Título Aqui Inserir Título Aqui Estatística Aplicada a Análise de Dados Estatística Descritiva e Medidas Responsável pelo Conteúdo: Profa. Dra. Marise de Barros Miranda Gomes Revisão Textual: Profa. Dra. Selma Aparecida Cesarin Nesta unidade, trabalharemos os seguintes tópicos: • Introdução ao Tema • Leitura Obrigatória • Material Complementar Fonte: iStock/Getty Im ages Objetivos Compreender as principais técnicas da Estatística, com relação às medidas de posição e dispersão e suas aplicações para descrever os conjuntos de dados. Os principais temas abordados são: • Introdução à Estatística aplicada à análise de dados: população, amostra, organização e técnicas de descrição. Tipos de variáveis: numéricas e categóricas; • Medidas de posição: média, moda, mediana, frequência e limites; • Medidas de dispersão: máximo, mínimo, amplitude, quartis, variância e desvio padrão; • Exemplos e aplicações das medidas para análise de dados. Caro Aluno(a)! Normalmente, com a correria do dia a dia, não nos organizamos e deixamos para o último momento o acesso ao estudo, o que implicará o não aprofundamento no material trabalhado ou, ainda, a perda dos prazos para o lançamento das atividades solicitadas. Assim, organize seus estudos de maneira que entrem na sua rotina. Por exemplo, você poderá escolher um dia ao longo da semana ou um determinado horário todos ou alguns dias e determinar como o seu “momento do estudo”. No material de cada Unidade, há videoaulas e leituras indicadas, assim como sugestões de materiais complementares, elementos didáticos que ampliarão sua interpretação e auxiliarão o pleno entendimento dos temas abordados. Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discussão, pois estes ajudarão a verificar o quanto você absorveu do conteúdo, além de propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e aprendizagem. Bons Estudos! Estatística Descritiva e Medidas UNIDADE Estatística Descritiva e Medidas Introdução ao Tema A Estatística é a Ciência Matemática que possibilita a obtenção de informações re- levantes das massas ou do conjunto de dados, hoje, muito mais aplicável com o auxílio computacional e com a grande quantidade de ferramentas estatísticas. Além disso, a Estatística também é utilizada para simular tendências, comportamen- tos e realizar previsões. As Bases de Dados, a Estatística e a Inteligência Artificial for- mam um tripé que alicerça a busca pelo conhecimento relevante e não trivial de grandes volumes de dados, armazenados em diferentes formatos e locais. A busca por informações relevantes em grandes conjuntos de dados não é uma tarefa fácil. Preliminarmente, é preciso ter a clara necessidade da busca, de uma pergunta que precisa ser respondida por uma ou mais respostas. Depois, é preciso reconhecer quais conjuntos de dados podem representar respostas úteis. E este é o desafio, no qual o au- xílio de uma ferramenta computacional ajuda a encontrar respostas úteis em “analitycs” de Big Data. Introdução à Estatística Aplicada à Análise de Dados A aplicação de uma técnica Estatística a um conjunto de dados representa um modelo típico para tal conjunto. Em outro momento, pode ser que esse modelo já não seja mais válido, isto quer dizer, o modelo não se adapta a uma determinada mudança. Esse é um bom motivo para esclarecer a necessidade de utilizar modelos estatísticos. Primeiramente, há a necessidade de realizar a coleta ou a extração do conjunto de dados que pode representar respostas ou possíveis soluções. Para determinado conjunto de dados, uma ou mais soluções estatísticas podem ser aplicadas. Dependendo do volume do conjunto de dados que se quer analisar, a aplicação de técnicas Estatísticas pode requerer muito tempo. Por esse motivo, são criados modelos e testados em pequenos grupos do conjunto de dados, com o auxílio de ferramentas estatísticas computacionais. Testar ou simular modelos é uma prática muito eficiente na aferição ou na acreditação de uma solução estatística. Os modelos podem ser considerados para representar a realidade amostrada em estudo, destacando aspectos relevantes e desprezando detalhes insignificantes. De maneira geral, a técnica estatística auxilia na sumarização, na descrição e na facilidade de interpretação do que está sendo estudado. 6 7 Conhecer algumas definições possibilita esclarecer a Ciência que estuda os dados, a Estatística e como aplicá-la nas análises de contexto. Os dados são as observações re- gistradas. Quando um conjunto de dados tem algum significado dentro de um contexto, então, tem-se a informação. Exemplo A representação numérica a seguir remete à ideia do número 1, apenas um número. Figura 1 – Dado numérico, verde número 1 Fonte: iStock/Getty Images Se essa observação estiver repetida, em sequência ou não, registrando um determinado conjunto de observações, como o exemplo a seguir: 1,1, 2, 3, 3, 4, 5, 5, 1, 1, 2, 2, 7, 7, 8, 9, 2, 2, 2, 2, 2, 3, 3, 4, 5, 7, 8, 8, 1, 2, 3 tem-se o registro de um conjunto de dados numéricos, que podem significar a sequência de pedidos de um produto industrial; a venda de remédios por uma rede de farmá- cias; o consumo de maços de cigarros/dia de homens fumantes... Se a esse conjunto de dados numéricos observados e registrados associar-se um con- texto, um significado, tem-se a informação. Esse exemplo de conjunto de dados possibilita, dentro de determinado contexto, extrair informação relevante. Uma informação relevante é aquela que responde à pergunta, ajuda na tomada de decisão, retorna uma medida ou faz parte de um conjunto solução. A sua representação pode ser sumarizada na forma de Tabela, Gráfico ou Dashboard. 7 UNIDADE Estatística Descritiva e Medidas Tabela 1 – Estudo IBGE –Tabela das 15 maiores Concentrações Urbanas – 2015 Concentrações urbanas com população maior que 300.000 hab e municípios de Boa Vista (RR) e Palmas (TO) Área km² Percentual (%) Total Densa Pouco densa Densa Pouco densa Total 15167,40 13927,22 1240,18 91,82 8,18 São Paulo/SP 2016,20 1879,52 136,68 93,22 6,78 Rio de Janeiro/RJ 1505,55 1432,83 72,72 95,17 4,83 Belo Horizonte/MG 786,59 654,59 132,00 83,22 16,78 Brasília/DF 680,14 626,50 53,63 92,11 7,89 Porto Alegre/RS 675,93 626,22 49,71 92,65 7,35 Curitiba/PR 581,22 551,65 29,57 94,91 5,09 Goiânia/GO 538,09 479,05 59,04 89,03 10,97 Campinas/SP 474,38 439,23 35,15 92,59 7,41 Fortaleza/CE 397,05 366,69 30,36 92,35 7,65 Recife/PE 389,79 362,16 27,63 92,91 7,09 Salvador/BA 348,77 340,70 8,08 97,68 2,32 São José dos Campos/SP 290,82 257,66 33,16 88,60 11,40 Vitória/ES 245,60 229,19 16,41 93,32 6,68 Manaus/AM 241,26 231,48 9,79 95,94 4,06 Belém/PA 229,91 218,28 11,63 94,94 5,06 Fonte: https://goo.gl/QGpmkb Para realizar as sumarizações dos dados, representá-los na forma gráfica ou agrupados em dashborad (painéis), técnicas estatísticas são aplicadas para demonstrar como esses conjuntos de dados se comportam. As sumarizações são realizadas em geral e parte do conjunto de dados. Cada vez mais volumosos, os conjuntos de dados não permitem que sejam aplicadas técnicas estatísticas a todo o conjunto. Até porque, a variabilidade dos dados, sua dinâmica e a mudança temporal não permitem uma representação eficiente dessa massa de dados. A densidade é um fator determinante para a aplicação de determinada técnica estatística para análise. Diante de tal restrição, por conta da volumetria do conjunto, a análise amostral é a mais recomendada. Para isso, vale lembrar um conceito de população, amostra e organização, no contexto da estatística. A Estatística, como definem Larson e Farber (2015), é a Ciência que coleta, organiza, permite representar comportamentos e apoiar a tomada de decisão. Os conjuntos de dados são chamados de população e amostra. A população é todo o conjunto, é a coleção de todas as observações registradas; a amostra é parteda população. 8 9 Se P é a população, então A = P-1, é a amostra. Os dados da amostra são utilizados para formar conclusões quanto ao comportamen- to das populações. A seleção aleatória é uma técnica para separar os dados apropriados ao estudo. As observações registradas são os parâmetros contidos na população, característica populacional. A Estatística aplica-se à amostragem, permitindo a análise de caracterís- ticas amostrais. O que diferencia os métodos estatísticos aplicados é a organização dos dados. Essa organização ramifica a Estatística em descritiva e inferencial. A Estatística descritiva, estudada nesta Disciplina, é a que descreve a organização, a sumarização e a representação dos dados. Já a Estatística inferencial trata de even- tos probabilísticos e busca padrões que relacionam ocorrências de comportamentos aos dados. Em geral, a Estatística descritiva responde à pergunta ou confirma afirmações, por meio de observações registradas e conhecidas. Já a Estatística inferencial busca deter- minar padrões e prováveis respostas a parâmetros populacionais desconhecidos. Classificação dos Dados O conjunto de dados reflete um comportamento que se relaciona à natureza do dado observado. Os dados podem ser classificados como numéricos ou categóricos, em coletas está- ticas. Mas são denominados, também, conjuntos de variáveis, considerando a dinâmi- ca da arquitetura de Big Data. Os tipos de dados ou variáveis são os numéricos e os categóricos, assim classificados: Tabela 2 Tipo Exemplo Classificação Dados categóricos Feminino, F, alto, idoso, verde Dados Qualitativos Dados numéricos 1, 1º, 1980, 12 anos, 50 Kg Dados Quantitativos Medidas A importância da medida nos conjuntos de dados é determinada por níveis de men- suração. O conjunto de dados reflete o nível mensurável que pode ter relevância em função da técnica estatística que lhe é mais adequada. 9 UNIDADE Estatística Descritiva e Medidas Pedidos Manutenção Atividades de Rede HOJE SEMANA Julho 01 Julho 02 Julho 03 Julho 04 Julho 05 Julho 06 Julho 07 MÊS ANO Status Visitantes Uso do dispositivo Ganhos Vendas Figura 2 Fonte: Adaptado de iStock/Getty Images Observação Importante: Toda a medida é efetuada empregando uma técnica es- tatística. A técnica Estatística empregada é a aproximação de um modelo mate- mático para determinado conjunto de dados. Esse modelo matemático estatístico tenta explicar o comportamento do conjunto de dados. Não será perfeito; é sempre uma aproximação. Visto que os modelos matemáticos são equacionados para con- juntos de dados ideais que se amoldam aos modelos. Já os conjuntos de dados em estudo são reais e, portanto, a Estatística tratará de criar hipóteses e aproximá-las do melhor modelo, dando-lhes a explicação relevante por meio da análise que ca- racteriza o seu comportamento. A classificação dos quatro níveis de mensuração é nominal, ordinal, intervalar e racional e, de acordo com o tipo de dados, são representados no Quadro a seguir. Tabela 3 Tipo Exemplo Classificação Nível de Mensuração Dados categóricos Feminino, F, alto, idoso, verde Dados Qualitativos Nível nominal Nível ordinal Dados numéricos 1, 1º, 1980,12 anos, 50 Kg Dados Quantitativos Nível ordinal Nível intervalar Nível racional 10 11 Tabela 4 – Resumo das operações nos quatro níveis de medida Nível de Medida Categorizar os dados Ordenar os dados Subtrair os valores dos dados Determinar se o valor de um dado é múltiplo de outro Nominal Sim Não Não Não Ordinal Sim Sim Não Não Intervalar Sim Sim Sim Não Racional Sim Sim Sim Sim Fonte: Larson; Farber (2015). Média A média é um modelo matemático que descreve para onde se concentra a posição do conjunto de dados. Essa técnica determina o ponto de equilíbrio das frequências distribuídas no conjunto. A média pode dar algum significado ao conjunto de dados em função de sua variabilidade. Pequenas variabilidades das frequências distribuídas ao longo do conjunto de dados tendem a ser bem representadas pela média. No entanto, se a variabilidade de dados for muito dispersa, a média não representará uma boa medida de posição do ponto de equilíbrio desses dados. A média é calculada pela soma de todas as observações que se deseja estudar, dividindo-se a soma pela quantidade de números das observações. Exemplo Coletaremos a idade das pessoas que ficam na fila do Banco às 10 horas da manhã, em uma determinada sexta feira. Essa coleta tem o objetivo de inferir sobre a necessidade de priorizar o atendimento aos idosos. Tabela 5 Cliente Idade 1 18 2 60 3 32 4 33 5 47 6 21 7 64 8 72 11 UNIDADE Estatística Descritiva e Medidas A média das idades é calculada da seguinte maneira: M_idade= M_idade= 18 60 32 33 47 21 64 72 8 347 8 + + + + + + + M_idade=43,3, considera-se aproximadamente 43 anos em média. Percebe-se que o resultado obtido pela média nos levará a uma decisão de não prio- rizar o atendimento ao idoso. Embora tenhamos 3 pessoas com 60 anos ou mais, que representam aproximadamente 37% da amostra, a média nos retorna um valor de 43 anos de idade. A média é uma medida de posição que precisa ser usada com critério, para um conjunto de dados fixos. Nesse caso, a melhor solução seria mover a média em dois segmentos, um de 18 a 47 anos, e outra medida calculando a média das pessoas com 60 anos ou mais. Refazendo os cálculos: Tabela 6 Cliente Idade 1 18 2 60 3 32 4 33 5 47 6 21 7 64 8 72 M_idade= M_idade= M_idade=30,2 consider 18 60 32 33 47 21 5 151 5 + + + + + aa-se aproximadamente 30 anos em média. M_idade2= M_idade2= M_idade2=65,3 considera-se ap 60 64 72 3 347 8 + + rroximadamente 65 anos em média. Verificando o conjunto com 8 observações, podemos afirmar que: A média M_idade 1 = 30 anos representa 63% de toda a amostra A média M_idade 2 = 65 anos representa 37% de toda a amostra Ao mover a média para representar o conjunto de dados de forma equilibrada, diminuindo a variabilidade, as médias móveis em dois subconjuntos ou segmentos da amostra podem ser os melhores modelos estatísticos que os representam. 12 13 A solução: Sim, há a necessidade de priorizar o atendimento, pois a idade média de 65 anos representa 37% dos clientes no horário determinado. Quanto maior a variabilidade dos elementos que compõem os conjuntos de dados, maior será a necessidade de segmentá-los. No entanto, se o conjunto de dados tivesse pouca variabilidade, a média representaria com propriedade o conjunto. Lembre-se de que a média ou média aritmética é uma medida de posição ou de tendência central; é a soma das observações obtidas e registradas, dividida pela quantidade de observações registradas. Mas como saber se a média está sendo aplicada corretamente ao conjunto de dados estudado? Mediana A mediana é a medida de posição que qualifica a média, ou seja, quem vai determi- nar se a média está sendo aplicada de forma correta ao conjunto de dados em estudo. O que determina isso é o afastamento ou a aproximação do valor da média em relação à mediana. A mediana é a medida de posição ou de tendência central, que ocupa a posição central do conjunto dos valores da amostra em ordem crescente ou decrescente. Esse conjunto pode ser par ou ímpar. Sendo ímpar, o valor da média é aquele que está no centro do conjunto de dados observados. Se o conjunto for par, a mediana será o valor médio entre os dois números centrais da série de dados. Neste exemplo, toma-se o mesmo conjunto de dados da Tabela de idades que foi usado para estudar a média: Tabela 7 Cliente 1 2 3 4 5 6 7 8 Idade 18 60 32 33 47 21 64 72 Organizando as idades, que são as observações, da menor para a maior idade, temos: Tabela 8 Idade 18 21 32 33 47 60 64 72 33 47 Média Média par=40 par = +33 47 2 Idade 18 21 32 33 40 47 60 64 72 13 UNIDADE Estatística Descritiva e Medidas Um novo valor médio, na posição central, determina a mediana, valor 40. Recordando que a média de todo o conjuntode dados foi calculada em 43 anos de idade. Se a mediana de todo o conjunto par, foi 40, significa dizer que a média não está próxima da mediana. O que de fato denota uma variabilidade de dados e a média não representa adequadamente o conjunto. Por outro lado tomado, como base agora a segmentação do conjunto exemplo em estudo. Tabela 9 Idade 18 21 32 33 47 Mediana=32 M_idade=30,2 Diferença diminui entre a média M_idade 1 e a mediana. Tabela 10 Idade 60 64 72 Mediana=64 M_idade 2=65 Diferença diminui entre a média M_idade 2 e a mediana. Observação importante Nos dois ensaios anteriores, a mediana é dada para um conjunto de dados ímpares e, portanto, a mediana é exatamente o número de posição central. Quando há uma menor variabilidade do conjunto de dados, melhor é a média, pois se aproxima da me- diana. Quando a variabilidade é maior, a média tende a se distanciar da posição central da mediana. Moda Moda em um conjunto de observações é o dado que se repete, no mínimo, mais de uma vez, aquele que ocorre com maior frequência. No presente exemplo, não há ne- nhum dado que se repete e, portanto, não ocorre a moda para esse conjunto. No exemplo a seguir, incluindo mais um dado no conjunto, tem-se a moda 32, pois se repete duas, no mínimo, duas vezes. Tabela 11 Cliente 1 2 3 4 5 6 7 8 9 Idade 32 18 60 32 33 47 21 64 72 14 15 Frequência Na maioria dos conjuntos de dados, várias repetições acontecem. As notas dos alu- nos, a altura das pessoas, a temperatura ou a pressão sanguínea... são patamares de dados discretos e não contínuos. Como as notas, que são de 0, 1, 2 até a nota 10. Pode ser de 0,5 em 0,5, 0; 0,5; 1,0; 1,5; 2,0; 2,5; até 9,5; 10,0. Há 50 observações de notas apontadas aleatoriamente. Tabela 12 Notas de alunos 3 8 8 7 9 9 4 4 5 5 9 2 2 7 7 6 9 9 8 7 7 10 2 9 9 9 4 3 5 9 2 3 1 8 8 5 4 5 9 10 2 3 5 6 9 9 9 9 8 4 Organizando o conjunto de dados anterior, em ordem crescente de notas, temos: Tabela 13 Notas de alunos 1 2 2 2 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 6 6 7 7 7 7 7 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 9 9 10 10 A distribuição de frequências, por nota, é a seguinte: Tabela 14 Notas Frequências Nota 1 1 Nota 2 5 Nota 3 4 Nota 4 5 Nota 5 6 Nota 6 2 Nota 7 5 Nota 8 6 Nota 9 14 Nota 10 2 15 UNIDADE Estatística Descritiva e Medidas A seguir, a representação gráfica da distribuição de frequências das notas dos alunos. Figura 3 – Histograma de frequências de notas Limites ou Outliers Os limites ou outliers são os dados que se encontram muito distantes da distribuição normal de frequências. Representam os limites inferior e superior do conjunto de dados, dependendo da variabilidade do conjunto. Por esse motivo, é importante avaliar dentro desses limites a mediana e a média. A mediana é a posição central, desconsiderando o viés dado por esses pontos extremos. No entanto, o cálculo da média é influenciado ou enviesado pelos outliers. Em geral, uma distribuição de frequência ou distribuição normal considera percentu- ais distantes do intervalo relacionado ao desvio padrão. Este percentual é uma tolerância assumida com o objetivo de apontar certo grau de confiabilidade ao estudo estatístico e se pode considerar que na distribuição normal: • 68% das observações encontram-se a uma distância da média inferior a uma vez o desvio padrão; • 95% das observações encontram-se a uma distância da média inferior a duas vezes o desvio padrão; • 99,7% das observações encontram-se a uma distância da média inferior a três vezes o desvio padrão. Com esses padrões percentuais como critério, é possível definir análises mais robustas e profundas em relação a fatos ou dados que estão fora dessas faixas. Estes outliers ou limites inferiores e superiores são muito comuns em medidas de dispersão, em função e variabilidades extensas nas observações. 16 17 Medidas de Dispersão As medidas de dispersão, também chamadas de afastamento ou distanciamento, são técnicas que verificam o quanto os valores das observações estão dispersos, afastados ou equidistantes em relação às medidas de posição, média e tendência central, a mediana. Medida de Dispersão: Máximo e Mínimo O valor máximo de um conjunto de observações é o seu maior valor em ampli- tude máxima. O valor mínimo de um conjunto de observações é o seu menor valor em am- plitude mínima. A amplitude de um conjunto de dados é a diferença entre o maior e o menor valor do conjunto de dados. Dado o conjunto de dados a seguir, em que foram registradas 20 observações de notas de alunos e sua correspondente frequência, presença nas aulas, o valor mínimo do conjunto de dados em relação a nota do aluno é 0 (zero) e o valor máximo de nota é 0 valor 10 (dez). A diferença entre 0 e 10, são 10, que é a amplitude. Tabela 15 – Conjunto de notas e presença dos alunos Aluno Nota Frequência 1 4 75 2 5 76 3 5 88 4 8 88 5 4 80 6 10 90 7 0 30 8 4 30 9 8 75 10 9 76 11 9 100 12 0 10 13 10 100 14 5 80 15 4 85 16 9 87 17 9 77 18 7 78 19 5 90 20 6 92 17 UNIDADE Estatística Descritiva e Medidas Figura 4 – Gráfi co de dispersão do Conjunto de notas e presença dos alunos Nota-se que a variabilidade dos dados apontam uma aglomeração entre 70 a 100 de frequência, e as notas com maior densidade, entre 4 e 10. A média de nota será de 6,05 e a mediana é de 5,5. A média de frequência será de 75,35 e a mediana é de 80. Para a variável nota, o valor máximo é de 10 e a nota mínima é zero. Para a variável frequência, o valor máximo de presença é de 100% e o valor mínimo é de 30%. Verifica-se, pelo Gráfico de Dispersão, que há uma tendência às maiores frequências e notas acima de 4. Então, a medida particionada em quartis revelará em qual faixa há maior densidade de notas. Os quartis definem percentual de 25%, 50% e 75%. O 1º quartil comporta 25%, o segundo quartil é a mediana, os 50%, e o 3º quartil, os 75%. Nesse sentido, vale lembrar-se da variância dos dados e do desvio padrão. A va- riância é a medida de dispersão definida como a média do quadrado dos desvios dos elementos em relação à média e o desvio padrão de um conjunto de dados é dado pela raiz quadrada da variância. Para calcular o desvio padrão, é preciso calcular a variância. Com o desvio padrão, é possível adotar qual percentual de tolerância é aceitável em um intervalo confiável de medida. 18 19 Tabela 16 X médiaX médiaX - X (médiaX-X) ^2 S SD nota média variância (var) ^2 Desvio Desvio Padrão 4 6,05 2,05 4,2025 8,8921053 2,981963324 5 6,05 1,05 1,1025 5 6,05 1,05 1,1025 8 6,05 -1,95 3,8025 4 6,05 2,05 4,2025 10 6,05 -3,95 15,6025 0 6,05 6,05 36,6025 4 6,05 2,05 4,2025 8 6,05 -1,95 3,8025 9 6,05 -2,95 8,7025 9 6,05 -2,95 8,7025 0 6,05 6,05 36,6025 10 6,05 -3,95 15,6025 5 6,05 1,05 1,1025 4 6,05 2,05 4,2025 9 6,05 -2,95 8,7025 9 6,05 -2,95 8,7025 7 6,05 -0,95 0,9025 5 6,05 1,05 1,1025 6 6,05 0,05 0,0025 168,95 somatória Onde: X é a variável nota, média das notas, variância (diferença entre a média e cada nota), var^2 (variância ao quadrado), S é o desvio, e SD é o desvio padrão. O desvio padrão resultante das notas é de 2,98. Então, pode-se dizer que a média é 6,05 ± 2,98. Isso significa que a faixa confiável está no intervalo mínimo de 6,05 – 2,98 = 3,07, e a maior faixa será de 6,05 + 2,98 = 9,03. Exemplos e Aplicações das Medidas para Análise de Dados: Sumarização e Visualização Tomando como base os dados das notas e frequências de 20 alunos, representados na Tabela anterior, em conjunto com o conteúdo abordado, pode-se completar o estudo aplicando-se diretamente na ferramenta as técnicas estatísticas ao conjunto de dados. 19 UNIDADE Estatística Descritiva e Medidas Existem comandos em ferramentas estatísticas que já calculam os quartis. O comando summary (sumarização) da linguagem de programação Estatística R retorna a seguinte informação, em relação à nota e à frequência: Tabela 17 Nota Frequência Min.: 0.00 Min.:10.00 Mínimo1st Qu.:4.00 1st Qu.:75.75 1º Quartil - 25% Median: 5.50 Median: 80.00 Mediana - 50% Mean: 6.05 Mean: 75.35 Média 3rd Qu.: 9.00 3rd Qu.:88.50 3º Quartil - 75% Max.:10.00 Max.:100.00 Máximo Resultados do comando summary em R Interpretação dos resultados Figura 5 – Análise dos dados estatísticos por meio de sua representação gráfi ca – Visualização O que se verifica ao analisar os box plot das duas variáveis em estudo é que, para as notas, o valor do conjunto tem menor variabilidade, todos os dados estão dentro da faixa de análise. A faixa ao meio do box representa a mediana (5,5), percebendo-se a pouca distância da média. Já na análise do box plot de frequência, fica evidente o outlier entre 5 até mais ou menos 75%. Essa análise pelo gráfico auxilia o entendimento das medidas de posição e dispersão. 20 21 Orientações para Leitura Obrigatória A Estatística não é uma Ciência nova. Derivada do termo em latim status (estado), possivelmente começou a ter alguma aplicabilidade na Alemanha, por volta de 1748, por Achenwall. Gottfried Achenwall foi um historiador e jurista alemão, um dos intelectuais que mais significativamente contribuiu para o desenvolvimento da Statistik – uma Ciência que guarda muito poucas relações com a atual Estatística, pois concernia à descrição abran- gente das características sócio-político-econômicas dos diferentes estados parecendo, nesse sentido, empregada nas escolas para estudos geopolíticos tão somente. Ao longo da Idade Média, e até o século XVIII, a Estatística foi purista, apenas des- critiva, procurando traduzir a regularidade observada de certos fenômenos, de caráter econômico e sociológico. Nunca se falou, empregou e estudou Estatística como agora. A sua maior força veio da quantidade de dados a serem estudados e, atualmente, é um protocolo científico capaz de obter, sintetizar, prever e inferir sobre dados. Com base na ressignificação da Estatística nos dias atuais recomenda-se do Capítulo 1 – “As fases do método estatístico (Estatística descritiva)” – p. 17-20). 21 UNIDADE Estatística Descritiva e Medidas Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Sites ECO R Informações sobre o Projeto R aplicada a análise de dados de Ecologia. https://goo.gl/HjbqiL Leitura Índice Nacional da Construção Civil varia 0,58 em Julho Leia atentamente a notícia do IBGE e avalie se as análises apresentadas estão relacionadas a estudos estatísticos. https://goo.gl/xg72RD Portal IPEA – Instituto de Pesquisas Economia Aplicada https://goo.gl/HstWVu Solução de Big Data é um dos segredos da Alemanha na Copa Equipe consegue analisar inúmeros dados de treinamentos e jogos, o que ajuda a melhorar o desempenho do time. https://goo.gl/wKXeLQ 22 23 Referências CASTANHEIRA, N. P. Estatística Aplicada a todos os Níveis. Curitiba: InterSa- beres, 2012. LARSON, R; FARBER, B. Estatística Aplicada. São Paulo: Pearson Education do Brasil, 2015. MEDEIROS, L. F. Banco de Dados: princípios e prática. Curitiba: InterSaberes, 2013. TARAPANOFF, K. Análise da Informação para tomada de decisão: desafios e soluções. Curitiba: InterSaberes, 2015. 23
Compartilhar