Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
INTRODUÇÃO A CIÊNCIA DE DADOS Talysson Manoel de Oliveira Santos Estatística descritiva para ciência de dados Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: Descrever a correlação entre estatística e ciência de dados. Analisar os conceitos de variáveis e distribuição de frequência. Explicar as medidas em estatística descritiva. Introdução Atualmente, a ciência de dados é uma das áreas do conhecimento mais valorizadas por empresas de diferentes ramos de atuação. Entre as fer- ramentas utilizadas por essa área, os métodos advindos da estatística figuram como os principais, tendo um papel fundamental nas etapas de processamento de dados e análise dos resultados. De forma geral, a estatística é a ciência que apresenta métodos próprios para coletar, apresentar e interpretar adequadamente con- juntos de dados, sejam eles qualitativos ou quantitativos. A estatística descritiva — cujo objetivo básico é o de sintetizar um conjunto de observações de uma variável — permite que se tenha uma visão global sobre a posição e a dispersão desses valores por meio do uso de tabelas, gráficos e medidas descritivas. Neste capítulo, você vai estudar sobre a importância da ciência de dados e o motivo pelo qual essa área vem sendo cada vez mais solicitada por empresas ligadas a diversos setores da economia. Você também vai ler sobre a importância da estatística para a ciência de dados, assim como os conceitos de variáveis e distribuição de frequên cia. Por fim, você vai conhecer as medidas em estatística descritiva e ver como extrair informações de tabelas e gráficos que vão auxiliar na tomada de decisões a partir dos dados. 1 O que é ciência de dados e como se correlaciona com a estatística? Nas últimas décadas, a tecnologia tem passado por rápidas e constantes evoluções. Na Primeira Revolução Industrial, entre 1760 e 1840, o desen- volvimento da máquina a vapor impulsionou o progresso da indústria têxtil e de ferro. Entre 1850 e 1945, a Segunda Revolução Industrial alavancou a indústria química, elétrica, de petróleo e de aço. Na Terceira Revolu- ção, os computadores tiveram a sua capacidade aumentada e tornaram-se acessíveis, impactando profundamente na sociedade e nas empresas. Na atualidade, estamos vivendo a Quarta Revolução Industrial, na qual diver- sos dispositivos conectados geram grandes volumes de dados diariamente (AMARAL, 2016). Por volta de 1980, armazenar dados era um grande desafio, que custava caro: cerca de 200 dólares a cada 1 MB. Hoje o avanço tecnológico nos permite armazenar grandes quantidades de dados a um preço baixo (AMA- RAL, 2016). Em função dessa mudança, organizações públicas e privadas começaram a buscar metodologias capazes de armazenar e processar essa quantidade abundante de dados, a fim de obter informações. Isso mudou a maneira de operar das empresas, tornando-as mais ágeis na tomada de decisões sustentadas por informações extraídas dos dados (SHARDA; DELEN; TURBAN, 2019). Com essa constante evolução nos moldes operacionais das empresas e a busca de informações para agregar valor a um negócio, a ciência de dados cresceu muito. Isso ocorreu porque essa área é a responsável por todas as etapas do uso de dados, conforme ilustra a Figura 1. Estatística descritiva para ciência de dados2 Figura 1. Etapas do uso de dados que são atribuições da ciência de dados. Fonte: Adaptada de Amaral (2016). O primeiro passo realizado pela ciência de dados surge de uma demanda. É importante pensar em todas as variáveis que fazem parte do processo e no tipo de informação que se deseja extrair. Após entender o problema e determinar o tipo de informação desejada e as variáveis que fazem parte do processo, é hora de iniciar o segundo passo: coletar os dados. Os dados obtidos nesse passo podem ser comprados de empresas especializadas em vendê-los, produzidos ou simplesmente coletados de algum banco de dados com acesso aberto. Os dados coletados são então armazenados. A etapa de armazenamento é responsável por garantir a recuperação e a duplicação dos dados. Além disso, permite que eles sejam analisados no futuro, mantém informações sigilosas em segurança e otimiza o espaço utilizado (AMARAL, 2016). 3Estatística descritiva para ciência de dados É nas etapas de processar os dados e explorar os resultados que surge a correlação entre estatística e ciência de dados. Nessas etapas, o obje- tivo é buscar e aplicar metodologias adequadas para encontrar padrões, extrair informações e interpretar os resultados obtidos a partir da análise dos dados. Entre as metodologias mais utilizadas está a estatística, que pode ser definida como parte da matemática aplicada que estuda maneiras de organizar, descrever e interpretar dados de forma sistemática (SILVA; GRAMS; SILVEIRA, 2018). Nos passos seguintes, o cientista de dados é responsável por comunicar os resultados e retornar informações para a etapa de entendimento do problema. A estatística é uma ferramenta da ciência de dados que se divide em três grandes áreas (SILVA; GRAMS; SILVEIRA, 2018): estatística descritiva; inferência estatística; estatística probabilística. A estatística descritiva é a primeira etapa da análise de dados, ou seja, é responsável por descrever e resumir os dados por meio de gráficos, tabelas e números. A estatística inferencial interpreta os indicadores da estatística descritiva para inferir eventos prováveis, fundamentados pelas características dos dados. A estatística probabilística analisa a proba- bilidade de um evento ocorrer e atribui o grau de incerteza associado à sua ocorrência. Na próxima seção, você vai aprender a analisar conceitos de variáveis e distribuição de frequência, que são termos comuns da estatística descritiva. 2 Conceitos de variáveis e distribuição de frequência A estatística descritiva está ligada à análise inicial dos dados. A partir do seu uso, é possível avaliar como as observações se distribuem, onde estão concentradas e como estão em termos de associação e dispersão (ZABALA, 2020). Na sequência, você vai aprender conceitos de variáveis e de métodos descritivos, que são a base para análises estatísticas mais avançadas. Estatística descritiva para ciência de dados4 Variáveis Variável é uma característica de interesse que é mensurada em cada indivíduo da população. Os seus valores variam entre os indivíduos, podendo ser numé- ricos ou não numéricos. As variáveis quantitativas são as características que podem ser medidas utilizando valores numéricos, como número de alunos na classe de cálculo ou peso de uma pessoa. As variáveis qualitativas representam as características não numéricas dentro de um conjunto de interesse, como marca, modelo de veículos e gênero (ZABALA, 2020). As variáveis quantitativas podem ser classificadas como contínuas ou discretas: Variáveis contínuas – características mensuráveis que assumem valores em uma escala contínua, podendo ser valores não inteiros (como peso, altura, tempo e pressão arterial). Variáveis discretas – características mensuráveis que assumem apenas valores inteiros, ou seja, discretos (como número de filhos e número de jogadores). As variáveis qualitativas podem ser classificadas como ordinais ou nominais: Variáveis ordinais – existe uma ordenação para as categorias. Exem- plos de variáveis ordinais são escolaridade (1º, 2º, 3º grau), estágio da gravidez (inicial, intermediário, final) e mês (janeiro, fevereiro, ..., novembro, dezembro). Variáveis nominais – não existe uma ordenação para as categorias (como religião, raça, cor preferida, time de futebol favorito). Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por exemplo, quando a variável idade informa apenas a faixa etária (25 a 30 anos, 50 a 55 anos...), ela é qualitativa ordinal. Outro ponto importante é que nem sempre uma variável representada por números é quantitativa. Exemplos disso são o número do telefone de uma pessoa, o número da casa, o número da identidade e o sexo do indivíduo, quando registrado em uma planilha como 1 para masculino e 2 para feminino. 5Estatística descritiva para ciência de dados Distribuição de frequência Você já viu que as variáveis de um processo se dividem em quatro tipos. Como os dados gerados pelos diferentes tipos de variáveis são de naturezas diversas, eles devem receber tratamentos diversos. Portanto, você vai estudar agora as ferramentas (tabelas e gráfi cos) mais adequadas para a análise de frequência de cada tipo de dados. Para os dados de natureza qualitativa, é usual fazer uma tabela de frequência, como mostra o Quadro 1. Nesse quadro, são apresentadas as frequências de ocorrência de cada um dos sexos no total de 103 entrevis- tados em uma pesquisa de satisfação do consumidor feita por uma loja de eletrodomésticos. Sexo Frequência absoluta Frequência relativa (%) Feminino 62 60,2 Masculino 41 39,8 Total de participantes 103 100 Quadro 1. Distribuição de frequências dos entrevistados conforme o sexo Observe que, no Quadro 1, cada categoria da variável sexo (feminino, masculino) é representada em uma linha. A coluna de frequência absoluta mostra a contagem de entrevistados em cada categoria, e a coluna de fre- quência relativa mostra o percentual que as contagens representam no total de entrevistados. Para variáveis do tipo qualitativa ordinal, as linhas da tabela de frequên- cias devem ser dispostas na ordem existente para as categorias. O Quadro 2 mostra a distribuição de frequências dos entrevistados segundo o mês de observação, que é uma variável qualitativa ordinal. Para essa análise, é possível acrescentar mais duas colunas com as frequências acumuladas (absoluta e relativa). Frequências acumuladas mostram a quantidade de clientes entrevistados até cada mês. Estatística descritiva para ciência de dados6 Mês de observação Frequência absoluta Frequência relativa (%) Frequência absoluta acumulada Frequência relativa acumulada (%) Fevereiro 19 18,45 19 18,45 Março 6 5,82 25 24,27 Abril 6 5,82 31 30,09 Maio 11 10,69 42 40,78 Junho 23 22,33 65 63,11 Julho 20 19,42 85 82,53 Agosto 18 17,47 103 100 Total 103 100 --- --- Quadro 2. Distribuição de frequências dos entrevistados em função do mês de observação A frequência absoluta se refere à quantidade de entrevistados em cada mês; a frequência acumulada, à quantidade total entrevistada até determinado mês. Por exemplo, no mês de fevereiro, 19 pessoas responderam à pesquisa de satisfação. Em março, outras seis pessoas foram entrevistadas. Logo, a frequência acumulada de março indica que, até esse mês, um total de 25 pessoas já foram entrevistadas (19 em fevereiro, mais seis em março). A partir do Quadro 2, você pode observar que a maior frequência de participação na pesquisa ocorreu nos últimos três meses: de fevereiro a maio, apenas 40,78% do total de pessoas entrevistadas já haviam participado; os outros 59,22% participaram de junho a agosto. Com o intuito de tornar a análise de distribuição de frequência mais fácil de visualizar, você pode utilizar também os gráficos. Os mais comuns para a análise de distribuição de frequência de variáveis qualitativas são os gráficos de setores (popularmente conhecidos como gráficos de pizza) e os histogramas, que são a representação gráfica em colunas ou em barras (REIS; REIS, 2002). A Figura 2 ilustra o uso do gráfico de setores para a distribuição de frequências do total de entrevistados segundo sexo. Na Figura 3, o uso do histograma para a distribuição de frequências dos entrevistados em função do mês de observação. 7Estatística descritiva para ciência de dados Figura 2. Gráfico de distribuição dos entrevistados quanto ao sexo. Figura 3. Gráfico de distribuição dos entrevistados por mês. À medida que a complexidade das análises aumenta, como quando é ne- cessário comparar vários grupos com relação às variáveis que têm muitas categorias, as vantagens do uso da representação gráfica ficam ainda mais evidentes. Estatística descritiva para ciência de dados8 Se você quiser usar o gráfico de setores para comparar a distribuição de frequências de uma mesma variável em N grupos, então você vai precisar de N gráficos de setores. Já o histograma permite fazer esse tipo de comparação com apenas um gráfico. Se for comparar uma variável entre dois ou mais grupos de número de observações diferentes, use a frequência relativa de cada grupo para a construção do gráfico e a comparação. Quando se trata de uma variável discreta que assume poucos valores, a forma de analisar é semelhante ao tratamento dado às variáveis qualitativas ordinais. É como se cada valor que a variável discreta assume fosse uma classe, e que existe uma ordem natural nessas classes (REIS; REIS, 2002). Veja o exemplo a seguir. A prefeitura de uma cidade no interior de Minas Gerais resolveu fazer um levantamento do número de filhos por família em uma localidade específica. Para isso, 25 famílias informaram o número de filhos. Com as informações coletadas, você pode fazer uma análise completa a partir da tabela de distribuições de frequência mostrada no Quadro 3, e do histograma que consta na Figura 4. Número de filhos Frequência absoluta Frequência relativa (%) Frequência relativa acumulada (%) 0 1 4,0 4,0 1 3 12,0 16,0 2 7 28,0 44,0 3 10 40,0 84,0 4 2 8,0 92,0 5 2 8,0 100 Total 25 100 --- Quadro 3. Distribuição de frequências do número de filhos por família em uma localida- de (25 famílias) 9Estatística descritiva para ciência de dados Figura 4. Distribuição de frequência do número de filhos por família em uma localidade. Analisando a distribuição de frequência (Figura 4), é possível concluir que a maioria das famílias (40%) tem três filhos. A frequência acumulada mostra que 84% das famílias entrevistadas possuem de zero a três filhos, e apenas 16% possuem de quatro a cinco filhos. Só uma família entre as 25 entrevistadas não tem filhos. O histograma deixa claras as afirmações feitas a partir da tabela e evidencia que a maior concentração de frequência é de famílias que têm dois ou três filhos. Quando você trabalhar com uma variável quantitativa discreta que pode assumir muitos valores distintos, ou quando a variável for qualitativa contí-nua, é impraticável tentar construir uma tabela ou fazer a representação em gráficos considerando cada valor como uma categoria. A solução é agrupar os valores em classes que representam faixas de valores com certa amplitude (ZABALA, 2020). De acordo com Scott (1979), a escolha do número de classes (k sc) e o tamanho das classes (hsc) estão condicionados à amplitude dos valores a serem representados, da quantidade de observações disponíveis no conjunto de dados e do desvio padrão amostral: Estatística descritiva para ciência de dados10 onde: n = número de observações (ou amostras); s = desvio padrão amostral; max(x) = maior valor observado; min(x) = menor valor observado. A altura de 100 alunos de uma escola do ensino médio foi coletada. Sabendo que o desvio das amostras de altura é s = 0,066, que a altura máxima é 1,80, e que a altura mínima é 1,50, determine o tamanho e a quantidade de classes para representar a distribuição de frequência de altura dos alunos. hsc= 3,5*0,066/100^(1/3) hsc= 0,05 ksc= (1,80-1,50)/0,05 ksc= 6 Após encontrar o comprimento do intervalo e o número de classes, basta montar a tabela de distribuições de frequência e preenchê-la de acordo com os dados, como mostra o Quadro 4. Número de filhos Frequência absoluta Frequência relativa (%) Frequência relativa acumulada (%) 1,5 1,55 9 9,0 9,0 1,55 1,60 14 14,0 23,0 1,60 1,65 17 17,0 40,0 1,65 1,70 19 19,0 59,0 1,70 1,75 33 33,0 92,0 1,75 1,80 8 8,0 100 Total 100 100 --- Quadro 4. Distribuição de frequências de altura dos alunos do ensino médio 11Estatística descritiva para ciência de dados Na atualidade, há muitos dados sendo gerados a todo instante, e é comum trabalhar com conjuntos de dados em que as variáveis contêm milhares de observações. Portanto, é impossível trabalhar com essa quantidade enorme de dados sem utilizar ferramentas computacionais. Atualmente, uma das linguagens de programação mais utilizadas é o Python. Saiba mais sobre como usar o Python consultando o livro Data Science do zero: Primeiras regras com o Python de Joel Grus. 3 Medidas em estatística descritiva A estatística descritiva é a etapa inicial para descrever e resumir os dados. A seguir, você vai aprender a usar e interpretar as métricas da estatística descritiva, que se dividem em duas partes: medidas para análise de posição e medidas para análise de dispersão. Medidas de posição A média de uma variável é dada pela soma de todas as observações, dividida pelo número de observações. Pela facilidade de cálculo e de entendimento, é a medida de tendência central mais conhecida e usada (REIS; REIS, 2002). Portanto, onde n é o número de observações no conjunto de dados, e xi é o valor da i-ésima observação desse conjunto. A mediana de um conjunto de dados é definida como sendo o valor maior que 50% dos dados dispostos em ordem crescente, ou seja, é o valor central para um conjunto de observações ordenadas. A mediana é conhecida também como segundo quartil (ZABALA, 2020). Para um conjunto de n observações, a mediana ocupa a posição (n + 1)/2 dos valores ordenados. A moda é o valor que ocorre com maior frequência para uma variável. Para uma tabela de frequência composta por classes que representam intervalos, a classe de maior frequência é chamada de classe modal. Se existe apenas uma moda, a distribuição é conhecida como unimodal; se existem duas modas, bimodal; se existem três modas, trimodal. Quando existem quatro ou mais modas, trata-se de uma distribuição multimodal. Estatística descritiva para ciência de dados12 Dado um conjunto de observações x = [4, 3, 5, 2, 6, 5, 8, 4, 4], calcule a média, a mediana e a moda do conjunto. Média: = 4,55 Mediana: valores ordenados – 2, 3, 4, 4, 4, 5, 5, 6, 8. Mediana = 4. Moda: o valor mais frequente. Moda = 4. A média é uma medida influenciada pela presença de valores extremos em um conjunto de dados, isto é, se no meio das observações há um valor muito menor que os demais, esse valor vai fazer a média tender na sua direção. O mesmo ocorre para um valor muito grande. Já a mediana não é tão influen- ciada por esses valores extremos (ou outliers), visto que o seu cálculo consiste em ordenar os valores e, a partir disso, determinar a mediana (REIS; REIS, 2002). A moda também tem as suas vantagens. Quando a variável apresenta distribuições bimodais ou multimodais, a moda pode representar melhor a posição dos dados do que a média e a mediana. Os quartis ou separatrizes deixam k * 100% das observações abaixo deles na amostra ordenada. Os casos mais comuns são os seguintes (ZABALA, 2020): o primeiro quartil deixa 25% das amostras ordenadas abaixo, ou seja, é o valor maior do que 25% das observações ordenadas; o segundo quartil é a mediana; o terceiro quartil é o valor maior do que 75% das observações ordenadas. Um método simples para calcular os quartis de forma aproximada pode seguir os seguintes passos (ZABALA, 2020): ordene os dados de forma crescente; L = k * n. Se L não é inteiro, arredonde-o para o maior inteiro mais próximo. O valor do quartil é o L-ésimo valor, a contar do menor. Se L é inteiro, o quartil é a média entre o L-ésimo e o (L + 1)-ésimo termo, a contar do menor. Geralmente, os softwares calculam os quartis usando interpolação. 13Estatística descritiva para ciência de dados Com o conjunto de observações 15, 5, 3, 8, 10, 2, 7, 11, 12, calcule os quartis 0,25 e 0,75. 1. Ordene os dados: 2, 3, 5, 7, 8, 10, 11, 12, 15. 2. Para 0,25, L= 2,25; para 0,75, L= 6,75. 3. O primeiro quartil é 5, e o terceiro quartil é 11. Medidas de dispersão A amplitude de uma variável é dada pela diferença do valor máximo pelo valor mínimo. A variância avalia o quanto, em média, os dados variam ao quadrado em re- lação à média. Trata-se de uma das principais medidas de dispersão em estatística (ZABALA, 2020). A variância amostral pode ser calculada da seguinte forma: O desvio padrão amostral (S) é a raiz quadrada da variância amostral. Usa-se o desvio padrão porque a interpretação da sua grandeza é mais intuitiva, uma vez que a unidade de medida é a mesma da variável x (ZABALA, 2020). O coeficiente de variação (CV) é uma medida de dispersão relativa. Essa métrica exprime a variabilidade em relação à média, eliminando o efeito da magnitude dos dados (DAVILA, [201-?]). É extremamente útil para comparar duas ou mais variáveis com unidades de medidas diferentes (PETERNELLI, [2013]). O CV pode ser calculado da seguinte forma: Estatística descritiva para ciência de dados14 Os agentes de fiscalização de uma cidade frequentemente realizam uma vistoria nos restaurantes, a fim de apurar possíveis irregularidades na venda dos seus produtos. Na última vistoria, os agentes coletaram o peso de 10 bifes que eram vendidos como bife de 200 gramas. Os dados coletados são mostrados a seguir. X = [170 175 180 185 190 195 200 200 200 205]. Faça uma análise estatística para verificar se há irregularidades com os bifes vendidos pelo restaurante. Média = (170+175+180+185+190+195+200+200+205)/10 Média = 190 A = 205 – 170 = 35g Variância = [ (170-190)^2 + (175-190)^2 + (180-190)^2+ (185-190)^2 + (190-190)^2 + (195-190)^2 + (200-190)^2 + (200-190)^2 + (205-190)^2 ] / (10 – 1) Variância = 144,44 Desvio padrão = 12,02 Coeficiente de variação = 12,02 / 190 CV = 0,06 Dentro do processo de produção de determinado produto, é normal o peso ou outra medida de quantidade variar um pouco. Porém, analisando os resultados para esse caso específico, visto que os bifes apresentam média de peso igual a 190 gramas e desvio padrão de 12 gramas, é possível concluir que a maioria dos clientes estão sendo lesados. Portanto, no que diz respeito ao controle de qualidade, os bifes não apresentam um padrão bom. Neste capítulo, você estudou sobre a importância da ciência de dados nos moldes operacionais atuais das empresas e como a estatística descritiva é uma ferramenta importante no processo de extração de informações a partir dos dados. Além disso, você leu sobre os tipos de variáveis que podem estar presentes no conjunto de informações de um processo, bem como a importância da análise da distribuição de frequência dos dados. Por fim, você viu como interpretar as medidas em estatística descritiva e extrair informações de tabelas e gráficos que permitem tomar decisões a partir dos dados. 15Estatística descritiva para ciência de dados AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de Janeiro: Alta Books, 2016. DAVILA, V. H. L. Estatística descritiva. Campinas: IME-UNICAMP, [201-?]. Disponível em: https://www.ime.unicamp.br/~hlachos/estdescr1.pdf. Acesso em: 27 abr. 2020. PETERNELLI, L. A. Estatística descritiva. In: INF 162. São Paulo: EACH USP, [2013]. Disponível em: http://www.each.usp.br/rvicente/Paternelli_Cap2.pdf. Acesso em: 27 abr. 2020. REIS, E. A.; REIS, I. A. Análise descritiva de dados. Belo Horizonte: UFMG, 2002. Disponível em: http://www.est.ufmg.br/portal/arquivos/rts/rte0202.pdf. Acesso em: 27 abr. 2020. SCOTT, D. W. On optimal and data-based histograms. Biometrika, v. 66, n. 3, Dec. 1979. Disponível em: http://www.jstor.org/stable/2335182?origin=JSTOR-pdf . Acesso em: 27 abr. 2020. SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão do negócio. 4. ed. Porto Alegre: Bookman, 2019. SILVA, J. S. F.; GRAMS, A. L. B.; SILVEIRA, J. F. Estatística. Porto Alegre: Sagah, 2018. ZABALA, F. Estatística clássica no RStudio. Porto Alegre: [S. n.], 2020. Disponível em: http:// www.estatisticaclassica.com/ecnrs.pdf. Acesso em: 27 abr. 2020. Leitura recomendada GRUS, J. Data Science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2018. Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun- cionamento foi comprovado no momento da publicação do material. No entanto, a rede é extremamente dinâmica; suas páginas estão constantemente mudando de local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade sobre qualidade, precisão ou integralidade das informações referidas em tais links. Estatística descritiva para ciência de dados16
Compartilhar