Baixe o app para aproveitar ainda mais
Prévia do material em texto
ANÁLISE ESTATÍSTICA DE DADOS Programa de Pós-Graduação EAD UNIASSELVI-PÓS Autoria: Amanda Souza da Silva CENTRO UNIVERSITÁRIO LEONARDO DA VINCI Rodovia BR 470, Km 71, no 1.040, Bairro Benedito Cx. P. 191 - 89.130-000 – INDAIAL/SC Fone Fax: (47) 3281-9000/3281-9090 Reitor: Prof. Hermínio Kloch Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol Equipe Multidisciplinar da Pós-Graduação EAD: Carlos Fabiano Fistarol Ilana Gunilda Gerber Cavichioli Cristiane Lisandra Danna Norberto Siegel Camila Roczanski Julia dos Santos Ariana Monique Dalri Jóice Gadotti Consatti Marcelo Bucci Diagramação e Capa: Centro Universitário Leonardo da Vinci – UNIASSELVI Copyright © UNIASSELVI 2019 Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. SI586a Silva, Amanda Souza da Análise estatística de dados. / Amanda Souza da Silva. – Indaial: UNIASSELVI, 2019. 140 p.; il. ISBN 978-85-7141-300-9 1.Estatística empresarial – Brasil. II. Centro Universitário Leonardo Da Vinci. CDD 658.00727 Impresso por: Sumário APRESENTAÇÃO ..........................................................................05 CAPÍTULO 1 Análise Estatística de Dados no Mundo Corporativo ............ 7 CAPÍTULO 2 Princípios Fundamentais do Data Science Para Negócios ............................................................................ 49 CAPÍTULO 3 Modelagem Multivariada ........................................................... 99 APRESENTAÇÃO Dentro de uma organização, analisar a concorrência é importante, sem deixar de lado a satisfação dos consumidores, compreendendo suas expectativas e moldando seus produtos de acordo com seus interesses, e sempre manter- se atualizado sobre as tendências do mercado. Sem esses preceitos, uma empresa pode ficar obsoleta perante as inovações das demais organizações, não conseguindo alcançar de maneira eficiente os objetivos dos consumidores e, consequentemente, não atingir suas metas. Portanto, conhecer o mercado é o primeiro passo para realizar planejamentos estratégicos. Para fazer planejamentos sobre o mercado deve-se levar em consideração as variáveis que permeiam os clientes, por exemplo, suas características pessoais, dados demográficos, financeiros e outros que intensificam a chance de uma organização alcançá-los de forma direta. Para que isso seja possível, é importante utilizar as técnicas de análise de dados, pois elas auxiliam na extração das informações e identificação de padrões. Esses dados geram uma grande quantidade de informações que precisam ser processadas de forma rápida, e para isso ser possível é necessário usar uma ferramenta que seja capaz de realizar inferências de forma consolidada, esta ferramenta é denominada de Big Data Analytics. Ela auxilia uma organização a lidar com os dados coletados e utilizá-los para encontrar novas frentes. Isso leva a movimentos de negócios mais inteligentes, lucros mais altos, operações eficientes e clientes satisfeitos. Logo, para que seja possível entender os conceitos, formas de coletas e sobre a extração desses dados, este livro tem o objetivo de abordar as técnicas de estatísticas e machine learning utilizadas para explorar as informações e apoiar a tomada de decisão da organização. Com base nisso, este material foi dividido em três partes. O primeiro capítulo fala sobre técnicas de estatística descritiva, a utilização delas em um negócio. E como é realizada a inferência sobre dados. O segundo capítulo aborda os princípios e características fundamentais que envolvem Data Science para negócios. Data Science é altamente usado quando trabalhamos com um grande volume de dados. Logo, falaremos sobre as principais técnicas e conceitos usados nesta área de estudo. O terceiro capítulo trata sobre agrupamento de dados e análise multivariada. Este assunto é muito importante quando também temos um grande volume de dados, pois precisamos agrupar os dados de maneira que, no agrupamento, não sejam perdidas as características iniciais dos dados. O capítulo aborda as técnicas de como tratar esses dados de maneira a otimizar a extração e inferência das informações. CAPÍTULO 1 Análise Estatística de Dados no Mundo Corporativo A partir da perspectiva do saber-fazer, neste capítulo você terá os seguintes objetivos de aprendizagem: � Compreender a importância e as características da análise de dados para uma organização. � Compreender as principais técnicas de estatísticas utilizadas para análise de dados. � Aprender a inferir sobre as informações coletadas. � Saber usar as técnicas estatísticas para tomar decisões de um negócio. � Saber fazer inferência sobre os dados. 8 Análise Estatística de Dados 9 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 1 Contextualização Conhecer as expectativas e tendências do mercado é muito importante para que seja viável consolidar estratégias para um negócio. Para que isto seja possível, a análise de dados possui um conjunto de métodos específicos capazes de transformar um agrupamento de dados em informações que auxiliam todos os setores de uma organização. A geração de dados decorre de várias fontes, desde a opinião de usuários, clientes, internet, e por meio de todos os setores da empresa. A análise de dados fornece suporte para extrair informações e realizar inferências que tragam escopo e suporte para a tomada de decisão da organização. Através dela podemos conhecer o perfil de cliente, tendências do mercado, entre outras informações de interesse para o negócio. Através das análises estatísticas podemos analisar o perfil de cliente e ajustar os produtos desenvolvidos de acordo com o perfil encontrado. Portanto, este capítulo descreve as técnicas estatísticas usadas para extrair e retirar a maior quantidade de informações dos dados das organizações. Os métodos são úteis para realizar previsões e inferências, por exemplo, se o produto que se pretende lançar é compatível com o perfil de consumidores. Com base nisso, neste capítulo abordaremos todo o processo de análise, consolidação dos dados, gráficos e inferência, bem como a importância de fazer uso dessas técnicas em uma organização. 2 A Importância da Análise de Dados Para um Negócio À medida que o mercado se torna mais impulsionado pela tecnologia e rapidez nas informações, a análise de dados tem um papel cada vez mais importante nos negócios. Por que a análise de dados é importante? A análise de dados é uma função organizacional interna, que vai além de apresentar números para a diretoria e gerência. Ela requer abordagens mais aprofundadas para registrar, analisar e extrair dados para apresentar as informações descobertas em um formato de fácil compreensão. 10 Análise Estatística de Dados A análise de dados ajuda os gerentes de negócios a tomar decisões para impulsionar a empresa, melhorar a eficiência, aumentar os lucros e alcançar as metas organizacionais, e o seu uso traz os seguintes impactos para o negócio: 1) Melhorar a eficiência: Todos os dados coletados pela empresa não estão relacionados apenas aos indivíduos externos à organização. A maioria dos dados coletados pelas empresas é analisada internamente. Esses dados ajudam a conhecer o desempenho dos funcionários e também dos negócios. 2) Compreensão do mercado: A análise de dados permite coletar uma maior quantidade de dados de uma ampla variedade de consumidores. Por exemplo, verificar se os clientes da empresa estão satisfeitos ou não com o novo horário de atendimento da loja. 3) Redução de custos: Com a análise de dados é possível identificar as mais eficientes formas de fazer negócios.Isso é uma característica bem relevante, pois ajuda na economia dos custos de desenvolver um produto que se adéque ao padrão esperado pelo consumidor ou verificar qual o melhor local para construir um novo empreendimento. A análise de dados traz um impacto significativo nos custos, por exemplo, a empresa deseja saber antes se o produto que está prestes a ser desenvolvido irá atender às expectativas dos clientes, isto é, será mais fácil moldar o produto ao cliente, evitando possíveis erros e ajustes, e ao final reduz o custo de produção do produto. 4) Otimizar a tomada de decisão: A análise de dados pode melhorar a tomada de decisão da empresa, pois ela gera informações em tempo rápido, eficiente, e assim é possível gerenciar os prazos de entrega de relatórios com facilidade. 5) Novos produtos/serviços: Com o poder da análise de dados, as necessidades e satisfação dos clientes são detectadas mais rapidamente, e atendidas de uma maneira melhor. Isso ajuda a garantir que o produto/serviço esteja alinhado com os valores do público-alvo. 11 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 6) Conhecimento da indústria: Com as informações inferidas pode-se conhecer de maneira aprofundada o comportamento da indústria e mostrar como uma empresa pode funcionar em um futuro próximo. Cite uma forma pela qual a análise de dados pode ajudar a melhorar o desenvolvimento da empresa. Segundo Provost (2013), com o crescimento da quantidade de dados disponíveis, as empresas estão cada vez mais focadas em explorar essas informações para obter vantagem competitiva, pois com as informações coletadas podem ser feitos vários planos estratégicos que envolvam o conhecimento do perfil do cliente, para checar a maior probabilidade de acertar em um novo produto e gerar uma vantagem competitiva para o seu negócio. Podemos citar algumas vantagens, como: • Acompanhamento das fases do processo de vendas. • Conhecer os pontos fortes e fracos da organização. • Interpretar reclamações de clientes atuais, com o intuito de captar novos clientes e fidelizar os antigos. No momento em que uma corporação consegue realizar análises de dados e usufruir dos resultados alcançados, fica mais fácil entender todos os cenários em que a empresa está inserida, e isto é muito importante, pois o mercado a cada instante torna-se mais disputado, e verificar de modo ágil as variações que ocorrem deixa a organização à frente de suas concorrentes. Com a contínua evolução do mercado, estar à frente no processo de desenvolvimento de produtos e serviços inovadores com alta aceitação pelos clientes é fundamental. Agora vamos começar a estudar como podemos fazer a análise de dados! Vamos começar? A análise de dados envolve a extração de tendências, padrões e informações úteis a partir de um conjunto de dados existentes que serão inúteis se não forem analisados. É um tipo de business intelligence que é usado para obter lucros e aproveitar melhor os recursos da organização. Isso também pode ajudar a melhorar as operações gerenciais e alavancar as organizações para o próximo nível. 12 Análise Estatística de Dados Mas, antes que seja feita a análise de dados existe a fase de planejamento e coleta desses dados! É importante que seja entendida toda essa etapa inicial para que possamos prosseguir com os nossos estudos. Então, antes de fazer a análise de dados, precisamos realizar o processo de planejamento e coleta desses dados. Podemos definir esse processo como pesquisa de mercado, como aborda Pinheiro (2015), sendo um esforço organizado para coletar informações sobre o mercado ou clientes. É uma técnica muito importante da estratégia de negócios. A análise de dados é realizada com base nos dados coletados da pesquisa de mercado. A pesquisa de mercado é um dos principais métodos utilizados para manter a competitividade de uma empresa em relação aos concorrentes. Ela fornece informações importantes para identificar e analisar as necessidades, tamanho do mercado e a concorrência. A pesquisa pode ter várias frentes e o seu foco pode estar concentrado no consumidor, concorrente, fornecedor ou em qualquer situação que precisa ser investigada. Uma definição mais formal de pesquisa de mercado, segundo a Associação Nacional de Empresas de Pesquisa de Mercado (ANEP): A coleta sistemática e o registro, classificação, análise e apresentação objetiva de dados sobre hábitos, comportamentos, atitudes, valores, necessidades, opiniões e motivações de indivíduos e organizações dentro do contexto de suas atividades econômicas, sociais, políticas e cotidianas. A pesquisa de mercado é uma maneira de obter uma visão geral dos desejos, necessidades e crenças dos consumidores. Também pode envolver descobrir como eles agem. A pesquisa pode ser usada para determinar como um produto pode ser comercializado. Com base nas informações colhidas da pesquisa de mercado é possível: ● Conhecer e monitorar o mercado consumidor e concorrente. ● Dimensionar a demanda. ● Verificar a presença do público-alvo (clientes). ● Avaliar resultados de ações de marketing. ● Identificar e dimensionar problemas ou necessidades. ● Observar tendências. 13 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 ● Avaliar a satisfação dos consumidores. ● Testar produtos e estratégias antes do seu lançamento. ● Analisar as práticas da concorrência (quantidade e agressividade). ● Monitorar a dinâmica e o comportamento dos diferentes segmentos e nichos. Fatores que podem ser investigados através de pesquisa de mercado incluem: 1. Informação de mercado: Por meio das informações de mercado pode-se conhecer os preços de diferentes empresas no mercado, bem como a situação de oferta e demanda. 2. Segmentação de mercado: Dividir o mercado em subgrupos com estímulos parecidos. 3. Tendências de mercado: Os movimentos anteriores e posteriores do mercado, durante um determinado período de tempo, com o propósito de determinar o tamanho do mercado. A pesquisa de mercado ganha relevância à proporção que o mercado fica cada vez mais competitivo e as modificações no comportamento dos clientes se tornam mais rápidas e constantes, deixando o processo de decisão dos negócios da organização cada dia mais complexo. O investimento em pesquisa de mercado e análise de dados é fundamental no processo de decisões importantes da organização, e assim realizar planejamento estratégico, por exemplo: ● Auxiliar na preparação e lançamento de um produto, com base na coleta de dados sobre a satisfação de clientes em relação aos produtos e serviços anteriores que a organização gerou. ● A partir do feedback colhido, compreender de maneira satisfatória as necessidades do mercado. ● Localizar a posição que o negócio ocupa em comparação aos seus concorrentes. ● Ações de como visitar a concorrência para verificar os pontos fortes e fracos em comparação ao mercado. 14 Análise Estatística de Dados Essas informações são importantes para criar métodos de marketing, fidelização e branding, e compreender quais os produtos ou serviços que não estão gerando lucro para o negócio. Portanto, para que a análise tenha bons resultados é necessário fazer um bom planejamento, que envolve as diretrizes e finalidades das pesquisas. Pesquisas desde as mais simples até as complexas devem ser elaboradas previamente para evitar erros de todos os tipos, desde a escolha incorreta do método a ser usado, até a importância das informações obtidas para o processo decisório. A pesquisa de mercado pode ser dividida em sete etapas: 1. Definição do problema ou questões de pesquisa: a. Objetivo – quais perguntas a pesquisa vai responder. b. Público-alvo. 2. Desenvolvimento do plano de pesquisa: a. Qualmétodo de pesquisa será usado. b. Universo (é a população total que tenha a característica de interesse para ser investigada). c. Amostra (é somente uma “fatia” extraída da população de interesse, em que são feitas análises sobre a população de interesse). d. Cronograma. 3. Questionário de pesquisa: a. Elaboração e revisão das perguntas. b. Definição da forma de aplicação (correio, telefone, entrevista pessoal, e-mail, distribuição). c. Teste em pequena escala. 4. Aplicação da pesquisa: a. Seleção e treinamento dos entrevistadores (quando usado). b. Coleta de dados junto ao mercado. 5. Tabulação dos dados: a. Organização dos dados em tabelas e gráficos. b. Realização de cálculos (médias, medianas etc.) e aproximações. 6. Avaliação dos resultados: a. Análise quantitativa, qualitativa e comparativa dos resultados. b. Realização do relatório de conclusão da pesquisa. 7. Tomar as decisões de marketing: As pesquisas podem ser classificadas em: ● Qualitativa: usada para conhecer a percepção dos clientes sem quantificá-los. Nesse caso, o interesse está nas avaliações subjetivas e normalmente visa identificar as percepções humanas sobre produtos, serviços e empresas, a fim de apontar comportamentos e tendências. 15 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 ● Quantitativa: procura levantar indicadores numéricos no mercado, por isso segue rigorosos critérios estatísticos, como: amostragem, margem de erro, estimativa, desvio padrão etc. Com relação à frequência das pesquisas, temos as seguintes formas: • Pesquisas contínuas: monitoram continuamente indicadores de mercado. • Pesquisas “ad hoc”: usadas quando surgem questões específicas a responder. • Cíclicas: realizadas repetidas vezes a cada determinado período de tempo. Os resultados de uma pesquisa de mercado geralmente são apresentados na forma de relatório que é construído a partir de tabelas, gráficos e comentários mais relevantes. As informações resultantes de uma pesquisa devem ser analisadas pelos gestores da empresa, ou a pessoa que tenha propriedade para interpretar os dados obtidos, segundo a Pesquisa de Mercado (2004). Bom, vimos que antes de fazer as análises dos dados, existem algumas fases antes que precisam ser feitas! Vimos qual a finalidade de se fazer um bom planejamento. Agora, vamos estudar o que é necessário para fazer uma boa coleta de dados! Para realizar as análises de forma assertiva necessita-se realizar as perguntas certas para consolidar quais são os objetivos que o negócio deseja atingir, e depois é preciso criar meios para alcançá-los. Então, primeiramente, deve-se definir os propósitos e expectativas da organização, para que depois seja feita a coleta dos dados com base no perfil do mercado, produto ou cliente. Depois dessas fases serem concluídas e os dados serem consolidados por meio de alguma ferramenta, podemos iniciar a etapa de análise dos dados para que seja possível compará-los e identificar padrões. Mas, como pode ser feita a extração e análise de dados de forma que auxilie na tomada de decisão e gerar lucros para um negócio? Para isso existem alguns passos. 1. Realizar as perguntas certas: é necessário ter objetivos de curto, médio e longo prazo definidos, isto é, os atributos importantes de sucesso do negócio. Com base nesses atributos seremos capazes de reconhecer os pontos que 16 Análise Estatística de Dados os negócios devem seguir e evitar que sejam direcionados tempo e recursos para atividades que ao final do processo acabem não gerando os resultados esperados. A partir dos objetivos estabelecidos podemos encaminhar tempo, pessoal e investimentos para otimizar os lucros da empresa. Essas perguntas iniciais podem ser: ● Qual o perfil de cliente que a organização precisa atingir? A partir dessa pergunta é possível inferir qual o perfil de consumidor se adéqua melhor ao produto que será desenvolvido. ● O produto que estamos desenvolvendo adéqua-se a este perfil de cliente? Essa pergunta garante se o produto lançado está atraindo os consumidores traçados no perfil inicial, ou ele não teve um bom êxito entre os clientes esperados. ● Como adequar o produto ao perfil do cliente? O objetivo é traçar quais as características que o produto deve ter para se encaixar no perfil dos consumidores. ● Quais os problemas que podem surgir? Nesta pergunta devem ser elencados os possíveis problemas que podem surgir antes, durante ou depois do desenvolvimento do produto. ● Qual lucro esse produto pode gerar? Nesta pergunta é questionado qual o lucro que o produto desenvolvido pode atingir, e se ele vai estar dentro do esperado. Planejar e desenvolver o questionário correto antes de iniciar a coleta e análise de dados é imprescindível para o bom desenvolvimento da pesquisa de mercado, para tornar mais confiável e segura a forma como os dados vão ser consolidados e posteriormente inferidos. 2. Quais os objetivos de realizar uma boa análise de dados? ● Gerenciar melhor seus clientes e consumidores: para definir quais consumidores se encaixam de uma melhor maneira ao perfil de produtos que a organização produz. ● Criar soluções diferenciadas para produtos e serviços: gerar soluções com base no feedback dos clientes pode otimizar e diminuir o tempo de solução para eventuais erros de produtos e serviços. 17 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 ● Responder de forma rápida às necessidades identificadas como problemas ou potenciais problemas do negócio: com base nesse propósito pode-se diminuir os custos da empresa. ● Crescer os bons resultados: consequentemente elevar os lucros da empresa. Estas atividades são consideradamente importantes para toda gestão do negócio, pois em um ambiente que está cada dia mais globalizado, os dados ao final do processo que não gerem informações precisas direcionadas podem atrapalhar a gestão. Então, é imprescindível que as análises de dados estejam inseridas na rotina das empresas, seguindo todas as etapas do planejamento da pesquisa. Para iniciar o processo é feita a fase realização do planejamento. Ela é dividida em cinco fases: planejamento da pesquisa, coleta e análise de dados, tomada de decisão e avaliação de ação, levando a outro planejamento e assim sucessivamente. 1. Planejamento: fase de consolidação dos objetivos da organização depois de realizar as perguntas referentes ao negócio, estas questões podem ser perfil de cliente, produto ou uma nova localização para futuras instalações da organização. 2. Coleta: A partir da coleta de dados, eles são agrupados de maneira que facilite uma posterior análise. Ela auxilia a analisar ponto a ponto os fatos ou fenômenos que estão ocorrendo em uma organização, sendo o ponto de partida para a elaboração e execução de um trabalho. Existem várias formas de coletas dados: 1) Entrevista: segundo Gressler (2003), a entrevista consiste em uma conversação com o propósito de obter informações para uma investigação, envolvendo duas ou mais pessoas. As entrevistas são frequentemente usadas em pesquisa de mercado, de opinião pública. Ela é considerada uma técnica versátil, onde não consiste em um bate-papo informal, já que há o interesse em obter um conhecimento especializado. É permitido que as perguntas sejam elaboradas novamente, no momento em que o entrevistado não as compreenda da primeira vez. Essa abordagem é qualitativa. 2) Questionário: conjunto de perguntas que se faz para obter informação com algum objetivo em concreto. Cervo e Bervian (2002) apontam diversos parâmetros que caracterizam as vantagens de utilização do questionário. Afirmam também que o questionário é a forma mais usada para coletar dados, pois possibilita medir com melhor exatidão o que se deseja.18 Análise Estatística de Dados Questionários precisam de algumas regras para serem feitos: ● O questionário deve ter natureza impessoal para assegurar uniformidade na avaliação de uma situação para outra. ● Os respondentes devem se sentir confiantes, devido ao anonimato, dessa forma possibilita coletar informações e respostas mais reais (o que pode não acontecer na entrevista). Coletar dados não é uma tarefa muito simples, pois exige uma metodologia bem definida e suporte tecnológico. Então é preciso planejar e conhecer de maneira clara os objetivos da análise, e como ela pode ajudar nas decisões a serem tomadas pela empresa, antes de iniciar a coleta. Depois que as fases de planejamento e coleta são encerradas, a próxima etapa é a consolidação e análise dos dados. 3 Análise de Dados As medidas estatísticas permitem comparar grupos de variáveis relacionadas e obter um quadro simples e resumido do cenário de uma empresa, a sua aplicação em um negócio pode incentivar a reagir de modo inteligente aos acontecimentos do contexto corporativo. Inicialmente é necessário definir quais métricas serão usadas, de modo que os objetivos definidos no início da fase de planejamento possam ser atingidos. Antes de começar a análise é importante discutir se os dados do estudo são de natureza quantitativa ou qualitativa. 1. Dados quantitativos: são usados para quantificar o problema por meio da geração de dados numéricos ou dados que podem ser transformados em estatísticas utilizáveis. São usados para quantificar atitudes, opiniões, comportamentos e outras variáveis definidas e generalizar os resultados de uma amostra populacional maior. A pesquisa quantitativa usa dados mensuráveis para formular fatos e descobrir padrões na pesquisa. Métodos de coleta de dados quantitativos incluem várias formas de pesquisas, como: 19 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 1. Pesquisas on-line. 2. Pesquisas em papel. 3. Pesquisas móveis e quiosques. 4. Entrevistas presenciais. 5. Entrevistas telefônicas. 6. Estudos longitudinais. 7. Interceptadores de sites. Exemplos: rendimento mensal, números de clientes, quantidade de consumidores que aprovaram o novo produto lançado, quantidade de consumidores que não aprovaram o novo produto etc. Esses dados podem ser divididos em variáveis Discreta e Contínua: Variável Discreta: É avaliada através dos números de contagem, podendo somente utilizar números inteiros. Exemplos: ● Quantidade de clientes que aprovaram o novo produto. ● Quantidade de clientes que frequentam uma loja. ● Quantidade de clientes que compraram algum serviço bancário. ● Número de viagens realizadas dentro do Brasil. ● Número de pessoas contaminadas com o vírus HIV no mundo. Variável Contínua: São valores obtidos como resultado de medições, podendo assumir casos decimais. Exemplos: ● A altura média de uma população. ● O peso médio das crianças de uma turma. ● A pressão arterial de pessoas com mais de 60 anos. Dados qualitativos/categorias A pesquisa qualitativa é usada para revelar tendências de pensamento e opiniões. Os métodos de coleta de dados qualitativos variam usando técnicas não estruturadas ou semiestruturadas. Alguns métodos comuns incluem grupos focais (discussões em grupo), entrevistas individuais e participação/observações. Pode- se definir este tipo de variável através de categorias, com o objetivo de classificar indivíduos ou objetos. É dividida como variáveis nominais ou ordinais. Variável nominal As categorias não possuem ordenações. Exemplos: ● Cor dos olhos. ● Cor da pele. ● Fumantes ou não. 20 Análise Estatística de Dados ● Alcoólatra ou não. ● Doente ou sadio. Variável ordinal As categorias possuem ordenações. Exemplos: ● Escolaridade. ● Mês. ● Ano. ● Idade. Para tabular e organizar dados quantitativos podemos usar tabelas dinâmicas que devem conter os campos de frequência (número de respostas de uma mesma alternativa) e porcentagem (relação entre as frequências). Porém, em relação aos dados do tipo qualitativos é necessário padronizar as respostas em categorias e depois incluir suas respectivas frequências e porcentagens. Para tratar os dados coletados é preciso fazer uso de softwares específicos, em consequência dos grandes volumes de informações, e que sejam capazes de extrair informações necessárias para o negócio. As ferramentas tecnológicas são essenciais para a rotina de uma organização. O Big Data De acordo com os sites Canal Tech e Totvs, o Big Data Analytics é uma potente ferramenta que auxilia na organização de como lidar com os dados e utilizá-los para encontrar inferências. Isso leva a movimentos de negócios mais inteligentes, lucros mais altos, operações eficientes e clientes satisfeitos. A ideia é compartilhar as perspectivas de negócios de uma maneira melhor no futuro e usá-las com o conceito de análise. É uma ferramenta capaz de construir análises complexas, com base em um grande volume de dados por meio de complexos algoritmos. Big Data é a expressão que descreve o grande volume de dados estruturados e não estruturados que podem trazer grandes impactos aos negócios diariamente. Ele é formado por uma variedade de aplicações usadas para analisar dados, transformando-os em um modelo visual, como gráficos e tabelas que permitem análises sofisticadas da realidade e das tendências do negócio. Porém, ainda existem empresas que não têm a análise estatística como estratégia de gestão e isso pode significar a falta de atualização perante as tendências do mercado e seus clientes, pois a demanda do fluxo de informações acontece de maneira dinâmica. Sem o hábito da coleta e análise contínua de dados, negócios podem correr alguns riscos, como: 21 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 ● Perda de espaço no mercado e clientes. ● Desenvolver produtos em desacordo com as necessidades dos clientes. ● Não conseguir fidelizar clientes. ● Oferecer um serviço que não atenda às necessidades do mercado. Então, para que um negócio consiga manter-se de maneira competitiva no mercado, o uso da inteligência de negócios é fundamental, porque ela transforma dados em informações que têm o poder de interferir no êxito de uma organização. E para que a atividade de analisar dados tenha ao final o resultado esperado é preciso que tenha uma estratégia definida e direcionada nas diversas áreas da empresa. Cada gestor deve direcionar suas atividades nas informações originárias das análises desses dados, gerando mais produtividade. A análise de dados pode beneficiar todas as áreas da empresa, por exemplo: ● Financeira: possui uma grande aplicabilidade das pesquisas estatísticas, pois se dedica a: 1. Crescimento dos lucros. 2. Análise de custos. 3. Avaliar gastos. 4. Verificar as avaliações do mercado. 5. Análises dos processos. Portanto, é fundamental para um gestor ter uma ampla visão do negócio, para que possa tomar as devidas providências essenciais para o desenvolvimento da organização. Os números lhe fornecem interpretações com mais exatidão e permitem maior confiabilidade na ação. ● Produção: os métodos estatísticos utilizados podem verificar os dados relacionados aos produtos, aos processos ou aos funcionários. É nesta área em que há a necessidade de monitoramento, por exemplo, no controle de qualidade dos produtos. Existem gráficos, segundo Santos (2016), que demonstram a cada processo o avanço e as falhas de cada produto, permitindo parar a produção e fazer a manutenção, ou mesmo descobrir novas maneiras de realizar cada tarefa. ● Marketing: a partir do marketing a empresa passa para os clientes a sua imagem. A estatística auxilia essa área da empresa através da análise da população e amostrapara avaliar a média ou aceitação do produto através da propaganda, ou mesmo, analisar a aceitação por parte da amostra de sua propaganda (SANTOS, 2016). ● Recursos humanos: no RH usa-se os dados estatísticos para as seguintes atividades: 22 Análise Estatística de Dados 1. Testes. 2. Dinâmicas. 3. Avaliações qualitativas em suas atribuições. ● Gestão do desempenho: a importância da estatística na gestão é significativa, pois com a ajuda da estatística um gerente pode analisar: 1. Desempenho da organização em geral. 2. Produtividade dos funcionários. 3. Verificar a produtividade das unidades. 4. A tarefa concluída dos funcionários. 5. O gerente pode usar as técnicas estatísticas para melhorar a produtividade da força de trabalho e multiplicar a produção. ● Cenários alternativos: a tarefa ou a função de um gerente não termina após aumentar a produtividade dos funcionários. Um gerente tem que participar com os outros gerentes de diferentes departamentos para tomar decisões. A decisão pode ser sobre a escolha de software específico, sistemas para sistemas de pedidos automáticos de clientes etc. Com base nas informações coletadas podem ser feitas várias estratégias que envolvam o conhecimento do perfil do cliente, e isso proporciona muitas vantagens, entre elas, a redução de custos, maior probabilidade de acertar em um novo produto e gerar uma vantagem competitiva para o seu negócio. Dentre as vantagens que podem ser citadas, trata-se do acompanhamento das fases do processo de vendas, conhecer os pontos fortes e fracos da organização e interpretar reclamações de clientes atuais, com o intuito de captar novos clientes e fidelizar os antigos. 4 Processo da Análise de Dados Na seção anterior vimos como é importante fazer análise de dados e como ela pode conseguir extrair informações importantes para trazer vantagens ao negócio. Por esse motivo, fazer uso de técnicas estatísticas em uma organização é fundamental, devendo ser vista como uma das principais ferramentas da gestão de um negócio. A conclusão que podemos ter em relação a este assunto é o 23 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 fato de que analisar dados é uma maneira de redefinir os planejamentos da empresa, com o propósito de transformar os indicativos em fatores que auxiliem nas atividades do negócio. Então, agora, o nosso objetivo é descrever como é feito o processo da análise de dados. O processo tem por objetivo: 1. Elaborar toda a metodologia de como será feita a análise de dados. 2. Entender de maneira eficaz as informações coletadas do ambiente ou local de interesse. 3. Definir o estudo aprofundado de algum objeto de interesse, como a aceitação de um novo produto lançado. Portanto, a análise de dados ou também conhecida como inferência estatística são métodos que têm o objetivo da coleta, redução, análise e modelagem dos dados, com o propósito de realizar inferências para uma população da qual os dados foram obtidos (MORETTIN, 2017), a fim de identificar respostas ou soluções. Esses métodos utilizados são importantes nas mais variadas áreas, como: ● Ciências sociais. ● Saúde. ● Educação. ● Negócios. Com o desenvolvimento e evolução constante dos algoritmos computacionais é possível coletar um maior número de informações, e assim as análises estatísticas tornaram-se mais robustas, podendo extrair informações de dados complexos. Essa evolução também é possível ser vista quando utilizamos gráficos que agrupam uma maior quantidade de informações para fazer inferências. Para a implementação dessas técnicas, foram desenvolvidos pacotes estatísticos atualmente usados no meio acadêmico, bem como em negócios, bancos, órgãos do governo, assinala Morettin (2017). Esses novos softwares são capazes de interpretar grandes volumes de dados, incluindo operações como a identificação de padrões. Portanto, vamos definir a estatística como a ciência que fornece os princípios e a metodologia para coleta, organização, apresentação, resumo, análise e interpretação de dados. Por meio dela é possível: 1. Aumentar o lucro das empresas. 2. Aumentar a qualidade dos processos. 24 Análise Estatística de Dados 3. Aumentar a qualidade dos produtos. 4. Minimizar custos. 5. Tomar decisões de valor político ou econômico. 6. Aumentar a análise crítica, entre outros. 5 Conceitos Básicos Estatísticos Com o uso das técnicas estatísticas pode-se comparar grupos de variáveis relacionadas e ao final obter um cenário simples e resumido da real situação de uma empresa ou negócio. Desta forma, a aplicação da estatística na gestão de negócios estimula ter ideias de maneira inteligente aos acontecimentos do contexto corporativo. Com base na reflexão, análise e questionamento das informações encontradas, os gestores têm maiores possibilidades de tomar decisões mais assertivas ao conduzir e controlar as organizações. Isto é, a cada momento cresce a importância da estatística em um negócio, principalmente quando é preciso tomar providências e decisões a partir de seus resultados. As técnicas estatísticas são frequentemente aplicadas para resolver as seguintes situações: 1. Identificar situações problemáticas. 2. Compreender as atividades que acontecem dentro da organização. 3. Melhorar a qualidade da tomada de decisão. 4. Compreender o crescimento das vendas de produtos ou serviços que a organização fornece para seus clientes. 5. Identificar possíveis motivos de defeitos da baixa qualidade em seus produtos/ serviços. 6. Elucidar o comportamento dos clientes em relação aos seus produtos/serviços. 7. Usar métodos de localização de anomalia para identificação de fraudes. Um negócio é planejado para ter um bom lucro e crescer entre seus clientes. Para isso, o uso das análises estatísticas se faz necessário para tornar mais confiáveis e sólidas as atividades que envolvam a empresa. Logo, podemos concluir que a estatística é uma ferramenta fundamental desde o início e desenvolvimento das organizações, dado que não faz apenas a monitoração do progresso, como também para melhoria dos resultados. A estatística ajuda na escolha das estratégias a serem adotadas na organização e nas técnicas de pesquisa e análise da quantidade e da qualidade do produto e mesmo dos possíveis lucros e perdas, levando em consideração o fato de os gestores sempre procurarem novas maneiras de elevar seus lucros 25 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 e vendas, ao mesmo tempo que procuram diminuir as falhas e potenciais dificuldades. Os gestores usam a estatística com frequência para: 1. Aprimorar processos de negócios. 2. Aprimorar as estruturas do negócio. 3. Melhorar e aprimorar a distribuição dos sistemas. 4. Usar sempre métodos e fontes de dados diferentes, para ter uma maior variedade do feedback de produtos e serviços. 5. Diminuir gastos com recursos desnecessários. Então, vamos definir as estatísticas de negócios como a ciência da boa tomada de decisões em face das incertezas do mercado. A compreensão das técnicas estatísticas depende do entendimento de alguns conceitos básicos, que são bastante utilizados na área para a interpretação dos resultados. Agora, vamos começar a estudar alguns conteúdos importantes de estatística. Conforme Webster (2006): ● População: conjuntos de todos os itens ou elementos que têm pelo menos uma característica comum. Uma população estatística pode ser um grupo de elementos existentes, por exemplo, o conjunto de todos os clientes de uma organização. Outro grupo que pode ser citado é o hipotético, por exemplo, os possíveis clientes que uma empresa pode alcançar com o lançamento de um serviço novo. ● Parâmetro: característica que descreve a população. Porexemplo, podemos estar interessados pela média de clientes que frequentam uma determinada loja em um mês. E chegamos à conclusão de que a média é de 1.350 clientes, então concluímos que isso é um parâmetro, isto é, a média dos clientes. ● Amostra: subconjunto de uma parte da população que será analisada. A amostra é uma ferramenta fundamental e se bem aplicada permite que o administrador tome as decisões com confiança. ● Variável: característica da população que será analisada. ● Estimador: característica numérica estabelecida na amostra. Os conceitos acima citados se inter-relacionam, porém é preciso entender suas diferenças. Vamos analisar o próximo exemplo: Queremos analisar a quantidade de pessoas que pretendem comprar um determinado produto, e quantas pessoas não pretendem consumir esse novo produto. Temos: 26 Análise Estatística de Dados 1. População: a quantidade de pessoas analisadas. 2. Parâmetro: a quantidade de pessoas que pertencem ao perfil do produto que vai ser lançado. 3. Variável: os consumidores/clientes. 4. Dados: as informações extraídas na pesquisa. 5. Amostra: neste caso seria uma subparcela do total da população para analisar. Distribuição de Frequências Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor entendimento das informações. Como iremos agrupar esses dados? Para responder essa questão vamos estudar as distribuições de frequência. Distribuição de frequência, segundo Fonseca (1996), é uma tabela na qual são agrupados os dados coletados em um estudo. Ela pode estar em formato de lista, tabela ou gráfico, mostrando a frequência de vários resultados de uma amostra. Cada entrada na tabela contém a frequência ou a contagem das ocorrências de valores dentro de um determinado grupo ou intervalo e, dessa forma, a tabela resume a distribuição de valores na amostra. Uma distribuição de frequência nos mostra um agrupamento resumido de dados dividido em classes mutuamente exclusivas e o número de ocorrências em uma classe. É uma maneira de consolidar dados não organizados para mostrar resultados de uma pesquisa. As distribuições de frequência são usadas para dados qualitativos e quantitativos. Para uma empresa é importante usar métodos de distribuição de frequência para analisar os seus recursos de acordo com sua quantidade e classe, como: 1. Quantidade de funcionários que frequentaram a empresa no mês analisado. Assim é construída a frequência de funcionários mensal. 27 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 2. Quantidade de novos clientes durante o ano. 3. Lucros mensais da organização. 4. Quantidade de falhas no sistema por dia. Abaixo segue a definição de cada frequência: a) Frequência Absoluta (F): é o número de vezes que cada dado aparece na pesquisa. b) Frequência Relativa ou Percentual (Fr): é o resultado da divisão entre a frequência absoluta pelo número total de dados. c) Frequência Acumulada (Fa): é a soma de cada frequência com as que lhe são anteriores na distribuição. Logo a seguir temos a Tabela 1 que agrupa a percentagem dos valores investidos mensalmente. A tabela é dividida entre os meses de abril e setembro. Em cada mês é mostrada a sua frequência relativa. TABELA 1: TABELA DE FREQUÊNCIA DO VALOR INVESTIDO MENSAL Meses Valor Investido (Frequência Relativa) Abril 9,444% Maio 10,493% Junho 4,197% Julho 13,641% Agosto 16,055% Setembro 20,986% Outubro 25,184% FONTE: O autor. Agrupamento em classes Quando o conjunto de valores de dados é distribuído, isto é, os dados são bastante dispersos, fica difícil configurar uma tabela de frequência para cada valor de dados, pois haverá muitas linhas na tabela. Por conta disso, agrupamos os dados em intervalos de classes (ou grupos) para nos ajudar a organizar, interpretar e analisar os dados. 28 Análise Estatística de Dados O tamanho da amostra para alguns estudos é elevado, então, para facilitar a visibilidade da tabela é comum agrupar os valores em intervalos de classe. Desse modo, é possível resumir e visualizar um conjunto de valores sem ter a necessidade de levar em conta dados individuais. A Tabela 2 mostra a frequência de salários de uma organização. A tabela é dividida em Frequência Absoluta, Acumulada e Relativa de cada classe. TABELA 2: FREQUÊNCIA DE SALÁRIOS DE UMA ORGANIZAÇÃO Salário (em reais) Freq. Absoluta (F) Freq. Acumulada (Fa) Freq. Relativa (Fr) 1000,00 |- 1500,00 18 18 0,29 1500,00 |- 2000,00 29 47 0,43 2500,00 |- 3000,00 10 57 0,14 3500,00 |- 4000,00 4 61 0,05 4500,00 |- 5000,00 2 63 0,02 5500,00 |- 6000,00 3 66 0,06 6500,00 |- 7000,00 1 67 0,014 Total 67 FONTE: O autor. Para definir a quantidade de classes de uma Distribuição de Frequência podemos usar vários critérios. O primeiro critério é a perspicácia do próprio pesquisador, o qual tem a expertise suficiente para definir o tamanho e a quantidade de classes de cada distribuição. 29 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 Porém, a estatística fornece outros critérios, como: • Regra de Sturges. • Critério da raiz quadrada. Os tamanhos das classes não precisam ser todos iguais! a) Regra de Sturges: A regra é dada pela seguinte fórmula: b) Critério da raiz quadrada: O número de classes (k) é dado por: Uma distribuição de frequência com classe possui algumas características, como: a) Limite inferior: É o valor da esquerda. Vamos abreviar o limite inferior por Li. Na Tabela 2 o primeiro limite inferior é: 1000. b) Limite superior: É o valor da direita. Vamos abreviar o limite superior por Ls. Na Tabela 2 o primeiro limite superior é: 1500. c) Ponto médio: O ponto médio de cada classe é obtido somando os limites superior e inferior da classe e dividindo o resultado por 2. (Li - Ls)/2 d) Amplitude do conjunto de dados: A amplitude dos dados é simplesmente a diferença entre o maior e menor valor do conjunto de dados. L - xmax - xmin e) Amplitude da classe: É o tamanho correspondente ao intervalo da classe. h - Li - Ls 30 Análise Estatística de Dados 6 Gráficos Para analisar os dados de um negócio de uma maneira mais clara e assertiva e visualizar as informações mais completas, podemos usar as ferramentas de construção de gráficos. Eles identificam padrões, resultados e comparam medidas de forma mais rápida e simples, em relação a outras medidas estatísticas. Os gráficos podem mostrar o desempenho do negócio em determinado período de tempo, evidenciando os pontos que precisam ser otimizados e proporcionando aos setores da organização elaborar um planejamento eficiente, baseando-se em dados consistentes. Gráficos são métodos comuns para ilustrar visualmente os relacionamentos nos dados. A finalidade de um gráfico é apresentar dados que são muito numerosos ou complicados para serem descritos adequadamente no texto e em menos espaço. Os gráficos podem mostrar tendências dos dados coletados ou revelarem relações entre variáveis. Para gerar gráficos é preciso seguir alguns princípios: 1. A condição básica para um gráfico é que ele seja claro e legível. 2. Fornecer uma legenda clara que descreva as informações contidas no gráfico. 3. Um gráfico pode conter várias informações, como: título, nota de rodapé, campo de dados, legendas e fonte. 4. Os símbolos de plotagem precisam ser distintos, legíveis e fornecer um bom contraste entre a figura em primeiro plano e o plano de fundo. Agora vamos descrever os tipos de gráficos. a) Diagrama de dispersão: usamos para mostrar a relação entre duas variáveis. Por exemplo, vamos fazer o gráfico de dispersão para analisar a relação entre a quantidade de vendas porquantidade de clientes. Analise o Gráfico 1 a seguir. 31 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 GRÁFICO 1: GRÁFICO DE DISPERSÃO QUANTIDADE DE VENDAS X QUANTIDADE DE CLIENTES FONTE: O autor. b) Gráfico de linhas: este gráfico representa os dados contínuos como tempo, temperatura ou pressão. Ele traça uma série de valores relacionados que descrevem uma mudança em Y como uma função de X. Vamos usar um pequeno exemplo: em um banco foi avaliado o rendimento mensal de dois clientes chamados de João e Maria. O rendimento varia entre os meses de abril e outubro. Cada mês tem uma variação diferente. Então, vamos avaliar através de um gráfico de linhas o comportamento desses rendimentos. GRÁFICO 2: GRÁFICO DO RENDIMENTO MENSAL FONTE: O autor. 32 Análise Estatística de Dados c) Gráfico de barras: • Este gráfico possui colunas horizontais ou verticais. • Quanto maior o comprimento das barras, maior o valor. • Usa-se com frequência para comparar um único valor entre vários grupos, e comparar variável qualitativa ou quantitativa discreta. Com base nos exemplos dos clientes do banco vamos construir os próximos gráficos de barras. A seguir, o exemplo do gráfico horizontal para os rendimentos mensais. GRÁFICO 3: GRÁFICO DO RENDIMENTO MENSAL (HORIZONTAL) FONTE: O autor. GRÁFICO 4: GRÁFICO DO RENDIMENTO MENSAL (VERTICAL) FONTE: O autor. d) Histograma: • Este gráfico não contém intervalos entre as colunas. • Usa-se para representar dados da medição de uma variável contínua. • Os pontos de dados individuais são agrupados em classes para mostrar a frequência dos dados em cada classe. 33 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 • A frequência é medida pela área da coluna. O Gráfico 5 apresenta um exemplo de histograma do gráfico do rendimento mensal do cliente João. GRÁFICO 5: GRÁFICO DO RENDIMENTO MENSAL - JOÃO FONTE: O autor. e) Gráfico de setores (gráfico de pizza): No gráfico de setores o tamanho da fatia representa cada categoria estudada e ela é proporcional à frequência relativa de cada categoria. Cada fatia possui a sua respectiva percentagem. Agora temos o exemplo em que para os meses de abril até outubro foi calculada a percentagem do investimento de um determinado cliente. GRÁFICO 6: GRÁFICO DO RENDIMENTO MENSAL FONTE: O autor. 34 Análise Estatística de Dados É importante também escolher o tipo de gráfico correto com base no tipo de dados a serem apresentados. 1. Se as variáveis independentes e dependentes forem numéricas, o ideal é usar diagramas de linhas ou diagramas de dispersão. 2. Para variável dependente numérica, use gráficos de barras. 3. Para proporções, use gráficos de barras ou gráficos de pizza. 7 Medidas-Resumo Depois que vimos as fases iniciais do planejamento e coleta dos dados, e as maneiras como esses dados podem ser agrupados e visualizados, agora chegou o momento de estudarmos como os métodos estatísticos descritivos podem nos ajudar a avaliar os dados e extrair a maior quantidade de informações possível. Vamos lá? Quando concluímos a fase de agrupamento dos dados entramos na outra etapa do processo: a análise dos dados. Nesta fase são avaliados os dados e extraídas as informações que neles estão contidas. Porém, fica difícil avaliar todos os dados de uma única vez. Então, para facilitar nossas análises, podemos usar as medidas que resumem os dados, elas apresentam somente o valor que represente toda série dos dados (MORETTIN, 2017). Essas medidas podem ser divididas em Medidas de Posição e Medidas de Dispersão. Medidas de Posição: Método pelo qual é determinada a posição que um valor específico possui dentro de um determinado conjunto. Também denominadas como as medidas estatísticas que dão uma ideia condensada de todo o conjunto de dados, podendo ser conhecidas como medidas de localização. 35 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 Pode-se definir as medidas de dispersão como valores que representam a tendência de concentração dos dados observados. As principais medidas de tendência central são: Média, Mediana e Moda. a) Média aritmética ( ): representa uma característica do conjunto de dados. Ela fornece à empresa uma situação do quanto ela se situa em relação ao mercado. Por exemplo, ao analisar a quantidade de roupas vendidas semanalmente em uma loja, podemos ter a média geral das vendas realizadas, e assim ter um controle maior do estoque. Segundo Morettin (2017), a média é dada pela soma das observações, dividida pelo número delas. Por exemplo, a média aritmética desse conjunto de dados 3,4,7,8 é: (3 + 4 + 6 + 9) / 4 = 5,5. A fórmula do cálculo da média amostral é dada por: b) Média Aritmética Ponderada: é calculada multiplicando cada valor do conjunto de dados pelo seu respectivo peso, em seguida a soma desses valores será dividida pela soma dos pesos. É usada quando os dados estiverem agrupados, isto é, na forma de distribuição de frequências. Ou 36 Análise Estatística de Dados Depois que vimos a definição de média e média ponderada, vamos analisar alguns exemplos onde são usadas as técnicas apresentadas. A seguir temos uma Tabela 3 que apresenta as notas de uma turma de matemática depois da aplicação da prova semestral. TABELA 3 - NOTAS Aluno 1 6,7 Aluno 2 7 Aluno 3 8,7 Aluno 4 9,4 Aluno 5 5,3 Aluno 6 3,1 FONTE: O autor. Agora vamos analisar a Tabela 3 e calcular a média aritmética das notas. O cálculo é dado pela seguinte forma: Vamos estudar outro exemplo de aplicação: • Cinco baldes contêm 4 litros de água cada um. • Três baldes com 2 litros de água cada um. • E ao final, dois outros contêm 5 litros de água cada um. Se toda essa água fosse distribuída igualmente em cada um dos baldes, com quantos litros ficaria cada um? Então, como faríamos esse cálculo? 37 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 c) Mediana : Colocando os valores em ordem crescente, define-se mediana como o elemento que ocupa a posição central (FONSECA, 1996). A mediana de um conjunto de dados é o valor que divide um conjunto de dados (ordenados) em dois subconjuntos de mesmo número de elementos. Obs.: No caso de o número de elementos do conjunto for ímpar, então a mediana será exatamente o valor “do meio”. Por exemplo, na sequência de dados: 13, 11, 17, 20, 18, 21 e 20. Qual o valor da mediana? Primeiramente, temos que ordenar os valores: 11, 13, 14, 17, 18, 20 e 21. Agora, notamos que o número de elementos é igual a 7, ou seja, ímpar. Então a mediana é o valor central, no nosso caso o valor mediano é o 17. No caso de o número de elementos for par, então a mediana será exatamente a média “dos dois valores do meio”. Para a sequência de dados anterior 3, 5, 7, 9. Qual seria o valor mediano? É importante verificar que o número de elementos é par. Logo, vamos somar os elementos centrais e dividir por dois. d) Moda : Podemos definir moda, segundo Fonseca (1996), como o valor (ou valores) que ocorre com maior frequência em um conjunto de dados. Por exemplo, o salário recebido pelo maior número de empregados em uma determinada organização é considerado o salário modal. A moda pode ser definida em unimodal, bimodal, amodal e multimodal. • Unimodal: o conjunto de valores contém apenas uma única moda. Exemplo: A distribuição das notas de uma turma foi: 5,4; 7,8; 9,5; 9; 4,3; 5,1; 2,6; 8,5; 9; 9. Podemos notar que apenas a nota 9 é repetida, ou seja, o conjunto contém apenas uma única moda. Logo, o conjunto é unimodal. • Bimodal: quando um valor se repete duas vezes na mesma quantidade, chamamos de bimodal.Exemplo: Em uma distribuição de peso de 15 pessoas: 63; 67; 70; 69; 81; 57; 63; 73; 68; 63; 71; 71; 71 e 83, possui duas modas (63 e 71 kg), isto é, ela é bimodal. • Amodal: Em algumas circunstâncias no conjunto não existem valores repetidos, denominamos de amodal. 38 Análise Estatística de Dados Exemplo: O peso (em kg) correspondente a oito pessoas: 56; 78; 59; 74; 81; 82; 91 e 70 - este conjunto de valores não possui uma moda, então podemos chamar de amodal. • Multimodal: Em uma distribuição pode acontecer de vários valores se repetirem. Exemplo: Na distribuição de peso temos o conjunto de dados: 63; 67; 51; 70; 69; 81; 57; 63; 73; 68; 51; 63; 71; 71; 71; 83; 64; 64. Nesta situação temos vários valores que se repetem: 51, 63, 64 e 71. Então, neste caso temos a distribuição multimodal. 8 Medidas de Dispersão Na seção anterior estudamos as medidas de posição. Porém, usar somente as medidas de posição pode não ser muito confiável, pois os dados podem conter uma grande variedade de valores. Agora vamos estudar as medidas de posição e como elas se comportam. Segundo Morettin (2017), resumir o conjunto de dados por uma única medida de posição central pode esconder informações importantes sobre a variabilidade do conjunto de observações. As medidas de posição servem para verificar a representatividade das medidas de posição, pois é muito comum encontrar distribuições que possuem a mesma média, porém são compostas de maneira diferentes (FONSECA, 1996). Vamos analisar as distribuições: a) 17, 17, 17, 17, 17 b) 15, 10, 10, 20, 30 A média dos conjuntos a e b é igual a 17. O conjunto “a” possui a média inteira concentrada em 17, enquanto os valores do conjunto “b” se dispersam em torno do mesmo valor. Isto é, os conjuntos contêm dispersões diferentes. Nesta seção iremos discutir sobre as principais medidas de dispersão. Elas são citadas a seguir: a) Amplitude Total ( ) É a diferença entre o maior e o menor valor da série. Logo, podemos definir como 39 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 Exemplo: Para a série 5, 12, 15, 30, 40 Entretanto, a amplitude total é muito limitante, visto que depende apenas dos valores extremos, e não é afetada pela dispersão dos valores internos (FONSECA, 1996). b) Desvio médio ( ): é definido como sendo a distância entre qualquer valor do conjunto de dados em relação à média aritmética do conjunto de dados. = ( x - ). c) Desvio Padrão (S): é a medida que fornece o grau de dispersão de um conjunto de dados. Ele indica o quanto uma distribuição de dados é uniforme. Um desvio padrão elevado significa que os dados se espalham mais amplamente a partir da média, em que um desvio padrão baixo sinaliza que mais dados se alinham com a média. O objetivo é determinar a dispersão dos valores em relação à média. Sua fórmula é expressa pela raiz quadrada da média aritmética dos quadrados dos desvios, isto é: Quanto mais próximo de 0 for o desvio padrão, mais homogêneos são os dados. Em que: • representa cada uma das observações do conjunto de dados; 40 Análise Estatística de Dados • é a média do conjunto de dados; • n é o número total de observações do conjunto de dados. Exemplo: A quantidade de retrovisores de moto vendidos em uma loja durante uma semana teve a distribuição: 10, 14, 13, 15, 16, 18 e 12 retrovisores. Agora vamos calcular o desvio padrão: Então, podemos concluir que a loja pode ter vendido 2,65 retrovisores a mais ou a menos em torno da média. d) Variância ( ): definimos a variância como a medida de dispersão que mostra a distância de cada valor do conjunto de dados em relação à média desse conjunto. A variância é o valor do desvio-padrão elevado ao quadrado, isto é, . Exemplo: Vamos usar os mesmos valores do exemplo anterior. Neste caso a variância será dada por: É importante salientar que variância tem o propósito de mensurar o distanciamento de seus dados ou observações em relação à média. Com base nestas análises a empresa pode inferir quando seus parâmetros estão fora do esperado, isto é, quando um produto não está sendo produzido como especificado, por exemplo. 41 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 Por exemplo, como podemos usar a variância para otimizar a produção de uma empresa? Em uma linha de produção de cabos de ferro pode ocorrer uma pane na máquina que molda o tamanho ou espessura dos cabos. Então, vai haver uma variação do formato dos cabos, que modificará o resultado final esperado. Como podemos verificar estatisticamente esse erro? e) Coeficiente de Variação (cv): medida usada para comparar a variação de conjuntos de dados que diferem na média ou são medidos em grandezas diferentes (unidades de medição diferentes). O coeficiente de variação é definido como o quociente entre o desvio-padrão e a média, sendo expresso em porcentagem Exemplo: Vamos usar os mesmos dados do exemplo dos retrovisores. Neste caso o coeficiente de variação é dado por: Isto é, a variabilidade é de 18,93% dos dados em relação à média. f) Percentis: denominamos percentis as medidas que dividem a amostra em 100 partes iguais (FONSECA, 1996). Como citado em seções anteriores, a mediana divide em duas partes iguais o conjunto de dados, isto é, fraciona em 50% dos dados. Mas existem outras divisões dos valores que podem apresentar quaisquer posições em uma distribuição ordenada de dados. Como: ● 1º percentil determina o 1% menor dos dados. ● 25º percentil é o primeiro quartil. ● 50º percentil é a mediana. ● 10º percentil é o primeiro decil. 42 Análise Estatística de Dados Os Percentis mais usuais são chamados de Quantis. g) Quantis: em algumas situações a média e o desvio padrão não são medidas adequadas para representar um conjunto de dados (MORETTIN, 2017), pois: ● Pode ser facilmente afetado por valores extremos. ● Apenas com esses dois valores não é possível ter ideia da simetria ou assimetria da distribuição dos dados. Então, com o propósito de contornar esses problemas, usa-se com frequência os quartis, dividindo-se um conjunto de valores em quatro partes iguais. Logo: ● 1º Quartil (Q1): divide 25% dos elementos. O valor é situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. ● 2º Quartil (Q2): divide os dados em 50%, isto é, o valor da mediana. O valor é situado de maneira que deixa metade (50%) dos dados à esquerda dele e a outra metade à direita. ● 3º Quartil (Q3): é o valor situado na série, onde as três quartas partes (75%) dos dados são menores e uma quarta parte restante (25%) é maior. Os quartis de um conjunto de dados podem ser representados graficamente por BoxPlots (MORETTIN, 2017). Um gráfico pode ser horizontal ou vertical. A Figura 1 apresenta um exemplo de gráfico Boxplot. FIGURA 1: BOXPLOT FONTE: <http://www.portalaction.com.br/sites/default/files/resize/ EstatisticaBasica/figuras/boxplot1-700x354.png> Acesso em: 12 out. 2018. 43 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 Os limites do boxplot são calculados da seguinte forma: Limite inferior: Q1-1,5*(Q3-Q1) Limite superior: Q3+1,5*(Q3-Q1) Vamos conceituar algumas características deste tipo de gráfico: • Boxplot é formado pelo primeiro e terceiro quartil e pela mediana. • Os valores da amostra compreendidos entre o 1º e o 3º quartis são representados por um retângulo (caixa) com a mediana indicada por uma barra. • Esse gráfico também pode identificar os dados de outliers. O espaçamento entre as diferentes partes da caixa indica o grau de dispersão e se a distribuição de dados é simétrica ou inclinada.O boxplot também pode ser usado para comparar dois ou mais grupos, em que duas ou mais caixas são colocadas lado a lado e se compara a variabilidade entre elas. Outliers Outliers: O que são? Acesse o site para saber mais! <https://goo.gl/v7uXge> Acesso em: 10 out. 2018. As observações que apresentam um grande afastamento das restantes ou são inconsistentes com elas são habitualmente designadas por outliers. Estas observações são também designadas por observações “anormais”, contaminantes, estranhas, extremas ou aberrantes. A diferença entre os quartis (Q3-Q1) é uma medida da variabilidade dos dados. 44 Análise Estatística de Dados Agora vamos analisar um exemplo. A Tabela 4 contém dados retirados de uma fábrica de usinagem, e estamos com interesse de investigar se os dados contêm outliers. TABELA 4: DADOS DE USINAGEM Usinagem 903,88 1036,92 1098,04 1011,26 1020,70 915,38 1014,53 1097,79 934,52 1214,08 993,45 1120,19 860,41 1039,19 950,38 941,83 936,78 1086,98 1144,94 1066,12 FONTE: <https://goo.gl/eAgi1o> Acesso em: 14 dez. 2018. FIGURA 2: BOXPLOT – DADOS DE USINAGEM FONTE: <http://www.portalaction.com.br/sites/default/files/resize/ EstatisticaBasica/figuras/ex3.1.1-750x371.png> Acesso em: 12 out. 2018. Também podemos usar vários boxplots no mesmo momento. Quando queremos analisar mais de uma variável é possível colocar vários no mesmo gráfico. Vamos analisar o seguinte exemplo: Uma indústria produz uma peça automotiva cujo valor de referência é 75cm. Após verificar lotes com peças fora de especificação, enviaram duas equipes 45 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 de trabalhadores (A e B) para um treinamento. Para verificar a eficiência do treinamento, foram selecionadas 10 peças produzidas pelas equipes A e B e 10 peças produzidas pelas equipes C e D que não participaram do treinamento. TABELA 5: TAMANHO DAS PEÇAS A B C D 75,27 74,93 74,94 74,75 75,93 73,34 75,98 76,75 75,33 74,72 75,25 74,65 76,95 74,04 75,61 76,78 74,58 74,53 75,44 74,94 75,47 75 74,2 74,74 75,01 75,32 74,62 74,92 73,6 76,18 76,44 72,58 75,71 74,05 75,35 75,46 74,85 75,33 76,84 72,86 FONTE: <http://www.portalaction.com.br/sites/default/files/resize/ EstatisticaBasica/figuras/ex3.1.3-500x500.png> Acesso em: 12 out. 2018. FONTE: <http://www.portalaction.com.br/estatistica- basica/31-boxplot> Acesso em: 12 out. 2018. FIGURA 3: BOX PLOT DO TAMANHO DAS PEÇAS 46 Análise Estatística de Dados Atividades de Estudos: 1) Marque verdadeiro ou falso para as opções. População: Conjuntos de todos os elementos que possuem pelo menos uma característica comum. Porém, todos os seus elementos têm que ser novos. ( ) Amostra: Característica que descreve a população. ( ) Variável: Atributo que deve ser analisado da população. ( ) Estimador: Característica numérica estabelecida na amostra. ( ) Qual a sequência correta? a) FFVV. b) FVVV. c) VVVV. d) FFVF. 2) Como poderíamos classificar uma variável quantitativa: a) São usados para quantificar o problema por meio da geração de dados numéricos. b) São usados para quantificar o problema por meio da geração de dados, onde os problemas somente podem conter duas variáveis. c) Dados quantitativos podem ser usados para dados numéricos, porém não pode ultrapassar o limite de 100 dados. d) Os estudos com variáveis quantidade não produzem resultados bons, por esse motivo não têm respaldo junto com a comunidade científica. 3) Sobre as distribuições de frequência, marque a opção correta. a) É uma forma de agrupar os dados coletados em um estudo. b) É uma forma de agrupar os dados coletados do estudo, porém somente em formato de gráfico. c) Nas distribuições de frequências podemos somente usar tabelas de dupla entrada. d) As distribuições de frequências não são aconselháveis para usar em uma empresa, por conta da sua falta de consistência. 47 Análise Estatística de Dados no Mundo Corporativo Capítulo 1 4) Qual dos gráficos citados abaixo podemos usar para verificar a relação entre as variáveis? a) Dispersão. b) Linha. c) Pizza. d) Coluna. 5) Qual a medida que mostra o grau de variação dos dados? a) Desvio-padrão. b) Desvio-médio. c) Média. d) Moda. Algumas Considerações Este capítulo apresentou conceitos sobre a importância da análise de dados e como ela é fundamental para o negócio. Com base nas informações extraídas da análise de dados, a organização pode ficar à frente de suas concorrentes, acompanhar as tendências do mercado e auxiliar na tomada de decisão de todas as áreas da empresa. Podendo montar estratégias que têm o foco no cliente, produto, ou alavancar os lucros. No início do capítulo apresentamos todos os conceitos e ferramentas que fornecem a pesquisa de mercado. Ela proporciona meios de consultas de opiniões, como entrevista e questionário, e a partir deles podemos conhecer o ponto vista que os consumidores podem ter de um produto que está em fase de desenvolvimento ou sobre o perfil de uma organização no geral. Depois discutimos as formas de consolidar os dados coletados e sobre os principais conceitos da estatística descritiva. Vimos como ela fornece técnicas voltadas para fazer a extração das informações e gerar relatórios confiáveis. Ao usar técnicas estatísticas como a média é possível fazer comparações entre a organização e seus concorrentes, e com a variância podemos verificar se os produtos produzidos estão de acordo com as especificações da empresa. Com os gráficos podemos analisar de forma mais simples o comportamento das informações e fazer inferências sobre os dados colhidos. Porém, sempre que utilizarmos gráficos é essencial que juntamente a eles tenha alguma técnica de estatística, pois é somente dessa maneira que podemos garantir a confiança na análise. 48 Análise Estatística de Dados Referências AZEVEDO, Gustavo Carrer. Pesquisa de Mercado: São Paulo: Sebrae, 2004. 14 slides, color. Disponível em: <http://www.portalaction.com.br/sites/default/files/ resize/EstatisticaBasica/figuras/ex3.1.3-500x500.png>. Acesso em: 12 out. 2018. BRASIL, Critério de Classificação Econômica. Associação Nacional de Empresas de Pesquisa. Dados com base no levantamento socioeconômico, 2000. CERVO, Amado; BERVIAN, Pedro A. Metodologia científica. São Paulo: Prentice Hall, 2002. p. 242. DOS SANTOS, Bruna Maria et al. A importância e o uso da estatística na área empresarial: uma pesquisa de campo com empresas do município de Elói Mendes-MG, 2016. FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de estatística. São Paulo: Atlas, 1996. GRESSLER, Lori Alice. Introdução à pesquisa: projetos e relatórios. São Paulo: Loyola, 2003. MORETTIN, Pedro Alberto; BUSSAB, WILTON OLIVEIRA. Estatística básica. Editora Saraiva, 2017. PINHEIRO, Roberto Meireles. Pesquisa de mercado. Editora FGV, 2015. PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.", 2013. TECH, Canal. Big Data: Entenda as principais vantagens de utilizar na sua empresa. Disponível em: <https://canaltech.com.br/big-data/o-que-e-big-data>. Acesso em: 7 out. 2018. TOTVS. O que é Big Data? Disponível em: <https://www.totvs.com/blog/big- data/>. Acesso em: 7 out. 2018. WEBSTER, A. L. Estatística aplicada à Administração e Economia; São Paulo: McGraw-Hill, 2006. CAPÍTULO 2 Princípios Fundamentais do Data Science Para Negócios A partir da perspectiva do saber-fazer, neste capítulo você terá os seguintes objetivos de aprendizagem: � Entender os processos fundamentais e elencar suas diferenças principais, das ferramentas usadas no DataScience. � Aprender as técnicas de mineração de dados. � Aprender os fundamentos da modelagem de dados. � Aprender sobre a técnica de modelos de regressão. 50 Análise Estatística de Dados 51 Princípios Fundamentais do Data Science Para Negócios Capítulo 2 1 Contextualização A aprendizagem supervisionada pode ser usada em vários contextos como, por exemplo, para classificar clientes em potenciais devedores ou não devedores, ou prever a chance de os clientes do negócio aprovarem a atualização de um aplicativo interno. As técnicas de classificação e previsão são as mais usadas no aprendizado supervisionado, porém elas precisam de dados a priori para que possam fazer as análises. Nem sempre temos dados a priori de um evento, por exemplo, tentar classificar em grupos a quantidade de clientes que irão consumir o novo produto fabricado. Neste caso não temos os dados iniciais da qualidade e aceitação desse produto por parte dos clientes, pois ele é novo e não tem informação, é preciso um tempo para que esses dados sejam coletados e seja feita uma análise supervisionada. Então, nestes casos (que não são poucos) usamos o aprendizado não supervisionado. Essa técnica não necessita de dados a priori. Na aprendizagem supervisionada temos uma ferramenta importante, chamada mineração de dados. Ela pode ser definida como o processo capaz de encontrar erros, padrões e correlações em grandes volumes de dados para extrair informações e prever resultados. Com base nesta técnica podemos avaliar lucros, reduzir custos e aperfeiçoar o relacionamento entre clientes e empresa. O processo da mineração de dados contém vários estágios que variam desde a aplicação da tecnologia da informação (TI), com uso de algoritmos automatizados e avaliação de padrões a partir da inferência realizada nos dados, até o conhecimento prévio dos objetivos de uma organização que um analista deve possuir. Este último é de grande importância, pois somente uma pessoa com experiência do negócio pode avaliar de maneira concreta os dados extraídos com a mineração. No segundo capítulo introduzimos os conceitos de aprendizagem supervisionada e não supervisionada. No terceiro capítulo abordaremos todo o processo de mineração de dados. Neste capítulo são introduzidas as etapas de mineração de dados, e discutimos os tipos comuns de tarefas de mineração. No quarto capítulo falaremos sobre os modelos de regressão, técnica de estatística usada para fazer previsões. 52 Análise Estatística de Dados 2 Aprendizagem Supervisionada e Aprendizagem não Supervisionada Iniciaremos o capítulo com um exemplo: Vamos considerar duas questões que podemos perguntar para os clientes de uma organização. A primeira é: “Nossos clientes espontaneamente se enquadram em diferentes grupos?” Por exemplo, eles se dividem em clientes que aprovam o serviço (Grupo 1) ou clientes que não aprovam os serviços oferecidos (Grupo 2). A princípio não foi feito um critério de divisão ou agrupamento dos clientes. Eles naturalmente se enquadram nos dois grupos. Logo, para a mineração de dados podemos resolver esse problema a partir de uma aprendizagem não supervisionada. Agora vamos analisar a próxima pergunta. “É possível encontrar grupos de clientes que têm uma maior probabilidade de cancelar o serviço antes do vencimento de seus contratos?” Bom, para essa pergunta temos um critério: encontrar grupos de clientes que têm uma maior probabilidade de cancelar o serviço antes do vencimento de seus contratos. Aqui temos um grupo definido: O cliente sairá antes do contrato terminar? Neste caso, o agrupamento está sendo feito pelo motivo específico: tomar medidas com base na probabilidade de o cliente cancelar o serviço. Podemos chamar esse tipo de problema de mineração de dados de aprendizagem supervisionada. A diferença entre essas perguntas é sutil, porém muito importante: Se já existir uma forma a priori de separar esses grupos, o problema pode ser formulado como um aprendizado supervisionado. 53 Princípios Fundamentais do Data Science Para Negócios Capítulo 2 2.1 Aprendizagem Supervisionada Uma forma intuitiva de pensar sobre a extração de padrões de dados em uma maneira supervisionada é tentar segmentar a população de estudo em subgrupos que têm diferentes valores para a variável de destino e, segundo Provost (2013), dentro do subgrupo as instâncias têm valores para a variável de destino. A segmentação pode fornecer um conjunto de padrões de segmentações compreensíveis. Vamos analisar o seguinte exemplo: Suponhamos que queremos fazer um estudo que envolva os profissionais de meia idade que moram em São Paulo, e inicialmente foi coletado que em média temos uma taxa de 5% de fumantes dentro dessa população. Especificamente, o termo “profissionais de meia-idade que moram na cidade de São Paulo” é a definição do segmento de interesse (que faz referência a alguns atributos) e “uma taxa de fumantes de 5%” descreve o valor previsto da variável-alvo para o segmento. Em muitos estudos o interesse é aplicar a mineração de dados quando temos muitos atributos e não tenho certeza exatamente do que os segmentos devem ser. Exercício proposto: Em nosso problema de previsão de fumantes, quais são os melhores segmentos para prever o câncer de pulmão? Bom, agora vamos analisar alguns conceitos fundamentais: ● Como podemos julgar se uma variável contém informações importantes sobre a variável de destino? ● Quantas variáveis serão necessárias? 54 Análise Estatística de Dados Para responder essas perguntas é necessário primeiramente analisar o banco de dados, e quais informações queremos extrair, ou seja, a expertise do pesquisador é fundamental para que sejam extraídas as variáveis de interesse do estudo. Voltando ao problema dos fumantes, consideremos apenas a seleção do atributo mais informativo. Então, como escolheremos esse atributo? Quais das variáveis abaixo podem ser escolhidos como atributo? ● Histórico familiar? ● Tipo de trabalho? ● Local de residência? ● Renda? ● Idade? O primeiro passo é examinar de forma cuidadosa uma maneira útil de selecionar variáveis informativas e, em seguida, a partir dessa técnica, pode ser usada repetidamente para construir uma segmentação supervisionada. As variáveis multivariadas para segmentação supervisionada são apenas uma aplicação para selecionar variáveis informativas. Quando temos conjuntos muito grandes de atributos, pode ser útil selecionar um subconjunto de atributos informativos. Fazer isso pode reduzir substancialmente o tamanho de um conjunto de dados, e podemos melhorar a precisão do modelo resultante. Analisaremos mais um exemplo: O próximo exemplo pertence a Provost (2013, p. 57). Para mostrar o uso do ganho de informação vamos usar um exemplo simples, do repositório de conjunto de dados de aprendizado de máquina da Universidade da Califórnia em Irvine. Esse conjunto de dados descreve cogumelos comestíveis e venenosos retirados do Audubon - Guia de Campo da Sociedade para Cogumelos Norte-Americanos. A partir da descrição: 55 Princípios Fundamentais do Data Science Para Negócios Capítulo 2 ● Este conjunto de dados inclui descrições de amostras hipotéticas correspondentes a 23 espécies de cogumelos. ● Cada espécie é identificada como definitivamente comestível, definitivamente venenosa, ou de comestibilidade desconhecida e não recomendada. ● Esta última classe foi combinada com a venenosa. ● O Guia claramente afirma que não há regra simples para determinar a comestibilidade de um cogumelo; Para mais informações sobre a pesquisa e a Universidade da Califórnia, em Irvine, acesse o site: <http://archive.ics.uci.edu/ml/
Compartilhar