Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disciplina: Análise de dados Aula 2: Etapas para a realização de uma análise de dados Apresentação Diariamente, os meios de comunicação apresentam informações, como: a taxa média de juros, pessoa física, foi de 6,91% ao mês; 65% dos brasileiros, pelo menos uma vez por mês, fazem compra online; a construção civil caiu 0,8% no segundo trimestre, ante os primeiros três meses do ano de 2018; uma pesquisa realizada com 2.225 empresas de todos os portes mostrou que apenas 48% das empresas industriais do país utilizam pelo menos uma tecnologia digital. Todos esses resultados foram obtidos por meio de uma análise de dados, que podem ser provenientes de fontes como: levantamentos observacionais, levantamentos amostrais ou planejamento de experimentos. Nessa aula, abordaremos quais são os passos necessários para a coleta e análise de dados e, também, compreenderemos como podemos classi�cá-los de acordo com as escalas de mensuração. Além disso, analisaremos dados qualitativos por meio de tabelas e grá�cos. Objetivos Identi�car fontes de obtenção de dados; Classi�car os dados de acordo com sua escala de mensuração; Analisar dados qualitativos. Fontes de obtenção de dados Quando realizamos um estudo com o objetivo de extrair informações e tomar decisões com base em dados, precisamos seguir uma estrutura natural que nos auxilia na análise e interpretação dos dados coletados. De�nição do problema e objetivos Dados Tabelas Grá�cos Obter resultados e tirar conclusões Figura 1 - Estrutura para coleta, análise e interpretação de dados Esse passo a passo se faz necessário, pois os dados precisam ser coletados de forma planejada para que possamos fazer análises e obter conclusões con�áveis. E cabe à ciência Estatística utilizar técnicas para coletar, organizar, descrever, analisar e interpretar dados. A partir da de�nição do problema e dos objetivos da pesquisa e/ou estudo é que decidimos a fonte de levantamento dos dados. Quando, por exemplo, estamos interessados em realizar uma pesquisa de intenção de voto, conhecer o per�l de consumidores de determinado produto ou fazer a inspeção da qualidade em um lote de peças produzidas, realizamos um levantamento observacional. Nesse tipo de levantamento, as características de interesse na pesquisa são observadas ou medidas sem manipulação dos elementos (pessoas, objetos, animais etc.) que foram estudados. Agora, em planejamento de experimentos os elementos são manipulados para se avaliar o efeito de diferentes tratamentos. Exemplo Podemos citar, como exemplo, ensaios clínicos em medicina em que o objetivo é testar se um novo medicamento é e�caz ou não no tratamento de certa doença. Ou, veri�car quais dos fatores como tempo de hidratação, dosagem de cimento, qualidade do cimento e uso de aditivos mais interferem na resistência à compressão de um concreto. Após a de�nição de se trabalhar com um levantamento observacional ou um planejamento de experimentos, temos que decidir quem e quantos serão os elementos em estudo. Para isso, temos que saber os conceitos de população e amostra. Clique nos botões para ver as informações. População é o conjunto formado por todos os elementos que contém a característica que temos interesse em estudar. Dessa maneira, a população pode ser todos os habitantes da cidade de São Paulo, todas as placas de computadores manufaturadas por uma empresa em determinado tempo ou todos as pessoas que sofrem de determinada doença. Na maioria dos estudos e pesquisas é impossível trabalhar com toda a população de interesse, pois: as populações são muito grandes gerando custo e demora para analisar todos os seus elementos e muitas vezes há a impossibilidade física de se examinar toda a população, como no caso de análise de sangue de uma pessoa ou em um experimento para testar a qualidade de fósforos fabricados por um empresa. Testando todos os fósforos, teríamos um experimento destrutivo! População Amostra é um subconjunto da população de interesse, geralmente com dimensão muito menor, que conterá os elementos que serão utilizados no estudo. A seleção desses elementos dependerá de fatores como o grau de conhecimento que temos da população e a quantidade de recursos disponíveis. Amostra A área da Estatística que utiliza dados amostrais para tirar informações e conclusões da população de interesse é denominada Inferência Estatística. Vale ressaltar que os resultados obtidos na aplicação de técnicas da inferência estatística dependem da qualidade da amostra, que deve ser representativa da população da qual foi extraída. A Figura 2 apresenta os conceitos de população, amostra e as principais aplicações da inferência estatística utilizadas com dados amostrais. Figura 2 – Principais aplicações da inferência estatística. Fonte: Elaboração própria, com base em Portal Action. Saiba mais Em Portal Action - Inferência <http://www.portalaction.com.br/inferencia-0> , você aprende mais sobre essa área da estatística. http://www.portalaction.com.br/inferencia-0 Os levantamentos amostrais podem ser obtidos por meio de técnicas probabilísticas e não probabilísticas. As técnicas probabilísticas têm a vantagem de se poder medir a precisão da amostra obtida. A amostragem probabilística mais usada e mais fácil para selecionar uma amostra é a amostragem aleatória simples .1 Tipos de variáveis Com o planejamento para a coleta dos dados bem de�nido, vem a pergunta: O que vamos estudar de cada um desses elementos? Essa resposta está totalmente relacionada à de�nição do problema de�nido na estrutura apresentada na Figura 1. A(s) característica(s) de interesse no estudo e/ou pesquisa é chamada de variável e a escolha dela(s) é feita com o objetivo de se chegar a alguma conclusão do problema que foi de�nido. E, são as respostas obtidas para cada variável que geram os dados que serão analisados. Quando coletamos dados referentes à variável ou às variáveis em estudo, podemos obter respostas numéricas ou não numéricas. É intuitivo pensar que quando as respostas são: NUMÉRICAS Dados quantitativos NÃO NUMÉRICAS Dados qualitativos Como os dados são provenientes das variáveis em estudo, podemos classi�car as variáveis da mesma forma: variáveis qualitativas (ou categóricas) ou quantitativas. Tipos de variáveis Variáveis qualitativas Qualitativas ordinais Se existir uma ordenação natural, elas são classi�cadas como. Variáveis quantitativas Quantitativas discretas São resultantes de uma operação de contagem, assumindo respostas cujos números são inteiros. http://estacio.webaula.com.br/cursos/go0022/aula2.html Qualitativas nominais Se não existir uma ordenação natural, elas são classi�cadas como. Quantitativas contínuas São resultantes de mensurações, assumindo valores que pertencem a um intervalo de números reais, ou seja, números decimais. Figura 1.3: Classificação das variáveis. Fonte: Elaborada pelo autor. Podemos atribuir códigos numéricos às categorias de respostas de algumas variáveis qualitativas. Exemplo Por exemplo, para a variável gênero podemos associar o código 1 para o sexo feminino e 2 para o sexo masculino. Mas, isto não a torna uma variável quantitativa, ou seja, não podemos, por exemplo, calcular uma média dessas respostas, pois não conseguiríamos interpretar o resultado obtido. Na engenharia de qualidade, é comum a terminologia dados de atributos ou de variáveis. Os dados de atributos se referem às variáveis quantitativas discretas e os dados de variáveis às variáveis quantitativas contínuas. Vejo o exemplo a seguir e classi�que as variáveis. Em seguida, con�ra as respostas e con�rme se entendeu a explicação. Atividade 1. Vamos classi�car as variáveis a seguir: Variável quantitativa discreta Variável quantitativa contínua Variável qualitativa ordinal Variável qualitativa nominal Variável qualitativa nominal 1 2 3 4 5 Gabarito comentado a) Tipos de concretos aplicados em projetos de construção, cujas possíveis respostas são: convencional, usinado, armado, protendido etc. b) Qualidadede um produto, cujas possíveis respostas são: conforme e não conforme. c) Avaliação de um serviço prestado, cujas possíveis respostas são: péssimo, regular, bom, muito, bom, excelente. 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 d) Número de peças defeituosas em um lote, cujas possíveis respostas são: 0, 1, 2, 3... e) Diâmetro de uma peça, cuja resposta pode assumir um valor decimal. 1 2 3 4 5 1 2 3 4 5 Atenção Compreender as classi�cações das variáveis é muito importante, pois as técnicas estatísticas que podemos utilizar variam de acordo com a natureza dos dados. Veja na �gura a seguir as técnicas que podemos utilizar para a análise exploratória dos dados. Figura 4: Análise exploratória de dados. Fonte: Elaborada pelo autor. Dica Em um primeiro momento, focamos na análise univariada, em que cada varíavel é estuda separadamente Podemos, no entanto, ter o interesse em explorar possíveis associações entre pares de variáveis (análise bivariada), tema que vamos estudar em próximas aulas. Organização de dados qualitativos O que fazer depois de coletarmos os dados (qualitativos ou quantitativos)? Com o conjunto de dados brutos em mãos, é chegado o momento de organizá-los e apresenta-los de forma devida. Muitas vezes, armazenam-se os dados brutos em alguma planilha eletrônica (em que cada coluna se refere a uma variável e em cada linha estão as respostas dos elementos que �zeram parte do estudo). Quando o conjunto de dados se apresenta dessa maneira, �ca difícil a identi�cação de características importantes presentes nos dados. Então, o primeiro passo para organizar e apresentar os dados com o objetivo de se conhecer o comportamento da variável em estudo é construir uma tabela denominada distribuição de frequências. Mas, o que é uma distribuição de frequências? Distribuição de frequências é uma tabela em que se resumem grandes quantidades de dados, determinando o número de vezes que cada dado ocorre (frequência) e a porcentagem com que aparece (frequência relativa). A frequência relativa é obtida dividindo a frequência de cada categoria pelo número total de observações. Exemplo Uma empresa que produz revestimentos para o teto interno de carros de passageiros tem como objetivo identi�car os defeitos predominantes e encontrar as causas. Em uma amostra de 40 tetos que apresentaram problemas, os resultados obtidos foram: RT TD TD FQ EXI EXI RT FQ RT EXI FQ FQ FQ FQ EXI FQ FQ FQ FQ EXI FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ FQ Em que: RT: Rasgos no tecido. TD: Tecido descolorido. FQ: Placa de �bra quebrada. EXI: Extremidades irregulares. Exemplo Por meio do conjunto de dados brutos, vamos organizar os dados em uma distribuição de frequências. Distribuição de frequências dos tipos de defeitos encontrados. Tipo de defeito Frequência Frequência Relativa (%) Rasgos no tecido 3 7,5 Tecido descolorido 2 5,0 Placa de fibra quebrada 30 75,0 Extremidades irregulares 5 12,5 Total 40 100,0 Podemos observar, por meio da distribuição de frequências, que o defeito predominante encontrado nessa amostra é referente à placa de �bra quebrada, correspondendo a 75% dos defeitos encontrados. Um diagrama de causa e efeito pode ajudar a identi�car as causas potenciais para esse problema. (Fonte: Robert Kneschke / Shutterstock) Métodos grá�cos Os grá�cos apropriados para representar dados qualitativos são: barras, setores ou Diagrama de Pareto. As informações contidas em um grá�co também estão em uma distribuição de frequências. Mas, muitas pessoas acham mais fácil interpretar grá�cos do que tabelas. Na construção de um grá�co, devemos ter o cuidado de: Evitar construir grá�cos com uso excessivo de �guras que podem ocultar a informação que se deseja transmitir. Incluir título abaixo da ilustração. Colocar título nos eixos. Legendas explicativas devem aparecer, de preferência, à direita da �gura. Começar a escala para o eixo vertical em zero. Utilizar uma escala constante. Grá�co de barras O grá�co de barras é muito utilizado para variáveis qualitativas (categóricas), em que cada barra representa a identi�cação de cada uma das categorias da variável em estudo. O comprimento de cada uma das barras representa a frequência absoluta ou a frequência relativa (%) de cada categoria. As barras podem estar na posição vertical ou horizontal. As barras na posição horizontal facilitam a leitura nos casos em que as categorias têm nomes extensos. Há, também, a possibilidade de se utilizar barras paralelas para ilustrar respostas de duas ou mais variáveis qualitativas. Exemplo Uma pesquisa realizada pelo Fórum Econômico Mundial, The Future of Job Report – 2018, analisou 20 diferentes economias e 12 setores da indústria e mapeou onde e como devem surgir (ou começar a desaparecer) postos de trabalho, habilidades e ferramentas. O grá�co a seguir apresenta os resultados obtidos na divisão de trabalho em humanos e máquinas no período 2018- 2022. Divisão de trabalho entre humanos e máquinas Fonte: Adaptado de World Economic Forum <http://www3.weforum.org/docs/WEF_Future_of_Jobs_2018.pdf> . As informações do grá�co mostram que as empresas esperam uma mudança signi�cativa na fronteira entre humanos e máquinas quando se trata da divisão de trabalho. Em 2018, em média, 71% do total de horas de trabalho, nos 12 setores que participaram da pesquisa, são realizadas por humanos. Em 2022, espera-se que essa média mude para 58%. Diagrama de Pareto O Diagrama de Pareto é um grá�co de barras no qual as respostas da variável qualitativa aparecem em ordem decrescente de frequência ao longo do eixo horizontal. O diagrama apresenta dois eixos: o da esquerda mostra a frequência absoluta e o da direta mostra as porcentagens acumuladas, que são utilizadas para traçar a curva de porcentagens acumuladas. Essa curva identi�ca as poucas respostas da variável (normalmente causas ou problemas) que merecem atenção. Vamos construir o diagrama de Pareto para os tipos de defeitos encontrados no teto interno dos carros de passageiros. Figura 6: Diagrama de Pareto para os tipos de defeitos encontrados. Observamos que o tipo de defeito que merece atenção devido a sua alta frequência na amostra é placa de �bra quebrada, seguido por extremidades irregulares (os dois defeitos, juntos, correspondem à 87,5% dos defeitos encontrados). Comentário http://www3.weforum.org/docs/WEF_Future_of_Jobs_2018.pdf Gabarito comentado O Diagrama de Pareto é uma das sete ferramentas do controle estatístico de processo (CEP), sendo uma das mais úteis para a melhoria da qualidade. Atividade 2. Classi�que em verdadeiro ou falso cada uma das seguintes a�rmações: a) A Inferência Estatística é uma área da Estatística que utiliza técnicas que permitem generalizar os resultados obtidos na amostra para a população de onde ela foi extraída. b) Independente do critério de seleção, quanto maior o tamanho da amostra mais representativa ela será. c) Um questionário foi elaborado com o objetivo de se avaliar o serviço de atendimento ao consumidor de uma empresa de telefonia. Nele, foi utilizada uma escala de 1 a 5, em que: 1 = Ruim; 2 = Regular; 3 = Bom; 4 = Muito bom; 5 = Excelente. O estudo foi conduzido em uma amostra de 500 consumidores sorteados aleatoriamente de todos os consumidores que já haviam contatado o SAC da empresa. Esse tipo de levantamento de dados corresponde a um planejamento de experimentos. d) A �m de avaliar a intenção de voto para presidente do Brasil, 2500 eleitores foram entrevistados na cidade de São Paulo. Aqui, temos um exemplo de amostra representativa. e) A Estatística utilizar técnicas para coletar, organizar, descrever, analisar e interpretar dados exclusivamente quantitativos. 3. Utilize os números para correlacionar os grupos de verbos às suas categorias de domínio cognitivo: Qualitativa nominal Qualitativa ordinal Quantitativa discreta Quantitativa contínua 1 2 3 4 a) Número de carros produzidos por uma montadora no último trimestre. b) Grau de escolaridade de um funcionário. 1 2 3 41 2 3 4 c) Tempo de espera (horas) para atendimento em uma unidade de pronto-atendimento, ou ainda, a temperatura corpórea de uma pessoa. d) Principais causas de acidentes na construção civil. 1 2 3 4 1 2 3 4 4. Uma pesquisa foi realizada com 4.000 consumidores, que efetuaram pelo menos uma compra online nos últimos seis meses, com o objetivo de identi�car quais os principais motivos que os levaram a comprar pela internet. Os dados estão apresentados na Tabela a seguir Distribuição de frequências dos principais motivos apresentados para comprar pela internet Motivos Frequência Frequência Relativa (%) Mais baratos que na loja física 1.920 48,00 Comodidade de comprar sem sair de casa 1.200 30,00 Poder fazer as comprar no horário que quiser 680 17,00 Economia de tempo 200 5,00 Total 4.000 100,00 Com os dados apresentados: a. Identi�que a população alvo. b. Qual o tamanho da amostra? c. Qual o objetivo da pesquisa? Por que nesse estudo não foi realizado um censo? d. Classi�que e indique a variável em estudo. e. Construa o grá�co apropriado para os dados apresentados. Notas Amostragem aleatória simples 1 Nesse tipo de amostragem selecionamos ao acaso, com ou sem reposição, os elementos da população que farão parte da amostra. Portanto, precisamos que a população seja conhecida e que cada elemento seja identi�cado por um nome ou número. A partir daí, fazemos um sorteio desses elementos, por meio de procedimentos aleatórios, até que sejam sorteadas todas as unidades que comporão a amostra. Referências BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica. 5. ed. São Paulo: Saraiva, 2002. LEVINE, David M.; STEPHAN, David F.; SZABAT, Kathryn A. Estatística: Teoria e Aplicações Usando Microsoft Excel em Português. 7. ed. Rio de Janeiro: LTC, 2016. MAGALHÃES, Marcos N.; LIMA, Antonio C. P de. Noções de Probabilidade e Estatística. 6. ed. São Paulo: Editora da Universidade de São Paulo, 2004. MONTGOMERY, Douglas C. Introdução ao Controle Estatístico de Qualidade. 7. ed. Rio de Janeiro: LTC, 2016. MONTGOMERY, Douglas C.; RUNGER, George C. Estatística Aplicada e Probabilidade para Engenheiros. 5. ed. Rio de Janeiro: LTC, 2014. Disponível em: <http:// www3.weforum.org/ docs/ WEF_ Future_ of_ Jobs_ 2018.pdf <http://www3.weforum.org/docs/WEF_Future_of_Jobs_2018.pdf> >. Acesso em: 17 nov. 2018. Próxima aula Estudo de dados quantitativos; Conceito de medidas de posição e dispersão; Análise exploratória de dados. Explore mais Pesquise na internet, sites, vídeos e artigos relacionados ao conteúdo visto. Em caso de dúvidas, converse com seu professor online por meio dos recursos disponíveis no ambiente de aprendizagem. Acesso os sites: Portal Action > Coleta de dados <http://www.portalaction.com.br/estatistica-basica/12-coleta-de-dados> Portal Action > Diagrama de Pareto <http://www.portalaction.com.br/estatistica-basica/15-diagrama-de-pareto> Leia os textos: A elaboração de questionários na pesquisa quantitativa <https://www.inf.ufsc.br/~vera.carmo/Ensino_2012_1/ELABORACAO_QUESTIONARIOS_PESQUISA_QUANTITATIVA.pdf> http://www3.weforum.org/docs/WEF_Future_of_Jobs_2018.pdf http://www.portalaction.com.br/estatistica-basica/12-coleta-de-dados http://www.portalaction.com.br/estatistica-basica/15-diagrama-de-pareto https://www.inf.ufsc.br/~vera.carmo/Ensino_2012_1/ELABORACAO_QUESTIONARIOS_PESQUISA_QUANTITATIVA.pdf
Compartilhar