Prévia do material em texto
METODOS QUANTITATIVOS BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA UNIDADE 2 Professora: Debora Barbosa Fernandes de Carli. O método quantitativo tem como sua principal característica ser conclusivo, quantificando um problema para que seja possível entender a dimensão que ele possui, ou seja, é uma pesquisa que fornece informações numéricas sobre o comportamento do público-alvo da sua empresa. BIG DATA, DADOS E DISTRIBUIÇÃO DE FREQUÊNCIA Big data é um termo que descreve grandes volumes de dados, difíceis de gerir – tanto estruturados como não estruturados – que inundam os negócios diariamente, mas não é apenas o tipo ou quantidade de dados que é importante, mas também o que as organizações fazem com os dados. Os big data podem ser analisados para se obterem conhecimentos que melhorem as decisões e proporcionem confiança para a tomada de decisões estratégicas de negócios. Você já imaginou quantos dados históricos são armazenados para auxiliar os gestores na tomada de decisões no presente e com repercussões no futuro? Há estudiosos que apontam um crescimento exponencial na criação e na utilização dos dados virtuais, de modo que, ao longo dos últimos dez anos, foram criados mais dados do que em toda a história humana. A partir da necessidade referente ao armazenamento de dados, o tema vem sendo um assunto amplamente discutido, de movo que não limite a operação de negócios. Uma vez que cada dia mais as organizações públicas e privadas se beneficiam desse volume de dados virtuais para agilizar processos administrativos, pois essa agilidade permite que o uso destes dados obtidos com mais rapidez permite um poder de planejamento de execução de processos e tomar decisões muito mais assertivas quanto à oferta de produtos e serviços. Diante do grande avanço da tecnologia, consequentemente aumento das informações que precisam ser seguramente armazenadas, frente a essa necessidade que surgiu a ferramenta de suporte as empresas que gerou o termo Big Data (Grande Base de Dados). Por meio de um Big Data, empresas podem ter maiores evidências nos dados de comportamentos passados, fornecendo um suporte para os planos e decisões do presente de movo a influenciar o futuro. Para que se possa transformar dados e informações úteis para a tomada de decisão, faz-se necessário a organização e a estruturação dos dados. Esses dados podem ser obtidos de diversas fontes, como preferências, gostos, comportamentos, disposição a pagar, entre outros fatores dos clientes e potenciais consumidores, a partir dessa necessidade, o armazenamento de dados vem sendo um tema amplamente discutido, de movo que não limite a operação de negócios. Big data em português significa, Grande Base de Dados, refere-se a um amplo conjunto de dados em constante crescimento, uma base de dados que acumula informações ao longo do tempo, isso abrange um amplo volume de informações que são criadas e coletadas de diferentes origens, sendo, portanto, frequentemente caracterizado por múltiplas fontes de diferentes formatos, concluímos que refere-se a dados que são tão grandes, rápidos ou complexos, que é difícil ou impossível processá-los através de métodos tradicionais. O ato de armazenar e aceder a grandes quantidades de informação para análise já existe há bastante tempo, mas o conceito de big data ganhou relevância no início dos anos 2000, este conceito pode ser avaliado dentro de uma terminologia chamada de 6 Vs. Esse tema tem sido amplamente discutido na indústria da computação como fatores determinantes que definem o Big Data, no qual, inicialmente, o modelo foi criado com os termos volume, velocidade e variedade da informação, posteriormente, foram adicionados os termos de veracidade, variabilidade e valores dos dados como fatores de definição de um Big Data. Cada termo tem seu significado. A maioria dos dados são armazenadas em base de dados computacionais sendo analisadas com a utilização de um software específico que seja capaz de processar um grande volume de dados, com os dados disponíveis, os profissionais especializados podem analisar as relações dos dados por padrões de comportamentos, tais como dados demográficos e histórico de compras, dentre outras informações. Na pratica, esses dados permitem que empresas avaliem tendências para a tomada de decisão. O conceito do Big Data dentro da terminologia chamada de 6 Vs (seis “V”). • Volume: refere-se ao montante de dados que um negócio cria, manipula e gerencia. • Velocidade: refere-se à velocidade no qual os dados são gerados e processados. • Variedade: abrange os diversos tipos de dados, como dados contínuos, intervalos entre outros. • Veracidade: consiste na acurácia (precisão) e confiabilidade dos dados. • Variabilidade: refere-se na variação existente dentro de uma variável. • Valor (value): aborda sobre o valor que os dados podem fornecer a um negócio, como ter acesso a informações para uma tomada de decisão . Terminologia dos 6 Vs Os dados passam por um período de ciclo de vida. São coletados em um primeiro momento (coleta de dados). Na sequência, os dados devem ser armazenados em uma grande base de dados (armazenamento de dados), após, os dados são tratados e analisados (análise de dados). Por fim, esses dados permitem conclusões e criação de novos conhecimentos (criação de conhecimento). Os analistas de dados avaliam o relacionamento de um amplo conjunto de dados, esses testes podem ser variados, mas, em síntese, buscam avaliar a correlação existente entre dados, possíveis tendências, grupos, similaridades, diferenças entre grupos, entre outros aspectos, entretanto, para que todo esse processo possa gerar novos conhecimentos, faz-se necessário compreender os conceitos dos dois tipos de dados – dados estruturados e não estruturados. Em suma, enquanto os dados estruturados são aqueles que possuem estruturas bem definidas e rígidas, os não estruturados são o oposto: podem ser compostos de diversos elementos e não possuem estruturas bem definidas. Estima-se que a quantidade de dados novos é dobrada a cada dois anos, mais do que a soma de dados gerados ao longo dos últimos cinco mil anos. Um dos principais motivos é a disponibilidade desses dados compartilhados na internet, mas sobretudo, da conexão de dispositivos físicos – chamados de Internet das Coisas com as redes virtuais. A coleta e análise eficazes dos dados são ferramentas que podem levar organizações a obterem informações decisivas , os dados em si são chamados de precedentes a informação, referem-se a uma coleção de observações, sejam por meio de medidas, gêneros, respostas de pesquisa entre outros. Os dados apresentam-se de forma bruta, sem qualquer significado aparente, para gerar alguma informação, os dados precisam ser coletados, organizados, tratados e analisados, obviamente, os tipos de análise dependem do tipo de informação que se deseja gerar, no entanto o processo de coleta, organização e tratamento ocorre de forma similar . DADOS ESTRUTURADOS E NÃO ESTRUTURADOS DADOS ESTRUTURADOS Os dados estruturados referem-se aos dados obtidos em fontes previamente organizadas e padronizadas. A formatação dos dados antes da coleta de dados é o que caracteriza essa classificação. A natureza destes dados é, geralmente, em ordem numérica, esses dados podem ser obtidos por meio de relatórios de sistemas de gerenciamento de organizações (ERPs), dados de sistema, organização de planilhas entre outros. DADOS NÃO ESTRUTURADOS Os dados não estruturados referem-se a dados obtidos sem uma formatação pré-definida, um conjunto de dados é obtido e requer uma “organização” ou “separação” dos dados úteis para análise. Esse conjunto de dados se diferencia do anterior por haver um conjunto de etapas adicionais na coleta, organização e preparação dos dados para a análise, dessa maneira, os dados não estruturados requerem algumas etapas de organização de dados após a sua coleta. Essa formatação pode ser classificada por meio de uma linguagem de programação computacional capaz de minimamenteorganizar os dados – chamado de dados semiestruturados. Os dados não estruturados podem ser coletados de diversas fontes, como redes sociais e outras páginas da web ao qual podem ser transformados em informações, em geral, esse tipo de dados é recomendado para organizações que necessitam avaliar o comportamento dos seus clientes, como preferências, necessidades e desejos. DADOS SEMI ESTRUTURADOS Os dados semiestruturados não têm um esquema definido. Não cabem num formato de tabelas / linhas / colunas, mas são organizados por meio de etiquetas ou “tags” que permitem agrupá-los e criar hierarquias. São também conhecidos como não-relacionais ou NoSQL. Para gerar alguma informação, os dados precisam ser coletados, organizados, tratados e analisados, obviamente, os tipos de análise dependem do tipo de informação que se deseja gerar, no entanto, o processo de coleta, organização e tratamento ocorre de forma similar, apenas com relação à origem dos dados, estes podem ser classificados em dados estruturados e não estruturados. Veremos a seguir características deles. Com base no quadro, qual a menor idade? Qual a maior idade? Qual o menor peso? Qual o maior peso? Para responder essas questões você deverá procurar os valores dentro do quadro, e inclusive a probabilidade de erro na informação é relativamente alta. Essa análise se chama ROL e é apresentada a seguir. DISTRIBUIÇÃO DE FREQUÊNCIA – ELEMENTOS E CONSTRUÇÃO A distribuição de frequência demonstra a distribuição de uma amostra em relação às classes ou grupos, quantos respondentes há em cada classe ou quantas respostas repetidas se encontram em uma determinada classe. Essa análise deve ser feita inicialmente para avaliar a distribuição por classes de um conjunto de dados, se, por exemplo, há algum viés ou tendência nos dados. Para iniciar essa discussão, vamos, primeiramente, abordar o conceito de tabela primitiva ROL a partir de um exemplo aplicado. As frequências podem ser caracterizadas em simples (f) ou relativas (fr), e também frequência simples acumulada (F) e frequência relativa acumulada (Fr). Enquanto as frequências simples “são os valores que realmente representam o número de dados de cada classe”, as frequências relativas “são os valores das razões entre as frequências simples e a frequência total”. TIPOS DE FREQUÊNCIA A tabela primitiva ROL considera a ordenação destes dados (seja crescente ou decrescente). Veja, por exemplo, o quadro a seguir: Como você pode perceber, este quadro apresenta os mesmos dados do Quadro anterior, mas de forma ordenada por idade e peso. Note que essa ordenação denominada ROL facilita a compreensão do valor mínimo, máximo e amplitude dos dados. Logo, torna-se mais fácil e assertiva responder as questões realizadas anteriormente, além disso, é comum analisar a quantidade de indivíduos segundo uma variável que, nesse caso, poderia ser idade ou peso, como io exemplo. Denomina-se frequência o número de indivíduos que possui características de uma variável. ANÁLISE ROL A amplitude total (AT) refere-se na diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo). O cálculo é realizado por meio da seguinte fórmula: AMPLITUDE TOTAL DA DISTRIBUIÇÃO AMPLITUDE DE UM INTERVALO DE CLASSE A amplitude de um intervalo de classe (h) refere-se na medida do intervalo que define a classe. Como o número de classes (k) desejado pelos pesquisadores é 4, a amplitude de cada classe (h) é de: GRÁFICOS ESTATÍSTICOS Gráficos são representações visuais utilizadas para exibir dados, sejam eles, sobre determinada informação, ou valores numéricos. Geralmente, são utilizados para demostrar padrões, tendências e ainda, comparar informações qualitativas e quantitativas num determinado espaço de tempo. A construção de gráficos e tabelas auxilia na organização, sumarização, descrição e apresentação dos dados. Existem diferentes tipos de gráficos, suas interpretações, veremos algum deles a seguir. https://gestaodesegurancaprivada.com.br/grafico-o-que-e-objetivo-caracteristica-e-tipos/ Na pratica gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries. Então qual a importância de mostrar uma informação de forma gráfica? Talvez você já tenha se deparado com uma situação em que os dados aparentemente não mostravam claramente uma informação, seja por meio de tabelas, quadros ou síntese, entretanto, ao apresentar uma informação de forma visual, como um gráfico, por exemplo, isso facilita a compreensão do receptor da informação, dessa maneira, o propósito de um gráfico é auxiliar na compreensão dos dados. Conceitualmente, “o gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries”. Veremos alguns modelos de gráfico a seguir. GRÁFICO DE BARRAS O gráfico de barras é um gráfico com barras retangulares e comprimento proporcional aos valores que ele apresenta. As barras podem ser desenhadas na vertical ou na horizontal, este tipo de representação utiliza barras tanto verticais quanto horizontais para ilustrar comparações existem mais de 20 modelos que podem ser utilizados para a criação de um indicador demostrado através de um gráfico de barras. Os gráficos de Barras ou Colunas mostram as frequências de observações para cada nível, ou classe, da variável em estudo. Os gráficos de colunas e barras são indicados para apresentação de dados de uma variável por indivíduos ou grupos de classes, também são sugeridos em caso de apresentação de dados temporais, pois é possível criar colunas ou barras por períodos. GRÁFICO DE LINHA O gráfico de linha é um tipo de gráfico que exibe informações com uma série de pontos de dados chamados de marcadores ligados por segmentos de linha reta. É um tipo básico de gráfico comum em muitos campos. Um Gráfico de Linha “faz uso de duas retas perpendiculares; as retas são os eixos coordenados e os pontos de intersecção, a origem. O eixo horizontal é denominado eixo das abscissas (ou eixo dos x) e o vertical, eixo das ordenadas (ou eixo dos y)”. Os gráficos de linhas são indicados para apresentação de dados temporais de uma ou mais variáveis, é possível avaliar tendências e projeções futuras. GRÁFICO DE PIZZA Um gráfico de pizza é uma técnica de representação gráfica que exibe dados em um gráfico de formato circular. É um gráfico estático composto que funciona melhor com poucas variáveis. O Gráfico de Pizza, também chamado de gráfico em setores, “é empregado sempre que desejamos ressaltar a participação do dado no total”, para elaborar um gráfico de pizza recomenda-se a criação de uma tabela auxiliar com dados resumidos de frequência. Note que os rótulos de dados estão sendo apresentados dentro do gráfico, neste caso. O círculo apresenta a amostra total, as divisões representam proporcionalmente a amplitude de cada categoria de uma variável. Esse tipo de gráfico é aplicado sempre que se busque compreender o perfil de uma amostra de dados, população, perfil do respondente, bem como aspectos pessoais. GRÁFICO DE RADAR Um gráfico de radar é um método gráfico de apresentar dados multivariáveis na forma de um gráfico bidimensional de três ou mais variáveis quantitativas representadas em eixos que partem do mesmo ponto ou um conjunto de detalhes ou de respondentes de uma variável. A posição relativa e o ângulo dos eixos normalmente é pouco informativo. Gráfico de Radar tem por objetivo apresentar um conjunto de multivariáveis, ou um conjunto de detalhes ou de respondentes de uma variável. Medidas de posição também conhecidas como média, mediana, moda e separatrizes. As medidas de posiçãosão técnicas estatísticas que permitem uma avaliação descritiva de um conjunto de dados de uma amostra. MEDIDAS DE POSIÇÃO Quanto importaria para você o seu desempenho? E com relação ao seu desempenho comparado com os demais acadêmicos da mesma sala de aula? E ainda quanto importaria verificar a nota que mais se repetiu na sala? As medidas de posição são técnicas estatísticas que permitem uma avaliação descritiva de um conjunto de dados de uma amostra. Percebemos que há variáveis qualitativas (e também gráficos) que não tem a finalidade de verificar medidas de posição, mas apenas a frequência e sua distribuição de dados, as variáveis quantitativas permitem uma análise das características descritivas da amostra. As medidas de posição têm o propósito de avaliar os valores que ocupam as posições centrais de um rol de dados, para tornar mais clara a sua aplicação, pois este integra todas as medidas de posição em uma representação gráfica. A Média Aritmética de um conjunto de dados é obtida somando todos os valores e dividindo o valor encontrado pelo número de dados desse conjunto. Como um dos principais tipos de média, a média aritmética considera a soma do conjunto de dados de uma amostra ou variável pela divisão da soma da quantidade de dados do conjunto (ou número de casos). Para calcular a média aritmética utiliza-se a seguinte fórmula padrão: MÉDIA ARITMÉTICA Mediana é o número central de uma lista de dados organizados de forma crescente ou decrescente, sendo uma medida de tendência central ou, de centralidade. A mediana é o valor do meio ou, que representa o meio, de uma lista de dados. A mediana corresponde ao valor que se encontra na posição central de uma série ordenada de dados. Em outras palavras, “é uma medida de posição importante porque deixa 50% dos elementos da série abaixo do seu valor e 50% dos elementos da série acima do seu valor”. O cálculo da mediana variará para número de casos quando ímpar e par. Para situações em que há um número ímpar de elementos, considera-se o elemento central; a fórmula a ser considerada é em que: n é o número de casos de um conjunto de dados . Por outro lado, para situações em que o número de elementos for par, então, deve-se utilizar a média para obter o valor da mediana; neste caso, utiliza-se as fórmulas e + 1, realiza-se a média dos dois valores. MEDIANA A Moda (Mo) é o valor que mais aparece dentro de um conjunto quantitativo, com isso, para identificá-la, é necessário encontrar a frequência de determinados dados. Entre as medidas de centralidade, a moda é uma das poucas que podem ser aplicadas em variados conjuntos (estimativas com nomes, cores, roupas, etc.) Denomina-se moda “o valor que ocorre com maior frequência em uma série de valores”. “É utilizada para destacar o elemento que mais se repete num conjunto de dados”. A moda correspondente no exemplo é de 25 anos de idade, pois é o valor que se repete em maior quantidade de vezes. Caso houvesse uma quantidade maior de dados, sugere-se a elaboração de uma tabela de frequência dos valores para verificar o valor que mais se repete ao longo de um conjunto de dados . MODA Além das medidas de posição, há outras nomenclaturas importantes para a análise de um conjunto de dados. Essas medidas – quartis, percentis e decisão conhecidas pelo nome genérico de separatrizes ou medidas de ordenação. As medidas de ordenação “são utilizadas para fazer cortes ordenados em uma série” visando obter informações de um conjunto de dados, essas medidas estão relacionadas com a mediana, uma vez que a mediana divide uma série em duas partes iguais (50% abaixo e 50% acima do seu valor). SEPARATRIZES Divide os valores de uma série em quatro partes iguais (quatro partes de 25% cada). QUARTIS DECIS PERCENTIL Divide os valores de uma série em dez partes iguais (dez partes com 10 % cada). Divide os valores de uma série em cem partes iguais (cem partes com 1% cada). 26