Unidade 1

•

UNIP

felipe torres

19/05/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.439 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Ciência de Dados
Material Teórico
Responsável pelo Conteúdo:
Prof.ª Esp. Lucia Contente Mós
Revisão Textual:
Prof.ª Dr.ª Selma Aparecida Cesarin
Fundamentos da Ciência dos Dados
• Introdução à Ciência dos Dados;
• Definição de Big Data;
• Ciência de Dados Versus Big Data = Colecionar Versus Descobrir;
• Etapas da Ciência de Dados;
• Usos da Ciência de Dados.
• Conhecer os fundamentos da Ciência dos Dados;
• Conhecer a Defi nição e a Importância do Big Data;
• Saber quais são as profi ssões ligadas às áreas de Big Data e Ciência dos Dados, além dos
conhecimentos necessários para cada área de atuação;
• Quais são as principais características de Big Data;
• Conhecer a defi nição de Ciência de Dados;
• Saber diferenciar Big Data de Ciência de Dados;
• Conhecer as Etapas da Ciência de Dados;
• Saber quais são os Usos da Ciência de Dados.
OBJETIVOS DE APRENDIZADO
Fundamentos da Ciência dos Dados
Orientações de estudo
Para que o conteúdo desta Disciplina seja bem
aproveitado e haja maior aplicabilidade na sua
formação acadêmica e atuação profissional, siga
algumas recomendações básicas:
Assim:
Organize seus estudos de maneira que passem a fazer parte
da sua rotina. Por exemplo, você poderá determinar um dia e
horário fixos como seu “momento do estudo”;
Procure se alimentar e se hidratar quando for estudar; lembre-se de que uma
alimentação saudável pode proporcionar melhor aproveitamento do estudo;
No material de cada Unidade, há leituras indicadas e, entre elas, artigos científicos, livros, vídeos
e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você tam-
bém encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua
interpretação e auxiliarão no pleno entendimento dos temas abordados;
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discus-
são, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o
contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e de
aprendizagem.
Organize seus estudos de maneira que passem a fazer parte
Mantenha o foco!
Evite se distrair com
as redes sociais.
Mantenha o foco!
Evite se distrair com
as redes sociais.
Determine um
horário fixo
para estudar.
Aproveite as
indicações
de Material
Complementar.
Procure se alimentar e se hidratar quando for estudar; lembre-se de que uma
Não se esqueça
de se alimentar
e de se manter
hidratado.
Aproveite as
Conserve seu
material e local de
estudos sempre
organizados.
Procure manter
contato com seus
colegas e tutores
para trocar ideias!
Isso amplia a
aprendizagem.
Seja original!
Nunca plagie
trabalhos.
UNIDADE Fundamentos da Ciência dos Dados
Introdução à Ciência dos Dados
Cada vez mais, as pessoas, computadores, softwares e Empresas produzem e
consomem mais e mais dados, ao utilizar um cartão de fidelidade, ou ao fazer uma
compra com cartão de crédito/débito, ou quando navega na Internet, na visitação
ou na inserção de informações em Redes Sociais ou, ainda, quando vai ao médico.
Enfim, todas essas situações produzem dados que são armazenados em computa-
dores pessoais ou na nuvem.
Esses dados, geralmente, contêm informações relevantes, vez que, analisados,
podem trazer vários benefícios. A atividade de análise de dados não é uma tarefa
recente; na realidade, se voltarmos na História, verificamos que teve início no
Egito antigo, nos recenseamentos periódicos que eram realizados para a cons-
trução de pirâmides.
Atualmente, temos uma explosão de dados, pois máquinas e pessoas continua-
mente geram, coletam e processam dados.
Na busca por diferenciais competitivos, muitas Empresas têm investigado novas
oportunidades capazes de proporcionar benefícios para o negócio.
O objetivo é desligar a tomada de decisões da intuição, que não tem muita as-
sertividade, e tomar a decisão com base em dados obtidos a partir de análises e
modelos preditivos, que consistem basicamente em uma função matemática que,
quando aplicada a uma massa de dados, é capaz de identificar padrões e oferecer
uma previsão do que pode ocorrer.
Os modelos preditivos, em geral, servem para identificar padrões e mostrar o
que pode acontecer de acordo com os dados analisados.
Ao identificar padrões em dados estruturados e não estruturados, o modelo
preditivo serve para embasar tomadas de decisões, que se tornam mais assertivas
por serem realizadas de acordo com um cenário possível para o futuro da Empresa.
Por exemplo, com o reconhecimento de padrões e relações nos dados disponíveis
é possível fazer a identificação do perfil de cliente com mais propensão ao cancela-
mento do serviço ou da assinatura do serviço com base em experiências passadas.
Assim, a Empresa identifica quais clientes têm tendência a cancelar e pode
desenvolver estratégias de retenção para esse público, diminuindo a taxa de perda
de receita.
No entanto, para que essas tarefas sejam realizadas com sucesso, é necessário ter
um volume significativo de dados válidos, completos, sem erros e utilizar um modelo
preditivo adequado para os tipos de dados disponíveis e objetivos da Empresa.
Uma vez que você já sabe como o modelo preditivo opera, é necessário identifi-
car se ele é benéfico para a companhia no momento atual. São diversas as vanta-
gens apresentadas pela solução.
8
9
Alguns exemplos são:
• Decisões estratégicas: em vez de decisões baseadas em achismos e na intuição,
a inserção de modelos preditivos possibilita que a Empresa conheça as tendên-
cias internas e externas ao negócio e que chegue a conclusões mais estratégicas;
• Identificar melhores clientes: assim como permite identificar clientes com
chances de cancelar o serviço, a solução permite mapear quais são os me-
lhores clientes do negócio, considerando as vezes que comprou, o montante
consumido, a frequência de contato etc. Assim, a Empresa pode oferecer me-
lhores condições e programas específicos para esses clientes, aumentando as
chances de fidelização;
• Diminuir custos: os modelos preditivos podem ser direcionados para a área
logística do negócio, visando à redução de custos operacionais da Empresa.
Cada processo otimizado diminui o dispêndio financeiro, podendo ser reverti-
do em investimento útil;
• Aumentar o ROI: identificando comportamentos de clientes, tendências de Mer-
cado e processos operacionais da Empresa, existem diversas formas de aumentar
o retorno sobre o investimento do negócio. Na área de Marketing Digital, por
exemplo, uma campanha pode ser iniciada em um momento mais propício, a par-
tir de análises do Mercado externo, aumentando os resultados obtidos com a ação;
• Fazer a gestão de riscos: com a análise preditiva, a Empresa consegue iden-
tificar os riscos existentes em uma nova ação ou em práticas em andamento.
Caso o modelo preditivo aponte um cenário desfavorável para vendas em de-
terminada época do ano, por exemplo, a Empresa pode tomar decisões de
contingenciamento para esse período de recessão.
Os modelos preditivos são aqueles que utilizam dados do passado para prever
comportamentos de um cliente. Eles também detectam padrões, ainda que sutis,
no conjunto de dados analisados. São usados, principalmente, para transações em
tempo real, auxiliando a identificação de um consumidor com menos propensão a
pagar, de fraudes ou de desistências do serviço.
Os modelos descritivos, por sua vez, ajudam a identificar relações, sejam elas
sobre os clientes, sejam sobre os produtos e são aplicados, principalmente, para
categorizar clientes e identificar potenciais públicos para prospecção.
A categorização de clientes é especialmente indicada para o desenvolvimento
das ações de marketing por dados. A separação dos clientes permite melhorar a
experiência do consumidor com a Empresa, ao facilitar a realização de contatos
mais assertivos e relevantes.
Assim como o modelo preditivo é aplicado ao comportamentodos clientes,
os modelos de decisão são usados para prever os resultados de decisões de ne-
gócio complexas.
Essa análise é usada para mapear todas as variáveis envolvidas em um processo
de decisão e, assim, identificar quais são os resultados possíveis.
9
UNIDADE Fundamentos da Ciência dos Dados
Com esse modelo, a Empresa pode simular diversas situações de uma decisão e,
ao considerar fatores econômicos externos e internos, o modelo é capaz de indicar
qual cenário é o mais favorável aos objetivos do negócio.
Os modelos preditivos oferecem diversas oportunidades de controle de gastos,
melhoram o relacionamento com o cliente, possibilitam o aumento do ROI e favo-
recem a tomada de decisões assertivas baseadas em dados concretos.
Os benefícios podem ser aproveitados por Empresas de diversos segmentos e ta-
manhos. No entanto, é fundamental conhecer as possibilidades da solução, buscar
mais informações e pesquisar por Empresas consolidadas na área.
Definição de Big Data
Com os avanços recentes nas Tecnologias para aquisição, armazenamento e
transmissão de dados e com Bases de Dados cada vez maiores, surge, então, o
conceito de Big Data.
É um conceito desenvolvido para unir e interpretar informações, prevendo ten-
dências e ajudando na tomada de decisões estratégicas. Por exemplo: se anali-
sarmos determinadas publicações ou buscas de um determinado tema, mudanças
climáticas e alguns tipos de compras, pode-se determinar ondas de doenças. É o
uso da estatística em favor da prevenção, da produtividade e dos negócios.
Dados soltos são informações inúteis. É preciso saber como e para que serão
usados. É transformar o irrelevante em relevante. A definição é simples: trata-se de
grandes volumes de dados armazenados, velocidade e variedade.
Se acompanharmos a evolução das informações, veremos o quanto é surpre-
endente o número e o tipo delas. Atualmente, temos muito mais informações e as
acessamos rapidamente, em um simples toque no telefone.
De forma analítica, esses dados são classificados em:
• Não estruturados: e-mails, fotos, vídeos, mensagens de texto, músicas, geolo-
calização (GPS), produtos e lojas e-commerce, cada um com uma Linguagem;
• Estruturados: informações básicas e geralmente criptografadas.
Quando todas essas informações são unidas, estruturadas e codificadas, preci-
sam ter unidade para serem interpretadas.
Conhecimentos e profissionais de Big Data e Ciência de Dados
Um profissional que desejar atuar na área de Big Data e Ciência de Dados pre-
cisa ter conhecimentos técnicos em programação, Sistema Operacional Linux e
Modelagem de Dados, além de conhecer o negócio e os processos da Empresa, e
ter conhecimentos de Estatísticas e Matemática aplicada a dados.
10
11
Veja, a seguir, o que cada profissional dessa área precisa conhecer e em que
deve se especializar:
• Administrador de Ambientes de Big Data: é responsável por manter os am-
bientes e as ferramentas funcionando. Trata-se de um profissional mais técnico,
que necessita de conhecimento em Sistemas Operacionais, principalmente em
Linux, arquitetura de hardware e Redes, a fim de garantir melhor performance
das ferramentas;
• Desenvolvedor: é responsável por desenvolver os processos de captura, trans-
formação e carga de dados. O perfil do profissional tende a exigir conhecimen-
tos de Programação e das ferramentas utilizadas nos processos. Além disso,
desenvolve novas rotinas e processos relacionados às necessidades de negócio;
• Cientista ou Analista de Dados: é responsável por atender as demandas das
áreas de negócio ou planejamento da Empresa. Está mais ligadoàs áreas de ne-
gócios, devendo ter o conhecimento das ferramentas de consulta e acesso aos da-
dos, como conhecimento de Estatística. Segundo Josh Wills1, o Data Scientist é
a pessoa que é melhor em Estatística do que quaisquer Engenheiros de Software
e a melhor em Engenharia de Software do que quaisquer Estatísticos.
Big Data e os 5 Vs
• Volume: organizações coletam dados de uma grande variedade de fontes, in-
cluindo transações comerciais, Redes Sociais e informações de sensores ou
dados transmitidos de máquina a máquina. No passado, armazenar tamanha
quantidade de informações teria sido um problema, mas novas Tecnologias
(como o Hadoop) têm aliviado a carga;
• Velocidade: os dados fluem em uma velocidade sem precedentes e devem ser
tratados em tempo hábil. Tags de RFID, sensores, celulares e contadores inteli-
gentes estão impulsionado a necessidade de lidar com imensas quantidades de
dados em tempo real, ou quase real;
• Variedade: os dados são gerados em todos os tipos de formatos, de dados
estruturados, dados numéricos em Bancos de Dados tradicionais, até docu-
mentos de texto não estruturados, e-mail, vídeo, áudio, dados de cotações da
bolsa e transações financeiras;
• Variabilidade: Além da velocidade e da variedade de dados cada vez maiores,
os fluxos de dados podem ser altamente inconsistentes, com picos periódi-
cos. Existe algo em tendência nas Redes Sociais? Diariamente, picos de dados
sazonais ou picos gerados com base em eventos podem ser um desafio para
gerenciar. Ainda mais quando falamos de dados não estruturados;
• Veracidade: os dados de hoje vêm de várias fontes, o que torna difícil estabelecer
uma relação, corresponder, limpar e transformar dados entre diferentes sistemas.
No entanto, para que seus dados não saiam rapidamente de controle, é necessá-
rio ligar e correlacionar relações, hierarquias e as várias ligações de dados.
1 Autor dos Livros Advanced Analytics with Spark: Patterns for Learning from Data at Scale e Implementação
de Modelos de Aprendizado de Máquina na Produção.
11
UNIDADE Fundamentos da Ciência dos Dados
Volume Velocidade Variedade Valor
101100101001
001001101010
101011100101
010100100101
SMART
METER
BLOG
SOCIAL
Figura 1 – Os Vs de Big Data
Importância do Big Data
A importância do Big Data não gira em torno da quantidade de dados que você
tem, mas em torno do que você faz com eles. Você pode analisar dados de qualquer
fonte para encontrar respostas que permitam:
• Redução de custos;
• Redução de tempo;
• Desenvolvimento de novos produtos e ofertas otimizadas;
• Decisões mais inteligentes.
Quando você combina Big Data com a alta Potência do Analytics, você pode
realizar tarefas relacionadas a negócios, tais como:
• Determinar a causa raiz de falhas, problemas e defeitos em tempo quase real;
• Gerar cupons no ponto de venda com base em hábitos de compra dos clientes;
• Recalcular carteiras de risco inteiras, em questão de minutos;
• Detectar comportamentos fraudulentos antes que eles afetem sua organização.
Ciência de Dados Versus Big
Data = Colecionar Versus Descobrir
Para alguns, existe uma confusão entre os termos Big Data e Ciência de Da-
dos, essa confusão ocorre, principalmente, por interesses de Mercado. A Ciência
de Dados é o termo usado para descrever o processo de transformação de dados
em conhecimento.
A Ciência de Dados, que também pode ser chamada de Analytics, procura criar
modelos capazes de extrair padrões de sistemas complexos e usar esses modelos
em aplicações reais. Estuda princípios, métodos e Sistemas Computacionais para
12
13
extrair conhecimento de dados. Visa a responder a seguinte pergunta: Como en-
contrar de forma eficiente conhecimento (padrões) em (grandes) conjuntos (fluxos)
de dados?
Já o Big Data procura dar suporte à coleta e ao gerenciamento de grandes
quantidades de dados. As tecnologias de Big Data fornecem meios para armaze-
nar, processar e transmitir esses dados, que contêm conhecimento precioso, que
precisa ser extraído.
Ciência de dados
Tecnologias de
processamento e
armazenamento de
dados (ex. Big Data)
Tomada de decisão
orientada por dados
Figura 2 – Papel de Ciência dos Dados
Fonte: Adaptado de Carvalho, 2017
Etapas da Ciência de Dados
Dados brutos
são coletados
Mundo
Real
Dados não
processados
Limpeza dos
Dados
Dados limpos
e tratados
Tomada
de Decisões
AnáliseExploratória
dos Dados
Aprendizado
de Máquina
Algoritmos
Modelos
Estatísticos
Comunicar
Visualizações
Reportar
descobertas
Figura 3 – Fases de Ciência dos Dados
Planejamento de experimento,
entender o problema a ser resolvido
O planejamento é fundamental em qualquer área e a Ciência de Dados não é
diferente. O sucesso do desenvolvimento de qualquer projeto é o levantamento
de dados.
13
UNIDADE Fundamentos da Ciência dos Dados
O estágio inicial da Ciência de Dados trata de responder:
• “Quanto?”;
• “O que aconteceu?”;
• “Por quê?”.
A área de Business Intelligence responde a essas perguntas; portanto, podemos
concluir que a Ciência de Dados começa com o BI.
Definir as Técnicas de Pré-processamento
Em geral, dados não foram gerados para uso em Ciência de Dados, são produ-
zidos para outros propósitos e, frequentemente, apresentam problemas.
Na etapa de modelagem precisam, geralmente, de dados “limpos”. Os proble-
mas nos dados precisam ser detectados e corrigidos. A frase “Entra Lixo Sai Lim-
po” resume bem essa fase.
Técnicas de Modelagem
A Machine Learning ou Aprendizado de Máquina é onde começa a inteligência
da Ciência de Dados. Ele se concentra em estimar quantidades que não podem ser
observadas diretamente. Isso pode ser, por exemplo, os filmes que um cliente vai
gostar, o preço do estoque de uma Empresa amanhã, ou o efeito causal de uma
campanha publicitária específica.
A Machine Learning usa os dados obtidos anteriormente e aplica métodos es-
tatísticos ou outros para obter informações adicionais. Os tipos de modelos que
podemos ter são: Regressão, Classificação e Agrupamento.
O aprendizado de máquina, pode responder questões como:
• Quando um cliente se muda, quanto ele gastará em uma Loja de Ferragens?
• Quando uma compra de cartão de crédito é feita, qual a probabilidade de a
cobrança ser fraudulenta?
• Qual é o custo de vida esperado de um novo cliente?
• Se um furacão estiver chegando, o que as pessoas comprarão?
Para tal, o aprendizado de máquina gera modelos capazes de extrair conheci-
mento dos dados, realizando a mineração de dados analítica. Existem várias técni-
cas que foram criadas para extrair modelos durante a mineração de dados, sendo
que a maioria dessas técnicas é baseada em Aprendizado de Máquina.
O Aprendizado de Máquina investiga técnicas capazes de aprender a resolver
problemas de forma automática e sem intervenção humana e é bem-sucedido em
vários problemas reais de modelagem descritivos ou preditivos, conforme se vê nas
Figuras 4 e 5:
14
15
Renda
Descritivo
Agrupamento
Preditivo
Classi
cação
Renda
Inadimplente
Adimplente
Inadimplente
Adimplente
Pr
o
ss
ão
Pr
o
ss
ão
Figura 4 – Modelagem por Aprendizado de Máquina
Fonte: Adaptado de Carvalho, 2017
Figura 5 – Algoritmos de Classifi cação
Fonte: Carvalho, 2017
Verifique a conexão entre um evento e algum resultado. O valor do aprendizado
de máquina vem da estimativa do resultado causal de eventos potenciais.
Nessa etapa, surgem conceitos como: Machine Learning, Mineração de Dados
(Data Mining) e Modelagem Estatística.
A Mineração de Dados é o processo de identificação de padrões válidos, novos,
potencialmente úteis e compreensíveis embutidos nos dados (Fayyad et al., 1996).
O Data Mining encontra informações úteis embutidas em grandes volumes de
dados com o uso da análise de dados e de Técnicas de Software para encontrar
padrões e regularidades em conjuntos de dados.
O computador é responsável por encontrar os padrões por meio da identificação
de regras e características implícitas nos dados.
É possível “achar ouro” em lugares inesperados na medida em que o software de
mineração de dados extrai padrões antes não vistos ou não tão óbvios, a ponto de nin-
guém ter notado antes. Daí surge a analogia com o ramo da mineração, pois grandes
volumes de dados são “peneirados” na tentativa de encontrar alguma coisa de valor.
15
UNIDADE Fundamentos da Ciência dos Dados
Exemplo da Mineração de Dados –
Atividades Preditivas: Classificação e Regressão
Os Sistemas de mineração de Dados aprendem a partir de exemplos como par-
ticionar ou classificar os dados, gerando regras de classificação, por exemplo.
Analisando a Base de Dados de clientes de um Banco (Instituição Financeira),
surge a seguinte pergunta: Um novo cliente solicitando um empréstimo é um bom
ou mau investimento?
A regra clássica formulada para responder a essa pergunta é:
Se (STATUS = cassado) e
(RENDA > 2000) e
(PROPRIETARIO-IMÓVEL = sim)
então
TIPO-DE-INVESTIMENTO = bom;
Note que se trata de um comando simples de programação, o IF.
Medidas de avaliação
Com a interpretação do conhecimento extraído, é feita a validação do conhe-
cimento extraído. Nesse momento, é importante a consulta de um especialista
do negócio.
É feita a análise estatística e são utilizadas ferramentas de visualização dos dados.
Meta para cada etapa e tempo a ser alocado em cada etapa
Determinar as ações a serem realizadas é a última fase. Ela tenta capitalizar os
resultados de Machine Learning para tomar as ações apropriadas.
Por exemplo, as seguintes ações podem ser adequadas para as questões que
surgiram na etapa anterior.
• Quando um cliente se muda, envie um pacote “bem-vindo ao bairro” com
cupons para Lojas de Ferragens próximas;
• Recusar a cobrança fraudulenta ou desativar o cartão de crédito;
• Se o novo cliente tiver um custo de vida esperado muito elevado, ofereça al-
gum tratamento especial ou ofertas para garantir que ele se torne um cliente
para toda a vida;
• Quando um furacão se aproxima, coloque a água em promoção e/ou em des-
taque na loja.
Como podemos identificar, um bom aprendizado de máquina acarreta ações
claras e bem definidas.
16
17
Usos da Ciência de Dados
No Mundo Corporativo
• Atribuição de crédito;
• Predição no Mercado financeiro;
• Diagnóstico de falhas em linhas de produção;
• Descobertas médicas;
• Detecção de fraudes;
• Análise de tendências de compra;
• Marketing direcionado.
Além do Mundo Corporativo
• Uso de dados (abertos) para resolver problemas de Defesa Civil;
• Uso de Ciência de Dados para resolver problemas sociais;
• Democratização de dados: permitir que qualquer pessoa tenha acesso a dados
públicos para estimular pesquisas e desenvolvimento tecnológico em Medicina
de precisão, dados abertos, decisão apoiada por dados;
• Análise de dados preditivos para prevenção de incêndios.
Com isso, espera-se alcançar benefícios sociais como:
• Bons serviços de saúde para todos;
• Desenvolvimento econômico de países pobres;
• Educação pública de qualidade;
• Energia limpa e barata;
• Melhor exercício da cidadania;
• Proteção ambiental;
• Meios de transportes mais seguros, rápidos e limpos.
17
UNIDADE Fundamentos da Ciência dos Dados
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
Livros
Banco de dados: projeto e implementação
MACHADO, F. N. R. Banco de dados: projeto e implementação. São Paulo: Érica,
2004. 398p.
Projeto de banco de dados: uma visão prática
MACHADO, F. N. R.; ABREU, M. P. Projeto de banco de dados: uma visão prática.
15.ed. São Paulo: Érica, 2007. 300p.
OCA Oracle Database 11G – Administraçao I
WATSON, J. OCA Oracle Database 11G – Administraçao I. São Paulo: Bookman
Companhia, 2009.
OCP Oracle Database 11G – Administraçao II
BRYLA, B. OCP Oracle Database 11G – Administraçao II. São Paulo: Bookman
Companhia, 2009.
OCA Oracle Database 11G – Fundamentos I ao SQL
RAMKLASS, R.; WATSON, J. OCA Oracle Database 11G – Fundamentos I ao SQL.
Rio de Janeiro: Alta Books, 2009.
Projetando e Administrando Banco de Dados SQL Server 2000 .net: Como Servidor Enterprise
PATTON, R.; OGLE, J. Projetando e Administrando Banco de Dados SQL Server
2000 .net: Como Servidor Enterprise. Tradução de Andréa Barbosa Bento; Cláudia
Reali; Lineu Carneiro de Castro. Rio de Janeiro: Alta Books, 2002. 792p.
18
19
Referências
BECKER, João Luiz. Estatística básica: transformandodados em informação.
Porto Alegre: Bookman, 2015.
CASTRO, Leandro Nunes de. Introdução à mineração de dados: conceitos bási-
cos, algoritmos e aplicações. São Paulo: Saraiva, 2016.
DATE, C. J. Introdução a sistemas de bancos de dados. Tradução de Daniel
Vieira. Revisão Técnica de Sérgio Lifschitz. Rio de Janeiro: Elsevier, 2003. 865p.
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. Tradução de
Marília Guimarães Pinheiro et al. Revisão Técnica de Luis Ricardo de Figueiredo.
4.ed. São Paulo: Pearson Addison Wesley, 2005. 724p.
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 6.ed. São Paulo:
Pearson, 2011.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to
knowledge discovery: An overview. In: Advances in Knowledge Discovery and
Data Mining, AAAI Press/The MIT Press, England, 1996, p.1-34.
GILLENSON, M. L. Fundamentos de sistemas de gerência de Banco de Dados .
Tradução de Acauan Fernandes; Elvira Maria Antunes Uchoa. Rio de Janeiro: LTC,
2006. 304p.
KWECKO, V. et al. Ciência de dados aplicada na análise de processos cognitivos
em grupos sociais: um estudo de caso. In: Brazilian Symposium On Computers In
Education (Simpósio Brasileiro de Informática na Educação – SBIE). Rio Grande
do Sul, 2018. Anais [...] Rio Grande do Sul, 2018, p. 1543.
SILBERSCHATZ, A., KORTH, H. F.; SUDARSHAN, S. Sistema de Banco de
Dados. Tradução de Daniel Vieira. Revisão Técnica de Luis Ricardo de Figueiredo;
Caetano Traina Jr. 3.ed. São Paulo: Pearson Makron Books, 2007. 778p.
WILLS, J. Advanced Analytics with Spark: Patterns for Learning from Data at
Scale, 2015.
19