Buscar

UVA Ciência de Dados e Inteligência Artificial - Unidade 1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Ciência dos dados e inteligência 
artificial 
 
Objetivos 
 
Olá, estudante. 
 
Bem-vindo (a) à disciplina Ciência dos dados e inteligência artificial. 
 
Atualmente existem milhares de dispositivos eletrônicos inteligentes conectados à rede 
mundial de computadores, os quais, neste exato instante, estão produzindo e 
consumindo dados. Esses dados, que anteriormente eram gerados, armazenados e 
poucos explorados, deram origem a uma nova área dentro da ciência da computação, 
que atualmente chamamos de Big Data. 
 
Com o cenário tecnológico favorável e ferramentas disponíveis, o grande volume de 
dados gerados hoje consegue proporcionar às organizações uma análise de dados em 
tempo real, previsão de comportamentos, tendências mercadológicas, busca de 
respostas para doenças e tomada de decisões mais assertivas, baseadas em 
repositórios de dados, reduzindo tempo e custos. 
 
Para que tudo isto possa ser possível, é necessário que as organizações contem com 
profissionais qualificados para atuar nesse novo cenário, em que a demanda somente 
cresce. Diante dessa necessidade organizacional, temos de fato um mercado pronto 
para ser explorado. Vamos aprender mais sobre esta unidade curricular e desenhar 
um futuro promissor, onde as demandas crescentes nos apontam um oceano azul. 
 
Você está convidado a conhecer Ciência de dados e inteligência artificial. 
 
Bom estudo! 
 
 
 
 
 
Objetivos 
 
 
Ao final desta disciplina, você deverá ser capaz de: 
 
• Compreender as abordagens organizacionais ou de pesquisa 
em ciência de dados e inteligência artificial. 
• Analisar dados previamente obtidos com aplicação de técnicas 
estatísticas. 
• Compreender as abordagens sobre ciência de dados 
disponíveis para promover o alcance dos objetivos 
organizacionais ou de pesquisa. 
• Desenvolver a habilidade de profissionais na leitura de 
estatísticas para a tomada de decisão em temas que dizem 
respeito à sua área de atuação. 
• Discutir Inteligência Artificial com ênfase na utilidade e 
aplicação das diferentes abordagens de representação de 
dados e solução de problemas. 
 
 
Conteúdo Programático 
 
 
Esta disciplina está organizada de acordo com as seguintes 
unidades: 
 
• Unidade 1 – Ciência de Dados 
• Unidade 2 – Análise exploratória de dados e Análise 
Estatística 
• Unidade 3 – Os processos de negócios x ciência de dados 
• Unidade 4 – Fundamentos de Inteligência Artificial 
 
 
 
 
 
Autoria 
 
Professor Celso Barreto da Silva 
 
Graduado em Administração com Habilitação em Análise de Sistemas, licenciado em 
Matemática para o Ensino Básico, é pós-graduado em Metodologia do Ensino da 
Matemática e Docência no Ensino Superior. Mestrando em Sistemas e Computação. 
Possui experiência prática como professor titular nos Cursos de Administração e 
Gestão de Negócios em Turismo, Analise e Desenvolvimento de Sistemas e Redes de 
Computadores. Foi professor nível 3 nos cursos técnicos (Desenvolvimento de 
Sistemas e Redes de Computadores) entre 2012 e 2021. Ministrou treinamentos e 
capacitações em TI - Empresarial, desenvolveu atividades como professor líder na 
província de Bié, em Angola, de 2010 a 2011, para cursos técnicos pelo Ministério da 
Educação. Possui vasta experiência em análise de dados e diagnóstico de problemas 
com uso de ciência de dados. Trabalha com design thinking no processo de 
modelagem de produtos e experiência do usuário. É consultor em tecnologias e 
desenvolvimento de sistemas e gestão empresarial, com mais de 18 anos de 
experiência prática. Trabalha com banco de dados e linguagens de programação. 
Detém vasta experiência em desenvolvimento de projetos em tecnologia. Conhece os 
ambientes de softwares: MS-DOS, Windows, Word, Excel (avançado), PowerPoint, 
Access, Outlook, Internet, CorelDraw, PhotoShop, Firework , Flash, DreamWeaver, 
HTML5, CSS, JavaScript, Java OO, JSP, PHP, introdução a C#, Delphi, bancos de 
dados SQLSERVER, MySQL, FIREBIRD, POSTGREE, MARIA DB, Linguagem SQL, 
Administrador de Banco de DADOS. Conhece Modelagem de dados com UML. 
Ministra treinamentos em Didática e Recursos Pedagógicos Google for Education e 
ministra diversos cursos nas áreas correlatas. Possui conhecimentos com ferramentas 
administrativas para gestão de qualidade e satisfação do cliente, como SEIS SIGMA, 
PDCA, 5S, Análise de SWOT, 5W2H. 
 
 
 
 
Ciência de Dados 
 
Estamos vivenciando a Quarta Revolução Industrial, disponibilidade tecnológica e a 
produção diária e massiva de dados que chamamos de Big Data. Isso nos traz 
diversas e profundas mudanças, que acontecem quase que instantaneamente em 
nossas vidas pessoais, saúde, negócios, escolas, faculdades, casas, carros, 
amizades, empregos e tudo mais à nossa volta. 
Os dados que estão sendo criados e consumidos em escala gigantesca com 
variedade e velocidade nunca pensados têm trazido aos negócios descobertas 
fantásticas acerca das oportunidades ainda inexploradas contidas nos grandes 
repositórios chamados de Big Data. 
A proposta desta unidade curricular é criar valor acerca da análise de dados contidos 
nos bancos de dados e extrair informações relevantes sobre a pesquisa que se 
pretende realizar. Com o Big Data, o profissional poderá mudar a forma como as 
coisas na empresa ou no negócio são realizados, ou mesmo como são produzidas, 
ganhando tempo e dinheiro. Também por meio da análise de dados será possível 
produzir relatórios e dashboard para a tomada de decisão baseada em dados. 
 
 
Objetivo 
 
Ao final desta unidade, você deverá ser capaz de: 
• Compreender as abordagens organizacionais ou de pesquisa em 
ciência de dados e inteligência artificial.. 
 
 
Conteúdo Programático 
 
Esta unidade está organizada de acordo com os seguintes temas: 
• Tema 1 - Introdução à ciência de dados e conceitos introdutórios 
• Tema 2 - Evolução da Ciência de Dados no âmbito acadêmico e 
no mundo do trabalho. 
• Tema 3 - Elementos básicos de programação 
• Tema 4 - Introdução à linguagem R 
• Tema 5 - Big Data 
 
 
 
 
É possível utilizar o poder dos dados para prever o futuro? Quais pontos de vista 
devem ser observados? 
 
 
Estas questões podem ser respondidas após a leitura de nosso material e a análise do 
nosso vídeo de apoio do canal NERDOLOGIA TECH, onde encontraremos boas 
fontes de exemplos para a explicação sobre Ciência de Dados. 
 
 
Clique na imagem para visualizar o vídeo. 
 
Caso não consiga visualizar, clique aqui . 
Assistir o Vídeo até o tempo 6:26. 
 
 
 
https://www.youtube.com/watch?v=ykSILAQQu6o
https://www.youtube.com/watch?v=ykSILAQQu6o
 
Tema 1 
Introdução à ciência de dados e conceitos 
introdutórios 
 
Qual a necessidade da ciência de dados e por que ela é 
indispensável? 
O que é ciência de dados? 
 
 
Antes de conceituamos Ciência de Dados, peço que se atente à imagem que 
mostraremos a seguir, que nos mostra algumas situações cotidianas 
vivenciadas na nossa cidade, que precisam ser adaptadas com a finalidade 
de melhorar o dia a dia e a vida dos cidadãos. 
Você poderia imaginar de que maneira a Ciência de Dados ajudaria a 
resolver essas dificuldades? 
 
 
 
Observe os setores destacados e os questionamentos dentro das caixas em azul. 
 
 
 
Após uma análise das informações contidas na imagem podemos verificar que ela nos 
mostra algumas aplicações da Ciência de Dados para melhorar a vida social. 
 
Observamos também que, a partir de problemas e perguntas iniciais, podemos iniciar 
algumas investigações. 
 
 
Tomando como exemplo o questionamento 1, em que espera-se que o 
ônibus passe no horário esperado, porém isso não ocorre. 
 
Por que não? O que impede? Existe solução para esse problema? 
 
Uma das maneiras pela qual poderíamos utilizar a ciência de dados para 
encontrar uma solução para o problema seria a partir de uma estimativa da 
frequência ideal de ônibus nesse local (ponto), com base emum tempo de 
espera que se imagina ser adequado. 
 
Ainda falando na solução desse problema, o que devemos coletar: 
 
• A frequência dos ônibus, que passam nesse local a fim de conhecer a 
situação atual 
• A quantidade de usuários que utilizam o transporte 
• A melhor rota percorrida, para evitar atrasos 
 
Conseguiu pensar em mais algum ponto para ser explorado? 
 
Para que possamos prosseguir é necessário definir esses tópicos importantes, pois 
eles indicam quais dados deve-se obter. É justamente a partir do momento em que os 
dados são obtidos que o processo investigativo evolui para se saber qual é a 
frequência ideal de ônibus nesse ponto da cidade. Observe a imagem e analise como 
temos diversos questionamentos em muitas áreas diferentes, ou seja, conforme 
Oracle (2020): 
 
 
“ 
A ciência de dados combina vários campos, incluindo estatísticas, métodos 
científicos, inteligência artificial (IA) e análise de dados para extrair valor dos dados. 
 
OCI, 2020 
” 
 
No uso do processo da Ciência de Dados, o dado bruto é transformado em 
informações úteis e relevantes por meio de algumas etapas que permitem analisar 
tendências e prever comportamentos futuros. As informações geradas permitem 
extrair conclusões e criar sacadas para responder a perguntas e solucionar problemas. 
https://www.oracle.com/br/data-science/what-is-data-science
 
As ferramentas matemáticas estão 
vinculadas a ciências sociais, ciências 
biológicas, ciências ambientais, setor de 
negócios, tecnologia, entre outras, a fim 
de descobrir padrões e tendências em 
problemas de naturezas diferentes. Isso 
faz com que a Ciência de Dados se torne 
uma área interdisciplinar, facilitando o 
seu uso por pessoas de diversas áreas 
do conhecimento. 
 
 
Ao observar a imagem anterior, entende-se que, para que a ciência de dados atue de 
maneira correta e com alta margem de assertividade, é necessário que o estudante 
(profissional) detenha e entenda os conceitos básicos contidos em sua composição. 
 
O que são dados e como os encontramos? 
 
Uma das informações mais relevantes na área de ciência de dados é o reconhecimento 
de fontes. E que são dados? São todas as observações, documentos, medições e 
qualquer outra fonte que nos dê a oportunidade de obter informações acerca de 
qualquer objeto investigativo. Conforme Pinheiro(2011): 
 
 
“ 
Dados são observações documentadas ou resultados da medição. A disponibilidade 
dos dados oferece oportunidades para a obtenção de informações. Os dados 
podem ser obtidos pela percepção através dos sentidos (por exemplo observação) 
ou pela execução de um processo de medição. 
 
PINHEIRO, 2011 
” 
 
 
 
https://www.ime.unicamp.br/~hildete/dados.pdf
 
O que são Informações e como as geramos? 
 
Quando buscamos dados como homem, mulher, professor ou até mesmo o nome ou a 
idade de alguém, possuímos apenas dados brutos, que não nos remetem a qualquer 
tomada de decisão ou análise crítica acerca dos dados que foram coletados. Porém, ao 
solicitarmos a quantidade de homens e mulheres ou faixa salarial de uma categoria 
profissional e após coletarmos essas informações e as tabularmos, será possível, gerar 
dashboard, gráficos, entre outras análises que nos fornecem um cenário para o 
processo decisório acerca de algum objeto investigado. 
Em resumo, estamos obtendo, com base nos dados, informações que irão nortear a 
nossa tomada de decisão. Então, concluímos que, ao darmos valor aos dados após 
análise, eles são transformados em informações úteis. 
 
Qual a necessidade da ciência de dados e por que ela é 
indispensável? 
 
 
Atenção: a Ciência de Dados é favorecida pela disponibilidade tecnológica, 
mas é importante destacar que são os seres humanos que coordenam, 
direcionam, criam regras, avaliam e manuseiam todo o processo 
investigativo. Assim, percebe-se a importância e a necessidade de um 
profissional capacitado que avalie a execução de cada etapa realizada e que 
possa garantir análises e interpretações coerentes a cada situação. 
 
Nos próximos temas abordaremos com mais profundidade alguns assuntos 
específicos do mundo da ciência de dados e sua aplicação a negócios e organizações. 
 
 
 
 
Tema 2 
Evolução da Ciência de Dados no âmbito 
acadêmico e no mundo do trabalho 
 
Quais outras áreas poderíamos citar como exemplo 
para atuação do cientista de dados e possível 
desenvolvimento de negócios com o uso da Ciência de 
Dados? 
O novo petróleo - Dados 
 
No ano de 1859, em 27 de agosto, em uma cidade 
americana chamada Titusville, na Pensilvânia, foi 
perfurado o primeiro poço de petróleo do mundo. Por 
iniciativa do coronel norte-americano Edwin Drake e 
após 23 metros de profundidade, o ouro negro 
apareceu para mudar o percurso da história, 
gerando riqueza para todos que tinham reservas de 
petróleo. Após o período de estudos foi utilizado 
como querosene e outros derivados. 
Assim como o petróleo transformou o curso da 
história da humanidade trazendo inúmeros 
benefícios e oportunidades para diversas pessoas e 
empresas e gerando riquezas para quem o detinha, 
do mesmo modo acontece com o petróleo de nossa 
época, ou como é chamado pelos cientistas, o novo 
petróleo — os dados. 
 
A partir dos dados, as organizações conseguiram 
alcançar personalização de seus produtos e 
serviços em grande escala, trazendo maiores resultados aos seus negócios. De posse 
desses dados, que são gerados de diversas fontes, organizações como redes sociais, 
buscadores, sites de streaming de vídeos, sites de músicas, entre outros, conseguem 
realizar análises e geração de relatórios com diversos caminhos alternativos. 
 
Para refletir 
 
Assim, as organizações vislumbram novas formas de fazer negócio. Seria 
uma volta ao vale do silício, onde empresários aprendem formas 
inovadoras, diferentes e exponenciais de analisar dados para que possam 
tomar decisões com maior taxa de sucesso. 
Primeiro poço de petróleo nos Estados 
Unidos, construído em 1859 por Edwin L. 
Drake, Titusville, Pensilvânia. 
 
Os empresários e profissionais gestores sabem que uma decisão errada pode levar 
seu negócio a pagar um preço muito alto ou até levá-lo à falência. 
Os líderes são reconhecidos e avaliados a partir da qualidade de cada decisão que 
tomam, até porque o ser humano não é substituível para essa etapa do negócio. Por 
este motivo, os líderes valem-se dos dados para a assertividade no processo 
decisório. 
Alguns exemplos: 
 
 
Exemplo 1 – E-commerce 
 Imagine neste momento as empresas na 
categoria e-commerce utilizando seus 
grandes volumes de dados, ou BIG DATA, 
para traçar estratégias de vendas mais 
agressivas em partes específicas do ano. 
Agora, vamos imaginar o processo de 
vendas e o processo de sugestão de vendas 
para os clientes que estão acessando os 
sites e-commerce. A esse processo 
chamamos BI – Bussiness Inteligence. Os algoritmos, ou sistemas implantados nos 
servidores que hospedam os sites, são desenvolvidos para coletar de cada cliente, de 
maneira única e personalizada, os dados de navegação e cliques que o cliente executa. 
Observe que durante o período natalino os produtos da época aparecem em sua tela 
de celular e computador como em um passe de mágica, sendo exatamente o produto 
que você quer comprar e com uma oferta que quase faz você sai de casa e ir até a loja 
naquele momento. Verdade? Claro que sim! Isso se dá devido à sua navegação nos 
sites e buscadores on-line, que mostram claramente quem é você e o que você quer. 
 
 
Exemplo 2 – Saúde 
Outro exemplo importante é a ciência de dados sendo aplicada na área da saúde, seja 
ela animal, vegetal ou humana. Alguns experimentos que eram quase impossíveis de 
analisar ou até mesmo de armazenar as informações sobre suas etapas e processos 
desenvolvidos devidos à riqueza de detalhes, hoje são possíveis de serem realizadas 
análises dos dados gerados por computadores robustose sistemas avançados. 
 
 
“ 
Dados são observações documentadas ou resultados da medição. A disponibilidade 
dos dados oferece oportunidades para a obtenção de informações. Os dados 
podem ser obtidos pela percepção através dos sentidos (por exemplo observação) 
ou pela execução de um processo de medição. 
PINHEIRO, 2011 
” 
 
Alguns fatos interessantes neste contexto: 
hoje é possível a análise de imagens 
médicas que são coletadas todos os dias e 
armazenadas nos grandes repositórios de 
dados, disponíveis ou não. Podemos ter 
acesso a alguns dados em sites oficiais com 
a finalidade de comparações e geração de 
estatísticas, como o do IBGE, ONU, entre 
outros. 
 
 
O que você faria se tivesse acesso ao volume de dados médicos registrados no sistema 
de saúde pública, o SUS? 
Pense um pouco sobre esta questão, pois você poderá inovar algum produto ou 
serviço em saúde ajudando inúmeras pessoas e gerando resultados surpreendentes. 
Se estiver interessado em analisar alguns dados, segue um link disponível no site 
do IBGE: 
Clique aqui – Micro Dados - IBGE 
Caso tenha interesse em mais dados e oportunidades de análise de dados, o site ainda 
dispõe de outros dados aos quais temos acesso por meio deste endereço eletrônico: 
Clique aqui – Estatísticas - IBGE 
Outras aplicações que evoluíram muito com a aplicação da ciência de dados é a área 
de saúde animal, ou veterinária. O Ministério da Agricultura, Pecuária e Abastecimento 
tem como base gerenciar os dados e informações sobre saúde animal em nosso pais 
por meio do SIZ - Sistema Nacional de Informação Zoossanitária. Conforme publicação 
em sua página da internet, o ministério relata as ações e objetivos do SIZ: 
 
 
 
 
https://www.ime.unicamp.br/~hildete/dados.pdf
https://www.ibge.gov.br/estatisticas/downloads-estatisticas.html?caminho=PNS/2019/Microdados/Dados
https://www.ibge.gov.br/estatisticas/todos-os-produtos-estatisticas.html
 
“ 
Os principais objetivos do SIZ são coletar, consolidar, analisar e divulgar 
informações zoossanitárias para apoiar a elaboração, implantação, avaliação e 
tomada de decisões sobre estratégias e ações de vigilância, prevenção, controle e 
erradicação de doenças animais de relevância para a pecuária e para a saúde 
pública. 
MINISTÉRIO DA AGRICULTURA PECUÁRIA E ABASTECIMENTO, 2022 
” 
 
Todos os dados que são coletados a partir das plataformas digitais oficiais servem 
como base para o início de investigações para o desenvolvimento de vacinas e 
produtos que visam o bem-estar animal. Conforme o portal do Ministério da Agricultura 
Pecuária e Abastecimento: 
 
“ 
Os dados são obtidos a partir dos registros dos Formulários de Investigação oficial 
de doenças e dos dados consolidados nos Informes Epidemiológicos Mensais, de 
responsabilidade do Serviço Veterinário Oficial - SVO dos estados (Órgão Estaduais 
de Saúde Animal), que realizam as investigações de doenças notificadas e 
compartilham as informações com as Superintendências Federais de Agricultura - 
SFA e Departamento de Saúde Animal - DSA, seguindo os procedimentos de 
vigilância e fluxos de informação do SIZ. 
MINISTÉRIO DA AGRICULTURA PECUÁRIA E ABASTECIMENTO, 2022 
” 
 
Observamos como por meio de artigos e sites de internet a ciência de dados está a 
cada dia ajudando as organizações com soluções e assertividade no processo de 
tomada de decisão baseada em dados. Além dessas fontes existem outras disponíveis 
na internet, que fazem com que o aluno ou profissional possa fazer consultas acerca 
de pesquisas e inovações em ciência de dados sobre os benefícios aos animais, 
plantas e seres humanos. 
 
https://bityli.com/caIRS
https://bityli.com/caIRS
 
Exemplo 3 – Financeiro 
Podemos também citar que, além das 
pesquisas envolvendo a saúde no âmbito da 
ciência de dados, outra área que utiliza 
profundamente a ciência de dados para 
manter seus negócios funcionando em 
grande escala é a financeira. Grandes 
instituições, que outrora eram pequenas, 
usaram a ciência de dados para alavancar 
seus negócios e aumentar sua margem de 
lucro a partir da coleta de informações, análise de resultados e tomada de decisão 
com maior taxa de assertividade. 
 
Podemos citar como um grande exemplo uma empresa na categoria de banco digital 
chamada Nu Bank, que hoje atua no Brasil e no mundo ofertando serviços bancários 
com agências digitais e outros negócios financeiros aos seus usuários. 
 
 
 
Exemplo 4 – Gestão e Marketing 
A área de gestão de pessoas ou recursos humanos necessita de análise de dados 
para poder atender de maneira personalizada, podendo criar novos produtos e 
serviços ao seu público, aumentando seus resultados qualitativos e quantitativos. 
Assim como a área de gestão de pessoas, o marketing necessita de análise profunda 
do perfil detalhado sobre seu público. 
 
Em marketing, é a chamada modelagem de persona que dá ao profissional de 
marketing as informações necessárias para traçar estratégias e escolhas de materiais 
publicitários que têm a ver com seu público. 
 
As campanhas desenvolvidas pela área de gestão ou pelo marketing, seja ele digital 
ou não, necessitam de alguns dados sobre seu público para que a campanha seja a 
mais assertiva possível. 
 
Por exemplo: 
 
 
 
• Ao postar em rede social, quem mais interage: homem ou mulher? 
• De qual região de sua cidade estas pessoas falam com você? 
• Qual é a média salarial destas pessoas? 
• Quais interesses em comum estas pessoas apresentam? 
• Qual a formação delas? 
• Qual o gênero? 
• Sua postagem tem foco em qual produto ou serviço? 
• Qual o nicho você está trabalhando? 
 
As respostas destes questionamentos podem nortear uma investigação acerca da 
modelagem de uma persona e podendo traçar estratégias para a alavancagem de 
negócios e serviços digitais. 
 
 Vídeo 
Para saber mais, assista ao vídeo publicado na unidade da disciplina no 
Ambiente Virtual de Aprendizagem. 
 
 
Exemplo 5 – Produção acadêmica 
Outro exemplo bem interessante do uso da ciência de dados é a análise textual das 
produções acadêmicas. Tal análise tem a finalidade de orientar os alunos de nível 
técnico e superior quanto ao desenvolvimento de artefatos acadêmicos, como artigos 
científicos, trabalho de conclusão de curso, dissertações, entre outros. 
Mais um exemplo interessante para 
nossa análise sobre o uso da ciência de 
dados é o meio acadêmico falando um 
pouco sobre produção e análise textual, 
com foco em orientação e produção 
acadêmica. Ao final de um período, o 
aluno precisa produzir alguns artefatos 
acadêmicos, que conhecemos como 
artigo científico e trabalho de conclusão 
de curso. Por meio da ciência de dados 
é possível minerar toda produção 
acadêmica gerada pelo nosso aluno, sendo assim mais assertivo em sua orientação. 
Em relação a alguns trabalhos que apresentam textos que não foram produzidos pelo 
aluno com a ciência de dados, é possível realizar uma correção em tempo, orientando 
o aluno na citação do texto e de seu autor. 
 
 
Tema 3 
Elementos básicos de programação 
Como entender estruturas de códigos utilizando os 
elementos básicos da programação? 
O que é ciência de dados? 
 
 
Pergunta em destaque 
 
 
 Entendendo sobre os pilares da programação 
 
Na área de ciência de dados existem maneiras de obter informações a partir da 
análise dos dados. Uma dessas refere-se à utilização de linguagem de programação. 
Linguagem de programação é o mesmo que uma maneira padronizada de introduzir 
instruções em um computador. 
 
Para que essas instruções sejam inseridas com êxito dentro do computador, é 
necessário seguir alguns pilares funcionais de programação. São eles: vocabulário, 
sintaxe e semântica. 
 
Vocabulário Sintaxe Semântica 
É o mesmo que conjunto 
de palavras primitivas da 
linguagem de 
programação, ou palavras 
reservadas. Por exemplo: 
na linguagem R, 
utilizamos a palavra 
“sum”, que é uma funçãopara somar valores. Isso 
significa que não posso 
utilizar esta palavra para 
outra finalidade, senão 
para a que foi criada. 
Refere-se a todas as 
regras ou conjunto de 
regras que utilizamos para 
escrever comandos dentro 
da linguagem. Por 
exemplo: havendo dois 
números armazenados 
nas variáveis a e b, 
podemos somá-los 
utilizando o operador 
relacional de soma a + b. 
A partir da sintaxe 
determina-se do como os 
comandos devem ser 
escritos ou expressados. 
Trata-se do que 
representa cada comando 
dentro de uma linguagem 
de programação, é a 
maneira pela qual devo 
escrevê-lo de acordo com 
o seu significado e o que 
se pretende obter. 
 
 
Para que seja possível a coleta, análise e manipulação de dados, é necessária a 
utilização de armazenamento em espaços na memória do computador por meio do 
uso de variáveis, que são espaços na memória de um computador destinado ao 
armazenamento temporário de um dado durante a execução do sistema. 
 
Vale registrar que a memória não guardará seus dados no momento em que o seu 
computador for desligado, ou seja, as memórias são voláteis. Os dados armazenados 
na memória são de tipos específicos, como inteiro, fracionário, alfanumérico e 
booleano. 
 
Operadores relacionados 
As linguagens de programação utilizam os operadores relacionais dentro de seu script 
com a finalidade de comparar valores para se obter resultado verdadeiro ou falso. Vale 
registrar que as comparações dentro do script precisam ser de um mesmo tipo de 
dado. Não se pode comparar um valor alfanumérico com outro valor numérico, pois o 
resultado seria indefinido. Em muitos casos, o compilador da linguagem de 
programação retornará um erro. 
 
Por exemplo: Celso >= 1. Observe que, neste exemplo, está sendo comparada uma 
variável alfanumérica com o valor numérico. Neste caso, não se obtém resultado ou 
resposta para esta comparação. 
 
Tabela de operadores relacionais. 
 
Operador Significado 
== Igual a 
!= Diferente de 
> Maior que 
< Menor que 
>= Maior ou igual a 
<= Menor ou igual a 
 
 
 
 
Operadores aritméticos 
Com a finalidade de executar operações matemáticas a linguagem de programação 
utiliza operadores aritméticos. Aqui encontramos adição, subtração, multiplicação, 
divisão, potência, módulo, entre outras operações por meio das quais se pretende 
obter resultado matemático. 
 
Tabela de operadores aritmético. 
 
Operador Significado Exemplo Descrição 
+ adição d + e Soma de dois valores. 
- Subtração d - e Subtrai o segundo valor do primeiro. 
/ Divisão d / e Divide o primeiro valor pelo segundo. 
* Multiplicação d * e Multiplica os dois valores 
** Potência d ** e 
Eleva o primeiro valor pela potência do 
segundo. 
% Módulo d % e 
Divide o primeiro valor pelo segundo 
valor e produz a parte restante. 
 
 
Operadores lógicos 
 
Os operadores lógicos são utilizados com a finalidade de se obter comparações 
relacionais entre os valores trabalhados dentro de uma estrutura de dados. 
Tabela de operadores lógicos. 
 
Operador Significado Exemplo Descrição 
&& E d && e 
Retorna verdadeiro se ambos o valores 
forem verdadeiro. 
|| Ou d || e 
Retorna verdadeiro se pelo menos um 
valor for verdadeiro. 
 
 
Estrutura condicional 
 
Uma estrutura condicional dentro da programação é utilizada com a finalidade de se 
tomar uma decisão mediante análise e comparação dos dados que estão 
armazenados em variáveis. Por este motivo, também é chamada de estrutura de 
decisão. Analise o trecho de código a seguir: 
 
 
Explicando: 
x ← 10 (Nesta linha estamos armazenando o valor 10 na variável X) 
FORO comano “IF” é utilizado para a realização de um teste condicional. Caso o 
número armazenado em X seja igual a 10, vamos armazenar a frase: "Número igual a 
10" em uma variável chamada “res”, e, posteriormente, esta frase será exibida a partir 
do comando print. 
 
Estrutura de repetição 
 
As estruturas de repetições são utilizadas comumente com o objetivo de listar diversos 
valores sem a necessidade de criar scripts gigantescos. Elas nos permitem, com 
poucas linhas de código, exibir inúmeras informações que estejam dentro de uma lista 
de dados ou repositório de dados. Falaremos especificamente nos próximos temas de 
duas estruturas de repetição utilizadas com maior frequência dentro da linguagem de 
programação. São elas a estrutura de repetição for e while. 
 
Ambas as estruturas são chamadas de laço de repetição e são frequentemente 
utilizadas para percorrer vetores e listas de dados. 
 
 
 
Tema 4 
Introdução à linguagem R. 
De que maneira aprender introdução à linguagem R 
sem precisar instalar nenhum sistema? 
 
 
Introdução à Linguagem R 
 
Para que seja possível realizar a análise de um grande volume de dados, o cientista 
necessita contar com o uso da tecnologia da informação e comunicação com a 
finalidade de obter informações contidas no volume de dados. 
 
Neste tópico utilizaremos a tecnologia chamada 
de linguagem de programação R. Esta 
linguagem de programação é excelente para 
quem deseja tornar-se cientista de dados, pois 
ela é muito rica e de fácil aprendizado, atuando 
nas áreas de análise de dados, ciência de 
dados, inteligência artificial e machine learning. 
Vamos observar aqui os conceitos básicos 
dessa linguagem e desenvolver alguns scripts 
práticos em linguagem R. 
 
A linguagem R é excelente para quem está começando a aprender análise de dados, 
querendo conhecer mais sobre ciência de dados, machine learning e inteligência 
artificial. Por meio dela, mesmo quem nunca escreveu uma linha de código consegue 
rapidamente aprender o básico para criar seus primeiros scripts. 
 
 
 
As informações sobre esta linguagem você poderá obter no site oficial: R-
PROJECT 
 
Para que seja possível a execução dos scripts gerados neste tópico vamos 
utilizar um ambiente on-line e gratuito com compilador R. 
 
O que é um compilador? 
Quando criamos um script utilizando uma linguagem de programação, as instruções 
nestes scripts são traduzidas para linguagem de máquina, chamada de linguagem 
binária (0 e 1). Esta tradução é realizada pelo sistema chamado de compilador. 
 
 
 
https://www.r-project.org/
https://www.r-project.org/
 
Acessando o ambiente on-line 
 
Para iniciar a criação dos nossos códigos em linguagem R, vamos utilizar um 
ambiente on-line com todos os recursos disponíveis gratuitamente. 
Para ter acesso ao ambiente, basta acessar o link: Online Rscript Compiler 
 
 
 
Observe que a tela inicial nos exibe um botão por título execute, localizado no alto à 
direita, onde os códigos digitados na área escura da tela serão traduzidos em um 
gráfico mostrado à direita da tela. Para podemos iniciar, vamos apagar todo conteúdo 
previamente exposto na área de códigos. Como estudado anteriormente, neste 
momento vamos utilizar os operadores relacionais, lógicos e aritméticos na geração do 
nosso primeiro script. 
 
Acessando o ambiente on-line 
 
Para não cairmos na maldição da linguagem de programação R, precisamos seguir 
um ritual que está presente em todas as linguagens de programação, o famoso hello 
world. Então, para isso usaremos o seguinte código: print ("hello world"). Após a 
digitação do nosso código inicial clique sobre o botão execute. 
 
Observe que será exibida a frase do lado direito da tela. Sempre que precisarmos 
exibir uma frase, utilizaremos este comando e o texto entre aspas. Em seguida, vamos 
utilizar os operadores como vistos acima nas tabelas. Digite a lista de operações a 
seguir e clique em execute. 
 
 
https://www.tutorialspoint.com/execute_r_online.php
https://www.tutorialspoint.com/execute_r_online.php
 
Em nosso código, estamos realizando as quatro operações básicas 
da matemática e, na linha de número 5, existe a operação de 
potência conforme descrito nas tabelas anteriores. Na linha de 
número 6 existe a criação de uma variávela. Esta variável está 
recebendo o valor 10. Na linha seguinte existe a criação de uma 
nova variável b, que recebe o valor 5. Na linha 8 foi criado uma 
variável x, que está recebendo a soma das variáveis A e B. Por fim, 
está sendo utilizado o comando print para mostrar o resultado da 
soma que está sendo armazenada na variável x. Observe na 
imagem ao lado direito o valor 15, que é o resultado da soma das 
variáveis A e B. 
 
 
Segundo código - Perguntando ao R 
 
Dentro do ambiente de programação R, é possível utilizar os operadores relacionais 
com a finalidade de se obter uma resposta a um questionamento escrito dentro de 
nosso script, como: 
 
Comparação numérica: 5 == 5 
Comparação alfanumérica: "Celso" == "Celso" 
 
 
Na primeira comparação é analisado se o valor 5 = outro valor 5. Após clicar no 
botão Execute, você irá obter o resultado true, ou seja, verdadeiro. Em nossa 
segunda comparação, estamos analisando um valor alfanumérico com outro valor 
alfanumérico, e também vamos obter o resultado verdadeiro. Todas as vezes em que 
for necessária a comparação de valores alfanumérico, ou seja, textos, caracteres 
especiais e outros símbolos, eles precisarão estar entre aspas duplas. 
 
Poderíamos, ainda, estar utilizando outros operadores na realização de comparações 
entre valores. Então, vamos lá! 
 
Comparação numérica Resultados 
5 == 5 [1] TRUE 
5 != 5 [1] FALSE 
5 > 5 [1] FALSE 
 
Comparação numérica Resultados 
5 < 5 [1] FALSE 
5 >= 5 [1] TRUE 
5 <= 5 [1] TRUE 
 
Nas comparações descritas acima, estamos utilizando os operadores relacionais 
conforme nossas tabelas. Após clicar no botão execute, você irá obter o resultado 
conforme a coluna da direita. Nesse momento, com essas comparações, a linguagem 
R entende que está sendo perguntado acima o seguinte: 5 é maior do que 5? o R 
imediatamente responde que não, ou seja, false, conforme linha 3 em destaque. 
Vamos ver mais um exemplo simples de como calcular a média entre dois números 
quaisquer. 
 
Atribuição 
a ← 10 
b ← 5 
d ← c(a,b) 
Resultado 
mean(d) 
7,5 
 
No exemplo acima criamos as variáveis A e B e atribuímos-lhes os valores 10 e 
5 respectivamente. Na linha seguinte criamos a variável D, que recebe e a partir de 
uma função C os valores de A e B. Chamamos a isto de passagem de parâmetros. 
Para que seja possível o cálculo da Média, utilizamos uma função mean, que recebe o 
valor da variável D. Como resultado, obtemos 7,5. 
Como sugestão de material de apoio, deixamos para você dois links contendo 
informações completas sobre a linguagem R e suas aplicações: 
 
 
• Ciência de Dados em R (curso-r.com) 
• Aprenda R em 14 minutos! (Para iniciantes) - YouTube 
https://livro.curso-r.com/index.html
https://www.youtube.com/watch?v=pdRoIDQJ_x4
 
O primeiro link traz um material on-line com possibilidade de impressão, caso deseje 
para estudar e conhecer um pouco mais da linguagem. O segundo link é um vídeo 
com informações básicas. 
Esperamos que goste! 
 
 
Tema 5 
Big Data 
O que é o big data e qual o seu valor para a minha 
formação profissional? 
O que é ciência de dados? 
 
O que é o Big Data? 
 
O termo “Big Data” está relacionado a todos 
os dados gerados por empresas no dia a 
dia. Com a evolução da tecnologia e a 
transformação digital, estão surgindo 
diversas e novas formas de computar e 
analisar esses dados, podendo transformá-
los em serviços diferenciados. 
 
Ainda sobre o termo, este pode ser descrito 
como um alto volume de dados, que podem 
estar estruturados ou não, e que são resultado das interações de bilhões de pessoas 
conectadas em diversas plataformas virtuais, como redes sociais e sites de comércio 
eletrônico. De acordo com Gardnet (2020): 
 
 
“ 
Big data são ativos de informações de alto volume, alta velocidade e/ou alta 
variedade que exigem formas inovadoras e econômicas de processamento de 
informações que permitem uma visão aprimorada, tomada de decisões e automação 
de processos. 
(GARDNET, 2020) 
” 
 
https://www.gartner.com/en/information-technology/glossary/big-data
 
Conforme Boyd e Crawford (2011): 
 
“ 
O termo Big Data surge nos últimos anos em meio a este cenário. Ele representa 
grosso modo o grande volume de dados, base para a produção de informações não 
estruturadas e estruturadas, produzidos de maneira exponencial na 
contemporaneidade. Mais do que seu volume, sua articulação em rede, sua 
velocidade e diversidade possibilitam a produção de mais dados, a partir dos dados 
já existentes, sobre indivíduos, grupos ou sobre a própria informação, quaisquer que 
sejam ela, disponível. 
” 
 
Em uma definição clara e objetiva, Big Data significa um grande volume de dados. A 
quantidade aumenta consideravelmente à medida que novos meios digitais aparecem 
para gerar dados, não só a cada dia, mas a cada minuto. 
 
Por que o Big Data? 
Os dados do Big Data podem ser estruturados ou não e incentivam o cruzamento de 
informações para chegar a insights e decisões estratégicas para uma empresa. 
Porém, diante desse cenário, alguns especialistas começaram a se perguntar ao longo 
dos anos: para que uma organização acumula esse grande volume de dados? 
 
Tais dados só estariam acumulando espaço em discos rígidos se informações não 
pudessem ser extraídas. O que é possível realizar com a análise de Big Data? 
 
• Entender o cenário do mercado. 
• Satisfação com uma marca. 
• Necessidades de determinado público. 
• Descoberta de negócios e oportunidades. 
• Curas de doenças. 
• Análise de padrões. 
• Outras análises. 
A partir dessa análise podemos afirmar de maneira assertiva que a Era do Big Data ou 
grande volume de dados se caracteriza pela necessidade de se analisarem esses 
dados e convertê-los, transformá-los em informação úteis e preciosas para governos e 
negócios de vários seguimentos. 
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=1926431
 
Isso implica muitos desafios a serem superados, pois a maioria consiste de dados não 
estruturados, cujo potencial ainda não foi totalmente explorado. São necessárias 
técnicas mais complexas para sua exploração, mantendo ainda uma grande 
oportunidade de negócios para os profissionais com conhecimentos em ciência de 
dados. 
 
Prática de guardar e estruturar dados 
 
Embora o termo Big Data seja muito 
recente, sabe-se que a humanidade 
sempre conviveu com uma grande 
quantidade de dados, que eram 
armazenados de várias maneiras 
distintas ao longo do tempo. Existem 
evidências de registro de dados em 
pinturas que datam de 18.000 a.C. O 
uso de uma linguagem estruturada 
para registrar informações tornou-se 
mais comum a partir de 3.500 a.C. 
com a invenção da escrita. 
 
 
 
 
Com todas as informações sendo geradas ao longo dos anos pela 
humanidade, por que somente agora estamos usando-as? Qual a real 
relevância disso? O que nos impedia de analisar os dados gerados 
anteriormente? 
 
Diante destes questionamentos encontramos uma resposta simples: somente agora, a 
partir da revolução digital, encontramos ferramentas e disponibilidade tecnológica para 
tratarmos dessas questões. Essa revolução fez com que o volume de informações 
criado pela geração atual seja milhares de vezes maior do que o gerado nas gerações 
anteriores. 
E como que estamos gerando informações milhares de vezes maiores do que o que 
foi gerado nas gerações anteriores? Acompanhe as informações a seguir referentes 
somente ao ano de 2020: 
• Foram enviadas 100 bilhões de mensagens por dia no WhatsApp. 
• Foram enviadas mais de 59 milhões de mensagens por minuto no Facebook. 
• Foram enviados mais de 190 milhões de e-mails por minuto. 
• Foram processadas pelo Google mais de 3 bilhões de pesquisas por dia em 
todo o mundo. 
• Foram enviadas mais de 500 milhões de mensagens por dia pelo Twitter. 
 
Os “registros de contabilidade” gravados nos tabletes de argila 
de Uruk, datam desta época.Formação profissional 
 
Esses dados produzidos diariamente disponibilizam informações importantes para 
empresas dos mais diversos segmentos. Os profissionais preparados na área de 
ciência de dados poderão criar modelos destinados a explorar e prever o 
comportamento de usuários baseando-se nos dados coletados, com ajuda 
computacional e estatística na elaboração de algoritmos eficientes 
É necessário saber que o profissional atuante na área de ciência de dados irá imergir 
em áreas específicas como matemática, ciência da computação e conhecimento do 
domínio. Pode-se dizer que o profissional formado nesta unidade curricular terá uma 
visão multidisciplinar, sabendo usar técnicas estatísticas e de machine learning, 
alavancadas pela implementação computacional dessas soluções para analisar 
conjuntos massivos de dados de qualquer área. 
 
 
 
Importante 
 
Esse profissional estará qualificado para tratar de problemas diversos, 
como: uma empresa de streaming que procura aumentar o número de 
clientes identificando suas preferências pessoais, tendo como informação 
as escolhas passadas. O mesmo acontece com aplicativos de música e e-
commerce. É aí que esse profissional entra para resolver esse problema. E 
a demanda é enorme. 
 
 
 
Outro exemplo que pode ser explorado: 
as startups, empresas que já nascem 
com DNA tecnológico e que disputam 
talentos que respiram ciência e análise 
de dados para poder alavancar os 
negócios. Percebe-se que esta profissão 
é globalizada, pois um cientista de 
dados pode atuar em diversas partes do 
mundo e de onde quiser, uma vez que 
considera-se a possibilidade e a 
facilidade do trabalho remoto, proporcionando a esse profissional altos salários, 
demanda de mercado crescente e oportunidades de vários negócios, inclusive já no 
início de sua carreira. 
 
 
 
Encerramento 
 
 
Qual a necessidade da ciência de dados e por que ela é 
indispensável? 
As organizações não mais farão negócios sem a aplicação das análises em ciência de 
dados. Vimos no Tema 1 que existem oportunidades em todas as áreas para 
profissionais capacitados e habilidosos em ciência de dados. 
Quais outras áreas poderíamos citar como exemplo 
para atuação do cientista de dados e possível 
desenvolvimento de negócios com o uso da Ciência de 
Dados? 
 
Não existe apenas uma área específica para atuação do cientista de dados. Ele 
poderá atuar em finanças, saúde, gestão e nas demais áreas que acumulam dados e 
necessitam de respostas para tomadas de decisão. 
 
Como entender estruturas de códigos utilizando os 
elementos básicos da programação? 
 
Foi demonstrado que a linguagem de programação é estruturada em três pilares e 
que, após os entendermos, é possível o desenvolvimento de scripts. 
 
De que maneira aprender introdução à linguagem R 
sem precisar instalar nenhum sistema? 
 
A linguagem R possui um ambiente chamado de R Studio. Porém, foram criados 
diversos ambientes on-line que nos entregam o mesmo poder do ambiente R Studio, 
como vimo no decorres do Tema 4. 
 
O que é o Big Data e qual o seu valor para a minha 
formação profissional? 
 
A geração de dados é uma realidade da nossa época digital e os profissionais que não 
entenderem os conceitos de Big Data estarão desatualizados e não conseguirão 
desenvolver novos produtos baseados em tendências. 
 
Resumo da Unidade 
 
Nesta unidade vimos os conceitos sobre Ciência de Dados e sua aplicação na 
atualidade, entendemos o conceito de dados e informação e a geração de valores 
baseada nos dados armazenados. Vimos também a evolução da ciência de dados 
no mercado profissional e suas aplicações em diversas áreas do conhecimento. 
 
Conseguimos entender quais são os elementos básicos de programação, quando 
vimos os conceitos de vocabulário, sintaxe e semântica, que são os pilares de uma 
linguagem de programação. Após esses conceitos, entramos em introdução à 
linguagem de programação R, que é uma linguagem poderosa no uso de análise 
de dados e geração de gráficos. Por fim, aprendemos sobre Big Data, seu conceito 
e sua utilização no mundo corporativo.

Outros materiais