03.01 Big Data Analytics com R e Azure(1)

Karina Balbino Santana
20/03/2023
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 24 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 24 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 24 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Prévia do material em texto
www.datascienceacademy.com.br	
	
	
	
Big	Data	Analytics	Com	R	e	Microsoft	Azure	
Machine	Learning	
	
	
Base	de	Conhecimento	
		
	
	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
2	
	
	
Base	de	conhecimento	do	curso	Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learnig.	
	
Versão	 Data	 Log	de	alterações	
1.0	 23/05/2017	 Criação	do	documento	
	 	 	
	
	 	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
3	
	
1. Link	para	download	dos	datasets:	
	
http://datascienceacademy.com.br/blog/aluno/RFundamentos/Datasets/	
	
	
2. No	video	"Big	Data	na	Prática"	 foi	utilizado	 inicialmente	"Brazil"	para	o	 refinamento	do	
subset.	Quando	não	 conhecemos	os	 valores	dentro	do	arquivo	 csv,	 qual	 seria	 a	melhor	
prática	de	conhecer	esse	arquivo	sem	ter	que	carregá-lo	por	inteiro?	
	
A	 melhor	 prática	 é	 ter	 em	 mãos	 o	 dicionário	 de	 dados	 do	 dataset	 com	 o	 qual	 você	 está	
trabalhando.	Um	dicionário	de	dados	vai	descrever	o	que	existe	em	cada	coluna	do	dataset.	Isso	
normalmente	é	feito	por	quem	coleta	os	dados.	
	
	
3. A	 função	 "sample()"	 interage	 com	 valores	 indisponíveis.	 Seria	 possível	 utilizar	 outras	
referências	 sem	 ser	 o	NA?	 Por	 que	 no	 exemplo	 do	 video	 a	 função	 selecionou	 posições	
aleatórias	para	atribuir	o	valor	NA?	
	
Quando	 usamos	 a	 função	 sample()	 estamos	 trabalhando	 com	 valores	 aleatórios,	 para	 evitar	
interferir	no	resultado	final	do	processo	de	manipulação	de	dados.		
	
	
4. Gostaria	 de	 Saber	 se	 o	R	 ou	o	 próprio	MySQL	 conseguem	acessar	 o	 SAP	 gui	 por	 script.	
Hoje	trabalho	em	uma	empresa	que	utiliza	SAP	e	extraímos	relatórios	do	SAP	via	macros	
do	excel/access,	sabe	informar	se	o	R	consegue	fazer	algo	similar?	
	
O	 R	 conecta	 em	 quase	 todos	 os	 bancos	 de	 dados	 e	 podemos	 usar	 conexão	 ODBC	 para	 isso	
também.	Não	 sei	 dizer	 se	 o	 R	 pode	 conectar	 ao	 SAP	Gui,	mas	 ao	 banco	 de	 dados	 sim	 (se	 a	
equipe	 do	 SAP	deixar,	 o	 que	 acho	pouco	provável).	 Você	 também	pode	 solicitar	 a	 cópia	 dos	
dados	para	uma	área	intermediária,	tipo	uma	área	de	stage	e	acessar	os	dados	com	o	R.	
	
	
5. Eu	abri	uma	conta	no	github	e	usei	o	RMarkdown	para	criar	um	Website,	consegui	fazer	
direitinho,	pois	no	R	consigo	visualizar	a	páginas	com	algumas	informações	que	coloquei	a	
titulo	de	experimento,	eu	pretendo	colocar	todos	os	meus	projetos	nesta	página	e	fazer	
um	portfólio	bem	legal.	Consegui	então	dar	um	push	de	tudo	para	o	Git,	porém	ao	acessar	
a	 página	 pelo	 domínio	 do	 github	https://xxx.github.io/,	 não	 consigo	 visualizar	 a	 página	
que	criei,	aparece	somente	a	mensagem	que	coloquei	no	github,	my	website.	Como	faço	
para	aparecer	a	minha	página?	
	
Dá	uma	olhada	neste	 link:	http://jmcglone.com/guides/github-pages/.	Tem	um	guia	completo	
de	como	montar	a	página	no	Github.	Veja	se	não	faltou	algum	passo.	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
4	
6. Alguém	 conhece	 um	 método	 fácil	 de	 abrir	 os	 arquivos	 baixados	 (.R,	 outros)	 com	 a	
acentuação	correta?	Ex:	"Plot	de	CorrelaÃ§Ã£o	usando	MÃ©todo",	é	assim	que	aparece	
toda	vez	que	abro	um	arquivo	aqui	no	Windows,	acredito	por	ele	ter	sido	criado	no	Mac	a	
acentuação	é	incompatível.	Não	tem	problema	se	ninguém	souber,	pois	isso	não	impede	a	
execução	dos	scripts,	é	só	uma	questão	estética	mesmo.	
	
Após	 aberto,	 salve	o	 arquivo	em	File	 =>	 save	with	 encoding	=>	UTF8	 (marcar	 “set	 as	default	
encoding	 for	 source	 files”)	 ...	 depois	 verifica	 se	 corrigiu.	 Aqui	 segue	 a	 referência:	
https://support.rstudio.com/hc/en-us/articles/200532197-Character-Encoding.	
	
	
7. Estou	com	uma	dificuldade.	Quando	usar	modelo	classificação	e	quando	usar	regressão.	
	
Você	usa	classificação	quando	precisa	prever	a	categoria	ou	classe.	Por	exemplo:	prever	se	um	
vinho	pertence	a	classe	A	ou	B.	Você	usa	regressão,	quando	precisa	prever	valores	numéricos,	
como	por	exemplo,	prever	o	valor	de	uma	casa,	em	função	do	seu	tamanho.	Lembrando	que	a	
Formação	é	uma	sequência,	ok?	O	aluno	vai	estudar	Machine	Learning	de	forma	exaustiva	ao	
longo	dos	cursos	seguintes	da	Formação.	O	objetivo	aqui	é	apenas	uma	breve	introdução	
	
	
8. Ao	criar	minha	app	no	Twitter	há	um	campo	em	que	pede	um	website	eu	poderia	colocar	
o	website	do	DSA?	
	
Esse	 campo	 é	 para	 preencher	 com	 o	 endereço	 do	 site	 onde	 sua	 app	 supostamente	 será	
publicada.	Pode	usar	o	endereço	da	DSA.	
	
	
9. Eu	gostaria	de	tirar	uma	dúvida	sobre	a	funcionalidade	do	R	em	categorizar	campos	nos	
dataframes.	 Nos	 exemplos	 citados	 foram	 apresentadas	 as	 colunas	 etnias	 e	 sexo	
convertidas	automaticamente	em	fatores.	O	R	categoriza	por	ter	um	determinado	grupo	
de	valores	 identificados	com	possível	disposição	para	categorização?	Ou	o	R	 sempre	 irá	
analisar	 a	 densidade	 e	 seletividade	 de	 todas	 colunas?	 Sendo	 assim,	 independente	 da	
coluna	ou	valores,	se	existir	uma	seletividade	minima	e	uma	alta	densidade	sempre	será	
convertido	como	fator?	
	
Conceitualmente,	 fatores	 são	 variáveis	 que	 no	 R	 assumem	 um	 número	 limitado	 de	 valores	
diferentes.	 Tais	 variáveis	 são	 referidas	 como	 variáveis	 categóricas	 frequentemente	 e	 um	dos	
usos	 mais	 importantes	 de	 fatores	 está	 na	 modelagem	 estatística.	 Fatores	 em	 R	 são	
armazenados	como	um	vetor	de	valores	de	números	 inteiros	com	um	conjunto	de	caracteres	
correspondentes.	Fatores	representam	uma	maneira	muito	eficiente	para	armazenar	valores	de	
caracteres,	 pois	 cada	 caracter	 único	 é	 armazenado	 apenas	 uma	 vez	 e	 os	 dados	 em	 si	 são	
armazenados	como	um	vetor	de	inteiros.	A	conversão	dos	dados	para	fator	não	segue	nenhuma	
regra	complexa	no	R.	Isso	é	definido	nos	parâmetros	da	função	sendo	usada	para	ler	os	dados	
(read.csv,	read.table,	etc...).	Ajustando	o	parâmetro	stringsAsFactors,	definimos	se	o	R	deve	ou	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
5	
não	fazer	a	conversão.	Se	não	definimos	o	parâmetro	explicitamente,	é	usado	o	valor	default.	
Mas	nem	sempre	o	R	acerta	nesta	classificação	em	fator	ou	não,	e	por	 isso	sempre	devemos	
checar	se	os	dados	foram	carregados	conforme	esperávamos.	
	
	
10. No	 início	do	 curso	eu	havia	 instalado	erroneamente	o	R	 3.3.3,	 agora	que	mudei	 para	 a	
versão	R	3.3.2,	toda	vez	que	eu	carrego	uma	biblioteca	nova	aparece	o	seguinte:	Warning	
message:	 package	 class	was	 built	 under	 R	 version	 3.3.3.	 Isto	 significa	 que	 o	 pacote	 foi	
desenvolvido	para	a	versão	3.3.3	ou	esse	downgrade	que	fiz	não	resolveu?	
	
Primeiro	a	versão	3.3.3	não	é	necessariamente	errada.	Embora	todo	o	curso	tenha	sido	criado	
com	as	versões	3.3.1	e	3.3.2,	a	grande	maioria	dos	scripts	deve	funcionar	sem	problemas	com	a	
versão	3.3.3.	Em	 	Maio	de	2017	vamos	atualizar	todo	o	curso	para	a	versão	3.4	do	R	 lançada	
semana	passada.	A	mensagem	de	warning	indica	que	o	pacote	ainda	não	foi	atualizado	para	a	
versão	mais	recente	do	R,	mas	ainda	assim	deve	funcionar,	a	menos	que	algo	muito	específico	
esteja	sendo	usado.	As	mensagens	de	warning	não	impedem	a	execução	do	script.	
	
	
11. Ao	clicar	na	avaliação	final	do	curso,	aparece	a	mensagem	"Você	precisa	completar	mais	
10	unidades".	 Seriam	os	Quizes?	Ao	abrir	os	Quizes	novamente,	não	estão	preenchidos	
como	eu	havia	feito	a	cada	término	de	capítulo.	
	
Já	 consegui!	 Eu	 pensei	 que	 o	 problema	 era	 no	 Quiz,	 que	 não	 grava	 as	 minhas	 respostas,	
deixando	as	questões	em	branco	após	acessar	outro	item.	O	problema	é	porque	eu	não	tinha	
aberto	vídeos	e	pdf's	sobre	sistema	operacional,	e	instalações	no	Mac	e	Linux,	pois	já	tinha	visto	
nos	cursos	gratuitos.	Já	marquei	esses	itens	e	consegui	ver	a	tela	da	avaliação.	
	
	
12. Não	 estou	 conseguindo	 exibir	 a	 wordcloud.	 Aparece	 a	 seguinte	 mensagem	 de	 erro	
(alerta):Warning	message:	
In	wordcloud(dfCorpus,	max.words	=	100,	random.order	=	FALSE)	:	
listlanguage	could	not	be	fit	on	page.	It	will	not	be	plotted.	
	
A	mensagem	indica	que	a	escala	não	está	adequada	aos	dados	que	você	está	tentando	plotar.	
Use	o	parâmetro	scale	=	c(4,	0.2)	dentro	da	 função	wordcloud	e	ajuste	conforme	necessário.	
Você	também	pode	manipular	o	parâmetro	max.words	e	reduzir	para	50	por	exemplo	
	
	
13. Acho	que	não	entendi	direito	o	objetivo	dos	Projetos.	 Eles	 são	uma	demonstração?	Ou	
além	 disso	 nós	 teremos	 de	 fazer	 alguma	 entrega	 ao	 final	 do	 curso?	 Posso	 ter	 me	
esquecido	 de	 alguma	 parte	 já	 explicado	 em	 vídeo,	mas	 gostaria	 de	 relembrar	 se	 for	 o	
caso.	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
6	
São	 26	 projetos	 ao	 longo	 de	 todos	 os	 cursos	 da	 Formação	 e	 1	 projeto	 final.	 Os	 26	 projetos,	
deixamos	o	aluno	 livre	para	usar	da	 forma	que	achar	melhor.	Você	pode	 ler	 a	especificação,	
buscar	uma	solução	e	depois	comparar	com	a	solução	proposta.	É	uma	forma	de	compreender	
o	processo	de	análise	de	dados	como	um	todo.	Esses	projetos	não	precisam	ser	entregues.	Já	o	
projeto	final,	o	aluno	deve	selecionar	um	dos	temas	propostos	ao	final	deste	curso	e	entregar	
seu	projeto.	Para	esse	não	 será	apresentado	solução	e	 sim	o	 feedback.	Todos	esses	detalhes	
estão	no	vídeo	de	introdução	do	curso	no	Capítulo	1.	
	
	
14. No	 penúltimo	 vídeo	 do	 cap.	 9,	 o	 script	 só	 executou	 com	 sucesso	 no	 Azure	 após	
acrescentar	 esta	 linha:	 library(tidyr).	 Antes	 disso	 aparecia	 o	 erro	 que	 não	 encontrava	 a	
função	spread().	
	
A	função	spread	realmente	precisa	do	pacote	carregado.	Verifique	se	os	pacotes	dependência	
foram	instalados.	
	
	
15. Estou	com	dúvidas	na	aula	de	RSQLite.	Não	é	necessário	instalar	o	SQLite	no	PC,	apenas	o	
pacote	RSQLite?	Em	que	diretório	foi	salvo	"exemplo.db"?	
	
Não	é	necessário	instalar	o	SQLite,	apenas	o	pacote	no	R,	Python,	etc...o	Arquivo	é	salvo	no	seu	
diretório	de	trabalho	no	RStudio.	
	
	
16. No	 capítulo	 4	 sobre	 conectar	 o	mongodb	 com	o	R	 eu	 não	 consigo	 carregar	 o	 banco	 de	
dados	no	mongodb,	estou	fazendo	da	seguinte	forma:	
	
1°	-	C:\Program	Files\MongoDB\Server\3.4\bin>	
	
#	inicializo	o	mondodb	
2°	-	C:\Program	Files\MongoDB\Server\3.4\bin>mongod		
	
#	abro	outro	prompt	e	colo	o	endereço	que	vc	passou	
3°	-	C:\Program	Files\MongoDB\Server\3.4\bin>mongoimport	--db	users	--collection	contatos	
--file	opt/DSA/RFundamentos/Parte3/zips.json	
	
2017-04-17T15:27:15.986-0300	 Failed:	 open	 opt\DSA\RFundamentos\Parte3\zips.json:	 O	
sistema	não	pode	encontrar	o	caminho	especificado.	
2017-04-17T15:27:16.019-0300	imported	0	documents	
	
A	documentação	do	MongoDB	não	fala	nada	sobre	o	uso	de	url	para	importar	o	arquivo,	mas	
deveria	 funcionar.	 Entretanto,	 creio	 que	 seja	 melhor	 seguir	 a	 sintaxe	 sugerida	 na	
documentação,	essa	aqui:	mongoimport	--db	users	--collection	contacts	--file	C:\DSA\zips.json.	
Baixe	o	arquivo,	copie	em	um	diretório	e	veja	se	assim	funciona	sem	problemas.	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
7	
	
	
17. Em	Análise	de	Regressão,	parte	2/3,	o	Tempo	Gasto	em	Estudo	é	variável	Independente	e	
a	Nota	no	Exame	final	é	variável	Dependente,	pois	a	Nota	do	Exame	tem	dependencia	do	
Tempo	Gasto	de	Estudo	(entre	outras).	Sendo	assim,	o	Tempo	Gasto	é	domínio	e	a	Nota	
do	Exame	é	imagem	na	função	de	regressão.	Certo?	Estou	levantando	esta	questão	pois	
no	 vídeo	 o	 Tempo	 Gasto	 está	 colocado	 como	 Y	 (dependente)	 e	 a	 Nota	 como	 X	
(independente),	 fazendo	 que	 com	 a	 equação	 da	 função	 de	 regressão	 seja	 diferente	 da	
situação	inversa.	Agradeço	sua	atenção,	aguardo	suas	observações	e	parabenizo	o	curso,	
que	é	encantador	e	muito	didático.	
	
Peço	que	desconsiderem	o	comentário!	Minha	interpretação	foi	errada.	O	vídeo	3/3	esclarece	
tudo.	O	objetivo	é	a	partir	do	Nota	desejada	(x:	98)	obter	o	Tempo	de	Estudo	(y:	52,22).	
	
	
18. Na	página	17	do	Projeto01,	em	Classificando	emoção,	 logo	a	primeira	 linha	não	consigo	
executar	a	função	classify_emotion.	A	única	library	que	consegui	instalar	foi	a	sentimentr,	
e	 pelo	 que	 encontrei	 na	 Internet	 a	 library	 correta	 é	 a	 sentiment,	 é	 isso	mesmo?	 Estou	
usando	R	version	3.3.3	(2017-03-06).	
	
Todos	os	scripts	do	curso	foram	desenvolvidos	sobre	as	versões	3.3.1	e	3.3.2	do	R	e	ainda	não	
homologamos	a	versão	3.3.3,	o	que	vai	começar	a	ser	feito	agora	em	Maio/2017.	Pode	haver	
algum	comportamento	diferente	nesta	versão.	Quanto	ao	pacote,	ele	se	chama	sentimet	e	foi	
fornecido	 junto	 com	 os	 arquivos	 do	 curso,	 além	 do	 pacote	 que	 deve	 ser	 usado	 como	
dependência.	Esse	pacote	foi	descontinuado	e	não	está	mais	disponível	no	repositório	ativo	do	
CRAN	e	sim	no	Archive.	O	pacote	ainda	pode	ser	utilizado	normalmente	e	optamos	por	trazê-lo	
pois	 ele	 é	 excelente.	 O	 procedimento	 de	 instalação	 está	 no	 próprio	 script	 do	 projeto.	 Caso	
esteja	 com	 dificuldade	 de	 instalação,	 coloque	 aqui	 a	 mensagem	 de	 erro.	 Se	 estiver	 usando	
Windows,	você	precisa	instalar	o	RTools	e	o	pacote	devtools.	
	
	
19. Sobre	coeficiente	de	correlação:	só	para	entender	melhor,	no	exemplo	abaixo	o	resultado	
1	 significa	 forte	associação	positiva	entre	as	 variáveis,	 isto	é,	 eu	entendi	que	a	 variável	
n_paes_comprados	tem	tudo	a	ver	com	a	variável	valor_a_pagar,	correto?	
	
n_paes_comprados	=	c(2,5,12,8,5,4,3,8,9,15)	
valor_a_pagar	=	c(0.5,1.25,3,2,1.25,1,0.75,2,2.25,3.75)	
	
Sim,	 a	 correlação	 indica	 a	 relação	 entre	 duas	 variáveis.	 Quanto	 maior	 o	 valor,	 maior	 a	
correlação,	o	que	significa	que	o	comportamento	de	uma	variável	influencia	no	comportamento	
de	outra	variável,	o	que	não	quer	dizer	que	tenhamos	causalidade	(ou	seja,	precisamos	de	mais	
dados	para	provar	esta	relação).	Mas	a	correlação	é	uma	boa	indicação	de	como	duas	variáveis	
se	relacionam.	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
8	
	
20. Qual	o	site	que	preciso	desbloquear	no	firewall	para	que	o	R-studio	possa	baixar	pacotes	
sem	problemas?		
	
https://cran.rstudio.com.	
	
	
21. Estou	 tentando	 instalar	 a	 VM	 linux	 Ubuntu,	 mas	 está	 dando	 erro.	 Descobri	 que	 o	
Windows	10	Home	Single	Language	não	possui	o	Hyper-V,	que	permite	usar	virtualização.	
Pergunto:	há	como	driblar	esta	 limitação	com	o	Oracle	VM	Box	ou	precisarei	atualizar	o	
windows	para	usar	o	recurso	?	
	
O	Windows	10	Home	não	permite	você	usar	o	Hyper-V,	mas	você	pode	instalar	o	Oracle	Virtual	
Box.	Você	habilitou	a	virtualização	na	BIOS	do	computador?	Pode	ser	isso	a	causa	do	erro.	Com	
Windows	 10	 Home	 você	 não	 consegue	 usar	 o	 Docker,	 que	 requer	 o	 Hyper-V	 instalado,	
disponível	apenas	no	Windows	10	Pro.		
	
	
22. A	mensagem	de	erro	é:	 "This	kernel	 requires	an	x86-64	CPU,	but	only	detected	an	 i686	
CPU.	 Unable	 to	 boot	 -	 please	 use	 a	 kernel	 appropriate	 for	 your	 CPU."	 Descobri	 que	 a	
virtualização	está	habilitada	em	minha	máquina,	via	Windows,	configuração	do	sistema,	
embora	não	possua	o	Hyper-V	.	Quando	instalei	o	Oracle	VM	Box,	não	apareceu	nenhuma	
opção	de	sistema	de	64	bits	(apenas	32).	Como	devo	proceder	?	
	
A	mensagem	citada	acima	ocorre	quando	a	virtualização	não	está	habilitada	na	BIOS.	Pelo	visto,	
foi	habilitado.	Não	use	a	opção	try	e	sim	instale	o	Ubuntu.	No	capítulo	2	do	curso	de	Engenharia	
de	 Dados	 com	 Hadoop	 e	 Spark	 tem	 um	manual	 com	 275	 páginas	 e	 as	 primeiras	 seções	 do	
manual	mostram	passo	a	passo	como	montar	uma	máquina	virtual.	Lá	usamos	CentOS,	mas	o	
procedimento	é	semelhante	com	Ubuntu.	
	
	
23. Na	aula	de	manipulação	de	arquivos	do	Excel	somos	instruídos	a	instalar	diversos	pacotes	
como	 rJava,	 xlsx,	 XLConnect	 e	 outros.	 Tentei	 aqui	 de	 diversas	 formas	 e	 nenhuma	
funcionava,	 falava	 que	 o	 pacote	 não	 está	 disponívelpara	 o	 R	 3.3.3.	 Depois	 de	 muito	
buscar	e	soluções	muito	complicadas,	achei	uma	bem	simples	pra	quem	tem	esse	mesmo	
problema,	 é	 só	 adicionar	 "repos='http://cran.us.r-project.org'"	 no	 lugar	 de	 type=	
"source".	 	 Exemplo:	 install.packages("rJava",	 repos='http://cran.us.r-project.org').	
Tentando	 entender	 melhor	 as	 funcionalidades	 do	 R	 agora	 me	 pergunto,	 por	 que	 isso	
acontece?!	
	
Sua	mensagem	 tem	muitas	questões.	Primeiro	parabéns	pelo	 trabalho	de	pesquisa,	 isso	 com	
certeza	 contribui	 muito	 para	 seu	 aprendizado.	 Todos	 os	 scripts	 do	 curso	 foram	 criados	 e	
testados	 nas	 versões	 3.3.1	 e	 3.3.2.	 A	 versão	 3.3.3	 é	muito	 recente,	 acabou	 de	 ser	 lançada	 e	
muitos	 pacotes	 ainda	 não	 foram	 atualizados	 para	 esta	 versão.	 Agora	 no	mês	 de	Maio/2017,	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
9	
vamos	começar	a	homologação	dos	scripts	para	a	versão	3.4.0,	mas	recomendo	por	enquanto	
usar	 a	 versão	 3.3.2	 (aqui	 está	 o	 link	 de	 todas	 as	 versões	 do	 R:	 https://cran.r-
project.org/bin/windows/base/old/).	 Com	 relação	 aos	 pacotes	 de	 manipulação	 de	 planilhas	
excel,	 eles	 são	mesmo	 complicados,	 pois	manipular	 arquivos	 xls	 e	 xlsx	 não	 é	 tarefa	 simples.	
Outro	dia	até	brinquei	com	um	aluno	dizendo	que	depois	de	aprender	a	manipular	arquivos	do	
excel	 no	 R,	 ele	 vai	 entender	 porque	 todo	mundo	 prefere	 arquivos	 csv,	 que	 são	muito	mais	
fáceis.	Mas	 trouxemos	esses	pacotes	para	que	o	aluno	saiba	que	é	possível	e	eventualmente	
use-os	em	seus	projetos.	Quanto	à	instalação	dos	pacotes,	eu	fiz	sessão	remota	com	mais	de	25	
alunos	 que	 estavam	 com	 problemas	 na	 instalação	 e	 em	 100%	 dos	 casos	 o	 problema	 era	
configuração	 incorreta	 das	 variáveis	 de	 ambiente	 (por	 esta	 razão	 criamos	 os	 vídeos	
"Conhecendo	 seu	 Sistema	Operacional",	 ao	 final	 do	 capítulo	 1).	 Instalando	 e	 configurando	 o	
Java	 e	 configurando	 a	 variável	 de	 ambiente	 JAVA_HOME	 apontando	 para	 c:\pasta_java,	 a	
instalação	dos	pacotes	ocorre	sem	problemas.	Para	usuários	do	Windows,	é	preciso	ter	também	
o	 RTools	 (https://cran.r-project.org/bin/windows/Rtools/).	 Na	 instrução	 que	 você	 usou,	 você	
instalou	diretamente	o	pacote,	sem	compilar	o	código	fonte.	Para	compilar	o	código,	é	preciso	
ter	o	RTools	 instalado.	Se	a	 instalação	ocorreu	sem	problemas,	é	provável	que	a	configuração	
do	Java	na	sua	máquina	esteja	correta.	Qualquer	dúvida,	estamos	por	aqui.	
	
	
24. Uma	dica:	para	importar	o	arquivo	titanic.csv	no	Windows	usando	MySQL,	primeiro	edite	
o	arquivo		
	
C:\ProgramData\MySQL\MySQL	Server	5.7\my.ini	
	
Substitua	a	linha:		
	
secure-file-priv="C:/ProgramData/MySQL/MySQL	Server	5.7/Uploads"		
	
Para:		
	
secure-file-priv=""	
	
Reinicie	o	serviço	MySql57.	Então	coloque	o	arquivo	titanic.csv	no	diretório		
	
C:\ProgramData\MySQL\MySQL	Server	5.7\Uploads\titanic.csv	
	
Só	depois	execute:		
	
LOAD	 DATA	 INFILE	 'C:/ProgramData/MySQL/MySQL	 Server	 5.7/Uploads/titanic.csv'	 INTO	
TABLE	 titanic	 FIELDS	 TERMINATED	 BY	 ','	 ENCLOSED	 BY	 '"'	 LINES	 TERMINATED	 BY	 '\r\n'	
IGNORE	1	ROWS;		
	
Note	que	os	caracteres	de	fim	de	linha	no	Windows	deve	ser	\r\n	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
10	
Se	usar:	LOAD	LOCAL	DATA	INFILE,	o	efeito	é	o	mesmo.	
	
	
25. Olá	pessoal,	para	quem	não	conseguiu	instalar	o	pacote	RMongoDB,	só	consegui	com	este	
comando	que	encontrei	nesta	página:	
http://143.107.212.50/web/packages/rmongodb/README.html	
	
install_github("mongosoup/rmongodb")	
library(rmongodb)	
	
O	 que	 ocorreu,	 é	 que	 1	 mês	 depois	 que	 lançamos	 o	 curso,	 o	 pacote	 RMongoDB	 foi	
descontinuado	(o	que	é	uma	pena,	pois	o	pacote	é	excelente).	Quando	isso	ocorre,	o	pacote	sai	
do	 repositório	 ativo	 do	 CRAN	 e	 passa	 para	 o	 archive.	 O	 pacote	 ainda	 pode	 ser	 usado	
normalmente,	mas	nesse	caso	é	preciso	buscar	 formas	alternativas	de	 instalação.	O	que	você	
fez	 está	 correto	 e	 poderia	 também	 baixar	 o	 arquivo	 do	 archive	 e	 instalar	 com	 o	 mesmo	
comando.		
Aqui	está	o	archive	do	pacote:	https://cran.r-project.org/src/contrib/Archive/rmongodb/.	
	
	
26. Ao	tentar	conectar	ao	MySQL	com	o	R,	aparece	a	seguinte	msg:	
	
Error	in	.local(drv,	...)	:		
Failed	 to	 connect	 to	 database:	 Error:	 Lost	 connection	 to	 MySQL	 server	 at	 'reading	
authorization	packet',	system	error:	10060	
	
String	de	conexão:	
con	=	dbConnect(MySQL(),	user	=	"root",	password	=	"dsa1234",	dbname	=	"titanicDB",	host	
=	"localhost")	
	
Fiz	 uma	 pesquisa	 e	 parece	 que	 outros	 usuários	 começaram	 a	 ter	 o	mesmo	 problema	 com	 a	
versão	mais	 nova	 do	 pacote	 e	 um	bug	 foi	 reportado.	 A	 solução	proposta	 é	 usar	 uma	 versão	
anterior	 do	 pacote.	 Aqui	 está	 o	 link	 com	 esta	 sugestão	 e	 o	 comando	 necessário:	
http://stackoverflow.com/questions/43073782/rmysql-system-error-10060.	 Poderia	 tentar	 o	
procedimento?	Me	avise	se	precisar	de	ajuda	e	também	sobre	o	resultado.	consegui	instalar	a	
versão	anterior	do	pacote,	mas	somente	após	instalar	o	Rtools	34.	Fica	a	dica	pra	quem	tiver	o	
mesmo	 problema.	 Muito	 obrigada	 pela	 pesquisa	 realizada,	 me	 ajudou	 muito,	 conexão	 com	
MySql	resolvida!!!	
	
	
28.	Segue	a	mensagem	de	erro	quando	tento	carregar:	
>	library(dplyr)	
	
Attaching	package:	‘dplyr’	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
11	
The	following	objects	are	masked	from	‘package:stats’:	
	
filter,	lag	
	
The	following	objects	are	masked	from	‘package:base’:	
	
intersect,	setdiff,	setequal,	union	
	
Essa	 mensagem	 não	 é	 erro.	 Apenas	 uma	 informação	 de	 que	 algumas	 funções	 estão	 sendo	
compartilhadas	com	outros	pacotes.	Você	verá	esta	mensagem	com	muita	frequência	à	medida	
que	carregar	os	pacotes.	Pode	usar	o	dplyr	normalmente.	
	
	
27. Não	 consegui	 instalar	 o	 GREA,	 conforme	 mensagem	 "Error	 in	 loadNamespace(name)	 :	
there	is	no	package	called	‘devtools’"	
	
Precisa	instalar	o	pacote	devtools.	Sempre	que	houver	a	mensagem	:	there	is	no	package	called	
‘xxxxx",	 significa	que	o	pacote	não	está	 instalado	e	neste	caso	use	a	 função	 install.packages()	
para	realizar	a	instalação	do	pacote.		
install.packages("devtools")	
library(devtools)	
install.packages("httpuv")	
	
	
28.	Durante	a	instalação	do	Mysql	em	minha	máquina	(visto	no	cap.	4	deste	curso)	tive	alguns	
problemas.	 Utilizo	 o	 S.O.	 Mac	 OS	 Sierra,	 e	 alguns	 alguns	 comandos	 foram	 um	 pouco	
diferentes	dos	explicados	na	apostila	de	instalação	disponibilizada	neste	capítulo.	Vamos	às	
diferenças:	
	
1)	 Durante	 o	 passo	 9,	 o	 comando	 para	 logar	 no	 Mysql	 via	 terminal	 é	
"./usr/local/mysql/bin/mysql	 -uroot	 -p"	 ,	 com	 um	 ponto	 no	 começo.	 Entretanto,	 quando	
executo	dessa	 forma	recebo	um	erro	dizendo	"-bash:	 ./usr/local/mysql/bin/mysql:	No	such	
file	or	directory".	Para	resolver	esta	questão	basta	ignorar	o	ponto	no	início	do	comando	que	
funcionará	sem	problemas.	
	
2)	Durante	a	tentativa	de	login	no	Mysql	foi	exibida	outra	mensagem	de	erro:	"ERROR	2002	
(HY000):	 Can't	 connect	 to	 local	 MySQL	 server	 through	 socket	 '/tmp/mysql.sock'	 (2)".	 Ao	
pesquisar	sobre	esse	erro	vi	que	era	em	virtude	do	SGBD	não	estar	rodando.	Ao	 levantar	o	
serviço	o	login	foi	efetuado	com	sucesso.	
	
Acho	 importante	 compartilhar	 essas	 informações,	 pois	 alguém	 pode	 passar	 pelo	 mesmo	
problema.	
	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
12	
	
28. Olá,	fiz	o	Deploy	do	projeto	de	Risco	de	Crédito	no	Azure	ML,	porém	ao	testar,	no	proprio	
Azure,	 inserindo	 os	 valores	 das	 21	 variáveis	 (peguei	 a	 primeira	 oservação	 da	 base	 de	
dados	original	como	teste)	ao	rodar	o	Azure	apresenta	um	erro:	Unable	to	finish	'Risco	de	
Crédito	-	Deploy	[Predictive	Exp.]'	test.	Moduleexecution	encountered	an	internal	library	
error.	Quando	entro	nos	detalhes:	FailedToEvaluateRScript:	The	following	error	occurred	
during	evaluation	of	R	script:	R_tryEval:	return	error:	Error	in	cut.default(x,	breaks	=	cuts,	
order_result	=	ordered)	:	'breaks'	are	not	unique	,	Error	code:	LibraryExecutionError,	Http	
status	 code:	 400,	 Timestamp:	 Fri,	 31	 Mar	 2017	 14:23:41	 GMT.	 Mesmo	 erro	 no	 Excel	
baixado.	Poderiam	me	orientar	por	favor?	
	
Esse	erro	normalmente	ocorre	porque	foram	geradas	 informações	duplicadas	no	seu	dataset,	
provavelmente	 nas	 etapas	 anteriores.	 Isso	 pode	 ser	 resolvido	 usando	 a	 função	 unique().	 a	
função	 unique	 foi	 uma	 sugestão,	 já	 que	 a	 mensagem	 de	 erro	 indica	 que	 existem	 items	
duplicados.	O	uso	é:	unique(iris),	onde	iris	nesse	caso	é	o	nome	do	dataset.	Experimente	fazer	
alguma	alteração	nos	parâmetros	do	módulo	que	está	gerando	erro.	O	Azure	pode	ter	passado	
por	 alguma	 atualização	 recente,	 o	 que	 pode	 requerer	 alteração	 dos	 parâmetros.	 Verifique	
também	o	que	ocorre	 nos	módulos	 anteriores.	 Eles	 apresentam	alguma	mensagem	de	 erro?	
Experimentou	remover	o	módulo	com	erro	e	adicionar	novamente?	
	
	
29. Ao	colocar	na	Produção	(embora	como	postei	na	pergunta	anterior	não	tenha	funcionado	
ainda)	 esta	 dúvida	 é	 mais	 conceitual.	 Tenho	 21	 variáveis	 para	 fazer	 o	 input.	 Porém	 a	
ultima,	 a	 21a	 ,	 trata-se	 do	 CreditStatus	 que	 é	 a	 variável	 que	 quero	 prever.	 Para	meus	
novos	dados	na	pratica	eu	não	tenho	esse	valor.	Essa	variável	não	deveria	estar	fora	do	
input?	Tenho	que	colocar	então	um	dos	dois	valores	só	para	cumprir	com	o	requerimento	
do	input?	
	
Quando	você	faz	as	previsões,	não	precisa	da	variável	target,	afinal	é	isso	que	vc	quer	prever.	
Você	 usa	 novos	 valores	 para	 as	 variáveis	 preditoras	 e	 realiza	 as	 previsões.	 Aqui	 tem	 a	
documentação	oficial	do	Azure,	mostrando	esse	processo	em	detalhes,	que	é	o	que	chamamos	
de	 Deploy,	 basicamente	 o	 que	 eu	 mostro	 na	 aula:	 https://docs.microsoft.com/en-
us/azure/machine-learning/machine-learning-publish-a-machine-learning-web-service.	 Veja	 se	
faltou	alguma	etapa	no	seu	processo.	
	
	
30. Estou	trabalhando	no	projeto	exercício	sobre	Text	Mining.	Ainda	não	compreendi	direito	
sobre	 a	 biblioteca	 'tm'	 e	 suas	 funções,	mas	 constatei	 que	 no	 passo	 2	 era	 realizado	 um	
"merge"	dos	vários	corpus	por	meio	de	um	loop	(for).	No	entanto,	ele	gerava	uma	lista	de	
corpus	 o	 que	 produzia	 um	 erro	 ao	 tentar	 remover	 a	 pontuação	 (usando	 o	 tm_map	 e	
removePunctuation).	 Bem,	 por	 conta	 disso	 consegui	mesclar	 os	 corpus	 utilizando	outro	
comando,	 dataset_corpus_all	 =	 Corpus(VectorSource(unlist(dataset_corpus))).	 Embora	
não	tenha	encontrado	erros,	o	resultado	não	foi	o	esperado,	pois	parece	que	eu	perdi	os	
metadados	 (na	 realidade	 acho	 que	 misturei	 eles,	 pois	 consegui	 acessar	 o	 corpus	 via	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
13	
class_1.content,	class_2.content,	por	exemplo).	Bem,	tenho	pesquisado	mais	sobre	como	
mesclar	 vários	 corpus	 (penso	 que	 aí	 que	 está	 o	 problema).	Minhas	 dúvidas	 são:	 (1)	 há	
outras	maneiras	de	mesclar	vários	corpus?	(2)	o	intuito	é	que	o	conteúdo	e	os	metadados	
estejam	 "dentro"	 de	 cada	 classe?	 Digo	 isso,	 pois	 a	 instrução	 colnames	 falhou,	 pois	 eu	
tinha	 mais	 colunas	 do	 que	 número	 de	 classes.	 Informações	 do	 meu	 RStudio	 (via	
sessionInfo()):	
R	version	3.3.3	(2017-03-06)	
Platform:	x86_64-pc-linux-gnu	(64-bit)	
Running	under:	Ubuntu	16.04.2	LTS	
	
locale:	
[1]	LC_CTYPE=pt_BR.UTF-8	LC_NUMERIC=C		
[3]	LC_TIME=pt_BR.UTF-8	LC_COLLATE=pt_BR.UTF-8		
[5]	LC_MONETARY=pt_BR.UTF-8	LC_MESSAGES=pt_BR.UTF-8		
[7]	LC_PAPER=pt_BR.UTF-8	LC_NAME=C		
[9]	LC_ADDRESS=C	LC_TELEPHONE=C		
[11]	LC_MEASUREMENT=pt_BR.UTF-8	LC_IDENTIFICATION=C		
	
attached	base	packages:	
[1]	stats	graphics	grDevices	utils	datasets		
[6]	methods	base		
	
other	attached	packages:	
[1]	wordcloud_2.5	RColorBrewer_1.1-2	tm_0.7-1		
[4]	NLP_0.1-10	reshape_0.8.6		
	
loaded	via	a	namespace	(and	not	attached):	
[1]	plyr_1.8.4	parallel_3.3.3	tools_3.3.3		
[4]	Rcpp_0.12.10	slam_0.1-40	
	
	
Consegui	resolver.	Eu	estava	tão	preocupado	em	realizar	o	"merge"	de	forma	correta	que	não	
percebi	 que	 poderia	 remover	 as	 colunas	 das	 matrizes	 document_tm_mat	 e	
document_tm_clean_mat.	Depois	de	fazer	isso,	o	"projeto	exercicio"	funcionou	normalmente	e	
as	 imagens	 foram	geradas	 corretamente.	No	entanto,	a	 fim	de	aprimorar	a	 solução	persite	a	
dúvida	sobre	a	melhor	forma	de	mesclar	vários	corpus	e	se	há	uma	maneira	mais	elegante	para	
excluir	 colunas	 em	 R,	 pois	 usei	 o	 comando	 document_tm_mat	 =	
as.matrix(document_tm_mat[,c(-2,	-4,	-6,	-8,	-10,	-12,	-14,	-16)]).	Obs:	Usei	operador	igual,	pois	
o	seta	não	é	permitido	aqui	no	fórum.	
	
	
31. Pelo	que	pude	entender,	vídeos	como	este	do	Text	Mining,	são	uma	prévia.	A	explicação	
de	cada	comando	é	feito	nos	capítulos	seguintes?	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
14	
Seria	conteúdo	demais	para	um	único	curso	e	por	conta	disso,	vamos	evoluindo	os	conceitos	a	
cada	curso	e	aumentando	o	grau	de	complexidade.	Estudamos	Text	Mining	no	curso	seguinte	
de	Python	com	Spark,	no	curso	de	Machine	Learning	e	no	curso	de	Business	Analytics,	de	modo	
que	o	aluno	vá	adquirindo	melhor	compreensão	ao	longo	de	toda	a	Formação.	
	
	
32. Ao	 executar	 o	 carregamento	 do	 pacote	 'xlsx'	 acontece	 um	 erro	 fatal	 no	 RStudio,	 isso	
acontece	 também	ao	executar	o	 carregamento	do	pacote	 'XLConnect'.	 Já	 instalei	 várias	
versões	do	Java,	tais	como	jdk	e	jre.	instalei	também	a	64	bit	s	e	a	x86,	porém	sem	sucesso	
algum.	Atualizei	 o	 R	 e	 RStudio	 e	 estou	 utilizando	 a	 ultima	 versão	 do	 Java	 com	 todas	 a	
variáveis	de	ambiente	corretas,	inclusive	agora	estou	utilizando	outro	computador.	O	erro	
resultante	antes	de	instalar	o	Java	é	o	seguinte:	>	Sys.setenv(JAVA_HOME	=	'C:/Program	
Files/Java/jre1.8.0_121')	 >	 Sys.getenv("JAVA_HOME")[1]	 "C:/Program	
Files/Java/jre1.8.0_121">	 system("java	 -version")Warning	 message:running	 command	
'java	 -version'	 had	 status	 127	 e	 o	 erro	 fatal	 do	 RStudio	 ao	 carregar	 o	 pacote	 "xlsx"	
persiste,	alguma	ideia	do	que	seja?	
	
Primeiro,	remova	o	R	e	RStudio	da	sua	máquina.	Quando	reinstalar,	certifique-se	que	criar	uma	
pasta	na	raiz	do	drive	C	e	não	usar	pastas	com	espaço	no	nome	(como	Arquivo	de	Programas).	
Outros	alunos	tiverem	problema	com	isso	e	criamos	a	pasta	C:\R	para	instalar	o	R.	Eu	mesmo	
tenho	o	R	instalado	nesse	diretório.	O	Windows	não	se	comporta	bem	com	aplicações	baseadas	
em	Unix,	como	o	R.	O	Java	você	pode	manter	na	pasta	atual,	mas	abra	um	prompt	e	execute:	
java	 -version.	 Não	 pode	 haver	 erros	 neste	 comando	 e	 se	 houver,	 reinstale	 o	 Java.	 Instale	
novamente	 os	 pacotes	 e	 defina	 as	 variáveis	 e	 vemos	 se	 isso	 resolve.	 Se	 não	 resolver,	
agendamos	uma	sessão	remota	e	eu	reviso	sua	configuração.	Mas	consigo	carregar	o	pacote	na	
minha	máquina	 com	Windows	10	64	bits	 sem	problemas	e	portanto	o	pacote	 funciona	bem,	
sendo	mesmo	alguma	questão	de	configuração.		
	
	
33. No	 pacote	 Caret,	 eu	 não	 preciso	 passar	 o	 meu	 data	 set	 de	 treino	 quando	 for	 usar	 o	
predict?	 Ele	 identifica	 automático	 que	 o	 que	 "sobrou"	 do	 treino	 do	 modelo	 é	 pra	 ser	
usado	no	predict?	
	
A	 função	 possui	 um	 parâmetro	 chamado	 newdata,	 no	 qual	 você	 pode	 especificar	 um	 novo	
dataset,	 como	 o	 dataset	 de	 teste	 por	 exemplo	 (mostro	 isso	 em	 vários	 outros	 cursos	 na	
Formação).	 Se	 não	 especificado,	 os	 dados	 usados	 no	 treinamento	 do	modelo	 são	 usados	 na	
previsão.	
	
	
34. Todos	os	arquivos	que	eu	estou	baixando	do	capítulo	1	e	2	estão	vindo	com	as	palavras	
que	possuem	acentos	com	símbolos	no	 lugar	do	acento.	Está	acontecendo	tanto	dentro	
do	R	 studio	quanto	no	nomedo	arquivo	na	minha	máquina.	 Isso	é	normal	ou	 tem	algo	
que	eu	posso	configurar	para	resolver?	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
15	
Aqui	 está	 o	 procedimento	 para	 ajustar	 o	 problema	 dos	 acentos:	
https://support.rstudio.com/hc/en-us/articles/200532197-Character-Encoding.	
	
	
35. 		Estou	 recebendo	 mensagem	 de	 erro	 ao	 tentar	 carregar	 o	 pacote	 Caret.	 Fiz	 o	
install.packages,	deu	OK.	Quando	faço	o	library(caret),	recebo:Error	in	loadNamespace(j	
	
E	 agora	 acho	 que	 consegui	 instalar	 e	 a	mesma	mensagem	 não	 aparece	mais.	 Entrei	 no	 link	
postado	pelo	Daniel,	não	 sabia	bem	o	que	baixar	ali	no	git	mas	encontrei	um	documento	 "A	
Short	 Introduction	 to	 the	 caret	 Package"	 e	 nele	 estava	 indicado	 o	 seguinte	 comando:	
install.packages("caret",	dependencies	=	c("Depends",	"Suggests")).	Fiz	desta	forma,	demorou,	
parece	ter	instalado	uma	centena	de	pacotes	mas	agora	está	funcionando.	
	
	
36. Estou	recebendo	a	seguinte	mensagem	de	erro	tentar	executar	um	app	Shiny:	
	
Warning:	Error	in	if:	missing	value	where	TRUE/FALSE	needed	
Stack	trace	(innermost	first):	
56:	observerFunc	[C:/REstatistica/Sistema.R#294]	
1:	runApp	
ERROR:	[on_request_read]	connection	reset	by	peer	
	
Coloquei	 a	 sessão	que	 estava	 com	esse	 erro	 dentro	 de	um	 'evento',	 pós	 botão.	 Então	 eu	 eu	
inicio	o	app.	 insiro	os	dados	e	após	 clicar	no	botão	ele	executa	as	 funções.	Provavelmente	o	
erro	se	dava	pois	os	parametros	das	funções	não	tinham	valor	de	 inicialização,	então	ficavam	
como	'NA'	e	o	'shiny'	não	aceitava.	
	
	
37. Na	 aula	 "Trabalhando	 com	 MongoDB	 e	 R"	 não	 consigo	 conectar	 no	 banco,	 sempre	
aparece	 uma	 mensagem	 informando	 error	 2.	 Meu	 mongoDB	 está	 instalado	 em	 uma	
maquina	virtual	com	ubuntu,	onde	tambem	instalei	o	MySQL.	Quando	 instalei	o	MySQL	
tive	 varios	 problemas	 de	 acesso	 remoto,	 mas	 depois	 de	 muitas	 pesquisas	 resolvi	 o	
problema,	 porém	 com	 mongoDB	 está	 dificil.	 	 Tem	 mais	 de	 2	 dias	 tentando	 acessar	 o	
mongodb	 sem	 sucesso.	 	 Ja	 liberei	 firewall,	 permiti	 acesso	de	 todos	 ips,	 ja	 rezei	 e	nada.		
Teria	algum	manual	de	instalação	e	configuração	do	mongo	DB	em	maquina	virtual	com	
linux?		Voltei	no	curso	python	pra	verificar	a	instalação	do	mongodb,	mas	só	achei	manual	
de	instalação	no	windows.	
	
Normalmente	 eu	 rezo	 3	 vezes	 antes	 do	 MongoDB	 funcionar...rsrs.	 Não	 havíamos	 criado	 o	
manual	para	o	Linux,	pois	são	muitas	distribuições	diferentes.	Mas	criei	agora	rapidamente	um	
manual	de	instalação	do	MongoDB	em	uma	das	minhas	VM's	com	Ubuntu	16.04.	Você	encontra	
o	manual	 no	 capítulo	 6	 do	 curso	 de	 Python	 Fundamentos.	Mostro	 como	 checar	 o	 status	 do	
MongoDB	e	como	desabilitar	o	firewall.	Se	estes	itens	estiverem	ok,	então	é	preciso	verificar	a	
conectividade	da	sua	máquina	com	a	VM.	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
16	
38. Olá,	 na	 aula	 do	 terceiro	 capitulo	 sobre	 Text	 Mining,	 estou	 executando	 o	 primeiro	
exemplo(com	as	questões)	no	wordcloud	e	está	retornando	erro:		
Error	in	simple_triplet_matrix(i,	j,	v,	nrow	=	length(terms),	ncol	=	length(corpus),	:		
'i,	j'	invalid	
Percebi	que	só	ocorre	após	eu	fazer	essa	linha:	
dfCorpus	
	
Instalou	 o	 pacote	 SnowballC?	 install.packages("SnowballC")	 library(SnowballC).	 Pode	 ser	
também	 um	 problema	 de	 conversão	 dos	 caracteres	 na	 hora	 que	 o	 arquivo	 foi	 carregado.	
Experimente	 definir	 o	 encoding,	 adicionando	 a	 cláusula	 encoding	 ="latin1"	 ao	 carregar	 o	
arquivo.	O	RSTudio	é	bastante	sensível	a	configuração	de	encoding	do	sistema	operacional.	Era	
erro	de	encoding	mesmo,	eu	consegui	convertendo	o	corpus	para	utf-8	com	iconv.	
	
	
39. Na	coluna	"f"	da	tabela	abaixo,	quero	fazer	a	soma	da	"Freq"	atual	com	as	anteriores	e	
não	estou	conseguindo.	
	
estou	tentando	utilizar	a	seguinte	função:		
sum(tabela$Freq[1:???])	
???	tabela	
variavel	Freq	fr	f	
1	2000	5	25	0	
2	3000	8	40	0	
3	4000	5	25	0	
4	5000	2	10	0	
	
	
A	coluna	f	tem	que	ter	a	seguinte	saida:	
f	
5	
13	
18	
20	
	
Alguem	pode	me	ajudar	?	
	
Só	usar	a	função	cumsum().	Exemplo:		
	
vec1	=	c(2000,	3000,	4000,	5000)	
vec2	=	c(5,	8,	5,	2)	
vec3	=	c(25,	40,	25,	10)	
vec4	=	c(0,	0,	0,	0)	
df	=	data.frame(vec1,	vec2,	vec3,	vec4)	
df$cum	=	cumsum(df$vec2)	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
17	
	
	
40. Estou	 tendo	 o	 seguinte	 problema:	 quando	 vou	 instalar	 o	 pacote	 rmongodb	 aparece	 a	
seguinte	 mensagem:	 "package	 'rmongodb'	 is	 not	 available	 (for	 R	 version	 3.3.2)".	 Ja	
procurei	 na	 internet	 se	 tem	 alguma	 solução	 e	 não	 encontrei	 nada	 que	 resolvesse	meu	
problema.	
Alguma	sugestão?	
	
Outros	 alunos	 já	 tiveram	 esse	 problema	 e	 aqui	 no	 forum	 há	 um	 histórico	 sobre	 isso.	 O	 que	
ocorre,	 é	 que	 alguns	 meses	 depois	 do	 lançamento	 do	 curso,	 o	 pacote	 foi	 descontinuado	
(infelizmente,	 pois	 pacote	 é	 muito	 bom).	 Quando	 isso	 ocorre,	 o	 pacote	 sai	 do	 repositório	
principal	do	CRAN	e	vai	para	o	archive.	O	pacote	ainda	pode	ser	usado	normalmente,	mas	nesse	
caso	a	instalação	não	é	automática.	Você	precisa	baixar	o	pacote	e	instalar	manualmente.	Esse	
é	 um	 dos	 desafios	 de	 usar	 software	 livre.	 Baixe	 o	 pacote	 aqui:	 https://cran.r-
project.org/src/contrib/Archive/rmongodb/,	 coloque	 o	 arquivo	 no	 diretório	 de	 trabalho	 e	
depois	execute:	install.packages("nome	arquivo.xpto",	type=source)	e	então	você	poderá	usar	o	
pacote	 normalmente.	 Me	 avise	 se	 tiver	 problemas.	 consegui	 resolver	 da	 seguinte	 forma:	
library(devtools)install_github(repo	=	"mongosoup/rmongodb")	
	
	
41. Estou	 com	 dificuldade	 para	 resolver	 um	 problema.	 Quando	 eu	 abro	 os	 scripts	 do	 DSA	
vários	 caracteres	 como	 palavras	 acentuadas	 e	 ç	 aparacem	 com	 caracteres	 estranhos.	
Alguém	sabe	como	resolver	 isso?	Acho	que	é	alguma	configuração,	eu	 já	uso	R	e	alguns	
códigos	meus	 (antes	da	DSA)	 também	têm	esse	problema:	escrevo,	salvo,	 reabro	e	está	
tudo	bagunçado.	
	
Você	 precisa	 configurar	 o	 Character	 Encoding	 no	 RStudio.	 Aqui	 o	 procedimento:	
https://support.rstudio.com/hc/en-us/articles/200532197-Character-Encoding.	No	caso	de	usar	
um	editor	de	texto,	salve	os	arquivos	com	encoding	UTF-8.	
	
	
42. Estou	reproduzindo	o	experimento	do	Modelo	Preditivo	de	Bikes	no	Azure	ML(Capítulo	10	
do	Curso	Big	Data	Analytics	com	R	e	Microsoft	Azure	ML)	e	no	Normalize	Data	está	me	
gerando	o	seguinte	erro:	
	
"Column	with	name	"dteday"	is	not	in	an	allowed	category.	.	(	Error	0056	)"	
	
Segui	os	passos	mostrados	no	vídeo,	alterando	o	código	em	R.	Mesmo	assim	o	erro	persiste.	
	
Alguma	dica	do	que	eu	possa	alterar	aqui?	
	
	
Agradeço	desde	já	a	ajuda!	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
18	
	
Me	parece	que	faltou	fazer	o	mapeamento	no	Normalize.	Clique	no	módulo	Normalize	com	o	
botão	direito	 e	View	Data	 e	 veja	 como	os	 dados	 se	 apresentam.	 Faça	 a	mesma	 coisa	 com	o	
módulo	anterior	e	compare	os	resultados.	Edite	também	as	configurações	dos	módulos	e	veja	
se	o	mapeamento	está	correto.	Eu	 inverti	a	opção	de	colocar	as	colunas	que	eu	não	queria	e	
coloquei	as	que	eu	queria.	No	normalize,	eu	coloquei	na	ordem	e	funcionou!	
	
	
43. Olá,	 no	 primeiro	 módulo	 -	 DataFrames	 e	 operações	 com	 DataFrames	 ao	 criar	 um	 plot	
plot(df2$Admdate)	 o	 console	me	 retorna	 o	 seguinte	 erro:	 Error	 in	 plot.new()	 :	 :	 figure	
margins	too	large.	Estou	usando	a	versão	do	R	3.3.2.	
	
Execute	este	comando	antes	de	executar	o	gráfico:	par(mar=c(1,1,1,1)).	Isso	vai	ajustar	sua	área	
de	visualização.	
	
	
44. Pessoal,	 na	 ultima	 frase	 do	 video-aula	 "Introdução	 à	 Prob	 -	 Parte	 2/2"	 é	 dito	 como	
conclusão	que	76%	é	a	prob	de	uma	mulher	obter	nota	90.Porém,	estava	sendo	calculada	
a	 soma	da	 Prob	 de	 dois	 eventos	 (não	 exclusivos,	 ok)	 onde	 evento	A	 era	 a	 prob	 de	 um	
aluno	obter	nota	90	(seja	mulher	ou	homem)	e	evento	B	a	prob	de	ser	mulher.	A	soma	das	
probs	destes	dois	eventos	me	parece	ser	diferente	da	prob	de	uma	mulher	obter	90.	São	
coisas	diferentes,	não?	
	
No	 vídeo	 são	 demonstrados	 2	 exemplos:	 O	 primeiro	 exemplo	 refere-se	 a	 um	 evento	
mutuamente	exclusivo,	onde	deseja-se	saber	a	probabilidade	de	um	aluno	obter	nota	85	ou	90,	
nesse	caso	foi	utilizada	a	fórmula	P(A	ou	B)	=	P(A)	+	P(B).	No	segundo	exemplo,	refere-se	a	uma	
mulher	 tirar	 nota	 90,	 é	 um	 evento	 não	 mutuamente	 exclusivo,	 os	 dois	 podem	 ocorrer	 ao	
mesmo	tempo.	Portanto	foi	utilizado	a	fórmula	=	P(A)	+	P	(B)	–	P	(A	e	B).	
	
	
45. Pessoal	tentei	carregar	o	arquivo	Titanic	no	MySQL	(estou	trabalhando	no	Workbench)	e	
obtive	o	seguinte	erro.	Como	resolvo?	
	
14:50:06	 LOAD	 DATA	 INFILE	
'C:\Users\Owner\Documents\pessoal\DataScienceAcademy\R_Fundamentos_Azure\R_Parte
03_Import_Limpeza\titanic.csv'	 INTO	TABLE	 titanic	FIELDS	TERMINATED	BY	 ','	ENCLOSED	BY	
'"'	LINES	TERMINATED	BY	'\n'	IGNORE	1	ROWS	 Error	 Code:	 1290.	 The	 MySQL	 server	 is	
running	with	the	--secure-file-priv	option	so	it	cannot	execute	this	statement	 0.000	sec	
	
Essa	 é	 uma	 restrição	 de	 segurança	 do	 MySQL	 que	 pode	 ser	 configurada	 alterando	 um	
parâmetro	 de	 configuração	 ou	 incluindo	 a	 palavra	 LOCAL	 no	 procedimento	 de	 carga,	 assim:	
LOAD	DATA	LOCAL	INFILE	"text.txt"	INTO	TABLE	mytable;	Tente	esta	opção	e	caso	não	funcione,	
alteramos	o	parâmetro.	
	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
19	
	
46. utilizo	 a	 instrução	 install.packages("data.table")	 que	 e	 executada	 com	 sucesso,	
retornando	 a	 mensagem	 "package	 ‘data.table’	 successfully	 unpacked	 and	 MD5	 sums	
checked".	 Entretanto,	 ao	 tentar	 carregá-lo	 utilizando	 a	 instrução	 "library(data.table)",	
recebo	 a	 mensagem	 de	 erro	 "Error	 in	 library(data.table)	 :	 there	 is	 no	 package	 called	
‘data.table’".	 Desejo	 utilizar	 a	 função	 fread	 e	 não	 consigo	 por	 isso.	 Alguém	 pode	 me	
ajudar.	Grato?	
	
já	tentou	instalar	dessa	maneira	install.packages("data.table",	dependencies=TRUE)	
	
	
47. Iniciando	estudo	em	R.	Meu	RStudio	não	está	reconhecendo	a	acentuação	dos	arquivos	.R	
que	estou	abrindo.	Já	configurei	em	spelling	o	Portugues-Brasil.	Tem	que	configurar	algo	
mais?	
	
Você	deve	salvar	o	arquivo	com	encoding	UTF-8.	Aqui	está	a	solução:		
https://support.rstudio.com/hc/en-us/articles/200532197-Character-Encoding	
	
	
48. Sobre	o	impacto	da	analise	preditiva,	gostara	de	exemplos	de	empresas	no	setor	de	call	
center.	Como	hoje	a	análise	está	ajudando	as	grandes	empresas	do	ramo?	
	
Aqui	tem	alguns	bons	exemplos	do	Sales	Force:	https://www.salesforce.com/hub/service/call-
center-analytics.	
	
	
49. Olá:	quando	executo	o	comando:	devtools::install_github("Stan125/GREA")...apresenta	o	
seguinte	erro:	Error	in	loadNamespace(name)	:	there	is	no	package	called	‘devtools’	
	
A	 mensagem	 de	 erro:	 there	 is	 no	 package	 called	 ‘devtools’	 indica	 que	 o	 pacote	 não	 está	
instalado.	Para	instalar	execute:	install.packages("devtools").	
	
	
50. Tive	problemas	na	instalação	do	MySQL	devido	à	falta	do	Visual	C++	runtime,	que	é	pré-
requisito.	Já	consegui	resolver,	porém	seria	interessante	ter	um	adendo	de	instalação	no	
manual	disponibilizado.	
	
	
51. Qual	a	diferença	de	se	utilizar	o	RStudio	e	o	Microsoft	R	?	Pelo	que	entendi	tudo	(e	é	o	
recomendado)	foi	feito	pelo	RStudio.	
	
Sobre	 sua	 pergunta,	 a	 comparação	 não	 deve	 ser	 entre	 RStudio	 e	Microsoft	 R	 e	 sim	 entre	 a	
Linguagem	R	padrão	e	o	Microsoft	R.	Existem	atualmente	3	"distribuições"	da	 linguagem	R:	a	
linguagem	R	pura	(aquela	que	vc	baixa	do	CRAN	que	usamos	ao	longo	do	curso),	o	Microsoft	R	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
20	
(que	antes	era	Revolutions	R	e	foi	comprado	pela	Microsoft)	e	Oracle	R.	Essas	3	distribuições	do	
R	podem	ser	executadas	a	partir	do	RStudio	que	é	o	ambiente	de	desenvolvimento	
	
	
52.	Estou	finalizando	o	módulo	11	do	curso	"R	com	microsoft	AML".	Deu	erro	nos	seguintes	
scripts:	
	
>	library("ROCR")	
Carregando	pacotes	exigidos:	gplots	
	
Attaching	package:	‘gplots’	
	
The	following	object	is	masked	from	‘package:stats’:	
	
lowess	
	
Warning	message:	
package	‘ROCR’	was	built	under	R	version	3.3.2		
	
>	class1	confusionMatrix(result_previsto$actual,	result_previsto$previsto)	
Error	in	requireNamespaceQuietStop("e1071")	:	package	e1071	is	required	
	
Se	alguém	puder	me	ajudar	a	esclarecer	eu	agradeço,	por	favor.	
	
A	 primeira	 parte	 é	 um	warning,	 apenas	 informando	 que	 o	 pacote	 foi	 criado	 em	uma	 versão	
anterior	do	R	 (o	que	não	significa	que	não	pode	ser	usado	em	uma	versão	mais	 recente).	Na	
segunda	parte,	informa	que	o	pacote	e1071	é	requerido.	Você	deve	instalar	o	pacote	ou	caso	já	
tenha	instalado,	deve	carregar	na	sua	sessão	R,	com	o	comando	library(e1071).	
	
	
52. Estou	tentando	criar	uma	"wordcloud",	entretanto	ao	baixar	o	pacote	"tm",	o	R	devolveu	
a	seguinte	mensagem:	
	
Error	in	loadNamespace(i,	c(lib.loc,	.libPaths()),	versionCheck	=	vI[[i]])	:		
there	is	no	package	called	‘slam’	
Além	disso:	Warning	message:	
package	‘tm’	was	built	under	R	version	3.2.5		
Erro:	package	or	namespace	load	failed	for	‘tm’	
	
Em	 seguida	 tentei	 criar	 um	 corpus	 (comando	 abaixo)	 para	 e	 o	 R	 não	 reconheceu	 a	 função	
Corpus	
	
Essa	parte	da	mensagem	de	erro:	 there	 is	no	package	called	 ‘slam’,	 indica	que	o	pacote	slam	
não	está	instalado.	Instale	o	pacote	com	o	comando:	install.packages("slam")	e	depos	instale	o	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
21	
pacote	 tm	 novamente.	 Veja	 se	 a	 mensagem	 continua	 e	 se	 outros	 pacotes	 terão	 que	 ser	
instalados.	 Lembre-se	 de	 ter	 o	 RTools	 instalado	 em	 seu	 computador.	 Qualquer	 dificuldade	
poste	aqui	que	ajudamos.	
	
	
53. Estou	 no	 módulo	 7,	 na	 parte	 de	 Regressão.	 Já	 assisti	 a	 todos	 os	 vídeos.	 Sei	 que	 os	
exemplos	 foram	 uma	 introdução	 à	 ML	 com	 o	 algoritmo	 de	 Regressão.	 Mesmo	 assim,	
gostaria	 de	 deixar	 algumas	 questões	 /	 dúvidas	 para	 discussão,	 e	 saber	 a	 opinião	 dos	
colegas	e	instrutores:	
	
Questão	 1:	 O	 primeiro	 modelo	 foi	 completo,	 com	 todas	 as	 variáveis.	 Descobriu-se	 que	
"ausências",	"famrel",	"G1"	e	"G2"	são,	aparentemente,	as	variáveis	mais	 importantes	para	
predizer	o	 valor	de	G3.	 É	 claro	que	o	 feeling	do	 cientista	de	dados	e	 seu	 conhecimento	do	
negócio	 são	 os	 mais	 importantes,	 aliados	 aos	 indicativos	 da	 matriz	 de	 correlação,	 por	
exemplo.	 Porém,	 considerando	 que	 pode	 haver	 relações	 que	 não	 se	 explicitem	 por	 meio	
dessas	 análises,	 e	 a	 possibilidade	 de	 alguma	 influência	 intrínseca	 não	 detectada	 (exemplo:	
famrel	 tem	baixa	 correlação	com	G3	e	 com	as	notas	em	geral,	mas	 se	mostrou	 importante	
para	 o	 modelo),	 penso	 que	 uma	 boa	 prática	 é	 rodar	 um	 modelo	 completo	 (se	 o	 poder	
computacional	disponível	 for	 capaz	de	processar	os	dados)	 e	depois	 selecionar	as	 variáveis	
mais	 significantes	 para	 compor	 o	 modelo	 final,	 seja	 de	 forma	 isolada	 ou	 através	 de	
combinações	entre	elas.	O	que	acham	?	
	
Questão	 2:	 De	 acordo	 com	 a	 estatística	 F,	 se	 entendi	 bem,	 os	 modelos	 que	 melhor	 se	
ajustaram	aos	dados	foram	o	v1	(completo)	e	o	v2	(G3	em	função	apenas	de	G1	e	G2).	Pelas	
demais	 estatísticas,	 como	 o	 R2	 (postagem	 de	 Eduardo	 Morelli),	 pela	 maior	 estatística	 F,	
menor	p-value	e	o	segundo	maior	adjusted	R	squared,	o	melhor	modelo	parece	ter	sido	o	v2.	
Penso	que	uma	estratégia	 razoável	poderia	 ser	estimar	um	modelo	para	as	notas	G1	e	G2,	
separadamente,	 com	base	nas	demais	 variáveis	 (achoque	 são	algoritmos	ensemble,	 se	me	
lembro	bem,	conforme	explicado	no	vídeo	de	Algoritmos	de	ML)	e,	com	base	nesses	modelos	
isolados,	ajustar	G3	.	Faz	sentido	?	
	
Questão	3:	Em	qualquer	situação,	um	modelo	maior	é	sempre	mais	preciso	(excluído	o	risco	
de	 "overfitting").	 Porém,	 pelo	 que	 entendi	 do	 vídeo	 6	 de	 Regressão	 Linear,	 em	 teoria,	 à	
medida	que	um	volume	massivo	de	dados	 fica	disponível,	modelos	mais	 simples	poderiam	
retornar	predições	mais	precisas	?	Colocado	de	outra	forma:	com	mais	dados,	seria	possível	
alcançar	 modelos	 mais	 precisos	 com	 menos	 variáveis	 dependentes,	 do	 que	 com	 modelos	
"completos"	e	menos	dados	disponíveis	?	
	
Essas	 discussões	 são	 muito	 pertinentes.	 Antes	 de	 expor	 meu	 ponto	 de	 vista	 é	 importante	
ressaltar	duas	coisas:	primeiro,	que	no	curso	de	Machine	Learning	estudamos	os	modelos	em	
detalhes	e	em	nível	bem	mais	avançado	do	que	vimos	aqui,	 cujo	objetivo	era	dar	ao	aluno	o	
primeiro	 contato	 com	o	 aprendizado	 de	máquina.	 Segundo,	 os	modelos	 de	 regressão	 são	 os	
modelos	mais	simples	de	Machine	Learning	e	para	problemas	que	envolvem	muitos	dados	(Big	
Data)	 e	 muitas	 variáveis,	 existem	 algoritmos	 muito	 superiores	 como	 os	 métodos	 ensemble	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
22	
(para	 classificação	 e	 regressão),	 SVM	 (para	 classificação	 e	 regressão),	 as	 redes	 neurais	 e	 as	
redes	neurais	profundas	(Deep	Learning).	Mas	o	aprendizado	de	modelos	simples	de	regressão,	
vai	 ajudar	 ao	 longo	 do	 processo	 de	 aprendizado	 de	 temas	 mais	 avançados.	 Sobre	 os	
questionamentos,	 rodar	 o	 modelo	 usando	 todas	 as	 variáveis	 é	 normalmente	 um	 primeira	
opção,	como	forma	de	identificar	as	mais	relevantes.	Mas	em	ambiente	de	produção,	quando	
publicamos	 nossa	 aplicação	 analítica,	 isso	 pode	 não	 ser	 viável	 puramente	 por	 restrições	 de	
hardware	e	de	tempo.	Exatamente	aí	que	Deep	Learning	vem	se	destacado,	quando	processado	
em	GPU's,	pois	as	redes	neurais	profundas	nos	permitem	usar	muitas	variáveis	e	processar	em	
paralelo	nas	GPU's,	reduzindo	consideravelmente	o	tempo	de	processamento	e	aumentando	a	
precisão	 do	 modelo.Com	 relação	 às	 estatísticas	 é	 como	 deitar	 à	 noite	 e	 se	 cobrir	 com	 um	
cobertor	curto.	Se	cobrimos	a	cabeça,	descobrimos	o	pé.	À	medida	que	alteramos	as	variáveis,	
adicionando	 ou	 removendo	 variáveis	 do	 modelo,	 as	 estatísticas	 vão	 nos	 mostrar	 coisas	
ligeiramente	diferentes.	E	aí	está	a	questão.	Todas	as	opções	estarão	 relativamente	corretas,	
mas	 não	 estarão	 aderentes	 ao	 que	 precisamos	 para	 resolver	 o	 problema.	 Por	 isso	 sempre	
reforço	a	importância	de	definir	as	métricas	e	critérios	de	parada,	antes	de	começar	o	trabalho	
de	análise.	Soma-se	ainda	o	fato	de	que	o	modelo	de	Machine	Learning	avalia	números,	mas	o	
conhecimento	 de	 negócios	 pode	 ser	 decisivo	 para	 identificar	 as	 variáveis	 relevantes	 ou	 para	
alterar	parâmetros	do	modelo.	
	
	
54. Como	 faço	 pra	 transformar	 uma	 coluna	 de	 uma	 dataframe	 (factor)	 em	 um	 outro	
dataframe	com	duas	colunas,	onde	um	campo	é	o	ID	e	outro	um	ITEM?	Na	imagem	tenho	
uma	 tabela	 com	varias	 colunas	e	uma	delas	e	a	marca	do	 carro.	Preciso	 transformar	as	
marcas	em	um	dataframe	com	uma	coluna	 ID	 (inteiro)	e	outra	o	nome	das	marcas	e	os	
nomes	das	marcas	não	podem	repetir	no	novo	dataframe.	
	
Existem	 diversas	 formas	 de	 fazer	 isso.	 Você	 pode	 usar	 a	 função	 mutate	 do	 pacote	 dplyr,	 a	
função	 separate	 do	 pacote	 tidyr,	 alguma	 das	 funções	 do	 pacote	 stringr	 como	 strplit	 e	
str_split_fixed	ou	mesmo	expressões	regulares	com	a	função	gsub.	Em	todos	os	casos	você	vai	
encontrar	diversos	exemplos	nos	primeiros	capítulos	do	curso	de	R	com	Azure.	
	
	
55. Estou	fazendo	o	curso	"Big	data	Fundamentos"	e	pretendo	avançar	com	os	estudos	para	
direcionar	minha	carreira	em	Big	data.	Estou	interessado	no	curso	"Formação	Cientista	de	
Dados"	 mas	 gostaria	 de	 confirmar	 se	 minha	 formação	 acadêmica	 e	 experiência	
profissional	atendem	aos	requisitos	para	ser	um	Cientista	de	dados.	Tenho	formação	em	
engenharia	 elétrica,	 experiência	 em	 automação	 industrial	 (máquinas	 CNC	 e	 Robótica).	
Mudei	minha	carreira	em	2003	quando	mudei	para	a	Inglaterra,	atuando	no	seguimento	
de	 varejo	 (business	 development).	 Implantando	 lojas	 de	 uma	 rede	 de	 Franquias	
americana	na	Inglaterra	e	em	mais	oito	países.	Porém	nunca	atuei	nem	tenho	formação	
ou	 experiência	 em	 Ciências	 da	 computação,	 ou	 qualquer	 linguagem	 de	 programação.	
Tenho	muito	 interesse	 em	 atuar	 como	 analista	 de	mercado	 utilizando	 Big	 Data,	 porém	
gostaria	 de	 saber	 quais	 as	 minhas	 chances	 de	 aprender	 e	 ser	 bem	 sucedido	 sem	 esse	
conhecimento	em	programação.	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
23	
Sua	 formação	 em	 Engenharia	 já	 é	 um	 passo	 importante,	 pois	 você	 já	 possui	 habilidade	 com	
Matemática	e	raciocínio	lógico.	Para	linguagem	de	programação,	recomendo	você	fazer	o	curso	
Python	 Fundamentos,	 gratuito	 aqui	 na	 Data	 Science	 Academy.	 Esse	 curso	 é	 de	 introdução	 à	
programação	com	Python.	Por	ser	100%	online,	você	pode	fazer	no	seu	tempo.	Na	Formação	
Cientista	 de	Dados,	 o	 primeiro	 curso	 será	 sobre	 linguagem	R	 e	 vai	 começar	 do	 básico,	 até	 o	
intermediário/avançado.	Qualquer	pessoa,	mesmo	 sem	experiência	 em	programação,	poderá	
acompanhar.		 Na	 parte	 de	 Estatística	 e	Matemática,	 creio	 que	 você	 não	 terá	 problemas	 em	
acompanhar,	por	conta	do	seu	background	acadêmico.	O	curso	mais	complexo	da	Formação	é	o	
de	 Engenharia	 de	 Dados.	 Neste	 curso,	 vamos	 trabalhar	 com	 sistema	 operacional	 Linux	 e	
armazenamento	 de	 dados	 com	Hadoop	 e	 Spark.	 Nós	 criamos	 uma	máquina	 virtual	 que	 será	
disponibilizada	para	download,	 de	modo	que	os	 alunos	 com	poucas	habilidades	em	 sistemas	
operacionais,	possam	acompanhar	o	curso	com	mais	tranquilidade.	Em	99%	das	vezes,	o	cluster	
Hadoop	estará	 rodando	em	Linux/Unix	e	por	 isso	este	 conhecimento	é	 fundamental.	 E	 como	
tudo	será	passo	a	passo,	não	creio	que	os	alunos	terão	dificuldades.	Dê	uma	olhada	no	curso	de	
Python	 e	 veja	 como	 os	 procedimentos	 são	 bem	 passo	 a	 passo.	 Eu	 e	 os	 outros	 instrutores,	
ministramos	 treinamentos	 há	muito	 anos	 e	 sabemos	 identificar	 onde	 os	 alunos	 poderão	 ter	
problemas.	 Curso	 online	 sempre	 traz	 um	 desafio	 adicional,	mas	 teremos	 o	 fórum,	 e-mails	 e	
webinars.	 Nosso	 objetivo	 é	 que	 os	 alunos	 aprendam	 de	 verdade	 e	 daremos	 todo	 o	 suporte	
necessário.	Sobre	os	demais	cursos,	em	Machine	Learning	veremos	os	conceitos	matemáticos	e	
estatísticos	dos	algoritmos,	vamos	aplicar	e	customizar	os	algoritmos	usando	R	e	Python	(que	
estudaremos	 nos	 primeiros	 cursos)	 e	 na	 sequência	 vamos	 aplicar	 os	 conceitos	 em	 Business	
Analytics	e	Visualização	de	Dados.	É	muito	difícil	afirmar	se	você	terá	ou	não	dificuldades,	pois	
depende	também	da	sua	dedicação	ao	longo	do	curso.	De	nossa	parte	podemos	garantir	que	os	
cursos	 serão	 ensinados	 passo	 a	 passo.	 A	 programação	 para	 Data	 Science	 é	 diferente	 da	
programação	para	criar	um	game	ou	um	sistema	web.	Em	Data	Science,	a	programação	é	muito	
mais	a	criação	de	scripts	que	executarão	coleta,	limpeza,	armazenamento	e	junção	dos	dados,	
além	de	aplicar	regras	estatísticas.	Apenas	em	casos	específicos,	é	necessário	a	elaboração	de	
lógicas	complexas	em	programação.	Na	Formação	Cientista	de	Dados,	os	alunos	estarão	aptos	a	
manipular	Big	Data	usando	R	e	Python.	
	
	
56. Eu	instalei	e	carreguei	os	pacotes	readr	e	dplyr:	
	
install.packages("readr")	
install.packages("dplyr")	
library(readr)	
library(dplyr)	
	
e	quando	executei	o	comando	abaixo	df_sono,	apareceu	a	mensagem	de	erro	abaixo:	
		
df_sono	 <-	
read_csv("http://datascienceacademy.com.br/blog/aluno/RFundamentos/Datasets/P
arte3/sono.csv")Error:	could	not	find	function	"read_csv"	
Big	Data	Analytics	com	R	e	Microsoft	Azure	Machine	Learning	
	
Data	Science	Academy	
www.datascienceacademy.com.br	
24	
		
Para	o	comando	tbl_df	também	dá	erro,	conforme	mostrado	abaixo:	
		
install.packages("hflights")	
library(hflights)	
		
>	?tbl_df		
No	documentation	for	‘tbl_df’	in	specified	packages	and	libraries:	
you	could	try	‘??tbl_df’	
>	flights	<-	tbl_df(hflights)	
Error:	could	not	find	function	"tbl_df"	
		
O	que	devo	fazer	agora	,	sendo	que	estes	comandos	serão	muito	utilizados	ao	longo	
do	curso?!	
	
	
Após	eu	fechar	e	abrir	novamente	o	RStudio	deu	certo	:-)	.	Estou	vendo	que	algumas	librarys	
para	carregar	corretamente	é	preciso	que	se	reinicie	o	RStudio.	
	
O	que	eu	não	entendi	 e	 este	 erro	 já	 ocorreu	outras	 vezes	 é	 quanto	 à	 função	hist.	Dê	uma	
olhada:	
>	hist(df_sono$sono_total)	
Error	in	plot.new()	:	figure	margins	too	large	
	
Daí	não	consigo	visualizar	o	histograma	dos	dados.	O	que	pode	estar	acontecendo?!	
	
Um	dos	maiores	problemas	do	R	é	a	gestão	de	memória	do	computador.	Recomendo,	sempre	
que	 você	 for	 trabalhar	 com	os	 scripts,	 limpar	 sua	workspace	e	 então	executar	os	 comandos.	
Isso	vai	evitar	muitos	problemas.	
	
Com	 relação	 ao	 gráfico,	 lá	 no	 forum	 outros	 alunos	 reportaram	 o	 mesmo	 erro.	 Isso	 ocorre	
porque	 sua	área	de	plotagem	é	muito	pequena.	O	problema	pode	 ser	 resolvido	definindo	as	
margens	com	a	função	par(),	assim:	par(mar=c(1,1,1,1)).	 Inclua	este	comando,	antes	do	plot	e	
você	não	deve	ter	mais	o	erro.