Buscar

Estudando-cultura-e-comunicacao-com-midias-sociais

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 401 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 401 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 401 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ESTUDANDO CULTURA E 
COMUNICAÇÃO COM 
MÍDIAS SOCIAIS
Brasília, 2018
Organização:
Tarcízio Silva
Jaqueline Buckstegge
Pedro Rogedo
Estudando cultura e comunicação com mídias sociais.
Todos os direitos reservados.
©Instituto Brasileiro de Pesquisa e Análise de Dados – IBPAD, 2018. 
Organização
Tarcízio Silva
Jaqueline Buckstegge
Pedro Rogedo 
Preparação de texto e revisão
Monomito Editorial 
Diagramação
Project Nine Editorial 
Capa
Yuri Amaral 
Revisão acadêmica
Deborah Celentano 
Brasília, 2018.
Todos os direitos desta edição reservados à
Instituto Brasileiro de Pesquisa e Análise de Dados – IBPAD
ibpad.com.br
facebook.com/ibpad
Sumário
APRESENTAÇÃO ................................................................................. 9
ESTUDANDO DISCURSOS EM MÍDIA SOCIAL: 
UMA PROPOSTA METODOLÓGICA .................................................13
Raquel Recuero
CONDUZINDO PESQUISAS COM QUESTIONÁRIOS ONLINE: 
UMA INTRODUÇÃO ÀS QUESTÕES METODOLÓGICAS ...............31
Márcio Cunha Carlomagno
O DISCURSO NA WIKIPÉDIA: CARTOGRAFIA DAS 
CONTROVÉRSIAS E TEORIA ATOR-REDE COMO METODOLOGIAS 
COMPLEMENTARES DE ANÁLISE DE ARGUMENTOS .................. 56
Marcio Gonçalves
A PESQUISA ETNOGRÁFICA E A GRAMÁTICA DOS SENTIMENTOS: 
INTRODUÇÃO À ANTROPOLOGIA DAS EMOÇÕES ATRAVÉS DAS 
MÍDIAS SOCIAIS ............................................................................... 67
João Vitor Rodrigues
ANÁLISE DE DADOS VISUAIS NO INSTAGRAM: 
PERSPECTIVAS E APLICAÇÕES ..................................................... 80
Ana Claudia Zandavalle
QUE VOZ É ESSA? IDENTIDADE E NARRATIVA DA MULHER 
NEGRA NO YOUTUBE ......................................................................97
Dayana Souza
ILÊ ASÉ INTERNET – CANDOMBLECISTAS 
NO CIBERESPAÇO .......................................................................... 112
Kelvin Alves
REDES SOCIAIS NA INTERNET, NARRATIVAS E A ECONOMIA 
ÉTNICA: BREVE ESTUDO SOBRE A FEIRA 
CULTURAL PRETA ..........................................................................142
Taís Oliveira
VIZINHANÇA E INTERNET: NOTAS ETNOGRÁFICAS SOBRE A 
SOCIABILIDADE ENTRE VIZINHOS A PARTIR DE UMA ANÁLISE 
DA REDE SOCIAL ONLINE “TEM AÇÚCAR”. ................................159
Fabiana Botton
E-CAMPANHAS EM TEMPOS DE REDES DIGITAIS: ESTUDO DE 
CASO DE UM PROGRAMA DE MONITORAMENTO ONLINE DAS 
ELEIÇÕES MUNICIPAIS BRASILEIRAS DE 2016 ...........................180
Sérgio Braga, Rafael Cardoso Sampaio, Márcio Cunha 
Carlomagno, Fabricia Vieira, Alzira Ester Angeli & Juan 
Francisco Arrom Suhurt
MAPEAMENTO DAS FANPAGES POLÍTICAS NO FACEBOOK .... 204
Marcelo Alves
NOVO ATIVISMO POLÍTICO: PARTICIPAÇÃO POLÍTICA NA 
QUESTÃO CONTEMPORÂNEA ..................................................... 225
Débora Zanini
MÍDIAS SOCIAIS E A COMUNICAÇÃO DE CRISES URBANAS: 
ESTUDO DE CASO DO CENTRO DE OPERAÇÕES RIO .............. 237
Pedro Reis Martins, Alexandre Hojda e Ariana Apolinário
MÉTODOS PARA IDENTIFICAÇÃO E CARACTERÍSTICAS DE 
INFLUENCIADORES EM MÍDIAS SOCIAIS ................................... 253
Gabriel Ishida
MODELOS DE PERSONALIDADE EM MÍDIAS SOCIAIS: 
OPORTUNIDADES E DESAFIO PARA O MARKETING ................ 277
Pedro Barreto, Tarcízio Silva
CIBERATIVISMO DE CONSUMO NO FACEBOOK E A INFLUÊNCIA 
NEGATIVA SOBRE AS MARCAS NO PROCESSO DE TOMADA 
DE DECISÃO DOS CONSUMIDORES ........................................... 294
Norberto Andrade
MONITORANDO AUDIÊNCIAS TELEVISIVAS 
NAS MÍDIAS SOCIAIS .....................................................................315
Eloy Santos Vieira, Tarcízio Silva
ON THURSDAYS WE WATCH GREY’S: O ENGAJAMENTO 
DOS FÃS DE GREY’S ANATOMY NO TWITTER ........................... 336
Talita Vital, Mirna Tonus
DA FOFOCA À PÓS-VERDADE: ESTUDANDO 
BOATOS E COMPORTAMENTOS NEGACIONISTAS 
NAS MÍDIAS SOCIAIS. ................................................................... 359
Wesley Muniz
MENSURAÇÃO DE AUDIÊNCIAS E ANÁLISE DE 
ENGAJAMENTO: UMA PROPOSTA METODOLÓGICA 
A PARTIR DAS MÍDIAS SOCIAIS ....................................................374
Wesley Moreira Pinheiro, Danilo Postinguel
BIOGRAFIA DOS AUTORES .......................................................... 391
Nathalia Louro Andrade
APRESENTAÇÃO
 
 
 
Ao longo dos três anos de atuação do Instituto Brasileiro de Pesquisa e 
Análise de Dados (IBPAD) pudemos criar conexões muito relevantes com 
alunos, colaboradores, clientes, fornecedores, parceiros, grupos de pesquisa 
e afins: gente apaixonada por investigação, pesquisa e descoberta. A opção 
pelo gerúndio no título Estudando Cultura e Comunicação com Mídias Sociais 
busca enfatizar o esforço contínuo e coletivo para a compreensão das mídias 
sociais tanto enquanto objetos, nas suas materialidades em si, como, sobretudo, 
campos discursivos de construções e controvérsias sobre identidades, opinião 
pública, controvérsias e consumo simbólico.
Nos vinte capítulos deste livro reunimos colaborações de pesquisado-
res de diferentes disciplinas, campos, níveis de formação, idade, experiência 
e maturidade científica, sendo uma analogia espelho dos estudos de/sobre/
em/com mídias sociais como algo não-finito e em “modo gerúndio” próprio 
da investigação científica, acelerada cada vez mais pelas transformações da 
hipercontemporaneidade. Como resultado de uma chamada de trabalhos aberta 
a todos que já tiveram algum contato – estudantes, professores ou parceiros – 
com o IBPAD, os capítulos puderam ser agregados a posteriori em quatro focos 
não excludentes: Métodos, Identidades, Política e Mercado da Comunicação.
Abrindo o livro, uma série de capítulos focados nos métodos apresenta 
trabalhos sobre como combinar análise de conteúdo e análise relacional nos 
estudos de mídia social (Recuero, capítulo 1), sobre questões metodológicas a 
respeito da condução de pesquisas com questionários online (Carlomagno, capí-
tulo 2) e sobre cartografia de controvérsias como abordagens possíveis para os 
dados digitais (Gonçalves, capítulo 3). Enquanto materiais de estudo, as visuali-
dades no Instagram como atalho para estudos de comportamento (Zandavalle, 
capítulo 5), a gramática de sentimentos e emoções (Rodrigues, capítulo 4) ou os 
traços de personalidade (Barreto & Silva, capítulo 15), disponíveis nos fluxos 
das publicações, são apresentados para os pesquisadores interessados em inter-
rogar os dados com outros olhares.
Debruçando-nos sobre identidades e audiências, estudos de caso que apli-
cam análise de redes, etnografia e análise de conteúdo descrevem agrupamentos 
de resistência econômica (Oliveira, capítulo 9), comunidades religiosas (Alves, 
capítulo 7), audiências articuladas de fãs (Vieira & Silva, capítulo 17; Vital e 
Tonus, capítulo 18), marcação de lugar de fala de youtubers (Souza, capítulo 
6) ou ainda o lugar enquanto rede articulada de vizinhos (Botton, capítulo 9).
Abordando tanto youtubers quanto outros tipos de produtores de conteúdo, 
apresentamos de um lado método para identificação de influenciadores (Ishida, 
capítulo 14) e mensuração de engajamento de consumidores (Pinheiro & 
Postinguel, capítulo 20) e de outro os aspectos das articulações negativas como 
12
gestão do ciberativismo contra marcas (Andrade, capítulo 16), propagação de 
boatos (Muniz, capítulo 19) ou gestão de crises urbanas (Hojda e colaboradores, 
capítulo 13).
Entre os desafios da comunicação político-eleitoral e ativismo político, a 
publicação traz estudo de caso de monitoramento nas últimas eleições brasilei-
ras (Braga e colaboradores, capítulo 10), um percurso metodológico sobre mape-
amento de páginas políticas no Facebook (Alves, capítulo 11) e reflexões sobre a 
ação coletiva para a análise de movimentações online (Zanini, capítulo 12).
Esperamos que a obra seja proveitosa para estudantes e cientistas em dife-
rentes fases da trajetória de engajamento com pesquisa e análise de dados e que, 
com ela, surjam novos desafios e oportunidades de pesquisa e investigação. 
 
Boa leitura!
13
ESTUDANDO DISCURSOS EMMÍDIA SOCIAL: 
UMA PROPOSTA METODOLÓGICA
 
 
 
Raquel Recuero
 
Um dos grandes desafios no estudo da mídia social como esfera pública 
(BASTOS, 2011; SOARES; RECUERO, 2017) é compreender este espaço como 
disputa de sentidos. A mídia social1, enquanto conceito, compreende, jus-
tamente, o uso dos sites de rede social2 para conversação e espalhamento de 
informações, onde a estrutura dos grupos e das conexões online é capaz de fil-
trar e dar visibilidade para determinadas informações em detrimento de outras 
(RECUERO; BASTOS; ZAGO, 2015).
Nesse contexto, podemos discutir a construção de opiniões públicas, que se 
tornam proeminentes nessas ferramentas e podem construir percepções sobre 
produtos, pessoas, serviços e marcas. Assim, este artigo busca propor a utilização 
de um método misto3, constituído de técnicas da abordagem de análise de redes 
em conjunto com técnicas da análise de conteúdo, para compreender o discurso 
em dados de mídia social. Para fazer tal proposição, discutiremos rapidamente 
as duas abordagens e passaremos a uma especificação de cada passo da proposta.
 
 
1. ANÁLISE DE CONTEÚDO E ANÁLISE RELACIONAL
A análise de conteúdo (AC) é um dos métodos mais utilizados para ana-
lisar-se conjuntos de dados textuais4. É um conjunto de técnicas destinadas a 
estudar textos, imagens ou outros “conteúdos”, de modo a extrair destes, siste-
maticamente, algum tipo de sentido. Trata-se de uma abordagem constituída 
de várias técnicas diferentes, tanto qualitativas como quantitativas (BARDIN, 
2004). A base que une essas várias técnicas está constituída de procedimentos 
de classificação e categorização, que são constituídos a partir de similaridades e 
1 Essa ação orgânica das pessoas sobre a informação nas plataformas é que dá efeito à circulação 
de informações, que denominamos “mídia social”.
2 Conceito defendido por Boyd e Ellison (2007).
3 Métodos mistos são métodos que misturam diferentes abordagens, tanto qualitativas como 
quantitativas. Tendem a trazer contribuições relevantes, na medida em que permitem que um 
mesmo conjunto de dados seja percebido através de múltiplos olhares analíticos.
4 Apesar disso, não podemos esquecer da natureza dos dados da mídia social como dados “fala-
dos”, ou seja, híbridos entre linguagem escrita e oral.
14
dissimilaridades nesses dados. Mais do que simplesmente descrever os dados, o 
objetivo é inferir elementos destes dados. A proposta de Bardin (2004) descreve 
o método a partir das seguintes etapas: 
 
1) Pré-análise e Exploração – Etapa onde os dados são sistematizados e 
explorados, e os elementos observados são descritos a partir do pro-
blema de pesquisa.
2) Codificação – Etapa inicial de classificação e agregação dos dados.
3) Categorização – Etapa sucessiva de criação de categorias mais amplas, 
que levará à criação dos conceitos, a partir dos critérios definidos pelo 
pesquisador. 
 
Cada um desses procedimentos é subsequente aos demais e vai constituir um 
aprofundamento da criação de categorias, que serão posteriormente discutidas. O 
objetivo, portanto, é chegar a um conjunto de categorias mais amplas (ou conceitos) 
que emergirão da análise sistemática dos dados, constituída de descrição, interpre-
tação e inferência sobre os mesmos, durante estes procedimentos classificatórios.
Por conta de suas características, a análise de conteúdo presta-se tanto a pro-
cedimentos qualitativos quanto a procedimentos quantitativos. De modo espe-
cífico, com o auxílio de ferramentas computacionais, tornou-se mais comum 
a utilização de softwares de classificação de dados para análises quantitativas. 
Nestes casos, as categorias criadas pelos codificadores (coders) são geralmente 
validadas por testes com codificadores independentes, para os quais aplicam-se 
testes específicos de confiabilidade (reliability)5.
Há várias divisões para os tipos de análise de conteúdo. Aqui focaremos 
principalmente em dois grandes tipos, a “análise de conceitos” e a “análise de 
relações”. Estas duas grandes categorias são importantes para que possamos 
compreender elementos subsequentes de estudo. A análise de conceitos é a parte 
mais simples e tradicional da análise de conteúdo, e trabalha, principalmente, 
com a obtenção de conceitos através dos procedimentos de codificação e classi-
ficação dos dados, de modo a observar a presença e a ausência de determinados 
elementos no conjunto. Já a análise de relações quer ir além da mera identifica-
ção de conceitos e elementos presentes nos dados, focando-se, principalmente, 
no estudo das relações entre esses conceitos obtidos através dos procedimentos. 
Esta análise, assim, quer extrair sentido não da presença dos conceitos em si, 
5 Para mais detalhes, sugiro a consulta à Kripperndorff (2004).
15
mas principalmente de suas relações com os demais. Os métodos tradicionais 
da Análise Relacional são: 
 
• Análise de sentimentos (ou emoções) – busca compreender a emoção 
dos conceitos presentes no texto, geralmente através de análises temá-
ticas e de elementos relacionados a essas emoções.
• Análise de proximidade – busca compreender a coocorrência de concei-
tos. Esta abordagem, que é onde queremos basear esta proposta, busca 
a criação de “janelas” ou linhas de texto dentro do conjunto de dados, 
as quais serão objeto de análise para as coocorrências de conceitos. A 
partir destas coocorrências, há a criação de uma matriz conceitual de 
onde se pode extrair os sentidos.
• Mapas cognitivos – são recursos onde as relações de proximidade são 
representadas em mapas gráficos para auxiliar a compreensão das rela-
ções através da semântica de suas conexões. A questão chave aqui é 
analisar, do modo mais profundo o possível, a relação entre os conceitos. 
Carley (1990), inclusive, propõe que a representação dos dados relacio-
nais da análise de conteúdo dê-se também através de redes. 
 
São justamente esses métodos e técnicas que são interessantes para esta 
discussão. Defendemos que a análise de dados de mídia social adquire muito 
mais sentido quando estudada em seu contexto e em suas relações entre os 
conceitos apresentados. Normalmente, formas de monitoramento, por exem-
plo, costumam levar em conta, principalmente, palavras-chave e não con-
ceitos em relação a outros, de modo a expandir a compreensão dos sentidos 
escondidos naqueles discursos. Com a análise relacional, vai-se além da mera 
classificação, busca-se obter dados sobre o uso dos conceitos nos movimentos 
da conversação.
 
 
2. ANÁLISE DE REDES
A análise de redes sociais (ARS) é uma abordagem derivada da Teoria dos 
grafos e da Sociometria (RECUERO, 2009; RECUERO, 2017; RECUERO; 
BASTOS; ZAGO, 2015). Suas origens são amplas, com autores citando princi-
palmente a Sociometria e a Teoria dos Grafos (WASSERMAN; FAUST, 1994; 
DEGENNE; FORSÉ, 1999).
16
O objetivo desta abordagem é analisar a estrutura da rede e compreender 
como a posição dos nós e a estrutura das conexões influencia os fenômenos. 
A abordagem tem um foco estrutural e suas métricas são utilizadas para com-
preender-se a importância da posição dos nós na estrutura e a importância das 
conexões entre os vários nós. Este foco é bastante propício para o estudo das 
relações entre os conceitos em falas na internet, justamente porque permite, 
através de suas métricas e analogias, compreender-se conceitos mais centrais, 
mais relevantes para os atores, bem como grupos de conceitos que tendem a 
aparecer juntos e suas relações.
A análise de redes baseia-se no estudo dos nós (que, em nosso caso, serão 
os conceitos) e suas conexões ou arestas (que aqui serão suas coocorrências). A 
partir da construção desta estrutura, utilizam-se métricas para entender-se a 
posição dos nós (métricas de nó) e a estrutura geral da rede (métricas de rede). 
As redes podem ser, geralmente, direcionadas (quando importa a direção da 
aresta e é possível medir esta direção, normalmente com valores diferentes para 
cada direção da mesma) e não direcionadas (quando a direçãonão importa, 
apenas a existência e a força da conexão). A análise também pode ser feita a 
partir de uma rede ego (ou seja, a partir de um sujeito central) ou de rede inteira 
(de um conjunto de dados dos quais se tem toda a rede). Uma rede de conceitos 
é, geralmente, uma rede inteira e não direcionada.
A análise de redes também trabalha com métricas, geralmente desenvolvi-
das a partir de algoritmos que focam: 
 
a) Métricas de nó – as métricas de nó são aquelas que visam compreen-
der a posição de cada ator na estrutura da rede. Assim, buscam obser-
var, por exemplo, atores que são mais centrais, por variáveis distintas. 
Um ator pode ser relevante para a rede quando está unindo vários 
grupos dentro desta (centralidade de intermediação – betweenness), 
quanto conecta ou está conectado a mais atores que os demais (grau 
de entrada – indegree –, saída – outdegree – ou grau geral), quando suas 
conexões são nós importantes que também o fazem mais importante 
na rede (centralidade – eigenvector) etc.
b) Métricas de Rede – as métricas de rede são aquelas que buscam com-
preender a estrutura da rede como um todo, como, por exemplo, sua 
densidade, os grupos que existem nela (métricas de grupabilidade, 
como modularidade) etc. Estas métricas, ao contrário das anteriores, 
17
não trazem dados específicos sobre os nós, mas fazem sentido sobre a 
rede como um todo. 
 
Essas métricas seriam capazes, assim, se aplicadas a grupos de conceitos 
conectados, de oferecer dados sobre como estes estão articulados nas falas dos 
atores na mídia social. O objetivo, portanto, é analisarmos a estrutura de con-
ceitos utilizados nas “falas” dos atores sociais, identificando conceitos mais 
centrais e associações mais fortes e frequentes, oferecendo, assim, pistas das 
construções discursivas associadas a determinados tópicos na mídia social. 
 
 
3. PROPOSTA DE ANÁLISE
Como dito inicialmente, nossa proposta é utilizar os passos da análise de 
conteúdo e combinar a análise relacional dos conceitos obtidos com a análise 
de redes. Portanto, trata-se de uma proposta de métodos mistos, baseada em 
elementos qualitativos e quantitativos, com tratamento informático e direcio-
nada para conversações obtidas em mídia social. Este tipo de análise neces-
sita de ferramentas computacionais, sendo difícil que possa ser constituída em 
uma observação apenas. No exemplo que trazemos, utilizamos scripts próprios. 
Porém, há ferramentas que auxiliam tanto na coleta de dados (como o yTK6, o 
NodeXL7 e o Netlytic8) como na análise desses dados (Textometrica9, Netlytic) 
e na visualização dos mesmos (Gephi10). Especificamente para a proposta que 
fazemos aqui, uma vez obtidos os dados, é bastante simples resolver cada uma 
das fases utilizando-se, primeiramente, o Textometrica para a análise desses 
dados e uma ferramenta de visualização posterior, como o Gephi.
A proposta de análise inicia-se com a extração de dados de conversações 
de mídia social. Para demonstração, utilizaremos como exemplo dados reco-
lhidos do Twitter pouco antes do julgamento do ex-presidente Luís Inácio 
Lula da Silva11 pelo Tribunal Regional Federal 4 (TRF4), em Porto Alegre, 
no dia 24 de janeiro de 2018. A escolha pelo fato deve-se à popularidade e 
presença do mesmo nas conversações durante o dia no Twitter. Esses dados 
6 Disponível em https://github.com/540co/yourTwapperKeeper
7 Disponível em https://www.smrfoundation.org/nodexl/
8 Disponível em https://netlytic.org/index.php
9 Disponível em http://textometrica.humlab.umu.se/
10 Disponível em https://gephi.org/
11 Detalhes disponíveis na cobertura do Estadão: http://politica.estadao.com.br/ao-vivo/
julgamento_lula
18
foram recolhidos a partir de crawler próprio12, que a cada uma hora reco-
lheu tweets que continham a palavra “Lula”. Para este exemplo, entretanto, 
utilizaremos um subconjunto dos dados constituído por uma coleta reali-
zada no dia anterior (23/01), às 12:56. O conjunto de dados aqui utilizado 
foi constituído de 52617 tweets e 22533 contas individuais13. Nossa questão 
central aqui será compreender quais foram os discursos prevalentes sobre o 
julgamento no Twitter.
Após a coleta de dados, é sempre importante realizar uma “limpeza” dos 
dados, de modo a retirar aqueles que estiverem incompletos, erros ou mesmo 
dados não desejados. Por exemplo, nossa pesquisa sobre “Lula” retornou dados 
sobre moluscos marinhos, que não eram relevantes para esta análise. Para evitar 
ruídos, esses dados foram retirados do dataset. Se o conjunto de dados é pequeno, 
essa limpeza pode ser feita de modo manual. Porém, quando se está trabalhando 
com um grande conjunto de dados, é importante ter softwares ou scripts que 
auxiliem neste trabalho. Por vezes, um bom editor textual (como o Notepad++ 
ou o SublimeText) pode ser suficiente para identificar-se dados com problemas. 
 
 
3.1 Análise de Conteúdo
Esses dados serão então analisados em duas fases. A primeira destas fases 
é a análise de conteúdo (AC). A análise de conteúdo, como dissemos, envolve 
elementos de classificação para a criação das categorias de conceitos que se pre-
tende analisar. Primeiramente, no entanto, é necessário separar-se as unidades 
de análise dentro dos dados recolhidos. A unidade é escolhida como a menor 
parte significante dos dados, a partir dos objetivos da pesquisa. Uma unidade 
de análise, assim, pode ser uma interação completa, como, por exemplo, uma 
postagem no Facebook ou um comentário, ou, dentro destes, uma sentença, 
ou ainda um tweet. Cabe ao pesquisador definir o que será cada unidade sig-
nificativa. Para este trabalho, utilizaremos como unidade o tweet em si (e não 
as sentenças), pois queremos analisar como os conceitos foram utilizados em 
conjunto. Assim, por exemplo, interessa-nos ver se “Lula” aparece em iterações 
12 Nosso crawler foi construído a partir de um sistema existente, o yTK (yourtwapperkeeper), e 
extrai os dados diretamente das duas APIs do Twitter.
13 Também é importante levar-se em conta que raramente se consegue, mesmo com acesso às 
duas APIs, certeza da completude dos dados coletados. A quantidade de dados coletados depende 
da API que se acessa, do crawler que se está utilizando, do número de requests (por exemplo, várias 
coletas a partir de uma mesma conta podem reduzir a quantidade de dados que se consegue cole-
tar) etc. De modo geral, quanto maior o número de dados existentes, mais incompleto tende a ser 
o dataset coletado (mesmo dentro das limitações impostas pelo próprio Twitter).
19
onde conceitos como “democracia” ou “golpe” também apareceram, ainda que 
não necessariamente na mesma frase. 
 
3.1.1 Análise de frequência
Após a escolha das unidades, cada uma delas será analisada em busca de 
suas regularidades. Como regularidade principal, interessa-nos, nesta pro-
posta, elementos (palavras ou categorias de palavras, por exemplo) que apare-
cem com maior frequência nos dados coletados. Assim, o primeiro elemento 
que buscamos é a frequência de determinadas categorias de palavras nas uni-
dades de análise. Esta frequência é delimitada pela repetição de palavras nos 
vários tweets. Essas palavras mais repetidas serão aquelas que entrarão para a 
próxima fase. Assim, o que queremos saber aqui é quais palavras foram mais 
utilizadas pelas pessoas.
Para a análise de frequência é muito importante considerar-se apenas aque-
las classes de palavras que constituem algum tipo de significado relevante para 
o estudo. Assim, muitas vezes, o pesquisador pode escolher trabalhar apenas 
com adjetivos, substantivos ou verbos, por exemplo, ou com um conjunto des-
tes. De modo geral, outras classes são geralmente desprezadas (como artigos, 
preposições, advérbios etc.) por serem muito pouco relevantes à compreensão 
dos dados e por, geralmente, aparecerem em grande quantidade, obscurecendo 
outros termos que possam ser relevantes. Esses termos que foram considerados 
pouco úteis pelo pesquisador podem ser incluídos em uma lista de stopwords, 
ou seja, palavrasou caracteres que não entrarão na contagem de frequência. 
Caso não exista uma lista de stopwords, essas palavras poderão ser desprezadas 
posteriormente, na etapa de classificação.
A análise de frequência apresentará como resultado as palavras que mais 
foram usadas nos dados coletados. Cabe ao pesquisador, então, delimitar a 
quantidade de dados que vai usar para as fases seguintes, se todas as palavras ou 
apenas um percentual. Geralmente é relevante levar em conta, para esta escolha, 
a quantidade total de dados (por exemplo, uma frequência de 10 pode ser rele-
vante para um conjunto pequeno de dados, enquanto para um conjunto maior, 
talvez 100 seja um número mais importante). Também é importante esmiuçar 
a chamada “cauda longa” de palavras utilizadas com o mesmo sentido, mas de 
modo mais granular, possivelmente em pequenos bolsões linguísticos (formas 
de dizer que são características de determinadas regiões).
Uma vez tendo-se coletado os dados do Twitter, utilizamos um software pró-
prio para a contagem de frequência e posterior classificação. Entretanto, como 
dissemos, outros, como o Textometrica, podem ser utilizados para esta fase. É 
importante, neste momento, atenção para o tipo de codificação dos caracteres 
20
textuais. Geralmente, os caracteres dos dados precisam ser convertidos para 
UTF-814 para a análise dos softwares, de modo que dados como acentuação e 
“emojis” não sejam perdidos.
Na imagem a seguir (Figura 1), vemos um exemplo de resultado de uma 
primeira análise de frequência dos dados. No software utilizado, é possível sele-
cionar quais dados se quer manter no conjunto e os conceitos que se deseja criar 
para agregar os dados. Além disso, podemos ver também exemplos de tweets 
que continham a palavra apresentada, de modo que o pesquisador possa com-
preender como ela foi utilizada.
Esses mesmos procedimentos (contagem e classificação) podem ser realiza-
dos em ferramentas como o Textometrica, com uma estrutura bastante seme-
lhante à da imagem apresentada a seguir. Uma vez de posse das palavras mais 
frequentes, entramos, então, no segundo momento da análise. 
 
3.1.2 Classificação
As palavras apontadas por frequência serão, a seguir, classificadas entre si 
por sentido e por elementos semânticos semelhantes (regularidades) observados 
em seu uso. Estes critérios de classificação deverão ser delimitados pelo pesqui-
sador a partir de seu problema de pesquisa. Assim, por exemplo, “presidente” 
e “presidenta” podem ser incluídos em uma mesma categoria (ambos denotam 
o representante máximo da República), exceto se o uso do gênero fizer alguma 
diferença para o que se busca analisar. Do mesmo modo, “Temer”, “Dilma” ou 
“Lula” podem ser tomados como sinônimos de “presidente” caso o objetivo da 
análise seja compreender, por exemplo, o que se fala da categoria “presidente”, 
mas não de cada um individualmente. A classificação dessas palavras será, 
portanto, realizada em categorias que poderão ser semânticas, gramaticais, de 
gênero etc., a depender do problema de pesquisa levantado. Em nosso caso, por 
exemplo, “presidente” e “ex-presidente” são palavras que pertencem a categorias 
diferentes quando utilizadas com relação a “Lula”. Seu uso demarca diferentes 
posições e percepções a respeito do sujeito. Por isso, são consideradas categorias 
diferentes na análise.
Esse processo de classificação deve ser criterioso, na medida em que a união 
de várias palavras em uma mesma categoria influenciará os resultados e a aná-
lise. Por conta disso, é importante observar, de modo qualitativo, a presença de 
determinada palavra nos dados. Em alguns softwares (como o Textometrica, 
14 Softwares gratuitos, como o Notepad ++ (https://notepad-plus-plus.org/) são bastante úteis 
para auxiliar a sanar problemas de codificação. Geralmente, basta abrir o TXT e modificar a codi-
ficação nesse tipo de programa.
21
   
Fi
gu
ra
 1
 - 
Im
ag
em
 d
e 
re
sp
os
ta
 d
e 
co
nt
ag
em
 d
e 
fr
eq
uê
nc
ia
 e
m
 d
ad
os
 d
o 
Tw
itt
er
 
(n
úm
er
o 
de
 v
ez
es
 q
ue
 c
ad
a 
pa
la
vr
a 
ap
ar
ec
e 
no
s 
da
do
s)
. 
                                         
Fo
nt
e:
 a
 a
ut
or
a.
 S
of
tw
ar
e 
pr
óp
rio
.
22
ou no exemplo da Figura 1), é possível observar alguns tweets mais frequentes 
que contêm os dados. Com isso, é possível analisar o uso das palavras de modo 
semântico. Também é relevante que o pesquisador faça a conferência no banco 
de dados, observando de modo qualitativo como determinada palavra foi utili-
zada, para classificá-la de modo adequado. Outro ponto importante é não cate-
gorizar palavras compostas (por exemplo, unir “Porto” e “Alegre” como “Porto 
Alegre”), isso porque o resultado duplicará a frequência dos dados (uma vez que 
todos os “Portos” e “Alegres” serão somados). Se o que se quer é utilizar o nome 
composto nos dados, basta classificar “Porto” como “Porto Alegre” e ignorar o 
“Alegre” (evidentemente, é preciso tomar cuidado, pois há alguns “porto” que 
podem não significar a cidade e que podem ser relevantes para a análise). Por 
fim, em algumas análises, o gênero das palavras utilizadas também pode ser 
importante e, por isso, deve ser levado em conta.
A partir da classificação dos dados em categorias mais amplas (que também 
podemos denominar conceitos), passamos então a uma análise de coocorrên-
cia, ou seja, de criação da estrutura da rede de conceitos em torno do tópico ou 
evento em cima do qual os dados foram coletados. 
 
3.1.3 Análise de Coocorrência
Na análise de coocorrência temos os dados brutos (número de coocorrência 
entre os conceitos selecionados) e esses dados podem ser estudados a partir da 
análise de redes, pois cada coocorrência representa uma aresta entre os concei-
tos (Figura 2). Assim, quando se analisam os dados sob a forma de grafos, pode-
mos usar métricas de posição da análise de redes para compreender a estrutura 
da mesma. A análise de coocorrência classifica os dados que ocorrem juntos 
(ou seja, na mesma unidade de análise). Assim, se “Lula”, “corrupção” e “jul-
gamento” coocorrem em uma mesma unidade (tweet), teremos cada um desses 
conceitos como um nó e arestas que conectam os três entre si.
Na Figura 2 podemos ver os dados analisados e construídos como conceito 
1 e conceito 2, com a frequência e a coocorrência de cada dado. Esses dados 
são brutos, mas importantes, porque mostram o que o grafo fará. Uma vez que 
tenhamos esses dados, podemos então montar a rede. Essa será a estrutura que 
analisaremos. Geralmente, os programas mostram a totalidade de coocorrên-
cias (até zero coocorrências, por exemplo). Cabe ao pesquisador, novamente, 
de acordo com a sua experiência, selecionar a quantidade de coocorrências que 
deseja analisar na próxima etapa, observando quais são relevantes e quais não o 
são. Ferramentas como o Textometrica também oferecem dados das coocorrên-
cias gerais e normalizadas. A normalização pode oferecer insights diferentes, 
conforme veremos a seguir.
23
Fi
gu
ra
 2
 - 
Ex
em
pl
o 
de
 ta
be
la
 c
om
 c
on
ce
ito
s,
 o
co
rr
ên
ci
as
 e
 c
oo
co
rr
ên
ci
as
. 
                                   
Fo
nt
e:
 a
 a
ut
or
a.
24
Na rede que obtivemos, portanto, os nós são os conceitos analisados e as 
arestas seu uso conjunto. Utilizando, assim, métricas de análise de redes, pode-
mos compreender essa estrutura e a importância de cada nó na constituição 
do discurso da rede. Para fazer a análise de redes, há várias possibilidades. 
Algumas ferramentas, como o Textometrica e o Netlytic, já fazem a análise a 
partir dos elementos selecionados pelo pesquisador e, ao final, mostram a rede e 
algumas das métricas possíveis que podem ser selecionadas ou não. Outra opção 
é exportar o arquivo de análise textual como um arquivo de rede (formato gra-
phml, net etc.) e abri-lo em um programa mais específico, como o Gephi. Uma 
vez no Gephi, é possível calcular as métricas de rede e inseri-las no grafo. 
 
3.1.4 Interpretação das MétricasMas como podemos compreender as métricas de rede e estudar esses con-
juntos de modo a entender seus sentidos? Aqui, em nosso estudo de caso, fare-
mos algumas sugestões de interpretação e compreensão de algumas métricas, 
de modo a exemplificar como poderiam ser levadas em conta pelo pesquisador. 
 
a) Métricas de Nó
Neste caso específico (rede de conceitos), temos uma rede não direcionada, 
pois o que é relevante é o fato do conceito aparecer com outro ou não. Não há, 
assim, direcionamento nessas relações, e métricas como indegree (grau de 
entrada) e outdegree (grau de saída) são substituídas apenas por degree (grau). O 
grau de um conceito na rede indica duas coisas. Primeiramente, sua frequência, 
uma vez que o número de vezes em que o conceito aparece é determinante para o 
número de relações que ele possui. Além disso, o grau também indica o número 
de relações que esse conceito apresenta com outros conceitos da rede. Conceitos 
com maior grau são aqueles que mais apareceram e estiveram relacionados a 
outros conceitos na rede analisada. Logo, foram conceitos centrais na discussão.
Outras métricas, como betweenness (o grau de intermediação), também podem 
ser utilizadas, dependendo da proposta de análise. O grau de intermediação, uma 
métrica de “ponte”, pode indicar quais conceitos foram mais utilizados em diferen-
tes grupos de conceitos (por exemplo, conceitos que foram mais usados por gru-
pos pró-prisão ou contra a prisão do ex-presidente Lula). Geralmente, esta métrica 
auxilia na percepção de conceitos que perpassam várias discussões (ou vários gru-
pos de conceitos, utilizados por diferentes grupos em diferentes conversações).
As métricas de nó apontam para a análise da posição dos nós na análise 
de rede (percebendo, portanto, sua centralidade). Assim, podem ser utilizadas 
para compreender-se conceitos centrais na conversação, bem como conceitos 
centrais para diferentes grupos de atores. 
25
 
b) Conexões
A força das conexões nas redes de conceito aponta para aqueles conceitos 
que estão mais fortemente ocorrendo juntos. Quanto maior a coocorrência, 
mais forte o laço (maior o grau). Isto também significa que as conexões ten-
dem a “puxar” aquele conjunto de nós que mais coocorre em conjunto para 
um determinado grupo no grafo. A força das conexões é visualmente apontada 
pela espessura da conexão no grafo. Aqui, o que percebemos é como um deter-
minado conceito foi associado a outros na rede. Por exemplo, se “Lula” aparece 
muito fortemente associado a “golpe” e não a “corrupção”, isso pode indicar 
determinadas percepções presentes na conversação. 
 
c) Métricas de Rede
Também podemos analisar métricas que dão dimensão à rede de conceitos 
como um todo. Métricas de rede nos auxiliam a compreender o grande qua-
dro, a estrutura da rede de conceitos associados. Dentre essas métricas, as mais 
importantes são, geralmente, aquelas de grupabilidade (modularidade, clusters 
etc.), pois permitem que vejamos os vários grupos de conceitos que podem estar 
associados a diferentes conversações ou a diferentes grupos. Através de métri-
cas de grupabilidade é possível observar quais conjuntos de conceitos tendem a 
coocorrer com maior frequência juntos nos dados, o que nos dá uma dimensão 
dos discursos mais frequentes.
Assim, por exemplo, na Figura 3, vemos um grafo construído em cima 
dos dados das falas, no Twitter, sobre o julgamento do ex-presidente Lula. Os 
dados foram classificados conforme as etapas anteriores. Vemos os conjuntos 
de conceitos que mais tendem a aparecer juntos determinados por modula-
ridade (cores), a importância desses conceitos determinada pelo tamanho da 
palavra no grafo e a força da conexão pelas arestas mais grossas. Vemos ali, 
no grupo laranja, que o conceito “Lula” tendeu a aparecer mais em conjunto 
com “Bolsonaro”, “Brasil”, “Moro”, “preso” e “fraude”. Isso significa que o nome 
do ex-presidente foi mais associado aos contextos onde esses outros conceitos 
foram relevantes: discussões sobre fraudes na documentação do processo, sobre 
o juiz e sua possível suspeição, sobre a possibilidade de sua prisão e, o que nos 
parece bastante importante, em relação ao deputado Jair Bolsonaro, que não 
tem uma relação direta com o julgamento, exceto o fato de que é um pré-candi-
dato à Presidência da República, como o ex-presidente. Essa relação indica que 
Lula e Bolsonaro foram, assim, no contexto dos dados, constantemente associa-
dos, provavelmente dado o contexto em termos de oposição. Isso significa que 
o julgamento de “Lula” foi bastante discutido em contextos onde o deputado 
“Bolsonaro” também esteve presente.
26
Já no grupo rosa, vemos outro conjunto de relações. Ali temos os conceitos 
“presidente”, “Dilma”, “democracia”, “golpe” etc. É interessante observar que 
“golpe” aparece associado a “Dilma”, mas não a “Lula”, bem como “democra-
cia”, “justiça” e “julgamento”. Essas associações implicam que esses conceitos 
apareceram mais quando a ex-presidenta Dilma foi citada e menos quando o 
ex-presidente Lula foi citado. Isso mostra um discurso mais positivo relacio-
nado a Dilma do que a Lula. “Dilma” sofreu o “golpe”, e sua presidência, neste 
contexto, foi mais associada à “democracia”. Apesar disso, neste conjunto, tam-
bém temos associações que indicam um sentimento de injustiça com relação 
aos dois ex-presidentes.
Temos ainda o grupo verde, que traz outros conceitos associados ao suposto 
crime em si: “triplex”, “provas”, “prescrição”, “cadeia” etc. Neste grupo, parece 
que há um maior conjunto de referências ao fato em julgamento e menos dis-
cussões mais amplas (como “democracia” ou “golpe”). Este grupo compreendeu 
mais tweets provenientes de veículos noticiosos e a reprodução desses tweets. 
Representa um grupo mais factual e menos opinativo a respeito da discussão.
Assim, cabe ao pesquisador analisar as coocorrências no grafo e o sentido 
constituído pelos conceitos para o discurso que mais aparece nos dados cole-
tados. Essa análise pode particularizar os vários grupos, analisá-los de modo 
geral, focar hashtags, partidos etc. (SOARES; RECUERO, 2017; RECUERO, 
2016 e RECUERO, 2014). As possibilidades são muitas. O mais importante, 
entretanto, é desenvolver a sensibilidade teórica do pesquisador para as esco-
lhas do que analisar e como desenhar sua pesquisa. Para a visualização dos 
dados, pode utilizar-se dos vários algoritmos15 que existem no Gephi, por 
exemplo, tornando o grafo visualmente relevante para a análise. É importante 
que se entenda o que cada algoritmo faz, de modo a poder compreender como a 
rede que resulta dele é influenciada pelas “forças” que ele utiliza. Os algoritmos 
mais comuns são “ForceAtlas” (nós com maior peso são atraídos para o centro, 
independentemente de grupos) ou algoritmos que são mais eficientes em sepa-
rar os vários clusters (o NodeXL utiliza vários deles).
Esse tipo de análise pode ser fortemente impactada por discursos que foram 
muito “retuitados” (e que, portanto, mantiveram a mesma forma, as mesmas 
palavras), por exemplo, reduzindo o impacto de palavras menos usadas em 
conversações paralelas (que podem ser mais variadas, porém representar um 
conjunto semântico único). Uma estratégia interessante para analisar-se os 
diferentes contextos é normalizar os dados, de modo a apresentar conjunto 
mais amplo. Ao normalizar a base de coocorrências, temos uma melhora na 
15 Para mais informações sobre visualização e análise de redes, ver Recuero (2017).
27
distribuição dos demais dados em relação àqueles de maior valor, reduzindo o 
impacto das mensagens muito “retuitadas”, por exemplo. 
 
Figura 3 - Grafo de coocorrências.
Fonte: a autora. Imagem gerada no Gephi. Visualização: Force Atlas. 
 
Na figura a seguir (Figura 4), temos a imagem do mesmo grafo apresen-
tado na Figura 3, porém com dados normalizados. Aqui vemos um conjunto 
de módulos, onde as coocorrências aparecem um pouco diferentes do grafo 
total. Vemos, por exemplo, que o grupo rosa apresenta uma série de concei-tos relacionados à defesa do ex-presidente (como provas, prescrição, inocente 
etc.). Já o nome do ex-presidente no grupo azul aparece diretamente conec-
tado à condenação (condenado) e a “Brasil” e “Bolsonaro”, indicando que este 
é apresentado juntamente com o nome de Lula, provavelmente como candidato 
de oposição possível. Do mesmo modo, outros módulos também apresentam 
outras conexões relevantes para o estudo, como “petista” e “política”, ou o bloco 
verde, que relaciona “democracia” com a candidatura do ex-presidente e com 
a defesa do mesmo. Os dados normalizados apresentam melhor tópicos pre-
sentes e conjuntos de conceitos associados mais frequentemente em diferentes 
grupos. Por isso, ajudam a compreender melhor os tópicos discutidos do que os 
dados totais. 
28
 
Figura 4 - Grafo de coocorrências normalizado.
Fonte: a autora. Imagem gerada no Gephi. Visualização: Fruchterman-Reingold 
 
Podemos ver, assim, que o discurso prevalente sobre o julgamento está 
focado na defesa do ex-presidente, tanto exposto na análise dos dados gerais 
quanto no normalizado. Os conceitos mais associados e mais frequentes dizem 
respeito a elementos apontados pela defesa, como “democracia”, “golpe”, 
“defesa”, “prescrição” e “provas” (a falta de provas para a condenação foi um 
dos argumentos mais frequentes entre aqueles que defendiam o ex-presidente). 
Há também um discurso de comparação entre Lula e Bolsonaro e de condena-
ção de Lula (“preso” e “condenado”). A prevalência de um discurso que defende 
o ex-presidente e associa a sua possível nova candidatura à “democracia” evi-
dencia a articulação de grupos pró-Lula de maneira bastante forte, seja através 
de retweets, seja através da propagação de discursos positivos sobre o ex-presi-
dente. Há o contraponto negativo, entretanto, que aparece de modo bem menos 
articulado e coeso, como vimos nesta breve análise.
A análise dos dados aqui não deve ser feita unicamente baseada na estrutura 
do grafo. Ela pode e deve ser realizada desde o início, com uma análise quali-
tativa dos tweets mais “retuitados” e ações contextuais, como a percepção dos 
vários grupos envolvidos na discussão, das possíveis ações ativistas dos vários 
29
nós (por exemplo, em contextos políticos, é muito comum que vários atores 
estejam agrupados de modo a funcionar como um coletivo, dando visibilidade 
para determinadas pautas e silenciando outras) etc. A análise não pode ser des-
conectada do contexto dos dados. Também por conta disso, é difícil analisar-se 
conjuntos de dados com os quais não se esteve envolvido com a coleta ou com o 
contexto de produção dos tweets. 
 
 
4. CONCLUSÃO
Neste texto, discutimos uma proposta de práticas de pesquisa em dados 
textuais de mídia social focada nos discursos ali presentes. A proposta, anco-
rada em métodos mistos, busca misturar técnicas de análise de conteúdo a 
partir de um foco relacional, utilizando várias técnicas de visualização, cate-
gorização e análise de redes, com métricas para o estudo da estrutura da rede 
dos conceitos produzidos pela AC. O objetivo é constituir uma proposição 
específica de análise qualitativa e quantitativa que possa ser aplicada para 
grandes quantidades de dados de falas dos atores em canais de mídia social. 
A partir desta discussão, elencamos um referencial teórico de base e o passo 
a passo da proposta, trazendo ferramentas que possam ser utilizadas e resul-
tados possíveis.
Nosso objetivo foi apresentar um método que consiga capturar de modo 
mais amplo os diferentes discursos presentes na mídia social. Não se pretende, 
aqui, resumir-se esta análise simplesmente a “sentimento”, porém a algo mais 
amplo, constituído de uma análise mais completa de diferentes classes grama-
ticais, que vá além de adjetivação (embora esta também possa ser um elemento 
de análise). Por isso, apresentamos esta proposta como captura de discursos, 
ou seja, de reflexos das ideologias presentes nas conversações. Esta proposta 
é, geralmente, mais eficiente em compreender diferentes tópicos e contextos 
de conversações do que uma análise de sentimento em sentido estrito, embora 
também possa ser utilizada para a compreensão de sentimentos relacionados a 
um determinado evento, produto ou ator.
Embora nosso exemplo aqui tenha sido relacionado a um contexto político, 
esses passos metodológicos poderiam ser utilizados em diferentes contextos, 
como o lançamento de produtos, a percepção geral de marcas (em uma análise 
mais longitudinal) etc. É importante, para essas outras análises, que recortes 
temporais sejam levados em conta, uma vez que o discurso pode alterar-se com 
o tempo e com diferentes contextos construídos pelos atores. 
 
 
30
REFERÊNCIAS
BARDIN, L. Análise de Conteúdo. Lisboa: Edições 70, 2004.
BASTOS, M. Public Opinion Revisited: The propagation of opinions in digital 
networks. Journal of Arab & Muslim Media Research, v.4, n.2-3, 2011.
BOYD, D. M.; ELLISON, N. B. Social network sites: Definition, history, and 
scholarship. Journal of Computer-Mediated Communication, v. 13(1), art. 11, 
2007. Disponível em: <https://onlinelibrary.wiley.com/journal/10836101>.
CARLEY, K. Content analysis. In: ASHER, R.E. (Ed.). The Encyclopedia of 
Language and Linguistics. Edinburgo: Pergamon Press, 1990.
DEGENNE, A.; FORSE M. Introducing Social Networks. Londres: SAGE 
Publications, 1999.
KRIPPENDORFF, K. Content Analysis: an introduction to its methodology. 
Thousand Oaks, Califórnia: SAGE Publications, 2004.
RECUERO, R. O twitter como esfera pública: como foram descritos os candida-
tos durante os debates presidenciais do 2º turno de 2014? Revista Brasileira de 
Linguistica Aplicada, v. 16, p. 157-180, 2016.
. Contribuições da Análise de Redes Sociais para o estudo 
das redes sociais na Internet: o caso da hashtag #Tamojuntodilma e 
#CalaabocaDilma. Revista Fronteiras (Online), v. 16, p. 60-77, 2014.
. Redes Sociais na Internet. Porto Alegre: Sulina, 2009.
. Introdução à análise de redes sociais online. Salvador: 
Edufba, 2017. Disponível em: <https://repositorio.ufba.br/ri/handle/ri/24759>.
RECUERO, R.; BASTOS, M.; ZAGO, G. Análise de Redes para Mídia Social. 
Porto Alegre: Sulina, 2015.
SOARES, F. B.; RECUERO, R. Opinião pública no Twitter: análise da indicação 
de Alexandre de Moraes ao STF. Logeion, v. 3, p. 18-34, 2017.
WASSERMAN, S.; FAUST, K. Social Network Analysis. Cambridge: Cambridge 
University Press, 1994.
31
CONDUZINDO PESQUISAS COM QUESTIONÁRIOS 
ONLINE: UMA INTRODUÇÃO ÀS QUESTÕES 
METODOLÓGICAS 
 
 
 
Márcio Cunha Carlomagno 
 
 
1. INTRODUÇÃO
É crescente o número de pesquisas utilizando a aplicação de questionários 
online, especialmente – mas não exclusivamente – entre jovens investigadores, 
como mestrandos e doutorandos. A facilidade tecnológica, tanto para a cria-
ção destes questionários (ofertada gratuitamente por ferramentas como Google 
Forms), quanto para sua difusão, traz um potencial problema: pesquisas pro-
blemáticas, seja por questionários mal formulados ou por desenhos de pesquisa 
que não contemplam questões metodológicas desta ferramenta de pesquisa.
Este é um capítulo metodológico e didático, não de cunho empírico. Nosso 
objetivo é apresentar uma introdução aos principais tópicos sobre surveys 
online, suas limitações e técnicas de como proceder corretamente com sua apli-
cação. Desejamos ofertar à leitora e ao leitor um conjunto direto e sucinto dos 
principais aspectos a serem considerados ao optar-se por esta ferramenta, reu-
nindo uma bibliografia diversa. Não é propósito do capítulo apresentar novas 
proposições ou aplicações, mas servir como entrada na área para jovens pesqui-
sadores – público-alvo ao qual se destina.
O termo em inglês survey, apesar de sem equivalente preciso no português, 
usualmente é traduzido como “levantamento de dados” (GÜNTHER, 2003). 
Embora survey possa significar qualquer tipo de coleta ou levantamento de 
dados, com o passar dos anos seu sentido estrito passou a ser usado somente 
para um tipo de pesquisa: aquela com utilizaçãode questionários. Neste sentido, 
survey é um instrumento de pesquisa de opinião. Embora seja possível realizar 
surveys com perguntas abertas, sua forma predominante caracteriza-se pelo uso 
de perguntas fechadas, o que permite a comparabilidade das respostas. Outra 
característica em surveys é que, usualmente, são amostrais. Mick Couper (2000) 
propôs uma categorização dos tipos de survey online a partir da distinção entre 
métodos de amostragem probabilística e não-probabilística. Este é um elemento 
central para as pesquisas científicas. Em amostras probabilísticas, cada membro 
32
de uma população possui uma chance de seleção, que é: (i) conhecida e (ii) dife-
rente de zero. Em amostras não-probabilísticas, as chances de seleção são des-
conhecidas (COUPER; BOSNJAK, 2010). Nas palavras do autor, em amostras 
não-probabilísticas, “inferências ou generalizações para a população são basea-
das em saltos de fé ao invés de estabelecidos princípios estatísticos” (COUPER, 
2000, p. 477). Ao contrário, em amostras probabilísticas, os resultados podem 
ser extrapolados, com uma margem de erro que pode ser calculada para o uni-
verso que a amostra representa. Isso torna possível a realização de inferências 
sobre o conjunto maior da população. O tipo de survey que podemos, cotidiana-
mente, observar ser compartilhado em mídias sociais, como o Facebook, é o que 
Couper (2000) chamou de “surveys com autosseleção irrestrita”. As principais 
implicações amostrais deste tipo de survey, como veremos adiante, são a ausên-
cia de controle sobre os respondentes e o viés de autosseleção.
Podemos dividir os problemas metodológicos encontrados em surveys em 
duas ordens principais: problemas de construção do questionário e problemas de 
amostragem estatística (ALMEIDA, 2009). Este capítulo pretende apresentar um 
resumo dos mais importantes tópicos nestes dois âmbitos. Não é nossa pretensão 
esgotar o tema. Existem questões fundamentais relacionadas com as surveys que 
não são nosso foco, tais como o potencial viés gerado pelas respostas socialmente 
aceitáveis (ALMEIDA, 2009)1 ou de que maneira abordar temas polêmicos, como 
preconceito ou corrupção (TURGEON; CHAVES; WIVES, 2014).
O capítulo se organiza da seguinte maneira: a primeira seção é dedicada 
ao que chamamos “preliminares” – os elementos fundamentais na construção 
de um bom questionário. A qualidade dos resultados de um survey depende 
daquilo que antecede sua aplicação, que é a existência de um bom questionário. 
Questionários online possuem suas idiossincrasias, que precisam ser levadas em 
conta. Apenas transferir a mesma técnica dos questionários tradicionais para os 
online é um equívoco. Por isso, tratar deste aspecto é fundamental. Reunimos 
nove tópicos importantes aos quais o/a pesquisador(a) deve se atentar ao formu-
lar seu instrumento de pesquisa. A seção seguinte é dedicada aos “desafios”, ou 
limites, enfrentados por questionários online, sobretudo em relação às questões 
amostrais. Resumimos cinco tópicos, com especial destaque a três problemas: o 
viés de autosseleção, a ausência de controle sobre os respondentes e a homifilia 
1 Um dos exemplos mais célebres neste tópico é o chamado tory shy vote (voto conservador 
envergonhado), termo consagrado na eleição de 1992 no Reino Unido. Muitas vezes, candidatos 
conservadores vão sistematicamente pior nas pesquisas do que no desempenho nas urnas, pois há 
uma pressão social que compele as pessoas a não se manifestarem favoráveis a candidatos deste 
campo ideológico. Já há um debate recente se isso teria ocorrido na eleição de Donald Trump, nos 
Estados Unidos, em que as pesquisas falharam em prever o resultado eleitoral (COPPOCK, 2017).
33
(a homogeneidade criada dentro de grupos sociais, que tendem a serem seme-
lhantes e compartilharem os mesmos valores). Por fim, a seção seguinte sugere 
três possibilidades em que surveys online podem ser aplicados com sucesso, 
embora cada uma tenha suas limitações.
Uma vez que a ascensão do uso dos surveys online é saliente em uma série 
de disciplinas, o potencial deste capítulo é multidisciplinar. Dada sua natu-
reza metodológica, as considerações que apresentaremos servem não apenas 
às investigações específicas de opinião pública, mas se aplicam também à rea-
lização de outras pesquisas que se valham do instrumento de questionários 
online, em uma multiplicidade de áreas, tais como Sociologia, Administração, 
Marketing, Comunicação Social, Publicidade e Propaganda etc. A relevância 
deste capítulo, portanto, reside na sistematização, de forma didática, de uma 
longa discussão metodológica nas Ciências Sociais. 
 
 
2. PRELIMINARES
Muitos erros com pesquisas utilizando surveys podem ocorrer – e ocorrem – 
por problemas na formulação de um questionário adequado (ALMEIDA, 2009). 
Como ponto de partida, uma boa pesquisa depende de um bom questionário – 
e os questionários online possuem suas particularidades. Embora este aspecto já 
tenha sido tratado em clássicos como Almeida (2009), Günther (2003) e Fowler 
Jr. e Cosenza (2008), jogaremos o foco nas particularidades do meio que esta-
mos abordando, a aplicação online.
Lee (2006) sugeriu um check-list com três perguntas, para verificar se um 
questionário está adequado: 1) Os entrevistados conseguem entender a per-
gunta? 2) Os entrevistados conseguem responder à pergunta? 3) Os entrevis-
tados irão responder à pergunta? Para um questionário estar adequado, a res-
posta deve ser “sim” as três indagações. A seguir, abordaremos alguns tópicos 
essenciais para obter-se as respostas positivas a estas perguntas. 
 
I) Perguntas específicas
Perguntas devem buscar respostas para questões concretas e, acima de tudo, 
serem claras e específicas (LAZARSFELD, 1954). O exemplo de uma pergunta 
incorreta, ofertado por Lazarsfeld, é “por que você comprou este livro?”. Neste 
caso, o respondente pode ter três âmbitos de resposta diferentes: “compra” (em 
oposição a emprestar na biblioteca), “este” (em oposição a outros livros) e “livro” 
(em oposição a outros produtos, como o ingresso para um show). Neste caso, 
falta especificidade na pergunta. Perguntas que misturem diferentes âmbitos de 
resposta possíveis levam a erros de análise.
34
A pergunta deve ser clara e objetiva, de modo que não reste margem para 
compreensões distintas de dois respondentes diferentes. Por exemplo, na per-
gunta “você saiu para jantar fora recentemente?”, o termo “recentemente”2 pode 
ser interpretado de formas profundamente diferentes a depender do respon-
dente. É preciso que a pergunta seja direta e clara sobre o período que o/a pes-
quisador(a) deseja saber.
Podemos pensar em como ajustar essas perguntas, como exercício. Para 
o primeiro caso, supondo que a questão era sobre o âmbito “este”, na compra 
do livro, a pergunta poderia ser algo como “por que você escolheu [título do 
livro]?”, eliminando, assim, os âmbitos que poderiam causar embaraço. No 
segundo caso, “você saiu para jantar fora nos últimos 30 dias?” apresenta um 
intervalo de tempo claro, sem margem para interpretações diversas.
Esse tópico também vale sobre tentar questionar a respeito de conceitos, que 
são construções intelectuais humanas e, portanto, podem implicar interpretações 
variadas. O conceito teórico que se queira medir precisa ser traduzido em perguntas 
específicas – e são estas questões específicas que devem ser emitidas ao entrevistado.
Imagine a clássica pergunta: “em uma escala de ideologia política, como 
você se considera?”, apresentando uma escala entre esquerda e direita. Mas, ora, 
o que é esquerda e direita? É razoável supor que alguns respondentes pode-
rão atribuir significados muito distintos a uma mesma posição. “Direita”, a 
depender do entrevistado, pode significar tanto liberalismo econômico (livre 
mercado) quanto conservadorismo moral. Pode significar ambos ao mesmo 
tempo, mas também apenas um deles e não outro. Talvez existam pessoas que 
sejam liberais econômicos sem ser conservadores morais – e vice-versa.Neste 
exemplo, o ideal seria fazer, ao menos, duas perguntas: uma sobre liberalismo 
econômico e outra sobre conservadorismo moral3, para que, depois, o/a pesqui-
sador(a) construa, a partir dos dados, seu conceito de “ideologia política”. 
 
II) Fluidez
O propósito de um questionário é duplo: seu primeiro objetivo é traduzir 
os conceitos e hipóteses de pesquisa em perguntas e respostas específicas, a 
fim de mensurar aquilo que se propõe e o segundo é motivar o entrevistado a 
2 O mesmo se aplica a termos como “frequentemente”, “raramente” etc., por vezes encontrados 
em opções de respostas. Estes termos não devem ser usados, substituindo-se pelo número exato 
que se quer mensurar.
3 Perceba que, ainda assim, os conceitos continuam abstratos. Perguntar “o quão conversador 
moral você é?” também não é uma boa solução, pois comporta diferentes interpretações do con-
ceito. Devem ser feitas perguntas específicas sobre situações específicas. Como, por exemplo, no 
caso do conservadorismo, “você é contra ou a favor do casamento homoafetivo?”, “você é a favor 
ou contra o direito da mulher ao aborto?” e assim por diante.
35
continuar respondendo e concluir o questionário (CANNELL; KAHN, 1954). 
O segundo ponto se torna ainda mais fundamental no caso dos questionários 
online, que são autoadministrados, sem a presença de um entrevistador.
Quando falamos em fluidez, não significa que se deve apelar a recursos 
heterodoxos, mas, pelo menos, não se deve atrapalhar o respondente. Deve-se 
reduzir ao mínimo o esforço de leitura desnecessária. Evite redundâncias, evite 
demandar do respondente um esforço que não é necessário para que ele res-
ponda à pergunta. Se alguma informação é desnecessária para a resposta, não 
precisa ser incluída. Lembre-se que, enquanto nos questionários tradicionais o 
entrevistador pode adequar tons de voz, nos questionários autoadministrados o 
próprio respondente lerá as perguntas. Como veremos adiante, o tamanho das 
perguntas também tem impacto direto nisto.
Podemos ressaltar algumas questões importantes para que o respondente 
possa chegar ao fim do questionário, embora tal lista não seja exaustiva (outros 
aspectos também podem ser pertinentes). Primeiro, o bloco de perguntas sobre 
“perfil” do respondente deve vir ao final do questionário, não no seu começo. 
Colocar perguntas sobre o perfil do indivíduo no começo pode ser duplamente 
prejudicial: pode tanto cansar o respondente (com perguntas que, por serem 
automáticas, não farão mal estarem ao final), como também enviesar as res-
postas, especialmente – mas não unicamente – se a pesquisa for sobre temas 
sensíveis ou o respondente tiver respostas que não sejam esperadas para alguém 
de sua posição social. Segundo, é necessário coerência e coesão interna na 
ordem das perguntas. Perguntas fora de contexto podem causar estranheza, 
além do potencial viés provocado. Terceiro, como veremos adiante, a forma 
visual (layout) tem impactos diretos em surveys online. É necessária a adequa-
ção para os diversos dispositivos que podem ser utilizados pelo entrevistado 
(mobile, tablet, desktop etc.). Por vezes nos deparamos com questionários em 
que a página fica desconfigurada, a depender do dispositivo em uso. Isto é um 
fator que cria dificuldades para que os respondentes completem o questionário. 
 
III) As palavras
A forma – palavras e termos utilizados – com a qual a pergunta é apre-
sentada pode influenciar as respostas. Este é um dos mais antigos tópicos rela-
cionados com o estudo metodológico do efeito de surveys (RASINSKI, 1989; 
SCHRIESHEIM; EISENBACH, 1995; SCHUMAN; PRESSER, 1977). Embora 
continuem sendo debatidas suas diferentes intensidades, um ponto pacífico é o 
fato de que a escolha de palavras importa.
Os termos utilizados podem influenciar as respostas a partir de diferentes 
mecanismos. Esta influência pode ocorrer pela pressão psicológica em prol de 
36
respostas socialmente aceitáveis ou pela simples falta de clareza, como em per-
guntas negativas – ou pior, de dupla negativa. Por exemplo, “você é contra o 
fim do estatuto do desarmamento?” é uma pergunta confusa. A pessoa que é a 
favor do estatuto do desarmamento tem que responder “Sim” (é contra o fim) e 
vice-versa. Clareza é necessário, acima de tudo.
Bethlehem (2009) também alerta para o possível viés gerado pelo desequi-
líbrio nas respostas ofertadas. Por exemplo, a pergunta “você é a favor da pena 
de morte?”, que tenha como possíveis respostas “(1) Sim, sem ressalvas; (2) Sim, 
mas apenas em crimes hediondos; (3) Sim, mas apenas para criminosos irre-
cuperáveis e (4) Não.” é tendenciosa pois oferta três possibilidades de uma das 
alternativas. Neste caso, deveria dividir-se em duas perguntas. Uma sobre apoio 
ou não, outra sobre em que circunstâncias.
Além disso, no caso dos surveys online, os termos utilizados também podem 
influenciar no autorrecrutamento, pois podem relevar os posicionamentos dos 
pesquisadores (LEE, 2006). Um exemplo contemporâneo disto é o uso do termo 
“presidenta” para referir-se à ex-presidente brasileira Dilma Rousseff. A des-
peito de estar gramaticalmente correto (e ter sido utilizado pelos órgãos ofi-
ciais durante seu mandato), socialmente o termo ficou marcado como um dos 
identificadores dos apoiadores da ex-presidente, não tendo sido adotado pela 
parte majoritária das grandes empresas jornalísticas. O uso deste termo, por-
tanto, poderia indicar um olhar positivo sobre esta personagem. A assunção, 
por parte do respondente, sobre qual o posicionamento do/da pesquisador(a) 
tende a enviesar os indivíduos propensos a responder à pesquisa – e a compar-
tilhá-la em seu meio.
Note que a influência pela escolha das palavras pode ocorrer não apenas 
nas perguntas, mas também nas opções de respostas ofertadas, e na “apresen-
tação inicial do questionário”. O respondente não precisa saber as intenções 
dos pesquisadores, pois isso também pode interferir em suas respostas – só é 
necessário que lhe sejam passadas as informações básicas necessárias para que 
responda ao questionário.4 
 
IV) A ordem das perguntas (e das respostas)
A ordem das perguntas pode influenciar nas respostas. Almeida (2009) mos-
trou que, mesmo com perguntas idênticas, duas pesquisas podiam produzir resul-
tados consideravelmente diferentes apenas alterando a ordem das perguntas.
4 Em algumas áreas, os conselhos de ética exigem que informações completas e detalhadas sobre 
os usos da pesquisa sejam fornecidas aos respondentes. Do ponto de vista meramente metodoló-
gico, isto é inapropriado.
37
O exemplo mais clássico talvez seja o da pesquisa de intenção de voto (ou 
de avaliação de governo), onde, antes da pergunta com essa finalidade, ques-
tiona-se a satisfação do respondente com vários assuntos (como saúde pública, 
educação, economia, segurança etc.). Nesta circunstância, tende-se a diminuir 
a aprovação do mandatário (ou seu candidato). Ser “lembrado”, pelo próprio 
questionário, de questões que podem interferir na resposta posterior, induz esta 
resposta. Isto ocorre, sobretudo, pelo chamado learning effect – um assunto 
tratado anteriormente conduz o pensamento do respondente em uma direção 
específica (BETHLEHEM, 2009).
A ordem das perguntas é uma questão delicada em questionários online, 
pois, hipoteticamente, o respondente pode, diante de informações apresentadas 
posteriormente, retornar à pergunta anterior e alterar sua resposta. Uma solu-
ção para evitar isso pode ser a adoção de survey com multipáginas, separando 
as perguntas em blocos diferentes, como abordado na seção (viii).
Ainda relacionado à questão da ordem de apresentação, a “ordem que as 
respostas são apresentadas” também afeta as respostas (MALHOTRA, 2008; 
MCFARLAND, 1981). Opções mais próximas das pontas (a primeira e a última) 
tendem a ser mais escolhidas, em detrimento das opções que são apresentadas 
no meio. Na aplicação presencial, a solução para isso – adotada, por exemplo, 
em pesquisas de intenção de voto – é oferecer ao respondenteum disco circu-
lar que contenha todas as alternativas. Na aplicação online, deve-se utilizar o 
recurso “embaralhar a ordem das respostas”, ofertado por praticamente todas 
as ferramentas online. Neste caso, a cada vez que o questionário for aberto, as 
opções de resposta aparecerão em uma ordem diferente, de forma aleatória. 
 
V) Respostas exaustivas e mutuamente exclusivas
Em perguntas nas quais apenas uma resposta pode ser dada (como é a parte 
majoritária das perguntas utilizadas nestes questionários), as respostas devem ser 
exaustivas e mutuamente exclusivas (FOWLER JR; COSENZA, 2008). Estes são 
dois conceitos fundamentais e recorrentes na organização lógica de classificação, 
como, por exemplo, nas categorias para análise de conteúdo (CARLOMAGNO; 
ROCHA, 2016; KRIPPENDORFF, 2004).
Ser exaustivo significa que deve-se esgotar as possibilidades de resposta, 
isto é, todas as respostas possíveis devem estar previstas como alternativas. Ser 
mutuamente exclusivo significa que não pode existir a possibilidade lógica de 
duas alternativas serem verdadeiras ao mesmo tempo. Elas devem se excluir 
mutuamente.
Um exemplo que podemos ofertar de respostas não exaustivas é o de um 
questionário que, ao perguntar a raça do respondente, ofereça as alternativas: 
38
branco, negro, pardo, amarelo. Podemos notar que, além do “prefiro não res-
ponder”, falta a opção “indígena”. Embora talvez naquela pesquisa não fosse 
esperado que nenhum indígena respondesse ao questionário, se esta é uma res-
posta possível, logo, deve estar prevista.5 O fato de que todas as respostas pos-
síveis devem estar previstas implica que, por padrão, todas as perguntas devem 
conter a opção: “Não sei/Prefiro não responder”, pois esta é uma possibilidade 
de resposta dos entrevistados. Apesar dessa regra padrão, este tópico é um 
pouco mais complexo, conforme trataremos no tópico seguinte.
A questão de respostas não mutuamente excludentes é mais grave, pois não 
pode ser resolvida posteriormente, podendo vir a invalidar a pergunta e todas 
as respostas obtidas. Um exemplo que pode ser ofertado, retomando a pergunta 
“por que você comprou este livro?”, utilizada como exemplo anterior, seriam as 
alternativas de resposta, em uma pergunta de resposta única: a) preço acessí-
vel, b) interesse pelo assunto ou autor, c) recomendação de amigos, familiar ou 
conhecido, d) capa bonita e e) outros. Perceba que, neste exemplo, a exaustivi-
dade foi, ainda que mal, atendida com o uso da opção “outros”, mas as respostas 
não se excluem mutuamente, pois mais de uma (ou mesmo todas) podem ser 
verdadeiras ao mesmo tempo. No caso deste exemplo, haveria diversas saídas 
possíveis. A mais rápida poderia ser qualificar melhor a pergunta, como “qual 
o principal motivo por que você comprou...”. Neste caso, assume-se que outras 
respostas também podem ser verdadeiras, mas se quer saber o principal motivo. 
Uma segunda abordagem seria transformar a pergunta em resposta múltipla. 
Este tipo de pergunta, contudo, tende a não fornecer respostas muito robustas, 
pois não se sabe qual a ordem de importância dos fatores marcados. Uma ter-
ceira saída para o exemplo ofertado seria listar os fatores e pedir para elencar-se 
a ordem de importância. Esta é a abordagem que fornece mais informações aos 
pesquisadores, mas deve ser usada com parcimônia, pois, se utilizada de forma 
excessiva, pode-se correr o risco de cansar o respondente. 
 
VI) “Não sei”
O uso de uma opção “não sei” enseja uma longa discussão, quando em 
pesquisas mais sofisticadas. Por padrão, precisa ser ofertado ao respondente a 
possibilidade de dizer que não sabe alguma resposta. Contudo, alguns estudos 
testaram cenários em que esta opção está ausente, apresentando resultados que 
não são unânimes. Há argumentos que apontam indiferença (POE et al., 1988) 
e que discutem quando utilizar ou não esta opção (MCCLENDON; ALWIN, 
5 É preciso, contudo, ter cuidado para não criar alternativas demais de respostas. Muitas opções 
geram perda considerável na qualidade da análise.
39
1993). O problema essencial é que a possibilidade de responder “não sei” pode 
levar a “falsos negativos”, isto é, pessoas que tenham uma opinião – ainda que 
fraca – mas estejam receosos de as expressar (GILLJAM; GRANBERG, 1993).
Quando o assunto da pergunta é fundamental para a pesquisa sendo con-
duzida – como mensurar o conhecimento político em pesquisas sobre partici-
pação e cidadania (MONDAK; DAVIS, 2001) –, não permitir estas respostas 
pode ser útil. No entanto, vale ressaltar que esta é uma abordagem alternativa, 
possível em algumas circunstâncias. Estas devem ser analisadas caso a caso, em 
cada pesquisa. Por padrão, o recomendado é oferecer o “não sei”. Especialmente 
em se tratando de questionários online, precisamos ponderar que, se a pergunta 
for de resposta obrigatória (ou seja, aquele tipo que o respondente não a possa 
“pular”), isto pode gerar um beco sem saída ao respondente, de forma que ele 
simplesmente não consiga continuar a responder e abandone o questionário. 
Além disso, a ausência de “não sei” (e, a depender da pergunta, “não se aplica”) 
pode potencialmente aumentar também as respostas dos pontos médios. 
 
VII) As escalas
Que tipos de escalas utilizar é uma questão delicada. O aumento do número 
de pontos na escala até sete melhora a qualidade da medida, mas além disto não 
há efeitos (FOWLER JR; COSENZA, 2008; LEE, 2006). As respostas são mais 
consistentes (e com maior confiabilidade) quando todas as categorias estão 
rotuladas com palavras, ao invés de apenas rotular os extremos ou usar unica-
mente números6 (FOWLER JR; COSENZA, 2008; LEE, 2006). Também é pre-
ciso que o conjunto de perguntas apresente coerência na direção e no tipo das 
escalas. Se em uma pergunta você pede a concordância, na pergunta seguinte 
a discordância e na próxima a concordância novamente, isto pode confundir o 
respondente, ocasionando erros – o mesmo se aplica se você alternar os tipos de 
escala (cinco pontos, sete pontos, cinco pontos) ao longo do questionário.
Lee (2006) argumenta que uma das importantes decisões que o/a pesqui-
sador(a) deve tomar ao elaborar um questionário é oferecer ou não um ponto 
médio na escala de respostas. Embora seja recomendável ofertar a alternativa 
mediana, pois ela pode realmente melhor representar o posicionamento dos 
respondentes, as pesquisas têm confirmado que a presença de um ponto médio 
aumenta a proporção de respondentes adotando a resposta neutra (KALTON; 
ROBERTS; HOLT 1980; PRESSER; SCHUMAN 1980).
6 Por outro lado, a vantagem do contínuo numérico é que mais do que cinco adjetivos podem ser 
indistintos aos respondentes. Uma das mais utilizadas nestas pesquisas é a escala Likert.
40
A título ilustrativo, a figura a seguir apresenta a mesma questão em três 
tipos de escalas diferentes: apenas os extremos rotulados; todas as categorias 
rotuladas e ponto médio e todas as categorias rotuladas e sem ponto médio. 
 
Figura 1 - Exemplo de escalas
Fonte: elaboração própria 
 
Não há maneira correta ou errada, mas a que melhor se encaixa aos objetivos 
da pesquisa. Em alguns casos, em que a nuance é clara, o ponto intermediário 
pode ser pertinente. Em outros casos, pode ser uma estratégia mais vantajosa 
não oferecer um ponto intermediário, para evitar o risco de uma parcela grande 
escolher ficar “em cima do muro”.
Em qualquer caso, o/a pesquisador(a) deve escolher de forma consciente 
sua escala e saber justificar esta escolha à luz de seus objetivos de pesquisa. 
Vale lembrar que as escalas que você usará dependem, também, de como você 
pretende tratar estes dados e da conversação com a literatura da área. Outro 
elemento a se considerar é a adequação ao público-alvo. 
 
XIII) A forma visual (layout)
Em questionários autoadministrados, em que não há um entrevistador para 
auxiliar nas perguntas, questões que usualmente não se aplicam a questionários 
tradicionais surgem. Uma destas questões salientes é a forma visual (layout) 
41com que o questionário se apresenta. Destacam-se dois aspectos: (a) design de 
página única (estática) ou múltiplas páginas e (b) plano de fundo e cores.
A forma da página se refere a dois tipos visuais que o questionário pode 
apresentar: uma página única, estática, com todas as perguntas de uma vez, que 
demande a rolagem com o mouse, ou múltiplas páginas, que apresente somente 
algumas perguntas de cada vez e que demande ao respondente clicar em “pró-
xima” para acessar a página seguinte.
Embora os resultados sobre estas questões não sejam conclusivos – nem a 
pesquisa conduzida até aqui esteja perto de seu fim, existindo muito caminho 
ainda a ser explorado –, experimentos conduzidos por Manfreda, Batagelj e 
Vehovar (2002) apontam que: 
 
• O design de uma página (estática): a) aumenta o número de não-res-
posta ao item, b) aumenta a correlação entre os itens (gera um viés de 
associação nos respondentes) e c) diminui o número de desistências 
(questionários abandonados antes de serem completados).
• O design de múltiplas páginas: a) diminui a não-resposta ao item e b) 
aumenta o abandono do questionário, sem finalização, sobretudo na 
forma extrema deste design, em que cada questão ocupa uma página 
(esta forma deve ser fortemente evitada). 
 
Como se percebe, há pontos negativos e positivos nas duas formas. Os auto-
res também testaram dois modelos visuais, um simples e outro com ilustrações 
visuais. Os resultados da pesquisa indicam que o uso de logotipos aumenta o 
número de respondentes abandonando o survey sem completá-los – embora 
este aspecto esteja estatisticamente correlacionado ao equipamento usado e ao 
tipo de conexão com a internet7. Pelo lado positivo, este design tende a diminuir 
as não-respostas ao item. A comparação dos dois tipos, contudo, parece não 
exercer influência sobre o conteúdo do que é respondido.
Em suma, o uso de recursos visuais pode tanto aumentar a atratividade 
perante os respondentes quanto, eventualmente, torná-lo mais difícil de ser 
acessado e completado, o que pode reduzir a taxa de respostas. Ganassali (2008) 
sugeriu que a questão visual depende do tipo de incentivo visual, aumentando 
a taxa de respostas quando o incentivo visual era relevante para a pesquisa. Ou 
7 Aqui, precisamos ponderar o contexto em que foi produzida a pesquisa destes autores, que 
talvez não se aplique mais atualmente.
42
seja, a recomendação de seu uso depende do contexto de cada pesquisa, não 
havendo uma regra única para todas.
É uma boa ideia, contudo, especialmente no caso dos questionários multipá-
ginas, o uso de um indicador de progresso. Permitir que respondentes saibam o 
quanto estão próximos do fim previne que desistam na metade e diminui aban-
donos ao questionário (MANFREDA; VEHOVAR, 2008). Também é importante 
certificar-se de que o questionário se adapte e responda corretamente aos diversos 
dispositivos a partir dos quais pode ser acessado (tablet, desktop, smartphone etc.). 
 
IX) O tamanho
O que, sistematicamente, as pesquisas têm concluído é que tamanho importa. 
Tanto o tamanho do questionário quanto o tamanho de cada pergunta está 
relacionado ao esforço requerido dos respondentes. Ganassali (2008) aponta 
que o tamanho ótimo recomendado para questionários autoadministrados é 
entre 15 e 30 questões e que o tamanho de cada questão não deve ultrapassar 20 
palavras. Perguntas mais curtas diminuem a probabilidade de mal-entendidos 
por parte dos respondentes. Além disso, questionários mais curtos têm taxa 
de respostas mais alta (DEUTSKENS et al., 2004). Em questionários longos, 
questões posicionadas próximas ao fim apresentam respostas mais curtas, mais 
rápidas e mais uniformes do que as respostas de questões no começo (Galesic; 
Bosnjak, 2009), sendo, portanto, enviesadas devido à questionnaire fatigue, o 
cansaço do respondente (BETHLEHEM, 2009). 
 
 
3. DESAFIOS
Nesta seção, resumiremos os principais problemas enfrentados na aplicação 
online de questionários, sobretudo em termos de sua representação amostral. 
 
I) Cobertura e erro amostral
O principal problema em surveys online – e motivo, até a presente data, por 
que eles não podem substituir os surveys tradicionais – é a cobertura. Uma vez 
que o acesso à internet não é distribuído igualmente na sociedade – mesmo em 
países com alto acesso à internet, como os escandinavos, o uso efetivo pode 
variar substancialmente (por exemplo, entre os mais idosos) – não é possível 
construir amostras representativas da população somente a partir de aplica-
ções online. A solução para isso é compreender – e claramente reconhecer – que 
surveys aplicados online não representam a população. O recorte destes estudos 
deve ser definido de maneira estrita. No melhor dos casos, à população com 
acesso à internet; na maioria dos casos, aos usuários do site X ou Y.
43
Relacionado a isso, o erro amostral ocorre quando mesmo membros da 
população recortada não são selecionados de forma adequada. Neste caso, a 
replicabilidade da pesquisa é prejudicada, pois se outros pesquisadores refize-
rem a pesquisa, com outra amostra, poderão chegar a resultados diferentes. A 
diferença dos dois aspectos, segundo Couper (2000), é que: 
 
Enquanto o erro de cobertura se refere a pessoas ausentes 
do recorte (neste caso, aqueles sem acesso à internet), o erro 
amostral surge durante o processo de seleção de uma amostra 
da população estudada (COUPER, 2000, p. 467). 
 
O processo de seleção exerce um papel fundamental para o erro amostral, 
como veremos adiante, no tópico (iii). 
 
II) Não-respostas
A não-resposta ocorre quando uma parcela dos convidados a responder ao 
questionário não o fazem – ou respondem apenas parcialmente. A não-resposta 
pode ocorrer: (a) ao questionário e (b) ao item (pergunta).
A não-resposta só pode ser calculada em amostras probabilísticas – e nesta 
probabilidade, como argumenta Groves (2006), reside a capacidade inferencial 
dos surveys de representar a população total sem viés. Se a taxa de não-res-
postas é alta, não é possível garantir que os resultados não contenham viés de 
alguma natureza8. Em surveys não-probabilísticos, não é possível calcular a taxa 
de não-resposta, logo, não é possível saber o nível de incerteza da pesquisa e se 
ela contém ou não algum viés.
Em questionários online, aspectos distintos daqueles presentes em aplica-
ções presenciais podem levar a não-respostas. Por exemplo, enquanto em apli-
cações presenciais os atributos físicos dos aplicadores afetam a taxa de não-
-resposta (GROVES, 2006), em questionários online este fator é residual. Os 
mais célebres aspectos relacionados à não-resposta ao questionário online são o 
tamanho (questionários menores aumentam as taxas de resposta) e a presença 
de elementos visuais (DEUTSKENS et al., 2004), embora, em termos mais bási-
cos, também seja preciso considerar questões como o equipamento técnico para 
acesso à web e a familiaridade do respondente em lidar com estas ferramentas, 
para o correto preenchimento. Já a não-resposta ao item, contudo, pode estar 
8 Vale notar que as taxas de não-resposta não obrigatoriamente indicam a presença de um viés, 
mas a possibilidade do mesmo.
44
relacionada a vários aspectos, entre os quais perguntas formuladas inadequada-
mente (por isso a importância de um bom questionário). 
 
III) Viés de autosseleção
Este provavelmente seja o mais grave problema envolvendo surveys online – 
e diretamente se aplica ao tipo mais popular atualmente, aquele de autosseleção 
irrestrita.
O problema da autosseleção reside no fato de que, nestas pesquisas, o ques-
tionário é distribuído em sites e redes onde pessoas possuem algum interesse 
no assunto relacionado à pesquisa. Sua participação, portanto, está diretamente 
relacionada às variáveis do estudo (COUPER; BOSNJAK, 2010) e o/a pesquisa-
dor(a) não controla quem decide participar ou, principalmente, seus motivos 
(BETHLEHEM, 2009). É provável que os indivíduos engajados em participar 
da pesquisa sejam mais

Outros materiais