Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Língua Portuguesa I: Fonética e Fonologia
Adelaide H. P. Silva
Código Logístico
58171
Fundação Biblioteca Nacional
ISBN 978-85-387-6162-4
9 788538 761624
Língua Portuguesa I: 
Fonética e Fonologia
IESDE BRASIL S/A
2019
Adelaide H. P. Silva
Todos os direitos reservados.
IESDE BRASIL S/A. 
Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200 
Batel – Curitiba – PR 
0800 708 88 88 – www.iesde.com.br
CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO 
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
S578L
2. ed.
Silva, Adelaide H. P.
Língua portuguesa I : fonética e fonologia / Adelaide H. P. Silva. - 
2. ed. - Curitiba [PR] : IESDE Brasil, 2019.
154 p.
Inclui bibliografia
ISBN 978-85-387-6162-4
Língua portuguesa - Fonética. 2. Língua portuguesa - Fonologia. 
I. Título.
18-54466 
CDD: 469.15
CDU: 811.134.3’34
© 2009-2019 – IESDE BRASIL S/A. 
É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por escrito da autora e do detentor 
dos direitos autorais.
Projeto de capa: IESDE BRASIL S/A. Imagem da capa: Woters/iStockphoto
Adelaide H. P. Silva
Doutora e mestre em Linguística pela Universidade Estadual de Campinas (Unicamp) e gra-
duada em Letras pela mesma instituição. É professora na Universidade Federal do Paraná (UFPR) 
e atua na área de Linguística, com ênfase em Fonética e Fonologia.
Sumário
Apresentação 7
1 Como a Linguística estuda os sons da fala? 9
1.1 Do que trata a Fonética? 9
1.2 O ciclo de produção da voz 13
1.3 Fonética articulatória 16
1.4 Articuladores do trato 18
2 Distinguindo os sons da fala: vogais 25
2.1 Distinguindo as vogais entre si 27
2.2 Arredondamento dos lábios 32
2.3 Nomeando as vogais 32
2.4 Articulações que se sobrepõem às vogais 33
3 Distinguindo os sons da fala: consoantes 37
3.1 Distinguindo as consoantes entre si 37
4 Uma notação para os sons da fala 49
4.1 Falta de correspondência entre sons da fala e grafemas 49
4.2 O Alfabeto Fonético Internacional (IPA) 52
5 Prosódia 63
5.1 A melodia dos sons da fala 63
5.2 Entoação 65
6 Análise acústica dos sons da fala 75
6.1 O que é um som? 75
6.2 Características das ondas sonoras 76
6.3 Tipos de ondas 78
6.4 Parâmetros acústicos para a caracterização dos sons da fala 81
7 Caracterização acústica dos sons da fala 85
7.1 Caracterização acústica das vogais 85
7.2 Caracterização acústica das consoantes 90
7.3 Sonoridade das consoantes obstruintes 100
8 Estudo dos sons com função comunicativa: Fonologia 105
8.1 Objeto de estudo da Fonologia 105
8.2 Unidades de análise fonológica 107
8.3 Análise fonêmica 110
9 Identificando os fonemas de uma língua 115
9.1 Pares mínimos 117
9.2 Pares análogos 119
9.3 Pares suspeitos 119
9.4 Metodologia de análise fonêmica 121
10 Fonemas do português brasileiro: vogais 125
10.1 Distribuição das vogais no interior da sílaba 125
10.2 Inventário das vogais em função do acento 126
11 Fonemas do português brasileiro: consoantes 135
11.1 Distribuição dos fonemas 135
Gabarito 145
Referências 149
Apresentação
Os sons da fala constituem o primeiro aspecto que chama nossa atenção quando nos depara-
mos com uma língua qualquer ou com um dialeto de nossa própria língua, mas diferente daquele 
que falamos. Despertam nosso interesse seja por sons cuja pronúncia varia relativamente à nossa 
própria pronúncia, seja por sons “diferentes” daqueles de nossa língua e que existem em uma lín-
gua estrangeira que nos propomos a aprender, seja ainda por diferenças na prosódia, que fazem 
uma língua ou um dialeto parecerem mais ou menos “cantados” do que nossa língua ou nosso 
dialeto. Quem nunca reparou no “s” chiado de um carioca, ou no “r” retroflexo, ainda insistente e 
inapropriadamente chamado caipira, de paulistas, mineiros, paranaenses, ao pronunciarem uma 
palavra como porta? Quem nunca se deparou com o “th” do inglês, e a dificuldade inicial de pro-
nunciá-lo, assim como com o “r” vibrante do espanhol, em palavras como rato?
Pois bem, a Linguística – grosso modo definida como a ciência da linguagem – ao abordar 
seu objeto de estudo, enfoca partes dele sob o argumento de que a compreensão das partes pode 
levar à compreensão do todo. Por isso, estabelece disciplinas várias, cada uma voltada para um 
aspecto específico da linguagem.
O nível sonoro da linguagem, entretanto, é contemplado por duas disciplinas: a fonética e 
a fonologia. O que muda de uma para outra é o recorte que se faz da metodologia que se segue 
para abordá-lo. Este livro foi, então, elaborado de modo a apresentar o objeto e a metodologia de 
análise, tanto da fonética como da fonologia. Assumimos em princípio a distinção entre as duas 
disciplinas – herança ainda do estruturalismo linguístico que se mantém no cenário atual – por 
uma questão didática: consideramos que, dessa maneira, a exposição ficaria mais acessível do que 
se assumíssemos uma outra perspectiva, mais recente, que considera não haver a dissociação entre 
fonética e fonologia, o que implica tratar todos os aspectos sonoros das línguas em um mesmo e 
único nível, o fônico.
Para apresentar o objeto e a metodologia de análise da fonética, recorremos inicialmente 
a uma fonética articulatória impressionística, ou seja, que envolve a conscientização sobre os ar-
ticuladores acionados para produzir um determinado som da fala. Em seguida, apresentamos a 
metodologia de análise da fonética acústica, que se tem difundido no Brasil nas últimas décadas, e 
requer essencialmente que aprendamos a “ver” os sons. É esse aprendizado que tentamos construir, 
relacionando o tempo todo o dado acústico ao dado articulatório, como objetiva a Teoria Acústica 
de Produção da Fala (FANT, 1960), modelo que fundamenta nosso procedimento analítico.
1
Como a Linguística estuda os sons da fala?
1.1 Do que trata a Fonética?
Se recorrermos à etimologia da palavra fonética, veremos que ela vem do 
grego phonetikós e quer dizer “conhecimento do som” (HOUAISS, 2009). É preciso 
notar, entretanto, que a Fonética não se ocupa do conhecimento de qualquer som: 
não lhe interessa estudar os ruídos de caminhões que trafegam pela rua ou os de 
aparelhos domésticos. Interessa-lhe estudar os sons produzidos pelo aparato vocal 
dos seres humanos. Como consequência desse objetivo mais geral, a Fonética estabelece diálogos 
muito profícuos com diferentes áreas. Assim, há uma grande interface entre Fonética e música, 
que permite investigar, por exemplo, semelhanças e diferenças entre os sons produzidos pela fala 
e pelo canto. Cabe adicionar, inclusive, que alguns foneticistas renomados, como os suecos Björn 
Lindblom e Johan Sundberg, são músicos de formação. Aqui no Brasil, a professora Beatriz Raposo 
de Medeiros (USP) estuda há alguns anos a produção dos sons na fala e no canto, verificando se-
melhanças e diferenças entre as produções nas duas modalidades.
Além da música, a Fonética conversa de maneira próxima com a Medicina, notadamente 
com a Fonoaudiologia, que se vale dos estudos desse ramo da linguística para descrever e estudar a 
produção dos sons decorrentes de variadas patologias da fala. A Fonética, por sua vez, se vale dos 
desafios que a fala patológica apresenta: sons produzidos por indivíduos portadores de patologias 
de fala diferem dos sons default (padrão) de uma língua. Portanto, descrever, analisar e explicar a 
produção dos sons nessa condição especial permite compreender melhor os mecanismos de pro-
dução da fala.
As interfaces entre Fonética e outras áreas do conhecimento não param aí: do diálogo com 
a Psicologia surgem estudos sobre a aquisição dos sons de uma língua por crianças falantes nativas 
dessa língua; investigações sobre a maneira como a fala é processada, desde seu planejamento até a 
sua enunciação propriamente; e ainda estudos sobre a percepção dos sons da fala: como ela acon-
tece e como ela se relaciona à produção dos sons.
A conversa entre Fonética e as áreas de Computação e Engenharia Elétrica fez surgir uma 
área que recebeu o nome de Ciência e tecnologia da fala. A partirda parceria entre engenheiros e 
linguistas, pode-se ensinar uma máquina a falar, ou seja, podem-se construir sistemas de síntese 
de fala. É igualmente possível construir sistemas de reconhecimento de fala, por meio dos quais o 
sistema atende a comandos do usuário.
Recentemente, dispositivos de automação residencial têm usado sistemas de reconhecimen-
to e síntese de fala conjugados, é o caso do Google Home1. Outro dispositivo semelhante, desen-
1 Você pode conhecer o Google Home acessando: https://www.youtube.com/watch?v=LnC72JqRVfc&t=46s. Acesso 
em: 10 dez. 2018.
Vídeo
Língua Portuguesa I: Fonética e Fonologia10
volvido pela empresa norte-americana Amazon é o Alexa, que você pode conhecer aqui. Ambos 
os sistemas estão sendo desenvolvidos para o português e podem ser muito úteis para pessoas com 
necessidades especiais, como os cegos.
Outra interface possível ocorre entre a Fonética e o Direito: utiliza-se a análise acústica 
dos sons da fala para fins periciais, por meio de um procedimento conhecido como identifica-
ção de locutor, que consiste, basicamente, no confronto entre gravações de áudio, para verificar 
se os locutores das gravações confrontadas são de uma mesma pessoa ou se são de pessoas 
distintas. Para essa tarefa, além das propriedades acústicas dos sons da fala, outros traços lin-
guísticos idiossincráticos devem ser considerados, como certas escolhas lexicais, que levam ao 
uso recorrente de uma palavra.
Mais recentemente, em razão da onda migratória que o Brasil vive, a Fonética estabelece 
laços novos com o ensino de línguas, em virtude do fortalecimento de uma área que, até há bem 
pouco tempo, era incipiente no país: o ensino de português para estrangeiros. Há muito o que 
avançar nessa área, mas cabe dizer que a Fonética tem um papel importante nesse processo, porque 
é preciso ensinar a um falante nativo de árabe, por exemplo, que o português faz distinção entre os 
sons iniciais de palavras como pote e bote, e a um falante nativo de crioulo haitiano que o português 
distingue os sons consonantais em sequências como ela e era.
No entanto, é importante pensar em estratégias para ensinar os estrangeiros a produzirem 
essas diferenças, considerando-se que as dificuldades de falantes de uma dada língua estrangeira 
– como o árabe – não são necessariamente as mesmas dificuldades que falantes de outra língua 
estrangeira têm ao adquirir português.
Como deve ter ficado claro nessa breve exposição, a interlocução da Fonética com áreas 
diversas é grande, mas, para a Linguística, a Fonética tem um objetivo bem específico: investigar 
os sons da fala que, concatenados a outros, formam unidades, como sílabas e palavras. À Fonética 
cabe igualmente descrever, estudar e explicar a “melodia” da fala, isto é, a prosódia, com o intuito 
de associar um determinado padrão entoacional a um tipo específico de enunciado.
Considere uma pergunta como: Você foi ao cinema ontem? Ela admite apenas duas respostas: 
sim ou não. Considere agora outra pergunta: Quando você vai ao cinema? Embora essa também 
seja uma pergunta, ela admite várias respostas possíveis. Os foneticistas, que estudam a entonação 
do português brasileiro, mostram-nos que a “melodia” associada ao nosso primeiro exemplo é 
diferente da associada ao segundo.
É importante considerar que os objetivos da Fonética na Linguística se relacionam com os 
objetivos da Fonologia, outra disciplina da Linguística que toma os sons da fala como objeto de 
estudo, mas com outro enfoque que abordaremos mais adiante.
Na verdade, é impossível fazer Fonologia sem Fonética – e vice-versa – e nisso têm insistido 
vários autores, como John Ohala (1990) ou John Kingston (2007). Os trabalhos deste último autor, 
inclusive, originaram, em conjunto com trabalhos de Mary Beckman, uma vertente metodológi-
ca chamada Fonologia de laboratório. Essa vertente preconiza que as representações propostas no 
Como a Linguística estuda os sons da fala? 11
nível fonológico devem ser testadas por meio de dados experimentais, fonéticos, portanto2. Essa 
perspectiva metodológica tem se disseminado consideravelmente desde que foi proposta e, hoje, 
como resultado, não se concebe estudar uma sem a outra.
Entretanto, nem sempre foi assim, o estruturalismo linguístico se encarregou de estabelecer 
uma fronteira muito grande entre as duas disciplinas, em grande parte por inspiração de Nikolai 
Trubetzkoy, o eminente linguista russo, que em seu clássico Princípios de fonologia3, afirma que o es-
tudo dos sons pertencentes à fala e que se ocupa de fenômenos físicos concretos deverá usar métodos 
das ciências naturais, enquanto o estudo dos sons que pertencem a sistemas linguísticos deverá uti-
lizar apenas os métodos linguísticos, das ciências humanas ou das ciências sociais, respectivamente. 
Designamos o estudo dos sons da fala pelo termo fonética e o estudo dos sons pertencentes a um 
sistema linguístico pelo termo fonologia4 (TRUBETZKOY, 1964, p. 4, tradução nossa).
Essa visão, adotada por muitos estruturalistas como Roman Jakobson e Kenneth Lee Pike, 
relegou a Fonética a um plano secundário nos estudos linguísticos, pois preconizava um distan-
ciamento dela em relação à Linguística, ao mesmo tempo em que a aproximava das ciências ditas 
naturais, como a Física ou a Fisiologia. Como decorrência, inaugurou-se uma forte dissociação 
entre essas duas áreas. Segundo a concepção estruturalista, a Fonética passou a ser concebida como 
a disciplina que estuda os sons da fala sob os aspectos articulatório, acústico e perceptual – essa 
definição ainda se encontra em manuais introdutórios da área. Fique claro que a Fonética de fato 
estuda os aspectos articulatórios, acústicos e perceptuais concernentes aos sons da fala, mas não só 
isso: as caracterizações acústicas e articulatórias e as investigações relacionadas à maneira como os 
indivíduos percebem os sons de sua língua são o ponto de partida para responder a outras ques-
tões, por exemplo:
• quais sons constituem o inventário fônico5 de uma determinada língua?
• que características são comuns a alguns desses sons e, portanto, possibilitam seu agrupa-
mento em uma mesma classe?
• como e por que alguns sons de uma dada língua têm algumas de suas características alte-
radas em função do ambiente em que ocorrem?
• quais são os aspectos dos sons necessários para se atribuir um significado ao que está 
sendo dito?
2 Para saber mais sobre a Fonologia de Laboratório, o leitor pode recorrer ao capítulo homônimo na obra Fonologia, 
fonologias: uma introdução, organizado por Dermeval da Hora e Carmen Lúcia Matzenauer. São Paulo: Contexto, 2017.
3 Originalmente escrito em alemão, sob o título Grundzüge der phonologie, cuja primeira edição data de 1939, tornou-se 
um clássico e é o primeiro – desde o surgimento da ciência linguística, em 1916 – a expor objetivos e métodos da fono-
logia.
4 Lê-se, no original: “[…] the study of sound pertaining to the act of speech, which is concerned with concrete physical phe-
nomena, would have to use the methods of the natural sciences, while the study of sound pertaining to the system of language 
would use only the methods of linguistics, or the humanities, or the social sciences respectively. We designate the study of 
sound pertaining to the act of speech by the term ‘phonetics’, the study of sound pertaining to the system of language by the 
term ‘phonology’” (TRUBETZKOY, 1964, p. 4).
5 O termo fônico tem um caráter mais neutro que os termos fonético e fonológico e acaba abarcando a ambos, em 
modelos dinâmicos de produção da fala, como a fonologia articulatória (BROWMAN; GOLDSTEIN, 1992).
Língua Portuguesa I: Fonética e Fonologia12
A resposta a essas perguntas acaba estabelecendo – inevitavelmente – uma relação muito 
íntima entre Fonética e Fonologia, o que como consequência nos faz retomar a visão de fonólogos 
como John Ohala e John Kingston de que é impossível dissociar essas duas disciplinas. Essa ver-
tente encontra uma versão mais radical em modelos comoa fonologia articulatória (BROWMAN; 
GOLDSTEIN, 1992) e a fonologia acústico-articulatória (ALBANO, 2001): nesses modelos, ditos 
dinâmicos, a tese central é a de que a dissociação entre Fonética e Fonologia não existe, uma vez 
que é possível dar conta dos fatos fônicos de uma língua mediante um arcabouço baseado em uma 
unidade de análise ao mesmo tempo simbólica e numérica, portanto fonológica e fonética.
Quer adotemos essa visão mais recente que associa Fonética e Fonologia, quer adotemos 
uma outra visão menos recente e que dissocia as duas disciplinas, o ponto de partida é exatamente 
o mesmo: precisamos entender como produzimos os sons da fala.
Para tanto, é possível enfocar a fala humana sob três aspectos diferentes:
1. articulatório;
2. acústico; e
3. perceptual (ou auditivo).
O estudo dos sons da fala sob o aspecto articulatório, fonética articulatória, visa explicar, 
por exemplo, como as pessoas utilizam órgãos como lábios, língua ou laringe, assim como os mo-
vimentos ou posições da língua e outras partes da boca que se diferenciam quando pronunciamos 
diferentes sons.
Estudar os sons da fala sob o aspecto acústico, isto é, fonética acústica, requer a observação 
dos atributos físicos desses sons, como frequência, intensidade e duração, atributos esses que, ao 
mesmo tempo em que caracterizam um determinado som da fala, tornam-no distinto dos demais.
A abordagem dos sons da fala considerando os aspectos perceptuais, chamada fonética au-
ditiva, por sua vez, tem por objetivo explicar como se dão os processos psicológicos pelos quais 
as pessoas percebem a fala, ou seja, como o cérebro utiliza vários traços e características de um 
“pedaço” de um som para reconstruir a imagem fônica pretendida pelo falante.
É importante observar que, apesar de cada uma das áreas mencionadas anteriormente se 
preocupar com um aspecto específico envolvido na produção dos sons da fala, os aspectos arti-
culatórios, acústico e auditivo estão intrinsecamente relacionados. Afinal, as mudanças de con-
figuração do trato acarretam, em última instância, formas de onda com frequências distintas. 
E as diferenças articulatórias e acústicas, por sua vez, fornecem diferentes pistas para que o ouvinte 
perceba, por exemplo, um som como [i], e não como [a]. Assim, ressaltamos que a dissociação 
entre os três aspectos, que faremos nas seções seguintes, obedece a fins estritamente expositivos.
Como a Linguística estuda os sons da fala? 13
Mas o primeiro passo nos estudos de Fonética é responder à questão que colocávamos ante-
riormente: como produzimos os sons da fala? Vamos a ela, então!
1.2 O ciclo de produção da voz
Para entender como a voz humana é produzida, podemos partir de uma ana-
logia entre esse processo e a produção de sons por meio de instrumentos musicais 
de sopro, como a flauta. Quando o músico sopra pelo bocal da flauta, são emitidas 
correntes de ar que se deslocam pelo interior do instrumento. Mas só soprar pelo 
bocal da flauta não é suficiente para fazê-la produzir sons diferentes. Para isso, o 
músico periodicamente fecha com os dedos alguns orifícios no corpo da flauta, ao mesmo tempo 
em que deixa outros abertos, permitindo a passagem do fluxo de ar por eles e pelo pé da flauta. A 
alternância periódica entre obstrução/liberação dos orifícios modula as correntes de ar no interior 
do corpo da flauta e produz ondas sonoras de diferentes formatos e comprimentos, por meio das 
quais o som da flauta com frequência e amplitude se tornam detectáveis pelos nossos ouvidos. Por 
isso dizemos que, no caso da flauta, a corrente de ar é a fonte sonora.
Mas como esse exemplo se relaciona à produção dos sons da fala? Na verdade, o processo de 
fonação, por meio do qual a voz humana é produzida, é bastante semelhante à produção do som 
da flauta. No caso da voz, dizemos que a fonte sonora é a laringe, porque é nela que se localizam as 
pregas vocais6, que, ao vibrar, dão início à produção dos sons da fala.
A fonação acontece sempre durante a expiração, porque para promovermos a vibração das 
pregas vocais utilizamos parte do volume de ar armazenado nos pulmões. Daí a impossibilidade de 
o ser humano falar durante a inspiração.
Durante a inspiração, o diafragma –músculo responsável pela respiração humana, que se 
localiza entre as cavidades torácica e abdominal – contrai-se, reduzindo a pressão intratorácica. 
Essa manobra facilita a entrada de ar nos pulmões. Quando o volume de ar nos pulmões atinge 
seu máximo, o diafragma relaxa, aumentando a pressão intratorácica facilitando a expulsão do ar 
dos pulmões. O ar egresso dos pulmões passa pela traqueia e chega até a glote, um espaço entre as 
pregas vocais, localizada no alto da laringe. Ao chegar nela, o ar encontra as pregas vocais aduzidas, 
isto é, fechadas, obstruindo a passagem do ar nesse ponto.
Veja na Figura 1 o caminho que a corrente de ar percorre desde que o ar é expelido dos pul-
mões até o momento em que chega à traqueia.
6 Preferimos essa nomenclatura a cordas vocais porque, como bem frisa Mota Maia (1986, p. 36), cordas vocais “é um 
termo problemático, porque sugere serem cordas o que, na realidade, é uma válvula constituída por membranas, múscu-
los e ligamentos”.
Vídeo
Língua Portuguesa I: Fonética e Fonologia14
Figura 1 – Órgãos do sistema respiratório por onde o ar se propaga até chegar à laringe.
Palato
Língua
Epiglote
Laringe
Pregas vocais 
Traqueia
O
rt
is
a/
Jm
ar
ch
n/
W
ik
im
ed
ia
 C
om
m
on
s
No momento em que o ar chega à glote, a pressão dele na cavidade inferior a esse órgão 
(cavidade subglótica) é bem maior que a pressão do ar na porção do trato que fica acima da glote 
(cavidade supraglótica). Desse modo, em um mecanismo que visa estabelecer um equilíbrio da 
pressão do ar nas duas cavidades, o ar força a passagem por entre as pregas vocais, que se localizam 
na porção superior da glote e que, quando o ar chega até elas, estão aduzidas (juntas).
Como resultado desse processo, as pregas se afastam – constituindo o que em fisiologia se 
denomina movimento de abdução das pregas – e o ar pode se propagar entre elas. Assim que o ar 
passa pelas pregas vocais, a pressão subglótica diminui – concomitantemente ao aumento da pres-
são supraglótica. Devido a isso, as pregas se aproximam novamente, constituindo um “movimento 
de adução”, por meio do qual a passagem do ar entre elas é bloqueada7. Dá-se, então, início a um 
novo ciclo de produção da voz. A Figura 2a ilustra as pregas vocais em dois momentos: respiração 
e momento imediatamente precedente ao início do processo de fonação. A figura 2b, por sua vez, 
ilustra um desses ciclos.
7 A título de esclarecimento, o volume de ar necessário para o processo de fonação é bem maior do que o volume de 
ar que utilizamos na respiração. Para se ter uma ideia, durante a expiração liberamos aproximadamente 1 litro de ar (o 
volume de ar liberado por homens, durante o processo, é maior do que o liberado por mulheres). Por outro lado, para pro-
movermos o afastamento das pregas e darmos início à fonação, precisamos de aproximadamente 4 litros de ar, conforme 
mostram Gick, Wilson e Derrick (2013).
Como a Linguística estuda os sons da fala? 15
Figura 2a – Estado das pregas vocais durante a inspiração e no momento imediatamente precedente ao 
início da fonação. Nesta figura as pregas vocais são vistas de cima.
Pregas vocais abertas durante a respiração 
permitem que o fluxo de ar se propague 
para os pulmões.
Pregas vocais fechadas durante a fala. O ar egres-
so dos pulmões faz com que se afastem, promo-
vendo sua vibração e, consequentemente, som.
is
to
ck
_s
ho
pp
e/
iS
to
ck
ph
ot
o
Figura 2b – Movimentos de adução e abdução das pregas vocais, vistas de frente.
Traqueia
Falsas 
pregas 
vocais
Epiglote
1
4
2
5
3
6
Pregas 
vocais
IE
SD
E 
Br
as
il 
S.
A.
É preciso ficar claro que a fonação só é possível graças à grande elasticidade das pregas vo-
cais, constituídas de tecido muscular e que medem alguns poucos centímetros– cerca de 1,75 cm 
a 2,5 cm para homens e de 1,25 cm a 1,75 cm para mulheres, de acordo com Titze (1994). Devido 
à elasticidade das pregas vocais, os movimentos de adução e abdução se repetem muitas vezes, 
periodicamente, fazendo as pregas vibrarem8. No momento em que as pregas vibram, produz-se a 
voz, também denominada tom laríngeo. Inevitável, novamente, a analogia com a música: como um 
som musical, a voz é igualmente produzida por vibrações periódicas, e nisso ambos – som musical 
e voz – se distinguem do ruído, que é aperiódico.
O resultado do processo de fonação, o tom laríngeo, é um só para todos os sons da fala que 
têm a laringe como fonte sonora9. Isso quer dizer que, no momento em que a voz é produzida, não 
há distinção entre os sons da fala. Entretanto, sabemos da diversidade deles. Como, então, são 
8 Para ver as pregas vocais vibrando, acesse: https://www.youtube.com/watch?v=9Tlpkdq8a8c. Data de acesso: 10 dez. 
2018. Há, ali, o registro de uma estroboscopia, exame por meio do qual é possível observar a ação das pregas vocais, geral-
mente utilizado por otorrinolaringologistas, quando desejam verificar se há alguma anormalidade na ação das pregas.
9 Na verdade, alguns sons, como [s], têm o ruído como fonte sonora, que se sobrepõe ao tom laríngeo.
vibrações 
periódicas: vibra-
ções que se repetem 
regularmente em um 
espaço de tempo.
Língua Portuguesa I: Fonética e Fonologia16
produzidos os diversos sons da fala? Como veremos, isso se dá em razão das diferentes configu-
rações assumidas pelo trato vocal. Descrever essas diferenças assumidas pelas várias estruturas do 
trato vocal, explicando como cada som é produzido, é tarefa que cabe à fonética articulatória, área 
da qual começaremos a tratar em seguida. Você deve ter notado, aliás, que, para abordarmos a pro-
dução da voz, recorremos a considerações de ordem articulatória, bem como de ordem acústica. 
Daqui em diante, tentaremos separar essas considerações, embora por razões meramente expositi-
vas, na prática, o que se busque seja justamente a associação das diversas informações.
1.3 Fonética articulatória
Antes de abordarmos este tópico, cabe um esclarecimento: a fonética articu-
latória é feita com o auxílio de equipamentos. No começo do século XX, tinha-se à 
disposição aparelhos de raios X. À medida que a tecnologia avança, surgem novas 
técnicas, como a eletromiografia, a eletropalatografia e, mais recentemente, a ultras-
sonografia. Desse modo, as considerações apresentadas nesta seção são baseadas em 
estudos de autores que se valeram de técnicas como as mencionadas para elencar os articuladores 
do trato vocal, para descrever a produção dos sons da fala e o papel de cada articulador nessa tarefa.
1.3.1 O trato vocal
Chamamos de trato vocal a região que se estende desde a laringe até os lábios e fossas nasais 
e que é constituída de várias estruturas ao longo da cabeça e do pescoço. Apresentamos a seguir 
uma figura esquemática do trato vocal.
Figura 3 – Estruturas que constituem o trato vocal.
Alvéolos
Porção frontal
Dentes
Porção posterior
Cavidade nasal
Palato (duro)
Lábios
Ponta
Lâmina
Faringe
Língua 
Véu Palatino
Laringe
Úvula
Esôfago
Epiglote
Pregas vocais
Traqueia
IE
SD
E 
Br
as
il 
S.
A.
Raiz da 
língua
Vídeo
Como a Linguística estuda os sons da fala? 17
A Figura 3 apresenta todas as estruturas anatômicas que são usadas para produzir sons da 
fala, à exceção do esôfago e da traqueia.
É preciso acrescentar uma observação que, até este ponto, não havíamos feito: como você 
deve ter notado, o trato vocal e os articuladores não são exclusivos para a produção dos sons da 
fala. Explicando melhor: o corpo humano tem sistemas de órgãos dedicados a funções específicas. 
Assim, em linhas gerais, o sistema circulatório, por exemplo, é constituído de coração, veias, arté-
rias, vasos linfáticos e tem como tarefa levar oxigênio às células do corpo humano, coletando gás 
carbônico e outras excretas. O sistema nervoso, por sua vez, é constituído por estruturas como o 
encéfalo, a medula espinhal, neurônios e nervos e é responsável pela transmissão de impulsos que 
coordenam ações voluntárias e involuntárias de todo o corpo humano.
Não existe, por outro lado, um sistema responsável unicamente pela produção dos sons da 
fala. A tarefa de falar é desempenhada por órgãos que pertencem ao sistema respiratório e ao sis-
tema digestório e que se especializaram para realizarem uma tarefa adicional. Autores como Peter 
MacNeilage (2018) argumentam que a fala é o resultado de uma adaptação evolutiva pela qual 
passou a espécie humana ao longo de sua história. Como parte desse processo evolutivo, que permitiu 
à espécie humana desenvolver a fala, a adaptação de órgãos de sistemas diversos para a articulação 
de sons foi fundamental.
Mas por que só os humanos falam? Por que nem mesmo outras espécies evolutivamente 
próximas da nossa, como os macacos, têm fala? Ou, colocando de modo mais preciso: por 
que outras espécies não têm fala constituída de sons parecidos com aqueles que formam a fala 
humana? Até há pouco tempo, os estudiosos argumentavam que, além da estrutura do cérebro, 
a localização da laringe poderia ter impacto sobre a produção dos sons. Entretanto, em 2016, 
Fitch, de Boer, Mathur e Ghazanfar publicaram um artigo no qual relatam que o trato vocal 
de macacos é mais flexível do que se pensava e que as limitações para a produção da fala são 
provavelmente causadas pela organização neuronal e pelo tamanho do cérebro dos macacos. 
Os autores chegaram a essa conclusão por meio do exame do trato vocal de macacos, utilizando 
raios X. Esse exame possibilitou o modelamento computacional de um trato vocal desses animais. 
O modelamento, por sua vez, evidencia que os macacos conseguiriam produzir facilmente 
vários sons de fala diferentes. Os autores elaboraram, inclusive, amostras de fala sintética desses 
animais10. Aparentemente, portanto, a resposta à pergunta colocada no início deste parágrafo é: 
o cérebro da espécie humana percorreu um caminho diferente do cérebro de outras espécies, e 
esse fato é que possibilitou aos humanos falarem.
Voltando à questão que colocávamos ao final da seção 1.2, relativa à maneira como são 
produzidos os diferentes sons da fala, e voltando à discussão que iniciamos ao abrir esta seção, os 
responsáveis por produzir diferentes sons da fala, a partir do tom laríngeo – que é produzido pela 
vibração das pregas vocais e é indistinto – são os articuladores do trato.
10 Você pode ouvir esses sons acessando o seguinte link: https://medienportal.univie.ac.at/presse/aktuelle-pressemel-
dungen/detailansicht/artikel/why-cant-monkeys-speak/. Acesso em: 10 dez. 2018.
Língua Portuguesa I: Fonética e Fonologia18
Na sequência, expomos cada um deles, com uma breve descrição sobre sua estrutura e fun-
cionamento, e oferecemos exemplos de sons produzidos por intermédio da ação deles. A ordem de 
exposição obedecerá à sequência anatômica dos articuladores, desde a laringe até os lábios.
1.4 Articuladores do trato
• Laringe
Localizada na porção superior da traqueia, a laringe é constituída principalmente 
de cartilagens e músculos e é o canal que conecta o nariz e a boca com a traqueia e, 
consequentemente, os pulmões. Em sua porção superior, encontram-se as pregas 
vocais – duas tiras de músculos esticadas transversalmente em relação ao ar egresso 
dos pulmões. A Figura 3a ilustra a laringe e as pregas vocais.
Figura 3a – Laringe
IE
SD
E 
Br
as
il 
S.
A.
Osso hioide
Membrana 
tireo-hióidea
Cartilagem 
tiroide
Cartilagem 
cricoide
Traqueia
Vista externa
IE
SD
E 
Br
as
il 
S.
A.
Prega 
ventricular
Epiglote
Traqueia
Cartilagem 
corniculada
Vista interior
Como nós já sabemos, as pregas vocais são responsáveis pela produção da voz, ou 
tom laríngeo.
Além disso, na laringe podem ser articulados alguns sons. Assim, se mantemos as pregas 
vocais próximas, esticadas, permitindo a passagem de ar por entre elas, produzimos sons comoaqueles que iniciam palavras do inglês como house, ou help. Não é só o inglês que tem sons produ-
zidos na laringe: línguas semíticas, como o hebraico, contêm sons produzidos por ela. O próprio 
português brasileiro tem sons produzidos na laringe, pelas pregas vocais. Trata-se de uma variante 
do som de <r> que pode ocorrer no início de palavras como rato.
• Epiglote
Os órgãos utilizados na produção dos sons da fala são os mesmos empregados na respira-
ção e na deglutição; porém, como sabemos, é impossível falarmos e engolirmos ao mesmo 
tempo – engasgamos porque ambos, o ar e a comida, passam acidentalmente pela laringe 
e, por uma questão de sobrevivência, é preciso fazer com que o bolo alimentar retome 
seu percurso pelo sistema digestivo. Por isso, é necessário haver alguma estrutura que 
impeça água e comida de seguirem pela laringe e os demais órgãos do sistema respiratório 
Vídeo
Como a Linguística estuda os sons da fala? 19
enquanto falamos. Essa estrutura é a epiglote, uma pequena cartilagem localizada logo 
acima da laringe e das pregas vocais e que se fecha quando deglutimos, impedindo assim 
que o bolo alimentar siga para a laringe e direcionando-o, através do esôfago, ao sistema 
digestório. A epiglote humana não toca o véu palatino, mas em outros mamíferos a epi-
glote e a laringe formam uma oclusão estreita com abertura para a cavidade nasal. Isso 
possibilita, a esses mamíferos, beber e respirar ao mesmo tempo porque a água (ou a co-
mida) passa ao redor da laringe, no esôfago, sem o risco de cair no conduto do fluxo de ar. 
A Figura 3b traz uma ilustração da epiglote.
Figura 3b – Epiglote
Epiglote
Corpo do 
osso hioide 
Cartilagem 
tiroide
Cartilagem 
cricoide
Cartilagens 
da traqueia
IE
SD
E 
Br
as
il 
S.
A.
Epiglote
Cartilagem 
aritenoide
Corpo do osso 
hioide 
Prega vestibular
Cartilagem 
tiroide
Ligamento 
cricotiroide
Ligamento 
cricotraqueal
Cartilagem 
cricoide
Cartilagens 
da traqueia
IE
SD
E 
Br
as
il 
S.
A.
A epiglote também pode ser utilizada para a produção de alguns sons que utilizamos na 
fala, mas como pontuam Ladefoged e Maddieson (1996), são sons raros, empregados em poucas 
línguas no mundo. De acordo com Catford (1983 apud LADEFOGED; MADDIESON, 1996), um 
som realizado na epiglote é produzido “com a epiglote dobrada para traz e para baixo, promovendo 
uma constrição, ou obstrução epigloto-aritenoidal11”.
• Faringe
É o espaço aberto entre a úvula e a laringe. Um traço que distingue crucialmente essa 
cavidade nos humanos, relativamente a outras espécies animais, é que a parede frontal da 
faringe na cavidade oral é formada pela porção posterior – ou raiz – da língua. A língua é 
uma estrutura extremamente móvel, decorrendo desse fato a possibilidade de uma grande 
variação na forma e no tamanho da faringe.
A Figura 3c traz uma ilustração da faringe. A título de esclarecimento, cabe mencionar 
que embora anatomicamente se reconheçam três “partes” da faringe, aquela que nos inte-
ressa, ao estudar a produção dos sons da fala, é a orofaringe. É a ela que as considerações 
desta seção se referem.
11 No original: “may be produced by the epiglottis actively folding back and douwn to produce an epiglotto-arytenoydal cons-
triction, or closure” (LADEFOGED; MADDIESON, 1996, p. 37, tradução nossa).
Língua Portuguesa I: Fonética e Fonologia20
Figura 3c – Faringe
Nasofaringe
Orofaringe
Laringofaringe
IE
SD
E 
Br
as
il 
S.
A.
A atuação desse articulador para a produção dos sons da fala se dá pelo estreitamento ou 
alargamento do canal faríngeo, que se obtém pela retração ou pela projeção frontal da raiz da lín-
gua. Línguas como o árabe utilizam sons produzidos na faringe.
• Palato mole
Também denominado véu palatino – ou simplesmente véu –, é a parte do céu da boca 
formada por tecido, e não por osso que devido à sua estrutura móvel, pode ser abaixada. 
Quando isso acontece, há um alargamento da cavidade orofaríngea, ao mesmo tempo 
em que o fluxo de ar que passa pela cavidade oral diminui. Como resultado dessa mano-
bra articulatória, são produzidos sons nasais, como as duas consoantes e a vogal final da 
palavra manhã, por exemplo. Se o véu palatino não se abaixa, dizemos que ele está em 
repouso, e o resultado é a produção de sons da fala apenas na cavidade oral. A Figura 3d 
ilustra o véu palatino.
Figura 3d – Véu Palatino 
Pe
ar
so
n 
Sc
ot
t F
or
es
m
an
/W
ik
im
ed
ia
Co
m
m
on
s
PalatoVéu palatino 
Você deve ter notado, na região terminal do véu, na Figura 3d, um pequeno apêndice pendu-
rado, denominado úvula – ou, usando a nomenclatura popular, “campainha” –, outro articulador. 
Ao se mover repetidamente, para frente e para trás, a úvula produz um som de <r> a que chama-
mos vibrante e que ainda pode ser encontrado no francês. Se você quiser exemplos nítidos desse 
som, procure no Youtube por interpretações de canções francesas por Edith Piaf (1915-1963).
Como a Linguística estuda os sons da fala? 21
• Palato duro
Também denominado simplesmente palato, é a “abóbada do céu da boca” e se loca-
liza entre o palato mole e os alvéolos. A Figura 3d sinaliza a localização do palato no 
trato vocal.
Embora não seja um articulador móvel, já que se constitui de osso, no palato se produ-
zem sons como a vogal [i] ou a consoante que representamos, na escrita, por <lh>, e que 
ocorre em palavras como palhaço. Em ambos os casos, a língua se desloca em direção ao 
palato, tornando possível a produção desses sons.
• Alvéolos
É a região que se localiza entre o palato duro e os dentes da arcada superior, como se vê 
na Figura 3. Não é um articulador móvel como o palato, mas é nessa região – devido à 
ação da língua, que se move ao encontro dela – que se produzem vários sons consonantais 
do português brasileiro, como os sons iniciais de tapioca; dália; navio, sapo, zebra; lago e, 
ainda, as duas consoantes da palavra arara.
• Dentes
Igualmente articuladores não móveis, os dentes participam da articulação de sons como 
aqueles representados ortograficamente por <th>, no inglês, em palavras como thief. Para 
produzir esse som, a língua se eleva ao encontro dos dentes da arcada superior sem, no 
entanto, encostar neles.
• Lábios
Articuladores móveis, os lábios podem se projetar para frente, aproximando-se, o que 
lhes causa um efeito de arredondamento. Tome como exemplo a vogal inicial da palavra 
uva. O arredondamento é uma manobra articulatória que participa ativamente na distin-
ção de vogais em línguas como o francês ou o alemão. Além disso, os lábios envolvem-se 
na articulação de várias consoantes, como a que inicia a palavra fada.
• Mandíbula
A mandíbula é o osso que constitui o queixo e, como ela se liga por meio de diversos mús-
culos à língua, mais especificamente à parte chamada de “dorso”, ou “corpo” da língua, 
o movimento da mandíbula pode fazer com que a língua também se desloque, especial-
mente no sentido vertical. Esse deslocamento de mandíbula – e consequentemente do 
dorso da língua – constitui a manobra articulatória responsável pela distinção da abertura 
das vogais, isto é, pela distinção entre as vogais iniciais de uva e ovo, por exemplo.
• Língua
A língua é um dos articuladores mais importantes, devido à sua grande mobilidade e 
flexibilidade, que lhe permitem tocar várias outras estruturas do trato, o que resulta na 
formação de constrições típicas de muitas consoantes. Além disso, como podemos con-
trolar a elevação e o abaixamento da língua, no interior do trato vocal, pelo controle do 
movimento vertical da mandíbula, podemos produzir distinção entre as vogais, como a 
que existe entre o som inicial de ilha e o som inicial de ela. A língua também se desloca 
Língua Portuguesa I: Fonética e Fonologia22
facilmente para a porção frontal do trato vocal (do palato em direção aos lábios) e para 
a porção posterior do trato vocal (do palato em direção à laringe). Esse deslocamento 
possibilita articular distinções entre vogais. É o que acontece com as vogais iniciais daspalavras ilha e uva.
A literatura estabelece regiões distintas na língua, como nos mostra a Figura 4.
Figura 4 – Regiões da língua
centro
dorsolâmina
lábio
trás
raiz
LÍNGUA
ponta
Fonte: Ladefoged, 1975, p. 4.
Cada uma dessas regiões será responsável pela articulação de conjuntos distintos de 
sons. Assim, a ponta da língua, sua região mais frontal, participa da articulação de sons con-
sonantais, como o som grafado pela sequência <th> do inglês. A coroa da língua, a região 
imediatamente seguinte, é o articulador responsável pela produção de sons como os que ini-
ciam as palavras tapioca, dália, navio, sapo, zebra, lago. O dorso da língua, região de maior 
extensão desse órgão, é o principal responsável pela articulação dos sons vocálicos. Por fim, a 
raiz constitui a parede frontal da faringe, como já mencionado, e participa da articulação de 
sons posteriores, como o de algumas consoantes.
Atividades
1. Assinale a alternativa que completa corretamente a frase: O objeto de estudo da fonética (...)
a) confunde-se com o objeto de estudo de ciências naturais como a Medicina e, por isso, a 
fonética é uma disciplina secundária da Linguística.
b) consiste nos diversos sons que o ser humano é capaz de produzir, tanto os que constituem 
a fala, como assobios, tosses ou risos.
c) confunde-se com o objeto de estudo de ciências como a Física, porque interessa à fonéti-
ca investigar quaisquer sons, sejam humanos, sejam ruídos de máquinas.
d) consiste nos sons da fala, apenas, mas, pela maneira como são abordados, promove uma 
interface grande com outras áreas, inclusive externas à Linguística.
2. Assinale a alternativa que completa corretamente a frase: O ciclo de produção de voz 
(fonação) (...)
Como a Linguística estuda os sons da fala? 23
a) acontece durante a inspiração, porque o indivíduo precisa do ar que vai para os pulmões 
para fazer vibrar as pregas vocais.
b) acontece durante a expiração, utilizando o ar egresso dos pulmões e promove a vibração 
das pregas vocais.
c) estabelece-se como consequência de um mecanismo dinâmico de equilíbrio de pressão 
do ar no trato vocal.
d) acontece tanto durante a inspiração como durante a expiração, porque resulta do equilí-
brio da pressão do ar ingresso e egresso dos pulmões.
3. Assinale a alternativa que completa corretamente a frase: São articuladores do trato 
vocal (...)
a) palato mole, laringe e traqueia.
b) dentes, lábios e pulmões.
c) palato, alvéolos e língua.
d) mandíbula, úvula e vértebras.
2
Distinguindo os sons da fala: vogais
Sabemos que a produção da voz acontece durante o processo de fonação, quando as pre-
gas vocais vibram, como consequência dos seus movimentos alternados de abdução e adução. 
Sabemos também que o som produzido pela ação das vibrações das pregas, o tom laríngeo, é 
indistinto, ou seja, não é [a], [s] ou [i], por exemplo. A distinção entre os diversos sons da fala 
acontece no trato vocal, como resultado dos movimentos dos articuladores. O trato vocal, que 
se estende da laringe aos lábios e compreende a cavidade nasal, tem órgãos que utilizamos para 
produzir os sons da fala e aos quais chamamos de articuladores. São exemplos de articuladores 
os lábios, a língua e o véu palatino.
Tendo apresentado os articuladores do trato vocal no Capítulo 1, podemos agora começar a 
realizar uma das tarefas do foneticista, que é a de descrever como as pessoas utilizam esses articu-
ladores para produzir os sons da fala.
Em linhas gerais, podemos observar que os articuladores da porção inferior do trato – como 
língua ou lábio inferior – geralmente se movem ao encontro dos articuladores da porção superior – 
como alvéolos, palato ou lábio superior. Ao descrever esse movimento, os articuladores promovem 
o estreitamento do trato, diminuindo a dimensão do canal pelo qual o ar se propaga. Esse estreita-
mento forma “constrições”, cuja presença ou quase ausência determina uma distinção básica entre 
os sons da fala, que é a distinção entre consoantes e vogais.
Tente pronunciar uma palavra como papa, por exemplo. Observe que, durante a produção 
de [a], sua boca se encontra totalmente aberta, permitindo que o ar se propague livremente1 pelo 
trato vocal. Em contrapartida, durante a produção de [p], os lábios se aproximam maximamente, a 
ponto de se tocarem, obstruindo totalmente a passagem do ar pelo trato. Assim, podemos perceber 
que a produção das vogais praticamente não envolve constrição, fato que nos possibilita, inclusive, 
sustentar a produção desses sons por tanto tempo quanto o fôlego permitir. O som [p], por outro 
lado, não pode ser sustentado de maneira alguma. Conseguimos apenas prolongar o toque do lábio 
inferior e do lábio superior, mas essa manobra articulatória sozinha não é suficiente para produzir-
mos [p], como deverá ficar mais claro no Capítulo 3.
1 Ressaltamos que afirmar que as vogais são produzidas pela propagação livre do ar pelo trato, como fazem algumas 
gramáticas escolares ou como o texto faz, nesse momento, é uma grande simplificação. Afinal, as vogais envolvem 
constrição do trato, causada pelo deslocamento do dorso da língua, para cima ou para baixo, para frente ou para trás, 
relativamente à sua posição de repouso. Mas, comparativamente com a constrição que se forma para a articulação de 
qualquer consoante, a das vogais é mínima.
Língua Portuguesa I: Fonética e Fonologia26
Assim, em linhas gerais, os sons da fala produzidos pela ação de uma constrição significativa 
no trato vocal são as consoantes. Por outro lado, os sons que não envolvem constrição – ou quase 
nenhuma – são as vogais.
Além dessa diferença entre a articulação de consoantes e vogais, há outra, igualmente fun-
damental, que se relaciona à área do trato que utilizamos para produzir vogais: esses sons são 
produzidos em uma porção muito pequena do nosso aparelho fonador. Esta área abrange a região 
do palato e do véu palatino, apenas (a Figura 1 traz demarcada a região do trato utilizada para a 
produção de vogais.). As consoantes, por sua vez, como será exposto no capítulo a seguir, ocupam 
toda a extensão do trato para sua produção.
Figura 1 – Região do trato vocal utilizada na produção das vogais
palato véu palatino
Fonte: Elaborada pela autora com base em Ladefoged, 1975, p. 4.
Duas diferenças adicionais entre consoantes e vogais:
a. vogais são geralmente produzidas concomitantemente à vibração das pregas vocais. 
As consoantes, por outro lado, podem ser produzidas acompanhadas ou não de vibração 
das pregas vocais;
b. vogais podem ser produzidas concomitantemente ao arredondamento dos lábios. Essa 
manobra articulatória, aliás, pode distinguir sons vocálicos em línguas como o francês ou 
o alemão.
Mas como, afinal, produzimos os diferentes sons vocálicos? Como veremos a seguir, há mais 
estratégias além do arredondamento dos lábios que usamos para diferenciar os vários sons vocá-
licos entre si.
Distinguindo os sons da fala: vogais 27
2.1 Distinguindo as vogais entre si
Para dar conta da tarefa de distinguir os sons vocálicos entre si, os foneticis-
tas tomam três parâmetros articulatórios:
• grau de abertura da mandíbula, que se reflete na altura da língua no trato;
• posição ântero-posterior da língua no trato;
• arredondamento dos lábios.
2.1.1 Abertura da mandíbula
A mandíbula pode-se mover para baixo, relativamente à sua posição de repouso. Pode tam-
bém voltar à sua posição de repouso, a partir de uma posição de deslocamento máximo, o que 
requer que ela se mova para cima. Esse movimento vertical da mandíbula – ou sua abertura – é 
crucial para que se estabeleçam as diferenças entre os graus de abertura das vogais. Assim, por 
exemplo, a diferença fundamental entre [e] – em uma palavra como ele2 – e [ε] – em uma palavra 
como ela – é o fato de que [e] é produzida com a mandíbula mais fechada, ou mais alta, do que [ε]. 
A mesma observação vale para [i] e [e] ou para [u] e [o], assim como para [o] e [ɔ].
Note que o assoalho da língua se liga à mandíbula por meio de diversosmúsculos, conforme 
ilustra a Figura 2.
Figura 2 – Ilustração esquemática da língua e da mandíbula
Palatoglosso
Estilo-hioideo
Estiloglosso
Hioglosso
Processo Estiloide 
Língua
Mandíbula
GenioglossoGenio-hioideo
Osso Hioide
Frênulo lingual
IE
SD
E 
Br
as
il 
S.
A.
2 Observe que a vogal frisada nesse exemplo é aquela representada pela primeira ocorrência da letra “e”, que está ne-
gritada. A segunda ocorrência não foi sinalizada porque, como veremos mais adiante, ela representa um som ligeiramente 
diferente de [e].
Vídeo
Língua Portuguesa I: Fonética e Fonologia28
Como os dois órgãos estão ligados, obviamente quando a mandíbula se abaixa ou se levanta 
o dorso da língua acompanha esse movimento, abaixando-se ou levantando-se também.
As vogais produzidas com a mandíbula fechada são ditas fechadas ou altas. O termo alta – 
convém explicar – faz alusão à posição vertical do dorso da língua no interior do trato vocal. São 
vogais fechadas ou altas [i] e [u], por exemplo, como em ilha ou uva.
Se abrirmos um pouco a mandíbula, o dorso de língua abaixará ligeiramente, resultando 
dessa manobra as vogais semifechadas, como [e] e [o], como as vogais iniciais das palavras erro e 
ovo. Abrindo um pouco mais a mandíbula e, consequentemente, abaixando um pouco mais o dor-
so, teremos as vogais meio abertas, como [ε] e [ɔ], como em ela ou pó.
Finalmente, se abrirmos ainda mais um pouco a mandíbula, chegaremos à sua abertura má-
xima e, consequentemente, ao abaixamento máximo de dorso de língua. Dessa manobra resultam 
as vogais [a] e [ɑ]. Esta última vogal ocorre no inglês britânico em palavras como father.
Um rápido adendo: o português é uma das poucas línguas do mundo que utiliza quatro 
graus de abertura para diferenciar as vogais entre si. Isso coloca alguns problemas, de ordens diver-
sas: a teoria fonológica há tempos discute sobre qual seria a melhor maneira de representar esses 
graus de abertura da vogal. Por outro lado, falantes nativos de outras línguas, como o espanhol, por 
exemplo, tem problema em perceber e produzir distinções como a que fazemos em erro (substan-
tivo) e erro (1a. pessoa do singular do verbo errar).
2.1.2 Movimento sagital do dorso da língua
Outro parâmetro articulatório que caracteriza a produção das vogais é o movimento do dor-
so da língua no sentido sagital do trato, isto é, da posição anterior (próxima aos lábios) à posição 
posterior (próxima à glote). Lembre-se, entretanto, de que, quando nos referimos à produção das 
vogais, temos de considerar que o ponto mais frontal do trato que o dorso consegue alcançar cor-
responde à região do palato; o ponto mais posteriorizado que o dorso consegue alcançar, por sua 
vez, corresponde à região do véu palatino (conforme mostra adiante a Figura 3).
Nessa região, a linha constituída de pequenos pontinhos corresponde à posição mais alta 
e mais frontal que o dorso da língua consegue alcançar, portanto a posição que resulta na produ-
ção da vogal inicial da palavra ilha. A linha pontilhada menor corresponde à posição mais alta e 
mais posterior que o dorso da língua consegue, como na vogal inicial de uva. A linha pontilhada 
maior corresponde à posição mais baixa e frontal que o dorso atinge, durante a produção de uma 
vogal, como na vogal inicial de ato. Finalmente, a linha contínua representa a posição mais baixa 
e mais posterior que o dorso da língua alcança durante a produção de uma vogal, como no caso 
do primeiro som vocálico de father. Cabe acrescentar que o português não tem essa vogal em seu 
inventário de sons.
Distinguindo os sons da fala: vogais 29
Figura 3 – Trato vocal com os pontos máximos que o dorso da língua alcança para a produção das vogais.
i
a
u
ɑ
a
Fonte: Elaborada pela autora.
Considerando-se, assim, o movimento do dorso nessa dimensão sagital, podemos classificar 
as vogais em frontais3, ou seja, aquelas produzidas com o dorso maximamente projetado para fren-
te, portanto mais próximo do ponto palatal, como [i], [e] ou [ε].
As vogais produzidas com o dorso maximamente retraído, portanto na região do véu palati-
no, são chamadas posteriores. É o caso de [u], [o] e [ɔ].
Há, ainda, a possibilidade de que sejam produzidas vogais intermediárias a esses dois pontos 
extremos, isto é, nem anteriorizadas, nem posteriorizadas, mas centrais. É o caso, por exemplo, da 
vogal [a] no português brasileiro.
Ainda sobre a Figura 2, é preciso comentar, adicionalmente, que ela representa a posição 
do dorso da língua, no interior do trato vocal, requerida para a produção de cada uma das quatro 
vogais mencionadas. Não é obrigatório, porém, que o dorso sempre esteja naquelas posições exatas 
para que articulemos as vogais. Como qualquer atividade motora, a posição que os articuladores 
3 Por sugestão de um orientando de mestrado, o Mateus Dubiela, tenho usado, já há alguns anos, o termo frontal para 
me referir às vogais que a literatura fonética e fonológica de língua portuguesa insiste em rotular “anteriores”. Essa razão 
se justifica pelo fato de desfazer uma ambiguidade que o termo “anterior” enseja com os traços distintivos da fonologia 
gerativa. Ao desfazer a ambiguidade, desfaz-se, por conseguinte, a associação equivocada e comum entre o traço [ante-
rior] e vogais como [i] ou [e].
Língua Portuguesa I: Fonética e Fonologia30
ocupam durante a produção dos sons da fala pode variar ligeiramente entre falantes de uma mes-
ma língua. Pode até variar na fala de um mesmo indivíduo. Para tentar deixar mais claro esse pon-
to, pense na tarefa motora de caminhar: nós sabemos que, para caminhar, é preciso colocar um pé 
em frente ao outro, mas não em fila. Eles têm de estar paralelos. Sabemos também que precisamos 
alternar o pé que fica na frente. Desse modo conseguimos nos deslocar. Ou seja, nós temos uma 
“imagem mental” da posição que os pés têm de ocupar para que possamos andar. Mas pode acon-
tecer que duas pessoas posicionem os pés em ângulos ligeiramente diferentes, ao pousarem-no, 
quando alternam o movimento com o outro pé. Ainda assim, ambas as pessoas caminharão.
O mesmo acontece com as vogais e a posição do dorso ilustrada na Figura 2: temos ali uma 
representação da posição aproximada que o dorso da língua tem de ocupar para produzir, por 
exemplo, a vogal inicial de ilha.
É como se os pontos daquela figura fossem pontos de referência para a articulação das vogais 
– as quatro vogais da Figura 2, aliás, são as vogais “extremas”, justamente porque são produzidas 
no ponto máximo que o dorso da língua consegue alcançar para cima e para a frente, para baixo e 
para a frente, para cima e para trás, para baixo e para trás. Podemos dizer, por isso, que as quatro 
vogais da Figura 2 são análogas aos pontos cardeais, no sentido de que servem de orientação espa-
cial sobre o deslocamento do dorso da língua.
2.1.3 Alturas intermediárias do dorso da língua
Na seção “2.1.1 Abertura da mandíbula” abordamos o movimento vertical da mandíbula 
e, consequentemente do dorso da língua, que resulta nos diferentes graus de abertura das vogais.
Assim, dizemos que as vogais iniciais das palavras ilha e uva são fechadas, ou altas, porque 
são produzidas com a mandíbula muito próxima de sua posição de repouso e o dorso da língua 
maximamente elevado (lembre-se de que a língua se conecta à mandíbula por músculos, conforme 
mostra a Figura 2).
As vogais iniciais das palavras ele e ovo, por sua vez, são chamadas meio fechadas ou meio al-
tas, porque são produzidas com a mandíbula um pouquinho menos fechada do que ela se encontra 
na articulação das vogais mencionadas no parágrafo anterior.
Já as vogais iniciais de palavras como era e ode são classificadas como meio abertas ou meio 
baixas porque requerem que a mandíbula abaixe ainda um pouquinho com relação à posição que 
ocupava para a produção das vogais iniciais em ele e ovo.
Finalmente, a vogal inicial da palavra ato requer que a mandíbula se abra maximamente e, 
como decorrência, que o dorso da língua se abaixe também maximamente. Por isso,a vogal inicial 
dessa palavra é chamada aberta ou baixa4.
Tudo o que comentamos até aqui nesta seção não é novo para você, mas a retomada 
desses pontos foi intencional para fazermos observações adicionais concernentes à altura do 
dorso da língua.
4 Você pode ter uma ideia mais precisa do movimento da mandíbula e do dorso da língua em: https://www.youtube.
com/watch?v=qtGHv1a4b48. Acesso em: 10 dez. 2018. Trata-se de um filme de ressonância magnética e, embora não 
tenha som, sinaliza ao lado do filme cada vogal que está sendo produzida.
Distinguindo os sons da fala: vogais 31
É possível produzir vogais entre aquelas que já mencionamos, ou seja, é possível produzir 
vogais entre as fechadas e as meio-fechadas, como decorrência de um grau de abertura da man-
díbula intermediário a esses dois outros. Em suma, é possível estabelecer vogais distintas utili-
zando-se um grau de abertura muito pequeno da mandíbula. Algumas línguas fazem exatamente 
isso: no inglês, por exemplo, a vogal da palavra sheep (ovelha) e a vogal da palavra ship (navio) se 
distinguem por uma variação muito pequena no grau de abertura, de modo que a vogal de ship 
tem uma altura intermediária à de sheep, que é a vogal fechada, e à primeira vogal de espresso, 
que é meio fechada. A vogal de ship é denominada na literatura fonético-fonológica do inglês de 
vogal “frouxa”, em oposição à vogal de sheep, compreendida como “tensa” (vide, por exemplo, 
ODDEN, 2005, p. 21).
Raciocínio análogo se aplica às vogais de food (comida) e foot (pé). A vogal de foot tem um 
grau de altura de dorso da língua intermediário àquele que o dorso assume para a produção da vo-
gal de food ou da vogal inicial de uma palavra como overview (visão geral). Nesse caso, a vogal de 
foot também é rotulada na literatura de “vogal frouxa”, em oposição à “vogal tensa” de food.
O português brasileiro também faz uso de vogais com abertura intermediária à da vogal ini-
cial de ilha e a da primeira sílaba de medo. Trata-se da vogal átona que ocorre no final de palavras, 
isto é, da átona final em palavras como: cáqui e parque. Há mais uma produzida com grau de altura 
intermediário a duas outras, trata-se da vogal final da palavra ato, que requer que o dorso assuma 
posição intermediária à que ele ocupa para a produção da final de tatu e para a produção da final 
de avô.
No português brasileiro, essas vogais com altura intermediária a de duas outras acontecem 
em um contexto específico em que são átonas, isto é, essa vogal não pode ser a mais intensa em 
uma palavra e ocorre, preferencialmente, na posição final de palavras, como nos exemplos men-
cionados no parágrafo anterior. Eventualmente, em uma palavra como escola, a vogal da primeira 
sílaba, que é átona, pode ser realizada com um grau de altura intermediária ao das vogais das pri-
meiras sílabas de ilha e de medo.
Há, ainda, uma vogal com altura intermediária àquela que o dorso da língua assume para 
a produção da vogal inicial de ato e a vogal da primeira sílaba de quero. Trata-se da vogal final da 
palavra casa. Para verificar que a vogal final dessa palavra tem altura diferente da vogal da primeira 
sílaba, você pode lançar mão de um procedimento simples: vá para a frente de um espelho, coloque 
sua mão aberta embaixo do seu queixo e pronuncie a palavra casa. Você verá que durante a vogal 
da última sílaba sua mão sobe um pouquinho. Por que isso acontece? Porque a mandíbula se fecha 
ligeiramente e, como consequência, o dorso da língua fica um pouco mais alto do que estava du-
rante a produção da vogal na primeira sílaba de casa.
Para fazermos referência às vogais descritas nos parágrafos anteriores, no português brasilei-
ro, utilizamos o termo “reduzida”, em vez de “frouxa”. A escolha do termo se justifica porque essas 
vogais são mais breves que as vogais tônicas. E, na nossa língua, essas vogais têm a particularidade 
de refletirem uma forte interação entre a estrutura acentual e a estrutura segmental na língua, já 
que só acontecem em posição átona, como comentamos.
Língua Portuguesa I: Fonética e Fonologia32
2.2 Arredondamento dos lábios
Apesar de estabelecer diferença entre algumas vogais, o cruzamento de aber-
tura de mandíbula e posição do dorso da língua não é suficiente para caracterizar 
e diferenciar todos os sons vocálicos. Até porque há línguas, como o francês, que 
opõem vogais anteriores altas como [i]  – em palavras como folie5 (loucura)  – a 
vogais como [y] – em palavras como rue (rua).
Como, então, diferenciar essas vogais? Por meio de um terceiro parâmetro classificatório, o 
arredondamento dos lábios que resulta de uma manobra de aproximação e protrusão labial. Essa 
manobra articulatória, que independe da posição da língua no trato – por tornar possível sobre-
pô-la a vogais frontais, centrais e também a vogais posteriores – é explorada por algumas línguas 
em seus sistemas vocálicos. O francês é apenas um exemplo de língua que explora essa manobra.
Línguas como o vietnamita6, por exemplo, opõem vogais da série posterior apenas por meio 
do arredondamento dos lábios. Assim, palavras como [tɯ] avante e [tu] beber têm como traço que 
as distingue apenas o arredondamento dos lábios, presente na vogal da primeira palavra, mas não 
na da segunda. Ambas as vogais são posteriores e fechadas. As palavras [tɤ] seda e [to] prato de 
sopa também se distinguem apenas pelo arredondamento dos lábios, presente na vogal da segunda 
palavra do par. Tanto essa quanto a vogal da primeira palavra do par são posteriores semifechadas. 
Por fim, as palavras [ʌŋ] favor e [tɔ] largo têm vogais posteriores meio abertas, sendo a vogal da 
primeira palavra não arredondada e a vogal da segunda, arredondada.
Uma observação adicional: segundo o World Atlas of Linguistic Structures Online7, a maioria 
das línguas do mundo não tem vogais arredondadas. Nas línguas que exibem essas vogais, são mais 
frequentes as vogais arredondadas fechadas e médias. Por vogais médias a literatura fonética en-
tende as vogais que ficam entre as fechadas e as abertas, ou seja, vogais entre [i] e [a], por exemplo.
2.3 Nomeando as vogais
Como você já sabe, os três parâmetros que citamos anteriormente – abertura 
da mandíbula, posição do dorso da língua e arredondamento dos lábios – nos permi-
tem chegar à caracterização de um, e apenas um, som vocálico no inventário de todas 
as vogais registradas nas línguas do mundo.
Para dar nome a uma determinada vogal, então, ou caracterizá-la do ponto 
de vista articulatório, recorremos aos três parâmetros, na seguinte ordem: primeiro, mencionamos 
a posição do dorso da língua; em seguida, a abertura da mandíbula e, finalmente, o movimento dos 
lábios. Assim, uma vogal como [i] será frontal alta não arredondada, contrariamente à [y], aquela 
5 Estão negritados os dois grafemas vocálicos, tanto desse exemplo como do seguinte, pelo fato de ambos os grafe-
mas representarem o som da vogal em questão.
6	 Os	dados	são	de	Ladefoged	e	Maddieson,	1996,	p. 293.
7 Você pode acessar World Atlas of Linguistic Structures Online por meio do link: https://wals.info/feature/ 
11A#2/22.6/152.9. Acesso em: 11 dez. 2018.
Vídeo
protrusão: movimen-
to ou projeção para 
frente.
Vídeo
Distinguindo os sons da fala: vogais 33
que, como vimos anteriormente, ocorre no francês e é frontal alta arredondada. A vogal [o], por 
sua vez, é posterior semifechada arredondada, e assim por diante.
Frisamos, mais uma vez, que alta e fechada são sinônimos, assim como baixa e aberta.
Para nomearmos as vogais de altura intermediária a que nos referimos no item “2.1.3 
Alturas intermediárias do dorso da língua”, utilizamos critérios quase idênticos aos expostos neste 
item, exceto pelo fato de que devemos frisar que se tratam de vogais “diferentes” e fazemos isso 
utilizando o termo “reduzido”, em razão da particularidade mencionada também na seção citada 
anteriormente: essas vogais acontecem em razão de uma forte interação entre o nível segmental 
e a estrutura acentual e, por isso, ocorrem em posiçãoátona. Como consequência, elas são mais 
breves do que as demais vogais do português brasileiro. Por isso, a vogal átona final de parque, por 
exemplo, deverá será nomeada vogal frontal alta não arredondada reduzida. Analogamente, a vogal 
átona final de ato deverá será nomeada vogal posterior alta arredondada reduzida.
2.4 Articulações que se sobrepõem às vogais
2.4.1 Vogais com ATR e vogais faringalizadas
As manobras articulatórias relativas à posição do dorso da língua, à abertura 
da mandíbula e ao arredondamento dos lábios produzem as vogais que abordamos 
nas seções anteriores. Mas essas manobras podem ainda ser sobrepostas por outra 
adicional.
Assim, Ladefoged e Maddieson (1996) observam que o movimento de raiz da língua pode 
diferenciar vogais em alguns sistemas linguísticos, como é o caso da língua akan (falada em Gana 
e na Costa do Marfim – África), ou da língua igbo (falada na Nigéria). Nessas línguas, sobrepõe-se 
à articulação das vogais uma manobra de projeção da raiz, que se convencionou chamar de ATR 
(sigla em inglês para advanced tongue root, ou raiz da língua avançada8). Ladefoged e Maddieson 
(1996) mencionam, com base em dados articulatórios – lâminas de raios X – que, nessas línguas, 
a distinção das vogais quanto à ATR é mais óbvia para as vogais altas. De acordo com os dados 
experimentais, mantém-se igual à altura das vogais – por exemplo [i] e sua contraparte produzida 
com avanço de raiz de língua –, mas a principal diferença é que, na primeira vogal, a raiz da língua 
é mais retraída que na segunda.
É possível também que o movimento antagônico à projeção da raiz da língua se sobreponha 
à articulação das vogais: nesse caso, tem-se a retração do dorso da língua, que, sobreposto aos sons 
vocálicos, produz as vogais faringalizadas. Ladefoged e Maddieson (1996) relatam que essas vogais 
são encontradas na língua even (falada ao norte da Sibéria) e também nas línguas caucasianas (fa-
ladas na Rússia, Turquia e Jordânia) e nas línguas khoisan (faladas em regiões próximas ao deserto 
de Kalahari, como Angola, Botswana, Namíbia e África do Sul). Ainda de acordo com esses auto-
res, por meio dos estudos realizados com raios X, na língua even, por exemplo, é possível encontrar 
as vogais [i, u, o] e suas contrapartes faringalizadas.
8 Mantemos a sigla em inglês por ser essa a denominação corrente na literatura para a manobra articulatória que 
descrevemos nesta seção.
Vídeo
raiz da língua: por-
ção mais posterior 
da língua, que cons-
titui a parede frontal 
da faringe.
Língua Portuguesa I: Fonética e Fonologia34
2.4.2 Nasalização
Das manobras que se podem sobrepor à articulação das vogais, a mais frequente nas línguas 
do mundo9, e também a mais familiar para nós, é a nasalização, porque o português opõe vogais 
nasalizadas a vogais não nasalizadas, ou orais, como em ata/anta ou cita/cinta.
Neste ponto, são necessários breves parênteses para comentar que a escrita é representação 
da fala. Por isso, inexiste uma correspondência de um para um entre escrita e fala, quer dizer, um 
mesmo som pode ser grafado por letras diferentes, ou dois sons diferentes podem ser grafados 
com a mesma letra, conforme veremos mais adiante neste livro. A falta de correspondência entre 
escrita e fala traz – entre outras consequências – a possibilidade de se representar a nasalidade das 
vogais de maneiras distintas. Assim, por exemplo, pode-se escrever a mesma vogal nasal como <ã> 
ou <an>, ou ainda <am>. Com essas considerações, queremos chamar a atenção para o fato de que 
em uma palavra como anta, o que se tem são três sons, sendo o primeiro da palavra uma vogal 
nasalizada. Não há, nessa sequência, um som de consoante nasal, seguindo uma vogal oral. A letra 
<n> tem por função marcar a nasalidade da vogal que a precede.
Feita essa ressalva, podemos voltar ao cerne desta seção: como se produzem as vogais nasa-
lizadas? Basicamente, sobrepondo-se a cavidade nasal à cavidade oral. Considere, então, que toda 
aquela estrutura anatômica que constitui o trato vocal, e que abordamos no Capítulo 1, pode ser 
esquematizada como na Figura 4.
Figura 4 – Desenho esquemático do trato vocal
Lábios
Pregas vocais
Fonte: Elaborada pela autora.
É nessa estrutura que produzimos vogais como [i, a, u]. A maneira como se faz isso é abor-
dada nas primeiras seções deste capítulo.
Considere, em seguida, que, além dos movimentos de dorso, mandíbula e lábios que reali-
zamos para articular cada uma dessas vogais, é possível abaixar o véu palatino, conforme explica-
mos no Capítulo 1. Quando o véu palatino se abaixa, o ar egresso dos pulmões pode se propagar 
também pela cavidade nasal – além, obviamente, de se propagar pela cavidade oral. Temos, então, 
o acoplamento da cavidade nasal à oral, como pode ser visto na Figura 5.
9 Maddieson (1984 apud	LADEFOGED;	MADDIESON,	1996,	p. 298)	nota,	com	base	em	um	conjunto	de	dados	perten-
centes a mais de 300 línguas diferentes, que a nasalização ocorre em mais de 20% dessas línguas.
Distinguindo os sons da fala: vogais 35
Figura 5 – Desenho esquemático do acoplamento da cavidade nasal à cavidade oral para a produção de 
vogais nasalizadas.
Cavidade nasal
Cavidade oral
Lábios
Pregas vocais
Fonte: Elaborada pela autora.
O efeito do acoplamento da cavidade nasal à oral, no caso específico do português brasileiro, 
é o seguinte: desfaz-se a distinção entre as vogais médias, isto é, as vogais meio fechadas e meio 
abertas, como as vogais iniciais de etapa e ética ou as vogais iniciais de olho e óleo. Ao se desfazer 
essa distinção, tem-se como resultado a vogal [ẽ] – como em êmbolo, ente – e a vogal [õ] – como em 
ombro e onde. A vogal [a], ao ser realizada com nasalidade sobreposta, eleva-se – porque a mandí-
bula fecha ligeiramente e o dorso da língua assume uma posição praticamente intermediária à série 
anterior e à posterior –, resultando daí o som inicial de uma palavra como anta, ou o som final da 
palavra maçã. As vogais [i, u] praticamente não têm sua qualidade10 alterada, resultando, então, vo-
gais como as que temos no início das palavras índice e untar. Em razão da perda da distinção entre 
as vogais médias, que explicamos há pouco, o português brasileiro fica com um conjunto de cinco 
vogais nasalizadas, ao lado de sete vogais orais.
Para finalizar: embora as vogais nasalizadas sejam muito frequentes nas línguas do mundo, 
elas não ocorrem, obrigatoriamente, em todas as línguas, ainda que algumas possam ser aparen-
tadas. É o caso do espanhol, que não tem as vogais nasalizadas. Essa diferença no sistema vocálico 
causa problemas tanto para falantes nativos de português que aprendem espanhol como para falan-
tes nativos de espanhol que aprendem português. No primeiro caso, a dificuldade existe porque os 
falantes de português tendem a nasalizar vogais que, no espanhol, são realizadas como vogais orais 
seguidas de consoantes nasais. No outro caso – o dos falantes nativos de espanhol que aprendem 
português –, a dificuldade existe porque tendem a pronunciar como uma vogal oral seguida de 
consoante nasal uma vogal que, em português, é nasalizada. Dificuldades análogas para os falantes 
nativos de português surgem, ainda, quando aprendem italiano ou alemão, por exemplo, e pelas 
mesmas razões apontadas.
10 Diz-se “qualidade da vogal” a impressão auditiva que se tem dela e que resulta dos movimentos de dorso, mandíbula 
e lábios.
Língua Portuguesa I: Fonética e Fonologia36
Ampliando seus conhecimentos
Nesses manuais didáticos para o ensino de fonética e fonologia você encontrará a caracteri-
zação dos sons vocálicos.
• CALLOU, D.; LEITE, Y. Introdução à fonética e à fonologia. Rio de Janeiro: Jorge 
Zahar, 1995.
• SILVA, T. C. Fonética e fonologia do português. São Paulo: Contexto, 1999.
Atividades
1. Quais são os parâmetros articulatórios utilizados para a caracterização dos sons vocálicos?
2. Explique por que os parâmetros utilizados na caracterização das vogais são distintos daque-
les das consoantes e por que se podeafirmar que a mandíbula desempenha um papel crucial 
na articulação das vogais.
3. Como são produzidas as vogais nasais?
3
Distinguindo os sons da fala: consoantes
Ao abordarmos as vogais, no Capítulo 2, observamos que esses sons são produzidos pela 
ação de uma constrição muito tênue no interior do trato vocal tal que o fluxo de ar, ao passar pelo 
trato, encontra pouca ou nenhuma resistência.
As consoantes, por sua vez, são produzidas por uma constrição maior que a das vogais e 
em diferentes graus – do mais ao menos severo – de modo que a propagação do fluxo de ar no 
interior do trato vocal é pouco, parcialmente ou totalmente interrompida. Assim, por exem-
plo, a consoante inicial da palavra sapo requer uma grande constrição para sua produção, mas 
a consoante seguinte dessa mesma palavra requer total interrupção à propagação do fluxo de 
ar pelo interior do trato vocal.
Outro fato que distingue consoantes de vogais é a área do trato vocal que elas utilizam para 
serem produzidas, visto que, conforme mencionado no Capítulo 2, as vogais ocupam uma área 
pequena do trato para sua produção. Essa área se estende do palato ao véu palatino. As consoantes, 
por sua vez, como ocupam toda a extensão do trato vocal e podem ser produzidas desde as pregas 
vocais até os lábios.
Outra diferença entre vogais e consoantes está na ação das pregas vocais: as vogais, via de 
regra, são realizadas com vibração das pregas vocais. No caso das consoantes, há aquelas que são 
realizadas com vibração das pregas vocais, mas também há outras cuja produção não envolve vi-
bração dessas. Assim, na palavra zelo, a consoante inicial requer a vibração das pregas vocais; na 
palavra selo, por outro lado, a consoante inicial não requer que as pregas vocais vibrem.
Dadas essas diferenças envolvidas na articulação de consoantes e vogais, não se podem em-
pregar os mesmos parâmetros classificatórios para os dois conjuntos de sons. Como, então, distin-
guir uma consoante da outra? Que parâmetros motores devemos empregar para isso? Esses são os 
pontos que tentaremos responder a partir da próxima seção.
3.1 Distinguindo as consoantes entre si
A constrição que as consoantes requerem em sua produção é bem mais se-
vera do que aquela necessária para produzirmos vogais. Além disso, há diferentes 
graus de constrição envolvidos na produção das consoantes – do mais ao menos 
severo. Esse, então, será um dos parâmetros tomados para a diferenciação entre as 
consoantes e será chamado modo de articulação. Outro parâmetro que os foneti-
cistas tomam para caracterizar as consoantes é o lugar, ou o ponto do trato onde as consoantes são 
articuladas. Esse, aliás, é um bom parâmetro classificatório já que, como vimos no Capítulo 2, as 
consoantes ocupam toda a extensão do trato vocal em sua produção.
Vídeo
Língua Portuguesa I: Fonética e Fonologia38
Finalmente: a ação das pregas vocais é importante para se distinguirem as consoantes, como 
comentamos na seção anterior e, por isso, se constitui em um parâmetro classificatório adicional 
desses sons. Dessa forma, as consoantes serão descritas em função de envolverem vibração das 
pregas em sua produção ou não.
A partir da próxima seção, abordaremos detidamente cada um dos três parâmetros classi-
ficatórios das consoantes. De maneira análoga ao que ocorre com as vogais, os foneticistas con-
cebem que o cruzamento entre os três parâmetros articulatórios que caracterizam as consoantes 
permite que cheguemos à descrição de um, e apenas um, som consonantal.
3.1.1 Ponto de articulação
O ponto de articulação é o parâmetro classificatório de consoantes concernente ao local do 
trato onde dois articuladores se aproximam ou se tocam, provocando aí uma constrição de modo a 
impedir parcial ou totalmente a passagem do ar. Os pontos de articulação empregados na produção 
das consoantes estão ilustrados na Figura 1. Em seguida, fornecemos a descrição de cada um deles.
Figura 1 – Pontos de articulação do trato vocal
dental
labiodental
bilabial
dental
retroflexo
glotal
velar
Ponto de 
articulação faringal
palatal
alveolar pós-alveolar
uvular
Fonte: Ladefoged e Maddieson, 1996, p.13.
• Bilabial
É o primeiro ponto do trato em que podem ser produzidos sons e que envolve a aproxi-
mação dos lábios superior e inferior. São produzidos nesse ponto as consoantes iniciais de 
palavras como pátio, bula e máscara.
• Labiodental
É o ponto localizado logo depois dos lábios. As consoantes produzidas nesse ponto  – 
como as iniciais de farinha e vacina – envolvem a aproximação do lábio inferior com os 
dentes da arcada superior.
• Dental
As consoantes produzidas nesse ponto envolvem a aproximação da ponta ou da lâmi-
na da língua com os dentes superiores frontais. São exemplos de sons consonantais 
Distinguindo os sons da fala: consoantes 39
produzidos nesse ponto os primeiros de palavras inglesas como think (pensar) ou thy (vosso). 
Em português, não existem sons produzidos nesse ponto.
• Alveolar
Caracteriza as consoantes produzidas pela aproximação ou pelo toque da ponta ou da lâ-
mina da língua nos alvéolos, que são a estrutura óssea localizada imediatamente atrás dos 
dentes da arcada superior. São exemplos de sons produzidos nesse ponto as consoantes 
iniciais de tábua; doca; cinco; ou zinco; nuvem; lábio e a consoante da palavra arara.
• Pós-alveolar
Os sons produzidos nessa região envolvem a aproximação da lâmina da língua com a re-
gião posterior dos alvéolos. Eles estão presentes, por exemplo, nos sons iniciais de xícara 
ou girafa.
• Retroflexo
Como observam Ladefoged e Madddieson (1996, p. 25, grifo do original; tradução nossa):
O termo “retroflexo” é utilizado para designar várias articulações diferentes, 
relacionadas tanto pela forma que a língua assume na produção dessas articula-
ções, como pela região superior do trato. Uma articulação retroflexa se caracte-
riza, até certo ponto, pelo movimento curvo da ponta da língua1.
Esse movimento da ponta da língua curvando-se sobre o dorso pode ocorrer na altura dos 
alvéolos, ou um pouco mais para trás, na altura do palato2.
Sons retroflexos ocorrem no português como variantes de /r/, marcando o dialeto que 
se convencionou denominar caipira. No geral, são encontrados no meio de palavra ou 
em final de sílaba e palavra, como em carta ou favor, respectivamente. Em alguns diale-
tos – como no interior do estado de São Paulo – pode ser encontrado também em grupos 
consonantais, como na palavra prato.
• Palatal
Caracteriza consoantes produzidas pela aproximação da porção anterior da língua e do 
palato duro, como os sons iniciais das palavras nhoque e lhama, ou as consoantes mediais 
de unha e alho.
• Velar
Consoantes produzidas nesse ponto – como os primeiros sons de casa e gula – envolvem 
a aproximação ou o toque do dorso da língua no palato mole.
1 The term “retroflex” has been used for a variety of different articulations, which are linked as much by the shape of the 
tongue involved as the region on the upper surface of the mouth. A retroflex articulation is one in which the tip of the tongue is 
curled up to some extent.
2 Pela caracterização dos sons retroflexos, nota-se que a retroflexão se configura praticamente como um modo de 
articulação, mais que como ponto. Essa é uma discussão antiga e controversa entre os foneticistas. Por motivos didáti-
cos, optamos aqui por simplificar essa discussão e adotar a visão da Associação Fonética Internacional, considerando-se 
então retroflexo um ponto de articulação.
Língua Portuguesa I: Fonética e Fonologia40
• Uvular
Ponto que caracteriza consoantes produzidas na região da úvula, a exemplo do primeiro 
som da palavra francesa rue (rua). Esses sons não ocorrem em português, e mesmo no 
francês estão caindo em desuso, segundo Demolin (2007).
• Faringal
Consoantes produzidas nesse ponto envolvem a aproximação da raiz da língua com a pa-
rede posterior da faringe. São consoantes encontradas especialmente em línguas faladas 
ao norte e a leste da África, comoas línguas pertencentes aos troncos semítico e circas-
siano. São também encontradas em línguas das famílias Wakashan e Salish, faladas na 
província de British Columbia (Canadá). No hebraico, que é uma língua semítica, ocorre, 
por exemplo, a fricativa faringal surda [ħ]. No português não ocorrem esses sons.
• Glotal
Algumas vezes, as pregas vocais se aproximam o suficiente para produzir um som ligeira-
mente sussurrado. Esse som é produzido no chamado ponto de articulação glotal e consti-
tui o som inicial de palavras do inglês como home (lar), help (socorro). No português bra-
sileiro, pode ser uma variante do som de /r/, em palavras como rato. Cabe observar que 
essa variante de /r/ tem se disseminado no português brasileiro, fazendo-se presente em 
outros dialetos, além do carioca, especialmente na fala de pessoas de menor faixa etária. 
É o que se verifica para os dialetos falados na região Sul do país, como o dialeto para-
naense, assim como no dialeto paulista. Por outro lado, no dialeto carioca e no dialeto de 
algumas regiões de Minas Gerais, essa variante ocorre também em outras posições, como 
final de sílaba e/ou palavra, como em porta e mar. Dialetos falados nas regiões Norte e 
Nordeste do Brasil também registram a ocorrência da consoante fricativa glotal surda em 
final de sílaba e/ou palavra, com em porta e mar.
3.1.2 Modos de articulação
Como observamos, um dos parâmetros que os foneticistas tomam para distinguir as con-
soantes entre si é o ponto de articulação, que diz respeito ao lugar do trato onde os sons são pro-
duzidos. Um segundo parâmetro tomado, o modo de articulação, baseia-se no grau de obstrução 
à passagem do ar que a produção dos sons consonantais oferece: há consoantes que envolvem 
obstrução total à passagem do ar no trato, devido a uma constrição muito severa no interior dele – 
como é o caso do som inicial da palavra passo – enquanto outras consoantes envolvem uma obs-
trução parcial à passagem do ar, como o som inicial da palavra sapo.
Passemos, então, à classificação das consoantes quanto ao modo de articulação.
• Oclusivas (ou plosivas)
Produzidas por oclusão completa e momentânea no trato vocal, de modo a impedir total-
mente a passagem do ar pelo trato3. Cabe acrescentar que, durante a produção das oclusi-
3 O fechamento completo do trato vocal faz com que se estabeleça uma obstrução, um bloqueio, que impede que o 
fluxo de ar se propague para fora do trato vocal.
Distinguindo os sons da fala: consoantes 41
vas, o véu palatino se encontra em repouso (a razão desta ressalva deverá ficar clara logo 
em seguida, quando abordarmos o próximo modo de articulação).
São exemplos dessas consoantes os sons iniciais das palavras pato e bola; tatu e dado; casa 
e gato. Observe que, no primeiro par, a oclusão se dá no ponto bilabial; no segundo, no 
ponto dental-alveolar e, no terceiro, no ponto velar.
• Nasais
Se o ar é bloqueado na cavidade oral, mas o véu está abaixado, permitindo a propagação 
do ar pela cavidade nasal, temos a produção de consoantes nasais, como no caso dos sons 
iniciais de mapa, nata ou nhoque. No caso da consoante inicial da primeira palavra, o 
bloqueio à passagem do ar, ou oclusão da cavidade oral, ocorre no ponto bilabial; para a 
segunda, no ponto dental e, para a terceira, no ponto palatal.
Embora tanto os sons nasais como os orais descritos no tópico imediatamente anterior 
possam ser classificados como consoantes oclusivas, os foneticistas geralmente usam este 
último termo como referência às oclusivas orais, sendo a palavra nasal exclusiva para 
indicar os sons produzidos pelo abaixamento do véu. A Figura 2, a seguir, que traz um 
trato vocal estilizado, ilustra o mecanismo articulatório necessário para a produção das 
consoantes nasais. Note que é possível haver oclusão em quatro pontos do trato: bilabial, 
alveolar, palatal e velar, mas o português faz uso apenas dos três primeiros pontos para 
articular suas consoantes nasais
A Figura 2 também contrapõe a produção de vogais nasalizadas à produção das consoantes 
nasais. Note que, durante a produção das vogais nasalizadas, não existe bloqueio à passagem do ar 
e, conforme indicam as setas da ilustração à esquerda, na Figura, o ar se propaga tanto pela cavida-
de nasal como pela cavidade oral.
Figura 2 – Modelos do trato vocal para a produção de consoantes e vogais nasalizadas
Vogal: cavidades oral e nasal abertas.
Consoante: cavidade nasal aberta e obstrução bilabial alveolar (A) ou velar (V).
Nariz
Lábios
VOGAL
Laringe Laringe
CONSOANTE
B A P V
Fonte: Elaborada pela autora.
Língua Portuguesa I: Fonética e Fonologia42
• Vibrantes
As consoantes vibrantes são sons presentes no espanhol, em início de palavras como 
ratón (rato). Ladefoged e Maddieson (1996) relatam que os sons vibrantes mais 
frequentes nas línguas do mundo são as vibrantes alveolares, ou apicais4, como é o 
caso do espanhol. Sua produção, porém, requer manobras articulatórias peculiares 
para garantir condições aerodinâmicas apropriadas. Assim, Solé (2002) nota que, para 
produzirmos as vibrantes alveolares, é preciso que a ponta da língua esteja relaxada. 
Isso porque, segundo resultados de um estudo por meio do qual o autor realiza medidas 
da pressão do fluxo de ar intraoral (quer dizer, do fluxo de ar que se propaga pelo 
trato vocal), quando o fluxo de ar encontra a ponta da língua encostada nos alvéolos, 
a pressão que se forma atrás desse ponto de encontro, ou da constrição, é tal que o ar 
faz com que a ponta da língua abaixe ligeiramente, desfazendo a constrição. Desfeita 
a constrição, o fluxo de ar se propaga pelo canal que se abre. Desse modo, a pressão 
de ar atrás do ponto alveolar diminui e a ponta da língua pode se elevar novamente, 
tocando mais uma vez os alvéolos (note que a ponta da língua deve estar relaxada para 
que o fluxo de ar a desloque). Enquanto a pressão do ar se mantiver e a ponta da língua 
estiver relaxada, os ciclos de fechamento e abertura do trato vocal, pela ação da ponta da 
língua, continuarão. Para se ter uma ideia, a literatura fonética relata que, no espanhol, 
esse ciclo se repete de três a cinco vezes.
Apesar dessa articulação peculiar, as vibrantes, notadamente a vibrante alveolar, estão 
presentes em 40% das línguas do mundo, de acordo com o banco de dados Phoible5 
(MORAN; MCCLOY; WRIGHT, 2014), que reúne informações de 1.672 línguas distintas.
No português brasileiro, as vibrantes alveolares ocorrem como variantes do som de /r/. 
Elas são características de alguns dialetos – como os do Sul do país – e produzidas majo-
ritariamente por pessoas de faixa etária mais avançada. Além disso, no geral, ocorrem em 
início absoluto de palavras, como em rima ou rápido. Ocorrem também no francês, como 
na palavra rue (rua). Mas note que, nessa língua, o ponto de articulação da vibrante é di-
ferente do seu ponto de articulação no português. Em francês, o órgão que vibra é a úvula. 
Há ainda vibrantes em línguas como o oro-eo, uma língua pertencente ao grupo wari, 
da família Chapakura, falada por índios que habitam a região do rio Pacaás Novos, em 
Rondônia. No caso dessa língua, os articuladores envolvidos são os lábios, que se juntam e 
se afastam rapidamente para produzir a vibração. O som resultante é parecido com o que 
fazemos quando queremos usar uma onomatopeia que sinalize ao nosso interlocutor que 
estamos tremendo de frio.
Em todas as vibrantes mencionadas – bilabial, alveolar e uvular – alternam-se rápidos 
períodos de obstrução à passagem do ar e rápidos períodos em que a obstrução se desfaz, 
4 Vibrante alveolar e vibrante apical são dois termos sinônimos e nomeiam o mesmo som de que tratamos neste ponto 
do texto. A diferença entre os termos é que vibrante alveolar remete ao ponto do trato onde a vibrante é produzida, isto é, 
nos alvéolos, pela ação da ponta da língua que encontra esse articulador. Vibrante apical, por outro lado, remete ao ápice, 
ou ponta da língua, que é o órgão que se move durante a produção do som em questão.5 Você pode acessar o Phoible por meio do link: https://phoible.org. Acesso em: 26 dez. 2018.
Distinguindo os sons da fala: consoantes 43
possibilitando a passagem do fluxo de ar. Daí a sensação auditiva de vibração que dá 
nome a essa classe de sons.
• Taps (flaps)
A produção dos taps é semelhante à das vibrantes. A única diferença está no fato de que, 
nesse caso, há um único período de obstrução à passagem do ar provocado pela batida 
da ponta da língua na região superior do trato e no qual a voz praticamente desapare-
ce, seguido de um período em que a voz é retomada e o ar passa livremente pelo trato. 
Em português brasileiro, o tap ocorre em palavras como ópera ou prato. A língua espa-
nhola registra igualmente o tap, em meio de palavras como caro.
• Fricativas
Outro modo de oferecer resistência à propagação da corrente de ar no trato vocal ocorre 
quando produzimos as primeiras consoantes de palavras como fácil, vácuo, severo, cine-
ma, zangão, xícara, chave, junho e gigante. Nesses casos, não há oclusão total do trato, 
mas uma grande constrição, formada pela aproximação máxima entre dois articuladores 
– sem que eles se toquem. Essa grande aproximação entre dois articuladores promove 
estreitamento do trato vocal, de modo a se formar um canal estreito entre os articuladores 
envolvidos na produção do som, como pode ser visto na Figura 3.
Figura 3 – Ilustração da turbulência no trato vocal para a produção das consoantes fricativas
Jato
Turbulência
Constrição
Fonte: Elaborada pela autora.
Note que, na porção à esquerda da Figura 3, temos o trato vocal sem constrição. As setas in-
dicam o ar que se propaga pelo trato. Porém, logo em seguida, na porção medial da mesma Figura, 
vê-se um estreitamento severo das paredes do trato. O que acontece? O ar se comprime para con-
seguir se propagar por essa porção estreitada. Mas por que o ar tem de se comprimir? Porque essa 
é a única maneira de ele continuar seu trajeto pelo interior do trato vocal, já que o volume do ar se 
mantém constante, não diminui. Quando o ar se comprime, as suas partículas se friccionam umas 
contra as outras e é desse fenômeno que se origina o nome da classe. Passando pela constrição 
severa, a corrente de ar encontra novamente as afastadas paredes do trato vocal, como se tem à di-
reita da Figura 3. Porém, em razão da compressão das partículas de ar, a pressão do ar aumenta. E, 
assim, quando a corrente de ar chega à porção alargada do trato, o ar se propaga por lufadas, jatos 
turbulentos, que promovem a sensação auditiva de ruído, característica de todos os sons fricativos. 
Na Figura 3, os jatos turbulentos são indicados pelos traços curvos.
É necessário acrescentar que o estreitamento das paredes do trato vocal pode acontecer em 
qualquer ponto dele, desde os lábios – o que resulta na produção da consoante da segunda sílaba da 
Língua Portuguesa I: Fonética e Fonologia44
palavra abuela, do espanhol (note que os lábios não se tocam; apenas se aproximam maximamente) 
– até as pregas vocais – o que resulta na produção da consoante inicial da palavra house, do inglês.
Uma última observação, existem fricativas que apresentam ruído mais intenso do que 
outras, como as no início das palavras severo, cinema, zangão, xícara, chave, junho. Elas são cha-
madas, algumas vezes, de sibilantes, em oposição às fricativas “não sibilantes” presentes no início 
das palavras fácil, vácuo que, por serem produzidas na extremidade do trato vocal, têm ruído 
menos intenso.
• Laterais
A produção das consoantes laterais envolve o bloqueio da corrente do ar em um ponto em 
torno do centro do trato vocal, com uma oclusão incompleta entre um ou os dois lados 
da língua e o céu da boca. Concomitantemente a essa manobra articulatória, o dorso da 
língua se abaixa e se alarga. As ações coordenadas de ponta e dorso de língua formam um 
canal lateral pelo qual o ar se propaga. São exemplos de laterais no português brasileiro 
sons como o do início da palavra lata ou o segundo som do grupo consonantal na palavra 
placa, ou ainda o som que ocorre entre as vogais, no meio da palavra palha. Note que, 
embora utilizemos esse mesmo grafema (ou a mesma letra) <l> em final de sílaba, como 
em alfinete, o som produzido não é propriamente uma lateral – pois não há formação dos 
canais laterais, nem ação da ponta da língua em final de sílaba, no meio ou no final das 
palavras, temos uma semivogal, ou aproximante, produzida com a retração e elevação do 
dorso da língua, concomitantes ao arredondamento dos lábios.
Cabe frisar que essa observação se aplica à maioria dos dialetos brasileiros, nos quais 
ocorre o processo chamado de vocalização da lateral, isto é, a produção do som que já 
foi uma lateral como uma aproximante. Entretanto, no Rio Grande do Sul, especialmen-
te na fala de pessoas de faixa etária mais avançada, ainda se encontra a chamada lateral 
velarizada em trava de sílaba, isto é, em final de sílaba, como em alfinete ou Brasil. Para a 
produção dessa lateral velarizada, o dorso é posteriorizado e se eleva em direção ao véu 
palatino, e a ponta da língua se eleva, formando canais laterais por onde o ar se propaga.
• Aproximantes
Também denominadas semivogais ou glides (embora inapropriadamente, segundo Ladefoged 
e Maddieson, 19966). Os sons representados pelos grafemas i e u em palavras como caixa ou 
pauta, e ainda o som representado pelo grafema l em alfinete, são produzidos pela aproximação 
de um articulador em direção a outro, mas sem um estreitamento do trato a ponto de ser 
produzida uma corrente de ar turbulenta, como no caso das fricativas.
Esses sons são intermediários a consoantes e vogais, no sentido de que, entre as consoantes, 
são as que exibem constrição em menor grau. Daí se assemelharem a vogais. Por outro 
lado, ocorrem sempre na margem das sílabas, isto é, em posição contígua ao núcleo 
silábico, uma característica funcional que torna esses sons semelhantes a consoantes.
6	 De	acordo	com	esses	autores	(p. 322),	a	terminologia	glide é empregada “com base na ideia de que os sons envolvem 
um rápido movimento, partindo da posição de uma vogal alta em direção a uma vogal mais baixa”. No entanto, segundo 
eles, essas consoantes podem ser geminadas em algumas línguas.
Distinguindo os sons da fala: consoantes 45
• Africadas
Existem alguns sons cuja produção envolve mais de um modo de articulação, por exemplo 
os sons iniciais das palavras título e dívida, em dialetos como o carioca ou o curitibano. 
No inglês, os mesmos sons acontecem no início das palavras church (igreja) e jingle (tini-
do) em inglês. A característica comum a esses sons é que há neles um primeiro momento 
em que o toque da ponta da língua na região alveolar do trato promove obstrução total 
à passagem do ar. Em seguida7, o contato é afrouxado, resultando daí um momento em 
que se forma um estreitamento do trato, por onde o ar se propaga, turbulento. Portanto, a 
produção dessas consoantes, denominadas africadas, envolve um primeiro momento de 
oclusão seguido de um momento típico das consoantes fricativas.
3.1.3 Cruzando ponto e modo de articulação
Deve ficar claro que as consoantes caracterizadas por um mesmo modo de articulação, por 
exemplo as fricativas, podem ser produzidas em vários pontos ao longo do trato. Assim, pode-se 
aproximar o lábio inferior do lábio superior, o que resulta na produção de uma consoante fricativa 
no ponto bilabial, como é o caso da palavra espanhola vaca. Pode-se aproximar o lábio inferior dos 
dentes da arcada superior. Tem-se, então uma fricativa produzida, desta vez, no ponto labiodental, 
como é o caso da primeira consoante da palavra portuguesa vaca. Pode-se, ainda, aproximar a 
ponta da língua da região dos alvéolos. Tem-se, dessa forma, uma consoante fricativa produzida no 
ponto alveolar, como a primeira consoante da palavra sopa.
Analogamente, consoantes produzidas no mesmo ponto de articulação podem ser produ-
zidas de modos distintos. Assim, as primeiras consoantes de teto, dúvida, nuvem,sonho e zumbido 
são todas produzidas no ponto alveolar, por meio da aproximação ou do toque de um articulador 
móvel, como a ponta da língua ou os alvéolos, aquela estrutura óssea localizada logo atrás dos 
dentes da arcada superior. Entretanto, nas duas primeiras palavras, teto e dúvida, temos consoantes 
oclusivas, pois a ponta da língua encosta nos alvéolos, bloqueando a passagem do fluxo de ar nesse 
ponto do trato. Na terceira palavra, nuvem, temos uma consoante nasal; nas duas últimas, sonho e 
zumbido, temos consoantes fricativas, pois a ponta da língua se aproxima maximamente dos alvéo-
los, de modo a promover o estreitamento das paredes o trato vocal.
O cruzamento das informações a respeito de ponto e modo de articulação nos permite ca-
racterizar as várias consoantes das línguas do mundo, porém não individualmente. Isso porque, no 
caso dos sons de teto e dúvida ou sonho e zumbido, temos, respectivamente, oclusivas alveolares e 
fricativas alveolares. Como, então, podemos diferenciar [t] de [d] ou [s] de [z], já que até aqui, pelos 
parâmetros de ponto e modo de articulação, eles são indistintos? Para isso, é necessário um terceiro 
parâmetro articulatório, a sonoridade, ou vozeamento.
7 Precisamos frisar que esse “em seguida” se dá em questão de poucos milissegundos, ou seja, o relaxamento da 
oclusão e consequente formação da constrição se dá de modo muito rápido.
Língua Portuguesa I: Fonética e Fonologia46
3.1.4 Sonoridade
Esse parâmetro relaciona-se à produção ou ausência de produção de som na laringe, isto 
é, nas pregas vocais. Dito de outro modo, o terceiro parâmetro classificatório das consoantes 
remete à vibração ou não vibração das pregas vocais durante a produção de um som. Se há vi-
bração, dizemos que há produção de voz, daí o outro termo que se pode empregar para nomear 
este parâmetro: vozeamento.
Para que as pregas vocais vibrem, temos o seguinte processo: o ar egresso dos pulmões 
se propaga pela traqueia e, chegando à laringe, deve passar pelas pregas vocais. Caso as pregas 
vocais estejam ligeiramente afastadas, o ar passará por elas sem que vibrem, isto é, sem que o 
movimento provocado pelo ar nas pregas seja significativo o suficiente para caracterizar a vibra-
ção. No entanto, se as pregas estão próximas, fechadas, a pressão da corrente de ar fará com que 
vibrem. Os sons produzidos pela vibração das pregas são denominados sonoros, ou vozeados, em 
oposição aos sons surdos, ou desvozeados, produzidos quando as pregas estão afastadas.
Como diferenciar auditivamente sons surdos dos sonoros? Se você assistir a um vídeo em 
câmera lenta de alguém falando selo e zelo, será difícil ou até impossível distinguir [s] de [z] sem o 
som, porque os movimentos dos articuladores visíveis – como os lábios – para a produção dessas 
consoantes são idênticos. Para evidenciar a diferença, encoste sua mão na garganta e produza, 
durante algum tempo, um som que alterne entre [s] e [z]. Você sentirá uma leve sensação de zum-
bido nos seus dedos enquanto produz [z], mas não a sentirá ao produzir [s], justamente porque a 
sensação de zumbido é causada pela vibração das pregas vocais.
Existe uma outra maneira de distinguir sons surdos dos sonoros – e que é bem mais evidente 
que a auditiva –, que é pela análise acústica dos sons da fala. Visualmente, os espectrogramas nos 
permitem notar a presença de uma barra de sonoridade8 durante a produção de sons sonoros, 
contrariamente aos sons surdos, que não exibem a tal barra de sonoridade. Isso ficará mais claro 
quando abordarmos a análise acústica dos sons da fala.
Por fim, é preciso ressaltar que o contraste surdo/sonoro ou vozeado/desvozeado é bastante 
produtivo nas línguas do mundo em geral, sendo muitas vezes o único parâmetro articulatório 
responsável pela distinção entre sons, como nos casos das consoantes iniciais dos pares: pico/bico; 
tela/dela; cato/gato; selo/zelo; chato/jato; faca/vaca.
Cruzando ponto, modo de articulação e sonoridade, chegamos à caracterização individual 
dos sons consonantais, assim como chegávamos à caracterização individual dos sons vocálicos ao 
cruzarmos as informações sobre o movimento ântero-posterior (horizontal) do dorso da língua, o 
movimento vertical da mandíbula/dorso da língua e o arredondamento dos lábios.
A questão que abordaremos na sequência trata da maneira como podemos anotar os sons da 
fala já que, como veremos, o sistema de escrita é insuficiente para essa finalidade.
8 A barra de sonoridade é a energia de produção localizada em uma região de frequência baixa do espectro, visível no 
pé do espectrograma como uma “linha horizontal” bem escura.
Distinguindo os sons da fala: consoantes 47
Atividades
1. Assinale a alternativa que completa a frase. O fato articulatório que diferencia consoantes 
de vogais é:
a) as consoantes são sons que envolvem uma articulação bem mais complexa que as vogais.
b) consoantes são produzidas por constrição significativa no interior do trato, enquanto 
vogais são produzidas por constrição muito pequena.
c) a articulação das consoantes acontece no trato vocal, pela ação da posição diferente dos 
articuladores, e as vogais são articuladas na laringe.
d) a articulação das consoantes ocorre com as pregas vocais afastadas e sem vibrar e as vo-
gais são articuladas com vibração das pregas.
2. Assinale a alternativa que completa a frase. Para a caracterização articulatória das consoantes:
a) leva-se em conta apenas o grau de constrição envolvido na produção desses sons.
b) considera-se apenas a ação das pregas – se vibram ou não – durante a produção desses sons.
c) considera-se exclusivamente o local do trato onde é realizada a constrição de cada som.
d) considera-se o local do trato onde a constrição é feita, o grau dessa constrição e a ação 
das pregas.
3. Assinale a alternativa que completa a frase. A caracterização articulatória das consoantes, tal 
como é feita, tem natureza estática. Daí decorre:
a) uma completa imprecisão relativamente à maneira como as consoantes são articuladas e 
ao ponto do trato onde são produzidas.
b) a incerteza sobre a confiabilidade dos parâmetros tomados para a classificação das con-
soantes e a necessidade de revê-los.
c) uma falsa impressão de que, para se produzir um som, os articuladores devem estar po-
sicionados exatamente como descrito.
d) a possibilidade de se determinar um modo e ponto certos e um modo e ponto errados de 
articular os sons consonantais.
4
Uma notação para os sons da fala
4.1 Falta de correspondência entre sons da fala e grafemas
Já comentamos, logo no início do primeiro capítulo desta obra, que Fonética 
e Fonologia tomam os sons da fala como objeto de estudo. Desse modo, para fazer 
Fonética e Fonologia, é imprescindível esquecer que a escrita existe!
Essa advertência pode parecer contra-intuitiva à primeira vista, mas neste 
capítulo esperamos deixar clara a necessidade de desconsiderar o sistema de escrita 
quando estudamos os sons da fala.
Vamos começar a abordagem dessa questão pensando em um mapa qualquer, como este da 
Figura 1, que ilustra três rotas possíveis entre as cidades de São Paulo e Campinas.
Figura 1 – Mapa com rota rodoviária entre as cidades de São Paulo e Campinas
Fonte: Google Maps.
Você deve ter notado que o mapa oferece informações como: rota mais rápida entre as duas 
cidades, marcada em azul, e rotas alternativas entre as duas cidades, marcadas em cinza; cidades 
intermediárias ao ponto de partida e ao ponto de chegada; cidades vizinhas; outras estradas da ma-
lha rodoviária, com suas respectivas numerações; localização de parque de preservação ambiental 
entre outras informações pertinentes ao trajeto. Ao mesmo tempo que traz essas informações, 
o mapa deixa de registrar, nessa escala, riachos que existem na região, ou postos de gasolina ao 
longo da estrada, ou fazendas entre as duas localidades. Por que o mapa não registra esses itens? 
Vídeo
Língua Portuguesa I: Fonética e Fonologia50
Quem o elaborou não sabia que existem postosgasolina ao longo da rodovia que liga São Paulo a 
Campinas? A questão não é essa. O que leva o cartógrafo a privilegiar algumas informações, em 
detrimento de outras, ao elaborar um mapa, é a própria natureza do mapa, visto que uma repre-
sentação. Nesse caso específico, uma representação do percurso que liga São Paulo a Campinas. 
Qualquer representação privilegia algumas informações em detrimento de outras. Afinal, se uma 
representação contiver todos os elementos do seu alvo, ela deixa de ser uma representação e passa 
a ser a reprodução do próprio alvo. Em outras palavras: se o mapa contivesse cada árvore que existe 
no percurso entre São Paulo e Campinas, cada buraco no asfalto, e todos os demais elementos da 
paisagem, o mapa seria o próprio percurso. E, consequentemente, se tornaria inútil1.
Assim também a escrita, como representação da fala, privilegia certos aspectos da fala e ta-
citamente deixa outros de lado.
Que aspectos da fala a escrita desconsidera? Geralmente, a escrita desconsidera a variabili-
dade de pronúncia dos sons. Note, por exemplo, que o último som da palavra mar pode ser pro-
nunciado de diversas maneiras diferentes, a depender da região do Brasil da qual provém a pessoa 
que a pronuncia. Ora, se a escrita propusesse um símbolo para cada pronúncia diferente desse som, 
teríamos pelo menos três símbolos diferentes. A alfabetização se tornaria um processo muitíssimo 
demorado e custoso, e a própria inteligibilidade de um texto escrito poderia ser comprometida, já 
que o falante de um registro do português brasileiro teria de dominar os sistemas de escritas de 
todos os dialetos da nossa língua. Nada prático, não é mesmo?
Além da variabilidade de pronúncia dos sons, a escrita deixa de registrar muitos fatos pro-
sódicos, relacionados à “melodia da fala”. Você já se perguntou a razão pela qual nós grafamos a 
palavra muito como MUUUUUUUITO? Essa grafia, mais recorrente em redes sociais, tenta apro-
ximar a escrita da fala: a caixa alta retrata a maior intensidade com que a palavra é pronunciada, 
comparativamente às outras palavras do enunciado no qual essa se encontra. A repetição de uma 
ou das duas vogais expressa uma duração maior desses sons, relativamente aos demais. Em suma, 
esse recurso busca registrar, na escrita, a maior intensidade e a maior duração com que a palavra 
é pronunciada. E os usuários da língua lançam mão dele porque o sistema de escrita não propor-
ciona outro meio de expressar foco, isto é, a pronúncia de uma palavra com maior intensidade e 
duração do que as demais palavras em um enunciado.
Outra observação importantíssima para nosso estudo e que se relaciona à analogia entre mapa 
e escrita que estamos traçando aqui: tente colocar o dedo sobre o ponto que indica São Paulo no mapa. 
Agora, percorra, com o dedo, o traçado do trajeto até Campinas. Você fez efetivamente o trajeto entre 
as duas cidades? Chegou a Campinas? Certamente não. Provavelmente você continua no mesmo 
lugar onde estava quando começou a ler este parágrafo. Por quê? Porque o mapa rodoviário não nos 
transporta de um lugar a outro. Ele apenas dá a representação das rotas possíveis entre dois pontos. 
1 O escritor argentino Jorge Luis Borges (1899-1986) tem um conto breve , em espanhol, exatamente sobre a inutili-
dade de um mapa com as mesmas dimensões do território que representa. Para ler o conto, acesse: https://ciudadseva.
com/texto/del-rigor-en-la-ciencia/. Acesso em: 11 dez. 2018.
Uma notação para os sons da fala 51
A escrita obedece ao mesmo princípio: as letras não têm som! Elas representam um ou alguns sons, 
mas nenhuma delas tem som propriamente. Em resumo: não é só o <h> que é mudo.
Todas as letras são mudas. E está na hora de parar de repetir esse equívoco, você não acha? 
Então, comece dando o exemplo, e passe a observar que uma letra “escreve” ou “representa” um 
som. Finalmente: da mesma maneira que há mais de uma rota ligando dois pontos, como no exem-
plo do nosso mapa, pode haver mais de uma letra para representar o mesmo som. Ou, ao contrário, 
uma letra pode representar mais de um som. Vejamos o Quadro 1, a seguir. Ele ilustra exatamente 
esse ponto que comentamos. A título de esclarecimento, podemos chamar letras de grafemas, por 
isso, os dois termos são usados como sinônimos nesta obra. Eles são sempre anotados entre < >, 
como você já viu e continuará vendo, sempre que nos referirmos a essas unidades.
Quadro 1 – Exemplo da falta de correspondência entre grafemas e sons da fala
Uma letra – vários sons Várias letras – um som
Letra Som Exemplo Letra Som Exemplo
<x> [s] próximo <s> sapo
[z] exame <ss> [s] massa
[kIs] táxi <c> cebola
[ ∫ ] enxada <ç> aço
exceção2 <z> paz
<c> [k] kasa <c> [k] casa
<c> [s] cebola <qu> queijo
[e] telha <g> [g] gato
<e> [ε] teto <gu> gueto
[I] peixe
<x> [ ∫ ] xícara
[o] povo <ch> chácara
<o> [ɔ] nova
[ʊ] povo <g> [Ʒ ] tigela
<j> berinjela
Fonte: Elaborada pela autora.2
2 Note que, neste caso, a letra <x> preserva uma informação histórica: ela faz parte do prefixo latino ex-, que significa 
“para fora”, mas ela não anota som algum.
Língua Portuguesa I: Fonética e Fonologia52
A falta de correspondência entre sons e grafemas não é exclusiva do português. Em inglês, é 
célebre a brincadeira, atribuída, provavelmente por equívoco, ao escritor George Bernard Shaw, e 
segundo a qual ghoti poderia muito bem escrever fish, já que a sequência <gh> escreve a fricativa 
lábio-dental surda [f], como em enough, ou que <o> anota a vogal [I], como em women ou, ainda, 
que <ti> representa a consoante fricativa pós-alveolar surda, como em action, assim como <s> 
representa a mesma consoante fricativa no final da palavra fish3.
Vamos estender um pouco mais o problema da falta de correspondência entre letra e som e 
observar que ele acontece não só dentro de uma mesma língua, mas, obviamente, entre línguas di-
ferentes. Assim, em inglês a sequência <ph> escreve o som que em português escrevemos com <f>.
Os pontos comentados até aqui – uma mesma letra que representa vários sons; letras dife-
rentes que representam o mesmo som; fatos prosódicos que a escrita não consegue representar; 
mesma letra que representa sons diversos em línguas diferentes – devem ter deixado clara a ad-
moestação que abre este capítulo: ao fazer Fonética e Fonologia, esqueça que a escrita existe!
Como fazer, então, para representar os sons da fala sem incorrer em ambiguidades como as 
mencionadas até aqui para, dessa forma, atingir objetivos como a descrição dos sistemas sonoros 
de uma língua ou a comparação entre sistemas sonoros de línguas distintas?
4.2 O Alfabeto Fonético Internacional (IPA)
4.2.1 Breve história do IPA
Considerando os problemas apontados anteriormente, alguns foneticistas se 
reuniram e constituíram, no final do século XIX (mais especificamente em 1886), a 
Associação Internacional de Fonética. Um dos objetivos dessa associação era criar 
um sistema que pudesse ser utilizado para anotar os sons das línguas do mundo. 
Dois anos depois, em 1888, surgiu a primeira versão desse sistema, que se convencionou chamar 
Alfabeto Fonético Internacional (IPA)4, publicado inicialmente por um dos membros fundadores da 
Associação Internacional de Fonética, o francês Paul Passy (1859-1940).
Já na primeira formulação do IPA, os foneticistas consideravam que essa ferramenta de-
veria fornecer um sinal para representar um, e apenas um, som da fala. Nesse objetivo reside, 
portanto, a principal diferença entre o Alfabeto Fonético e os sistemas de escrita alfabética. Além 
disso, outro ponto de distanciamento entre o IPA e os sistemas de escrita é que os foneticistas 
3 Para saber um pouco mais sobre a brincadeira com a grafia da palavra fish, você pode acessar: https://www.nytimes.
com/2010/06/27/magazine/27FOB-onlanguage-t.html. Acesso em: 12 dez. 2018.
4 A sigla corresponde ao nome inglês deste alfabeto, International Phonetic Alphabet. Como ela é largamente utiliza-
da – inclusive no Brasil –, optamos por mantê-la também aquineste texto.
Vídeo
Uma notação para os sons da fala 53
que o elaboraram previam que essa ferramenta fosse universal, isto é, que um mesmo símbolo 
fosse utilizado para representar um mesmo som entre as diferentes línguas. Como você deve ter 
percebido, essas medidas visavam justamente desfazer as ambiguidades dos sistemas de escrita 
às quais nos referíamos anteriormente.
Havia, porém, na formulação do IPA, um problema a ser contornado: o número de grafemas 
era muito menor que o de sons da fala. Como fazer, então, para prover símbolos que represen-
tassem os sons? Paul Passy e seus colegas da Associação Fonética Internacional decidiram que 
usariam tantas letras do alfabeto romano quanto fosse possível, devendo ser mínimo o emprego 
de novas letras. Assim, além de utilizar letras minúsculas, o IPA usa suas versões maiúsculas. Por 
exemplo: [b] é a oclusiva bilabial sonora; [B], a vibrante bilabial sonora. No entanto, essa medida 
não foi suficiente para se conseguir representar todos os sons da fala documentados até então. 
Assim, incorporaram-se ao IPA algumas letras do alfabeto grego: [β], por exemplo, anota a con-
soante fricativa bilabial sonora. Quando todas as possibilidades de se recorrer a sistemas alfabéti-
cos se esgotou, novas fontes foram criadas, sempre com a preocupação de que elas lembrassem, de 
alguma forma, as fontes já existentes e que representassem um som aparentado.
Observe que essas orientações subjacentes à elaboração do IPA continuam sendo seguidas, 
muito embora se tenha, hoje, uma versão diferente para o IPA, relativamente àquela primeira, de 
1888. Isso porque o IPA passa por revisões constantes, as quais visam, especialmente, introduzir 
novos símbolos para a representação de sons que até então não haviam sido documentados, ou 
propor ainda novos símbolos para sons já documentados, mas cuja notação é ambígua, pela proxi-
midade gráfica com a notação de um outro som. A modificação mais substancial pela qual o IPA 
passou ocorreu em 1989, porém a mais recente data de 1993. Depois disso, houve atualizações do 
quadro de sons em 1996 e em 2005.
Na revisão de 1993, por exemplo, foi acrescentado um símbolo para a vogal central meio 
aberta, arredondada, passando o símbolo que a representava anteriormente a anotar a vogal central 
meio aberta, não arredondada. Na revisão de 2005, houve a introdução do símbolo para o tap labio-
dental, um som encontrado, majoritariamente, em línguas da África Central. Articulatoriamente, 
realiza-se de início com o lábio inferior tocando de forma rápida os dentes superiores, como que 
em uma ligeira batida. Para isso, o lábio se coloca por dentro do trato. Nesse momento, há inter-
rupção da passagem do ar no trato. Imediatamente em seguida, o lábio desfaz essa constrição e a 
passagem do ar é liberada.
O Quadro 2, a seguir, traz o Alfabeto Fonético Internacional em sua versão de 2015, tradu-
zida por esta autora5.
5 Você pode encontrar a versão original do quadro no site da Associação Fonética Internacional. Disponível em: https://
www.internationalphoneticassociation.org/content/ipa-chart. Acesso em: 12 dez. 2018.
Língua Portuguesa I: Fonética e Fonologia54
Quadro 2 – O Alfabeto Fonético Internacional na versão de 2015
Fonte: IPA, 2016, traduzido pela autora.
Uma notação para os sons da fala 55
4.2.2 Notas sobre convenções do IPA
Comecemos com o quadro das consoantes – o maior deles, na porção superior do qua-
dro geral.
Devemos observar, primeiramente, que o quadro se organiza em função dos parâmetros 
articulatórios empregados na caracterização das consoantes: ponto de articulação, modo de articu-
lação e sonoridade. Assim, os pontos de articulação encontram-se dispostos nas colunas e seguem 
a ordem que os articuladores ocupam no interior do trato vocal, desde os lábios até a glote. Sobre o 
ponto retroflexo, não há um lugar no trato específico para sua realização, o que gera controvérsias 
sobre considerá-lo de fato como um ponto. Além disso, o principal correlato articulatório de um 
som retroflexo é a posição da língua: no geral, a ponta da língua curva-se sobre o dorso. Esse fato 
coloca a questão da pertinência em se considerar o retroflexo não como ponto, mas como modo 
de articulação. Como essa é uma discussão ainda não resolvida, optamos, aqui, por considerar o 
retroflexo um ponto de articulação.
Os modos de articulação estão dispostos nas linhas, e vão desde o modo que oferece total 
obstrução à passagem do ar no trato – oclusivas (ou plovisas) – até o modo de articulação que ofe-
rece pouca resistência à passagem do ar no trato (aproximantes).
A sonoridade, por sua vez, é disposta de modo que as consoantes sonoras ocupem a porção 
direita das células onde se encontram e, as surdas, a porção esquerda, conforme se lê na observação 
ao pé do quadro das consoantes.
Portanto, cruzando-se linha e coluna, além da informação sobre sonoridade, chegamos à 
classificação de um, e apenas um, som consonantal. Assim, se cruzarmos o ponto de articulação al-
veolar com o modo de articulação fricativo e focalizarmos a porção esquerda do quadro, chegamos 
ao som [z], uma fricativa alveolar sonora. Frisamos, aliás, que a maneira de nomear uma consoante 
sonora é esta: mencionamos seu modo de articulação, em seguida seu ponto e, finalmente, sua so-
noridade. Outro ponto importante a ser comentado: a maneira de anotarmos a transcrição fonética 
é colocando sempre os símbolos do IPA entre colchetes. Dessa forma, temos: <f> anota a letra; [f] 
anota o som fricativo lábio-dental surdo.
Voltando à maneira como o IPA é elaborado: você deve ter reparado que há algumas cé-
lulas em branco no quadro das consoantes e outras sombreadas. O que significa isso? As células 
em branco indicam um som fisiologicamente possível, considerando-se o cruzamento de ponto, 
modo de articulação e sonoridade. As células sombreadas, por sua vez, indicam sons cuja produ-
ção se considera fisiologicamente impossível. Assim, por exemplo, seria impossível produzir uma 
consoante oclusiva glotal surda porque, para se articular uma oclusiva glotal, é necessário que as 
pregas vocais se unam, impedindo que o ar passe pela glote. Por outro lado, para produzir um som 
surdo, é necessário que as pregas estejam afastadas. A articulação desse som, portanto, envolveria 
movimentos articulatórios completamente antagônicos, daí a previsão de sua impossibilidade.
Na tabela das vogais, o movimento ântero-posterior do dorso da língua é expresso nas colu-
nas, observando-se ali no quadro as séries das vogais frontais, centrais e posteriores. O movimento 
da mandíbula é expresso nas linhas, de modo a se considerar desde a posição fechada até a aberta, 
Língua Portuguesa I: Fonética e Fonologia56
passando pelas vogais médias, isto é, as meio fechadas e meio abertas. O movimento dos lábios, por 
sua vez, é expresso da seguinte maneira: você deve ter reparado que, se cruzarmos a informação 
relativa às posições de dorso e abertura de mandíbula, chegamos a dois símbolos. Assim, por exem-
plo, para a posição de dorso frontal e movimento da mandíbula fechado, temos o par [i, y]. Nele, 
a vogal da esquerda é um som não arredondado, enquanto a da direita é arredondado. A mesma 
convenção – vogal da esquerda, não arredondada; vogal da direita, arredondada – vale para todo 
o quadro.
Você deve ter notado, ainda, a presença do quadro das consoantes não pulmônicas. Essas 
consoantes opõem-se às demais – presentes no quadro maior e denominadas pulmônicas6 – pelo 
fato de não utilizarem o ar egresso dos pulmões para sua produção, mas a corrente de ar que se 
forma na glote (para ejetivas e implosivas) ou no véu (para os clicks7). Assim, na produção das ejeti-
vas, a glote é levantada, concomitantemente à realização de oclusão ou constrição na cavidade oral.
Os clicks, por sua vez, são oclusivas para cuja produção o componente essencial é a rarefação 
do ar entre duas oclusões formadas na cavidade oral. A maneira de se mover o ar na produção dos 
clicks é denominada mecanismode corrente de ar vélico. É sempre ingressivo, e não pode ser usado 
por outros sons além de oclusivas e africadas8 (LADEFOGED; MADDIESON, 1996, p. 246, tradu-
ção nossa). Essas consoantes encontram-se majoritariamente em línguas africanas. Na década de 
1970, uma cantora africana, Miriam Makeba, tornou famosa a música “The click song” (“a canção 
do click”), na qual há uma série de palavras da língua xhosa contendo clicks. Para você ter uma ideia 
aproximada de como os clicks soam, considere que eles se assemelham a estalos, como aqueles que 
nós fazemos quando queremos imitar o som do trote de um cavalo.
Além dos quadros comentados anteriormente, o IPA disponibiliza um quadro adicional 
para os “outros símbolos”, que contempla sons nos quais há a sobreposição de alguma manobra ar-
ticulatória às outras necessárias para sua produção ou manobras articulatórias realizadas concomi-
tantemente em pontos distantes do trato vocal. É o que acontece com [w], a aproximante labiovelar 
sonora, que existe em ditongos do português, como em meu ou sal. Nela, há ação de lábios, que se 
arredondam e se projetam para a frente, concomitante à retração e elevação do dorso da língua em 
direção ao véu palatino. Da maneira como o quadro principal das consoantes é elaborado, torna-se 
impossível registrar nele um som que é produzido em dois pontos do trato vocal.
Os diacríticos, por sua vez, são símbolos empregados para registrar fatos como qualidade 
de voz (por exemplo, sussurrada) sobreposta à realização dos segmentos. A nasalização também é 
marcada por um diacrítico, como se vê no quadro. Na verdade, é o mesmo sinal gráfico que em-
pregamos na escrita. Eles podem marcar, ainda, nuances relacionadas à ação de algum articulador, 
como maior ou menor arredondamento dos lábios, maior ou menor retração do dorso da língua.
6 As consoantes pulmônicas dependem do ar egressivo – que vem para fora e se origina dos pulmões.
7 Não há um termo em português para traduzir click. Por isso utilizamos o termo original.
8 “Clicks are stops in which the essencial component is the rarefaction of the air enclosed between two articulatory closures 
formed in the oral cavity, so that a loud transient is produced when the more forward closure is released. The means of moving 
the air in the production of clicks is called the velaric airstream mechanism. It is always ingressive, and cannot be used for 
sounds other than stops and affricates.”
xhosa: língua bantu, 
com aproxima-
damente 8 mi de 
falantes, um dos 
idiomas oficiais da 
África do Sul.
Uma notação para os sons da fala 57
Por fim, o IPA oferece uma notação para aspectos suprassegmentais, ou aspectos pro-
sódicos, é necessário esclarecer que esses aspectos se espalham para além dos limites de um 
segmento, ou som. Assim, por exemplo, o acento primário não recai sobre um som só, mas 
sobre toda a sílaba acentuada. Ela é mais intensa (mais “forte”) e, em algumas línguas, mais 
longas do que as sílabas não acentuadas.
Cuidado: quando nos referimos a acento falamos justamente da proeminência de um ou al-
guns sons. A proeminência se traduz em maior intensidade e, eventualmente, também em maior 
duração de um som ou alguns sons, comparativamente aos demais sons de uma palavra. Não nos 
referimos ao acento gráfico: note que as palavras, em geral, têm uma sílaba que é mais forte que as 
demais, independente de essa sílaba mais forte ser marcada na ortografia por um acento gráfico. 
Assim, por exemplo, na palavra casa, a sílaba “ca” é mais forte, mas não usamos acento gráfico para 
marcá-la, diferentemente da palavra pôquer, em que a primeira sílaba, “po” é mais forte que a segunda 
e leva acento gráfico.
Além do acento, as pausas são aspectos suprassegmentais, mas o IPA só nos permite dis-
tinguir entre pausas breves e longas. Essa é uma limitação da ferramenta, pois é possível fazermos 
pausas de duração intermediária a uma breve e outra longa.
4.2.3 Como o IPA analisa a fala
Subjacentes à confecção do quadro do IPA que vimos, há uma série de assunções teóricas 
sobre a análise da fala. De acordo com o Handbook of the International Phonetic Association (1995), 
as assunções seriam as seguintes:
• alguns aspectos da fala são linguisticamente relevantes, enquanto outros não são 
(admitindo-se isso, a consequência será que o IPA nos possibilita representar muitos fatos 
presentes na fala, mas não todos. Assim, fatos como velocidade de fala são excluídos desse 
sistema notacional);
• a fala pode ser em parte representada como uma sequência de sons discretos, ou segmen-
tos (como consequência, é impossível anotar, por meio do IPA, fatos coarticulatórios que 
decorrem da influência que a articulação de um som exerce sobre seus vizinhos e que são 
fatos corriqueiramente presentes na fala, dado que não produzimos os sons estanques, 
mas encadeados);
• os segmentos podem ser divididos em duas categorias maiores, a das consoantes e a das 
vogais (como decorrência, propõem-se tratamentos distintos para uma categoria e outra, 
embora tanto consoantes como vogais sejam produzidas todas no mesmo lugar, com uso 
dos mesmos mecanismos);
• além dos segmentos, vários aspectos prosódicos, como acento ou tom, têm de ser repre-
sentados independentemente dos segmentos.
Algumas das assunções teóricas que fundamentam a elaboração do IPA, como a primeira 
que elencamos neste item, fazem com que essa ferramenta não consiga contemplar toda a dina-
micidade da fala, que, como também mencionado anteriormente, não se realiza como um fato 
estanque, mas contínuo. Colocando de outra maneira: ao produzirmos uma palavra como [ˈtɔ.kɐ] 
Língua Portuguesa I: Fonética e Fonologia58
(toca), quando a ponta da língua toca os alvéolos, o dorso da língua começa a se elevar e se poste-
riorizar para produzir a vogal seguinte. No momento em que nos encaminhamos para finalizar a 
produção dessa vogal, o dorso da língua se retrai e se eleva um pouco mais para articular a oclusiva 
velar, e assim por diante.
Por isso, é muito importante que consideremos o IPA como uma ferramenta que representa 
os sons da fala e que, por isso, não reproduz fidedignamente esses sons. Qualquer emprego que se 
faça do IPA, trará representações acerca da realização de uma determinada cadeia sonora, mas não 
trará a própria cadeia sonora.
4.2.4 Possíveis empregos do IPA
Mas para quê, afinal, utilizamos o IPA? Dentro da Linguística, o IPA pode ser empregado 
para registrar os dados de uma língua durante um trabalho de campo. Há línguas que ainda não 
foram estudadas – total ou parcialmente –, como algumas línguas indígenas. Nesses casos, o pri-
meiro passo para se proceder ao estudo dessas línguas é colher dados junto a seus falantes nativos 
para identificar, por exemplo, quais são os seus sons, como ela organiza seu sistema sonoro, isto 
é, quais as sequências de sons permitidas, quais as sequências de sons evitadas, como os sons se 
organizam em unidades maiores, como as sílabas. Ou, ainda, como é a estrutura prosódica da lín-
gua, onde recaem os acentos, como se realizam segmentos tônicos em contraposição aos átonos, e 
assim por diante.
No caso de essas línguas serem ágrafas – isto é, não possuírem um sistema de escrita –, o IPA 
pode formar a base de um sistema de escrita para elas. Isso porque o primeiro passo para se propor 
qualquer sistema de escrita de base fonológica é saber qual é o inventário de sons de uma língua e 
como eles se organizam.
Ainda dentro da Linguística, o IPA pode ser utilizado em trabalhos de dialetologia, para 
descrever os diferentes dialetos de uma língua e, eventualmente, compará-los, buscando verificar 
semelhanças e diferenças entre eles quanto ao nível sonoro.
O IPA pode ser utilizado também para indicar a pronúncia das palavras em um dicionário. 
Dessa forma, os falantes não nativos de uma determinada língua podem ter informações sobre a 
pronúncia de certos sons daquela língua na variante eleita pelo lexicógrafo ao elaborar o dicionário9. 
É possível, desse modo, saber se umadada vogal é reduzida ou não, é longa ou breve, é centralizada 
ou frontal, por exemplo.
Podemos, ainda, empregar o IPA para realizar primeiras anotações sobre os eventos 
presentes na cadeia da fala durante uma inspeção inicial de dados, para que o pesquisador possa ter 
uma noção dos fatos que ocorrem ali e, assim, elaborar uma metodologia que o permita investigar 
detidamente esses fatos.
9 Deve ficar claro, aliás, que, assim como o português, as línguas estrangeiras exibem variação dialetal. Dessa for-
ma, o inglês falado em Nova Iorque tem diferenças quanto ao inglês falado em Los Angeles. Da mesma maneira, por 
exemplo, que o francês falado em Paris difere do francês falado em Strasburgo. Por isso, ao elaborar um dicionário e 
oferecer uma transcrição fonética para cada entrada, os lexicógrafos precisam fazer uma escolha pelo dialeto que de-
sejam retratar na transcrição. Essa escolha não significa que um dialeto seja melhor que outro, em absoluto. A escolha 
pode se pautar em critérios completamente externos à Linguística, como o maior prestígio de um dialeto sobre outros.
Uma notação para os sons da fala 59
Mas não é só dentro da Linguística que o IPA encontra aplicação. Fonoaudiólogos utilizam o 
IPA como um registro da fala de pessoas que os procuram com alguma queixa fonoaudiológica ou 
patologia de fala. Com base nesse registro, os fonoaudiólogos podem verificar sobre quais aspectos 
da fala há desvios, relativamente à fala sem distúrbios, e, então, propor um procedimento terapêu-
tico para tentar sanar a queixa de seus pacientes.
Também os músicos utilizam o IPA: aos cantores eruditos interessa saber como são 
pronunciados os sons de palavras de uma canção em língua estrangeira, porque um som pode 
corresponder a uma nota musical, ou dois sons podem ser produzidos no tempo de uma nota, 
por exemplo. Saber como se pronuncia tais sons, portanto, é imprescindível para que os cantores 
consigam reproduzir as canções sem incorrer em imprecisões ou até erros. Por isso, muitas vezes 
faz-se a transcrição fonética das canções.
Mais recentemente, criadores de línguas artificiais (ou, no inglês, conlangs, encurtamento da 
expressão constructed languages) usam o IPA para registrar os sons que suas línguas deverão ter, as 
sequências de sons permitidas nessas línguas, e assim por diante10.
4.2.5 Como se faz a transcrição fonética?
Agora que já sabemos que é preciso haver uma notação específica para registrar os sons 
da fala – buscando-se uma correspondência biunívoca entre um símbolo e um som –, que há 
toda uma concepção de como seja a fala, orientando a confecção dessa notação e quais são os 
possíveis empregos desse sistema notacional, nós podemos nos perguntar: como, afinal, é feita 
a transcrição fonética?
O primeiro passo, obviamente, é gravar a fala dos sujeitos que queremos investigar. A grava-
ção, frisamos, deve ser necessariamente feita com o consentimento dos sujeitos e, de preferência, 
em um lugar silencioso, sem muito ruído externo. Uma gravação muito suja pode comprometer 
a inteligibilidade da fala e, consequentemente, o trabalho do pesquisador. O ideal é colher dados 
de fala em cabine com tratamento acústico, mas, como isso nem sempre é possível, é aconselhável 
buscar um ambiente silencioso para realizar a tarefa.
Tendo colhido os dados, procedemos, então, à transcrição. Para isso, ouvimos repetidamente 
os dados coletados, procurando perceber os sons que se sucedem na cadeia da fala e atentando para 
sua articulação: em que ponto do trato são produzidos, de que modo, se são surdos ou sonoros – 
no caso das consoantes – ou se são arredondados, frontais ou posteriorizados, no caso das vogais.
Identificado o som, nós o anotamos. Para isso, cruzamos as informações relativas à caracte-
rização articulatória desse som e procuramos, na tabela do IPA, o símbolo correspondente a essa 
caracterização. Um som fricativo pós-alveolar sonoro, como aquele que ocorre no início da pala-
vra janela será anotado pelo símbolo [Ʒ ]. Um som vocálico, posterior meio fechado, arredondado, 
como o último som da palavra avô, por sua vez, será anotado pelo símbolo [o]. E assim por diante, 
até o último som do enunciado.
10 Se você quiser ter uma ideia de quais são e como são essas línguas inventadas, acesse: http://pt.conlang.wikia.com/
wiki/Lista_de_conlangs. Data de acesso: 12 dez. 2018. Pode ser que você resolva inventar uma língua também!
Língua Portuguesa I: Fonética e Fonologia60
Uma informação adicional: toda a transcrição fonética é anotada entre colchetes [ ], como 
acabamos de fazer, no parágrafo anterior, para anotar os dois sons que nos serviram de exemplo. 
Observe, porém, que os colchetes são abertos no início do registro da fala de um sujeito e se fecham 
quando o registro de fala termina. Eles sinalizam que tudo o que está dentro deles é som de fala, e 
não registro escrito.
Pronto! Já temos a transcrição! Mas deve ficar claro que realizá-la não é o objetivo último da 
Fonética. É, antes, um dos primeiros passos que um foneticista dá para investigar o nível sonoro de 
uma língua, porque ela nos permite registrar os sons da fala e suas variações. De qualquer forma, 
por ser base de toda a investigação fonética, é importante que a transcrição seja acurada e cuidado-
sa; eventuais falhas podem induzir a erros de análise.
4.2.6 IPA e as consoantes do português brasileiro
Para auxiliá-lo em sua tarefa de transcrever foneticamente registros do português brasileiro, 
dispomos na Figura 2 um esquema do trato vocal com a indicação dos sons consonantais que uti-
lizamos na nossa língua e os pontos onde os produzimos.
Figura 2 – Exemplos de sons consonantais do português brasileiro dispostos nos pontos de articulação 
onde ocorrem.
Fonte: Elaborada pela autora.
Uma notação para os sons da fala 61
Algumas notas importantes:
• As consoantes transcritas entre colchetes são os sons exemplificados para o ponto de arti-
culação. Optamos por deixar o restante da palavra transcrita ortograficamente como uma 
maneira de ressaltar o som visado no exemplo.
• A maioria dos sons da Figura 2 é exemplificada em mais de um dado, para deixar claras 
as posições que a consoante pode ocupar no interior das palavras.
• Os sons fricativos posteriores, isto é, velares, uvulares e glotais podem funcionar como 
sons de /r/ e variam em função do dialeto dos indivíduos. Podem até mesmo variar na fala 
de uma mesma pessoa. Essa é a razão pela qual utilizamos a mesma palavra para exempli-
ficar todos esses sons na figura que segue.
• As consoantes africadas reúnem características de consoantes oclusivas e fricativas ao 
mesmo tempo, conforme vimos no Capítulo 2. Como a Figura 2 traz uma disposição 
linear para a produção dos sons no trato vocal, não foi possível registrar as consoan-
tes africadas. Porém, cabe acrescentar que as consoantes iniciais das palavras tia e dia, 
produzidas em um dialeto como o carioca, por exemplo, começam no ponto alveolar e 
terminam no ponto pós-alveolar. A diferença é que na primeira palavra a africada é surda 
e, na segunda, sonora.
• Não há um ponto de articulação retroflexo propriamente, conforme observamos ao co-
mentar esse ponto, mais cedo neste capítulo. Por isso a aproximante retroflexa não está 
registrada na Figura 2. Cabe mencionar, porém, que também ela é variante de /r/ e pode 
ocorrer em palavras como po[ɻ]ta; pa[ɻ]; p[ɻ]umo. Em alguns registros, como o da região 
de Piracicaba (SP) a aproximante retroflexa pode mesmo acontecer entre vogais, como 
em a[ɻ]a[ɻ]a.
• Finalmente, é preciso notar que o retroflexo que temos no português brasileiro não é pro-
priamente igual ao que acontece no inglês. Para saber mais sobre essa questão, você pode 
acessar a dissertação de mestrado de Irineu Ferraz, defendida em 2005 na Universidade 
Federal do Paraná11.
Uma nota adicional: você pode obter todas as fontes do IPA e digitá-las em um texto aces-
sando o site do Type ipa12. É possível usar o teclado virtual do site para registrar uma transcrição 
fonéticae exportá-la para um texto, mediante as operações “recorta” e “cola”. A vantagem do “Type 
ipa” é que ele gera as fontes em formato de imagem e, por isso, não corremos o risco de desconfigu-
rar os símbolos do IPA, em razão de versões diferentes de um programa editor de textos.
11 FERRAZ, I. S. Características fonético-acústicas do /r/ retroflexo do português brasileiro: dados de informantes de Pato 
Branco (PR). 2005. 124 f. Dissertação (Mestrado em Linguística) – Pós-Graduação em Letras, Universidade Federal do 
Paraná, Curitiba, 2005. Disponível em: https://acervodigital.ufpr.br/handle/1884/3955. Acesso em: 28 fev. 2018.
12 Disponível em: http://ipa.typeit.org/full/. Acesso em: 12 dez. 2018.
Língua Portuguesa I: Fonética e Fonologia62
Atividades
1. Por que o alfabeto não é uma ferramenta útil para representar cada som da fala, isoladamente?
2. Como o Alfabeto Fonético Internacional (IPA) veicula as informações acerca das caracterís-
ticas articulatórias de vogais e consoantes?
3. O IPA – e a transcrição fonética – são utilizados exclusivamente por linguistas? Explique.
5
Prosódia
5.1 A melodia dos sons da fala
Imagine a fala de um robô – ou pelo menos as imitações correntes que se 
fazem para ela, em filmes, por exemplo, na primeira versão da série Perdidos no 
espaço1. Qual é a principal diferença entre a fala de um robô e a fala de seres huma-
nos? Certamente você terá notado que, por melhor que o robô articule cada um dos 
sons constituintes dos enunciados que é capaz de produzir, sua fala é monotônica, 
isto é, não é dotada de uma “melodia”, o que a faz ser percebida como um fato desprovido de sen-
timentos e emoções.
O que confere à fala dos seres humanos sentimentos e emoções é um fato que chamamos 
de prosódia, que, como nos ensina Couper-Kuhlen (1986, p. 1, tradução nossa), em seu manual de 
prosódia, pode ser assim definido:
O termo “prosódia” remonta aos gregos, que usavam a palavra “prosódia” 
para referir-se aos traços da fala que não eram indicados pela ortografia, 
especificamente ao tom ou ao acento melódico que caracterizavam as pala-
vras do Grego Antigo. Mais tarde, os símbolos ortográficos que refletiam os 
acentos tonais foram introduzidos e eles também ficaram conhecidos como 
prosódias. As sílabas que carregavam uma prosódia aguda no Grego Antigo 
eram produzidas num tom alto, enquanto as sílabas com uma prosódia gra-
ve tinham tom baixo, e aquelas com uma circunflexa tinham um tom alto, 
seguido de um baixo. A prosódia foi então associada, desde cedo, aos traços 
melódicos da língua falada2.
Mais tarde, ainda segundo a autora, o termo prosódia ganhou um sentido mais amplo, pas-
sando a designar os traços que não se expressam na sucessão segmental de consoantes e vogais, 
1 Você pode assistir por meio do link: https://www.youtube.com/watch?v=GydbuH4C8QA. Acesso em: 12 dez. 2018.
2 No original, lê-se: “The term prosody itself can be traced back to the Greeks, who used the Word prosody to refer to featu-
res of speech, which were not indicated in orthography, specifically to the tone or melodic accent which characterized full words 
in ancient Greek. Later, orthographic symbols which reflected the tonal accents were introduced and they too became known as 
prosodies. Syllables which bore an acute prosody in ancient Greek were spoken on a high tone, syllables with a grave prosody 
were said on a low tone, and those with a circumflex were given first a high, then a low tone. Prosody was thus associated from 
the very beginning with the melodic features of spoken language”.
Vídeo
Língua Portuguesa I: Fonética e Fonologia64
como duração e acento3, além dos tons4 que o sistema ortográfico do Grego Antigo já marcava. 
Com o desaparecimento dos tons no Grego Clássico e sua consequente substituição por acentos, 
o termo prosódia se estreita, passando a denotar distinções de acento, o que levaria essa palavra a 
relacionar-se intimamente com a versificação, por volta do século XV, e dar origem aos estudos em 
prosódia métrica.
Essa relação, porém, permaneceu esquecida até que Firth, um linguista britânico, recuperou 
os estudos em prosódia métrica na década de 1940. Em uma época em que a ênfase dos estudos 
fônicos recaía sobre o nível segmental – isto é, sobre a sucessão de sons na cadeia da fala –, Firth ar-
gumentava a favor de se investigar também os traços que se sobrepunham à cadeia de fala. Assim, 
deu início ao que se denominou análise prosódica, a qual se inseria em uma teoria mais ampla de 
fonologia prosódica. Essa investigação abarcava mais que “força” (ou intensidade), duração e tom, 
fatos até então considerados pelos estudos em fonologia prosódica. Essa análise proposta por Firth 
passava a contemplar também fatos como velocidade de fala, pausa, entoação5, acento e ritmo.
A Linguística atualmente considera todos os fatos anteriormente mencionados nos estudos 
prosódicos, ou suprassegmentais. O que muda, de Firth até nossos dias, é basicamente o arcabouço 
teórico que se utiliza para abordar esses fatos. Aliás, a própria denominação suprassegmental ou 
prosódica carrega em si essa diferença: o termo suprassegmento remonta aos estruturalistas e se re-
fere a fatos secundários, que se sobrepõem aos segmentos, em um nível à parte. O termo prosódia 
é mais corrente na atualidade, como resultado do surgimento de modelos pós-estruturalistas na 
Linguística, como os modelos fonológicos não lineares, de herança gerativista.
Nós nos deteremos aqui a alguns aspectos da prosódia que julgamos ser de interesse mais 
próximo dos leitores, seja porque “conversam” com outros níveis da gramática, seja porque são 
fatos que podem ter uma aplicação mais imediata se consideramos o ensino do português brasi-
leiro como língua estrangeira. O primeiro aspecto a ser abordado será a entoação, pelo fato de nos 
permitir expressar muito do que percebemos, como os sentimentos da fala humana. Em seguida, 
abordaremos foco para, finalmente, abordarmos acento.
3 Esqueça a escrita! Quando nos referimos a acento, ao fazer fonética, definitivamente não falamos do acento gráfico 
que as normas ortográficas prescrevem. Há coincidência entre acento gráfico e acento, claro, mas mesmo as palavras 
que, na escrita, não levam acento gráfico, têm acento em línguas como o português. Assim, por exemplo, pronuncie a 
palavra <menino>. Você deve ter se dado conta de que há uma sílaba mais forte, mais intensa do que as demais, e que 
essa sílaba é <ni>. Considere, agora, outro exemplo: pronuncie em voz alta a palavra <temer>, infinitivo do verbo que sig-
nifica “ter medo”. Agora, pronuncie igualmente a palavra <Temer>, o sobrenome do presidente do Brasil até 2018. Nota 
diferença? Pois é: as sílabas mais intensas mudam de uma palavra para outra. Dizemos, portanto, que a diferença entre 
as palavras está no acento que, como veremos mais adiante neste capítulo, é dado por maior intensidade e maior duração 
em português brasileiro.
4 O termo “tom”, em linguística, remete às variações da frequência fundamental, isto é, a frequência de vibração das 
pregas vocais, que incidem sobre um som ou uma sílaba. Assim, por exemplo, em mandarim, a mesma sequência <wa> 
pode ser pronunciada com diferentes tons, de modo que a frequência fundamental aumente ou diminua ao longo da pro-
dução desse vocábulo. No mandarim, inclusive, a variação de tom se reflete sobre o significado das palavras, dependendo 
do tom empregado – ou seja, se a frequência fundamental aumentar ou diminuir, ou se mantiver neutra ou, ainda, diminuir 
e aumentar durante a produção de <wa> – o significado da sequência será distinto. Assim, <wa>, por exemplo, pode sig-
nificar “pio”, “velho”, “óculos” ou “por favor”, a depender do tom que se sobrepõe aos sons.
5 Usamos aqui o termo entoação para designar os contornos de altura nas línguas, embora também se encontrem na 
literatura os termos entonação e intonação, como frisa Scarpa (1999, p. 16). De qualquer modo, como registrado por Bider-
man (1988) em seu Dicionário didático de português,entoação e intoação são variantes e ambas provêm do latim intonare, 
que significa “proferir com força”.
Prosódia 65
5.2 Entoação
Auditivamente, a entoação se relaciona à percepção do pitch, a qual, por sua 
vez, relaciona-se à frequência de vibração das pregas vocais (ou F0) durante o pro-
cesso de fonação. A entoação pode ser estudada sob diferentes pontos de vista:
• acústico: verificando-se a sucessão das curvas da frequência de vibração das pre-
gas vocais no tempo;
• perceptual: verificando-se a sucessão das curvas de F0 que são percebidas pelos falantes 
de uma língua6;
• mudanças de F0: são significativas em uma língua, no sentido de que essas mudanças 
podem carregar diferenças de sentido.
Em nosso caso, estaremos preocupados especialmente com as mudanças de F0 que podem 
carregar diferenças gramaticais e de sentido7 na língua e, por isso, recorremos inclusive à análise 
acústica8 para traçar as curvas entoacionais das quais trataremos ainda neste capítulo.
5.2.1 Função gramatical da entoação
O que significa, então, dizer que as curvas entoacionais – ou curvas da frequência de vibra-
ção das pregas vocais – podem acarretar diferenças gramaticais? Considere a sentença a seguir:
(i) João comeu biscoito de polvilho
Dessa maneira como está grafada, a frase é completamente ambígua: pode veicular uma 
asserção, uma pergunta, uma dúvida, uma surpresa. Como sabemos, então, qual desses fatos a 
sentença indica? Justamente pela variação de F0, ou da frequência de vibração das pregas vocais. 
Sim, há variação desse parâmetro quando falamos. Afinal, nós não somos robôs, como aquele que 
tomamos como exemplo para começar este capítulo. A variação na frequência de F0, por sua vez, 
serve a propósitos linguísticos, ou seja, ela não é aleatória. Por meio da gravação de sequências 
de fala, podemos proceder a uma análise acústica que gere curvas entoacionais, ou o traçado da 
evolução temporal da frequência fundamental. O exame dessas curvas, por sua vez, nos permitirá 
desfazer a ambiguidade com que nos deparamos de início.
6 Essa distinção se coloca uma vez que não há uma relação direta entre a frequência de vibração das pregas que é 
produzida e aquela que é percebida, ou seja, nem sempre somos capazes de perceber mudanças no pitch sempre que há 
uma variação na frequência de vibração das pregas vocais. Isso se deve às próprias limitações do ouvido humano, que 
não percebe qualquer faixa de frequência.
7 Deve ficar claro, portanto, que assumimos uma interação da prosódia com outros níveis para além do nível fônico. Nesse 
caso específico, prevemos a interação da prosódia com os níveis sintático e semântico da linguagem, respectivamente.
8 A análise acústica será tratada de maneira mais detida em um outro momento, visto que não é objeto deste capítulo.
Vídeo
Língua Portuguesa I: Fonética e Fonologia66
Considere, portanto, que temos a sentença produzida com a seguinte curva entoacional:
Figura 1 – (ii) João comeu biscoito de polvilho (asserção)
Fonte: Elaborada pela autora com o software Praat.
Forma de onda (janela superior) e curva entoacional (janela inferior) 
característica de asserção para a sentença.
A curva descendente ao final do enunciado significa que a frequência de vibração das pregas 
vocais decresce no final, à direita da figura.
Vejamos, agora, a mesma sentença com outra curva entoacional sobreposta:
Figura 2 – (iii) João comeu biscoito de polvilho (interrogação)
Fonte: Elaborada pela autora com o software Praat.
Forma de onda (janela superior) e curva entoacional (janela inferior) 
característica de interrogação para a sentença.
Ao compararmos as curvas entoacionais de (ii) e (iii), notamos que em (iii) o final da 
curva exibe uma trajetória ascendente bem nítida. Trata-se de configuração distinta daquela 
da curva (ii), que, conforme comentamos, apresenta trajetória descendente. Além disso, se 
você observar as curvas entoacionais de (ii) e (iii) no início do enunciado, à esquerda das fi-
guras, deverá perceber que, em (iii) há um pico mais proeminente do que em (ii). Diferenças 
como essas é que levam os linguistas a observarem que os enunciados assertivos do português 
brasileiro se caracterizam por uma curva entoacional com final descendente, enquanto que 
enunciados interrogativos do tipo sim/não são marcados por uma curva entoacional com final 
ascendente e por um pico à esquerda do enunciado.
Prosódia 67
Cabe notar que uma pergunta do tipo “João comeu biscoito de polvilho?” só admite duas 
respostas: sim ou não, daí chamarmos esses enunciados de interrogativas sim/não. Há outro tipo de 
enunciado interrogativo, as sentenças interrogativas abertas, como “O que João comeu?” que, ao 
contrário do enunciado “João comeu biscoito de polvilho?”, permite diversas respostas diferentes, 
por exemplo, “João comeu sopa” ou “João comeu maçã” ou, ainda, “João não comeu nada.” As sen-
tenças interrogativas abertas terão ainda outra curva entoacional associada, diferente entoacionais 
associadas às sentenças (i) e (ii).
Observemos, em seguida, uma outra possível curva entoacional sobreposta ao mesmo enunciado:
Figura 3 – (iv) João comeu biscoito de polvilho (exclamação)
Fonte: Elaborada pela autora com o software Praat.
Forma de onda (janela superior) e curva entoacional (janela inferior) 
característica de exclamação para a sentença.
Note que, neste caso, a linha-base da curva está mais alta do que a linha-base de (ii) e (iii). 
Além disso, o pico da frequência fundamental, à direita do enunciado, é mais baixo do que o pico 
da F0 ao final de (iii). Esses são aspectos que nos permitem atribuir curvas entoacionais desse tipo 
a enunciados exclamativos, que, por exemplo, expressam surpresa.
Há ainda outra possibilidade. Vejamos:
Figura 4 – (v) João comeu biscoito de polvilho (suspensão)
Fonte: Elaborada pela autora com o software Praat.
Forma de onda (janela superior) e curva entoacional (janela inferior) 
característica de dúvida para a sentença.
Língua Portuguesa I: Fonética e Fonologia68
Neste caso, há também uma curva ascendente da frequência fundamental à direita do enun-
ciado e há um pico da frequência fundamental à esquerda. Por outro lado, há uma variação maior 
de F0 entre os dois picos do que aquela que existe em (iii), na Figura 2. Observe que algumas pou-
cas variações de F0 podem veicular diferentes intenções do falante ao produzir um enunciado com 
o mesmo material segmental, isto é, com a mesma sequência de sons.
Retomando o exemplo com que abrimos este capítulo: os robôs dos anos 1970 que conseguiam 
“falar” eram dotados de uma fala desprovida de intencionalidade, porque os sistemas de síntese de 
fala não conseguiam implementar a prosódia de maneira satisfatória. Hoje, como se sabe mais sobre a 
prosódia das línguas e a tecnologia de síntese de fala evoluiu, a fala dos robôs está muito mais próxima 
à dos humanos. Duvida? Veja a robô Sophia9, que tem feito sucesso por ser muito parecida com um 
ser humano.
Por outro lado, é preciso acrescentar que sistemas de síntese de fala não podem ser sim-
plesmente traduzidos de uma língua para outra. É preciso desenvolver sistemas específicos para 
línguas específicas. E ainda há muito que se caminhar com o português brasileiro.
5.2.2 Foco
É possível verificar também a interação da prosódia com outros níveis de análise, como o 
semântico, o que conferiria à prosódia – ainda seguindo a tipologia funcionalista, que adotamos 
na seção precedente, ao abordar a entoação – uma função “informativa”. Observemos, desse modo, 
o mesmo enunciado que tomamos nos exemplos anteriores. É possível produzir algum dos consti-
tuintes desse enunciado com foco, isto é, com uma intensidade maior, decorrente de uma manobra 
articulatória que requer a vibração mais rápida das pregas. O foco, definido por Halliday (1967b, 
p. 204 apud COUPER-KUHLEN, 1986, p. 122, tradução nossa) como um “ponto de proeminência 
dentro da mensagem”, “reflete a decisão do falante sobre o local da sentença onde fica a informação 
principal.É um tipo de ênfase que o falante coloca sobre uma parte da sentença (ou sobre toda ela) 
que o falante quer que seja interpretada como informativa10”.
As sentenças a seguir trazem foco sobre diferentes constituintes. Assim, o(s) constituinte(s) 
sob foco será(ão) grafado(s) em caixa alta:
(v) JOÃO comeu biscoito de polvilho.
(vi) João COMEU biscoito de polvilho.
(vii) João comeu BISCOITO de polvilho.
(viii) João comeu biscoito DE POLVILHO.
(ix) João comeu BISCOITO DE POLVILHO.
9 Você pode conhecer a robô Shopia por meio do link: https://www.youtube.com/watch?v=S5t6K9iwcdw. Acesso em: 
28 dez. 2018.
10 No original, lê-se: “Information focus reflects the speaker’s decision as to where the main burden of the message lies. It 
is… one kind of emphasis, that whereby the speaker marks out a part (which may be the whole) of a message block as that which 
he wishes to be interpreted as informative”.
Prosódia 69
Produzir o primeiro constituinte, “João”, mais proeminente, isto é, com maior intensidade, e, 
portanto, realizar foco sobre ele, como em (v), implica em deixar claro ao meu interlocutor quem 
comeu o biscoito de polvilho, assegurando-lhe que não foi Maria, Ana, José ou Carlos, mas João.
Por outro lado, focalizar o constituinte “comeu”, como em (vi), implica em assegurar ao meu 
interlocutor uma precisão sobre a informação relativa ao ato que João realizou, ou seja, precisar 
que João não assou, não preparou ou não comprou os biscoitos de polvilho, mas comeu-os.
A sentença (vii) introduz informação sobre outro constituinte, de modo a esclarecer ao interlocu-
tor que o que João comeu foram biscoitos de polvilho, e não rosquinhas. Em (viii), por sua vez, precisa o 
tipo de biscoito que João comeu: o foco sobre o constituinte “de polvilho” deixa claro que foram biscoitos 
produzidos com esse ingrediente, e não biscoitos de nata ou água e sal, por exemplo.
Notamos, então, que as sentenças de (v) a (viii) focalizam um constituinte apenas e esse foco, 
dito “estreito”, tem a função de introduzir uma informação nova ao interlocutor, isto é, um dado 
que ele ainda não detém, um fato que desconhece, como a informação sobre quem se está falando 
ou o que se está declarando de uma pessoa – no caso específico desses exemplos – ou ainda sobre 
o que essa pessoa faz.
Na sentença (ix), embora o escopo do foco se alargue um pouco, dado que recai sobre [bis-
coito de polvilho] como um todo, o foco continua introduzindo ao interlocutor uma informação 
nova, concernente àquilo que o sujeito teria comido, precisando o item em questão relativamente 
a outros possíveis alimentos. Assim, assegura-se que o que João comeu foi “biscoito de polvilho”, e 
não torradas ou queijo, ou ainda bolo.
De qualquer modo, quer o foco recaia sobre constituintes maiores, quer o foco recaia so-
bre constituintes menores, em todos os exemplos ele introduz uma informação nova, conforme já 
mencionado. E essas diferenças podem ser vistas traçando-se a curva do pitch de cada sentença. 
Nas figuras que seguem, temos a forma de onda na janela superior e o espectrograma na janela 
inferior. Note que ao espectrograma se sobrepõe uma linha cinza. Ela é justamente o traçado, ou a 
curva, de pitch. Temos, então:
Figura 5 – (v) JOÃO comeu biscoito de polvilho.
Fonte: Elaborada pela autora com o software Praat.
Língua Portuguesa I: Fonética e Fonologia70
Figura 6 – (vi) João COMEU biscoito de polvilho.
Fonte: Elaborada pela autora com o software Praat.
Figura 7 – (vii) João comeu BISCOITO de polvilho
Fonte: Elaborada pela autora com o software Praat.
Figura 8 – (viii) João comeu biscoito DE POLVILHO.
Fonte: Elaborada pela autora com o software Praat.
Prosódia 71
Figura 9 – (ix) João comeu BISCOITO DE POLVILHO.
Fonte: Elaborada pela autora com o software Praat.
O foco pode, adicionalmente, resultar de uma operação sintática. Em português, podemos 
movimentar os constituintes de uma sentença e o movimento de um constituinte para uma po-
sição “não-default” (não padrão) pode resultar em foco sobre o constituinte movido. Assim, por 
exemplo, na sentença “Eu gostei muito daquele filme”, temos os constituintes na ordem default que 
eles ocupam em um enunciado do português, ou seja, sujeito, verbo, objeto. Mas podemos mover 
o constituinte “aquele filme” para o início do enunciado e, dessa operação, resulta “Aquele filme eu 
gostei muito11.” Quando fazemos o movimento do constituinte, nós o colocamos sob foco e, como 
nos demais casos comentados nesta seção, temos o aumento do pitch, ou da frequência fundamen-
tal, sobre o constituinte focalizado12. Se você quiser saber mais sobre a interação entre estrutura 
sintática e foco, poderá ler, por exemplo, o trabalho da professora Izabel Seara e Maria Cristina 
Figueiredo Silva13.
5.2.3 Acento
No início deste capítulo mencionamos rapidamente o acento, chamando a atenção para o 
fato de que ele quando nos referimos a “acento”, nos estudos prosódicos, não estamos falando do 
acento gráfico. Esta seção reforça essa observação e introduz algumas observações adicionais.
11 Seria possível também preenchermos a posição de objeto que ficou vazia, na sentença, em razão do movimento 
do constituinte. Dessa operação resultaria um enunciado como “Aquele filme, eu gostei muito dele.” Nesse caso, o foco 
prosódico continuaria sobre “aquele filme”.
12 Tomamos, neste ponto, pitch e frequência fundamental como sinônimos. Cabe, porém, um esclarecimento: a fre-
quência fundamental, F0 ou tom laríngeo, é a frequência de vibração das pregas vocais, ou seja, temos aí um fato físico, 
resultante de uma atividade articulatória (vibração das pregas vocais). Esse fenômeno físico, acústico, tem uma conse-
quência psicológica, já que é percebido pelos indivíduos, que lhe atribuem uma função. Por isso, dizemos que o pitch é 
o correlato psicoacústico da frequência fundamental. Logo, tomamos os dois termos como sinônimos, embora os dois 
fatos não sejam exatamente a mesma coisa.
13 Você pode acessá-lo no link https://revistas.ufpr.br/letras/article/download/10844/11208. Acesso em: 12 dez. 2018.
Língua Portuguesa I: Fonética e Fonologia72
Comecemos pela Figura 10: nela, estão marcadas segundas vogais das palavras para e Pará.
Figura 10 – Forma de onda e espectrograma das palavras para e Pará
Fonte: Elaborada pela autora com o software Praat.
Apesar da grande semelhança entre as vogais nas duas palavras, vemos que as assinaladas 
nos espectrogramas têm duração bastante diferente: em para, a primeira vogal (tônica) dura 198ms 
e, a segunda, a átona final, que se vê entre barras verticais pontilhadas na Figura 10, dura 99ms. 
Na palavra Pará, à direita da Figura 10, a primeira vogal (átona) dura 136ms e, a segunda, a tônica, 
dura 193ms14. Além disso, a forma de onda do sinal, na janela superior da figura, nos mostra que a 
amplitude do sinal é maior para as vogais com maior duração. Um breve esclarecimento: a ampli-
tude do sinal se relaciona diretamente à força expiratória que empregamos para produzir um som. 
Dessa maneira, quanto maior a força expiratória, maior a amplitude.
Os dois fatos apontados – maior duração e maior amplitude da vogal – são os correlatos 
acústicos do acento em português brasileiro, como apontado por Massini-Cagliari (1992). Isso 
quer dizer que o acento tônico, ou acento primário, ou acento lexical15 de uma palavra em portu-
guês brasileiro se veicula por maior duração e maior intensidade. Nem todas as línguas funcionam 
assim: no português europeu, por exemplo, o acento é veiculado apenas pela amplitude do sinal. 
Em outras línguas, como o espanhol, o acento é veiculado pela maior duração das vogais, ou das 
sílabas que levam o acento.
Ainda sobre o português, é preciso mencionar que o acento não é previsível, ou seja, o acento 
não ocupa um lugar fixo na palavra. Mattoso Camara Jr. (1971) utiliza um trio de palavras para 
ilustrar esse fato. Tomemos sábia; sabia; sabiá. Se você lê em voz alta cada uma dessas palavras, 
notará facilmente que o acento “caminha” para a direitada palavra à medida que se realiza a leitura. 
Note, inclusive, que a mudança do lugar do acento nas palavras pode promover a distinção de sen-
tido entre elas. É o caso do exemplo que tomamos na Figura 10, assim como de vários outros pares 
14 Mencionamos aqui a duração das vogais para fins expositivos apenas, mas é preciso notar que o acento afeta toda 
a sílaba. Esse ponto é claramente demonstrado por Massini-Cagliari (1992).
15 Todos os três termos empregados aqui podem ser tomados como sinônimos.
Prosódia 73
de palavras, como: dúvida/duvida; pia/piá16. Em todos os pares, o que muda é a posição da sílaba 
proeminente. Com essa mudança, altera-se igualmente o sentido da palavra.
Algo muito importante a se observar é que o acento, como já comentamos no início do ca-
pítulo, acontece independente de ser marcado graficamente, isto é, quer uma palavra tenha acento 
gráfico, quer não tenha, ela terá um “pedaço” de maior amplitude e duração, no caso do português 
brasileiro. Ninguém duvida de que a porção mais proeminente da palavra “duvida” é a sílaba <vi>. 
Assim, temos:
D U - V I - D A
Sílaba pretônica Sílaba tônica Sílaba postônica
As palavras têm uma sílaba tônica, mas o número de pretônicas (ou sílabas que precedem 
a tônica), assim como o número de postônicas (ou sílabas que sucedem a tônica) pode variar: em 
abacate temos duas sílabas pretônicas e uma postônica; em lâmpada, por sua vez, temos duas síla-
bas postônicas.
Apesar de o acento não ser previsível em português brasileiro, há uma tendência da língua 
a preferir as palavras acentuadas na segunda sílaba (da direita para a esquerda), como nos mostra 
Cantoni (2009).
Outras línguas podem ter o acento previsível: é o caso do francês, ou do crioulo haitiano, em 
que o acento ocupa a primeira sílaba da palavra (da direita para a esquerda).
Há uma forte relação entre o acento das palavras de uma língua e o ritmo das línguas: como 
o português, em especial o europeu, na qual o acento das palavras recai a intervalos regulares de 
tempo, são ditas línguas de ritmo acentual. Há outras línguas em que o acento recai sobre sílabas 
previsíveis. São as ditas silábicas, como o francês e, segundo argumenta Cagliari (2012), também 
o japonês. A questão da tipologia das línguas em razão do seu ritmo nem sempre é consensual. 
O próprio português brasileiro foi alvo de discussões nesse sentido. Hoje, a visão mais largamente 
aceita é de que nossa língua é uma língua de ritmo “híbrido”, pois apresenta elementos de língua si-
lábica e de língua acentual. Mas nós não abordaremos essa questão aqui. Caso o leitor queira saber 
mais, pode recorrer a Barbosa (1999).
Finalmente, vale ressaltar que esta é apenas uma introdução aos fatos da fala em relação à 
prosódia. Ela pode também voltar-se para outros fatos como tom, duração, ritmo, velocidade de 
fala. Mas foge de nosso objetivo abordar cada um desses aspectos, por isso indicamos nas referên-
cias obras que podem introduzi-lo a cada um desses tópicos.
De qualquer modo, como não há, em língua portuguesa, um manual de prosódia como os de 
Couper-Kuhlen (1986) ou Cruttenden (1986), as referências de Scarpa (1999) ou Massini-Cagliari 
(1992), os trabalhos dos professores João Moraes e Waldemar Ferreira Netto, indicados nas referências 
básicas no fim deste livro, podem lhe dar uma noção do que seja a prosódia e de análises de aspectos 
prosódicos do português brasileiro.
16 Piá é um termo utilizado na região sul do Brasil e significa “menino”, “garoto”, “moleque”.
Língua Portuguesa I: Fonética e Fonologia74
Atividades
1. Em linhas gerais, a prosódia contempla quais aspectos da fala?
2. O que é entoação? Qual é a sua função na língua?
3. O que é foco? Como ele se manifesta?
6
Análise acústica dos sons da fala
6.1 O que é um som?
Certamente você já percebeu que vivemos em um mundo repleto de sons 
diversos: pessoas falando, música, cantos de pássaros, latidos, motores de carros, 
buzinas, aparelhos domésticos, enfim, uma infinidade de sons diferentes.
Mas, afinal, o que é um som? Experimente pegar uma folha de papel. Agora 
movimente a folha para cima e para baixo, rapidamente. O que aconteceu? Sim, 
você produziu um som! Por quê? Porque você fez seu braço vibrar, como decorrência de movi-
mentos rápidos para cima e para baixo e, com isso, deslocou várias partículas de ar que estavam 
em repouso, ao redor da folha. Como o ar que está à nossa volta, está sempre sob tensão – tal qual 
uma corda esticada – em razão da pressão que decorre do peso da atmosfera terrestre, o desloca-
mento de uma partícula é comunicado a outra e assim sucessivamente, propagando-se em uma 
determinada velocidade. O som é isto: a sensação auditiva que temos da propagação das partículas 
de ar que são postas em movimento por alguma fonte, isto é, por qualquer coisa que promova seu 
deslocamento.
O movimento das partículas de ar se dá de modo que uma partícula se aproxima de outra, 
parada, que é então posta em movimento. Tal aproximação caracteriza o que se chama compressão 
das partículas de ar. Em seguida, a partícula que pôs a outra em movimento afasta-se e volta à sua 
posição de repouso. Com isso, ocorre a rarefação das partículas de ar. Temos, na Figura 1 a seguir, 
uma ilustração esquemática desse fato.
Figura 1 – Compressão e rarefação das partículas de ar
pressão acúmulo
compressão
rarefação
depressão
 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .
 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .
 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .
 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .
 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .
. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .
X
y
+ + + +
––––––
Fonte: Slana; Musafir, 1998.
Vídeo
Língua Portuguesa I: Fonética e Fonologia76
Observe que há uma sucessão de momentos de compressão e rarefação das partículas do ar, 
em função do seu deslocamento promovido por uma fonte que vibra. Tal sucessão descreve um 
movimento ondulatório que pode ser representado graficamente pela senoide, que você verifica na 
porção inferior da Figura 1. Nela, os picos correspondem aos momentos de compressão das par-
tículas de ar, enquanto que os vales referem-se aos momentos de rarefação delas. Os zeros, isto é, 
os pontos em que a curva cruza o eixo horizontal, representam os momentos em que as partículas 
atingem uma posição de repouso – nesse caso específico, isso significa dizer que as partículas de ar 
não estão comprimidas nem rarefeitas.
Agora você já sabe o que são os sons, como são produzidos e também que se propagam por 
meio de ondas. Cabe-nos, então, verificar como podemos caracterizar as ondas sonoras.
6.2 Características das ondas sonoras
Há algumas características das ondas sonoras para as quais devemos nos 
atentar. São elas: frequência, amplitude e timbre.
6.2.1 Frequência
Podemos dizer, em linhas gerais, que frequência é a repetição periódica de 
um determinado fato. Assim, a frequência de um aluno diz respeito a quantas aulas ele compareceu 
em um certo período de tempo – por exemplo, um bimestre.
E no caso das ondas sonoras? Como podemos observar e medir sua frequência? Nós vimos 
anteriormente que, quando uma partícula de ar écolocada em movimento, ela se aproxima de ou-
tra (compressão), fazendo-a mover-se, e, em seguida, volta à sua posição de repouso, afastando-se 
da partícula que foi colocada em movimento (rarefação). Dizemos, então, que a onda descreveu 
um ciclo que pode se repetir muitas vezes, resultando na frequência dele.
Na Figura 1, apresentada anteriormente, podemos reconhecer um ciclo da senoide ini-
ciando-se no ponto zero – quando a partícula de ar é deslocada, portanto – e que contém um 
pico (o qual indica máxima compressão das partículas de ar) e um vale (que indica máxima 
rarefação das partículas de ar). O ciclo termina logo em seguida ao vale, quando a curva cruza 
o ponto zero. Você deve ter observado, também na Figura 1, que há ali mais de um ciclo – na 
verdade, são cinco deles. Se considerarmos que o eixo horizontal do gráfico representa o eixo 
temporal e, hipoteticamente, que temos ali uma janela temporal de um segundo, então pode-
remos dizer que temos cinco ciclos realizados em um segundo, ou 5cps. Esta é a frequência da 
nossa onda: cinco de seus ciclos se repetem a cada segundo. Daí dizermos que tal onda tem uma 
frequência de 5cps ou 5Hz1.
1 Cps é unidade de medida de frequência e significa justamente “ciclos por segundo”. Também se utiliza a unidade 
Hertz (Hz) para medir a frequência de uma onda. A denominação hertz foi dada à unidade de medida de frequência em 
homenagem ao físico alemão Heinrich Hertz, notabilizado pelos seus trabalhos em ondulatória e acústica e que criou um 
aparelho que emitia ondas de rádio. As unidades “ciclos/segundo” e hertz são sinônimas e nós preferiremos, aqui, usar a 
segunda, sempre que fizermos referência à frequência de uma onda sonora.
senoide: curva que 
representa a função 
seno em um sistema 
de coordenadas.
Vídeo
Análise acústica dos sons da fala 77
6.2.2 Amplitude
Nós observávamos que, para um som ser produzido, é necessário que um corpo vibre, 
colocando em movimento as partículas de ar próximas a ele. Ao vibrar, o corpo produz energia, 
que pode ser maior ou menor. Se a energia do corpo que vibra for grande, teremos sons de grande 
amplitude. Se, ao contrário, a energia for pouca, teremos sons de baixa amplitude.
Como medimos a amplitude? Voltando à Figura 1, verificamos na ordenada2 do gráfico que 
há um ponto máximo, tanto acima quanto abaixo do zero referencial. Esses pontos, que represen-
tam a máxima compressão ou a máxima rarefação das partículas, têm uma certa distância do eixo 
horizontal. Medindo essa distância, chegamos à amplitude máxima da forma de onda. A unidade 
de medida da amplitude de uma forma de onda é o bel (B) ou o decibel3 (dB). Recebe esse nome 
em homenagem a Alexandre Graham Bell, físico que se dedicou ao estudo do som e que se tornou 
famoso por ter inventado o telefone.
Quanto maior a amplitude de uma onda, maior a intensidade que percebemos do som que 
se propaga por essa onda. Assim, portanto, sons de grande intensidade têm grande amplitude e, 
inversamente, sons de pequena intensidade têm pequena amplitude.
6.2.3 Timbre
Você já ouviu uma música tocada em um violino? E em um piano? Deve ter percebido que 
existe diferença na qualidade do som, certo? Você já se deu conta de que uma mesma nota tocada 
no violino e no piano tem qualidades distintas?
Observe que, no caso de uma nota musical, como a nota “lá”, ela terá a mesma frequência – 
de 440Hz – caso seja produzida num violino, num piano ou em outro instrumento musical qual-
quer. Entretanto, nós a perceberemos diferente. Por quê? Porque as ondas sonoras produzidas por 
um instrumento ou por outro têm formatos distintos. Observe a Figura 2 a seguir, que traz a forma 
de onda da nota lá produzida por um violino e por um piano.
Figura 2 – Forma da onda de um violino e de um piano
pressão
pressão
VIOLINO
PIANO
T
T
tempo
tempoT = período
Fonte: Slana; Musafir, 1998.
2 Eixo “y”, vertical, do gráfico da Figura 1.
3	 Décima	parte	do	bel.	Sobre	essas	unidades	de	medida –	B	e	dB –	cabe	observar	que,	em	razão	de	a	intensidade	
absoluta dos sons variar numa escala muito grande, tais unidades se definem em termos de uma escala logarítmica.
Língua Portuguesa I: Fonética e Fonologia78
Viu? É o formato distinto que nos permite perceber diferenças entre as notas e, consequen-
temente, seu timbre.
Agora que já conhecemos os parâmetros que utilizamos para caracterizar as ondas sonoras, 
é preciso considerar que há tipos distintos de onda. Vamos a eles, então.
6.3 Tipos de ondas
6.3.1 Ondas periódicas
Considere uma pessoa segurando uma corda em uma das extremidades e 
que tem sua outra extremidade presa a uma superfície. Se essa pessoa realiza um 
movimento vertical – de sobe e desce – com o braço, em intervalos de tempo iguais, 
teremos como resultado pulsos que se propagarão pela corda em intervalos de tem-
po iguais, portanto periódicos. Veja a Figura 3 a seguir, que traz a ilustração do fato que acabamos 
de comentar:
Figura 3 – Produção de pulsos periódicos
Fonte: ONDAS, 2018.
As ondas periódicas são aquelas nas quais os pulsos (que reconhecemos na Figura 3 como 
o evento acústico que engloba uma crista4 e um vale completos) repetem-se a intervalos regulares 
de tempo.
6.3.2 Ondas aperiódicas
Ao contrário das ondas periódicas, as aperiódicas são completamente irregulares, sendo seus 
pulsos aleatórios e imprevisíveis. Essas ondas são aquelas pelas quais se propaga o ruído como o 
som do motor de um carro, por exemplo, ou o ruído que escutamos ao tentar sintonizar um rádio.
Sobre os sons da fala, cabe ressaltar que se propagam majoritariamente por ondas quase 
periódicas, isto é, ondas nas quais os pulsos não chegam a ser aleatórios, como nas aperiódicas, 
mas que também não se repetem a intervalos de tempo exatamente iguais, como no caso das ondas 
periódicas. As consoantes fricativas, como veremos no Capítulo 8, caracterizam-se por ondas ape-
riódicas, porque se constituem preponderantemente de ruído.
4 A literatura também chama a crista da onda de pico. São termos sinônimos. Por isso, você pode encontrar referência 
à porção mais alta da forma de onda como pico.
Vídeo
Análise acústica dos sons da fala 79
6.3.3 Ondas simples
Uma onda simples é aquela que resulta de um movimento harmônico simples, o qual, 
por sua vez, origina um tom puro. Esse tom puro pode ser encontrado, por exemplo, na tele-
fonia: você já percebeu que, quando discamos os números de um telefone, escutamos um som 
depois de cada número? Esse som é constituído de um tom puro com frequência de 440Hz. 
Podemos representar essa onda por uma curva senoidal, como a que temos no gráfico da 
Figura 1 apresentada anteriormente.
6.3.4 Ondas complexas
As ondas simples são menos frequentes porque os tons puros também o são em nosso dia a 
dia. A maioria dos sons que ouvimos se propaga por meio de ondas complexas, que consistem na 
somatória de várias ondas simples, inclusive com diferentes frequências e amplitudes. São exem-
plos de ondas complexas as ondas pelas quais se propaga a nota lá tocada em um violino e em um 
piano, como as da Figura 2.
6.3.5 Ondas longitudinais
As ondas podem ser caracterizadas também quanto à direção em que se propagam, relati-
vamente à direção em que oscilam os pontos do meio pelos quais a onda passa, ou seja, à direção 
em que vibram. Se as vibrações da onda são perpendiculares à direção em que tal onda se propa-
ga, temos uma onda transversal, como no caso da onda numa corda, a exemplo da que temos na 
Figura 3.
Mas o que nos interessa aqui são as ondas em que a direção das vibrações coincide com a di-
reção de propagação das ondas, como um vai e vem. Tais ondas, como as criadas pela oscilação de 
uma mola em movimento como mostra a Figura 4 a seguir, são chamadas de ondas longitudinais.
Figura 4 – Movimento de uma mola, que se caracteriza por ondas longitudinais.
Fonte: ONDAS, 2018.
Observe que a vibração das partículas do ar (v) ocorre na mesma direção do 
deslocamento da mola.
Língua Portuguesa I: Fonética e Fonologia806.3.6 Ondas estacionárias
Os sons da fala, propagam-se por ondas longitudinais “especiais”. Tratam-se das ondas es-
tacionárias que se assemelham às ondas longitudinais porque se propagam na mesma direção da 
vibração das pregas vocais. Porém, as ondas estacionárias diferem das ondas longitidinais porque 
elas se refletem ao encontrar um obstáculo qualquer, como uma parede. Como resultado da refle-
xão, superpõem-se duas ondas – a que vai até o obstáculo e a que volta dele – de mesma frequência 
e amplitude, mesmo comprimento e mesma direção, mas sentidos opostos. Somando-se as duas, 
obtém-se uma terceira, a onda longitudinal.
A onda estacionária tem uma amplitude variável, de ponto a ponto, o que significa dizer 
que há pontos – os nós – em que a amplitude é zero5 e outros em que a amplitude é máxima – os 
ventres, também referidos como anti-nós na literatura. Tais pontos estão sinalizados por “N” e “V” 
na Figura 5 a seguir, que traz as duas ondas longitudinais, a “incidente” e a “refletida”, que consti-
tuem a onda estacionária. Observe que a porção inferior da figura ilustra justamente a somatória 
das duas ondas6.
Figura 5 – Onda estacionária resultante do movimento de uma corda
N
4 2 2
onda incidente
onda incidente
onda refletida
onda refletida
N N N N N
VVVVVV
Fonte: ONDAS, 2018.
Sabemos agora que os sons da fala se propagam por ondas estacionárias, quase periódicas. 
Toda a breve incursão que fizemos pelos domínios da acústica visava a permitir que você enten-
desse um pouco sobre o meio pelo qual os sons da fala se propagam e que será nossa ferramenta 
de estudo na fonética acústica. Em seguida, veremos como caracterizar os sons da fala do ponto de 
5 Isso significa que não houve, ali, movimento da corda.
6 Você pode ver uma animação que ilustra a formação de uma onda estacionária acessando: https://www.youtube.
com/watch?v=TRP709zc9Do. Acesso em: 10 nov. 2018.
Análise acústica dos sons da fala 81
vista acústico e os parâmetros que tomamos para esse fim. Deve ficar claro que assim como temos 
parâmetros que caracterizam e distinguem os sons da fala em uma análise articulatória, também 
há parâmetros que seguimos para a análise acústica. Vamos a eles, então!
6.4 Parâmetros acústicos para a caracterização dos sons da fala
Nossa “matéria-prima” para a tarefa de caracterizar acusticamente os sons 
da fala são – como já deve ser óbvio para você – as ondas sonoras que constituem o 
sinal de fala. Elas são obtidas por meio da gravação da fala de um indivíduo.
Mas atenção! Sempre que for colher dados para uma análise acústica, é ab-
solutamente necessário avisar os indivíduos que sua fala será gravada. Não se pode, 
sob hipótese alguma, gravar a fala de um indivíduo sem sua ciência e permissão. Atualmente, as 
universidades exigem que projetos que envolvem a coleta de dados de fala sejam submetidas à 
aprovação de comitês de ética e que os indivíduos cuja fala será gravada assinem um termo de 
consentimento livre e esclarecido7.
Pois bem: dispondo do sinal de fala, você poderá obter os formatos de onda presentes nesse 
sinal para, a partir daí, verificar a sucessão temporal de eventos acústicos, bem como a frequência 
e a amplitude desses eventos.
Como fazer isso? Você não precisa aplicar uma série de cálculos para decompor as ondas em 
seus componentes harmônicos8. Há programas de computador que realizam automaticamente essa 
tarefa e que lhe permitem, com isso, analisar o sinal acústico. Um deles chama-se Praat e você pode 
baixá-lo gratuitamente da internet9. Desenvolvido por David Weenink e Paul Boersma, do Instituto 
de Ciências Fonéticas, da Universidade de Amsterdã (Holanda), o Praat permite que se faça uma 
análise acurada do sinal de fala, além de fornecer ferramentas para outras finalidades, como a síntese 
de fala. Por essas razões, ele é largamente utilizado, atualmente, por foneticistas do mundo todo.
Temos, na Figura 6, a janela inicial do Praat, a qual se obtém solicitando-se a edição do 
sinal acústico.
7 Um termo de consentimento livre e esclarecido é um documento que, como o próprio nome indica, esclarece aos 
participantes um experimento a que serão submetidos. No caso de uma coleta de dados de fala, trata-se de um procedi-
mento nada invasivo, pois os indivíduos se sentam em frente a um microfone, conectado a um dispositivo que grava a fala, 
e geralmente realizam uma tarefa de leitura de um conjunto de sentenças ou de pequenas narrativas. Ainda assim, para 
segurança dos sujeitos do experimento e do próprio pesquisador, é importante que se faça o termo. Já quanto a passar o 
experimento por comitês de ética, o artigo de Duarte e Holanda (2016), analisa juridicamente as resoluções exaradas pelo 
Conselho Nacional de Saúde, sobre os comitês de ética, para observar que as normas não encontram amparo jurídico.
8 A decomposição da onda sonora em seus componentes harmônicos é o que se chama de análise de Fourier, deno-
minação dada em homenagem ao matemático francês que viveu na época de Napoleão e que desenvolveu uma série de 
cálculos para derivar os harmônicos – ou as frequências que promovem ressonância – de uma onda sonora.
9 Para isso, acesse o site: <www.praat.org>. Acesso em: 31 ago. 2018.
Vídeo
síntese de fala: con-
siste na conversão 
de um texto escrito 
em fala.
Língua Portuguesa I: Fonética e Fonologia82
Figura 6 – Forma da onda (em cima) e espectrograma10 (embaixo) da sentença “Nós vemos a fala”.
Fonte: Elaborada pela autora com o software Praat.
Na porção superior dessa figura, vemos uma janela contendo a forma da onda – ou 
“oscilograma” – da sentença “Nós vemos a fala”. Aí, temos a informação da amplitude da onda 
na ordenada (eixo vertical) e do tempo na abscissa (eixo horizontal). Podemos ver, portanto, 
como a amplitude desse sinal se desenvolve no tempo de 1,5 segundo. Observamos que há 
pontos do sinal onde a amplitude é grande, contrapondo-se a outros pontos nos quais a am-
plitude é baixa. Já podemos, então, introduzir uma primeira pista para a análise dos sons da 
fala: os pontos de maior amplitude são, no geral, vogais, ou sons aparentados a vogais (como 
as consoantes aproximantes).
Na porção inferior da Figura 6, temos o espectrograma correspondente à forma de onda da 
janela superior e alinhado com ela. Essa ferramenta traz o sinal acústico decomposto em suas vá-
rias frequências (eixo vertical) em função do tempo (eixo horizontal). Assim, é possível observar a 
sucessão temporal de cada evento acústico: já em um primeiro momento, você pode perceber que 
há porções bem definidas no espectrograma, ao lado de outras que se assemelham a “chuviscos”. 
Essa é já uma primeira pista para distinguirmos vogais – ou sons aparentados a elas – de consoan-
tes, como as fricativas, caracterizadas pelo ruído que tem o aspecto desse “chuvisco”.
Também é possível obter informações sobre a amplitude do sinal acústico no espectrogra-
ma: as variações de amplitude são dadas pelas mudanças das tonalidades de cinza, de modo que, 
quanto mais escura essa tonalidade, maior a amplitude do sinal, e, inversamente, quanto mais clara 
a tonalidade de cinza, menor a amplitude.
Há ainda o espectro, que é um gráfico que nos dá informação da amplitude (eixo vertical) 
pela frequência (eixo horizontal). A Figura 7 traz o espectro para a sentença “Nós vemos a fala”. 
Observe que a amplitude decresce em função do aumento da frequência. Podemos dizer, portanto, 
que frequência e amplitude exibem, no sinal de fala, uma relação inversamente proporcional.
10 O espectrograma é uma ferramenta utilizada para análise acústica, que registra a frequência do sinal acústico no eixo 
vertical e o tempo, no eixo horizontal.
Análise acústica dos sons da fala 83
Figura 7 – Espectro (amplitude x frequência) de parte da sentença “Nós vemos a fala”.
Fonte: Elaborada pela autora com o software Praat.
Da observação das Figuras 6 e 7, deve ter ficado claro que podemos verificar os três pa-
râmetros para a caracterização de uma onda sonora – frequência, amplitudee formato de onda, 
responsável pelo timbre – por meio de ferramentas distintas, mas complementares: enquanto o os-
cilograma, ou forma de onda, relaciona amplitude e tempo, o espectrograma relaciona frequência 
e tempo. O espectro, por sua vez, relaciona frequência e amplitude.
Como aplicar esses parâmetros para a caracterização dos sons da fala é matéria para a qual 
seguimos nos dois próximos capítulos. Por ora, deve ter ficado claro para você que nós podemos 
fazer fonética vendo a fala – e não apenas ouvindo-a, como na tarefa de transcrição fonética –, 
a exemplo do que menciona a nossa sentença-exemplo da Figura 6. Deve ter ficado claro também 
o que precisamos verificar no sinal acústico para analisar os sons da fala. Em outro momento, você 
verá como fazemos isso.
Dicas de estudo
Leitura
• O artigo “Elementos de acústica” trata de maneira breve, e com uma linguagem muito 
acessível, conceitos básicos de acústica, como a caracterização das ondas sonoras.
SLANA, J. G.; MUSAFIR, R. Elementos de acústica. In: Ciência hoje na escola – ver e ouvir. 
Rio de Janeiro: Ciência Hoje: SBPC, 1998. p. 48-51.
Site
• Nessa página eletrônica há uma introdução aos conceitos básicos de acústica. ACÚSTICA. 
Ifmsa Weblab. 
Disponível em: http://ww2.unime.it/weblab/awardarchivio/ondulatoria/acustica.htm. 
Acesso em: 24 jul. 2018.
Língua Portuguesa I: Fonética e Fonologia84
Atividades
1. Discorra, em linhas gerais, sobre o que é um som.
2. Quais são as principais características das ondas sonoras? Defina-as.
3. Como podemos observar a amplitude e a frequência dos sons da fala em um espectrograma?
7
Caracterização acústica dos sons da fala
Como vimos no Capítulo 6, para analisar os sons da fala utilizamos parâmetros como fre-
quência e amplitude do sinal acústico. O cruzamento dessas informações, aliado a aspectos visuais 
da sucessão temporal dos eventos acústicos, que obtemos por meio dos espectrogramas, dá-nos a 
caracterização acústica dos sons da fala. É isso o que passaremos a abordar em seguida.
7.1 Caracterização acústica das vogais
Aprender a olhar para os sons da fala requer relacionar parâmetros articu-
latórios dos sons às suas consequências acústicas. Essa relação, aliás, é o ponto de 
partida da Teoria Acústica de Produção da Fala, também chamada Teoria Fonte-
Filtro, proposta pelo físico sueco Gunnar Fant em 1960.
As vogais, como vimos no Capítulo 2, praticamente não oferecem resistência 
à passagem do ar no trato. As consequências acústicas dessa articulação, em linhas gerais, serão: 
formato de onda quase periódica e aspecto visual sempre contínuo. Além disso, como são produ-
zidas, via de regra, com a vibração das pregas, as vogais são geralmente sonoras. A caracterização 
acústica das vogais, então, será baseada nos valores das frequências de seus formantes.
Mas, afinal, o que são formantes? São regiões de frequência ressaltadas no espectro. 
Colocando de outro modo, os formantes são harmônicos que respondem melhor às ressonâncias 
produzidas no trato vocal. Por responderem melhor a certas frequências, eles têm amplitude au-
mentada. Em fonética acústica é muito frequente dizer-se que os formantes são as próprias resso-
nâncias do trato vocal. Os formantes são todos múltiplos do primeiro harmônico1. Teoricamente 
existem infinitos formantes, interessam-nos para nossa tarefa os três ou, no máximo, quatro pri-
meiros, aos quais chamaremos, respectivamente, F1, F2, F3, F4, partindo da região mais baixa até 
a região mais alta de frequência.
O fato de nos fixarmos à observação desses formantes resulta das previsões da Teoria 
Acústica de Produção da Fala (FANT, 1960). Nesse modelo, que empregamos até hoje como base 
de todo o procedimento de caracterização acústica dos sons da fala, o físico sueco Gunnar Fant 
preconiza uma relação intrincada entre o dado articulatório e o acústico, de modo que é possível 
inferirmos o movimento dos articuladores por meio dos valores de seus formantes. Essa inferência 
é possível, no caso das vogais, porque o correlato articulatório de F1 é o movimento de abertura da 
1 O primeiro harmônico dos sons da fala é também a frequência fundamental, ou F0, isto é, a frequência de vibração 
das pregas vocais. Como consequência dessa relação entre F0 e os demais formantes, temos que, quanto mais alto for o 
F0, mais altos também serão os demais formantes de uma vogal.
Vídeo
Língua Portuguesa I: Fonética e Fonologia86
mandíbula e o de F2 é o movimento ântero-posterior do dorso da língua. F3, segundo as previsões 
de Fant, tende a acompanhar a trajetória de F2.
A previsão de Fant para a relação entre o dado acústico e o articulatório é a seguinte: vogais 
altas – isto é, produzidas com a mandíbula elevada – têm F1 baixo; inversamente, as vogais bai-
xas – produzidas com a mandíbula abaixada – têm F1 alto. Quanto ao segundo formante (F2), as 
vogais anteriores – isto é, produzidas com o dorso da língua anteriorizado – exibem valores altos; 
à medida, porém, que o dorso vai se retraindo, os valores de F2 vão diminuindo. Por isso, vogais 
posteriores – produzidas com o dorso de língua retraído – exibem F2 baixo.
Mas, afinal, como saber se os valores de F1 e F2 são altos ou baixos? Para responder a essa 
pergunta, precisamos voltar à Teoria Acústica de Produção da Fala e a um dos primeiros passos 
de Fant. Tudo começa com o cálculo das frequências de ressonância – ou os formantes – da vogal 
neutra2, também chamada schwa. A Teoria Acústica de Produção da Fala propõe o modelamento 
matemático do trato vocal como um tubo uniforme, aberto de um lado e fechado de outro, por 
uma membrana que vibra, como o que temos na Figura 1.
Figura 1 – Esquema do trato vocal
Fonte: Elaborada pela autora.
Esse esquema foi inspirado na Teoria Acústica de Produção da Fala. 
A porção fechada corresponde à laringe e, a aberta, aos lábios.
laringe boca
Considerando que, em tubos desse tipo, as ondas que melhor ressoam são aquelas cujo 
comprimento equivale a quatro vezes o comprimento do tubo, e considerando – como fez Fant 
– que o comprimento do tubo (λ) é de 17,5 cm3, teremos que as ondas que respondem melhor 
a esse tubo são aquelas de comprimento de 4 x 17,5 cm. Dessa forma, Fant propõe a seguinte 
fórmula para o cálculo das frequências de ressonância nesse tubo uniforme:
Fn = (2n–1)c/4l
2 A vogal neutra é produzida sem o deslocamento do dorso da língua pelo interior do trato. Em linhas gerais, para pro-
duzi-la é preciso apenas abrir a boca e fazer as pregas vocais vibrarem. Essa articulação elementar é a responsável pelo 
fato de o schwa ser o primeiro som da fala que as crianças conseguem produzir, ainda na fase do balbucio.
3 Fant (1960) assume que 17,5 cm corresponde ao tamanho médio do trato vocal de um indivíduo adulto do sexo masculino.
Caracterização acústica dos sons da fala 87
Nela, n é qualquer número inteiro, diferente de 0 (zero); c é uma constante, que corresponde 
à velocidade de propagação do som no ar, equivalente a aproximadamente 35.000 segundos e l é o 
tamanho do tubo.
Então, se substituirmos n por 1, temos:
F1 = (2.1–1)35.000/4.17,5
F1 = 500Hz
Se substituirmos n por 2, teremos que o valor de F2 é de 1.500Hz. Se, finalmente, substi-
tuirmos n por 3, teremos que o valor de F3 é de 2.500Hz (note que os valores da frequência de 
formantes para o schwa, que transcrevemos [ə], são equidistantes, isto é, F1 e F2 se separam por 
um intervalo de frequência de 1.000Hz, assim como F2 e F3).
Conhecendo a maneira como Fant (1960) calcula as frequências de ressonância no interior 
do trato vocal, podemos responder à pergunta que colocávamos mais cedo: como saber se um de-
terminado valor de F1 é alto ou baixo?
Se F1 de [ə] tem valor de 500Hz, valores abaixo desse limiar são considerados baixos para 
F1. Assim, por exemplo, 300Hz, que é a frequência média de F1 da vogal [i], produzida por indiví-
duos adultos do sexo masculino, é considerado um valor baixo para o primeiro formante. Por outro 
lado, 800Hz, que é a frequência média de F1 da vogal[a], produzida por indivíduos adultos do sexo 
masculino, é considerado um valor alto para o primeiro formante.
Com relação a F2, temos que valores acima de 1.500Hz, que é o valor de F2 do schwa, são 
considerados altos, como no caso de F2 de [i], que mede, em média, 2.500 Hz, para indivíduos 
adultos do sexo masculino. Por outro lado, dizemos que [u] tem F2 baixo, já que a frequência 
média desse formante, na fala de um indivíduo adulto do sexo masculino, é de aproximada-
mente 850Hz.
Agora podemos voltar à análise acústica das demais vogais. Considere que, diferentemente 
do schwa, todas as outras vogais que articulamos requerem o deslocamento do dorso da língua 
para cima ou para baixo, para frente ou para trás, no trato vocal. A consequência acústica desses 
movimentos pode ser vista na Figura 2, que traz os espectrogramas de [pi], [pa] e [pu], nessa se-
quência, a partir da primeira janela, de cima para baixo.
Língua Portuguesa I: Fonética e Fonologia88
Figura 2 – Espectrogramas das sequências “pi”, “pa”, “pu”4
a)
b)
c)
Fonte: Elaborada pela autora com o software Praat.
Observe que, na figura 2a, em que temos a sequência [pi], a vogal [i] encontra-se entre linhas 
verticais pontilhadas e a trajetória dos seus três primeiros formantes está sinalizada por linhas ho-
rizontais pontilhadas. Você consegue reconhecer F1 como o “borrão” horizontal mais escuro, ao 
pé do espectrograma. Assim, vê-se que [i] exibe um primeiro formante baixo, articulatoriamente, 
isso significa que é produzido com a mandíbula elevada. A mesma observação cabe para a vogal 
[u], pois em 2c também é baixo porque, assim como [i], [u] é produzido com a mandíbula elevada.
A localização do F1 de [a], porém, é diferente: veja, no espectrograma da Figura 2b, que o 
primeiro “borrão” mais escuro ocorre mais alto. A razão para o primeiro formante dessa vogal se 
4 Em cada uma das figuras aqui há duas janelas com a forma de onda, como você deve ter observado. Isso acontece 
porque a gravação foi feita em dois canais. Se a gravação tivesse sido feita em um único canal, teríamos uma única janela 
com a forma de onda, como você verá nas demais figuras deste capítulo.
Caracterização acústica dos sons da fala 89
localizar em uma faixa de frequência mais alta que o F1 de [i] e [u] é o fato de ser produzida com a 
mandíbula maximamente aberta.
Caso consideremos, agora, o segundo formante (F2), verificaremos uma diminuição grada-
tiva de seus valores partindo da vogal [i] até a vogal [u]: na Figura 2a, temos F2 alto e distante de 
F1 (atente-se, de novo, para os “borrões” horizontais, aos quais se sobrepõe uma linha horizontal 
pontilhada). Já na 2b, F2 se encontra um pouco acima de F1, em uma região mais baixa de frequên-
cia do que aquela que ocupava durante a produção de [i]. Isso significa que de [i] para [a] ocorre 
posteriorização do dorso da língua. E isso é maior ainda no caso de [u]: veja, na Figura 2c, que F2 
está muito próximo de F1, como resultado da máxima posteriorização do dorso da língua durante 
a produção de [u].
Já o terceiro formante (F3) é alto para [i] e [u]. No caso da vogal frontal alta [i], F3 tem valor 
próximo de F2; no caso da vogal posterior alta, seus valores são distantes de F2. No espectrograma 
da vogal [a], o terceiro formante mede aproximadamente 2.500Hz e está um pouco distante de F2 – 
não tão distante quanto estava na configuração de formantes de [u], mas não tão próximo quanto 
estava na configuração de formantes de [i].
É preciso observar que as demais vogais apresentam relações análogas entre F1 e F2: na série 
das vogais frontais [i, e, ε, a], F1 é baixo e vai aumentando à medida que a mandíbula se abre; F2 é 
alto e decresce conforme o dorso vai se retraindo/posteriorizando. Isso quer dizer que [ε] terá F1 
mais alto e F2 mais baixo do que [i]. Na série das vogais posteriores, F1 também é baixo e aumenta 
à medida que a mandíbula se abre; F2 é baixo e aumenta à medida que o dorso vai diminuindo a 
retração. Dessa forma, [ɔ] terá F1 mais alto e F2 também mais alto que [u].
A cerca da caracterização acústica das vogais do português brasileiro: cabe acrescentar, em 
relação à caracterização acústica de consoantes e vogais, que pode haver diferenças nos valores da 
frequência de um som em função do sexo do indivíduo que produz aquele som. Assim, por exem-
plo, uma vogal [i] produzida por homens e mulheres terá valores distintos para seus formantes: 
Kent e Read (1992) reportam uma média de 270Hz, 2.300Hz e 3.000Hz para, respectivamente, F1, 
F2 e F3 em registros de informantes masculinos, mas 300Hz, 2.800Hz e 3.300Hz para os mesmos 
registros de informantes femininos.
Qual é a razão dessa diferença? Há dois fatos, basicamente, que contribuem para isso: o ta-
manho das pregas vocais e o tamanho do trato vocal.
Para homens, as pregas medem entre 1,75 cm e 2,5 cm, aproximadamente. Já para as mulhe-
res, as pregas têm em média uma extensão menor, que varia de 1,25 cm a 1,75 cm. Além disso, as 
pregas vocais de homens são mais espessas do que as das mulheres. Logo, as pregas vocais masculi-
nos, no geral, vibram mais lentamente, e o resultado disso é uma voz com frequência fundamental 
(F0) mais baixa. Como os demais formantes são múltiplos de F0, consequentemente eles apresen-
tarão valores também mais baixos que os formantes encontrados para vozes femininas.
Além disso, o trato vocal masculino é um pouco maior que o feminino, o que faz com que a 
“caixa de ressonância” dos homens seja maior que a das mulheres. Isso faz com que as ondas pelas 
quais se propagam os sons da fala no interior do trato masculino tenham comprimento maior – e, 
Língua Portuguesa I: Fonética e Fonologia90
por isso, tenham frequência menor – que as ondas pelas quais se propagam os sons da fala no in-
terior do trato feminino.
Como, então, percebemos [i] tanto na fala de homens como na de mulheres? Se atentarmos 
para os valores médios das frequências de F1, F2 e F3 de [i], fornecidos anteriormente, consegui-
remos notar que a relação entre os três formantes se mantém na fala de homens e de mulheres. 
Ou seja, F1 é baixo e distante de F2; por sua vez, F2 e F3 são altos e próximos entre si. O mesmo 
raciocínio se aplica a todos os outros sons da fala.
Uma última nota, para fechar esta seção: é necessário comentar que as observações aqui se 
referem às vogais tônicas. Em posição átona, o número de vogais do português brasileiro diminui, 
chegando a três em posição átona final, ou seja, a última vogal não acentuada de uma palavra, 
como em peixe, casa e povo. O fato de transcrevermos essas vogais por símbolos distintos do IPA, 
comparativamente aos símbolos utilizados para a transcrição das vogais tônicas, de onde resultam 
[ˈpejʃɪ]; [ˈkazɐ]; [ˈpovʊ], por exemplo, não é à toa; [ɪ], [ɐ] e [ʊ] têm frequências de formantes dis-
tintas das demais vogais e tendem a exibir valores de frequência mais centralizados do que as sete 
outras vogais. Por valores “mais centralizados”, frise-se, entendemos valores de frequências de for-
mantes que tendem para os valores das frequências de formantes do schwa, mas não se igualam a 
eles. Há muito poucas descrições das vogais átonas finais do português brasileiro. Três bons traba-
lhos a esse respeito são as dissertações de mestrado de Francisco Meneses (2012) e Mateus Dubiela 
(2016), além do trabalho de Iniciação Científica de Rebeca Lessmann (2017).
As vogais nasais, ou nasalizadas, também têm características acústicas próprias, como um 
formante nasal, resultado da propagação de ondas sonoras pela cavidade nasal. Não é nosso ob-
jetivo apresentá-las aqui em detalhes. Porém, cabe mencionar que Souza (1994) e Seara (2000) 
reportam a existência de pelo menos duas fases na vogal: uma fase oral, com a sobreposição de um 
formante nasal, seguida de uma segunda fase, o murmúrio nasal. Nesta fase, o trato vocal já deixou 
de articular a vogal, mas ainda há escape de ar pela cavidade nasal, que provoca a ocorrência do 
murmúrio, visível como uma barra horizontal, em regiãode baixa frequência (abaixo de 500 Hz). 
Para saber mais sobre essas vogais, o leitor pode recorrer às referências mencionadas, que são obras 
basilares quando se trata da caracterização das vogais nasais do português brasileiro.
7.2 Caracterização acústica das consoantes
Tendo tratado das características acústicas das vogais, passamos agora às 
características acústicas das classes de consoantes. Cada uma dessas classes tem 
características peculiares que as definem. E é sobre essas características que trata-
remos nesta seção.
7.2.1 Oclusivas
Para a caracterização das oclusivas, observamos, em primeiro lugar, um aspecto descontí-
nuo no espectrograma. Veja a Figura 3.
Vídeo
Caracterização acústica dos sons da fala 91
Figura 3 – Forma de onda e espectrograma da palavra “apa”
Fonte: Elaborada pela autora com o software Praat.
Temos, na janela superior, a forma de onda do sinal e, na inferior, o espectrograma, alinhado 
à forma da onda. A consoante que estamos observando está disposta entre linhas pontilhadas ver-
ticais (sombreada na forma de onda). Observe o aspecto descontínuo a que nos referimos: entre as 
vogais à esquerda e à direita, há sinal sem energia acústica – tanto que vemos um espaço em branco 
no espectrograma e, na forma de onda, uma linha reta horizontal. Em seguida, mais vizinha à vogal 
da direita, há uma “explosão de energia”, caracterizada por forma de onda aperiódica e por uma 
barra vertical no espectrograma.
Os fatos a que nos referimos na Figura 3 constituem o que se chama, respectivamente, oclu-
são e burst na literatura fonética. A oclusão – porção do sinal sem energia de produção, isto é, por-
ção em branco no espectrograma – corresponde ao momento em que dois articuladores encostam 
um no outro, causando obstrução à passagem do ar no trato. Em seguida, tem-se a soltura desses 
articuladores e, em decorrência desse movimento, a “explosão” que caracteriza auditivamente a 
classe das oclusivas5 e que é vista por meio da barra vertical no espectrograma (burst).
Outro parâmetro acústico que caracteriza as oclusivas é o VOT6, ou tempo do início do 
vozeamento, isto é, o tempo decorrido entre o final do burst e o início da atividade de vibração das 
pregas. Para medir o VOT, portanto, usamos a duração que, por sua vez, obtém-se no espectro-
grama por meio da observação do eixo horizontal que traz o parâmetro “tempo”7. O VOT é um 
parâmetro acústico que nos auxilia a precisar o ponto de articulação das consoantes oclusivas: na 
literatura de língua inglesa, Liker e Abramson (1964) já observavam que [p] tem VOT mais breve 
que [t] e, este, VOT mais breve que [k], ou seja, à medida que o ponto de articulação da consoante 
se posterioriza no trato vocal, o VOT aumenta. Essa relação é semelhante em português brasileiro, 
5 Lembre-se de que a outra denominação possível para a classe das oclusivas é plosiva, uma referência direta à impres-
são auditiva de uma pequena “explosão” que caracteriza os sons dessa classe.
6 Sigla em inglês para voice onset time. Note que, na literatura fonética, muitos termos ingleses não são traduzidos para 
a língua portuguesa.
7	 No	programa	Praat,	podemos	obter	a	duração	de	um	evento	acústico	posicionando-o	entre	os	cursores –	as	linhas	
verticais pontilhadas. O programa abre, então, automaticamente uma janela que traz a medida da duração de tal evento, sem-
pre em segundos (s). Entretanto, costumamos nos referir à duração dos eventos acústicos da fala em milissegundos (ms) 
porque são muito breves.
Língua Portuguesa I: Fonética e Fonologia92
porém, [p] e [t] têm valores semelhantes de VOT e que, por sua vez, são mais breves que os valo-
res de VOT de [k]. A esse respeito, você pode consultar vários trabalhos orientados pelo Prof. Dr. 
Ubiratã Alves (UFRGS) e também a dissertação de mestrado de Susana Prestes (2013).
Ressaltamos que todas as consoantes oclusivas se caracterizam pelos três parâmetros acústi-
cos que mencionamos: oclusão, burst e VOT. O que faz diferir [p] de [t], por exemplo, é a trajetória 
dos formantes das vogais na transição8 da oclusiva para a vogal seguinte, além da duração do VOT 
que acabamos de mencionar. É preciso acrescentar que o parâmetro acústico absolutamente obriga-
tório para uma oclusiva é justamente a oclusão, sem ela, tem-se a produção de outra classe. O burst 
nem sempre é visível, porque a soltura dos articuladores pode ocorrer com uma amplitude baixa, 
que acaba não sendo registrada pelo microfone e, assim, não se vê no sinal acústico.
7.2.2 Fricativas
Para a produção das consoantes fricativas, é necessária a realização de uma constrição severa 
em algum ponto do trato. A constrição causa estreitamento do trato e, como consequência, para 
que o ar egresso dos pulmões consiga passar por esse ponto de estreitamento é preciso que ele se 
comprima, levando à fricção de suas partículas, conforme já abordado no Capítulo 3. Esse fato aca-
ba causando a sensação auditiva de ruído que caracteriza essa classe e que podemos ver, em uma 
análise acústica, da maneira a seguir.
Figura 4 – Forma da onda e espectrograma da palavra “assa”
Fonte: Elaborada pela autora com o software Praat.
A fricção das partículas de ar é identificada, na janela superior da Figura 4, pela forma de 
onda aperiódica, que se encontra sombreada, entre as linhas pontilhadas verticais. Note que essa 
forma de onda contrasta drasticamente com a forma de onda quasi-periódica à esquerda e à direita 
da porção sombreada e que caracteriza sons vocálicos.
No espectrograma, a fricção das partículas de ar é vista como um “chuvisco”, que também se 
encontra entre as linhas pontilhadas verticais e decorre do caráter aperiódico característico dessa 
classe de sons.
8 A transição é um evento acústico que capta o momento em que um articulador termina um som e outro começa com 
o som seguinte na cadeia da fala.
Caracterização acústica dos sons da fala 93
O que diferencia os sons fricativos entre si – por exemplo, [s] de [∫] – é a região de frequên-
cia onde começa o ruído fricativo: enquanto para o primeiro som a fricção começa por volta dos 
5kHz, para o segundo ela começa em torno de 3kHz, mais baixa, portanto. No caso de [f], a energia 
de produção começa ainda em uma região mais baixa e se espalha por todo o espectro.
A literatura fonética tem se valido, mais recentemente, dos “momentos espectrais”, propostos 
por Jongman et al. (2000) para a caracterização das consoantes fricativas. Os momentos espectrais 
são quatro: centroide; desvio-padrão; assimetria e curtose. O centroide é o “centro de gravidade” 
do ruído fricativo. Já os três outros são parâmetros estatísticos relativos à distribuição do ruído das 
fricativas no espectro de frequência. Para mais esclarecimentos sobre esses parâmetros, e para a 
caracterização das fricativas no português brasileiro, o leitor pode recorrer aos trabalhos da Profa. 
Dra. Larissa Berti (UNESP/Marília) – pioneira em utilizar esses parâmetros para estudar as con-
soantes fricativas, em sua tese de doutorado – e à dissertação de Flávio Medina (2011).
7.2.3 Africadas
As consoantes africadas envolvem, em sua articulação, manobras características de oclusivas 
e de fricativas. Elas começam com a oclusão do trato vocal, promovida pelo encontro da ponta da 
língua com os alvéolos, e terminam com a soltura dessa oclusão, que causa estreitamento das pare-
des do trato vocal, em razão da aproximação grande entre lâmina da língua e palato. Logo, é possí-
vel dizer que ao mesmo tempo em que a oclusão se desfaz, a língua se posterioriza no trato vocal.
A consequência dessas manobras articulatórias presentes na produção desses sons “híbri-
dos” será a presença de eventos acústicos característicos de oclusivas, seguidos de eventos acústicos 
típicos de fricativas. Veja a Figura 5, onde se assinalam, à esquerda, entre linhas verticais pontilha-
das, a africada [t͡ʃ] e, à direita, no retângulo, a africada [d͡ʒ].
Figura 5 – Forma de onda e espectrograma de “tipo” e “dito”
Fonte: Elaborada pela autora com osoftware Praat.
Note que ambas as africadas exibem oclusão, seguida de burst (soltura da oclusão), que, por 
sua vez, é seguido por ruído fricativo. Esse é um som muito frequente no português brasileiro e 
ocorre em vários dialetos. Entretanto, ele é vizinho da vogal [i], apenas. Por isso, os exemplos da 
Figura 5 têm as africadas no contexto precedente a [i]. A razão para a ocorrência das africadas vi-
zinhas a [i] será abordada quando tratarmos de fonologia do português brasileiro.
Língua Portuguesa I: Fonética e Fonologia94
7.2.4 Nasais
Como decorrência do fato de as consoantes nasais requererem o acoplamento da cavidade 
nasal à cavidade oral do trato vocal para serem realizadas, conforme abordado no Capítulo 3, pro-
duz-se uma ressonância na cavidade nasal que se sobrepõe à obstrução, promovida na cavidade 
oral, pelo encontro de dois articuladores. Por isso, os espectrogramas de consoantes nasais trazem 
sempre um formante adicional, o formante nasal.
Cabe ressaltar que um formante é uma região de frequência determinada que é ressaltada 
devido ao formato que o trato assume para a produção de um som. Nós conseguimos visualizar os 
formantes em sons vocálicos e consoantes como as nasais, líquidas e aproximantes, mas não nas 
oclusivas. No caso das consoantes nasais, o formante que nos interessa se localiza em uma faixa de 
aproximadamente 300Hz.
A Figura 6 traz a forma de onda e o espectrograma de uma consoante nasal alveolar [n].
Figura 6 – Forma de onda e espectrograma da palavra “ana”
Fonte: Elaborada pela autora com o software Praat.
Observe que, diferentemente das oclusivas, as consoantes nasais têm forma de onda e aspec-
to visual contínuos. Isso se deve à atividade da cavidade nasal, porque, como você deve se lembrar, 
na cavidade oral, as nasais são produzidas com oclusão em algum ponto da cavidade oral – que 
no nosso exemplo é o alveolar –, concomitante à propagação sem resistência pela cavidade nasal.
Além disso, diferentemente das consoantes fricativas, as nasais se caracterizam por uma for-
ma de onda periódica (ou quase periódica), porque não são produzidas pela ação de ruído.
As consoantes oclusivas também exibem formantes, como se vê na Figura 6. Nela, as trajetó-
rias dos formantes estão traçadas por linhas horizontais pontilhadas. Veja que o primeiro formante 
nasal ocupa uma região baixa de frequência e que corresponde a, aproximadamente, 345Hz.
7.2.5 Líquidas
O nome líquidas engloba as consoantes laterais, vibrantes e taps – sons de /l/ e /r/, portanto. 
Deve-se à impressão auditiva desses sons, que lembravam aos foneticistas do século XIX o barulho 
de água. Daí receberem, em francês, a denominação de sons mouillés (molhados).
Caracterização acústica dos sons da fala 95
Cabe pontuar que, embora reunidos em uma mesma classe  – talvez devido à impressão 
auditiva a que remetíamos acima –, as laterais (sons de /l/) e os róticos (sons de /r/) têm aspectos 
bastante distintos, especialmente porque as laterais são contínuas e os róticos – como vibrantes e 
taps – não. Na Figura 7, dispõem-se, a forma de onda e o espectrograma de ala e “ara”.
Figura 7 – Forma de onda e espectrograma de “ara” e “ala”
Fonte: Elaborada pela autora com o software Praat.
O tap encontra-se entre linhas verticais pontilhadas e a lateral, sinalizada dentro do retângulo9. 9
O tap alveolar [ɾ] tem aspecto visual semelhante ao de uma oclusiva: sua forma de exibe am-
plitude muito pequena, devido à baixa energia de produção que há no trato em razão da diminuição 
da pressão subglótica e da oclusão frontal que a produção do tap requer. Além disso, a forma de 
onda é menos periódica que a da lateral. Esses fatos também são visíveis no espectrograma: veja 
que ali há uma pequena interrupção na cadeia sonora e essa interrupção termina com um evento 
acústico similar ao burst de uma oclusiva. Silva (1999), seguindo Recasens (1991), chama o primeiro 
evento acústico – aquele parecido com a oclusão das plosivas – de fechamento. O segundo momento 
é denominado abertura oral pelos autores, porque há retomada da energia de produção em razão da 
soltura da oclusão.
A característica que diferencia [ɾ] de [d], sua homorgânica, é a duração do momento de 
fechamento/oclusão: ele é bem mais breve para o tap do que para a oclusiva alveolar sonora. 
O tap, como o próprio nome sinaliza, é uma batida. Uma batida muito rápida da ponta da língua 
nos alvéolos. Tão rápida que dura, conforme Silva (1999) e considerando-se fechamento mais aber-
tura oral, algo em torno de 20 a 25 ms.
Por outro lado, a lateral alveolar [l] tem forma de onda e aspecto visual contínuos, sem in-
terrupções. É possível, inclusive, visualizar uma estrutura formântica que é muito próxima de [u] 
pois, como mostra a trajetória dos formantes na Figura 7, F1 e F2 estão em uma região baixa de 
frequência e ambos estão próximos. A configuração de formantes de [l] pode servir de pista para 
explicarmos a vocalização da lateral, isto é, a produção da lateral de final de sílabas e/ou palavras 
como uma aproximante lábio-velar [w], tal como temos hoje, na grande maioria dos dialetos do 
português brasileiro em palavras como alfinete ou papel.
9 O Praat não permite que se faça duas seleções na mesma tela, por isso foi preciso selecionar o segundo som que 
visávamos na Figura com o retângulo.
Língua Portuguesa I: Fonética e Fonologia96
O aspecto contínuo da lateral dificulta sua segmentação – isto é, sua separação dos outros 
sons da cadeia da fala –, especialmente quando [l] ocorre em posição intervocálica. Para a tarefa de 
segmentação, a pista mais significativa é a amplitude da onda: repare que a forma da onda de [l] (na 
janela superior do quadro à direita da Figura 7) tem amplitude menor que a amplitude das vogais 
adjacentes. E esse fato é consistente para as laterais.
A diferença entre tap e lateral quanto ao aspecto visual (descontínuo x contínuo) é verificada 
também em grupos consonantais, em que as líquidas ocupam o segundo lugar no grupo.
Figura 8 – Forma de onda e espectrograma das sequências “pra” e “pla”
Fonte: Elaborada pela autora com o software Praat.
Na porção esquerda da Figura 8, entre linhas verticais pontilhadas, temos o tap da sequên-
cia “pra”. Note que, à esquerda dele, temos um evento acústico com trajetória de formantes nítida 
e, como sugere a trajetória dos formantes – em linhas horizontais pontilhadas – muito parecida 
com a trajetória dos formantes da vogal à direita do tap. Isto não é à toa. Nishida (2009), em sua 
dissertação de mestrado, evidencia pela medida da frequência dos formantes dos eventos à esquer-
da e à direita do tap, e por testes estatísticos de correlação entre os valores obtidos, que o evento 
à esquerda do tap é a vogal nuclear da sílaba. Em outras palavras: em grupos consonantais, como 
nesse da Figura 8, fazemos a primeira consoante, começamos a primeira vogal e, decorridos uns 
20 milissegundos, produzimos o tap para, então, terminarmos a vogal. Nishida (2009) argumen-
ta que esse achado sinaliza que o tap parece necessitar se apoiar sempre em duas vogais para ser 
produzido. Convém acrescentar que nós não ouvimos o iniciozinho da vogal, à esquerda do tap, 
embora nós o vejamos no sinal acústico. Uma possível razão para que nós não ouçamos esse início 
da vogal é sua brevidade.
Quando se observa o espectrograma de [l], à direita da Figura 8, vemos que ele não entrecor-
ta a vogal da sílaba, como faz o tap. Temos, ali, a consoante oclusiva [p], seguida de [l] e, então, [a]. 
Novamente, a lateral tem forma de onda reduzida, se comparada à forma da onda da vogal à direita. 
Diferente do tap, e muito provavelmente em razão de a lateral alveolar ser um som contínuo, ela 
não necessite se apoiar em duas vogais para ser produzida.
Para fechar esta apresentação das líquidas, vamos ainda abordar dois sons pertencentes a 
essa classe: a vibrante alveolar e a lateral palatal.
Caracterização acústica dos sons da fala 97
A vibrante alveolar [r] é um som que está desaparecendo do portuguêsbrasileiro e que ain-
da se encontra em línguas como o espanhol. Ela se constitui usualmente de uma sucessão de três 
a cinco momentos de quase interrupção da corrente de ar no trato – ou fechamentos, segundo a 
denominação da literatura (RECASENS, 1991) –, seguidos da retomada da produção de voz, ou 
abertura oral. A Figura 9 traz o registro de uma vibrante.
Figura 9 – Forma de onda e espectrograma da sequência “arra”
Fonte: Elaborada pela autora com o software Praat.
Nessa produção há um número maior de fechamentos e aberturas orais do que aquele pre-
visto pela literatura, provavelmente em razão de quem produziu essa sequência – a autora – não ter 
esse som em sua fala e, por isso “exagerar” na sua articulação para produzi-lo de maneira nítida.
Ainda assim, é possível verificar um momento em que a voz quase desaparece (fechamento) 
logo no início do som. A forma da onda de amplitude reduzida auxilia essa visualização. Em segui-
da, temos uma abertura oral, com uma estrutura de formantes nítida. Seguem-se, então, mais cinco 
fechamentos e quatro aberturas orais, delimitados, na Figura 8, pelas linhas verticais pontilhadas. 
A vogal [a] final da sequência sucede o último fechamento da vibrante.
Uma última observação se faz necessária sobre as vibrantes: elas têm sido, pouco a pouco, 
substituídas por versões fricativas. Você mesmo, muito provavelmente, faz uma consoante frica-
tiva no início de palavras como roupa, reta, rumo, ou no início de sílabas, no meio de palavras 
como carro, arroz, ferro. Nesse caso, dizemos que as fricativas têm a função de róticos. Mas 
articulatória e acusticamente elas não são róticos. Desse modo, a análise acústica desses precisa 
considerar os parâmetros acústicos envolvidos na análise das fricativas. Finalmente: não temos 
trabalhos sobre o português brasileiro acerca dessas fricativas que nos permitam precisar o pon-
to de articulação desses sons. Por isso, no geral, essas fricativas que substituem a vibrante podem 
se estender desde o ponto velar até o ponto glotal. Logo, enquanto não dispomos de estudos que 
nos permitam precisar o ponto de articulação dessas fricativas, é mais apropriado dizer apenas 
que são fricativas posteriores.
A vibrante alveolar, como comentamos anteriormente, é um som que está desaparecendo no 
português brasileiro, sendo encontrada ainda na fala de pessoas naturais da região Sul do Brasil e, 
no geral, pertencentes a uma faixa etária mais elevada (acima de 60 anos).
Língua Portuguesa I: Fonética e Fonologia98
Passemos agora à lateral palatal [ʎ]. Trata-se de um som de baixa frequência de ocorrência 
no português brasileiro, conforme mostram Albano et al. (1995). Além disso, esse som ocorre pre-
ferencialmente entre vogais, no meio de palavras. São raras as suas ocorrências em início de palavra 
e, no geral, elas se circunscrevem a empréstimos, como no caso de lhasa e lhama. A Figura 10 traz 
forma de onda e espectrograma desse som entre duas vogais.
Figura 10 – Forma de onda e espectrograma da sequência “alha”
Fonte: Elaborada pela autora com o software Praat.
Note que, assim como a lateral alveolar [l], também a palatal tem aspecto visual contínuo, 
com estrutura de formantes bem definida e forma de onda de amplitude reduzida, comparativa-
mente à amplitude das vogais. Como nas outras figuras, também nesta o som em questão está 
delimitado por linhas verticais pontilhadas.
Há dois aspectos fundamentais na caracterização acústica de [ʎ]. O primeiro deles é a fre-
quência do segundo formante (F2). Embora a trajetória do segundo formante não esteja muito 
bem resolvida neste exemplo, é possível ter uma ideia de sua localização. Note que ele se encontra 
afastado do primeiro formante (F1) da lateral e próximo do terceiro formante (F3) desse som. Esse 
aspecto – muito semelhante à estrutura de formantes da vogal frontal alta [i] – é resultado da arti-
culação da lateral no ponto palatal e a diferencia da lateral alveolar [l], que exibe F1 e F2 baixos e 
próximos entre si.
O outro aspecto a se notar sobre a lateral palatal são as transições à sua esquerda e à sua 
direita. A transição é um momento que reúne características de mais de um som. É o correlato 
acústico do momento em que os articuladores ainda estão produzindo um som, mas se preparam 
para produzir o seguinte, movendo-se da posição que ocupam em direção à posição que deverão 
assumir para a produção do som que segue.
As transições podem ser vistas, na Figura 10, à esquerda e à direita da lateral palatal, como 
momentos em que F1 e F2 exibem trajetórias que mudam de configuração. Elas são longas e acen-
tuadas. Note que, da vogal [a] para [ʎ], F1 abaixa e F2 sobe. Afinal, a mandíbula tem de fechar e o 
dorso da língua tem de se projetar para frente. Já na trajetória da transição à direita de [ʎ], temos 
um movimento ascendente de F1 e um movimento descendente de F2, pois para produzir [a] é 
necessário que a mandíbula abaixe e que o dorso da língua se posteriorize ligeiramente.
Caracterização acústica dos sons da fala 99
A semelhança da lateral palatal com a vogal frontal alta [i] explica por que, em alguns regis-
tros, ela é substituída por essa vogal, de onde resultam formas como [ˈpaj.ɐ] para [ˈpa.ʎɐ].
Convém frisar que a diferença entre os valores das frequências dos formantes, observada es-
pecialmente para F2, quando se comparam as duas consoantes laterais, é que carrega a informação 
sobre os diferentes pontos de articulação dessas consoantes.
7.2.6 Aproximantes
As aproximantes, também chamadas glides ou semivogais, assemelham-se muito a vogais, 
porque sua articulação requer – como sugere o nome da classe – que um articulador móvel, o 
dorso da língua, se aproxime de outro, sem encostar ou promover um grande estreitamento das 
paredes do trato vocal. Daí, portanto, o aspecto contínuo desses sons no espectrograma e sua forma 
de onda também contínua. As aproximantes geralmente constituem ditongos nas línguas em que 
ocorrem, podendo figurar à direita ou à esquerda da vogal que constitui o núcleo silábico. A Figura 
10 traz dois desses sons que ocorrem no português brasileiro, em ditongos.
Figura 11 – Forma de onda de espectrograma das sequências “aia” e “aua”
Fonte: Elaborada pela autora com o software Praat.
Repare que todas as duas aproximantes se caracterizam por longas transições dos formantes 
que estão sinalizados, também na Figura 11, por linhas horizontais pontilhadas. No caso da apro-
ximante palatal [j], o primeiro formante tem trajetória descendente e, portanto, oposta à trajetória 
ascendente do segundo formante, no início do segmento. No final dele (isto é, próximo à segunda 
linha vertical pontilhada), observe o movimento contrário dos formantes, de modo que o segundo 
apresenta trajetória descendente e o primeiro, trajetória ascendente. As trajetórias dos formantes 
têm essa configuração porque traduzem os movimentos de mandíbula e dorso da língua, como 
sabemos. Assim, a mandíbula, inicialmente abaixada para a articulação de [a], se eleva para a pro-
dução da aproximante palatal [j]; em seguida, abaixa novamente para a produção da vogal [a] 
final da sequência. O dorso da língua, por sua vez, está posicionado em uma região intermediária 
a palato e véu palatino, durante a articulação da vogal. Para a produção da aproximante, o dorso 
se projeta para a frente, isto é, para a região palatal. Em seguida, o dorso da língua volta à posição 
intermediária ao palato e ao véu palatino. Isso explica a trajetória que F2 exibe na figura. Verifique 
ainda que a transição da vogal para a aproximante e dessa para a vogal seguinte é longa.
Língua Portuguesa I: Fonética e Fonologia100
Uma característica adicional das aproximantes, que decorre das longas transições entre elas 
e as vogais vizinhas, é a dificuldade de segmentarmos com clareza onde começa e onde termina a 
aproximante, porque ela está presente nas transições. Se ouvimos o som nesse momento, inclusi-
ve, não conseguimos distinguir qual é. Além disso, nem sempre o estado estacionário(momento 
de trajetória estável dos formantes) é tão claro como na Figura 11, porque nem sempre a fala é 
articulada de maneira clara e cuidada como nos exemplos utilizados nesta seção. A dificuldade de 
segmentação, repetimos, decorre do fato de que um som “entra” no outro durante a produção de 
um ditongo.
A aproximante labiovelar [w], por sua vez, embora também se caracterize pelo movimento 
longo dos formantes, exibe trajetória descendente tanto para o primeiro quanto para o segundo 
formantes, o que faz com que essa aproximante também se pareça com a vogal [u] – a diferença 
entre ambas está justamente na trajetória longa e acentuada dos formantes durante as transições.
Como vimos até este momento, podemos medir frequência de formantes de vogais, con-
soantes nasais, laterais, aproximantes e algumas róticas. Não conseguimos medir frequência de for-
mantes de oclusivas, fricativas e africadas. E, sobre elas, que a literatura fonético-fonológica abarca 
em uma classe mais geral, a classe das obstruintes, é preciso ainda abordar uma característica, a 
sonoridade, que é alvo da próxima seção.
7.3 Sonoridade das consoantes obstruintes
Nas seções 7.2.1, 7.2.2 e 7.2.3, deste capítulo, abordamos os parâmetros que 
caracterizam oclusivas fricativas e africadas e que, ao mesmo tempo, distinguem 
essas consoantes entre si. Abordamos também os aspectos em que os sons fricativos 
diferem uns dos outros, assim como os oclusivos. Mas há uma diferença para a qual 
ainda não nos atentamos: como distinguir [p] de [b], ou [ʃ] de [ʒ], ou ainda [t͡ʃ] de 
[d͡ʒ], quer dizer, como diferenciar uma consoante surda de uma consoante sonora?
Como também já observamos, a diferença entre as versões surda e sonora para essas con-
soantes é a ação das pregas vocais, tal que se as pregas não vibram, teremos como resultado uma 
consoante surda e, se elas vibram, teremos uma consoante sonora. Essa diferença articulatória 
se traduz acusticamente pelo evento que denominamos barra de sonoridade que é frequência de 
vibração das pregas vocais, ou F0, visível no espectrograma como um “borrãozinho” na região 
de frequência mais baixa do espectrograma. Observe a Figura 12.
Vídeo
Caracterização acústica dos sons da fala 101
Figura 12 – Espectrogramas de “acha” e “aja”
Fonte: Elaborada pela autora com o software Praat.
Nessa Figura, vemos as fricativas pós-alveolares surda [ʃ] e sonora [ʒ], respectivamente. 
Observe que durante toda a extensão de [ʒ] visualizamos um “borrãozinho” tênue, ao pé do espec-
trograma. Ele está assinalado pela oval, na porção direita da Figura. Essa é a barra de sonoridade. 
Agora observe o espectrograma de [ʃ]. Nele não há qualquer evento acústico parecido com o que 
vemos para [ʒ]. E isto é óbvio pois, como mencionamos, sendo a barra de sonoridade o correlato 
acústico da frequência de vibração das pregas vocais, ela ocorrerá apenas durante a articulação de 
consoantes obstruintes sonoras.
Mas não é só a sonoridade que diferencia consoantes surdas de consoantes sonoras. Vamos 
considerar as oclusivas: na seção 7.2.1 observamos que o VOT (voice onset time) é um bom parâ-
metro para diferenciarmos o ponto de articulação das oclusivas. Ele também é um bom parâmetro 
para distinguirmos a sonoridade das oclusivas. Observe: o VOT, ou tempo de início do vozeamen-
to, expressa o tempo que decorre entre a soltura dos articuladores e a retomada da vibração das 
pregas vocais. No caso das oclusivas sonoras, como [p], o VOT se estabelece entre a soltura dos 
articuladores (burst) e o início da vogal que segue a oclusiva. Porém, no caso das oclusivas sonoras, 
como [b], as pregas vocais já estão vibrando quando promovemos a oclusão de dois articuladores. 
Por isso, no caso do português brasileiro, há uma tendência geral do VOT de consoantes sonoras 
exibir a mesma duração do momento de oclusão.
A literatura fonética toma, para o cálculo da duração do VOT, a soltura da oclusiva (burst) 
como ponto de referência. Assim sendo, se o VOT ocorre depois do burst, ele assumirá valores 
positivos, como no caso das consoantes surdas. No caso das consoantes sonoras, como o VOT 
acontece já antes de os articuladores desfazerem a oclusão, seus valores serão negativos. Na Figura 
13 trazemos a forma de onda e o espectrograma de duas consoantes oclusivas, [p] e [b] e marcamos 
o VOT. O VOT de [p], quase zero, como costuma acontecer, está selecionado entre linhas verticais 
pontilhadas. Já o VOT de [b] está marcado pela oval, na sequência à direita da Figura.
Língua Portuguesa I: Fonética e Fonologia102
Figura 13 – Espectrogramas de “apa” e “aba”
Fonte: Elaborada pela autora com o software Praat.
Assim, podemos dizer que temos duas pistas que sinalizam a sonoridade das oclusivas: 
VOT e barra de sonoridade. Às vezes, dependendo da qualidade da gravação, não é possível 
visualizar a barra de sonoridade. O VOT, então, pode ser tomado para distinguir a oclusiva sur-
da da sonora. É importante esclarecer que esta observação é válida para o português brasileiro. 
Outras línguas, como o inglês, tomam o VOT como pista acústica prioritária para a distinção da 
sonoridade das consoantes, como relatam as referências citadas na seção 7.2.1.
As consoantes fricativas exibem comportamento semelhante ao das oclusivas: a barra 
de sonoridade distingue a consoante surda da consoante sonora, mas ela não é a única pista 
acústica a veicular a informação de sonoridade da fricativa. A duração cumpre esse papel. 
Se voltarmos à Figura 12, veremos que a consoante surda, na porção esquerda da Figura, é 
mais longa do que a sua contraparte sonora, na porção direita da mesma Figura. Se medimos 
a duração de [ʃ] de [ʒ], a impressão visual se confirma. Assim, enquanto [ʃ] tem duração de 
285 milissegundos (ms), [ʒ] dura 172 ms. Ou seja, neste caso a consoante sonora dura quase o 
dobro da consoante surda.
Seguindo o mesmo comportamento de oclusivas e fricativas, as africadas distinguem sono-
ridade por meio de mais de um parâmetro. Observe a Figura 14.
Figura 14 – Espectrogramas de “tipo” e “dito” (repete a Figura 5 da seção 7.2.3)
Fonte: Elaborada pela autora com o software Praat.
Caracterização acústica dos sons da fala 103
Note que, como as oclusivas, as africadas exibem barra de sonoridade, no caso da africada 
pós-alveolar sonora [d͡ʒ], assinalada pela oval. Como as oclusivas, o VOT da consoante africada so-
nora assume valores negativos. Por outro lado, como as consoantes fricativas, a porção de ruído das 
africadas é mais longa para a surda [t͡ʃ] do que para a sonora [d͡ʒ]. Esses eventos acústicos medem, 
respectivamente, 128 ms e 60 ms.
O comportamento das africadas não é excepcional pois, como sabemos, elas reúnem carac-
terísticas de consoantes oclusivas e de consoantes fricativas. Em decorrência do caráter “híbrido” 
de [t͡ʃ] de [d͡ʒ], temos que a sonoridade é veiculada por três parâmetros acústicos: presença versus 
ausência de barra de sonoridade; duração do VOT; duração do ruído.
Para terminar este capítulo, cabe acrescentar que nós tratamos aqui da caracterização acús-
tica dos sons, mas é possível também fazer a análise acústica de fatos que se sobrepõem à cadeia 
sonora, isto é, a fatos prosódicos, como entoação, acento, tom.
O mesmo software que utilizamos para a caracterização acústica dos sons – o Praat – nos dá 
a possibilidade de fazermos a análise prosódica. Como ela não é o foco de nossos estudos, nós não 
trataremos dela aqui.
E atenção: o computador não faz sozinho a análise acústica. Para interpretá-la e verificar 
o que nos interessa em termos linguísticos, é preciso entender o que o programa de análise faz e 
como ele funciona. Por isso, é aconselhável que você faça o download do manual do Praat, dispo-
nível no site10 do programa.
Atividades
1. Assinale a alternativa que completa a frase. Para a caracterização acústica dos sons da fala, 
utilizamos os parâmetros:
a) frequência e amplitude do sinal e sucessão temporal dos eventos.
b) abertura da mandíbula, posição do dorso e movimento dos lábios.c) ponto de articulação, modo de articulação e sonoridade.
d) ruído, oclusão, frequência dos formantes e duração.
2. Assinale a alternativa que completa a frase. Consoantes como oclusivas e fricativas diferen-
ciam-se de vogais pela seguinte pista acústica:
a) formantes têm frequência em geral mais alta para as consoantes que para as vogais.
b) aspecto visual descontínuo ou com ruído para as consoantes, mas contínuo para as vogais.
c) amplitude mais baixa para as vogais e mais alta para as consoantes, especialmente 
as fricativas.
d) maior duração para as consoantes, que são articulatoriamente mais complexas que vogais.
10 Disponível em: www.praat.org. Acesso em: 14 dez. 2018.
Língua Portuguesa I: Fonética e Fonologia104
3. Assinale a alternativa que completa a frase. A Teoria Acústica de Produção da Fala (FANT, 
1960) prevê uma relação entre o dado acústico e o articulatório, de modo que:
a) o primeiro formante (F1) é o correlato acústico do movimento de dorso e o segundo 
formante (F2) é o correlato acústico da abertura da mandíbula.
b) o primeiro formante (F1) é o correlato acústico de arredondamento de lábios e o segundo 
formante (F2) é o correlato acústico da vibração das pregas vocais.
c) o primeiro formante (F1) é o correlato acústico da abertura da mandíbula e o segundo 
formante (F2) é o correlato acústico do movimento de dorso.
d) o primeiro formante (F1) é correlato acústico da vibração das pregas vocais e o segundo 
formante (F2) é correlato acústico de arredondamento de lábios.
8
Estudo dos sons com função comunicativa: Fonologia
8.1 Objeto de estudo da Fonologia
Na Linguística, há duas disciplinas que se ocupam do nível fônico – ou nível 
dos sons – das línguas: Fonética e Fonologia.
A Fonética, em linhas gerais, dedica-se ao estudo de quaisquer sons de uma 
determinada língua, o que significa admitir que ela se ocupa das diversas varian-
tes de um mesmo som. Assim, por exemplo, podemos dizer que, ao darmos um 
tratamento fonético para os sons da língua portuguesa, estaremos preocupados em estudar sons 
como o de /r/ olhando para variantes como a vibrante alveolar [r], o tap alveolar [ɾ], a fricativa 
velar [x] ou a fricativa glotal [h]. Podemos, inclusive, apontar em quais dialetos são encontradas, 
observando que no dialeto carioca as variantes fricativas ocorrem em final de sílaba e/ou palavra 
e o tap se restringe à posição intervocálica ou grupos consonantais. 
Em contrapartida, podemos observar que no dialeto paranaense é possível encontrar a vi-
brante alveolar em início de palavra e – o que é típico desse dialeto, em especial do registro falado 
ao sul do estado – o tap em início de palavra (ver AGUILERA, 1994). Em final de sílaba e/ou 
palavra, o dialeto paranaense exibe a aproximante retroflexa [ɻ] coocorrendo com a aproximante 
alveolar [ɺ] e o tap [ɾ] (AGUILERA, 1994). Diferentemente do dialeto carioca, no paranaense as 
variantes fricativas ocorrem apenas em início de sílaba/palavra, especialmente na fala de gerações 
mais jovens.
A Fonologia, por sua vez, não se interessa por todos os sons que existem em uma determi-
nada língua – incluindo aí as variantes de um dado som. Para essa ciência, interessarão apenas 
os sons que têm função comunicativa em uma determinada língua. Mas o que significa, afinal, 
função comunicativa? Essa é uma expressão advinda do estruturalismo linguístico e decorrente 
da preocupação de linguistas como Roman Jakobson e Morris Halle1 concernente à verificação 
dos aspectos sonoros que se utilizam para veicular uma determinada mensagem. Essa perspectiva 
relaciona-se com outra, a da Teoria da Informação, um modelo matemático2 e que objetivava, em 
linhas gerais, verificar quais eram os aspectos constituintes mínimos de uma dada mensagem, 
suficientes para que, uma vez veiculada, tal mensagem fosse compreendida pelos seus receptores. 
Ter função comunicativa significa, portanto, que um som tem aspectos que, diferindo daqueles de 
outros sons, permite que esse som veicule uma mensagem. Assim, na língua portuguesa, dizemos 
que /p/ tem função comunicativa porque o fato de ser sonoro o distingue de /b/, de onde resulta 
1 Para mais detalhes acerca dessa preocupação, ver Jakobson; Fant e Halle (1952).
2 Ver Epstein (1988, p. 5): “A Teoria da Informação ou Teoria Matemática da Comunicação, denominação de Shannon 
(1975), foi formulada como uma teoria matemática destinada a auxiliar a solução de certos problemas de otimização 
do custo da transmissão de sinais. Sua definição de quantidade de informação ou redução de incerteza é axiomática e 
equacionada a partir de dois conceitos também matemáticos: a probabilidade e a função logarítmica”.
Vídeo
Língua Portuguesa I: Fonética e Fonologia106
que uma palavra como pato veicula uma informação distinta de uma palavra como bato. O fato de 
ser bilabial faz com que /p/ difira de /t/ e, por isso, uma palavra como pato veicula uma informação 
diferente da palavra tato.
A outros fonólogos interessarão as diversas variantes que, semelhantes entre si em termos 
fonéticos e ocorrendo muitas vezes condicionadas pelo ambiente adjacente, em uma distribuição 
mutuamente exclusiva, constituem um mesmo invariante, o fonema. Essa é a perspectiva adotada 
por Kenneth Pike, fonólogo norte-americano fundador do Summer Institute of Linguistics (SIL3), 
que na década de 1940 desenvolveu, com base no pressuposto que acabamos de mencionar, uma 
metodologia para se reconhecer os fonemas de uma língua e, a partir daí, propor sistemas de es-
crita para línguas ágrafas. Essa metodologia, chamada fonêmica, será abordada de maneira mais 
detida logo adiante.
De qualquer forma, seja qual for a perspectiva que se adote, a Fonologia se ocuparia do 
aspecto abstrato do nível sonoro da linguagem, isto é, da representação que os falantes de uma 
determinada língua têm das unidades mínimas que constituem esse nível. A Fonética, por outro 
lado, se ocuparia do aspecto concreto do nível sonoro da linguagem, isto é, da realização das 
menores unidades constituintes do nível sonoro. Adotar essa perspectiva – que ainda vigora na 
linguística, inclusive em modelos de análise fonológica de herança gerativa4 – implica em admi-
tir também que Fonética e Fonologia são duas disciplinas autônomas, distintas. Portanto, para 
se fazer a ponte entre as duas, ou para “converter” o simbólico (abstrato/discreto) no dinâmico 
(concreto/gradiente), é necessário prever, por exemplo, um extenso conjunto de regras de rea-
juste, mais um conjunto de artifícios que garantam seu funcionamento adequado, como fará a 
fonologia gerativa (CHOMSKY; HALLE, 1968)5.
Essa visão de que Fonética e Fonologia são disciplinas independentes, autônomas vem sen-
do questionada há tempos: em um artigo de 1990, Ohala defende, justamente, que considerar que 
as duas disciplinas são praticamente uma só pode levar a uma análise mais parcimoniosa e mais 
adequada do nível sonoro da linguagem. Mas quem propõe de fato como fazer a integração entre 
as duas disciplinas são Catherine Browman e Louis Goldstein, por meio de um modelo chamado 
Fonologia Articulatória. Esse é um modelo dinâmico – no sentido físico mesmo do termo – de pro-
dução da fala e parte do pressuposto de que, para assumir a integração entre Fonética e Fonologia, 
é preciso adotar um modelo primitivo de análise de natureza dinâmica, portanto diferente de 
traço distintivo ou fonema que têm, ambos, natureza discreta6. Dessa forma, como argumentam 
Browman e Goldstein (1992), desfaz-se a fronteira entre as duas disciplinas, tornando-se possível 
3 Esse é um instituto presbiteriano, que utilizava a fonêmica para traduzir a Bíblia para línguas de povos indígenas 
das Américas, ou para línguas asiáticas e africanas. Esses propósitos missionários, mascarados pela análise linguística, 
sempre foram alvo de duras críticas dos linguistas.
4 Os modelos de análise fonológica de herança gerativa são inspirados na Fonologia Gerativa Padrão de Chomsky e 
Halle (1968), como a Fonologia Lexical ou a Fonologiade Geometria de Traços.
5 As regras não vêm sozinhas: nesse modelo, para driblar seu caráter excessivamente formal, lançam-se artifícios 
como a Teoria da Marca. Além disso, é preciso prever, em muitos casos, que haja a atuação de mais de uma regra para 
fazer a conversão do simbólico no dinâmico e que essas regras interagem, de modo que, não raro, é preciso prever uma 
ordem de aplicação das regras para que se obtenha o fato fonético tal como ocorre em uma determinada língua, sob o 
risco de se gerar um fato inexistente.
6 Para mais detalhes sobre os modelos dinâmicos de produção de fala, ver Albano (2001).
Estudo dos sons com função comunicativa: Fonologia 107
pensar, agora, em um nível fônico da linguagem, que congrega tanto os aspectos simbólicos (abs-
tratos) como os dinâmicos (concretos), sem a necessidade de prever regras que façam a conversão 
de um no outro.
Apesar da possibilidade de integrar Fonética e Fonologia, nós ainda continuaremos ado-
tando a visão que dissocia ambas, por uma razão didática, exclusivamente. Assim, já sabedores do 
aspecto do nível sonoro da linguagem que a Fonologia seleciona, é preciso verificar, agora, como 
ela faz para abordar seu objeto. Para tanto, o primeiro passo é entender qual a unidade de análise 
(ou primitivo teórico) na qual os modelos fonológicos se baseiam.
8.2 Unidades de análise fonológica
8.2.1 O traço distintivo
Preocupados em isolar as unidades com função comunicativa na cadeia 
da fala, os fonólogos Roman Jakobson e Morris Halle realizaram um experimen-
to e observaram, por exemplo, que, para um indivíduo compreender uma palavra 
como bill (conta) em um teste de reconhecimento de palavras, especialmente se elas 
são fornecidas isoladas, o sujeito precisa chegar às “unidades relevantes para a discriminação das 
amostras” (JAKOBSON; FANT; HALLE, 1952, p. 1). Mas quais, afinal, são essas unidades relevan-
tes? Há, na língua inglesa, uma palavra como bull (touro), que permite que os sujeitos distingam 
as vogais entre si. Também há, nessa língua, a palavra pull (puxar), que faz com que os sujeitos 
confrontem e distingam as consoantes iniciais nas sequências bull e pull. Além disso, a palavra bill 
se opõe a pill (pílula), e a base dessa oposição é a mesma que tínhamos para pull/bull.
A partir daí, e estendendo os exemplos a outras palavras que diferem minimamente das to-
madas de início, os autores identificaram que a tarefa de compreensão da mensagem, em qualquer 
língua, coloca os indivíduos diante de uma situação de dupla escolha, a qual os obriga a optar entre 
duas qualidades polares de duas categorias: assim, para a compreensão de bill em oposição a pill, é 
preciso, dentro da categoria “sonoridade”, escolher entre as qualidades “surdo” ou “sonoro”. Por que 
é a categoria sonoridade, aliás, a relevante nesse caso? Repare que as consoantes [p] e [b] comparti-
lham ponto e modo de articulação, dado que são ambas oclusivas e bilabiais. A diferença entre elas 
está, justamente, na sonoridade. O mesmo raciocínio se aplica ao par bull/pull.
Já para a diferenciação das vogais [i] e [u], no par bill/bull, a categoria envolvida é outra, e 
poderíamos chamar de pitch7: essas vogais diferem pela posição do dorso da língua no trato vocal, 
que faz com que [i] seja frontal e [u], posterior. Mas ambas são produzidas com a mandíbula elevada 
– são altas, portanto. A diferença na posição do dorso reflete-se em uma diferença da frequência do 
segundo formante (F2), alto para [i] e baixo para [u]. Como consequência, [i] é um som agudo e [u] 
grave. A base da diferenciação entre [i] e [u] é a mesma para o par pill/pull.
7 Chama-se pitch o correlato psicofísico da variação da frequência de vibração das pregas vocais, ou frequência 
fundamental (F0). Neste ponto específico do texto o termo está sendo empregado com a mesma acepção adotada por 
Jakobson, Fant e Halle (1952) e remete, em linhas gerais, à sensação auditiva da frequência. Como [i] tem frequência de 
segundo formante (F2) mais alta que [u], a sensação auditiva que a primeira vogal provoca é de um som agudo, contraria-
mente a [u] que, por ter F2 baixo, tal como abordamos no Capítulo 7, provoca a sensação auditiva de um som grave.
Vídeo
Língua Portuguesa I: Fonética e Fonologia108
Às oposições mínimas entre duas unidades, como as exemplificadas acima, Jakobson, Fant 
e Halle (1952) chamam traços distintivos, que são justamente as menores unidades distintivas – ou 
que possuem função comunicativa – em uma língua e não podem ser decompostas em unidades 
linguísticas menores. Ainda segundo esses autores, vários traços distintivos combinam-se em um 
feixe, constituindo um fonema. Portanto, cada uma dessas palavras da língua inglesa que tomamos 
anteriormente como exemplo seria constituída de três feixes de traços distintivos, ou três fonemas. 
A diferença entre cada um dos feixes, relativamente aos demais, estaria apenas em uma oposição.
O objetivo seguinte desses autores passa a ser, então, identificar o conjunto de traços distinti-
vos que opera nas línguas do mundo. Para isso, eles se baseiam em dados de línguas como o inglês, 
o alemão, o francês, o tcheco, o polonês, o coreano, línguas do cáucaso (como o circassiano) e lín-
guas africanas (como o ewe). A partir desses dados, os autores conseguem chegar a um inventário 
de 12 traços que, por definição, são universais, ou seja, estabelecem relações de oposição em todas 
as línguas do mundo. Isso não quer dizer que todos esses traços estejam presentes em todas as 
línguas do mundo: cada língua seleciona um inventário de traços e determina como se combinam 
entre si. Daí a variabilidade entre as línguas no que concerne aos sistemas fonológicos.
Assim, os 12 traços previstos por Jakobson, Fant e Halle (1952) são:
• vocálico/não vocálico;
• consonantal/não consonantal;
• compacto/difuso (compact/diffuse);
• tenso/frouxo (tense/lax);
• sonoro/surdo (voiced/voiceless);
• nasal/oral;
• discontínuo/contínuo (discontinuous/continuant);
• estridente/doce (strident/mellow);
• brusco/fluente (checked/unchecked);
• grave/agudo;
• rebaixado/sustentado (flat/plain);
• incisivo/raso (sharp/plain)8.
Desses 12 traços, a língua portuguesa selecionaria de nove a dez. Outras línguas podem 
selecionar mais ou menos.
Sob essa perspectiva, o trabalho do fonólogo é, então, verificar quais são os traços distinti-
vos que operam em uma determinada língua, como se combinam e quais as unidades decorrentes 
dessa combinação.
8 As traduções para os traços distintivos propostos por Jakobson, Fant e Halle (1952) são de Camara Jr., em 
Jakobson (1967, p. 124-127). Você pode recorrer a essa referência, inclusive, para se aprofundar um pouco mais 
nessa proposta. Joaquim Mattoso Camara Jr., primeiro linguista brasileiro, reúne e traduz, nessa coletânea, textos 
fundamentais de Roman Jakobson.
Estudo dos sons com função comunicativa: Fonologia 109
8.2.2 O fonema
Como mencionamos anteriormente, além de poder ser definido como um conjunto de 
traços distintivos, ou um “feixe” deles, o fonema pode também ser uma entidade invariante que 
reúne variantes que têm algumas características articulatórias comuns e que podem ocorrer con-
dicionadas pelo ambiente adjacente.
Essa noção de fonema vigorou durante o estruturalismo linguístico – corrente que se inicia 
em função do surgimento da Linguística, em 1916, e que se estende até o final da primeira metade 
do século XX9. Mas é importante frisar que o conceito de fonema já existia antes mesmo do adven-
to da Linguística.
Assim, a palavra fonema era empregada pelos neogramáticos e pelos filólogos, no século XIX, 
como sinônimo de som da fala10. Os próprios foneticistas, no final do século XIX e início do século 
XX, empregavam o termo com essa ideia. Mas quem dá uma outra acepção a esse termo – adotado 
pela Fonologia e, em seguida, pela Linguística, frisamos – é Nicolai Trubtezkoy (1964), que em seus 
Princípios de Fonologia distingue fonemas de fones e alofones11. Assim, podemos dizer que, em linhasgerais, para Trubetzkoy, os fones12 são os próprios sons da fala – quaisquer sons e seu estudo caberia 
à Fonética. Os fonemas, por sua vez, são os sons que têm função comunicativa em uma língua e, 
portanto, acabam se tornando entidades abstratas e constitutivas do nível fonológico de uma língua. 
Já os alofones são variantes de um mesmo fonema que podem ocorrer devido ao condicionamento 
do ambiente adjacente, isto é, o ambiente no qual se encontra um determinado fonema pode exercer 
sobre ele uma influência tal que haja alterações de fatos como sonoridade, ponto de articulação ou 
até modo de articulação, no caso de sons consonantais, ou alterações de movimento dos lábios, do 
dorso de língua ou da abertura da mandíbula, em se tratando das vogais.
Admitindo essa diferenciação de Trubetzkoy, coloca para nós, agora, outra questão: como 
identificar os fonemas de uma língua, bem como os possíveis alofones, especialmente se a língua 
em questão for desconhecida para nós?
Quem propõe uma metodologia para realizar essa tarefa é Kenneth Pike, que já men-
cionamos anteriormente. Tal metodologia chamou-se Fonêmica e é para ela que nos voltamos 
em seguida.
9 O estruturalismo é uma escola linguística que surge em decorrência do modelo de linguagem de Ferdinand de Saussure, 
publicado em 1916 no Curso de Linguística geral. Durante aproximadamente meio século, teve grande força na Linguística e 
influenciou outras áreas das Ciências Humanas, como a Antropologia e a Sociologia, que se inspiraram em sua metodologia 
analítica – especialmente elaborada para dar conta de fatos fonológicos – para estabelecerem a sua própria.
10 Esta acepção “não linguística” do termo fonema acaba sendo utilizada ainda hoje: gramáticas escolares tomam sons 
da fala por fonemas, assim como fonoaudiólogas, que frequentemente associam essa ideia, por exemplo, às “trocas” de 
fonemas pelas crianças quando elas aparentemente substituem, em sua fala, sons sonoros por sons surdos. Não se dão 
conta, entretanto, de que, se considerarmos a acepção linguística do termo, criança alguma sobre a face da Terra troca 
fonemas, já que estas são unidades abstratas. O que as crianças fazem, nessas situações, é trocar um som por outro.
11 Para mais informações sobre o percurso histórico e teórico do termo fonema, ver Jones (1973): The history and 
meaning of the term “phoneme”.
12 Veja que, etimologicamente, o significado de fone é, de fato, som.
Língua Portuguesa I: Fonética e Fonologia110
8.3 Análise fonêmica
A metodologia de análise Fonêmica é exposta por Pike (1947) em um livro 
chamado Phonemics: a technique for reducing languages to writing. Como o próprio 
subtítulo indica, trata-se de uma técnica que possibilita fornecer um sistema de 
escrita a línguas ágrafas. De que maneira tal metodologia cumpre esse objetivo?
Os sistemas de escrita alfabética, como o nosso, fornecem um símbolo (gra-
fema, letra) para cada unidade distintiva da língua, ou seja, para cada fonema. Assim, uma palavra 
como, por exemplo, [aw.fa.be.t͡ʃi.za.ˈsɜw̃̃], para a qual você tem uma transcrição fonética aproxi-
mada e baseada no dialeto da autora, é grafada como alfabetização. Admitimos, portanto, que haja 
nessa sequência:
• um fonema lateral para o qual é proposto o grafema <l>;
• um fonema oclusivo alveolar surdo, que pode se realizar como a africada surda diante de 
[i] e para o qual é fornecido o grafema <t>13;
• um fonema vocálico, central, baixo, que pode ser realizado como a vogal central meio 
aberta [з] quando há nasalização sobreposta.
Dado o caráter fonológico do sistema alfabético, que buscamos evidenciar anteriormente, 
deve ficar claro que, para se chegar à grafia de uma palavra partindo de sua realização fonética, é 
necessário realizar uma análise fonológica da língua em questão: só assim saberemos quais são os 
fonemas dessa língua e quais as possíveis realizações para eles.
A análise fonológica, na fonêmica, toma por base quatro premissas, como o próprio Pike 
denomina. Elas chamam atenção para o fato de que sons que aparentemente são fonemas podem, 
na verdade, não ser, porque focalizam a possibilidade de variação sonora. Vamos a elas, então.
8.3.1 Primeira premissa
A primeira premissa afirma: “Os sons tendem a ser modificados pelo ambiente em que 
ocorrem14”.
Isso quer dizer que um determinado som pode sofrer influência de outros sons, adjacentes 
a ele, ou seja, os sons podem se coarticular. Como resultado, um [k] diante de [i] pode ser mais 
adiantado que um [k] diante de [a] ou diante de [u]. Em suma, o ambiente fonológico adjacente 
pode influenciar um som. Resulta dessa possível influência que o som em análise pode ser apenas 
uma variante de um fonema. É necessário, portanto, certificar-se, pela análise fonológica, que esses 
sons que compartilham diferenças mínimas são distintivos, quer dizer, são fonemas.
Cabe frisar que se considera “ambiente fonológico” tudo o que ocorrer adjacente a um deter-
minado som. Assim, o ambiente pode ser um outro som, mas também pode ser fronteira de sílaba, 
morfema ou palavra, ou pode ainda ser acento.
13 Um esclarecimento importante sobre a notação empregada: < > anotam grafemas (letras), ou seja, tudo o que está 
entre < > é letra. Os colchetes [ ] anotam sons da fala. As barras inclinadas / /, por sua vez, indicam fonemas. A notação 
empregada, portanto, carrega diferenças do estatuto da unidade a que nos referimos. Por isso é preciso estar muito atento 
a ela.
14 Essa é a tradução da autora para a enunciação das premissas que se encontra em Pike (1947, p. 74-87).
Vídeo
Estudo dos sons com função comunicativa: Fonologia 111
Assim, por exemplo, se voltarmos à palavra [aw.fa.be.t͡ʃi.za.ˈsɜw̃̃], podemos pensar em 
atribuir um grafema à africada [t͡ʃ]. Entretanto, observando dados como [ˈte.mɐ] (tema); [ˈtɛ.lɐ] 
(tela); [ˈta.bɐ] (taba); [ˈtɔ.kɐ] (toca); [ˈto.pʊ] (topo); [ˈtu.bɐ] (tuba) e comparando-os como a ocor-
rência de [t͡ʃ] em “alfabetização”, vemos que [t͡ʃ] só ocorre diante de [i] nesse dialeto. Isso significa 
que [t͡ʃ] não é um fonema, mas resulta da modificação que a vogal [i] exerce sobre a consoante 
oclusiva alveolar surda [t] que a antecede.
Essa observação, ressaltamos, cabe ao dialeto em questão. Ou seja: há dialetos da língua 
portuguesa em que a africada não ocorre e, portanto, a questão que levantávamos anteriormente, 
acerca do estatuto fonológico desse som, não se coloca. Assim, no interior do estado de São Paulo 
há regiões onde “alfabetização” seria produzida como [aw.fa.be.ti.za.ˈsɜw̃̃], da mesma maneira que 
no dialeto de Florianópolis e em alguns da região Nordeste.
É preciso ainda considerar que a análise fonológica se faz para uma língua ou um dialeto, 
e isso significa que não se pode esperar o mesmo comportamento – e o mesmo estatuto – de um 
som em línguas distintas. Observe, por exemplo, o espanhol: nessa língua, a africada [t͡ʃ] é fonema, 
ocorrendo em diversos ambientes. Há, inclusive, oposição que se estabelece pela comutação (troca) 
da africada pela oclusiva, como em [t͡ʃako] “chaco” (cerco) e [tako] “taco”. Também no italiano a 
africada é fonema distinto da oclusiva [t] .
8.3.2 Segunda premissa
De acordo com a segunda premissa: “Os sistemas sonoros tendem à simetria”.
Com isso, Pike (1947) prevê que, se a análise fonológica de uma dada língua revela que tal 
língua exibe, por exemplo, as consoantes oclusivas /p, t, k, b, g/, é provável que tenha também o 
fonema consonantal /d/. Isso porque as outras quatro oclusivas ocorriam aos pares, tanto no caso 
do ponto bilabial, para o qual se tem a surda /p/ e a sonora /b/, como no caso do ponto velar, para 
o qual também se tem a surda /k/ e a sonora /g/. A simetria, portanto, nesse caso hipotético das 
consoantes oclusivas, implica na presença das contrapartes surdas e sonoras para os três pontos de 
articulação. Observe, porém, que a premissa prevê uma tendência dos sistemas à simetria, o que 
não quer dizer que eles tenham que ser simétricos. Isso significa que, embora seja necessário aten-tarmos para a possibilidade da simetria, ela não está sempre presente nos sistemas. Aliás, a falta de 
simetria é o que torna uma língua natural. De qualquer modo, a decisão sobre o caráter simétrico 
ou não de um sistema só pode ser tomada, segundo a proposta de Pike, depois de uma análise da 
língua toda, que leve em consideração todos os sons da língua e seus contextos de ocorrência.
8.3.3 Terceira premissa
A terceira premissa prevê que: “Os sons tendem a flutuar”.
Com isso, admitimos que um som nunca é produzido duas vezes de maneira exatamente 
igual e que uma variação observada pode ser resultado dessa flutuação e não constituir um 
fonema distinto.
Para ilustrar essa premissa, tomemos como exemplo a nasalidade variável no português bra-
sileiro. Podemos encontrar na nossa língua produções como as que listamos a seguir: [ba.ˈnɜ.̃nɐ] 
Língua Portuguesa I: Fonética e Fonologia112
e [bɜ.̃ˈnɜ.̃nɐ]; [ka.ˈne.tɐ] e [kɜ.̃ˈne.tɐ]; [ka.ˈmi.zɐ] e [kɜ.̃ˈmi.zɐ]. Note que, em cada par, o segundo 
elemento registra a vogal pretônica15 nasalizada. Abaurre e Pagoto (1996) mostram que, quanto 
mais ao norte do país, mais a pretônica tende a nasalizada. Inversamente, quanto mais ao sul, mais 
a pretônica tende a ser oral. Além da influência geográfica registrada pelos autores, a produção da 
pretônica alternada entre nasalizada e oral pode variar na fala de um mesmo indivíduo, em razão 
da coarticulação entre a vogal pretônica com a consoante nasal [m] ou [n] que a segue.
A tendência à flutuação dos sons chama atenção para o fato de que, embora distintos no nível 
fonético, dois sons podem não ser fonemas distintos no nível fonológico da língua. Voltando ao 
nosso exemplo, isso quer dizer que, embora [a] e [ɜ]̃ sejam sons distintos, não só pela nasalidade, 
mas também pela diferença na altura da mandíbula – a segunda vogal é um pouco mais fechada que 
a primeira –, eles não são fonemas distintos, no caso dos exemplos tomados. Tanto é que [ba.ˈnɜ.̃nɐ] 
e [bɜ.̃ˈnɜ.̃nɐ] têm exatamente o mesmo significado, embora tenham apenas um som que as distingue. 
Para serem fonemas distintos, seria necessário que [bɜ.̃ˈnɜ.̃nɐ] tivesse um significado diferente de 
[ba.ˈnɜ.̃nɐ]. Nesses exemplos, frisamos, a nasalidade é só uma flutuação possível da vogal [a].
8.3.4 Quarta premissa
A quarta e última premissa afirma: “Sequências sonoras exercem pressão estrutural na inter-
pretação de segmentos ou sequências de segmentos suspeitos”.
Para entendermos essa premissa, tomemos o exemplo que o próprio Pike (1947) fornece 
para explicá-la. Suponhamos, então, uma língua hipotética com os seguintes dados: 
[ma] gato [sa] folha
[bo] correr [ia] lua
[su] céu [tsa] dez
Uma das tarefas do fonólogo, ao realizar a análise do nível sonoro da língua, é verificar a 
estrutura silábica dessa língua, isto é, se apresenta sílabas do tipo CV (em que C é “consoante” e 
“V”, vogal), VC; CVC, e assim por diante. No caso da língua hipotética de Pike, temos que, nos 
dados que significam, respectivamente, gato, correr, céu, folha, as palavras são constituídas todas 
por uma sílaba do tipo CV. Mas e o dado [ia], que significa lua? Foneticamente, [i] é vogal. E fono-
logicamente? Nesse caso, [i] poderia, em princípio, ser interpretado como vogal ou consoante. Por 
isso, passa a ser considerado um som suspeito. Diremos, porém, que se trata de uma consoante, 
fonologicamente, porque a pressão estrutural que o sistema exerce sobre a interpretação da natu-
reza desse segmento nos leva a isso. Afinal, se em todos os outros dados que observamos antes as 
palavras são constituídas de sílaba CV, [ia] também deverá ser interpretada como uma palavra de 
sílaba CV. E, nesse caso, é preciso reinterpretar essa unidade como a aproximante palatal [j], em 
razão da sua natureza consonantal.
No caso do dado [tsa] que significa dez, a questão é um pouco diferente: trata-se, nesse caso, 
de responder à pergunta sobre o número de consoantes que há nessa palavra, ou seja, [t] é fonema 
15 Vogal pretônica é aquela que precede a vogal tônica, que é a vogal mais intensa da palavra, como vimos no Capítulo 5.
Estudo dos sons com função comunicativa: Fonologia 113
separado de [s] ou há um único fonema, uma africada, [ts]? Mais uma vez, a resposta para a per-
gunta é dada em função da análise feita para os outros dados da língua e da pressão estrutural que 
os sons exercem na interpretação fonêmica dessa sequência. Ora, se admitimos que todos os outros 
cinco dados do conjunto são constituídos de sílaba CV, a pressão estrutural nos leva a admitir que 
também o dado [tsa] seja constituído de uma sílaba CV. Consequentemente, admitimos, necessa-
riamente, que [ts] é um segmento só, uma africada, e descartamos a possível hipótese de que [t] e 
[s] sejam fonemas individuais quando ocorrem na sequência abordada.
Deve ter ficado claro que, para abordar seu objeto de estudo – fonemas –, a Fonologia precisa 
propor, em primeiro lugar, quais serão as unidades que tomará para analisar os sistemas sonoros das 
diversas línguas.
Nesse sentido, abordamos duas dessas unidades, ou primitivos teóricos: o traço distintivo e o 
fonema. O traço distintivo, uma unidade menor que o fonema, define-se como oposições baseadas 
em características mínimas dos sons, como sonoro/surdo ou nasal/oral. Ressaltamos que o traço 
distintivo é proposto inicialmente por modelos de análise fonológica de cunho estruturalista, mas 
continua sendo utilizado até hoje na Fonologia, mesmo pelos modelos de natureza gerativa, embo-
ra tenha passado por uma revisão em sua definição e o inventário de traços também tenha sofrido 
modificações de forma a permitir análises mais parcimoniosas.
O outro primitivo de análise fonológica, o fonema, é uma unidade que se propõe no estrutu-
ralismo linguístico e que é abolida com o final dessa corrente dos estudos linguísticos. Não há uma 
definição única para o fonema: ele pode ser concebido como um feixe de traços distintivos, mas 
também como uma espécie de unidade “invariante” que reúne em si diversas variações possíveis e 
aparentadas de um mesmo som16.
Para determinar como se chega ao inventário de fonemas de uma língua, difundiu-se a 
metodologia fonêmica, que, baseada em quatro premissas básicas, tenta orientar o trabalho do 
fonólogo chamando atenção para possíveis fatos fônicos que decorrem da relação de um deter-
minado som com o ambiente onde ocorre e que podem fazer desse som uma variante possível de 
um fonema, e não um fonema de fato.
Atividades
1. Assinale a alternativa que completa corretamente a frase. O objeto de estudo da Fonologia 
são os sons da fala,
a) mas apenas os que têm função comunicativa em uma determinada língua.
b) ou seja, os que têm função comunicativa em uma língua e também suas variantes.
c) mas apenas aqueles para os quais é possível fazer uma descrição acústica e articulatória.
d) especialmente aqueles que são percebidos por todos os falantes de uma língua.
16 A maneira como se define fonema depende, essencialmente, do modelo teórico que o toma como primitivo e dos 
pressupostos desse modelo.
Língua Portuguesa I: Fonética e Fonologia114
2. Assinale a alternativa que completa corretamente a frase. O fonema, unidade de análise 
fonológica, é:
a) um som da fala que reúne características de vários sons diferentes.
b) uma entidade abstrata que reúne em si variantes sonoras aparentadas.
c) um som da fala que podemos perceber com maior clareza na língua.
d) uma entidade abstrata que utilizamos nos sistemas de escrita das línguas.
3. Assinale a alternativa que completa corretamente a frase. A diferença entre Fonética e 
Fonologia é que a Fonética estuda:
a) os sons que usamos para construir os sistemas alfabéticos das línguas, enquanto a Fono-
logia estuda quaisquer sons da fala, em seus aspectos físico e fisiológico.
b) os sons da fala, mas só os que têm função comunicativa em uma língua, e a Fono-
logia estuda quaisquer sons, independente de terem ou não função comunicativa 
em uma língua.
c) todos os sons da fala, independentede terem função comunicativa em uma língua ou 
não, e a Fonologia focaliza os sons que têm função comunicativa em uma língua.
d) a evolução histórica dos sons de uma dada língua, enquanto a Fonologia estuda os sons de 
uma língua em seu estado atual, fornecendo-lhes uma descrição acústica e articulatória.
9
Identificando os fonemas de uma língua
Os fonemas podem ser considerados sons com função comunicativa, distintiva em uma 
língua, isto é, podemos assumir que fonemas são unidades que carregam diferenças de sentido, 
se intercambiados com outros sons. Assim, por exemplo, na língua portuguesa, dizemos que /p/ e 
/b/ são fonemas porque dados como [ˈpu.lɐ]1 [ˈbu.lɐ] [ˈpẽ.tɐ] [ˈbẽ.tɐ] [ˈka.pʊ] [ˈka.bʊ] nos mostram 
que a troca de um por outro gera sentidos distintos na língua: ou seja, enquanto pula é a flexão do 
verbo pular no presente do indicativo, 3a pessoa do singular, bula remete ao documento que acom-
panha um medicamento e traz informações sobre sua composição e sua indicação, por exemplo. 
O mesmo raciocínio vale para os dois outros pares. Mas sabemos também que nem todos os sons 
de uma língua são fonemas, porque nem todos têm função comunicativa, funcionando como uma 
variante de algum fonema, isto é, como um alofone. Tomemos, novamente, alguns exemplos da 
língua portuguesa: [ˈtɛ.lɐ] [ˈdɛ.lɐ] [ˈka.dɐ] [ˈka.tɐ] [ˈdɾi]2 [ˈtɾi]. Por meio de dados como esses, che-
gamos à observação de que /t/ e /d/ têm estatuto de fonemas da língua. Note, inclusive, que ambos 
ocorrem sob as mesmas condições: ocupam o mesmo lugar nas palavras (início, meio e grupos 
consonantais) e o mesmo lugar relativamente ao acento (ora ocorrem em posição tônica, oram em 
posição átona).
Se aumentarmos, porém, o conjunto de dados, podemos ter pares como [ˈ t͡ʃi.tʊ]3 / [ˈd͡ʒi.tʊ], 
mas também pares como [ˈti.tʊ] [ˈdi.tʊ]. Vemos, portanto, que [t] e [t͡ʃ] concorrem na língua, assim 
como [d] e [d͡ʒ]. Entretanto, não é possível dizer que [t] e [t͡ʃ], por um lado, e [d] e [d͡ʒ], por outro, 
sejam fonemas distintos. Isso porque a comutação de um pelo outro não altera o significado das 
palavras: tanto [ˈt͡ʃi.tʊ]4 / [ˈti.tʊ] remetem ao mesmo nome próprio, assim como [ˈd͡ʒi.tʊ] e [ˈdi.tʊ] re-
metem ao particípio passado do verbo dizer. Além disso, [t͡ʃ] e [d͡ʒ] ocorrem em um único ambiente, 
precedente a [i]. Não há, na língua portuguesa, dados como *[‘ . ]/[´ . ]; [‘ a. ]/[´ . ]/ 
[‘ .k ]/[‘ .k ]5, pois não seriam reconhecidos por nenhum falante nativo de língua portuguesa 
como palavras da língua. Esses fatos evidenciam para nós que a ocorrência de [ ]e [ ] é condicio-
nada pelo ambiente, de modo que esses dois sons só se verificam, como já mencionado, diante de [i]. 
É esse fato que nos faz afirmar que [t͡ʃ] e [d͡ʒ] são alofones, isto é, variantes de /t/ e /d/ e que os fonemas 
são unidades abstratas, invariantes, discretas, que reúnem um conjunto de possíveis variantes. 
Para compreender melhor essa concepção de fonema, podemos recorrer a uma analogia: 
Cocheleantes, Cirtopódium, Cimbídium, Encíclia, Aspásia, Catleia, Chuva-de-ouro, Falenópsis 
são todas espécies de flores, que se diferenciam pelas cores, tamanhos e formatos. Porém, e apesar 
1 Na transcrição fonética, o acento tônico se marca com o diacrítico (‘) colocado sempre antes da sílaba acentuada.
2 Encurtamento para o nome próprio Adriana.
3 Transcrição fonética possível para o nome próprio Tito.
4 Transcrição fonética possível para o nome próprio Tito.
5 O (*) marca que os dados que se seguem a ele são agramaticais, isto é, são dados que nenhum falante nativo da 
língua reconhece pertencerem à sua língua.
Língua Portuguesa I: Fonética e Fonologia116
da grande diversidade, todas essas variedades têm uma característica comum: são epífitas, quer di-
zer, crescem sobre outras plantas, geralmente árvores, usando-as como apoio para buscar luz. Essa 
característica permite que os botânicos agrupem todas as espécies citadas em um mesmo conjunto, 
que recebe o nome orquídea. O ponto a que queremos chegar é: o que existe na natureza é a Catleia, 
a Chuva-de-ouro, não a orquídea, propriamente. Orquídea é um nome genérico, invariante, que 
abarca diversas espécies que tem um traço, uma característica comum: são epífitas. Desse modo, 
Catleia, Chuva-de-ouro, Cimbídium são as variantes de um conjunto cujo “rótulo” invariante é 
“orquídea”. No nosso caso, podemos dizer que [t] e [t͡ʃ] são “espécies” diferentes que compartilham 
algumas características comuns: são articuladas no ponto alveolar, envolvem obstrução do trato 
vocal nesse ponto, são produzidas sem vibração das pregas vocais e ocorrem em início de sílaba e 
palavra. Em razão das semelhanças, podem ser agrupadas em um mesmo conjunto, que recebe o 
rótulo, o nome genérico de /t/. 
Então: o que existe no mundo são os sons [t] e [t͡ʃ], /t/ é uma unidade abstrata, discreta, 
invariante, que agrupa os sons em questão. Quando se trata de Fonologia, podemos mesmo 
dizer que alguns fonemas são conjuntos unitários. Assim, no português brasileiro, o fonema /p/ 
“rotula” o conjunto formado apenas por [p]. Há línguas nas quais o fonema /p/ pode reunir um 
número maior de variantes, como [p] e [ph], isto é, a oclusiva bilabial surda aspirada. Esse é o 
caso da língua inglesa.
Quer tomemos o fonema como uma unidade com função distintiva, quer tomemos o fo-
nema como o “rótulo” de um conjunto de variantes que compartilham algumas características, 
coloca-se uma mesma questão: como identificar os fonemas de uma língua, especialmente de uma 
língua que não conhecemos?
Provavelmente, essa terá sido a mesma questão que se colocou Kenneth Pike, que, conforme 
vimos, propôs uma metodologia analítica que ele denominou Fonêmica, a qual nos permite, por 
meio da observação de quatro premissas básicas6, partir dos sons de uma língua e chegar ao inven-
tário de fonemas dela. Como, então, aplicar os procedimentos da análise Fonêmica e chegar ao in-
ventário de fonemas de uma dada língua? É isso o que passaremos a abordar a seguir, mas não sem 
antes apresentarmos alguns conceitos7 com os quais a fonologia lida e que serão muito importantes 
para a condução de nossas análises.
Para chegar ao inventário de fonemas de uma língua, partimos dos sons dela. Mas como 
se faz para obter esses sons? No caso do Summer Institute of Linguistics (SIL), um instituto pres-
biteriano norte-americano fundado, entre outros, pelo próprio Pike, a prática era fazer com que 
os pesquisadores vivessem algum tempo no meio das pessoas cuja língua deveriam investigar8. 
6 Estas premissas, já tratadas no Capítulo 8, são: 1) os sons tendem a ser modificados pelo ambiente em que ocor-
rem; 2) os sistemas sonoros tendem à simetria; 3) os sons tendem a flutuar; 4) os sons ou sequências sonoras exercem 
pressão estrutural sobre a interpretação de outros sons ou sequências sonoras suspeitas.
7 Os conceitos que apresentaremos a seguir vigoraram no estruturalismo linguístico e, por isso, são considerados 
modelos que se filiam a essa corrente. A fonêmica é um deles.
8 Ressaltamos que o fim último dos pesquisadores do SIL era aprender a língua de uma determinada comunidade 
para, por meio de sua análise, propor-lhe um sistema de escrita e, assim, converter os integrantes da comunidade à sua 
religião. Essa, claro, é uma prática criticada pelos linguistas, não só por razões antropológicas, mas também porque utili-
zava a Linguística para outros fins que não o estudo das línguas propriamente.
Identificando os fonemas de uma língua 117
Sendo conhecidos da comunidade, os pesquisadores poderiam aprender a língua e se aproximar 
dos membros dessa comunidade para colher os dados de fala9.
Colher os dados de fala implica em gravar a fala de um indivíduo que se disponha a ser o 
sujeito da pesquisa. Pode-se solicitar ao sujeito, então, que nomeie coisas à sua volta, ou pedir que 
diga como se fala uma determinada palavra em sua língua, ou, ainda, pode-se pedir que o sujeito 
produza uma sequência de palavras menores que uma sentença ou do tamanho deuma.
A coleta dos dados, como estamos chamando, é sempre feita com um gravador, para que o 
pesquisador possa realizar a tarefa seguinte, que é a de transcrever foneticamente os dados. Essa 
tarefa, acrescentamos, é demorada e requer, não raro, que o pesquisador escute a mesma palavra 
diversas vezes para que consiga determinar, com acuidade10, a sequência de sons produzida.
Dispondo da transcrição fonética, o pesquisador pode então proceder à análise fonológica, 
atentando para fatos como os que passamos a expor.
9.1 Pares mínimos
Um par de palavras é dito mínimo se, e apenas se, as duas palavras do par 
diferirem em apenas um som. Se essa diferença implicar também uma distinção de 
significado das palavras, então teremos que os sons intercambiados no par são fo-
nemas da língua, pois são distintivos. Assim, na língua portuguesa, podemos dizer 
que são mínimos os seguintes pares11:
(i) [ko.ˈʎeɾ] [ko.ˈʎɛɾ] colher (verbo)/colher (substantivo)
(ii) [ˈkɜ.̃mɐ] [ˈkɜ.̃nɐ] (cama/cana)
(iii) [ˈpɔɾ.tɐ] [ˈpɔs.tɐ] (porta/posta)
(iv) [ˈduɾ.mɐ] [ˈtuɾ.mɐ] (durma/turma)
(v) [ˈsew] [ˈsɛw] (seu/céu)
(vi) [ˈpa.ɾɐ] [pa.ˈɾa] (para/Pará)
Observe que no exemplo (iv) os sons que diferem entre si são os iniciais de cada palavra 
do par. Perceba também que, se trocarmos um pelo outro, obteremos fonemas distintos na língua – 
9 Esse é um fato muito importante, porque muitas pessoas só se dispõem a falar conhecendo o pesquisador. 
Há algumas tribos indígenas, inclusive, que têm uma espécie de “porta-voz”, como o pajé, que entre todos os habitantes 
da tribo seria o único autorizado a estabelecer contato com pessoas externas à tribo. Dessa forma, essa pessoa passa a 
ser o sujeito que fornecerá os dados de fala ao pesquisador. Além disso, o fato de conhecerem o pesquisador, devido à 
convivência, faz com que os sujeitos se sintam menos intimidados diante da situação de terem sua fala gravada.
10 É preciso sempre considerar que uma transcrição, por mais acurada que seja, está sujeita aos limites da audição 
humana e, como decorrência, pode deixar de registrar fatos presentes no sinal de fala ou, ainda, registrar fatos que não 
ocorrem nesse sinal, em virtude de uma impressão auditiva. Por essas razões, apesar do treinamento rigoroso a que são 
submetidos os pesquisadores do SIL, é bom considerar a transcrição fonética como uma aproximação, e não uma repro-
dução dos sons da fala.
11 A transcrição fonética fornecida para os dados se baseia na fala da própria autora. Por isso, e como não existe uma 
transcrição fonética única para os dados de fala, ao contrário da grafia de uma palavra, a transcrição pode sofrer peque-
nas mudanças, caso as mesmas palavras sejam produzidas por outras pessoas.
Vídeo
Língua Portuguesa I: Fonética e Fonologia118
/t, d/, porque essa operação de comutação implica no estabelecimento de significados distintos 
para as palavras do par. Isso quer dizer que os sons iniciais desse par têm função comunicativa.
O raciocínio que fizemos para esse par é extensivo aos pares (i, ii, iii, v), mas note que, 
neles, há alteração não só de consoantes, mas também de vogais, e os sons que mudam podem 
ocupar diferentes posições nas palavras. Assim, em (ii), as consoantes nasais se encontram no 
início de sílaba, no meio da palavra; em (iii), a fricativa alveolar surda e o tap alveolar ocorrem 
em final de sílaba, no meio da palavra; em (v), a vogal frontal meio-fechada não arredondada 
e a vogal frontal meio-aberta não arredondada ocorrem em ditongo. O dado (vi) é um pouco 
diferente dos demais: note que os sons são exatamente os mesmos. O que muda de uma palavra 
para outra é a posição do acento principal. O exemplo figura nesse conjunto de propósito, para 
ilustrar o estatuto fonológico do acento em português brasileiro.
E para uma língua que não conhecemos, como é feita a análise?
Observe o Quadro 1 a seguir, com dados relativos ao kalaba  – uma língua hipotética 
inventada por Pike para expor a metodologia de análise fonêmica:
Quadro 1 – Dados do kalaba
[ʃunak] Coração [kaʃil] Doer [ŋikis] Prata
[ŋ idis] Bigorna [luʃan] Quadro [mitis] Feio
[paʃun] Girar [saŋip] Receoso [lusan] Tossir
[ŋalap] Ave [palin] Pensar [gaʃun] Roda
Fonte: Pike, 1947, p. 79.
Veja que, além dos dados da língua, transcritos foneticamente, há ao lado de cada um deles 
a sua tradução. Ela é um apoio de que dispomos para verificar se, de fato, duas palavras que di-
ferem apenas por um som têm significados distintos ou não. Isso porque pode acontecer de, em 
uma língua, haver variantes de um fonema. Para exemplificar o que estamos dizendo, tomemos 
novamente o português brasileiro: é possível encontrar, em um mesmo dialeto, [‘ra.t ] e [‘ha.t ]. 
Nas duas palavras, o som inicial é diferente, mas isso não implica diferença de significado, porque 
ambas remetem ao animal roedor. Nesse caso, dizemos que [r] e [h] não são fonemas distintos, mas 
alofones de um mesmo fonema.
Explicado, então, o papel da tradução que acompanha os dados, voltemos ao kalaba. 
No Quadro 1 podemos identificar os seguintes pares mínimos:
(vii) [ŋidis] / [ŋikis]12 (bigorna/prata)
(viii) [paʃun] / [gaʃun] (girar/roda)
(ix) [luʃan] / [luʃan] (quadro/tossir)
12 Retirado do livro Phonemics: a technique for reducing languages to writing, de Kenneth Pike. 12. ed. Ann Arbor: The 
University of Michigan Press, 1971. p. 79.
Identificando os fonemas de uma língua 119
Com base nessa constatação, podemos dizer, de acordo com os dados apresentados, que são 
fonemas no kalaba: /p, s, k, d, ʃ , g/.
Os pares mínimos atuam, portanto, como forte indício sobre o estatuto de fonemas de 
dois sons.
9.2 Pares análogos
Voltando ao Quadro 1, veremos que há ali pares nos quais mais de um som 
difere:
(x) [ŋidis] / [mitis] (bigorna/feio)
(xi) [paʃun] / [palin] (girar/pensar)
(xii) [ŋikis] / [mitis] (bigorna/prata)
Nesses casos, não é possível dizer se os sons diferentes de cada par são fonemas ou não. Isso 
porque não se consegue assegurar que a diferença de significado entre as palavras se deva a este ou 
àquele som: o significado de [ŋ idis] (bigorna) difere do significado de [mitis] (feio) em razão da 
distinção [ŋ] / [m] ou [d] / [t]? Não se sabe.
Pares como (x), (xi) e (xii) são ditos análogos porque diferem em mais de um som. Entretanto, 
não são suficientes para afirmar o estatuto fonológico de dois sons, uma vez que a diferença de sig-
nificado verificada entre as palavras do par pode se dever tanto a um como a outro som diferente, 
ou a ambos. Por isso, os pares análogos constituem-se em auxiliares da análise fonológica: eles 
levantam a possibilidade de que dois sons sejam fonemas. Para verificar se de fato são, é preciso 
analisar mais dados.
9.3 Pares suspeitos
Os pares suspeitos são constituídos por dois sons foneticamente semelhan-
tes. Essa noção, ressaltamos, não está clara nem para o próprio Pike. Entretanto, via 
de regra, o que parece unir esses sons entre si é o fato de compartilharem ao menos 
duas características articulatórias comuns. Assim, [p] e [b] são foneticamente se-
melhantes porque compartilham mesmo modo de articulação – são oclusivas – e 
mesmo ponto de articulação – são bilabiais. Mas diferem quanto à sonoridade – [p] é surda e [b], 
sonora. Já [m] e [n], por sua vez, são foneticamente semelhantes porque compartilham mesmo 
modo de articulação  – ambas são nasais  – e sonoridade  – ambas são sonoras. Diferem apenas 
quanto ao ponto de articulação, já que [m] é bilabial e [n], alveolar. Em se tratando de [i] e [e], por 
outro lado, constituem par de sons foneticamente semelhantes porque são ambas anteriores e não 
arredondadas. Entretanto, [i] é fechada e [e], meio fechada.
Vídeo
Vídeo
Língua Portuguesa I: Fonética e Fonologia120
Agora que já sabemos minimamente o que são sons foneticamente semelhantes, entende-
mos, consequentemente, que [p]/[b]; [m]/[n]; [i]/[e], que tomamos como exemplos no parágrafo 
anterior, constituem pares de sons suspeitos. Suspeitos de que, afinal? Suspeitos de não serem fo-
nemasdistintos de uma língua, mas variantes de um mesmo fonema. Isso tem uma relação direta 
com as premissas da fonêmica: a primeira delas prevê que os sons podem ser modificados pelo 
ambiente em que ocorrem. Isso quer dizer que um fonema pode ter mais de uma realização: uma 
sonora em vários ambientes e uma ensurdecida em final de palavra, por exemplo, como ocorre no 
alemão, em que o fonema /d/ é realizado como uma consoante ensurdecida [ ] em final de palavra. 
Ou, ainda, as nasais podem assimilar o ponto de articulação das consoantes oclusivas adjacentes. 
Pode acontecer, por outro lado, que uma consoante oclusiva se realize como fricativa entre vogais, 
como no espanhol.
A terceira premissa fonêmica prevê que os sons tendem a flutuar. Pode decorrer dessa ten-
dência à flutuação, por exemplo, o ensurdecimento da oclusiva em alemão ao qual nos referimos 
no parágrafo anterior.
Por essas razões, um par suspeito deve chamar atenção do pesquisador sobre o estatuto 
fonológico de dois sons: por compartilharem algumas características articulatórias, esses sons po-
dem não ser fonemas distintos, mas sujeitos às previsões da fonêmica por constituírem-se variantes 
de algum fonema.
Para ilustrar essa questão, observemos os seguintes dados do Quadro 2, relativos ao geor-
giano, uma língua falada no Azerbaijão, na Turquia, na Armênia, no Irã, na Ucrânia e na Rússia.
Quadro 2 – Dados do georgiano
[ɫamazad] lindamente [zarali] perda [xeli] mão
[leɫo] objetivo [kaɫa] caneca [xoɫo] entretanto
[saxɫʃi] em casa [pepeɫa] borboleta [chechxli] fogo
[ɫxena] alegria [kleba] reduzir [vxlech] eu derramo
[kbiɫs] dente [erthxeɫ] uma vez [choli] esposa
Fonte: Robins; Waterson, 1952 apud Kenstowicz; Kisseberth, 1979.
*Nota sobre a transcrição fonética: dados, como este, que contêm uma consoante seguida de [h] sobrescrito anotam as 
consoantes aspiradas da língua. Neste dado, portanto, temos uma consoante oclusiva alveolar surda aspirada [th].
A questão que se coloca sobre esses dados concerne especialmente ao estatuto da lateral 
alveolar [l] e da lateral velarizada [ɫ]. Ambas constituem um par suspeito porque são sons 
foneticamente semelhantes, dado que compartilham o mesmo modo – são laterais – e a mes-
ma sonoridade – ambas são sonoras –, porém diferem quanto ao ponto de articulação: [l] é 
alveolar e [ɫ] é velarizada.
Como, então, saber se são fonemas distintos ou não?
Identificando os fonemas de uma língua 121
9.4 Metodologia de análise fonêmica
O primeiro passo para saber se dois sons são fonemas em uma língua é ve-
rificar se há pares mínimos envolvendo esses sons na língua. Observando os da-
dos do Quadro 2, vemos que inexistem pares mínimos nos dados do georgiano13. 
Também inexistem pares análogos que possam nos dar alguma pista sobre o esta-
tuto fonológico das laterais.
Como proceder? Lembra-se das previsões das premissas da fonêmica, em especial a primei-
ra, que afirma a possibilidade de variação dos sons em função do ambiente em que se encontram? 
Pois bem, considerando tal previsão, nossa tarefa agora passa a ser observar os ambientes em que 
cada um dos sons laterais se distribui. Por ambiente fonológico entendemos tudo o que se encontra 
adjacente aos sons analisados. Assim, retomando os dados do Quadro 2, podemos listar os ambien-
tes de ocorrência de [l] e [ɫ]. Vamos iniciar nossa listagem pelo ambiente à esquerda de cada lateral:
Quadro 3 – Distribuição de [l] e [ɫ] conforme ambiente fonológico à esquerda das laterais
[l] [ɫ]
#_ #_
a_ e_
k_ x_
e_ #_
x_ i_
x_ a_
o_ e_
e_
o_
Fonte: Elaborado pela autora.
Antes de tudo, vale ressaltar algumas notas sobre esse quadro, extensivas ao próximo: as 
listas de ambiente de ocorrência de [l] e [ɫ] foram confeccionadas considerando-se dado por dado, 
desde o primeiro, que significa lindamente, até o último (esposa). Obviamente, anotaram-se apenas 
as ocorrências de [l], na primeira coluna, e [ɫ], na segunda. A convenção adotada para anotar os 
ambientes de ocorrência das laterais foi a seguinte: “_” indica a lateral em questão, portanto [l] na 
coluna à esquerda e [ɫ] na coluna à direita; “#” indica fronteira de palavra, assim, uma anotação 
como “#_” significa que a lateral em questão ocorre sucedendo fronteira de palavra, ou seja, em 
início de palavra, e que antes dela há apenas silêncio.
13 Cabe aqui uma ressalva: não se deve ficar com a falsa impressão de que a análise fonológica de uma língua, como um 
todo, fundamenta-se em um conjunto reduzido de dados, como o apresentado no Quadro 2. Na verdade, um pesquisador se 
baseia em um conjunto de dados muito maior que o apresentado para verificar o estatuto fonológico dos sons. Fazemos, 
aqui, uma simplificação para fins didáticos: o conjunto reduzido de dados ilustra os ambientes de ocorrência de cada um 
dos sons em questão e, por isso, permite-nos fazer uma generalização acerca de seu comportamento na língua.
Vídeo
Língua Portuguesa I: Fonética e Fonologia122
Passemos, então, à observação dos ambientes de ocorrência: podemos notar que tanto [l] 
quanto [ɫ] ocorrem em início de palavra e em seguida a [e, a, o, x]. Há, consequentemente, ambien-
tes comuns à distribuição de ambos os sons. Por isso, não podemos dizer que o ambiente à esquer-
da condiciona a ocorrência de [l] nem de [ɫ]. Se assim fosse, esperaríamos a ocorrência de uma das 
laterais em ambientes fonológicos diferentes dos ambientes de distribuição da outra.
Vejamos, no Quadro 4, o ambiente seguinte a [l] e [ɫ]:
Quadro 4 – Distribuição de [l] e [ɫ] conforme ambiente fonológico à direita das laterais
[l] [ɫ]
_e _a
_i _o
_e _ ʃ 
_i _x
_i _s
_e _a
_i _a
_#
_o
Fonte: Elaborado pela autora.
Verificando os ambientes fonológicos à direita das laterais, é possível perceber que [ɫ] ocorre 
em ambientes onde [l] não ocorre, isto é, [ɫ] ocorre antes das consoantes [ʃ, x, s], antes das vogais 
[a, o] e em final de palavra, precedendo #. Já [l], por sua vez, ocorre apenas diante de [i, e]. Com 
isso, podemos dizer que [l] e [ɫ] estão em distribuição complementar, isto é, em que um som ocorre, 
o outro não aparece.
Percebemos também que [ɫ] ocorre em uma variedade maior de ambientes que [l]: [ɫ] está 
presente antes de consoantes, de algumas vogais e em final de palavra. A ocorrência de [l], porém, 
restringe-se ao ambiente antecedente às vogais [i, e]. Por isso, podemos dizer que essas vogais 
condicionam a ocorrência de [l]. Elas estão modificando um fonema de modo que, diante delas, 
realize-se como [l]. É justamente o fato ao qual se refere a primeira premissa, portanto.
Há ainda uma questão a ser resolvida quanto aos dados do georgiano: qual é o fonema 
lateral? Se considerarmos – como faz Pike – que o fonema é uma entidade invariante que reúne 
em si algumas variantes foneticamente aparentadas, então diremos que /ɫ/ é fonema e [l], seu 
alofone, sua variante. Podemos formalizar essa observação da seguinte maneira:
 [l]/_ [i,e]
/ɫ/ 
 [ɫ]/NDA
Identificando os fonemas de uma língua 123
Lê-se: o fonema lateral velarizado /ɫ/ se realiza como o alofone [l] diante das vogais [i] e [e] 
e como [ɫ] nos demais ambientes (NDA). Note que a barra indica o ambiente que condiciona uma 
ou outra realização do fonema.
E vale se atentar: a distribuição complementar é um fato evidente da presença de alofonia 
em uma língua.
9.4.1 Transcrição fonológica (fonêmica)
A transcrição fonética – como você já sabe – é disposta entre colchetes e anota todos os sons 
de uma língua. Para a transcrição fonológica, ou fonêmica (mais especificamente neste caso, já que 
estamos abordando uma metodologia de análise fonológica chamada fonêmica), anotam-se apenas 
os fonemas de uma língua. Isso significa que não são quaisquer sons da língua contemplados pela 
transcrição fonológica, mas apenas os que têm estatuto de fonemas. A transcrição fonológica é 
disposta entre barras inclinadas. Voltando ao georgiano, temos então:
Quadro 5 – Transcrição fonológica dos dados do georgiano
/ɫamazad/ lindamente /zaraɫi/ perda /xeɫi/ mão
/ɫeɫo/objetivo /kaɫa/ caneca /xoɫo/ entretanto
/saxɫʃi/ em casa /pepeɫa/ borboleta /chechxɫi/ fogo
/ɫxena/ alegria /kɫeba/ reduzir /vxɫech/ eu derramo
/kbiɫs/ dente /erthxeɫ/ uma vez /choɫi/ esposa
Fonte: Elaborado pela autora.
No Quadro 5, os dados que significam, respectivamente, objetivo, perda, reduzir, mão, fogo, 
eu derramo, esposa, e que continham a lateral alveolar na transcrição fonética, registram, na trans-
crição fonológica não mais essa variante [l], mas o fonema /ɫ/. 
E atenção: as barras e os colchetes não são meros detalhes de transcrição. Antes, eles carre-
gam uma diferença teórica, relativa ao estatuto dos sons de uma língua, por isso a necessidade e 
importância de se observar essa convenção.
Você deve estar se perguntando, neste momento, sobre os outros sons do georgiano que não 
comentamos aqui: os dados de que dispomos não são suficientes para verificarmos seu estatuto. 
Mas, como nenhuma ressalva foi feita, podemos, para fins da análise desses dados apenas, consi-
derar todos os demais sons também fonemas dessa língua. Daí a transcrição do Quadro 5 ter sido 
elaborada dessa maneira. Eventualmente, se aumentássemos o inventário dos dados, poderíamos 
concluir que algum(s) dos outros sons são também variantes de outros fonemas, o que nos levaria 
a refinar a análise para contemplar esses novos fatos. Entretanto, esse não é o caso.
O trabalho de análise fonológica termina aqui. Se fôssemos continuar seguindo os propósi-
tos da análise fonêmica, nosso passo seguinte seria propor um sistema de escrita para o georgiano, 
tomando por base o inventário de fonemas dessa língua, o que implicaria propor uma mesma letra 
para representar os dois sons, [l] e [ɫ]. Mas essa é uma outra história, que foge aos nossos objetivos.
Língua Portuguesa I: Fonética e Fonologia124
Atividades
1. Assinale a alternativa que completa corretamente a frase. O objetivo da análise fonêmica é:
a) fornecer um sistema de escrita para línguas ágrafas, por meio da análise fonológica de 
dados fonéticos dessas línguas.
b) fornecer um sistema de escrita alternativo para línguas que já têm um, com base nas 
variantes sonoras dessas línguas.
c) verificar quais sons são fonemas de uma dada língua para fazer um levantamento dos 
traços distintivos que operam nessa língua.
d) verificar quais são os sons de uma língua com base na transcrição fonológica e nas 
variantes dos fonemas.
2. Assinale a alternativa que completa corretamente a frase. Considere a seguinte análise 
fonológica para um dialeto do português brasileiro (por exemplo, o dialeto falado no Rio 
de Janeiro).
 [ ] /_[ ]
/t/ 
 [ ]/NDA
Lê-se:
a) há dois fonemas no dialeto sendo a distribuição de mais ampla que a de .
b) o fonema /t/ realiza-se como o alofone diante de [i] e [t] como nos demais ambientes.
c) o fonema realiza-se como dois alofones, e [t], cujas distribuições são imprevisíveis.
d) Não há fonema no dialeto, mas duas variantes, e [t], sendo a distribuição de 
mais restrita.
3. Assinale a alternativa que completa corretamente a frase. O fato de a transcrição fonética ser 
anotada entre colchetes e a transcrição fonológica entre barras inclinadas retrata:
a) uma mera convenção, que pode inclusive ser desconsiderada pelo pesquisador.
b) que os sons que estão entre colchetes não variam, diferente daqueles entre barras.
c) uma distinção do estatuto das unidades, tal que os fonemas estão entre colchetes.
d) uma convenção para a natureza da transcrição, sem implicação para o estatuto das unidades.
10
Fonemas do português brasileiro: vogais
Sabendo o que são e como se identificam os fonemas de uma língua, podemos aplicar uma 
metodologia de análise fonológica ao português brasileiro, como a fonêmica. Essa análise nos possi-
bilitará chegar ao inventário dos fonemas vocálicos, para o qual voltamos nossa atenção agora.
Veremos, nos quadros dos fonemas vocálicos, que há uma interação muito grande entre o 
acento e o inventário das vogais, o qual, inclusive, pode sofrer redução em função da posição das 
vogais relativamente ao acento.
10.1 Distribuição das vogais no interior da sílaba
Antes de nos voltarmos à interação entre acento e inventário vocálico, cabe 
observar que, qualquer que seja a posição da vogal relativamente ao acento, ela 
sempre ocorre em núcleo, ou pico, silábico. Para entender melhor essa afirmação, 
devemos ponderar que a literatura fonológica considera a sílaba uma unidade for-
mada dos seguintes constituintes:
σ1
onset rima
núcleo coda
Desses constituintes, tanto onset (constituinte silábico à esquerda do núcleo) quanto coda 
(constituinte silábico à direita do núcleo) são opcionais. O núcleo, entretanto, é o único consti-
tuinte silábico obrigatório.
A língua portuguesa distribui os fonemas no interior da sílaba de modo que tenhamos os 
seguintes padrões silábicos:
• V: sílaba constituída apenas de uma vogal, como a primeira da palavra /a.ba.ˈka.te/;
• VC: sílaba constituída de vogal, seguida de consoante, como a palavra /ˈaɾ/;
• CVC: sílaba com as três posições (onset, núcleo e coda preenchidas), como a que constitui 
a palavra /’maɾ/
• CV: sílaba considerada universal, porque se verifica em todas as línguas do mundo, e que 
é muito frequente no português brasileiro. É constituída de consoante, seguida de vogal, 
como na palavra /ˈpa/;
Vídeo
Língua portuguesa I: fonética e fonologia126
• CCV: sílaba constituída de onset ramificado e núcleo de apenas uma vogal, como é o caso 
da primeira sílaba da palavra /ˈpɾa.tu/;
• CVCC: sílaba constituída de coda ramificada e núcleo de apenas uma vogal, como é o 
caso da primeira sílaba da palavra /peɾs.pek.ti.va/. 
Alguns autores, como Collischonn (1999), consideram ainda outros padrões, constituídos 
de mais consoantes em cada, em função de reconhecerem aí uma consoante nasal seguinte à vogal 
do núcleo. Como essa não é a nossa perspectiva, consideramos apenas os padrões silábicos ante-
riormente expostos.
Ainda uma última consideração sobre os padrões silábicos da língua portuguesa: decorre da 
previsão de que núcleo é o único constituinte silábico de que não se ramifica a impossibilidade de 
termos duas vogais em uma mesma sílaba. Consequentemente, o encontro de duas vogais contí-
guas configura um hiato. Assim, na palavra:
/s a ˈu d i/
C V V C V
temos três sílabas, dado que o encontro VV estabelece duas sílabas distintas: a primeira, CV, 
e a segunda, V.
Os ditongos, por outro lado, são constituídos de vogal e aproximante, sendo que esta última 
pode ocupar a posição de onset ou coda silábica, como em:
/s a w ˈd a d i/
C V C C V C V
Veja que, nesse caso, a primeira sílaba tem padrão CVC, sendo travada1 pela aproximante 
labiovelar, que constitui um ditongo com a vogal nuclear.
10.2 Inventário das vogais em função do acento
A partir desta seção, voltaremos nossa abordagem para a interação entre o 
acento lexical – quer dizer, o acento principal das palavras de uma língua – e a con-
figuração do inventário dos fonemas vocálicos da língua portuguesa.
10.2.1 Quadro de vogais tônicas do português brasileiro
Em primeiro lugar, devemos esclarecer que a vogal tônica é aquela que se percebe como a 
mais proeminente, isto é, a mais intensa, forte, no interior de uma palavra2. Na língua portuguesa, 
a vogal tônica pode estar na primeira sílaba da palavra – contando-se a partir da direita para a es-
querda –, como em /u.ɾu.ˈbu/, /pa.ˈpɛw/, /a.ˈhos/. Pode estar também na segunda sílaba, como em 
/ˈka.za/, /aba.ˈka.ti/, /ke.ˈɾi.du/.
1 Dizer que uma sílaba é “travada” por uma consoante, significa dizer que a sílaba termina em consoante, ou tem uma 
consoante em posição de coda.
2 Para uma recapitulação sobre acento, veja o Capítulo 5.
Vídeo
Fonemas do português brasileiro: vogais 127
Pode se localizar ainda na terceira sílaba, como em /a.ˈbɔ.bo.ɾa/, /ˈʃi.ka.ɾa/, /ˈɔ.pe.ɾa/.
Testes de comutação – isto é, de troca de um som por outro – levam-nos a verificar a existên-
cia de sete vogais orais no português brasileiro, conforme dispostono Quadro 1 a seguir:
Quadro 1 – Fonemas vocálicos do português brasileiro em posição tônica
 Frontal Central Posterior
Fechada /i/ /u/
Meio fechada /e/ /o/
Meio aberta /ɛɛ/ /ɔ/
Aberta /a/
Fonte: Elaborado pela autora.
Assim, por exemplo, /i/ e /e/ se opõem em pares como /ˈti.ʎa/3, /ˈte.ʎa/. As vogais /e/, /ɛ/, 
por sua vez, opõem-se em pares como /ko.ˈʎeɾ/, /ko.ˈʎɛɾ/. Já as vogais /ɛ/, /a/ opõem-se em pares 
como /ˈmɛ.la/, /ˈma.la/. As vogais /a/, /ɔ/, por sua vez, opõem-se em pares como /ˈma.la/, /ˈmɔ.la/. 
Já /ɔ/, /o/, /o/ opõem-se em pares como /ˈpɔɾ.tu/, /ˈpoɾ.tu/ (forma flexionada do verbo portar e o 
substantivo que corresponde ao lugar onde navios atracam.) Por fim, /o/ e /u/ opõem-se em pares 
como /ˈto.du/, /ˈtu.du/. Acrescente-se que, inclusive, as palavras /ˈse.ko/ (antônimo de molhado) e 
/ˈsɛ.ko/, (forma flexionada do verbo secar), /ˈsa.ku/ e /ˈsɔ.ku/ forma flexionada do verbo socar), 
/ˈso.ku/ e /ˈsu.ku/ evidenciam a oposição entre seis dos sete fonemas vocálicos da língua.
Ao estabelecermos o inventário dos fonemas vocálicos do português, notamos que essa lín-
gua faz uso de todas as distinções possíveis quanto ao parâmetro “abertura de mandíbula”, ou seja, 
distinguem-se vogais abertas de fechadas, fechadas de meio fechadas e estas de meio abertas, e 
assim por diante. Esse não é um fato corriqueiro nas línguas do mundo: o português é uma das 
poucas que organiza seu sistema vocálico com base na distinção de abertura da mandíbula. E isso 
acaba suscitando problemas para a teoria fonológica – em especial para modelos de herança gera-
tiva – no que concerne à proposta de representação dessas distinções.
Ainda é necessária uma última observação sobre as oposições entre as vogais do português: 
as oposições fonológicas entre as vogais médias, isto é, entre /e/, /ɛ/ e entre /ɔ/, /o/, acabam esta-
belecendo distinções morfológicas, porque carregam informação sobre a classe gramatical de uma 
determinada palavra. Assim, vem da oposição meio fechada x meio aberta a informação de que 
/a.ˈpeɾ.tu/ é nome, enquanto /a.ˈpɛɾ.tu/ é forma flexionada do verbo apertar, bem como a informa-
ção de que /ˈpɔɾ.to/, forma flexionada do verbo portar e /ˈpoɾ.to/, é nome. Temos aí, portanto, uma 
interação do nível fonológico com o nível morfológico da língua.
10.2.2 Quadro de vogais pretônicas do português brasileiro
Como já comentamos no Capítulo 5, vogais pretônicas são aquelas que ocorrem antes da 
tônica de uma determinada palavra. Assim, em uma palavra como /a.ˈpeɾ.to/, temos uma vogal 
pretônica apenas, mas em /aba.ˈka.te/ há duas.
3 Tilha é uma parte da roda do carro de boi, que fixa a roda no eixo. Também pode fazer referência à coberta do navio.
Língua portuguesa I: fonética e fonologia128
Já Camara Jr. (1969) observava uma redução no inventário vocálico na posição pretônica 
relativamente à tônica. Podemos dizer, então, que nessas posições temos:
Quadro 2 – Fonemas vocálicos do português brasileiro em posição pretônica
Frontal Central Posterior
Fechada /i/ /u/
Meio fechada /e/ /o/
Aberta /a/
Fonte: Elaborado pela autora.
Isso quer dizer que em posição pretônica há neutralização da oposição /e/:/ɛ/ e /o/:/ɔ/4. Você 
deve estar se perguntando, então, neste momento: mas e nos dialetos nordestinos, para os quais 
encontramos pronúncias como [kɔ.ɾa.ˈsɜw̃̃], para coração, ou [kɛ.ˈɾi.dʊ], para querido? Não haveria 
aí a oposição /o/:/ɔ/ e a oposição /e/:/ɛ/, já que podemos encontrar nesses mesmos dialetos também 
as vogais /o/ e /e/? Lembre-se de que, para haver oposição, é preciso existir dois itens lexicais (duas 
palavras) que exibam contraste por apenas uma unidade. Portanto, para haver as oposições entre 
as vogais médias, seria necessário ocorrer, nesses dialetos, uma palavra como [ko.ɾa.ˈsɜw̃̃], ao lado 
da palavra [kɔ.ɾa.ˈsɜw̃̃]. Mais ainda: cada palavra deveria ter um significado distinto. Esse fato é que 
caracterizaria a oposição. Isso, entretanto, não ocorre e, consequentemente, não podemos dizer 
que haja oposição /o/:/ɔ/.
Esse raciocínio se estende à oposição e a um eventual par como [kɛ.ˈɾi.dʊ] e [ke.ˈɾi.dʊ]. Note 
que os pares fictícios que citamos aqui a título de exemplo não ocorrem em nenhum dialeto brasi-
leiro. Essa é a evidência, então, para afirmarmos a neutralização da oposição das vogais médias em 
posição pretônica para quaisquer dialetos do português brasileiro.
Mas o que afinal acontece nos dialetos nordestinos? Para aqueles que exibem vogal meio 
aberta em posição pretônica, diremos que ocorre uma alofonia e que, portanto, nessa posição, [ɛ] e 
[ɔ] são alofones de /e/ e /o/ . Ou seja, [ɛ] e [ɔ] constituem um caso de alofonia posicional das vogais 
relativamente ao acento nesses dialetos que estamos tomando como exemplos.
Harmonia vocálica
Ao abordarmos as vogais tônicas e pretônicas da língua portuguesa, é 
preciso mencionar também um fato que as envolve e que se conhece, na 
literatura fonético-fonológica, por harmonia vocálica. Você já reparou 
que podemos encontrar as seguintes realizações:
[mɪ.ˈni.nʊ] para /me.ˈni.nu/
[pɪ.ˈpi.nʊ] para /pe.ˈpi.nu/
4 Os dois-pontos significam “opõe-se a”.
Fonemas do português brasileiro: vogais 129
[kʊ.ˈhi.dʊ] para /ko.ˈhi.du/
[bʊ.ˈni.tʊ] para /bo.ˈni.tu/
além de vários outros exemplos análogos?
O que acontece nesses dados? Veja que a vogal tônica, neles todos, é 
uma vogal alta – coincidentemente /i/, nesses nossos exemplos. A vogal 
pretônica assimila a altura da tônica, elevando-se de /e/ para /ɪ/ ou de /o/ 
para /ʊ/. Esse fato, que acontece nos diversos dialetos do português bra-
sileiro, constitui a chamada harmonia vocálica.
10.2.3 Quadro de vogais postônicas do português brasileiro
Se dizíamos que as vogais pretônicas são aquelas que ocorrem precedendo a vogal tônica 
de uma palavra, fica fácil agora inferir que as vogais postônicas são aquelas que sucedem a vogal 
tônica de uma palavra.
Em português brasileiro, há duas classes de vogais postônicas: aquelas que ocorrem depois 
da tônica, mas não estão no final de palavra, e aquelas que ocorrem depois da tônica e em final 
de palavra – as chamadas átonas finais. Nesse momento, focalizaremos a primeira classe de vogais 
postônicas, ou seja, as que ocorrem sucedendo a tônica, mas não estão em posição átona final.
Similarmente ao que acabamos de observar para as pretônicas, também nesse caso há uma 
redução daquele inventário de sete vogais e a redução do inventário decorre da neutralização da 
oposição entre as vogais médias /e/:/ɛ/ e /o/:/ɔ/. O quadro das vogais postônicas é, desse modo, 
idêntico ao Quadro 2. Veja:
Quadro 3 – Fonemas vocálicos do português brasileiro em posição postônica
Frontal Central Posterior
Fechada i u
Meio fechada e o
Aberta a
Fonte: Elaborado pela autora.
Temos, assim, palavras como/a.ˈbɔ.bo.ɾa/ ou /ˈɔ.pe.ɾa/, nas quais a primeira vogal postônica 
é /o/ ou /e/, não havendo as vogais meio abertas.
10.2.4 Quadro de vogais postônicas átonas finais do português brasileiro
Em posição átona final, o quadro vocálico se reduz ainda mais. Temos:
Quadro 4 – Fonemas vocálicos do português brasileiro em posição postônica átona final
Frontal Central Posterior
Fechada i u
Aberta a
Fonte: Elaborado pela autora.
Língua portuguesa I: fonética e fonologia130
Veja que, nessa posição, ocorrem apenas as vogais /i a u/, em decorrência de se perder 
a oposição entre vogais meio fechadas e fechadas que tínhamos registrada nos quadros 3 e 4, 
mantendo-se apenas a oposição entre vogais abertas e vogais fechadas. Temos, então, palavras 
como /ˈka.za/, /ˈpo.vu/, /ˈnɛ.vi/. Ressaltamos que a proposta da ocorrência das vogais /i, u/ em 
posição átona final é de Camara Jr. (1969)5 e, ainda que se postule um quadro com /e, a, o/, 
a observação sobre a redução do inventário de vogais em posição átona final se mantém. Essas 
vogais, no nível fonético, serão realizadas como as vogais reduzidas [ɪ ɐ ʊ].
10.2.5 A controvérsia sobre as vogais nasais
Até agora nós abordamos as vogais orais, mas você talvez deva estar se perguntandocomo ficam as vogais nasais: aquelas que verificamos em palavras como /ˈmĩ.tu/, /ˈsẽ.ta/, /ˈɜ.̃ta/, 
/ˈpõ.ti/, /ˈsũ.ga/, respectivamente minto, senta, anta, ponte, sunga. Para começar, é preciso distinguir 
essas de outras vogais, como as de [ˈkɜ.̃mɐ], [bɜ.̃ˈnɜ.̃nɐ], [kɜ.̃ˈne.tɐ] (cama, banana, caneta). Essas 
vogais são chamadas de vogais nasalizadas, porque resultam de um processo de assimilação, isto é, 
o abaixamento do véu palatino, necessário para a produção da consoante /m/ de cama, por exem-
plo, começa antes da oclusão bilabial dessa consoante, e ainda durante a produção da vogal /a/. Mas 
esse processo de assimilação não é obrigatório e, por isso, pode haver, em um mesmo dialeto, falan-
tes que realizem tanto [kɜ.̃ˈne.tɐ], com a vogal nasalizada, como [ka.ˈne.tɐ], com a vogal pretônica 
oral. Pode acontecer, inclusive, que um mesmo falante alterne as duas formas em sua produção. 
Essa possível alternância entre a produção da vogal nasalizada ou da vogal oral constitui o que a 
literatura fonológica chama de variação livre, isto é, a vogal nasalizada é uma variante (alofone) 
da vogal oral, mas não há absolutamente nada que condicione sua ocorrência. Por essa razão – a 
inexistência de fatos que condicionem a ocorrência da vogal nasalizada –, a fonologia não se ocupa 
dessas vogais. Antes, volta sua atenção para as chamadas vogais nasais fonêmicas.
Mas o que são vogais nasais fonêmicas, afinal? Voltemos a alguns dos nossos exemplos ini-
ciais: /ˈmĩ.tu/, /ˈsẽ.ta/, /ˈɜ.̃ta/, /ˈpõ.ti/, /ˈsũ.ga/. Podemos opor a eles as palavras /ˈmi.tu/, /ˈsɛ.ta/, 
/ˈa.ta/, /ˈpɔ.ti/, /ˈsu.ga/. Fazendo isso, vemos que a uma vogal nasal /ɜ/̃ opõe-se uma oral , e assim 
por diante.
A existência de pares mínimos constituídos por vogais orais e vogais nasais pode ser um 
argumento para sustentarmos a existência de vogais nasais no português brasileiro. Nesse caso, o 
quadro das vogais nasais é:
Quadro 5 – Quadro das vogais nasais do português brasileiro
Frontal Central Posterior
Fechada ĩ ũ
Meio fechada ẽ õ
Aberta ɜ̃
Fonte: Elaborado pela autora.
5 Aparentemente, essa proposta se baseia em processos de “debordamento” verificados em posição pretônica, isto 
é, a elevação das vogais meio fechadas a fechadas. Parece que Camara Jr. (1969) pressupõe a tendência do sistema à 
simetria como um fato que determina o triângulo /i, a, u/, mas não o triângulo /a, e, o/.
Fonemas do português brasileiro: vogais 131
Reconhecendo que as vogais nasais sejam fonemas, como fazem fonólogos como Cagliari 
(1997), assumimos em consequência que o inventário das vogais do português brasileiro contém 
12 fonemas: sete orais – que podem ter o número reduzido, em função da posição que ocupam na 
palavra relativamente ao acento – e cinco nasais. Notamos que, no caso das vogais nasais, também 
há neutralização da oposição entre as vogais meio abertas e meio fechadas, de onde resulta a não 
ocorrência de vogais meio abertas nasalizadas em nenhum dialeto da língua.
A questão é que os fonólogos não são unânimes em afirmar que há vogais nasais fonêmicas. 
O próprio Camara Jr. propõe que haja apenas vogais orais na língua portuguesa e que as vogais 
nasais sejam fonologicamente representadas como vogal seguida de /N/, isto é, de um arquifone-
ma nasal. A realização fonética dessa sequência, por exemplo /aN/, pode ser [am], [an], [aŋ] ou 
[ɜ]̃, a depender da posição em que a sequência se encontra na palavra. Assim, por exemplo, se a 
sequência ocorre em final de palavra, como /ma.ˈsaN/, a nasalidade do arquifonema recai sobre 
a vogal, resultando então [ma.ˈsɜ]̃. Se, por outro lado, a sequência se encontra no interior de uma 
palavra, como em /ˈkaN.pu/, o arquifonema assimila o ponto de articulação da consoante seguinte 
e, como consequência, temos uma forma intermediária /ˈkam.pu/. Em seguida, a vogal assimila a 
nasalidade da consoante, como no caso das vogais nasalizadas, que comentávamos anteriormente, 
resultando daí a forma [ˈkɜ.̃pʊ]. A mesma observação é válida, por exemplo, para formas como 
canto e canga. Veja:
/ˈkaN.tu/ /ˈkan.tu/ [ˈkɜ.̃tʊ]
/ˈkaN.ga/ /ˈkaŋ.ga/ [ˈkɜ.̃gɐ]
Recentemente, fonólogos como Leda Bisol adotam a mesma perspectiva – a de que não 
há vogais inerentemente nasais no português brasileiro –, embora dentro de uma outra ver-
tente teórica6.
Tudo isso quer dizer que temos, na literatura fonológica para o português brasileiro, duas 
possíveis análises para as vogais nasais:
• a de que as vogais são inerentemente nasais, porque há pares mínimos na língua envol-
vendo-as e contrapondo-as às vogais orais;
• a de que não há vogais nasais, mas vogais orais seguidas de nasalidade (seja a essa nasali-
dade nomeada arquifonema, traço, ou o que quer que seja). 
Essa é uma controvérsia que, aparentemente, ainda está longe de ser resolvida.
10.2.6 O papel distintivo do acento
Não é possível falar nos fonemas do português brasileiro sem mencionar o papel distintivo 
do acento: você já reparou que muitas pessoas confundem, na ortografia, a flexão de pretérito com 
a flexão de futuro de alguns verbos? Ou seja, escrevem cantarão para a terceira pessoa do plural do 
pretérito perfeito, no lugar de cantaram? Por que isso acontece?
6 A esse respeito veja, por exemplo, Bisol (1998). Cabe comentar que Leda Bisol é uma das fonólogas mais influentes 
no Brasil, depois de Camara Jr. Esse trabalho mencionado é apenas um, dentre vários, em que a autora analisa o fenôme-
no da nasalidade na língua. Outros trabalhos publicados em periódicos podem ser encontrados na internet mesmo, com 
o auxílio de ferramentas como o Google Acadêmico.
Língua portuguesa I: fonética e fonologia132
O que ocorre nesses supostos “erros” é que os falantes se dão conta de que tanto a forma de 
3a pessoa do plural do pretérito como a forma de 3a pessoa do plural do futuro do indicativo são 
constituídas da mesma sequência de sons: /kɜ.̃ta.ɾɜw̃̃/. Talvez, porém, não se deem conta de que 
na forma da 3a pessoa do plural do pretérito o acento recai sobre a segunda sílaba, /kɜ.̃ˈta.ɾɜw̃̃/, 
enquanto na forma da 3a pessoa do plural do futuro do indicativo o acento recai sobre a primeira 
sílaba, /kɜ.̃ta.’ɾɜw̃̃/ . Pode ser até que os falantes se deem conta dessa distinção – o que é bem mais 
provável –, mas não associem a convenção ortográfica “am” para a desinência de 3a pessoa do plu-
ral do pretérito e a convenção “ão” para a desinência de 3a pessoa do plural do futuro.
De qualquer modo, esse exemplo, assim como dados análogos a ele, evidenciam o caráter 
distintivo do acento na língua, o que levou fonólogos como Camara Jr. (1969) a afirmarem que o 
acento é fonema na língua portuguesa.
No caso específico do nosso exemplo, inclusive, o acento opera uma distinção morfológica 
na língua, de modo que seu lugar na palavra determina o tempo verbal.
Não é só na interação com o nível morfológico da língua que se verifica o caráter distintivo 
do acento: nomes como /ˈpi.a/ e /pi.ˈa/7 ou /ˈka.ki/ e /ka.ˈki/ também evidenciam esse caráter dis-
tintivo e reforçam o argumento de que o acento é fonema na língua.
Nota final
Você deve ter reparado que, ao longo do capítulo, foi recorrente a citação 
ao trabalho de Camara Jr. Não se deve ficar com a falsa impressão de que 
esse é o único fonólogo brasileiro. Na verdade, há muitos deles, mas nos 
remetemos aos trabalhos desse autor por algumas razões:
• Joaquim Mattoso Camara Jr. foi o primeiro linguista brasileiro e seus 
trabalhos, de clara base estruturalista, contêm uma análise muito per-
tinente para fatos fonológicos da língua portuguesa. Chegam a ser 
citados inclusive por Roman Jakobson, um dos linguistas estrutura-
listas mais influentes e respeitados em sua época;
• a acuidade das análises de Camara Jr. é tão grande que algumas delas 
permanecem aceitas até hoje;
• apesar de haver modelos fonológicos pós-estruturalistas, preferimos 
fundamentar nossa apresentação na literatura estruturalista por ser 
este um livro introdutório à fonologia. Com essa introdução, acre-
ditamos que o leitorterá condições de acompanhar modelos fono-
lógicos seguintes, no que concerne aos seus pressupostos teóricos, 
principalmente.
7 “Piá” é um termo empregado na região Sul do Brasil e que significa “menino”, “garoto”, “moleque”.
Fonemas do português brasileiro: vogais 133
Ao leitor que quiser conhecer modelos fonológicos que se seguiram à 
fonologia estruturalista, recomendamos o livro Fonologia, Fonologias: 
uma introdução, organizado pelos Profs. Drs. Dermeval da Hora e 
Carmen Matzenauer e publicado, em 2017, pela Editora Contexto.
Atividades
1. Assinale a alternativa qua completa correamente a frase. O inventário dos fonemas vocálicos 
do português brasileiro:
a) reduz-se em função da posição que as vogais ocupam na palavra, relativamente ao acento.
b) contempla consensualmente sete vogais orais e cinco vogais nasais, totalizando 12 vogais.
c) é bastante amplo, porque engloba vogais tônicas, pretônicas, postônicas, átonas finais 
e nasais.
d) não é claramente definido, porque não há consenso sobre considerar pretônicas e postô-
nicas em inventários separados das tônicas.
2. Assinale a alternativa qua completa correamente a frase. Sobre as vogais nasais do português 
brasileiro, pode-se dizer que:
a) elas são claramente fonemas da língua, porque formam pares mínimos com vogais orais.
b) ainda não há consenso sobre seu estatuto fonológico, isto é, se são ou não fonemas 
da língua.
c) elas obviamente não são fonemas da língua, porque a nasalidade se sobrepõe a 
vogais orais.
d) elas variam muito de dialeto para dialeto e, por isso, são variantes de outros fonemas.
3. Assinale a alternativa qua completa correamente a frase. O acento, na língua portuguesa:
a) é apenas um sinal ortográfico que utilizamos para marcar a sílaba mais intensa da palavra.
b) é completamente variável, podendo ser realizado em diferentes sílabas, conforme o dialeto.
c) estabelece oposições de significados entre nomes da língua e até oposições morfológicas.
d) carrega informação sobre a nasalidade da vogal, determinando se ela é ou não fonema 
na língua.
11
Fonemas do português brasileiro: consoantes
Neste capítulo daremos especial ênfase aos fonemas consonantais.
Se procedermos à análise fonológica da língua, podemos chegar a um quadro como o repro-
duzido a seguir. De antemão, é preciso notar que nem todos os fonemas apontados são consensuais. 
Nesse caso, eles estão marcados com um asterisco.
Quadro 1 – Fonemas consonantais do português brasileiro
Bilabiais Labiodentais Alveolares
Pós- 
-alveolares
Palatais Velares
Oclusivas
Nasais
Vibrantes
Tap
Fricativas
Laterais
Aproximantes
Fonte: Elaborado pela autora.
Note que, no quadro – baseado na tabela do Alfabeto Fonético Internacional (IPA) –, não 
constam a aproximante labiovelar /w/ e a lateral velarizada /ɫ/ . Sobre esta, aliás, há controvérsias 
quanto a considerá-la fonema na língua portuguesa.
Estabelecido o quadro de fonemas consonantais, passemos a observar como se distribuem 
cada um dos fonemas listados e como se comportam, além das controvérsias subjacentes ao esta-
tuto de alguns deles.
11.1 Distribuição dos fonemas
10.1.1 Fonemas oclusivos
Na língua portuguesa, os fonemas /p, b, t, d, k, g/ podem ocorrer nas seguin-
tes posições:
• Início de sílaba e de palavra, como em /ˈpis.ta/ (pista), /ba.ˈlɜw̃̃/ (balão), /ˈte.ma/ 
(tema), /dɾa.ˈgɜw̃̃/ (dragão), /ka.ˈbe.sa/ (cabeça), /ˈglɔ.te/ (glote). Note que, em início de 
palavra, esses fonemas podem constituir grupos consonantais com /ɾ/ e /l/, a exemplo do 
que acontece em /dɾa.ˈgɜw̃̃/ e /ˈglɔ.ti/.
Vídeo
Língua Portuguesa I: Fonética e Fonologia136
• Início de sílaba, no meio de palavra, como em /ma.ˈpa/ (mapa), /a.ˈbe.ʎa/ (abelha), /ˈa.ta/ 
(ata), /a.do.ˈɾaɾ/ (adorar), /ˈma.ka/ (maca), /ˈma.gu/ (mago).
• Final de sílaba, no interior da palavra, como em /ˈap.tu/ (apto); /ob.seɾ.ˈvaɾ/ (observar), 
/ad.vo.ˈga.du/ (advogado), /ˈkak.tu/ (cacto), /at.mos.ˈfɛ.ɾa/ (atmosfera).
Cabe observar, sobre a distribuição dos fonemas oclusivos em final de sílaba, que a sua ocor-
rência em encontros consonantais heterossilábicos – isto é, encontros de consoantes pertencentes 
a sílabas diferentes – se dá apenas no nível fonológico. No nível fonético, verificamos a presença 
de uma vogal epentética, que pode ser [i] ou [e], entre as duas consoantes em questão. Assim é que 
ouvimos, com muita frequência, [a.d͡ʒi.vo.ˈga.dʊ] ou [a.de.vo.ˈga.dʊ] (para advogado); [pe.ˈnew] 
(para pneu), [a.t͡ʃi.mos.ˈfɛ.ɾɐ] (para atmosfera). Em razão da epêntese, a diferença entre palavras 
como apto e apito está apenas na sílaba onde recai o acento da palavra. Temos, portanto, e respec-
tivamente, [ˈa.pɪ.tʊ] (para apto) e [a.ˈpi.tʊ] (para apito). A razão para a epêntese no nível fonético 
poderia ser, conforme pontua Camara Jr. (1969), o fato de que os vocábulos onde ela ocorre teriam 
uma origem erudita e teriam sido “introduzidos através da língua escrita, a partir do século XV, 
como empréstimos ao Latim Clássico” (CAMARA JR., 1969, p. 56). Note que, ao distinguirmos 
o nível fonológico do nível fonético, o que queremos dizer é que os falantes têm uma representa-
ção abstrata das palavras de sua língua materna e da sequência de segmentos, ou fonemas, que as 
constituem. Entretanto, quando realizam ou produzem essa representação, pode haver diferenças 
devidas, por exemplo, à própria anatomia do trato vocal.
É preciso ressaltar que os encontros consonantais heterossilábicos são pouco frequentes 
na língua portuguesa – talvez por decorrerem de empréstimos ao latim clássico, como menciona 
Camara Jr. (1969). Nossa língua prefere sílabas do tipo CV (onde C é consoante e V, vogal) e, no 
caso de sílabas CVC, aceita como consoante final apenas umas poucas, como /s/, /ɾ/ e /w/1.
Essa é a razão também para que empréstimos vindos de outras línguas, como o inglês, 
tenham a vogal epentética representada inclusive na forma ortográfica: é o caso, por exemplo, 
de piquenique ou pingue-pongue, do inglês picnic e ping-pong, respectivamente. Ao realizá-los, os 
falantes de português colocam uma vogal entre o encontro consonantal do interior da palavra e 
após a consoante oclusiva de final de palavra, porque em português não se tem consoante oclu-
siva ocorrendo nessa posição.
Cabe mencionar, ainda, que a epêntese é um dos fatos que os falantes de português realizam 
ao aprender uma língua estrangeira como o inglês e que podem, inclusive, afetar a compreensão 
por parte de um interlocutor falante nativo de inglês. Por isso, a epêntese – suas causas e conse-
quências para a inteligibilidade do enunciado – tem sido objeto de vários estudos nessa área de 
aquisição de segunda língua (ver BAPTISTA; WATKINS, 2007, p. 73-90; 91-104; 155-170).
1	 	Há	alguns	autores –	entre	os	quais	o	próprio	Camara	Jr.	(1969) –	que	dizem	poder	ocorrer	nessa	posição	também	
a	lateral	velarizada	e	um	elemento	nasal.	Preferimos,	entretanto,	considerar	que	ocorrem	em	final	de	sílaba	apenas	as		
consoantes	mencionadas	por	razões	que	ficarão	mais	claras	ao	longo	deste	texto.
Fonemas do português brasileiro: consoantes 137
11.1.2 Fonemas nasais
As consoantes nasais assemelham-se às oclusivas – quanto à produção – porque requerem 
também a obstrução total à passagem do ar em algum lugar do trato vocal. Por isso, sua distribui-
ção assemelha-se à das consoantes oclusivas. Então, podemos encontrar as consoantes nasais /m, 
n, ɲ/ em:
• início de sílaba e de palavra, como em /ˈme.za/ (mesa); /ˈna.ta/ (nata); /ˈɲɔ.ki/ (nhoque);
• início de sílaba, no meio de palavra, como em /a.mɜ.̃ˈɲɜ/̃ (amanhã – note aí, inclusive, a 
presença da nasal bilabial em posição medial) ou em /ˈpe.na/ (pena).
Sobre a consoante nasal palatal /ɲ/, é preciso notar que ela ocorre em posição inicial de palavra 
apenas em palavras que emprestamos de outras línguas, como o caso de nosso exemplo (nhoque), 
que emprestamos do italiano, ou como as palavras de origem indígena, por exemplo: Nhundiaquara.
Ainda sobre a distribuição das consoantes nasais, é preciso notar que elas nãoacontecem 
em final de sílabas ou palavras. Na ortografia, temos os grafemas “m” e “n” em final de sílaba ou 
palavras, como em ponto, garagem, e assim por diante. Mas, nesses casos, o grafema indica a nasa-
lidade da vogal antecedente, apenas. Ele não representa uma consoante nasal.
O fato de não termos consoantes nasais em final de palavra no português brasileiro, aliás, 
também é um possível problema para falantes nativos de português que aprendem línguas como o 
inglês, em que há distinção entre /m/ e /n/ e em final de palavra, como em “cam” (câmera) e “can” 
(caneca). A não realização dessas consoantes – os falantes de português geralmente nasalizam a 
vogal precedente – acaba prejudicando a inteligibilidade das palavras.
11.1.3 Fonemas fricativos
Os fonemas /f v s z ʃ ʒ/ ocorrem nas seguintes posições:
• início de sílaba/palavra – todos os seis fonemas ocorrem aí –, como em /ˈfa.da/ (fada); 
/ˈvɛ.la/ (vela); /ˈsi.nu/ (sino); /ˈzɛ.ɾu/ (zero), /ˈʃa.li/ (xale), /ˈʒa.tu/ (jato);
• início de sílaba, no meio de palavra, como em /a.ˈfɛ.tu/ (afeto); /a.vis.ˈtaɾ/ (avistar); /ˈka.sa/ 
(caça); /ˈka.za/ (casa), /ˈka.ʃu/ (cacho); /ˈo.ʒi/ (hoje).
Nesse sentido, a distribuição dos fonemas fricativos espelha a dos oclusivos, em posição final 
de sílaba ou palavra, a sua distribuição é diferente. Focalizemos, inicialmente, os fonemas /f, v/: /f/ 
que ocorre em final de sílaba, no interior de palavras como afta, formando com a oclusiva seguinte 
um encontro consonantal heterossilábico. Como no caso dos encontros com consoantes oclusivas, 
neste os falantes de português também inserem uma vogal epentética. O fonema /v/, por sua vez, 
não ocorre em final de sílaba, do mesmo modo que nem /f/ nem /v/ ocorrem em final de palavra.
Já os fonemas /s, z/ exibem distribuição um pouco diferente: /z/ só ocorre em início de sílaba 
ou palavra, /s/ acontece em início e final de sílaba ou palavra. Observe o Quadro 2 a seguir:
Nhundiaquara: nome 
de	um	rio	que	nasce	
na Serra da Farinha 
Seca e deságua em 
Morretes	(PR).
Língua Portuguesa I: Fonética e Fonologia138
Quadro 2 –	Transcrição	fonológica	e	ortográfica	de	dados	com	/s/	e	/z/
Transcrição 
fonológica
Transcrição 
ortográfica
Transcrição fonológica Transcrição ortográfica
/ˈse.lu/ selo /a.ˈhos/ arroz
/ˈze.lu/ zelo /ˈtɾes/ três
/ˈka.sa/ caça /ˈvɔs/ voz
/ˈka.za/ casa /mes/ mês
/ves/ vez
Fonte: Elaborado pela autora.
Obs.:	esta	transcrição	é	válida	para	dialetos	ditos	“não	chiantes”,	como	o	paulista,	o	paranaense	ou	o	gaúcho.	Mas	não	
cabe	para	dialetos	chiantes,	como	o	carioca,	por	razões	que	abordaremos	logo	em	seguida
Veja que nos pares de dados “selo/zelo” e “casa/caça” temos a oposição entre /s/ e /z/. São 
dados como esses que nos permitem afirmar que /s/ e /z/ são fonemas na língua portuguesa.
Entretanto, essa oposição se desfaz em final de palavra, em que se verifica /s/, apenas. 
Dizemos, por isso, que em final de palavra há neutralização da oposição entre/s/ e /z/.
Verifiquemos, agora, o comportamento de /s/ em algumas sequências:
Quadro 3 –	Transcrição	fonética	e	ortográfica	ilustrando	o	processo	de	assimilação
Transcrição fonológica Transcrição fonética** Transcrição ortográfica
/ˈtɾeS.’ti.gɾeS.ˈtɾiS.tiS/ [ˈtɾes.’ti.gɾes.ˈtɾis.tes] Três tigres tristes
/ˈtɾeS.ma.ˈka.koS.a.ˈlɛ.gɾiS/ [ˈtɾez.ma.ˈka.ko.za.ˈlɛ.gɾes] Três macacos alegres
Fonte: Elaborado pela autora.
Obs.:	fazemos	aqui	uma	transcrição	fonética	larga,	isto	é,	que	não	leva	em	conta	algumas	possíveis	alofonias.	Isso	é	
proposital,	porque	nos	interessa	apenas	o	comportamento	de	/s,	z/.
Repare, na sequência “três macacos alegres”, que [z] aparece em final de palavra ([ˈtɾez]), 
aparentemente contrariando o que acabamos de mencionar sobre sua distribuição. Como isso é 
possível? Considere que a produção da fala não é estanque e que, diferentemente dos espaços em 
branco que utilizamos na escrita para segmentar as palavras, nós produzimos as palavras em se-
quências quando falamos. Você pode ver a ilustração desse comentário comparando as colunas 
do quadro que trazem a transcrição fonética e a transcrição ortográfica. Considere também que 
a representação fonológica2 e a realização fonética são distintas. Pois bem, considerando os dois 
pontos que acabamos de frisar, fica fácil compreender por que [z] aparece na sequência “três maca-
cos alegres”, no nível fonético. Sua realização decorre de um processo de assimilação de sonoridade. 
Ou seja, devido ao encadeamento dos sons da fala, a fricativa assimila a sonoridade do som seguin-
te a ela, tornando-se também sonora. No caso da sequência em questão, /s/ assimila a sonoridade 
da nasal /m/ que a segue.
Nessa mesma sequência, um pouco mais adiante, vemos que /s/ também assimila a sonori-
dade da vogal, mas nesse caso há um outro fato, para além da assimilação. Compare as colunas que 
2	 	Sobre	a	transcrição	fonológica,	cabe	um	comentário	mais	pontual,	que	faremos	ao	final	deste	item.
Fonemas do português brasileiro: consoantes 139
trazem a transcrição fonológica e a transcrição fonética para a sequência “três macacos alegres”. 
Na transcrição fonológica, temos /kus.a./, portanto uma sequência de unidades que se orga-
nizam em uma sílaba do tipo CVC e em outra sílaba, V, seguinte, constituída apenas de vogal. 
Foneticamente, por outro lado, temos [ku.za.]. Quer dizer, temos agora duas sílabas do tipo CV 
(consoante-vogal), portanto houve aí uma reorganização da estrutura silábica da sequência. Isso 
acontece porque, diante de segmentos vocálicos, a fricativa não só assimila a sonoridade desses 
sons como também passa a constituir com eles nova sílaba, deixando, para isso, de ocupar a posi-
ção final de sílaba – ou coda – e passando a ocupar a posição inicial – ou onset – da sílaba seguinte. 
Esse procedimento caracteriza o que a literatura fonológica denomina ressilabificação e só acontece 
em junturas (ou sândhis), tanto externas como internas, isto é, a ressilabificação só ocorre na jun-
ção de duas sílabas no interior da palavra ou na junção da sílaba final de uma palavra com a sílaba 
inicial da palavra seguinte.
Os fonemas /ʃ, ʒ/ distribuem-se na língua de maneira similar a /s, z/ . Isso quer dizer que eles 
se opõem em posição inicial de sílaba/palavra, como em /ˈʃa.tu/e /ˈʒa.tu/. Opõem-se também em 
posição inicial de sílaba, no meio de palavra, como em /ˈa.ʃa/ e /ˈa.ʒa/. Eles podem também ocorrer 
em posição final de palavra – novamente espelhando a distribuição de /s, z/ –, mas não em todos 
os dialetos do português brasileiro. A ocorrência das fricativas pós-alveolares em final de palavra 
caracteriza os dialetos “chiantes”, como o carioca, para os quais as sequências 1 e 2 do Quadro 3 
ficariam aproximadamente como o disposto no Quadro 4:
Quadro 4 –	Transcrição	fonética	e	ortográfica	ilustrando	processo	de	assimilação	em	dialeto	chiante.
Transcrição fonológica Transcrição fonética* Transcrição ortográfica
/ˈtɾeS.’ti.gɾeS.ˈtɾiS.tiS/ [ˈtɾeʃ.’ti.gɾeʃ.ˈtɾiʃ.teʃ] Três tigres tristes
/ˈtɾeS.ma.ˈka.koS.a.ˈlɛ.gɾiS/ [ˈtɾeʒ.ma.ˈka.ko.za.ˈlɛ.gɾeʃ] Três macacos alegres
Fonte: Elaborado pela autora.
*	Assim	como	na	transcrição	fonética	do	Quadro	3,	empregamos	aqui	também	uma	transcrição	fonética	larga.	Por	isso,	
fatos	como	ditongação,	presentes	recorrentemente	no	dialeto	carioca,	não	são	apresentados	neste	quadro.
Veja que, assim como acontecia com os dados do Quadro 3, estes também exibem a assi-
milação da sonoridade da fricativa: na sequência [ˈtɾeʒ.ma.], do item 2, vemos que a fricativa final 
de sílaba assimila a sonoridade da nasal que inicia a sílaba seguinte. Essa assimilação acontece 
também na sequência [ko.za.], mas note que, aí, em vez de se produzir uma fricativa pós-alveolar, 
como acontecia em [ˈtɾeʒ.ma.], produz-se uma fricativa alveolar sonora [z]. Qual a razão disso? 
Comentávamos anteriormente que em dialetos ditos chiantes as fricativas pós-alveolares aconte-
cem em posição final de sílaba. Entretanto, ao haver nesses dados o mesmo processo de ressilabi-
ficação que comentávamos a propósitodos dados do Quadro 3, a fricativa de final de sílaba passa 
a ocupar posição inicial da sílaba seguinte e constituir com a vogal dessa sílaba uma nova, com 
estrutura diferente da anterior.
Voltemos agora à transcrição fonológica: você deve ter notado, nos quadros 3 e 4, que em 
final de palavra usamos o símbolo /S/. Por quê? Esse símbolo recupera uma noção do estrutura-
lismo linguístico, a noção de arquifonema. O arquifonema, assim como o fonema, é uma entidade 
Língua Portuguesa I: Fonética e Fonologia140
abstrata, mas reúne em si informação sobre alguns fonemas que perdem sua oposição por meio 
do processo de neutralização. É justamente o que acontece nesses dados: /s, z/ perdem em posição 
final a oposição que exibem em início e meio de palavra. Mais: o arquifonema reúne também as 
informações sobre eventuais variantes dos fonemas em questão, e isso permite que a unidade /S/ 
reúna em si as quatro variantes posicionais [s, z, ʃ, ʒ]3.
Essa é a análise proposta para as fricativas do português por Camara Jr. (1969) e adotada por 
Silva (1999), a qual também utilizamos por parecer, dentro da perspectiva teórica que seguimos 
nesta introdução ao tema, uma maneira parcimoniosa de tratar dos fatos de alofonia que apresen-
tamos nos Quadros 3 e 4.
Note, de qualquer maneira, que o arquifonema /S/ não é considerado fonema do português 
porque, como /s, z, ʃ, ʒ / se opõem entre si em posição inicial e medial de palavra, não se justifica 
propor que a entidade que representa sua neutralização figure como fonema da língua.
11.1.4 Fonemas vibrantes e taps
Os taps e vibrantes estão agrupados em uma mesma seção porque há uma relação muito 
próxima entre eles e que deverá ficar clara no decorrer da explanação.
Na língua portuguesa, esses róticos – sons de /r/ – podem ocorrer em início, meio e final de 
palavra, mas nem sempre ocorrem numa mesma posição, o que significa que em alguns ambientes 
/r/ e /ɾ/ não se opõem, fato que leva alguns fonólogos a postularem a existência de apenas um fo-
nema. Desse modo, temos a seguinte distribuição:
• em início de sílaba e palavra ocorre apenas /r/, como em /ˈra.pi.du/, /ˈrɛ.ta/, /a.re.me.ˈsaɾ/, 
/o.’ri.vew/;
• em início de sílaba, no interior de palavra, ocorrem ambos, estabelecendo oposição fonê-
mica entre si: /ˈɛ.ra/, /ˈɛ.ɾa/, /ˈmu.ru/, /ˈmu.ɾu/. Observe que as duas primeiras e as duas 
últimas palavras desses exemplos estabelecem pares mínimos;
• em final de sílaba, no interior ou no final de palavra ocorre apenas o tap, como em /ˈkaɾ.ta/ 
/ˈpɛɾ.tu/ /ˈpoɾ.tu/ ;
• em grupos tautossilábicos – encontros de consoantes em uma mesma sílaba – ocorre ape-
nas o tap, como em /ˈbɾa.su/ /ˈfɾe.vu/ /ˈbɾɛ.ki/, e assim por diante.
Diante dessa distribuição, teríamos, então, um ou dois fonemas róticos na língua? A primei-
ra proposta que tenta responder a essa pergunta é a de Camara Jr. (1953) e consiste em sustentar 
que haveria na língua portuguesa um único fonema rótico, a vibrante, que ele denomina “r forte”. 
Isso porque, segundo o autor, o tap – ou “r fraco”, para ele – resultaria de um processo histórico de 
enfraquecimento da vibrante: da mesma maneira que algumas consoantes oclusivas teriam enfra-
quecido na evolução do latim para o português e se tornado fricativas4, também a vibrante poderia 
ter enfraquecido, fazendo emergir o tap.
3	 	Variantes	posicionais	são	alofones	cuja	ocorrência	é	condicionada	pela	posição	que	ocupam.	Assim,	podemos	dizer	
que	os	quatro	sons	mencionados	são	variantes	posicionais	porque	ocorrem	em	final	de	sílaba	ou	palavra.
4	 	No	latim,	por	exemplo,	havia	a	palavra	plumbus,	que	evoluiu	para	chumbo	em	português.	Note	que	a	oclusiva	inicial	
da	palavra	é	substituída	por	uma	fricativa,	como	comentamos.
Fonemas do português brasileiro: consoantes 141
Mais tarde, Camara Jr. (1969) observa que essa proposta, por ser fundamentada em um fato 
diacrônico, não seria adequada, já que a Linguística deveria assumir uma perspectiva sincrônica5. 
Por isso, revê sua análise, passando a afirmar a existência de dois fonemas róticos – /r/ e /ɾ/ –, que 
se opõem apenas em posição intervocálica (entre vogais), como nos pares /ˈɛ.ra/, /ˈɛ.ɾa/, /ˈmu.ru/, 
/ˈmu.ɾu/, que já mencionamos anteriormente.
Porém, Monaretto (1997) revê essas análises de Camara Jr. (1969) e propõe, com base na 
análise de Harris (1983) para o espanhol, que o português tem um só fonema rótico, mas esse 
fonema é o tap. Para a autora, a vibrante resultaria de um processo de geminação do tap. Ou seja, 
a vibrante seria consequência da ocorrência de dois taps seguidos, um no final de uma sílaba e 
outro no início da seguinte. Tal proposta, baseada aparentemente em critérios ortográficos e não 
fonológicos, deixa de responder como o “r forte” emergiria em posição inicial de palavra. Por 
essa razão, Silva (2002) volta a defender a existência de dois róticos, os quais se opõem apenas em 
posição intervocálica.
Nos outros ambientes que mencionamos, a distribuição dos róticos seria mutuamente exclu-
siva, isto é, onde um deles ocorre, o outro não acontece e vice-versa.
Cabe ainda observar que a variante vibrante tem caído em desuso, sendo encontrada ainda 
nos dialetos da região Sul do país, especialmente. Em outros dialetos, como o paulista ou o cario-
ca, em posição intervocálica opõem-se uma fricativa posterior6 e o tap. Em dados de aquisição de 
linguagem, inclusive, encontra-se essa oposição, e não mais a oposição “vibrante versus tap”7. Por 
isso, autores como Cagliari (1997) preferem afirmar a existência de um fonema fricativo em subs-
tituição à vibrante. Teríamos, portanto, algo como /h/ em oposição a /ɾ/.
11.1.5 Fonemas laterais
Quanto às laterais – sons de /l/ –, há dois fonemas na língua portuguesa: a lateral alveolar e 
a lateral palatal /ʎ/. Sua distribuição se dá da seguinte maneira:
• em início de sílaba e palavra ocorrem tanto a lateral alveolar como a palatal, chegando 
inclusive a se opor, em pares como /ˈlɜ.̃mɐ/ /ˈʎɜ.̃mɐ/ (lhama). Apesar dessa oposição, note 
que a lateral palatal é muito pouco frequente em início absoluto, isto é, em início de pa-
lavra, e ocorre especialmente em casos de empréstimos, como esse (lhama), do espanhol;
• em início de sílaba, no interior de palavra, ocorrem tanto a lateral alveolar como a palatal 
e elas se opõem nesse ambiente, em pares como , /ˈka.la/ /ˈka.ʎa/ /ˈmɔ.la/ /ˈmɔ.ʎa/ /ˈpu.la/ 
/ˈpu.ʎa/;
• em grupos tautossilábicos – grupos consonantais em uma mesma sílaba – ocorre apenas 
a lateral alveolar, como em /ˈpla.ka/ /a.ˈtlɛ.ta/ /ˈglo.bo/.
5	 	Note	que,	ao	assumir	essa	perspectiva,	Camara	Jr.	(1969)	demonstra	claramente	sua	orientação	estruturalista.
6	 	Não	se	sabe	ao	certo	o	ponto	dessa	fricativa:	alguns	afirmam	que	ela	seria	velar	ou	até	glotal.	Por	isso,	preferimos	
chamá-la apenas posterior,	enquanto	não	dispomos	de	dados	obtidos	experimentalmente	para	precisar	o	ponto	em	que	
são	articuladas.
7	 	Ressaltamos	que	os	dados	de	aquisição	de	linguagem	fornecem	aos	linguistas	muitas	evidências	sobre	o	conheci-
mento	dos	falantes	a	respeito	de	sua	língua	materna	no	estado	atual	da	língua.
Língua Portuguesa I: Fonética e Fonologia142
Nenhuma das duas consoantes ocorre em posição final de sílaba. Nesse sentido, cabe obser-
var que o português brasileiro já exibiu uma lateral velarizada /ɫ/ em final de sílaba, tanto 
no interior como no final de palavras, como /aɫ.ˈmo.so/ e /fu.ˈniɫ/Mas essa variante caiu em 
desuso – sendo encontrada apenas na fala de gaúchos de faixa etária avançada – e está sen-
do substituída pela aproximante labiovelar /w/. Por isso, questiona-se inclusive se a lateral 
velarizada seria ainda um fonema da língua. Os fonólogos que respondem afirmativamente 
a essa questão baseiam-se em fatos morfofonológicos, como processos derivacionais por 
meio dos quais a lateral volta a emergir: é o caso de /pa.ˈpɛɫ/ < /pa.pe.la.ˈɾi.a/. Por outro 
lado, dados em que há generalização na flexão de número, como /tɾo.ˈfɛw/ < /tɾo.ˈfɛjs/ ou 
/ʃa.ˈpɛw/ < /ʃa.ˈpɛjs/8, são fortes indícios de que os falantes já nãomais diferenciam a se-
quência /εɫ/, de papel, da sequência /εw/ de chapéu.
11.1.6 Fonemas aproximantes
No português brasileiro, temos dois fonemas aproximantes: o fonema aproximante palatal 
/ȷ/ e o fonema aproximante labiovelar /w/. Ambos ocorrem em margem silábica, tanto à direita 
como à esquerda do núcleo9.
• Temos, então, /ˈkaj/ (forma flexionada do verbo cair) versus /ˈkaw/10.
É preciso ressaltar que as aproximantes ocupam as margens silábicas, e não o pico. Isso quer 
dizer que uma sequência de duas vogais seguidas configura não um ditongo, mas um hiato. Para 
haver um ditongo, é preciso que ocorra uma sequência de aproximante + vogal ou vogal + aproxi-
mante. Observe: 
• /ˈkaj/ (3a pessoa do singular do presente do verbo cair) versus /ka.ˈi/ (1a pessoa do singular 
do pretérito perfeito do verbo cair).
Repare que a distinção morfológica de flexão de tempo e pessoa se dá pela distinção fo-
nológica entre ditongo e hiato. Repare também que, no caso da forma /ˈkaj/, temos apenas uma 
sílaba, diferentemente da forma /ka.ˈi/, para a qual verificamos duas sílabas. As duas sílabas aí 
decorrem da sequência de duas vogais que, por ocuparem o núcleo silábico, acabam estabelecen-
do duas sílabas distintas.
À guisa de conclusão: deve ter ficado claro, na nossa apresentação dos fonemas consonantais 
da língua portuguesa, que nem sempre há consenso sobre qual deva ser o fonema. Isso não é um 
fato isolado e acontece também para outras línguas, devido não só à diferença nas perspectivas 
teóricas adotadas, mas também à possibilidade de, adotando-se uma mesma perspectiva teórica, 
propor-se mais de uma análise. Essa pluralidade decorre, em grande parte, da natureza do objeto 
de estudo da Linguística, a língua, que é extremamente vasto e complexo.
8	 	Observe	que,	sob	uma	perspectiva	linguística,	esses	dados	não	são	considerados	erros,	mas	hipóteses	que	os	falan-
tes	fazem	sobre	a	estrutura	e	o	funcionamento	de	sua	língua.
9	 	Consulte	o	Capítulo	9	para	rever	a	estrutura	interna	de	uma	sílaba.	
10	 	Note	que	estamos	assumindo	a	visão	de	que	não	se	tem	mais	um	fonema	lateral	velarizado	na	língua,	mas	apenas	
o	fonema	aproximante	labiovelar.
Fonemas do português brasileiro: consoantes 143
Deve ficar claro também que nem sempre é possível haver uma análise fonológica para 
uma língua como um todo. Muitas vezes, propõe-se a análise para dialetos específicos da língua, 
devido aos diferentes comportamentos que os dialetos podem exibir na organização do seu sis-
tema fonológico.
Atividades
1. Assinale a alternativa que completa corretamente a frase. A epêntese que se verifica no en-
contro de duas consoantes oclusivas heterossilábicas é:
a) um fato fonético, decorrente da preferência da língua portuguesa por sílabas terminadas 
em vogal.
b) um erro de pronúncia de algumas pessoas, que ainda não aprenderam a maneira correta 
de falar.
c) um fato fonológico, que inclusive estabelece a oposição entre formas com e formas sem 
epêntese.
d) evidência de que as pessoas que a realizam são incultas, porque os encontros heterossi-
lábicos são formas cultas.
2. Assinale a alternativa que completa corretamente a frase. Afirmar que algumas consoantes 
assimilam características de outras significa:
a) observar que a produção das consoantes é instável, e isso pode afetar inclusive sua repre-
sentação fonológica.
b) observar que, como decorrência do encadeamento dos sons na fala, a produção de uns 
influencia a de outros.
c) reconhecer que os falantes que produzem [z] no lugar de [s] ainda não compreenderam 
bem sua língua.
d) desconhecer que os sons têm uma única pronúncia correta, e qualquer diferença na pro-
dução resulta em erro.
3. A ressilabificação é um processo fônico que:
a) consiste no aumento do número de sílabas de uma palavra, porque o falante insere sons 
na cadeia da fala.
b) sinaliza que alguns falantes não sabem falar sua língua corretamente, porque trocam as 
sílabas no interior das palavras.
c) decorre de outros processos fônicos, como a assimilação, e consiste em reorganizar a 
estrutura de duas sílabas vizinhas.
d) explica por que uma consoante fricativa assimila a sonoridade da vogal que inicia a sílaba 
seguinte a essa fricativa.
Gabarito
1 Como a Linguística estuda os sons da fala?
1. D
2. B
3. C
2 Distinguindo os sons da fala: vogais
1. São o movimento da mandíbula, o movimento do dorso da língua e o arredondamento dos lábios.
2. Porque a produção de consoantes e vogais difere em alguns aspectos, como o grau de severidade 
da constrição (as consoantes envolvem constrição maior em sua produção do que as vogais, para 
as quais a constrição é quase nula) e a área do trato utilizada para a produção dos sons (as vogais 
utilizam uma área restrita do trato em sua produção, enquanto as consoantes são produzidas em 
todo o trato). Essas diferenças, em princípio, impedem que se empreguem os mesmos parâmetros 
na caracterização dos dois grupos de sons.
3. São vogais cuja articulação estabelece quatro pontos extremos relativamente à posição do dorso 
da língua no interior do trato e à altura que a mandíbula assume para a produção de um som. 
Assim, a vogal produzida com o dorso de língua maximamente anteriorizado e a mandíbula 
maximamente fechada – ou elevada – é a vogal [i]; a vogal produzida com o dorso de língua ma-
ximamente posteriorizado e a mandíbula maximamente fechada – ou elevada – é a vogal [u]; a 
vogal produzida com o dorso de língua maximamente anteriorizado e a mandíbula maximamen-
te aberta – ou abaixada – é a vogal [a]; a vogal produzida com o dorso de língua maximamente 
anteriorizado e a mandíbula maximamente aberta – ou abaixada – é a vogal [ɑ]. As vogais cardi-
nais servem de base para se caracterizar a articulação de todas as outras vogais.
3 Distinguindo os sons da fala: consoantes
1. B
2. D
3. C
4 Uma notação para os sons da fala
1. Porque há menos letras no alfabeto que os sons da fala, resultando em uma falta de correspon-
dência entre fala e escrita, tal que uma mesma letra pode representar mais de um som ou, ao 
contrário, vários sons distintos podem ser representados por uma mesma letra.
146 Língua Portuguesa I: Fonética e Fonologia
2. No quadro das consoantes (pulmônicas), o modo de articulação está disposto nas linhas e o ponto 
nas colunas. Além disso, a sonoridade é veiculada de maneira que, numa célula, o símbolo à esquerda 
anota um som surdo e o da direita, um som sonoro. 
No quadro das vogais, o movimento sagital do dorso da língua está disposto nas linhas e o movimento 
de abertura de mandíbula está disposto nas colunas. O movimento dos lábios é informado de modo 
que, num par de símbolos para vogais, o da esquerda anota uma vogal não arredondada e o da direita, 
uma vogal arredondada.
3. Não, o IPA tem empregos que transcendem os limites da Linguística. Assim, músicos eruditos, por 
exemplo, utilizam a transcrição fonética para obter e veicular informações sobre a sequência de sons 
presentes numa determinada canção. Fonoaudiólogos, por sua vez, utilizam o IPA para anotar as 
produções de seus pacientes, com o objetivo de verificar quais são os desvios de tais produções em 
relação a produções de pessoas sem distúrbios ou patologias, e, então, propor um procedimento te-
rapêutico adequado.
5 Prosódia
1. A prosódia contempla fatos que se sobrepõem aos segmentos – ou fatos suprassegmentais –, no sen-
tido de que eles não recaem apenas sobre um segmento dentro de um enunciado, mas podem se 
espalhar por vários segmentos desse mesmo enunciado. Esses aspectos são: entoação, ritmo, acento, 
velocidade de fala, pausa etc.
2. A entoação é a variação da frequência fundamental – frequência de vibração das pregas – no interior 
de um enunciado. Tal variação dá origem às “curvas entoacionais”, que marcam diferenças gramati-
cais entre os enunciados de uma língua, fazendo diferir sentenças interrogativas de sentenças asserti-
vas ou exclamativas, por exemplo.
3. O foco é um ponto de um enunciado produzido com maior intensidadedo que o restante desse enun-
ciado. Ele pode introduzir informações novas ao interlocutor ou contrastar algum dado no interior de 
um enunciado. Por isso, o foco tem interação com o nível do significado da linguagem, a semântica.
6 Análise acústica dos sons da fala
1. Um som é o fato resultante do movimento das partículas de ar, promovido pela ação da vibração de 
um corpo qualquer e que se propaga por meio de ondas.
2. As principais características das ondas sonoras são frequência, amplitude e timbre. A frequência é o 
parâmetro que nos dá o número de ciclos (movimento completo do deslocamento) de uma partícula, 
realizados num determinado espaço de tempo, por exemplo, 1 s (segundo). A amplitude dá a infor-
mação relativa ao máximo deslocamento de uma partícula de ar e o timbre permite diferenciar os 
sons entre si por meio da forma da onda desses sons. Assim, por exemplo, uma nota “lá” produzida 
com igual frequência e amplitude será identificada como dois sons distintos devido à sua qualidade 
(timbre), que decorre do formato das ondas que a constituem.
Gabarito 147
3. O espectrograma é uma ferramenta de análise acústica que nos fornece a sucessão temporal dos even-
tos acústicos. Podemos obter as informações sobre a frequência dos sons da fala porque esse dado é 
disposto no eixo vertical do espectrograma (o eixo horizontal nos dá a janela de tempo dentro da qual 
os sons verificados se realizam). A amplitude, por sua vez, é observável pelas tonalidades de cinza do 
espectrograma: embora não possamos medir os valores da amplitude nessa ferramenta, quanto mais 
escura for a tonalidade de cinza no sinal acústico, maior a amplitude desse sinal. Inversamente, quan-
to mais clara a tonalidade, menor a amplitude do sinal.
7 Caracterização acústica dos sons da fala
1. A
2. B
3. C
8 Estudo dos sons com função comunicativa: Fonologia
1. A
2. B
3. C
9 Identificando os fonemas de uma língua
1. A
2. B
3. C
10 Fonemas do português brasileiro: vogais
1. A
2. B
3. C
11 Fonemas do português brasileiro: consoantes
1. A
2. B
3. C
Referências
ABAURRE, M. B. M.; PAGOTTO, E. G. A nasalização no português do Brasil. In: KOCH, I. G. V. 
Gramática do português falado, v. 6. Campinas: Editora da Unicamp/FAPESP, 1996. p. 495-526.
AGUILERA, V. A. Atlas linguístico do Paraná. Londrina: Ed. UEL, 1994.
ALBANO, E. C. O gesto e suas bordas: esboço de fonologia acústico-articulatória do português brasileiro. 
Campinas: Mercado de Letras; Fapesp, 2001.
ALBANO, E. C. et al. Segment frequency and word structure in Brazilian Portuguese. In: Proceedings of 
the XIII International Congress of Phonetic Sciences. ICPhS’ 95, v. 3, 1995. p. 346-349.
ANDRÉ, H. A. Curso de redação. São Paulo: Moderna, 1989.
ARAÚJO, G. A. O acento em português. São Paulo: Parábola, 2007.
BAPTISTA, B.; WATKINS, M. English with a latin beat: studies. In: Portuguese/Spanish-English-
interphonology. Amsterdam: John Benjamins, 2007.
BARBOSA, P. Revelar a estrutura rítmica de uma língua construindo máquinas falantes: pela integra-
ção de ciência e tecnologia de fala. In: SCARPA, E. (Org.) Estudos de prosódia. Campinas: Editora da 
Unicamp: 1999. p. 21-52.
BIDERMAN, M. T. C. Dicionário didático de português. São Paulo: Ática, 1998.
BISOL, L. (Org.). Introdução a estudos de fonologia do português. Porto Alegre: EdiPUCRS, 2000.
BOIX, J. L. Introducción a la fonética: el método experimental. Barcelona: Anthropos, 1991.
BROWMAN, C.; GOLDSTEIN, L. Towards an articulatory phonology. Phonetica, v. 49, p. 155-180, 1992.
CAGLIARI, L. C. Análise fonológica. Campinas: Edição do Autor, 1997.
CAGLIARI, L. C. Línguas de ritmo silábico. Revista de Estudos da Linguagem. Belo Horizonte, v. 20, n. 
2, p. 23-58, jul./dez. 2012. Disponível em: http://hdl.handle.net/11449/124874. Acesso em: 3 jan. 2019.
CALLOU, D.; LEITE, Y. Introdução à fonética e à fonologia. Rio de Janeiro: Jorge Zahar, 1995.
CAMARA JR., J. M. Estrutura da língua portuguesa. Petrópolis: Vozes, 1969.
CAMARA JR., J. M. Para o estudo da fonêmica portuguesa. Rio de Janeiro: Padrão, 1953.
CANTONI, M. M. O acento no português brasileiro segundo uma abordagem baseada no uso. Estudos 
Linguísticos, v. 38, p. 93-102, jan./abr. 2009. Disponível em: http://www.gel.org.br/estudoslinguisticos/
volumes/38/EL_V38N1_08.pdf. Acesso em: 3 jan. 2019.
CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper & Row, 1968.
COLLISCHONN, G. A sílaba em português. In: BISOL, L. (Org.) Introdução a estudos de fonologia do 
português brasileiro. Porto Alegre: Edipucrs, 1999.
COUPER-KUHLEN, E. An introduction to english prosody. London: Edward Arnold, 1986.
CRUTTENDEN, A. Intonation. Cambridge: Cambridge University Press, 1986.
CUNHA, C. F.; CINTRA, L. F. L. Nova gramática do português contemporâneo. 2. ed. Rio de Janeiro: 
Nova Fronteira, 1985.
DECKER, D. M. Handbook of the International Phonetic Association: A Guide to the Use of the 
International Phonetic Alphabet. International Phonetic Association, Cambridge University Press, 1995.
http://hdl.handle.net/11449/124874
150 Língua portuguesa I: fonética e fonologia
DEMOLIN, D. Phonological universals and the control and regulation of speech production. In: SOLÉ, 
M. J.; BEDDOR, P.; OHALA, M. (Eds.) Experimental approaches to phonology. Oxford: Oxford University 
Press, 2007.
DENES, P.; PINSON, E. The speech chain: the physics and biology of spoken language. New York: W. H. 
FREEMAN & Co., 1993.
DUARTE, L. C. S; HOLANDA, A. F. Ética em pesquisas: considerações jurídicas e prática. Gradus: Revista 
Brasileira de Fonologia de Laboratório, Curitiba, v. 1, n. 1, p. 195-209, dez. 2016. Disponível em: https://
gradusjournal.com/index.php/gradus/article/view/9/9. Acesso em: 12 dez. 2018.
DUBIELA, M. R. A vogal frontal átona final produzida por falantes de Curitiba: subsídios para uma aborda-
gem dinâmica dos sons da fala. 2016. 216 f. Dissertação (Mestrado em Linguística) – Universidade Federal 
do Paraná. Disponível em: https://acervodigital.ufpr.br/handle/1884/43682. Acesso em: 3 jan. 2019.
EPSTEIN, I. Teoria da informação. 2. ed. São Paulo: Ática, 1988.
FANT, G. Acoustic Theory of Speech Production. The Hague: Mouton, 1960.
FERRAZ, I. Características fonético-acústicas do retroflexo do português brasileiro: dados de informantes de 
Pato Branco (PR). Dissertação (Mestrado em Linguística) – Universidade Federal do Paraná, Curitiba, PR, 
2005. Disponível em: https://acervodigital.ufpr.br/handle/1884/3955. Acesso em: 3 jan. 2019.
FERREIRA NETTO, W. O acento na língua portuguesa. In: ARAÚJO, G. A. (Org.). O acento em português. 
Abordagens fonológicas. São Paulo: Parábola Editorial, 2007. p. 21-36. Disponível em: https://revistas.ufrj.
br/index.php/diadorim/article/view/4045/3023. Acesso em: 28 dez. 2018.
FITCH, T.; BOER, B. de; MATHUR, N.; GHAZANFAR, A. A. Monkey vocal tracts are speech-ready. Science 
Advances, v. 2 n.12, p. 1-7, 2016. Disponível em: http://advances.sciencemag.org/content/2/12/e1600723. 
Acesso em: 3 jan. 2019.
FONSECA, F. V. P. Fonemas em Portugal e no Brasil. 21 jan. 1999. Disponível em: https://ciberduvidas. 
iscte-iul.pt/consultorio/perguntas/fonemas-em-portugal-e-no-brasil/3128. Acesso em: 24 jul. 2018.
FRY, D. B. The physics of speech. Cambridge: Cambridge University Press, 1999.
GARCÍA, F. D. Alguns fenômenos fonéticos e fonolóxicos da fala de Santiago de Compostela. In: LORENZO, 
R.; ALVAREZ; R. (Orgs.) Homenage a profesora Pilar Vasquez Cuesta. Santiago de Compostela: Universidade 
de Santiago de Compostela, 1996. p. 133-155.
GICK, B.; WILSON, I.; DERRICK, D. Articulatory Phonetics. Oxford: Wiley-Blackwell, 2013.
GRANATIC, B. Técnicas básicas de redação. São Paulo: Scipione, 1988.
HALLE, M. From memory to speech and back: papers on phonetics and phonology (1954-2002). New York: 
Mouton de Gruyter: 2002.
HARRIS, J. W. Syllable structure and stress in Spanish: a nonlinear analysis. MIT Press, 1983.
HOUAISS. Dicionário eletrônico Houaiss da língua portuguesa. Rio de Janeiro: Objetiva, 2009.INTERNATIONAL PHONETIC ASSOCIATION. Handbook of the International Phonetic Association: 
A guide to the use of the International Phonetic Alphabet, Cambridge: Cambridge University Press, 1999.
IPA. The International Phonetic Alphabet. 2015. Disponível em: https://www.internationalphoneticas 
sociation.org/sites/default/files/IPA_Kiel_2015.pdf. Acesso em: 3 jan. 2018.
JAKOBSON, R. Fonema e fonologia. Tradução de Joaquim Mattoso Camara Jr. Rio de Janeiro: Livraria 
Acadêmica, 1967.
Referências 151
JAKOBSON, R.; FANT, G.; HALLE, M. Preliminaries to speech analysis. Cambridge: The MIT Press, 1952.
JAKOBSON, R.; MORRIS, H. Fundamentals of Language. Reprint of the 2., Ed. 1971, Mouton de 
Gruyter, 2002.
JONES, D. An outline of english phonetics. Cambridge: Heffer, 1956.
JONES, D. The history and meaning of the term “phoneme” In: E. C. Fudge (Ed.) Phonology. Middlessex: 
Penguin Books, 1973.
JONGMAN, A.; WAYLAND, R; WONG, S. Acoustic characteristics of English fricatives. Journal of the 
Acoustical Society of America, v. 108, n. 3, p. 1252-1263, 2000. Disponível em: https://doi.org/10.1121/1.1288413. 
Acesso em: 3 jan. 2019.
KENSTOWICZ, M.; KISSEBERTH, C. Generative phonology. San Diego: Academic Press, 1979.
KENT, R. D. Speech sciences. San Diego: The Singular Publishing, 1999.
KENT, R.; READ, C. The acoustic analysis of speech. San Diego: The Singular Publishing, 1992.
KINGSTON, J. The phonetics-phonology interface. In: LACY, P. de (Ed.) The Cambridge Handbook of 
Phonology. New York: Cambridge University Press, 2007.
KOCH, W.; KLASSMANN, M. S.; ALTENHOFEN, C. V. Atlas linguístico-etnográfico da região Sul do Brasil 
– Alers. Porto Alegre; Florianópolis; Curitiba: Editora da UFRGS; UFSC; UFPR, 2002.
LADEFOGED, P. L. A course in phonetics. New York: Harcourt Brace Jovanovich, 1975.
LADEFOGED, P.; MADDIESON, I. The sounds of the world’s languages. Cambridge: Blackwell, 1996.
LESSMANN, R. Explorando o apagamento de vogais átonas finais no português brasileiro. Revista Versalete, 
v. 5, n. 9 p. 87-101, jul./dez. 2017. Disponível em: http://www.revistaversalete.ufpr.br/edicoes/vol5-09/5%20
Explorando%20o%20apagamento.%20Rebeca%20Lessmann.pdf. Acesso em: 3 jan. 2019.
LISKER, L.; ABRAMSON, A. S. Some Effects of Context On Voice Onset Time in English Stops. Language 
and Speech, v. 10, p. 01-28, jan. 1967. Disponível em: https://doi.org/10.1177/002383096701000101. Acesso 
em: 3 jan. 2018.
MAIA, E. M. No reino da fala: a linguagem e seus sons. São Paulo: Ática, 1986.
MACNEILAGE, P. The origin of speech. Oxford: Oxford University Press, 2010.
MARTINS, M. R. D. Ouvir falar: introdução à fonética do Português. Lisboa: Editorial Caminho, 1998.
MASSINI-CAGLIARI, G. Acento e ritmo. São Paulo: Contexto, 1992.
MENESES, F. As vogais desvozeadas no Português Brasileiro = investigação acústico-articulatória. 2012. 123 
f. Dissertação (Mestrado em Linguística) – Instituto de Estudos da Linguagem da Universidade Estadual de 
Campinas, São Paulo, 2012. Disponível em: http://repositorio.unicamp.br/jspui/handle/REPOSIP/270636. 
Acesso em: 3 jan. 2019.
MONARETTO, V. N. O. A vibrante no sistema do português. In: CELSUL. Florianópolis, 1997. Anais...
MORAES, J. A. Fonética, fonologia e a entoação do português: a contribuição da fonologia experimental. 
Diadorim, Rio de Janeiro, v. 18, p. 8-30, Especial 2016.
MORAIS, A. G. Ortografia: ensinar e aprender. 3. ed. São Paulo: Ática, 2000.
MORAN, S.; MCCLOY, D.; WRIGHT, R. (Ed.)  PHOIBLE Online.  Leipzig: Max Planck Institute for 
Evolutionary Anthropology, 2014. Disponível em: http://phoible.org. Acesso em: 2 dez. 2018.
https://doi.org/10.1177%2F002383096701000101
152 Língua portuguesa I: fonética e fonologia
NISHIDA, G. A natureza intervocálica do tap. 2009. 170 f. Dissertação (Mestrado em Linguística) – 
Universidade Federal do Panará, Curitiba, 2009. Disponível em: http://hdl.handle.net/1884/18025. Acesso 
em: 3 jan. 2019.
ODDEN, D. Introducing Phonology. New York: Cambridge University Press, 2005.
OHALA, J. There is no interface between phonetics and phonology: a personal view. Journal of Phonetics, v. 
18, p. 153-151, 1990.
OLIVEIRA, F. R. M. Análise acústica de fricativas e africadas produzidas por japoneses aprendizes de português 
brasileiro. 2011. 133 f. Dissertação (Mestrado em Linguística) – Universidade Federal do Paraná, Curitiba, 
2011. Disponível em: https://acervodigital.ufpr.br/bitstream/handle/1884/26337/Dissertacao%20-%20
Versao%20Corrigida%20Pos%20Defesa.pdf?sequence=1&isAllowed=y. Acesso em: 3 jan. 2019.
ONDAS. Disponível em: http://ww2.unime.it/weblab/awardarchivio/ondulatoria/ondas.htm#Ondas%20
Peri%C3%B3dicas. Acesso em: 3 jan. 2019.
PIKE, K. L. Phonemics: a technique for reducing languages to writing. Ann Arbor: University of Michigan 
Press, 1947.
PRESTES, S. P. C. Produção de consoantes oclusivas iniciais do inglês por falantes nativos de PB. 2013. 139 f. 
Dissertação (Mestrado em Linguística) – Pós-Graduação em Letras, Setor de Ciências Humanas, Letras e 
Artes da Universidade Federal do Paraná, Curitiba, 2013. Disponível em: http://hdl.handle.net/1884/35649. 
Acesso em: 3 jan. 2019.
RECASENS, D. On the production characteristics of apicoalveolar taps and trills. Journal of Phonetics, 1991, 
v. 19, p. 267-280.
SAUSSURE, F. Curso de Linguística geral. São Paulo: Edusp/Cultrix, 1969.
SCARPA, E. M. (Org.). Estudos de prosódia. Campinas: Unicamp, 1999.
SEARA, I. C. Estudo acústico-perceptual da nasalidade das vogais do português brasileiro. 2000. 291 f. Tese 
(Doutorado em Linguística) – Universidade Federal de Santa Catarina, Florianópolis, 2000. Disponível em: 
http://repositorio.ufsc.br/xmlui/handle/123456789/78117. Acesso em: 3 jan. 2019.
SILVA, A. H. P. As fronteiras entre fonética e fonologia e a alofonia dos róticos iniciais em PB: dados de infor-
mantes do Sul do país. Tese (Doutorado em Linguística) – Lafape/IEL/Unicamp, 2002.
SILVA, A. H. P. Caracterização acústica de [r], [ɾ], [l] e [ʎ] nos dados de um informante paulistano. Cadernos 
de Estudos Linguísticos, v. 37, p. 51-68, 1999. Disponível em: https://periodicos.sbu.unicamp.br/ojs/index.
php/cel/article/view/8636930. Acesso em: 3 jan. 2019.
SILVA, A. H. P. Caráter dinâmico da fala versus caráter estático dos parâmetros descritivos de vogais. 
Manuscrito, inédito, 2007.
SILVA, A. H. P. O /r/ que já não é mais caipira. Manuscrito, inédito, 2007.
SILVA, T. C. Fonética e fonologia do português. São Paulo: Contexto, 1999.
SLANA, J. G.; MUSAFIR, R. Elementos de acústica. Ciências hoje na escola – ver e ouvir, Rio de Janeiro, 1998. 
p. 48-51.
SOLÉ, M. J. Aerodynamic characteristics of trills and phonological patterning. Journal of Phonetics, v. 30, p. 
655-688, 2002.
SOSA, E. O. Fonética y fonología. Merida: Universidad de los Andes, 3. ed. 1998.
SOUSA, E. M. G. Para a caracterização fonético acústica da nasalidade no português do Brasil. 1994. 180 f. 
Dissertação (Mestrado em Linguística) – Universidade Estadual de Campinas, São Paulo, 1994. Disponível 
em: http://repositorio.unicamp.br/handle/REPOSIP/270654. Acesso em: 3 jan. 2019.
Referências 153
SOUZA, P. C.; SANTOS, R. S. Fonética. In: FIORIN (Org.). Introdução à Linguística II: princípios de análise. 
São Paulo: Contexto, 2003. p. 9-31.
TEZZA, C. Trapo. Rio de Janeiro: Rocco, 1995.
TITZE, I. R. Mechanical stress in phonation. Journal of Voice, v. 8 n. 2, p. 99-105, 1994.
TORRINHA, F. Dicionário latino-português. Porto: Gráficos Reunidos, s/d.
TRUBETZKOY, N. S. Principles of phonology. Tradução de Christiane A. M. Baltaxe. Berkeley, 1964.
VERISSIMO, E. O tempo e o vento: o continente. 25. ed. Porto Alegre: Globo, 1978.
Língua Portuguesa I: Fonética e Fonologia
Adelaide H. P. Silva
Código Logístico
58171
Fundação Biblioteca Nacional
ISBN 978-85-387-6162-4
9 788538 761624
	Página em branco
	Página em branco

Mais conteúdos dessa disciplina