Buscar

Rumo ao Diagnóstico Diferencial do Transtorno do Espectro Autista usando Descritores de Comportamento Multimodal e Funções Executivas

Prévia do material em texto

Manuscrito aceito
Rumo ao Diagnóstico Diferencial do Transtorno do Espectro do Autismo usando 
Descritores Multimodais de Comportamento e Funções Executivas
Chin-Po Chen, Susan Shur-Fen Gau, Chi-Chun Lee
PII:
DOI:
Referência:
S0885-2308(17)30356-X
https://doi.org/10.1016/j.csl.2018.12.003 
YCSLA 966
Aparecer em: Fala e idioma do computador
Data de recebimento:
Data revisada:
Data aceita:
16 de dezembro de 2017
14 de outubro de 2018
1 de dezembro de 2018
Por favor, cite este artigo como: Chin-Po Chen, Susan Shur-Fen Gau, Chi-Chun Lee, Toward Differential 
Diagnosis of Autism Spectrum Disorder using Multimodal Behavior Descriptors and Executive Functions, 
Fala e idioma do computador(2018), doi:https://doi.org/10.1016/j.csl.2018.12.003
Este é um arquivo PDF de um manuscrito não editado que foi aceito para publicação. Como serviço aos nossos 
clientes, estamos fornecendo esta versão inicial do manuscrito. O manuscrito passará por edição, composição e 
revisão da prova resultante antes de ser publicado em sua forma final. Observe que durante o processo de 
produção podem ser descobertos erros que podem afetar o conteúdo, e todas as isenções de responsabilidade 
legais que se aplicam à revista são válidas.
Traduzido do Inglês para o Português - www.onlinedoctranslator.com
https://doi.org/10.1016/j.csl.2018.12.003
https://doi.org/10.1016/j.csl.2018.12.003
https://www.onlinedoctranslator.com/pt/?utm_source=onlinedoctranslator&utm_medium=pdf&utm_campaign=attribution
MANUSCRITO ACEITO
Destaques
• Computação de descritores de comportamento multimodal a partir de gravações de áudio e vídeo em larga escala 
de entrevistas ADOS
• Resultados de classificação robustos obtidos entre os três tipos de ASD, AS, HFA, AD, usando 
funções executivas do CANTAB e descritores de comportamento multimodais
• As durações da troca de turnos dos sujeitos com TEA na interação espontânea estão correlacionadas com a 
medida de Processamento Rápido de Informação Visual
1
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Rumo ao Diagnóstico Diferencial do Transtorno do Espectro Autista usando
Descritores de Comportamento Multimodal e Funções Executivas
Chin-Po Chen1,3, Susan Shur-Fen Gau2, Chi Chun Lee1,31
1Departamento de Engenharia Elétrica, Universidade Nacional Tsing Hua, Taiwan
2Departamento de Psiquiatria, Hospital Universitário Nacional de Taiwan e Faculdade de Medicina, Taiwan
3MOST Joint Research Center for AI Technology e All Vista Healthcare, Taiwan
Abstrato
Manifestações variadas de déficits de comunicação social, prosódia atípica e comportamentos restritos e repetitivos são frequentemente observados em indivíduos com transtorno do espectro 
autista (TEA). A difusão e a heterogeneidade no TEA tornaram-no um domínio de pesquisa interdisciplinar cada vez mais importante. As categorizações em ASD, ou seja. O Transtorno Autista, Autismo 
de Alto Funcionamento, Síndrome de Asperger, tem variado ao longo das versões anteriores do Manual Diagnóstico e Estatístico de Transtornos Mentais (DSM) a fim de se ter uma melhor descrição 
do TEA. Usar a abordagem computacional na caracterização desses transtornos do neurodesenvolvimento é, portanto, importante para caracterizar construções comportamentais relevantes de 
forma consistente com ampla aplicabilidade potencial. Neste trabalho, propomos computar descritores de comportamento multimodais derivados de sinais de indivíduos ASD durante interações 
diádicas do Autism Diagnostic Observation Schedule (ADOS), e examinamos ainda o poder discriminatório dessas características comportamentais na diferenciação entre os três grupos em ASD: 
Transtorno Autista (AD), Síndrome de Asperger (AS) e autismo de alto funcionamento (HFA). Além disso, combinando a avaliação das funções executivas do sujeito com TEA, ou seja, medida pela 
Cambridge Neuropsychological Test Automated Battery (CANTAB), a precisão da classificação melhorou ainda mais, especialmente em AD versus AS. Finalmente, encontramos uma correlação 
moderada entre a duração da tomada de turno em nossos recursos de comportamento computados e as medidas do Processamento Rápido de Informação Visual no CANTAB. e examinamos ainda 
mais o poder discriminatório dessas características de comportamento na diferenciação entre os três grupos no TEA: Transtorno Autista (DA), síndrome de Asperger (AS) e autismo de alto 
funcionamento (HFA). Além disso, combinando a avaliação das funções executivas do sujeito com TEA, ou seja, medida pela Cambridge Neuropsychological Test Automated Battery (CANTAB), a 
precisão da classificação melhorou ainda mais, especialmente em AD versus AS. Finalmente, encontramos uma correlação moderada entre a duração da tomada de turno em nossos recursos de 
comportamento computados e as medidas do Processamento Rápido de Informação Visual no CANTAB. e examinamos ainda mais o poder discriminatório dessas características de comportamento 
na diferenciação entre os três grupos no TEA: Transtorno Autista (DA), síndrome de Asperger (AS) e autismo de alto funcionamento (HFA). Além disso, combinando a avaliação das funções executivas 
do sujeito com TEA, ou seja, medida pela Cambridge Neuropsychological Test Automated Battery (CANTAB), a precisão da classificação melhorou ainda mais, especialmente em AD versus AS. 
Finalmente, encontramos uma correlação moderada entre a duração da tomada de turno em nossos recursos de comportamento computados e as medidas do Processamento Rápido de Informação 
Visual no CANTAB. , medido pela Cambridge Neuropsychological Test Automated Battery (CANTAB), a precisão da classificação melhorou ainda mais, especialmente em AD versus AS. Finalmente, 
encontramos uma correlação moderada entre a duração da tomada de turno em nossos recursos de comportamento computados e as medidas do Processamento Rápido de Informação Visual no CANTAB. , medido pela Cambridge Neuropsychological Test Automated Battery (CANTAB), a precisão da classificação melhorou ainda mais, especialmente em AD versus AS. Finalmente, encontramos uma correlação moderada entre a duração da tomada de turno em nossos recursos de comportamento computados e as medidas do Processamento Rápido de Informação Visual no CANTAB.
Palavras-chave:processamento de sinais comportamentais, transtorno do espectro do autismo, descritores de 
comportamentos multimodais, funções executivas, diagnóstico diferencial
Endereço de email:gaushufe@ntu.edu.tw , cclee@ee.nthu.edu.tw (Chin-Po Chen1,3, Susan Shur-Fen Gau
2, Chi Chun Lee1,3)
URL:http://biic.ee.nthu.edu.tw/cclee.php, http://www.ntuh.gov.tw/psy/physician/
shurfengau/default.aspx (Chin-Po Chen1,3, Susan Shur-Fen Gau2, Chi Chun Lee1,3)
Pré-impressão submetida ao Journal of LUMAModelos TEX 12 de dezembro de 2018
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
1. Introdução
O transtorno do espectro autista (TEA) é um transtorno do neurodesenvolvimento, muitas vezes 
caracterizado por suas habilidades de comunicação social prejudicadas com comportamentos restritos e 
repetitivos. A realização de estudos para melhor caracterizar o TEA ganhou recentemente mais interesse 
devido à crescente prevalência do sintoma e sua inerente heterogeneidade. Relatado em 2014, 1 em cada 68 
crianças está sendo diagnosticada com autismo [1], e a taxa de diagnóstico de TEA em crianças de 8 anos 
aumentou de 4,2% em 1996 para notáveis 15,5% em 2010 [1]. Perfis heterogêneos de comportamento 
expressivo prejudicado foram encontrados em indivíduos com TEA refletindo manifestações variadas de suas 
deficiências centrais em relação ao déficit sociocomunicativo e interesses repetitivos restritos [2, 3, 4, 5].
A consciência inicial das anormalidades sócio-comunicativas dos indivíduos com TEA, 
muitas vezes manifestada comportamentalmente, geralmente começa relativamente cedo 
na fase infantil (embora o início exato do autismo varie muito entre os indivíduos). 
Achados anteriores indicaram que esses indivíduos em idade precoce têm um atraso no 
desenvolvimento da linguagem em comparaçãocom uma criança normal com 
desenvolvimento típico da mesma idade [6]. Os déficits sociais também são detectados 
quando as crianças com autismo não interagem com os outros, enquanto as crianças com 
desenvolvimento neurotípico (TD) geralmente procuram seus amigos ou pais. Além disso, 
comportamentos repetitivos são observados entre os indivíduos com TEA, pois eles 
tendem a começar a repetir ações específicas ou a se concentrar em detalhes locais de 
uma imagem, ou seja, linhas ou rodas de um carro, em vez da imagem como um todo [2]. 
Além dos critérios diagnósticos clínicos comuns, como o CID-10 [7], o DSM-5[8] e os 
Critérios de Diagnóstico Gillberg e Gillberg [9], os pesquisadores também desenvolveram 
uma variedade de instrumentos clinicamente validados direcionados a avaliar esses 
comportamentos sociocomunicativos atípicos expressos, principalmente por meio de dois 
mecanismos principais: auto/relato dos pais e entrevistas diagnósticas. Especificamente, o 
padrão ouro no uso de entrevistas diagnósticas é o Autism Diagnostic Observation 
Schedule (ADOS) [10]. ADOS é uma entrevista semiestruturada espontânea, presencial, 
conduzida por médicos certificados, fornecendo um protocolo padrão para eliciar 
comportamentos dos participantes a fim de avaliar sua capacidade sociocomunicativa.
Sendo um transtorno do neurodesenvolvimento, uma variedade de estudos também foi 
realizada para entender a função cognitiva interna dos autismos, em particular, as funções 
executivas (FE). As funções executivas são conduzidas pelo córtex pré-frontal e têm sido 
usadas para identificar distúrbios do desenvolvimento, especialmente relevantes para o 
autismo [11, 12, 13, 14, 15]. Hill et ai. afirmou que uma melhor identificação dos componentes 
do sistema executivo humano, avaliando uma ampla gama de suas funções cognitivas, é 
fundamental para trazer insights adicionais sobre o autismo [16]. Uma medida da função 
executiva é o CANTAB, que é um conjunto de tarefas administradas por computador que mede 
memória visual, atenção e planejamento [17]. Dois subconjuntos no CANTAB, ou seja, meias de 
Cambridge (SOC) e tarefas de deslocamento intradimensional/extradimensional (ID/ED), foram 
testados para TEA e outros grupos. Em relação ao SOC,
5
10
15
20
25
30
35
40
3
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Figura 1: Uma breve demonstração da relação entre autismo classificatório, síndrome de Asperger e autismo de alto 
funcionamento. O marcador diferencial chave conhecido entre essas síndromes também é mostrado na figura.
grupos, mas os resultados não foram significativos quando testados usando a tarefa de ID/ED [11]. Além 
disso, Ozonoff et al. inicialmente falhou em detectar tais deficiências de planejamento ao testar no grupo de 
autismo de alto funcionamento [18]. No entanto, em estudo mais recente envolvendo maior tamanho 
amostral, Ozonoff et al. descobriram que as medições do SOC e da tarefa ID/ED mostraram diferenças 
significativas entre o grupo de autismo e o grupo de controle, não em todos, mas em alguns estágios [11]. 
Steele et ai. também afirmou que uma memória de trabalho espacial reduzida no autismo pode ser testada 
pela Memória de Trabalho Espacial (SWM) no CANTAB [19].
Embora exista um extenso esforço de pesquisa tanto na caracterização dos comportamentos sócio-comunicativos quanto na avaliação das funções executivas internas do TEA, sua definição 
clínica e critérios diagnósticos continuam a mudar ao longo do tempo devido à heterogeneidade e à complexidade na caracterização precisa dos sintomas do TEA. De fato, no DSM-4, vários tipos de 
autismo, incluindo transtorno autista, síndrome de Asperger (AS) e transtorno invasivo do desenvolvimento sem outra especificação (PDD-NOS), que foram originalmente especificados no DSM-3, 
foram todos agrupados em um termo geral, ASD [20]. A Figura 1 demonstra uma diferenciação geral entre os três subgrupos clínicos dentro do TEA: autismo clássico (AD), autismo de alto 
funcionamento (HFA) e síndrome de Asperger (AS). Resumidamente falando, Os indivíduos AS tendem a ter habilidades de funcionamento mais baixas (baixo QI) em comparação com os outros dois, e 
os indivíduos HFA geralmente apresentam atraso de linguagem na infância, enquanto os indivíduos AS não. A síndrome de Asperger, no entanto, apresenta comportamentos sociais desajeitados em 
comparação com os de desenvolvimento típico [21, 22]. No entanto, no último DSM-5, o AS (junto com o PDD-NOS) foi completamente eliminado [8], principalmente devido ao fato de que os critérios 
do DSM-4 de SA (déficit social autista sem linguagem e atraso cognitivo) não são -diferenciável dos critérios de HFA na prática. O relacionamento social prejudicado manifestado de AS e HFA tem sido 
causado por diferentes mecanismos [23]. Como exemplo, vários estudos têm apresentado evidências de que sujeitos com SA muitas vezes tentam interagir com outras pessoas, mas muitas vezes e 
indivíduos HFA frequentemente exibem atraso de linguagem na infância, enquanto indivíduos AS não. A síndrome de Asperger, no entanto, apresenta comportamentos sociais desajeitados em 
comparação com os de desenvolvimento típico [21, 22]. No entanto, no último DSM-5, o AS (junto com o PDD-NOS) foi completamente eliminado [8], principalmente devido ao fato de que os critérios 
do DSM-4 de SA (déficit social autista sem linguagem e atraso cognitivo) não são -diferenciável dos critérios de HFA na prática. O relacionamento social prejudicado manifestado de AS e HFA tem sido 
causado por diferentes mecanismos [23]. Como exemplo, vários estudos têm apresentado evidências de que sujeitos com SA muitas vezes tentam interagir com outras pessoas, mas muitas vezes e 
indivíduos HFA frequentemente exibem atraso de linguagem na infância, enquanto indivíduos AS não. A síndrome de Asperger, no entanto, apresenta comportamentos sociais desajeitados em 
comparação com os de desenvolvimento típico [21, 22]. No entanto, no último DSM-5, o AS (junto com o PDD-NOS) foi completamente eliminado [8], principalmente devido ao fato de que os critérios 
do DSM-4 de SA (déficit social autista sem linguagem e atraso cognitivo) não são -diferenciável dos critérios de HFA na prática. O relacionamento social prejudicado manifestado de AS e HFA tem sido 
causado por diferentes mecanismos [23]. Como exemplo, vários estudos têm apresentado evidências de que sujeitos com SA muitas vezes tentam interagir com outras pessoas, mas muitas vezes 
apresenta comportamentos sociais desajeitados em comparação com os de desenvolvimento típico [21, 22]. No entanto, no último DSM-5, o AS (junto com o PDD-NOS) foi completamente eliminado [8], principalmente devido ao fato de que os critérios do DSM-4 de SA (déficit social autista sem linguagem e atraso cognitivo) não são -diferenciável dos critérios de HFA na prática. O relacionamento social prejudicado manifestado de AS e HFA tem sido causado por diferentes mecanismos [23]. Como exemplo, vários estudos têm apresentado evidências de que sujeitos com SA muitas vezes tentam interagir com outras pessoas, mas muitas vezes apresenta comportamentos sociais desajeitados em comparação com os de desenvolvimento típico [21, 22]. No entanto, no último DSM-5, o AS (junto com o PDD-NOS) foi completamente eliminado [8], principalmente devido ao fato de que os critérios do DSM-4 de SA (déficit social autista sem linguagem e atraso cognitivo) não são -diferenciável dos critérios de HFA na prática. O relacionamento social prejudicado manifestado de AS e HFA tem sido causado por diferentes mecanismos [23]. Como exemplo, vários estudos têm apresentado evidências de que sujeitos com SA muitas vezes tentam interagir com outras pessoas, mas muitas vezes principalmente pelo fato de que os critérios do DSM-4 de SA (déficit social autista sem atraso de linguagem e cognitivo) são indistinguíveis dos critérios de HFA na prática. O relacionamento social prejudicado manifestado de AS e HFA tem sido causado por diferentes mecanismos [23]. Comoexemplo, vários estudos têm apresentado evidências de que sujeitos com SA muitas vezes tentam interagir com outras pessoas, mas muitas vezes principalmente pelo fato de que os critérios do DSM-4 de SA (déficit social autista sem atraso de linguagem e cognitivo) são indistinguíveis dos critérios de HFA na prática. O relacionamento social prejudicado manifestado de AS e HFA tem sido causado por diferentes mecanismos [23]. Como exemplo, vários estudos têm apresentado evidências de que sujeitos com SA muitas vezes tentam interagir com outras pessoas, mas muitas vezes
45
50
55
60
65
4
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
falham devido a formas inadequadas de expressão [21, 22]; por outro lado, as pessoas com 
HFA não demonstram tal iniciativa de iniciar uma conversa.
A maioria, se não todos, das atuais avaliações ou diagnósticos clínicos de TEA são frequentemente 
baseados em comportamento com medidas derivadas de auto-relato (ADIR) ou codificação de observação 
manual de especialistas (ADOS). Este método dequantificarconstruções comportamentais relevantes muitas 
vezes sofrem de problemas padrão de escalabilidade e subjetividade humana [24]. Com a disponibilidade em 
larga escala da coleta de dados e a crescente colaboração entre profissionais médicos e engenheiros, o uso de 
métodos computacionais, como processamento de sinais e técnicas de aprendizado de máquina, em 
aplicativos de saúde mental tem se mostrado uma abordagem promissora na transformação do status quo, 
fornecendo análise objetiva do comportamento derivada diretamente dos dados de áudio e vídeo [24, 25].
Além disso, a avaliação atual do TEA sofre não apenas da subjetividade levantada 
pelo procedimento de codificação observacional, mas também da complexidade 
adicional devido à natureza dos sintomas comportamentais do TEA. Por exemplo, 
devido às funções sociocomunicativas prejudicadas do ASD, o administrador ADOS é 
obrigado a servir tanto como um parceiro de interação, ou seja, para ajudar a eliciar os 
comportamentos sociais visados, e também como um observador especialista, ou seja, 
para avaliar a gravidade da a deficiência. Embora essa configuração tenha sido o 
padrão-ouro em entrevistas clínicas de TEA, esse método específico de quantificação 
de comportamento é naturalmente limitado por seus protocolos de classificação, por 
exemplo, a dinâmica de comportamento dos dois parceiros que interagem (o sujeito e 
o investigador) não pode ser medida explicitamente devido ao desenho de manuais de 
codificação e procedimentos de interação. Recentemente,
De fato, abstraindo ADOS como uma composição de duas partes: 1) o protocolo de interação social, ou 
seja, o design das várias atividades semi-estruturadas na solicitação de comportamentos clinicamente 
relevantes por meio da interação, e 2) a codificação de observação manual ADOS, ou seja, , as classificações 
numéricas de construtos de comportamento que o investigador precisa prestar atenção durante a interação. 
Nossa pesquisa anterior indicou uma descoberta preliminar de que, ao derivar descritores de comportamento 
multimodais que caracterizam tanto o indivíduo com TEA quanto os comportamentos do investigador 
diretamente de dados de áudio e vídeo coletados durante as sessões de ADOS, esses descritores de sinal 
possuem poder discriminatório substancial na diferenciação entre os três subgrupos de TEA: AD vs. HFA vs. AS 
[30]. Neste trabalho, estendemos nossa pesquisa preliminar anterior no desenvolvimento de métodos 
computacionais para diferenciar entre os três grupos diferentes de TEA. Especificamente, nossas principais 
contribuições são as seguintes:
70
75
80
85
90
95
100
1. Computação de descritores sociocomportamentais multimodais espontâneos de um banco de dados maior de 
sinais de áudio e vídeo coletados durante entrevistas ADOS105
2. Realização de categorização automática dos três tipos de grupos de TEA usando as medidas de 
função executiva do CANTAB e os descritores multimodais de sociocomportamento derivados
3. Analisar a relação entre os descritores de comportamento derivados e as medidas de 
função executiva do CANTAB
5
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
110 Coletamos um banco de dados de áudio e vídeo em grande escala de 60 indivíduos 
ASD no total envolvidos em sessões reais de interação ADOS, e nossos descritores de 
comportamento computados incluem aspectos multimodais, como movimentos 
corporais, características prosódicas e tempo de tomada de turno dos participantes 
(sujeitos) e os investigadores (clínicos), e também a dinâmica entre os dois durante as 
entrevistas. Além disso, incluímos medidas das funções executivas, ou seja, funções 
neurocognitivas internas, nesses indivíduos usando o CANTAB para incluir a função 
cognitiva para complementar os descritores de comportamento computados para 
melhorar nossa diferenciação automática entre os três principais grupos de TEA. 
Finalmente, as medidas do CANTAB são analisadas em relação aos vários descritores 
de comportamento computados durante as entrevistas ADOS. Para o melhor de nosso 
conhecimento,
O restante do artigo está estruturado da seguinte forma: na Seção 2, apresentaremos brevemente 
algumas pesquisas anteriores sobre o uso de sinais de comportamento social na pesquisa do autismo, 
na Seção 3, apresentaremos nosso banco de dados, incluindo dados demográficos dos sujeitos, 
protocolos de coleta e Descrições ADOS e CANTAB. Na Seção 4, descreveremos nosso método de 
pesquisa na derivação de descritores sociocomportamentais multimodais de ADOS. Na Seção 5, 
demonstraremos nossos resultados e análises experimentais e, por fim, a Seção 6 é nossa conclusão.
115
120
125
130 2. Revisão da Literatura
Alguns exemplos notáveis do uso de processamento de sinais e técnicas de aprendizado de máquina 
para o estudo do TEA estão listados abaixo: Bone et al. apresentaram um estudo computacional de prosódia 
espontânea durante entrevistas ADOS demonstrando que a modelagem conjunta das características 
prosódicas expressivas dos interlocutores ajuda a melhorar a avaliação automatizada da gravidade do TEA em 
crianças [31, 32]. Li et ai. desenvolveram algoritmos de classificação automática para diferenciar entre TD e 
ASD usando recursos de áudio e expressões faciais [33, 34]. Lecre et ai. analisaram comportamentos de 
crianças autistas em idade precoce usando recursos de vídeo derivados automaticamente em dimensões 3D 
durante a interação dos sujeitos com seus pais e demonstraram que esses descritores de comportamento 
derivados são altamente correlacionados com as pontuações CIB [35]. Schuller et ai. publicaram um sistema 
auxiliado por computador que fornece uma plataforma para facilitar o treinamento da habilidade de 
comunicação socioemocional para o autismo [36]. Por último, Ringeval et al. lançou um banco de dados 
projetado para analisar as características de fala e linguagem de crianças com deficiência de linguagem (LIC) e 
aquelas de transtorno invasivo do desenvolvimento [37], e esse banco de dados foi usado no desafio 
INTERSPEECH passado [38, 39].
135
140
145 3. Descrição do banco de dados
Nosso banco de dados utilizado neste artigo inclui dois instrumentos diferentes na avaliação de 
indivíduos com TEA, ou seja, ADOS e CANTAB. Descreveremos brevemente cada um deles e o 
procedimento de coleta na seção a seguir.
6
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Tabela 1: (Esquerda) Uma lista detalhada das atividades ADOS no Módulo 3 e Módulo 4 ('*' significa opcional). 
(Direita) Uma lista detalhada de todas as avaliações no CANTAB[17]. Existem tarefas de aquecimento:{MOT, BLC}, 
memória visual:{DMS, PAL, PRM, SRM}, função de execução, memória de trabalho, planejamento:{AST, IED, OTS, SSP, 
SWM, SOC}, atenção:{CRT, MTS, RVP, RTI, SRT}, tomada de decisão e controle de resposta:{CGT, IST, SST, ERT}
ADOS CANTAB
Triagem Motora (MOT), Círculo Grande/Pequeno (BLC),
Correspondência Atrasada para Amostra (DMS), Aprendizado de Associados Emparelhados(PAL), 
Memória de Reconhecimento de Padrões (PRM), Memória de Reconhecimento Espacial (SRM), 
Tarefa de Mudança de Atenção (AST), Deslocamento de Conjunto Intra-Extra Dimensional (IED), 
Meias de Um Toque de Cambridge (OTS), Spatial Span (SSP),
Trabalho Espacial, Memória (SWM), Stockings of Cambridge (SOC), 
Choice Reaction Time (CRT), Match to Sample Visual Search (MTS),
Processamento rápido de informações visuais (RVP), Tempo de reação 
(RTI), Tempo de reação simples (SRT), Cambridge Gambling Task (CGT), 
Information Sampling Task (IST), Stop Signal Task (SST), Emotion 
Recognition Task (ERT)
Tarefa de construção, brincadeira de faz de conta, tarefa de 
demonstração, descrição de uma imagem, contar uma história de um 
livro, desenhos animados, conversa e reportagem, emoções, 
dificuldades e aborrecimentos sociais, pausa, amigos e casamento, 
solidão, criação de uma história
Módulo 3
Tarefa de Construção*, Contar uma História de um Livro, Descrição de 
uma Imagem*, Conversa e Reportagem, Trabalho ou Escola Atual*, 
Dificuldades e Aborrecimentos Sociais, Emoções, Tarefa de 
Demonstração, Desenhos*, Pausa,
Vida Diária*, Amigos e Casamento,
Módulo 4
3.1. Cronograma de Observação de Diagnóstico de Autismo (ADOS)
150 ADOS é um padrão-ouro para avaliar a gravidade do autismo usando a abordagem 
observacional em uma sessão de entrevista cara a cara semiestruturada. Existem quatro 
módulos diferentes (M1 a M4) do ADOS, onde cada módulo é projetado para assuntos com 
diferentes níveis de desenvolvimento da linguagem. Todos os nossos sujeitos se 
enquadram no critério para serem elegíveis para participar de M3 ou M4. ADOS é 
projetado com 14 tarefas diferentes; por exemplo, essas tarefas envolvem contar uma 
história de um livro ilustrado, interações faladas sobre experiências emocionais, uma 
tarefa de demonstração etc. (uma lista completa pode ser encontrada na Tabela 1). O 
cenário desta entrevista diagnóstica é que duas pessoas, um investigador (psicólogos/
clínicos treinados) e um participante (indivíduos com TEA, a maioria são adolescentes), se 
envolvem em uma interação face a face.
A Tabela 2 mostra o conteúdo da codificação ADOS em quatro categorias: linguagem e comunicação, 
interação social recíproca, brincadeira + imaginação/criatividade, comportamentos estereotipados e 
interesses restritos. A linguagem e a comunicação medem a capacidade do participante de transmitir ao 
investigador, como apontar (PNT), relatar eventos (REPT). A interação social recíproca mede como os 
participantes se comportam quando recebem atenção do parceiro que interage, e códigos como 
iniciação espontânea de atenção conjunta (IJA) são usados; play + imaginação/criatividade mede a 
imaginação do participante ao contar uma história em imagens de sua criação. Comportamentos 
estereotipados e interesses restritos são avaliados observando suas respostas verbais e não verbais 
durante as interações de perguntas e respostas. Todo o processo ADOS dura de quarenta minutos a 
uma hora. ADOS pode ser conceituado como dois componentes principais, ou seja, um protocolo de 
interação social (para eliciar comportamentos dos sujeitos por meio da interação) e avaliação manual do 
comportamento (para avaliar numericamente os comportamentos dos sujeitos com avaliação manual).
155
160
165
170
Interação social.Focamos na sessão de 'emoção' do ADOS, que envolve principalmente interações 
faladas. Durante a sessão de emoção, os participantes são solicitados a descrever e compartilhar 
episódios de seus sentimentos vivenciados, como raiva e felicidade. Uma sessão de emoção dura
175
7
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
cerca de dois a dez minutos, dependendo de como o participante termina de responder ao 
conjunto de questões colocadas pelo investigador. A situação é um diálogo de vai-e-vem entre 
o investigador e o participante, e a maioria das conversas são iniciadas pelo investigador.
180
Classificação do comportamento.Durante as sessões de ADOS, o inspetor conduz as atividades sociais projetadas e 
anota suas observações sobre os comportamentos dos participantes em relação aos diversos itens listados nos 
manuais de ADOS. As classificações de comportamento são baseadas em 28 itens que avaliam as habilidades de 
comunicação, habilidades de interação social e o interesse restrito/repetitivo. Em seguida, uma pontuação final de 
comunicação e uma pontuação social são calculadas a partir dessas classificações de comportamento discriminadas 
como uma avaliação geral da capacidade de comunicação e da capacidade social. Esses comportamentos codificados 
manualmente podem ser pensados como uma medida das observações dos investigadores sobre os 
comportamentos dos participantes.
185
Coleta de dados de áudio e vídeo.Recolhemos gravações áudio-vídeo das sessões ADOS no
190 Hospital Infantil da Universidade Nacional de Taiwan4. Montamos três câmeras de alta definição
(um de frente para o participante, outro de frente para o investigador e o terceiro capturando 
as duas pessoas de lado) e dois microfones de lapela (cada um preso na gola de um falante 
individual). A Figura 2 mostra uma cena de maquete de nossa coleta de dados ADOS de duas 
visualizações de câmera diferentes. Os dois canais de áudio de cada microfone são 
sincronizados através de um mixer de processamento de áudio, e também sincronizamos o 
vídeo com o áudio manualmente com um clap board. No total, recolhemos 60 sessões de 
ADOS. Os diagnósticos clínicos para cada um dos sujeitos, ou seja, autismo clássico (AD), 
síndrome de Asperger (AS) ou autismo de alto funcionamento (HFA), são determinados usando 
uma combinação de ferramentas de diagnóstico (por exemplo, ADIR, ADOS, outras interações). 
Os enunciados no ADOS são segmentados manualmente.
195
200
3.2. Medição clínica da função executiva – CANTAB
O CANTAB é uma ferramenta analítica computadorizada usada para testar a função executiva do 
participante, como memória de trabalho e atenção sustentada [17]. Tem sido usado em uma variedade de 
distúrbios do neurodesenvolvimento: TEA, Transtorno de Déficit de Atenção e Hiperatividade (TDAH),
4Aprovado pelo IRB: REC-10501HE002 e RINC-20140319
Figura 2: uma visualização simulada de nossa configuração de coleta de dados de áudio e vídeo ADOS
8
MA
NU
SC
RIT
O
MANUSCRITO ACEITO
Tabela 3: Demografia de nossos participantes ASD em nosso conjunto de dados: o valor entre parênteses indica o número 
de indivíduos
Assuntos Demográficos
Idade (Média/Padrão)
ADOS (n=60)
CANTAB (n=52)
Autismo
15.03 +/ −3.08(28)
14,77+/-3,23(21)
COMO
15.95 +/ −3.2(20)
15,55+/-3,21(20)
HFA
18,5+/-4,4 (12)
19,36+/-2,83(11)
205 e retardo mental [40, 41, 42]. Os itens de teste do CANTAB estão listados na Tabela 1, dentre os itens de 
teste, alguns deles são categorizados. MOT e BLC são tarefas de treinamento simples para tarefas 
posteriores. DMS, PAL, PRM, SRM são categorizados como tarefas de memória visual; AST, IED, OTS, SSP, 
SWM, SOC são categorizados como medição para função de execução, memória de trabalho e tarefas de 
planejamento; CRT, MTS, RVP, RTI, SRT são categorizados como tarefas de atenção. Finalmente, CGT, IST, 
SST, ERT são categorizados como tarefas de tomada de decisão e controle de resposta. Os itens da 
análise do CANTAB estão listados na Tabela 1. O número total de sujeitos que passaram pelo ADOS e 
pelo CANTAB é de 52 (menos do que o total de 60 sujeitos do ADOS). Também listamos essa distribuição 
na Tabela 3.
210
4. Metodologia de Pesquisa
215 Nesta seção, descreveremos nossa abordagem de extração de descritores de comportamento 
multimodal aplicada nas gravações de áudio e vídeo ADOS. A Figura 3 mostra um diagrama sistemático. 
O procedimento completo envolve o seguinte: extração de recursos de áudio e vídeo de baixo nível 
(LLDs), codificação de recursos de nível de segmento em LLDs em relação ao investigador, ao 
participante e à dinâmica interpessoal (medidas de duração da tomada de turnos) e finalmente, 
derivamos um nível de sessão(ou seja, uma representação vetorial da caracterização do comportamento 
em uma sessão de emoção completa) que é usado para análises e categorização automática de grupos 
de TEA. Um exemplo de um recurso de nível de sessão é indicado como:
220
σ −[Tominvestquestinvestir ] (1)
Isso significa que calculamos o pitch LLD, codificamos no nível do segmento (discutido na 
seção 3.2) usando o desvio padrão (σ). O sobrescrito: investquest, denota a região onde o 
investigador está falando. O subscrito: 'investir' significa que esse tipo de recurso é calculado 
em relação ao investigador.
225
4.1. Descritores de baixo nível de áudio e vídeo (LLDs)
Os descritores de baixo nível são extraídos de dados de áudio e vídeo. Calculamos a energia de ação 
corporal normalizada (NBAE) como nossos LLDs de movimento do vídeo, características prosódicas como 
LLDs acústicos dos dados de áudio e mais duração de tomada de turno como recursos de dinâmica de 
interconversação.
230
9
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Figura 3: Uma visão sistemática de nossa extração de descritores de comportamento social
LLDs de movimento.Calculamos a energia de ação corporal normalizada (NBAE) para medir a quantidade 
de movimento de uma pessoa no nível do quadro. NBAE é calculado usando as etapas a seguir. Primeiro, 
extraímos pontos de trajetória (xt, et) aplicando o kernel de filtragem medianaMno componente vertical 
e horizontal do campo óptico densoω= (vocêt, vt).235
Pt+1= (xt+1, et+1) = (xt, et) + (M∗ ω)|(xt̄,yt̄) (2)
Pt+1onde a amostragem densa é implementada com o método de rastreamento de trajetória densa 
descrito em [43]. Este método mostrou ser bem sucedido na derivação de descritores para 
reconhecimento de ação [44, 45].
Ao resumir essas trajetórias rastreadas, pode ser pensado como uma representação da 
quantidade de movimento. Primeiro calculamosP(eu) como a soma do número total de trajetórias 
móveis para 15 quadros (≈0,5 segundos), denominado como oenergia de ação(AE) neste artigo. 
Então, o AE é normalizado em relação a cada pessoa (sessão) para derivar o NBAE,
240
P(eu)− µ
σNBAE(eu) = (3)
Ondeµeσsão calculados para aquele indivíduo em particular durante a sessão. Este descritor é calculado 
em um incremento de 0,5 segundo. A NBAE é uma característica unidimensional, que pode ser pensada 
como a quantidade relativa de movimentos em relação à linha de base de um indivíduo.245
Características acústicas.Em relação às características acústicas, computamos descritores prosódicos de baixo 
nível (LLDs), incluindo pitch, intensidade, relação harmônico-ruído (HNR), jitter e shimmer (ou seja, um vetor 
de cinco dimensões por quadro) usando o kit de ferramentas Praat [46]. Todas as características acústicas são 
extraídas a cada 10ms; esses LLDs são ainda normalizados em z em relação a um alto-falante individual.
250
1. Recursos relacionados à frequência: Pitch, Intensity (volume)
2. Recursos relacionados à qualidade de voz: Jitter, Shimmer, HNR
Este conjunto de LLDs tem sido usado para caracterizar parâmetros acústicos paralinguísticos para uma variedade 
de tarefas de reconhecimento automatizado. Por exemplo, o contorno do tom e a energia podem servir como um 
indicador eficaz para estados de emoção vocal [47]. Computando a qualidade da voz para caracterizar255
10
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
vozes danificadas, como soprosidade e aspereza, foram medidas por HNR [48, 49], e também 
jitter e shimmer [50]. Além disso, crianças com TEA também apresentam características 
acústicas atípicas: faixas extremas de intensidade e nível de tom, rouquidão considerável 
aspereza som hipernasal [48, 49]. Os pesquisadores usaram descritores prosódicos de baixo 
nível com funcionais estatísticos computados ao longo de uma duração para capturar essas 
características prosódicas atípicas [50]. Recentemente, Bone et al. demonstraram ainda que 
tanto os parâmetros acústicos dos sujeitos com TEA quanto os parâmetros acústicos do 
investigador são indicativos do nível de gravidade do TEA do sujeito durante a parte 'emoção' 
das entrevistas ADOS [32].
260
265 Recursos de duração de tomada de turno.Quando as pessoas se envolvem em conversas, os falantes 
trocam turnos coordenados para falar não simultaneamente [51]. Pesquisas anteriores mostraram que 
déficits de tomada de turno, por exemplo, pausa estranha ou uso inadequado de dicas de tomada de 
turno, existem em pessoas autistas [52]. A intervenção foi desenvolvida para educar crianças com TEA a 
se envolverem em conversas apropriadas [53, 54].
As regiões de tomada de turno nesta pesquisa são definidas a cada troca de turno durante a sessão 
de emoção das entrevistas ADOS. A maior parte da interação falada em nossos dados começa com a 
seguinte situação: primeiro, o investigador inicia uma pergunta e o participante responderá. UMAtroca 
de turno, denominada região de tomada de turnos, é definida desde o início da pergunta do 
investigador até o final da resposta do participante. Dividimos a região de tomada de turno em três 
partes, Investquest, Gap, Partresp. Consulte a Figura 4, Investquest é definido na região em que o 
investigador inicia uma pergunta até o final da pergunta. A lacuna é definida desde o final da pergunta 
do investigador até o início da resposta do participante. Por fim, a Partresp é definida na região onde a 
resposta do participante à pergunta do investigador. Em seguida, calculamos o recurso de duração de 
tomada de turno como a duração do tempo dentro de cada um dos segmentos especificados. Há 
situações em que a resposta do participante antecede o término do Investquest causando sobreposição 
de fala. Nesta situação, o recurso de duração calculado sobre a região de Gap será negativo.
270
275
280
4.2. Recursos em nível de segmento
Codificamos os descritores de baixo nível mencionados acima para os recursos de nível de segmento 
usando média e desvio padrão, onde o segmento é definido como cada uma das regiões em uma troca 
de turnos. Dentro de uma tomada de turno, derivamos recursos para o investigador e o participante 
como medidas adicionais sobre a dinâmica interpessoal. Essa abordagem de extração de recursos em 
nível de segmento resultará em três perspectivas diferentes: Intra-Invest (falando do investigador), Intra-
Part (falando do participante), Inter-Behavior (diferenças entre os dois
285
Figura 4: Uma breve descrição dos segmentos de tomada de turno definidos nesta pesquisa
11
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Tabela 4: Uma lista de diferentes operadores básicos que são usados para derivar os descritores de comportamento multimodal
Funcional em nível de sessão
5% percentil
percentil 95%
significa
mediana
padrão
IQR
Recursos LLD
NBAE
Tom
Intensidade
HNR
Tremor
Cintilar
Duração
Funcional em nível de segmento
significa (µ)
padrão (σ)
Região de Computação
Investir missão
Parte resp
Lacuna
Tomada de turno
Perspectivas
Intrainvestimento
Intra-Parte
Intercomportamento
290 Intra-features dentro de uma região de curva). Descreveremos as características segmentares para cada modalidade de 
comportamento separadamente abaixo.
NBAE segmentar.Calculamos o valor médio do NBAE baseado em quadros em cada segmento 
de turno. Em seguida, derivamos ainda a inter-relação da NBAE entre os dois interlocutores na 
unidade de um segmento. Por exemplo:µ-[NBAEinvestquest] representa a NBAE segmentada 
calculada na região: Investquest (indicada pelo sobrescrito), e o subscrito: 'inter' significa que 
calcula a inter-relação da característica do investigador e do participante. A inter-relação é 
calculada subtraindo a NBAE do investigador da do participante. O número total de recursos 
segmentais da NBAE é 12.
entre
295
Características de acústica segmentar.Para a modalidade acústica, calculamos a média e o desvio padrão 
em cada uma das perspectivas do segmento de giro para cada LLD. Semelhante ao NBAE, também 
calculamos a inter-relação de características acústicas entre os interlocutores.Primeiro calculamos a 
média dos descritores acústicos de baixo nível, ou seja, pitch, intensidade, HNR, em uma janela de 0,5 
segundo (para sincronizar a taxa de quadros com NBAE), depois calculamos a média e o desvio padrão 
como a codificação da função segmentar em cada segmento . Como um exemplo,µ- [Intensidade
investquest] significa a intensidade da acústica média do investigador dentro do Investbusca. A inter-relação 
dos LLD's acústicos também são calculados dentro de um segmento, por exemplo: µ-[Tominvestquest/partesp] 
significa a divisão do pitch médio de Investbuscasobre a parteresp. A dimensão total das características 
acústicas segmentares é 12.
300
305 investir
entre
Recursos de tomada de turno segmentados.Tomamos a duração do Investquest, Gap, Partresp e 
toda a tomada de turnos como nossos recursos básicos de tomada de turnos e calculamos ainda a 
inter-relação (razão) entre cada segmento. Por exemplo: Investquest / Gap, Investquest / Partresp. 
Isso resulta em um total de recursos de 9 dimensões representando características de tomada de 
turno no nível segmentar.
310
4.3. Recursos de nível de sessão
315 Finalmente, os recursos de nível de segmento são codificados para recursos de nível de sessão 
usando uma variedade de funcionais robustos: percentil 5%, percentil 95%, média, mediana, desvio 
padrão (std), IQR, a fim de descrever a distribuição dos características de comportamento multimodal 
segmentar. Uma abordagem semelhante foi desenvolvida no passado para realizar análise de emoção 
baseada em acústica [55]. Essas são as características utilizadas nos experimentos finais de classificação 
diferencial na categorização entre os três grupos de TEA. Uma lista de parâmetros diferentes320
12
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
usado na derivação de nossos recursos finais de nível de sessão (de nível de quadro, nível de segmento e nível de sessão) 
podem ser encontrados na Tabela 4.
5. Configuração Experimental e Resultados
Nós conduzimos os seguintes três experimentos diferentes neste trabalho.
325 • Experimento I:Classificação entre os três tipos de diagnóstico clínico de TEA (AD, AS, HFA) 
usando recursos de comportamento multimodal calculados a partir das gravações ADOS
• Experimento II:Classificação entre os três tipos de TEA fundindo características de 
comportamento com subconjuntos das medidas CANTAB
• Experimento III:Análises de correlação entre as características de comportamento multimodal do 
sujeito com TEA computadas a partir do ADOS e as medidas de função executiva derivadas do 
CANTAB
330
O classificador usado é a regressão logística neste trabalho, e relatamos ainda os resultados usando máquina 
de vetor de suporte (kernel linear) e floresta aleatória para cada experimento nas Tabelas 5, 6, 7 e 8. A 
regressão logística é usada para evitar possíveis problemas de overfitting devido ao tamanho da amostra para 
cada classe do subgrupo TEA. Além disso, realizamos regressão stepwise para selecionar as características 
mais relevantes em nossas tarefas de reconhecimento, que é baseada no método de seleção univariada de 
características que calcula o valor F para determinar a importância de cada característica. A Tabela 6 (abaixo) 
mostra a precisão da classificação dos recursos CANTAB selecionados em três tarefas. O esquema de avaliação 
é a validação cruzada leave-one-subject-out, e a métrica utilizada é a média não ponderada de recall (UAR).
335
340
5.1. Resultados e Discussões do Experimento I
Usamos os recursos de comportamento multimodal em nível de sessão para realizar nossa tarefa de 
classificação. Semelhante ao nosso estudo anterior [30], nossa linha de base é comparar essas características 
derivadas de sinais com os escores de comportamento observacional manual derivados do manual ADOS e da 
medição da função executiva do CANTAB.
Um resumo dos resultados da classificação multimodal é fornecido na Tabela 9. O melhor desempenho de 
classificação é destacado em vermelho, que é 0,68, 0,80, 0,76 e 0,54 para AD vs. AS, AS vs. HFA, AD vs. HFA e 
AD vs. AS vs. HFA, respectivamente. Esses descritores de comportamento derivados de sinais superam as 
classificações de comportamento ADOS (pontuação de comunicação e pontuação de reciprocidade social), que 
atinge apenas 0,65, 0,46, 0,60 e 0,43. O uso de recursos de comportamento multimodal supera a modalidade 
de comportamento único (resultados listados na Tabela 5 (esquerda)). O melhor conjunto de recursos de 
comportamento multimodal para tarefas AD vs. AS éµ-[NBAEGap = Vão
345
350
entre] +µ-
[IntensidadeQIeu] +DuraçãoQIintra.Dois dos três tipos de características são do investigador
região da questão, ou seja, na região de fala do investigador.µ-[NBAEpr eu] +µ-[IntensidadeQIeu]
355 + Duraçãolacuna/qientreeµ-[NBAEGap = Vãoentre] +µ-[IntensidadeQIeu] +DuraçãoGap = Vãointratambém mostra um bom reconhecimento
precisão nesta tarefa. Como a maioria das características emergiu da região de investquest, isso 
pode implicar que o comportamento do investigador reflete a diferença entre AD e AS.
13
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Tabela 9: Classificação multimodal nas tarefas projetadas. O valor em negrito significa que seu valor de precisão é superior à 
linha de base (Comunicação ADOS, Reciprocidade Social), e o valor mais alto em cada tarefa é destacado em vermelho. Os 
significados das abreviaturas estão listados abaixo, AD: autismo, AS: síndrome de Asperger, HFA: autismo de alto 
funcionamento
F (ação, acústica, tomada de turno) AD vs AS AS vs HFA AD vs HFA AD vs AS vs HFA
µ-[NBAEQIeu] +σ-[Tomprp] +Duraçãolacuna/qientre
p
0,47
0,54
0,74
0,51
0,65
0,76
0,45
0,43µ-[NBAEpreu] +µ-[HNRprp] +Duraçãogaintra
µ-[NBAEpr qeu] +µ-[IntensidadeQIeu] +Duraçãolacuna/ientre
entre
entre
intra
intra
0,66
0,49
0,53
0,49
0,39
0,68
0,58
0,75
0,55
0,60
0,80
0,60
0,57
0,71
0,67
0,73
0,65
0,38
0,54
0,42
0,52
0,43
0,40
0,34
µ-[NBAEpreu] +σ-[Tomprp] +Duraçãolacuna/qi
µ-[NBAEQIp] +σ-[IntensidadeQIeu] +Duraçãolacuna/qi
µ-[NBAEQIp] +σ-[IntensidadeQIeu] +Duraçãott
µ-[NBAEQI qp] +σ-[Tompr p] +Duraçãoeu
µ-[NBAEGap = Vãoentre] +µ-[IntensidadeQI QIeu] +Duraçãointra
µ-[NBAEGap = Vãoentre] +µ-[IntensidadeQIeu] +DuraçãoGap = Vãointra
intra
0,66
0,47
0,58
0,75
0,59
0,60
0,41
0,39µ-[NBAEGap = Vãoentre] +σ-[Tompr rp] +Duraçãop
µ-[NBAEQIentre] +σ-[Tompr qp] +Duraçãolacuna/i
eGeMAPS [57]
ADOS (Comunicação, Reciprocidade Social)
entre 0,50
0,58
0,65
0,71
0,67
0,46
0,60
0,57
0,60
0,37
0,48
0,43
O melhor conjunto de recursos de comportamento multimodal para tarefa é AS vs. HFA,µ-[NBAEQI p] +σ-[Tomp rp]
+ DuraçãoQIintra. Ao inspecionar outros valores em negrito (valor em negrito indica precisão mais alta
360 do que a linha de base), descobrimos queσ-[Tompr p]desempenha um papel importante na discriminação
entre AS e HFA. O descritor representa a diversidade de entonação do participante (σ- [Tom]). 
Isso pode ter sido atribuído à observação de que o participante AS pode possuir melhores 
habilidades sociais em manter uma resposta mais suave de perguntas e respostas faladas.
interações [56]. Além disso, o UAR da previsão de AS vs. HFA usandoσ-[Tompr p]sozinho é
pr
365 0,63 (consulte a Tabela 5).µ-[NBAEpreu] +µ-[HNRp] +DuraçãoGap = Vãointraobtém o melhor reconhecimento
taxas para a tarefa de AD vs. HFA. A aperiodicidade deµ-[HNRpr p]representa a voz prejudicada
qualidade que pode ser causada por som rouco e áspero na fala, esse recurso sozinho atinge uma 
precisão de classificação de 0,61 (consulte a Tabela 5), e a precisão melhora ao fundir
com outras duas modalidades. Finalmente,µ-[NBAEpr q QIeu] +µ-[Intensidadeeu eu] +DuraçãoGap = Vão/entre atinge
370 a melhor taxa de reconhecimento (UAR de 0,54) para a tarefa de AD vs. AS vs. HFA. Junto comµ-
[NBAEQI p/iqp] +σ-[IntensidadeQIeu] +Duraçãogaentre.Curiosamente, descobrimos que a maioria dos recursos
são calculados entre a região da pergunta do investigador (iq) ou inter-relação em que a região 'iq' está 
envolvida. Este resultado reforçao achado em Bone et al. [32], onde mostraram que as características 
prosódicas do investigador podem ser ainda mais indicativas da gravidade do sujeito com TEA do que as 
próprias características do sujeito durante as entrevistas ADOS.375
Análise.Conduzimos aindat-teste nos recursos de comportamento listados na Tabela 5 (α≤0,05) 
entre cada par de grupos. A Tabela 10 fornece um resumo sobre a diferença de 
comportamento entre esses diferentes subgrupos de TEA. Na tarefa AD vs. AS, o investigador 
tem um valor de NBAE maior ao interagir com AS do que AD durante a região de Gap. Este 
descritor representa a quantidade de movimento relativo. Portanto, reflete que o movimento 
relativo do investigador é maior ao interagir com AS do que com AD, ao aguardar o
380
14
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Tabela 10: Tabela de características de diferença significativa e as direções. Subtraímos o primeiro grupo ao segundo 
grupo, onde o primeiro e o segundo grupo são indicados no sobrescrito da tarefa. Os significados das abreviaturas 
estão listados abaixo: AD: autismo, AS: síndrome de Asperger, HFA: autismo de alto funcionamento
Movimento
µ-[NBAEGap = Vão
Descritor
máximo de pontos
ponto médio
ponto mediano
ponto padrão
ponto mediano
ponto mín.
Descritor
ponto IQR
inclinação IQR
Descritor
curvatura IQR
curvatura máxima
ponto IQR
inclinação IQR
inclinação máxima
curvatura IQR
ponto IQR
máximo de pontos
inclinação IQR
inclinação padrão
Descritor
DE ANÚNCIOS1vs AS2 COMO1vs HFA2 DE ANÚNCIOS1vs HFA2
- 0,04 0,47 0,43 *
- 0,05 *
- 0,1
- 0,11
0,19
0,09
DE ANÚNCIOS1vs AS2
- 7,46
- 0,0
DE ANÚNCIOS1vs AS2
- 0,03
0,27
- 0,09
- 0,1
0,31
0,06*
investir]
0,06
0,26 *
0,16 *
- 0,29 *
- 0,43 *
COMO1vs HFA2
- 7,61
- 0,0
COMO1vs HFA2
- 0,31 *
- 0,84 **
- 0,14
- 0,25
- 0,85 **
- 0,03
0,01
0,16
0,05
- 0,1
- 0,34 *
DE ANÚNCIOS1vs HFA2
- 15.07*
- 0,01 *
DE ANÚNCIOS1vs HFA2
- 0,34 **
- 0,57
- 0,23 **
- 0,35 **
- 0,55
0,02
µ-[NBAEGap = Vãoentre]
Qualidade de voz
µ-[HNRpartepapel ]
Entonação
σ-[Tomparte]papel
σ-[Intensidadeinvestquestinvestir ]
0,02
0,08
0,03
0,08
0,05 *
0,15 *
0,06 *
0,04 *
DE ANÚNCIOS1vs AS2
- 0,01
- 0,01
COMO1vs HFA2
0,05
0,03
DE ANÚNCIOS1vs HFA2Estrutura de tempo de tomada de turno
Duraçãolacuna/investquest
entre ponto mediano
ponto mediano
- 0,05
- 0,28
- 0,24 *
- 0,6
- 0,29 **
- 0,88 *DuraçãoGap = Vãointra
resposta do sujeito (região da lacuna)(µ-[NBAEGap = Vãoinvestir]). Enquanto isso, em termos de propriedades acústicas,
o padrão de intensidade da voz (volume) é maior no grupo AD. Isso implica que a variação da voz do 
investigador é maior no AD do que no grupo AS. Na tarefa AS vs. HFA, análise em movimento
385 característica implica que a mediana da NBAE (µ-[NBAEparteinvestir])é maior em AS do que em HFA,
eµ-[NBAEGap = Vãoentre] tem o resultado oposto. Isso indica que maiorµ-[NBAEparte investir]é
o fator determinístico mostrando a diferença de AS e HFA, e representa que o investigador mostra 
um movimento relativamente maior durante a porção da resposta do participante. Juntamente com 
o resultado da tarefa AD vs. AS, podemos inferir do resultado que o investigador tem mais 
movimento ao interagir com os participantes do grupo AS.
Além disso, a análise da entonação mostra que a inclinação máxima e a curvatura do pitch do 
participante juntamente com o IQR da curvatura são maiores no HFA. A análise da estrutura de 
tempo de tomada de turnos sugere que Duraçãolacuna/investquestmostra menor valor em AS. Isso pode 
resultar de duas razões, ou a menor duração no Gap ou a maior duração da fala do investigador. 
Ambas as condições sugerem que o participante AS tem uma tendência maior em falar mais e se 
envolver em diálogos mais 'interativos'. Na tarefa de AD vs. HFA, o máximo deµ-[NBAEparte
permanece maior na DA. A análise da qualidade da voz mostra uma maior variação da qualidade da voz dos 
participantes no grupo HFA. A análise do pitch também mostra um resultado semelhante, indicando que o HFA
390
entre
395
investir]
15
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Tabela 6: Esquerda: Classificação UAR usando comportamento multimodal nos 52 sujeitos disponíveis. Direita: Classificação 
UAR após a fusão de características de comportamento com medidas CANTAB. Os significados das abreviaturas estão 
listados abaixoµ: significa,σ: desvio padrão, AD: autismo, AS: síndrome de Asperger, HFA: alto funcionamento
autismo
F (ação, acústica, tomada de turno) AD vs AS AS vs HFA AD vs HFA AD vs AS vs HFA
µ-[NBAEQIeu] +σ-[Tomprp] +Duraçãolacuna/qientre
intra
0,51/0,78
0,61/0,66
0,69/0,88
0,48/0,69
0,65/0,74
0,68/0,70
0,46/0,49
0,36/0,46µ-[NBAEpreu] +µ-[HNRprp] +DuraçãoGap = Vão
µ-[NBAEpreu] +µ-[IntensidadeQIeu] +Duraçãolacuna/qientre
entre
entre
intra
intra
0,73/0,83
0,51/0,78
0,51/0,78
0,39/0,68
0,39/0,73
0,56/0,76
0,56/0,83
0,74/0,86
0,55/0,78
0,62/0,76
0,74/0,86
0,58/0,85
0,58/0,72
0,61/0,77
0,58/0,72
0,58/0,70
0,65/0,74
0,35/0,72
0,48/0,60
0,38/0,49
0,41/0,52
0,31/0,34
0,36/0,46
0,29/0,50
µ-[NBAEpreu] +σ-[Tomprp] +Duraçãolacuna/qi
µ-[NBAEQIp] +σ-[IntensidadeQIeu] +Duraçãolacuna/qi
µ-[NBAEQIp] +σ-[IntensidadeQIeu] +Duraçãott
µ-[NBAEQIp] +σ-[Tompr p] +DuraçãoQI
µ-[NBAEGap = Vãoentre] +µ-[IntensidadeQIeu] +DuraçãoQIintra
intra
intra
µ-[NBAEGap = Vãoentre] +µ-[IntensidadeQIeu] +DuraçãoGap = Vão 0,63/0,83
0,39/0,76
0,53/0,81
0,74/0,78
0,61/0,72
0,58/0,70
0,39/0,51
0,30/0,42µ-[NBAEGap = Vãoentre] +σ-[Tomprp] +Duraçãopr
µ-[NBAEQIentre] +σ-[Tomprp] +Duraçãolacuna/qientre 0,49/0,83
0,76
0,69/0,85
0,81
0,65/0,72
0,74
0,34/0,49
0,54Passo a passo (CANTAB)
maior variação nas características vocais do início ao fim da entrevista. A entonação do 
investigador, no entanto, mostra maior valor no AD do que no HFA. Isso pode sugerir que o 
volume do investigador é maior ao interagir com sujeitos em AD durante toda a entrevista 
ADOS. Finalmente, a análise da estrutura de tempo de tomada de turnos sugere que a duração 
do Gap e a razão do Gap dividido pelo investquest são maiores no grupo HFA.
400
5.2. Resultados e Discussões do Experimento II
405 Como há menos amostras de dados no CANTAB do que nos dados de áudio e vídeo ADOS, os 
resultados da fusão mostrados na Tabela 6 são apenas para 52 indivíduos. O resultado à esquerda da 
linha de barra na Tabela 6 mostra o UAR obtido usando recursos de comportamento multimodal apenas 
nos 52 sujeitos, e o resultado à direita é a pontuação do UAR após a fusão com recursos CANTAB usando 
concatenação de recursos. O simples uso de medidas de CANTAB obtém uma precisão de classificação 
de 0,76, 0,81, 0,74 e 0,54 para AD versus AS, AS versus HFA, AD versus HFA e AD versus AS versus HFA, 
respectivamente. O resultado da regressão passo a passo demonstra que subconjuntos de recursos em 
Aprendizado de Associados Emparelhados (PAL), Memória de Reconhecimento de Padrão (PRM), Spatial 
Span (SSP) e Processamento Rápido de Informação Visual (RVP) são importantes para obter uma boa 
precisão de previsão para AD vs. AS ; subconjuntos de Delayed Matching to Sample (DMS), PRM, 
Stockings of Cambridge (SOC) são bons em prever tarefa AS vs. HFA. Subconjuntos de PAL, DMS, SSP, 
Memória de Trabalho Espacial (SWM), RVP, Triagem Motora (MOT) são melhores na classificação entre 
AD vs. HFA. Finalmente, PAL, DMS, SOC, SWM são bons para a tarefa de D vs. AS vs. HFA.
A precisão geral melhora fundindo descritores comportamentais com subconjuntos de dados CANTAB. 
Alguns dos resultados são ainda melhores em comparação com o uso de subconjuntos de dados CANTAB 
sozinhos. Sugerindo do resultado, supomos que os descritores comportamentais possuem informações 
complementares e correlacionadas com o CANTAB, e assim mostraremos a correlação entre os dois diferentes 
tipos de descritores no Experimento III.
410
415
420
16
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
5.3. Resultados do Experimento III
425 Analisamos ainda a correlação entre as características de comportamento multimodal dos indivíduos com 
TEA(expressas, gravadas e computadas a partir de gravações de áudio e vídeo ADOS) e suas medidas internas 
de função executiva (CANTAB). A Tabela 7 mostra as correlações de Pearson calculadas entre características 
comportamentais multimodais derivadas de sinais e medidas de CANTAB. Apenas relatamos correlações 
acima de 0,50.
Correlação entre o recurso de comportamento baseado em interação do Durationlacuna/investqueste as 
duas medições de Processamento de Informação Visual Rápido (RVP) são observadas em nosso
430 entre
base de dados. Duraçãolacuna/investquestestá positivamente correlacionada com RVPfaP e 
negativamente correlacionada com RVPB. Os testes RVP são frequentemente usados 
para medir a capacidade cognitiva na memória de trabalho e atenção sustentada [58, 59]. 
Pesquisas anteriores mostraram prejuízos na memória sustentada e prejuízo no trabalho 
para a população de TEA. Por exemplo, Ozonoff et al. examinar a memória de trabalho em 
amostras de autismo de alto funcionamento [60], e Hellen et al. sugerem que a atenção 
sustentada do transtorno autista pode vir da relutância em lidar com tarefas impostas 
externamente [61]. Um valor mais alto na duração do recursolacuna/investquestcorresponde à 
menor duração da pergunta do investigador e/ou maior tempo de Gap quando o 
participante responde ao seu investigador. Esses dois fatores geralmente apresentam a 
conversa a ser conduzida apenas com perguntas e respostas e menos bate-papo. Em 
nosso conjunto de dados, mostramos que esse recurso é maior no HFA do que no AD e AS. 
Uma hipótese para esse fenômeno é que o participante do HFA é capaz de manter uma 
conversa tranquila, mas sem intenção de ter outros tópicos de conversa. Em poucas 
palavras, esse comprometimento cognitivo interno diferencial em indivíduos com TEA 
também pode ter se manifestado nas medidas comportamentais das características de 
duração da tomada de turnos, resultando em uma tomada de turnos conversacional 
aparentemente interrogativa. No entanto,
A medição de Delayed Matching to Sample (DMS) tem correlação negativa (com p<.001) para 
apresentarµ-[HNRinvestquest],σ-[HNRinvestquest] (calculado na fala do investigador). Para ser mais 
específico, a porcentagem e a taxa total de acertos da amostra de correspondência atrasada têm a 
correlação oposta com a inclinação da medida nos valores de HNR do investigador entre cada 
região de turno. Além disso, o teste Delayed Matching to Sample (DMS) é projetado para testar a 
memória visual e está relacionado à função de atenção [62]. A atenção do participante pode 
desempenhar um papel importante, de modo que, quando um participante com baixa função de 
atenção, fará com que um investigador varie frequentemente seu comportamento acústico 
durante a interação, conforme manifestado nas medidas de qualidade da voz. Finalmente, a 
medida de 'velocidade de movimento' SOCstT2 testada no teste Stockings of Cambridge (SOC), 
mostra uma correlação negativa (comp<.001) ao recurso de comportamento deσ-[Tominvestquest] 
(calculado na fala do investigador). Este descritor acústico representa o nível de variação do pitch 
local (slope) ao longo de toda a sessão de emoção. Por outro lado, SOC é uma tarefa que depende 
da memória de trabalho [63]. Em consequência, o resultado implica que uma menor variação de 
pitch nos segmentos de giro corresponde a uma melhor função da memória de trabalho. Talvez o 
investigador possa fazer perguntas diretas ao participante devido à melhor função executiva
entre
435
entre
440
445
450
investir investir
455
460 investir
465
17
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
que o participante possui ao se concentrar na questão de recuperação (por exemplo, 
relembrar episódios de emoção pessoal no passado) que deve descrever ao investigador.
6. Discussão
Conforme observado em nossas análises estatísticas, os comportamentos diferenciais dos indivíduos com 
DA podem ser melhor observados a partir da variação do volume do investigador (σ-[Intensidadeinvestquest]). 
HFA também é um transtorno autista em indivíduos com função executiva superior, e a observação acima 
coincide com o fato de que AS e HFA têm maior nível de funcionamento cognitivo em comparação com AD 
(sem atraso na linguagem e nenhum desenvolvimento cognitivo) [18]. O participante AS também pode ser 
distinguido observando a quantidade de movimento do investigador (especialmente na região do Gap). Os 
participantes com SA são relatados como tendo maneiras inadequadas de interagir com as pessoas [21, 22], 
mas ainda mantêm o nível de funcionamento cognitivo normal [18] em comparação com os sujeitos com DA, e 
o sujeito AS também é conhecido por ter maior intenção de se envolver em interação social em comparação 
com HFA [22]. Por fim, recursos relacionados à variação de tom (σ-[Tomparte]),
470 investir
475
papel
e harmonia de voz (µ-[HNRparte]) no participante HFA são maiores do que os outros dois subgrupos de 
TEA. Isso pode estar relacionado à função de execução afetada pela atenção e memória de trabalho [41], 
mas um exame mais detalhado deve ser realizado para confirmar essa exploração inicial. Por fim, a 
razão de duração do tempo calculada entre a região 'Gap' e a região 'investquest' é significativamente 
maior no grupo HFA, assumindo-se que a habilidade de tomada de turnos mais suave está 
correlacionada com o menor valor. No entanto, o grupo AS ainda demonstra um valor relativamente 
menor. Uma investigação mais detalhada é necessária para explicar essa observação.
Em resumo, observamos que nossos descritores de comportamento multimodais calculados a partir do registro ADOS possuem poder discriminatório significativo na 
diferenciação entre os três diferentes diagnósticos dentro do TEA [(Manifestado pelo teste t) e são capazes de realizar bons resultados de previsão juntamente com o classificador de 
regressão logística ](ou seja, classificação de pares de 0,68, 0,80 e 0,76 com classificação de três vias UAR de 0,54). Observamos ainda que não só o comportamento dos sujeitos com 
TEA é importante, mas também seus entrevistadores (ou seja, os investigadores) e até mesmo a dinâmica entre os dois são importantes na diferenciação entre esses diagnósticos. 
Como as nuances comportamentais expressivas entre os três grupos de TEA podem ser sutis, o uso de medidas de comportamento derivadas de sinais pode ser potencialmente 
uma abordagem mais poderosa na captura de tal diferença. Além disso, o Experimento II mostra que a combinação de características comportamentais expressas e descritores 
funcionais executivos internos ajudam a melhorar os três subgrupos de precisão de categorização de TEA, sugerindo que as características derivadas de sinal projetadas fornecem 
informações adicionais ao instrumento de teste de função cognitiva clinicamente relevante (CANTAB) existente . No Experimento III, por outro lado, demonstramos que o déficit 
interno da função cognitiva está correlacionado com os comportamentos multimodais exibidos durante as entrevistas clínicas ADOS. O Experimento II mostra que a combinação de 
características comportamentais expressas e descritores funcionais executivos internos ajudam a melhorar os três subgrupos de precisão de categorização de TEA, sugerindo que 
as características derivadas de sinal projetadas fornecem informações adicionais ao instrumento de teste de função cognitiva clinicamente relevante (CANTAB). No Experimento III, 
por outro lado, demonstramos que o déficit interno da função cognitiva está correlacionado com os comportamentos multimodais exibidos durante as entrevistas clínicas ADOS. O 
Experimento II mostra que a combinação de características comportamentais expressas e descritores funcionais executivos internos ajudam a melhorar os três subgrupos de 
precisão de categorização de TEA, sugerindo que as características derivadas de sinal projetadas fornecem informações adicionais ao instrumento de teste de função cognitiva 
clinicamente relevante (CANTAB). No Experimento III,por outro lado, demonstramos que o déficit interno da função cognitiva está correlacionado com os comportamentos 
multimodais exibidos durante as entrevistas clínicas ADOS.
papel
480
485
490
495
500
7. Conclusões e Trabalhos Futuros
Os sintomas heterogêneos na população de TEA têm sido consistentemente uma questão-chave na 
estratificação clínica adequada para intervenção direcionada. De fato, apesar de pesquisadores anteriores
18
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
Tabela 7: Uma lista de características de comportamento mostrando correlação significativa com medidas de CANTAB (*p<0,05 **p<
0,01 e a correlação é medida usando a correlação de Pearson). Apenas correlações superiores a 0,5 são listadas.
Recursos de comportamento derivados de sinais Descritor
ponto mín.
CANTAB
RVP: RVP
Correlação
- 0,61***Duraçãolacuna/investquestentre
Duraçãolacuna/investquest
entreµ-[HNRinvestquest
ponto mín.
curvatura mediana
inclinação mediana
inclinação mediana
curvatura mediana
inclinação mediana
inclinação mediana
curvatura máxima
inclinação máxima
RVP: RVPfaP
RVP: RVPfaP
DMS: DMSpcS
DMS: DMStCS
RVP: RVPfaP
DMS: DMSpcS
DMS: DMStCS
SOC: SOCstT2
SOC SOCstT2
0,60***
- 0,53***
- 0,54***
- 0,55***
- 0,56***
- 0,57***
- 0,58***
- 0,59***
- 0,60***
investirµ-[HNRinvestquest
]
]
]
]
]
]
]
]
investirµ-[HNRinvestquest
investirσ-[HNRinvestquest
investirσ-[HNRinvestquest
investirσ-[HNRinvestquest
investirσ-[Tominvestquest
investirσ-[Tominvestquest
investir
Observação. Correlações positivas significam que o aumento do descritor acompanha o aumento do 
valor de CANTAB.
* * * p<0,001
505 demonstraram várias diferenças entre AD, AS e HFA em vários estágios de desenvolvimento, uma nova versão 
da ferramenta de diagnóstico, DSM-5, redefiniu os critérios. Os Novos critérios fazem com que AS e HFA não 
sejam mais identificados de forma diferenciada para tornar as avaliações clínicas consistentes. Neste trabalho, 
propomos diferenciar as três diferentes categorizações de grupos de TEA por meio da computação de 
descritores de comportamento multimodal espontâneo computados a partir de registros ADOS reais 
diretamente com medidas de função executiva derivadas da tarefa computadorizada do CANTAB. Os 
descritores de comportamento multimodais baseados em sinais caracterizam o participante, o investigador e 
a dinâmica do comportamento conjunto além do que é explicitamente capturado nos manuais de codificação. 
De fato, nossas características derivadas de sinais incluem movimentos corporais, características prosódicas, e 
estatísticas de duração de tomada de turno. Nossos experimentos mostram que uma precisão promissora 
pode ser alcançada (0,68, 0,8, 0,76 e 0,54) em tarefas de AD vs. AS, AS vs. HFA, AD vs. HFA e AD vs. AS vs. HFA, 
respectivamente, bem acima usando a classificação de comportamento derivada da codificação ADOS.
Além disso, a função executiva medida derivada do CANTAB também ajuda a diferenciar ainda mais 
os três subgrupos, uma vez que indivíduos com AS ou HFA possuem função cognitiva mais alta. Ao 
fundir recursos de comportamento multimodal com a medida CANTAB, a precisão de AD vs. AS pode ser 
melhorada para 0,83. Mostramos também que as medidas de Processamento Rápido de Informação 
Visual estão correlacionadas com as estatísticas de duração durante a tomada de turnos quando um 
sujeito ASD está envolvido em interações faladas espontâneas de ADOS; A correspondência atrasada 
com a amostra se correlaciona com o nível de variação da qualidade de voz medido no investigador; As 
meias de Cambridge correlacionam-se com o nível de variação do tom local. Este estudo preliminar é um 
dos primeiros trabalhos na computação sistemática de sinais comportamentais de coleções ADOS de 
dados de áudio e vídeo em grande escala e fusão com medidas de função executiva para diagnósticos 
diferenciais entre os três grupos de TEA. Existem várias direções futuras. Um
510
515
520
525
19
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
do trabalho contínuo é coletar mais sujeitos de TEA com uma ampla gama de outros 
instrumentos clínicos, por exemplo, ADIR, para trazer uma imagem mais completa dos 
sintomas de TEA, também controles de desenvolvimento típico (TD) serão coletados 
para realizar esses testes computacionais métodos em cenários de diagnósticos 
clínicos reais no futuro. No lado técnico, continuaremos a explorar descritores de 
comportamento baseados em sinais adicionais, por exemplo, conteúdo lexical, pose 
de cabeça, gestos corporais, etc., para melhor capturar o espaço multidimensional de 
recursos de comportamento dos sujeitos e seus parceiros de interação. Por fim, cada 
um desses vários instrumentos clínicos é frequentemente projetado para medir uma 
habilidade interna específica (por exemplo, cognitiva, social ou comunicativa) de um 
sujeito com TEA, entender computacionalmente a relação entre eles, por exemplo,
530
535
540
Referências
[1] J. Baio, L. Wiggins, DL Christensen, MJ Maenner, J. Daniels, Z. Warren, M. Kurzius-Spencer,
W. Zahorodny, CR Rosenberg, T. White, et al., Prevalência do transtorno do espectro do autismo entre crianças 
de 8 anos Rede de monitoramento de autismo e deficiências de desenvolvimento, 11 sites, estados unidos, 
2010, Morbidity and Mortality Weekly Report: Surveillance Summaries 63 (2 ) (2014) 1–21.
[2] C. Lord, EH Cook, BL Leventhal, DG Amaral, Transtornos do espectro do autismo, Neuron 28 (2) (2000) 
355-363.
[3] K. Rice, JM Moriuchi, W. Jones, A. Klin, Analisando heterogeneidade em transtornos do espectro do autismo: 
varredura visual de cenas sociais dinâmicas em crianças em idade escolar, Jornal da Academia Americana de 
Psiquiatria Infantil e Adolescente 51 ) (2012) 238-248.
[4] TR Insel, Projeto de critérios de domínio de pesquisa nimh (rdoc): medicina de precisão para psiquiatria, 
American Journal of Psychiatry 171 (4) (2014) 395–397.
[5] L. Wing, J. Gould, deficiências graves de interação social e anormalidades associadas em crianças: 
Epidemiologia e classificação, Journal of autismo and developmental disorder 9 (1) (1979) 11-29.
[6] R. Landa, Desenvolvimento e intervenção precoce da comunicação para crianças com autismo, Developmental 
Disabilities Research Reviews 13 (1) (2007) 16–25.
[7] Organização GWH., A classificação CID-10 de transtornos mentais e comportamentais: descrições clínicas 
e diretrizes de diagnóstico, vol. 1, Organização Mundial da Saúde, 1992.
[8] AP Association, Manual Diagnóstico e Estatístico de Transtornos Mentais (DSM-5© R),Psiquiátrico Americano-
Atric Pub, 2013.
[9] C. Gillberg, C. Gillberg, M. Råstam, E. Wentz, A entrevista diagnóstica da síndrome de asperger (e autismo de alto 
funcionamento) (asdi): um estudo preliminar de uma nova entrevista clínica estruturada, Autismo 5 (1) (2001) 
57-66.
[10] C. Lord, S. Risi, L. Lambrecht, EH Cook, BL Leventhal, PC DiLavore, A. Pickles, M. Rutter, O programa de 
observação de diagnóstico de autismo genérico: uma medida padrão de déficits sociais e de comunicação 
associados ao espectro de autismo, Jornal de autismo e transtornos do desenvolvimento 30 (3) (2000) 
205-223.
[11] S. Ozonoff, I. Cook, H. Coon, G. Dawson, RM Joseph, A. Klin, WM McMahon, N. Minshew,
JA Munson, BF Pennington, et al., Performance on Cambridge Neuropsychological Test Automated 
Battery Subtests Sensitive to Front Lobe Function in People with Autistic Disorder: Evidence from the 
Collaboration Programs of Excellence in Autism Network, Journal of Autism and Developmental Disorders 
34 (2) (2004) 139-150.
[12] L. Bennetto, BF Pennington, SJ Rogers, Funções de memória intactas e prejudicadas no autismo, 
Desenvolvimento infantil 67 (4) (1996) 1816-1835.
545
550
555
560
565
570
575
20
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
[13] S. Ozonoff, J. Jensen, Breve relatório: Perfis de funções executivas específicas em três transtornos do 
neurodesenvolvimento, Jornal do autismo e transtornos do desenvolvimento 29 (2) (1999) 171-177.
[14] M. Prior, W. Hoffmann, Breverelatório: Testes neuropsicológicos de crianças autistas através de uma exploração 
com testes do lobo frontal, Jornal do autismo e distúrbios do desenvolvimento 20 (4) (1990) 581-590.
[15] JE Russell, Autism as a executive disorder., Oxford University Press, 1997.
[16] EL Hill, Disfunção executiva no autismo, Tendências em ciências cognitivas 8 (1) (2004) 26–32.
[17] TW Robbins, M. James, AM Owen, BJ Sahakian, L. McInnes, P. Rabbitt, bateria automatizada de testes 
neuropsicológicos de Cambridge (cantab): um estudo analítico de fatores de uma grande amostra de 
voluntários idosos normais, Demência e Geriatria Cognitiva Distúrbios 5 (5) (1994) 266-281.
[18] S. Ozonoff, M. South, JN Miller, síndrome de Asperger definida por Dsm-iv: Diferenciação cognitiva, comportamental e 
de história inicial do autismo de alto funcionamento, Autismo 4 (1) (2000) 29-46.
[19] SD Steele, NJ Minshew, B. Luna, JA Sweeney, Déficits de memória de trabalho espacial no autismo, Jornal do 
autismo e distúrbios do desenvolvimento 37 (4) (2007) 605-612.
[20] AP Association, Manual de diagnóstico e estatística de transtornos mentais (4ª ed., texto rev.), Washington, DC: 
Autor, 1994.
[21] L. Wing, síndrome de Asperger: um relato clínico, Medicina psicológica 11 (1) (1981) 115-129.
[22] M. Ghaziuddin, L. Gerstein, O estilo de fala pedante diferencia a síndrome de Asperger do autismo de alto 
funcionamento, Journal of Autism and Development Disorders 26 (6) (1996) 585–595.
[23] M. Ghaziuddin, Breve relatório: Deve o dsm v dropar a síndrome de Asperger?, Journal of Autism and 
Development Disorders 40 (9) (2010) 1146–1148.
[24] S. Narayanan, PG Georgiou, Processamento de sinal comportamental: Derivando a informática comportamental 
humana da fala e da linguagem, Proceedings of the IEEE 101 (5) (2013) 1203-1233.
[25] D. Bone, C.-C. Lee, T. Chaspari, J. Gibson, S. Narayanan, Processamento de sinais e aprendizado de máquina para 
pesquisa em saúde mental e aplicações clínicas [perspectivas], Revista IEEE Signal Processing 34 (5) (2017) 196–
195.
[26] C.-C. Lee, A. Katsamanis, MP Black, BR Baucom, A. Christensen, PG Georgiou, SS Narayanan, 
Computing vocal arrastainment: A signal-derived pca-based quantification scheme with application 
to effect analysis in interações do casal, Computer Speech & Language 28 (2) (2014) 518-539.
[27] M. Reblin, RE Heyman, L. Ellington, BR Baucom, PG Georgiou, ST Vadaparampil, Pesquisa diária de 
comunicação de casais: Superando barreiras metodológicas com tecnologia, Educação e 
aconselhamento do paciente 101 (3) (2018) 551–556.
[28] M. Nasir, B. Baucom, S. Narayanan, P. Georgiou, Rumo a uma distância de arrastamento não supervisionada na fala de 
conversação usando redes neurais profundas, pré-impressão arXiv arXiv:1804.08782.
[29] B. Xiao, PG Georgiou, ZE Imel, DC Atkins, S. Narayanan, Modelando a empatia do terapeuta e o arrastamento 
vocal no aconselhamento de dependência de drogas., em: INTERSPEECH, 2013, pp. 2861-2865.
[30] C.-P. Chen, X.-H. Tseng, SS-F. Gau, C.-C. Lee, Computing multimodal diádicos comportamentos durante 
entrevistas de diagnóstico espontâneo para categorização automática de transtorno do espectro do 
autismo, em: Proc. Interdiscurso 2017, 2017, pp. 2361–2365.doi:10.21437/Interspeech.2017-563. URL
http://dx.doi.org/10.21437/Interspeech.2017-563
[31] D. Bone, MP Black, C.-C. Lee, ME Williams, P. Levitt, S. Lee, S. Narayanan, características acústico-
prosódicas de fala espontânea de crianças com autismo e o psicólogo interagente, em: Décima terceira 
Conferência Anual da Associação Internacional de Comunicação de Fala, 2012.
[32] D. Bone, C.-C. Lee, MP Black, ME Williams, S. Lee, P. Levitt, S. Narayanan, O psicólogo como interlocutor na 
avaliação do transtorno do espectro do autismo: insights de um estudo de prosódia espontânea, Journal 
of Speech, Language, and Hearing Research 57 ( 4) (2014) 1162-1177.
[33] W. Liu, M. Li, L. Yi, Identificando crianças com transtorno do espectro do autismo com base em sua anormalidade de 
processamento de rosto: Uma estrutura de aprendizado de máquina, Pesquisa de autismo 9 (8) (2016) 888–898.
[34] T. Zhou, W. Cai, X. Chen, X. Zou, S. Zhang, M. Li, Sistema de diarização de alto-falante para dados de áudio da vida real 
de crianças com autismo, em: Processamento de linguagem falada chinesa (ISCSLP), 2016 10º Simpósio Internacional 
sobre, IEEE, 2016, pp. 1–5.
[35] C. Leclère, M. Avril, S. Viaux-Savelon, N. Bodeau, C. Achard, S. Missonnier, M. Keren, R. Feldman,
580
585
590
595
600
605
610
615
620
625
21
MA
NU
SC
RIT
O 
AC
EIT
O
MANUSCRITO ACEITO
M. Chetouani, D. Cohen, Interação e imagem comportamental: um novo método para medir a interação mãe-
bebê usando reconstrução de vídeo 3d, Translacional psiquiatria 6 (5) (2016) e816.
[36] B. Schuller, E. Marchi, S. Baron-Cohen, H. OReilly, P. Robinson, I. Davies, O. Golan, S. Friedenson,
S. Tal, S. Newman, et al., Asc-inclusion: Jogos interativos de emoção para inclusão social de crianças com 
condições do espectro do autismo, em: Anais do 1º Workshop Internacional sobre Jogos Digitais 
Inteligentes para Empoderamento e Inclusão (IDGEI 2013) realizado em conjunto com o 8th Foundations 
of Digital Games 2013 (FDG) (B. Schuller, L. Paletta e N. Sabouret, eds.), Chania, Grécia, 2013.
[37] F. Ringeval, J. Demouy, G. Szaszák, M. Chetouani, L. Robel, J. Xavier, D. Cohen, M. Plaza, Reconhecimento 
automático de entonação para a avaliação prosódica de crianças com deficiência de linguagem, IEEE 
Transactions sobre processamento de áudio, fala e linguagem 19 (5) (2011) 1328–1342.
[38] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F. Ringeval, M. Chetouani, F. Weninger,
F. Eyben, E. Marchi, et al., O desafio de paralinguística computacional interdiscurso 2013: sinais sociais, 
conflito, emoção, autismo, em: Proceedings INTERSPEECH 2013, 14th Annual Conference of the 
International Speech Communication Association, Lyon, França, 2013.
[39] H.-y. Lee, T.-y. Hu, H. Jing, Y.-F. Chang, Y. Tsao, Y.‑C. Kao, T.-L. Pao, Ensemble of machine learning e técnicas de 
modelo de segmento acústico para reconhecimento de emoções de fala e distúrbios do espectro do autismo., 
em: INTERSPEECH, 2013, pp. 215–219.
[40] SS-F. Gau, C.-Y. Shang, Funções executivas como endofenótipos em TDAH: evidências da bateria de testes 
neuropsicológicos de Cambridge (cantab), Journal of Child Psychology and Psychiatry 51 (7) (2010) 
838-849.
[41] Y.-L. Chien, S.‑F. Gau, C.-Y. Shang, Y.-N. Chiu, W.‑C. Tsai, Y.-Y. Wu, memória visual e deficiência de atenção 
sustentada em jovens com transtornos do espectro do autismo, Medicina psicológica 45 (11) (2015) 
2263-2273.
[42] C. Hughes, J. Russell, TW Robbins, Evidência para disfunção executiva no autismo, Neuropsicologia 32 (4) 
(1994) 477-492.
[43] H. Wang, C. Schmid, Reconhecimento de ação com trajetórias melhoradas, em: IEEE International Conference on 
Computer Vision, Sydney, Austrália, 2013.
URLhttp://hal.inria.fr/hal-00873267
[44] D. Roy, CK Mohan, KSR Murty, Reconhecimento de ação baseado na incorporação discriminativa de ações 
usando redes siamesas, em: 2018 25th IEEE International Conference on Image Processing (ICIP), IEEE, 
2018, pp. 3473–3477.
[45] L. Wang, Y. Qiao, X. Tang, Reconhecimento de ação com descritores convolucionais profundos agrupados em trajetória, 
em: Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 4305-4314.
[46] P. . Boersma, Praat, um sistema para fazer fonética por computador, Glot international 5:9/10 5.
[47] C. Busso, S. Lee, S. Narayanan, Análise de aspectos emocionalmente salientes da frequência fundamental para 
detecção de emoções, transações IEEE em áudio, fala e processamento de linguagem 17 (4) (2009) 582–596.
[48] J. Hillenbrand, RA Houde, correlatos acústicos da qualidade vocal soprosa: vozes disfônicas e fala 
contínua, Journal of Speech, Language, and Hearing Research 39 (2) (1996) 311–321.
[49] B. Halberstam, Parâmetros acústicos e perceptivos

Continue navegando