Desigualdades amostrais afetam a generalização da neuroimagem
LarLar > blog > Desigualdades amostrais afetam a generalização da neuroimagem

Desigualdades amostrais afetam a generalização da neuroimagem

Jun 13, 2024

BMC Medicine volume 21, número do artigo: 241 (2023) Citar este artigo

1372 Acessos

1 Citações

3 Altmétrico

Detalhes das métricas

O desenvolvimento de modelos de aprendizado de máquina para auxiliar no diagnóstico de transtornos mentais é reconhecido como um avanço significativo no campo da psiquiatria. No entanto, a prática clínica de tais modelos continua a ser um desafio, sendo a fraca generalização uma grande limitação.

Aqui, conduzimos uma avaliação de metapesquisa pré-registrada sobre modelos baseados em neuroimagem na literatura psiquiátrica, examinando quantitativamente questões de amostragem global e regional nas últimas décadas, a partir de uma visão que tem sido relativamente pouco explorada. Um total de 476 estudos (n = 118.137) foram incluídos na avaliação atual. Com base nessas descobertas, construímos um sistema abrangente de classificação de 5 estrelas para avaliar quantitativamente a qualidade dos modelos de aprendizado de máquina existentes para diagnósticos psiquiátricos.

Uma desigualdade de amostragem global nestes modelos foi revelada quantitativamente (coeficiente de Gini de amostragem (G) = 0,81, p < 0,01), variando entre diferentes países (regiões) (por exemplo, China, G = 0,47; EUA, G = 0,58; Alemanha , G = 0,78; Reino Unido, G = 0,87). Além disso, a gravidade desta desigualdade amostral foi significativamente prevista pelos níveis económicos nacionais (β = - 2,75, p < 0,001, R2adj = 0,40; r = - 0,84, IC 95%: - 0,41 a - 0,97), e era plausivelmente previsível para o desempenho do modelo, com maior desigualdade amostral para relatar maior precisão de classificação. Análises adicionais mostraram que a falta de testes independentes (84,24% dos modelos, IC 95%: 81,0–87,5%), validação cruzada inadequada (51,68% dos modelos, IC 95%: 47,2–56,2%) e pouca transparência técnica (87,8 % de modelos, IC 95%: 84,9–90,8%)/disponibilidade (80,88% dos modelos, IC 95%: 77,3–84,4%) prevalecem nos classificadores diagnósticos atuais, apesar das melhorias ao longo do tempo. Em relação a essas observações, constatou-se que o desempenho dos modelos diminuiu em estudos com validações independentes de amostragem entre países (todos p < 0,001, BF10 > 15). À luz disto, propusemos uma lista de verificação de avaliação quantitativa específica, que demonstrou que as classificações globais destes modelos aumentaram por ano de publicação, mas foram negativamente associadas ao desempenho do modelo.

Juntos, melhorar a igualdade econômica da amostragem e, portanto, a qualidade dos modelos de aprendizado de máquina pode ser uma faceta crucial para traduzir de forma plausível os classificadores de diagnóstico baseados em neuroimagem na prática clínica.

Relatórios de revisão por pares

Modelos de aprendizado de máquina (ML) têm sido amplamente utilizados para classificar pacientes com doenças mentais para auxiliar na tomada de decisões clínicas [1, 2]. Ao construir modelos de aprendizado de máquina treinados a partir de recursos baseados em neuroimagem, a decisão diagnóstica poderia ser mais precisa e confiável com a ajuda desses biomarcadores objetivos e de alta dimensão [3, 4]. Além disso, dada a natureza multivariada das características cerebrais, as técnicas de aprendizado de máquina poderiam capturar todo o padrão neural em voxels dependentes de alto volume para revelar assinaturas fisiopatológicas desses distúrbios, enquanto a previsão individualizada de modelos de aprendizado de máquina nos modelos de ML baseados em neuroimagem também facilita. atender às necessidades crescentes da psiquiatria de precisão [5, 6]. Apesar dos esforços consideráveis ​​dedicados a este fim, a tradução da classificação de aprendizagem automática para diagnóstico e recomendação de tratamento na prática clínica continua a ser um desafio [7]. Isto se deve em parte à fraca generalização desses classificadores baseados em neuroimagem, que muitas vezes são otimizados dentro de uma amostra específica para incorrer em falha de generalização para diagnosticar pacientes não vistos em novas amostras [8,9,10]. Embora esses classificadores possam ser treinados para alcançar uma precisão desejável em uma coorte específica, eles não são representativos de uma população mais geral em centros médicos, regiões geográficas, status socioeconômicos e grupos étnicos [11, 12]. Além disso, as preocupações persistentes sobre a generalização implicam potenciais vieses de amostragem, apesar do tamanho substancialmente aumentado dos dados nas últimas décadas [13].

 3 for strong evidence. To examine the non-linear associations of these variables of interest, we have built the generalized additive model (GAM) with natural shape-free spline functions by R package (“mgcv”). To obviate overfitting, the shape-free splines (i.e., smooth function) were used in these models. Finally, metrics of model performance (i.e., classification accuracy) for each study were precision-weighted rather than the original ones as reported./p>