Estamos em 2023 e, desculpe, a Siri ainda não conseguiu entender isso. Apesar do tsunami de avanços que os sistemas de inteligência artificial generativa tiveram nos últimos meses, os assistentes sintéticos em nossos dispositivos móveis ainda são quase tão surdos quanto em 2011. No entanto, um novo conjunto de dados desenvolvido pela Meta AI promete melhorar o desempenho de ferramentas de reconhecimento automático de fala (ASR) através do agrupamento de fala no “nível de enunciação”.
A Meta tem buscado há muito tempo melhorar o desempenho de seus ASRs, ensinando-os a treinar sem a ajuda de transcrições, reconhecendo mais de 4.000 línguas faladas e até mesmo lendo lábios com maior proficiência do que especialistas humanos. No entanto, muitos dos conjuntos de dados utilizados para treinar modelos ASR são organizados por grupo demográfico – faixa etária, gênero, nacionalidade, sotaque em inglês – o que limita a variação de pronúncias que os modelos são treinados e, em última análise, prejudica sua função em compreender uma ampla seção transversal de usuários.
Para contornar esse problema, a Meta AI desenvolveu um conjunto de dados que depende de um método de agrupamento de enunciação. “Em vez de dividir um conjunto de dados com base nas informações demográficas dos falantes … nosso algoritmo proposto agrupa a fala no nível da enunciação”, explicou a equipe da Meta AI em postagem de blog na quarta-feira. “Um único grupo conterá enunciações semelhantes de um grupo diverso de falantes. Podemos então treinar nosso modelo usando os vários grupos e usar conjuntos de dados de justiça para medir como o modelo afeta os resultados em diferentes grupos demográficos.”
O conjunto de dados resultante da Meta inclui um pouco mais de 27.000 enunciações de comando coletadas de 595 voluntários pagos dos EUA. Suas enunciações giram em torno de sete temas principais – música, captura, utilidades, controle de notificações, mensagens, chamadas e ditado – que outros pesquisadores podem então usar para treinar seus próprios modelos e assistentes digitais. As solicitações incluíam perguntar aos falantes como eles fariam uma busca por voz por uma música ou fazer planos com amigos e decidir onde se encontrar.
Para avaliar esse novo sistema, a Meta primeiro treinou um modelo em vídeos em inglês disponíveis publicamente no Facebook. Os pesquisadores então avaliaram esse modelo usando outros dois conjuntos de dados: Conversas Casuais v1, que a Meta lançou em 2021, e um “conjunto de dados desidentificado coletado de um fornecedor de dados para ASR”, que inclui 48.000 enunciações faladas de 867 indivíduos.
Os resultados iniciais foram promissores, com melhorias no desempenho do modelo “em todos os grupos demográficos em nossos conjuntos de avaliação, embora de longe os maiores ganhos sejam em relação a mais inclusão de sotaques”, de acordo com o blog. No geral, o desempenho do ASR aumentou em 10% usando o método de agrupamento, com grandes ganhos provenientes da faixa etária de 66 a 85 anos, uma demografia tradicionalmente sub-representada no espaço de comando de voz.
“Nosso algoritmo proposto faz parte do foco de longo prazo da Meta na IA responsável e é apenas uma parte de nossa abordagem holística para lidar com questões de justiça”, escreveram os pesquisadores. Olhando para o futuro, a equipe está explorando a adaptação do sistema para outros idiomas.
Para inserir esse texto em uma página do
#tecnologia #primeirapágina #projeto #notícias #tecnologia #espaço #Ciência #nós-mundo