Início Tecnologia MLCommons e Hugging Face se une para lançar um conjunto de dados...

MLCommons e Hugging Face se une para lançar um conjunto de dados de fala enorme para pesquisa de IA

22
0

A MLCommons, um grupo de trabalho de segurança da IA ​​sem fins lucrativos, se uniu à plataforma de AI, abraçando o rosto para lançar uma das maiores coleções do mundo de gravações de voz de domínio público para pesquisa de IA.

O conjunto de dados, chamado discurso de pessoas não supervisionado, contém mais de um milhão de horas de áudio que abrange pelo menos 89 idiomas. A MLCommons diz que foi motivada para criá -lo por um desejo de apoiar a P&D em “várias áreas da tecnologia da fala”.

“Apoiar pesquisas mais amplas de processamento de idiomas naturais para outros idiomas que não o inglês ajudam a levar as tecnologias de comunicação a mais pessoas em todo o mundo”, escreveu a organização em um post no blog na quinta -feira. “Prevemos várias avenidas para a comunidade de pesquisa continuar construindo e desenvolvida, especialmente nas áreas de melhorar os modelos de fala de linguagem de baixo recurso, um aprimoramento de reconhecimento de fala em diferentes sotaques e dialetos e novas aplicações na síntese de fala”.

É um objetivo admirável, com certeza. Mas conjuntos de dados de IA, como o discurso das pessoas não supervisionadas, podem transportar riscos para os pesquisadores que optam por usá -los.

Dados tendenciosos são um desses riscos. As gravações no discurso de pessoas não supervisionadas vieram do Archive.org, a organização sem fins lucrativos talvez mais conhecida pela ferramenta de arquivamento da web da Wayback Machine. Porque muitos dos colaboradores do Archive.org são de língua inglesa-e americanos-quase todas as gravações do discurso de pessoas não supervisionadas estão em inglês com compensação americana, de acordo com o ReadMe na página oficial do projeto.

Isso significa que, sem filtragem cuidadosa, sistemas de IA como reconhecimento de fala e modelos de sintetizador de voz treinados no discurso de pessoas não supervisionadas podem exibir alguns dos mesmos preconceitos. Eles podem, por exemplo, lutar para transcrever o inglês falado por um falante não nativo, ou ter problemas para gerar vozes sintéticas em outros idiomas que não o inglês.

O discurso das pessoas não supervisionado também pode conter gravações de pessoas sem saber que suas vozes estão sendo usadas para fins de pesquisa de IA – incluindo aplicações comerciais. Embora a MLCommons diga que todas as gravações no conjunto de dados são de domínio público ou estão disponíveis sob licenças do Creative Commons, foram cometidos os erros de possibilidade.

De acordo com uma análise do MIT, centenas de conjuntos de dados de treinamento de IA disponíveis publicamente carecem de informações de licenciamento e contêm erros. Os defensores do criador, incluindo Ed Newton-Rex, o CEO da organização sem fins lucrativos focados na ética da IA, fez o caso de que os criadores não deveriam ser obrigados a “optar por não participar” dos conjuntos de dados de IA por causa da oneroso fardo que optar por impõe a esses criadores.

“Muitos criadores (por exemplo, usuários do Squarespace) não têm maneira significativa de optar por não participar”, escreveu Newton-Rex em um post em x em junho passado. “Para criadores que pode Opte, existem vários métodos de opção sobrepostos, que são (1) incrivelmente confusos e (2) lamentavelmente incompletos em sua cobertura. Mesmo que existisse uma opção universal perfeita, seria extremamente injusto colocar o ônus de exclusão sobre os criadores, já que a IA generativa usa seu trabalho para competir com eles-muitos simplesmente não perceberiam que poderiam optar por não participar. ”

A MLCommons diz que está comprometido em atualizar, manter e melhorar a qualidade do discurso das pessoas não supervisionadas. Mas, dadas as falhas em potencial, seria necessário desenvolver os desenvolvedores para exercer grave cautela.

Fonte