Apple Rouba Dados do YouTube para Treinar IA

Tecnologia
Typography
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times
AplicLoja Windows 11 Pro

Nos últimos anos, os chatbots e outras aplicações de inteligência artificial (IA) têm evoluído de forma impressionante, demonstrando capacidades notáveis em manter conversas fluidas, responder a perguntas e analisar dados. No entanto, para alcançar este nível de sofisticação, as empresas de IA necessitam de treinar os seus modelos

de linguagem com vastas quantidades de dados.

Este processo de treinamento é, atualmente, um tema controverso, especialmente devido à falta de transparência sobre a origem desses dados.


A Origem dos Dados de Treinamento
Recentemente, uma investigação da Proof News revelou que empresas como Apple, Anthropic, Nvidia e Salesforce utilizaram dados do YouTube para treinar os seus modelos de IA. Esta descoberta levanta questões importantes sobre a ética e a legalidade do uso de tais dados.


Subtítulos do YouTube como Fonte de Dados
De acordo com o relatório, uma organização sem fins lucrativos chamada EleutherAI recolheu os subtítulos de 173.536 vídeos do YouTube, provenientes de mais de 48.000 canais. Estes dados, que consistem em texto sem formatação e, muitas vezes, incluem traduções para diferentes idiomas, foram utilizados para criar um conjunto de dados denominado “YouTube Subtitles”.

Este conjunto de dados inclui material de criadores de conteúdo populares como MrBeast e Marques Brownlee, bem como de canais educativos como Khan Academy, MIT e Harvard. Os subtítulos do YouTube fazem parte de um conjunto de dados maior chamado “Pile”, que é composto por 22 conjuntos de dados, incluindo material do Parlamento Europeu e da Wikipedia em inglês.

A Utilização dos Dados
O Pile está disponível ao público, permitindo que académicos e empresas utilizem estes dados para os seus projetos de IA. As empresas mencionadas anteriormente não obtiveram os dados diretamente do YouTube, mas sim através do trabalho realizado pela EleutherAI.

Os Termos de Serviço do YouTube
Este cenário levanta questões sobre o papel dos termos de serviço do YouTube. No início do segundo trimestre do ano, o CEO do YouTube, Neal Mohan, esclareceu que, embora certos conteúdos do YouTube, como títulos de vídeos e nomes de canais, possam ser raspados para aparecer nos motores de busca, as regras atuais não permitem a descarga de vídeos ou das suas transcrições.

As transcrições, que são a matéria-prima dos subtítulos, contêm o texto do que é dito nos vídeos. Mohan afirmou que a descarga de transcrições ou fragmentos de vídeos constitui uma “clara infração” dos termos de serviço da plataforma.

A Questão da Responsabilidade
A questão central aqui é: quem é responsável pela infração, se é que existe uma? Embora o relatório indique que Apple, Anthropic, Nvidia e Salesforce utilizaram subtítulos do YouTube para treinar os seus modelos, estas empresas não foram as responsáveis pela raspagem dos dados. Essa tarefa foi realizada pela EleutherAI. Portanto, a responsabilidade pela possível infração dos termos de serviço do YouTube recai sobre quem?

 

 

 

 

Fonte:da Redação e da maistecnologia
Reeditado para:Noticias do Stop 2024
Outras fontes • AFP, AP, TASS, EBS
Material Informático - www.aplicloja.com
Receba diariamente no Grupo STOPMZNWS poderá ler QRCOD
Link do Grupo WhatsApp - https://chat.whatsapp.com/JUiYE4NxtOz6QUmPDBcBCF
Qual Duvida pode enviar +258 827606348 ou E-mail:Este endereço de email está sendo protegido de spambots. Você precisa do JavaScript ativado para vê-lo.
Em criação o Aplicativo o APP que ira ver notícias diariamente em seu celular Fotografias:Getty Images/Reuters/EFE/AFP

AplicLoja Microsoft Office 2022 Pro Plus