O recente gerador de imagens a partir de texto Sora da OpenAI exibiu capacidades impressionantes, mas um novo artigo de pesquisa da Meta chamado V-JEPA (Video Joint Embedding Predictive Architecture) poderia provar ainda mais monumental a longo prazo no caminho em direção à inteligência artificial geral (AGI). Aqui está o link para o artigo.
Em vez de focar exclusivamente em expandir modelos, o Cientista Chefe de IA da Meta, Yann LeCun, acredita que uma abordagem totalmente nova é necessária, que imite como bebês humanos podem aprender muito mais rápido simplesmente observando o mundo físico. Depois que um bebê viu um ou dois gatos, ele pode reconhecer praticamente qualquer gato e entender seu comportamento típico. Os algoritmos de IA atuais exigem quantidades massivas de dados e poder computacional para realizar a mesma coisa.
Depois que um bebê viu um ou dois gatos, ele pode reconhecer praticamente qualquer gato e entender seu comportamento típico.
O problema pode ser que os algoritmos atuais são excessivamente detalhistas, dissecando o mundo pixel por pixel, em vez de de forma holística como os humanos. Ao nadar no oceano, nós não contabilizamos meticulosamente as gotas d'água para prever ondas iminentes.
O método V-JEPA aborda isso, de certa forma, pedindo menos do algoritmo. Em vez de buscar padrões em todos os pixels de um vídeo, seções principais são removidas e o software deve adivinhar amplamente o que está faltando. Por exemplo, se um avião fosse apagado de uma cena do céu, um humano simplesmente diria “o avião”, não enumeraria todos os elementos de fundo presentes.
Por exemplo, se um avião fosse apagado de uma cena do céu, um humano simplesmente diria “o avião”, não enumeraria todos os elementos de fundo presentes.
À medida que o AI aprende a prever o conteúdo de espaços ausentes, ele desenvolve uma compreensão geral do mundo de acordo com o documento, o que LeCun denomina de "modelo de mundo", em vez de um preciso ao nível de pixel. A próxima fase incorporará áudio, o que, se eficaz de acordo com a hipótese de LeCun, poderia ser o primeiro passo para que os computadores alcancem uma compreensão robusta mais rápido e com menos dados do que se pensava possível anteriormente.