Tecnologia 15/06/2026

Desvenda a Nova Revolução na Interação 3D: $mu_0$ - O Modelo de Mundo de Traces Scalável

Descubra como a inovação em tecnologia está revolucionando a forma como interagimos com o mundo ao nosso redor!

Novos Desafios na Inteligência Artificial

A evolução da inteligência artificial (IA) tem sido impressionante nos últimos anos, com avanços em diversas áreas, como visão computacional, aprendizado de máquina e processamento de linguagem natural. No entanto, ainda há um desafio grande a ser superado: a criação de modelos de mundo que possam capturar como as ações causam mudanças físicas.

O Modelo de Mundo $mu_0$

$mu_0$ é um modelo de mundo escalável baseado em rastro 3D que revoluciona a forma como interagimos com o mundo ao nosso redor. Em vez de prever pixels densos ou modelar ações diretamente, $mu_0$ faz o prognóstico de trajetórias 3D suaves para pontos de interação salientes, como objetos, ferramentas, mãos e regiões de contato, resultando em uma interface de movimento compacta e agnóstica em relação à corpo.

O Sistema TraceExtract

Para permitir o treinamento de $mu_0$ a partir de fontes de vídeo variadas, o sistema TraceExtract extrai supervisionamento 3D automaticamente, selecionando keypoints, construindo rastos globalmente alinhados e associando segmentos de movimento com legendas hierárquicas. Esse supervisionamento TraceExtract pré-treina $mu_0$ combinando um backbone de visão-linguagem treinado com antecedentes com um especialista de rastro modulável, que representa cada consulta via pontos de controle de B-espiga e prevê futuros rastos.

Resultados e Impacto

Experimentos mostram que $mu_0$ supera os baselinas em previsão de traços em 2D e 3D, incluindo modelos de previsão de traços e métodos de tokenização de VLM. Como $mu_0$ está congelado e reutilizável, pode ser combinado com especialistas de ação para embodiments de robôs downstream. Embora o pré-treinamento sem ação resulte em políticas condicionadas por traços com desempenho competitivo com modelos de VLA pré-treinados com supervisão de ação, como $pi_0$, esses resultados estabelecem rastros 3D como representação escalável e transferível para manipulação trans-embodiment.>