Robôs que coexistem conosco no ambiente e desempenham funções para facilitar nossas vidas precisam de certas capacidades de interação. Um requisito é entender relações espaciais que permitam, por exemplo, posicionar objetos adequadamente e seguir nossos comandos. Aqui a gente explica um trabalho que apresentou uma rede neural convolucional para estimar probabilidades de posicionamento de objetos em pixels para um conjunto de situações no espaço a partir de uma única imagem de entrada. O diferencial? O método não requer dados de verdade para as probabilidades relacionais. O robô “imagina” os objetos.
O trabalho foi desenvolvido por pesquisadores da Universidade de Freiburg, na Alemanha, e divulgado no ArXiv, uma plataforma bastante comum onde cientistas disponibilizam seus resultados depois da aprovação em algum evento. Nesse caso específico, a novidade será apresentada no IEEE International Conference on Robotics and Automation (ICRA), em Paris, em junho. A gente já comentou aqui sobre a importância de eventos da área.
Instruções sem manual para o robôs
O treinamento de robôs para entender as relações espaciais e mover objetos pode ser muito difícil, pois as instruções do usuário não costumam delinear um local específico em uma cena maior observada pelo robô. Em outras palavras, se um usuário humano disser “coloque a caneca à esquerda do relógio”, o robô não recebe maiores detalhes. Por exemplo: a que distância do relógio o robô deve colocar a caneca e onde fica o limite exato entre diferentes direções (por exemplo, direita, esquerda, frente, atrás, etc.)? Fora nossos típicos brancos de comunicação, como “pega aquele trem ali no coiso”.
Devido a essa ambiguidade inerente das instruções, também não há uma base de dados perfeitamente correta que possa ser aplicada para modelarmos relações espaciais. E foi nesse aspecto que a equipe de pesquisadores resolveu inovar: a principal ideia desenvolvida foi que quando há dados dois objetos e uma imagem representando o contexto em que são encontrados, é mais fácil determinar a relação espacial entre eles.
Embora a identificação de uma relação espacial entre dois objetos não especifique onde os objetos devem ser colocados para reproduzir essa relação, a inserção de outros objetos na cena pode permitir ao robô inferir uma distribuição por várias relações espaciais. A adição desses objetos inexistentes (ou seja, “alucinados”, como diz o trabalho) ao que o robô está vendo deve permitir avaliar como a cena ficaria se realizasse uma determinada ação.
Antes de treinar uma rede neural convolucional para aprender relações espaciais baseadas em objetos imaginados, os pesquisadores precisavam garantir que ela fosse capaz de classificar as relações entre pares individuais de objetos com base em uma única imagem. Posteriormente, eles “enganaram” sua rede, apelidada de RelNet, para classificar cenas “alucinadas”, implantando recursos de alto nível de itens em diferentes locais espaciais.
PUBLICIDADE
CONTINUE LENDO ABAIXO
Resultados e perspectivas do “delírio” robótico
Os pesquisadores avaliaram seu método em uma série de experimentos envolvendo robôs e usuários humanos reais. Os resultados desses testes foram altamente promissores, pois seu método permitiu que os robôs identificassem efetivamente as melhores estratégias para colocar objetos em uma mesa, de acordo com as relações espaciais descritas pelas instruções de voz de um usuário humano.
“Nossa abordagem permite que um robô siga as instruções de colocação em linguagem natural fornecidas por usuários humanos com coleta de dados ou heurísticas mínimas”, disse Mees, um dos autores do trabalho. “Todo mundo gostaria de ter um robô de serviço em casa que possa executar tarefas, entendendo as instruções em linguagem natural. Este é o primeiro passo para permitir que um robô entenda melhor o significado das preposições espaciais comumente usadas”. A verdade é que ninguém gosta de ser mal interpretado, mesmo que por robôs.
Fonte: ArXiv. TechXplore.
Comentários
Kamila Jessie
Doutora em Hidráulica e Saneamento pela Universidade de São Paulo (EESC/USP) e Mestre em Ciências pela mesma instituição; é formada em Engenharia Ambiental e Sanitária pelo Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) com período sanduíche na University of Ottawa, no Canadá; possui experiência em tratamentos físico-químicos de água e efluentes; atualmente, integra o Centro de Pesquisa em Óptica e Fotônica (CePOF) do Instituto de Física de São Carlos (USP), onde realiza estágio pós-doutoral no Biophotonics Lab.