A gente já viu técnicas para melhorar o machine learning reproduzindo nossos mecanismos intuitivos, mas parece que a tendência é o contrário. Otimizando algoritmos de aprendizado por recompensa, DeepMind, uma empresa de inteligência artificial que foi adquirida pela Google em 2014, esclareceu alguns novos detalhes sobre como a dopamina auxilia nosso próprio cérebro a aprender.
Aprendizado por recompensa:
O aprendizado por recompensa ensina um agente a realizar
novas tarefas apenas por meio de feedback positivo ou negativo. A gente sabe
que as recompensas do nosso cérebro funcionam mais ou menos do mesmo jeito:
liberando dopamina quando recebemos uma recompensa melhor do que a esperada e
suprimindo a produção desse químico quando as expectativas não são atendidas.
DeepMind tem um algoritmo de aprendizado por recompensa que
prevê retornos positivos mais como uma distribuição do que como um número
singular. Pense por um momento em uma máquina caça-níqueis: você pode ganhar ou
perder após alguma distribuição. Mas em nenhum caso você receberia o resultado
médio esperado. Agora, experimentos com ratos mostraram que a maneira como os
neurônios da dopamina pode funcionar da mesma maneira: alguns superestimam a
recompensa e outros subestimam.
DeepMind e o cérebro "biscoiteiro":
O estudo tem implicações tanto para a inteligência artificial (IA), quanto para neurociência. Primeiramente, valida o aprendizado por reforço distributivo como um caminho promissor para recursos de IA mais avançados. Segundo, poderia oferecer uma atualização importante para uma das teorias canônicas da neurociência sobre os sistemas de recompensa no nosso cérebro, o que por sua vez poderia melhorar nossa compreensão de tudo, desde a motivação até a saúde mental.
Agora se isso poderá validar a direção atual de pesquisas em
inteligência artificial para a construção de uma inteligência geral mais
similar à humana, a gente ainda fica um pouco menos crédulo, na medida em que
ainda há muito esforço para entender nosso processo cognitivo e a aspiração de
reproduzi-lo pode não ser tão próxima.
Fonte: Nature.