Uma ideia da física está ajudando a inteligência artificial a ver em mais dimensões

Por , em 13.01.2020


Pesquisadores da Universidade de Amsterdã (Holanda) desenvolveram uma nova estrutura teórica para a construção de redes neurais que podem aprender padrões em qualquer tipo de superfície geométrica.  

As novas redes neurais convolucionais podem detectar padrões não apenas em matrizes 2D, mas também em esferas e objetos curvados assimetricamente.  

“Essa estrutura é uma resposta bastante definitiva para o problema de aprendizado profundo em superfícies curvas”, disse um dos autores do estudo, Max Welling, à Quanta Magazine. Welling trabalhou ao lado de Taco Cohen, Maurice Weiler e Berkay Kicanaoglu. 

Que problema é esse? 

Redes neurais convolucionais – cujo design é inspirado nas camadas de neurônios do córtex visual, uma parte complexa do cérebro – são tecnologias utilizadas pela inteligência artificial (IA) para fazer de tudo, como escrever prosa ou vencer qualquer ser humano em jogos como xadrez e Go.   

Essa tecnologia é muito bem adaptada a padrões de aprendizado em dados bidimensionais, especialmente tarefas de visão computacional, como reconhecer palavras e objetos em imagens digitais. 

Infelizmente, no entanto, não funciona tão bem quando é aplicada a dados menos “planos”, como formas irregulares usadas em animação 3D ou pontos gerados por carros autônomos para mapear seus arredores. 

Para “aumentar” as dimensões da IA, então, pesquisadores passaram a se dedicar a uma nova disciplina chamada de “aprendizado profundo geométrico” a partir de 2016. 

A equivariância de medida 

A nova pesquisa buscou a solução para o aprendizado profundo geométrico na física.  

Diversas teorias físicas que descrevem o mundo, como a teoria geral da relatividade de Einstein, possuem uma propriedade chamada “equivariância de medida”. Isso significa que as quantidades e seus relacionamentos não dependem de quadros de referência arbitrários, e sim permanecem consistentes quer um observador esteja se movendo ou parado. Além disso, medidas feitas em diferentes medidores devem ser conversíveis entre si de maneira a preservar os relacionamentos subjacentes entre as coisas do mundo.  

Por exemplo, um campo de futebol possui o mesmo tamanho, ainda que o número das medidas seja diferente em jardas ou metros. Da mesma maneira, um objeto fotografado por dois ângulos diferentes produzirá duas imagens diferentes, porém relacionadas entre si. 

Esse tipo de “equivariância” permite que os físicos criem modelos consistentes da realidade, independentemente de perspectivas ou unidades de medição.  

A nova tecnologia criada pelos pesquisadores – nomeada de “gauge-equivariant convolutional neural networks” ou, em tradução livre, “redes neurais convolucionais equivariantes em medida” – utiliza a mesma suposição para conjuntos de dados. 

Convolução  

Para projetar redes neurais que pudessem aprender padrões em dados não planos, os pesquisadores precisaram reinventar um dos procedimentos computacionais básicos das redes neurais: a “convolução”. 

A convolução permite que uma camada da rede neural realize uma operação matemática em uma amostra de dados e depois passe os resultados para a próxima camada. O problema é que essa abordagem só funciona em superfícies planas. 

Sem querer, contudo, Taco Cohen e seus colegas em Amsterdam descobriram como contornar essa questão ao trabalhar nela a partir de outra perspectiva.  

Os pesquisadores estavam buscando uma maneira de aumentar a eficiência dos dados de uma rede neural equipando-a com certas “suposições” – por exemplo, que um tumor de pulmão ainda é um tumor de pulmão, mesmo que esteja rotacionado ou refletido dentro uma imagem.  

O que normalmente acontece é que uma rede convolucional precisa aprender essas informações a partir de muitos exemplos do mesmo padrão em orientações diferentes (por exemplo, milhares de imagens de tumor de pulmão em várias orientações), o que é superdemorado.  

Em 2016, Cohen e Welling conseguiram codificar algumas dessas suposições em uma rede neural como simetrias geométricas. A abordagem funcionou tão bem que os cientistas continuaram trabalhando em sua generalização, finalmente encontrando o caminho para a equivariância de medidas em redes neurais. 

Diferente, mas previsível 

Equivariância (ou covariância) é uma suposição que significa que a física descrita deve ser independente do tipo de “regra” que você usa, ou mais geralmente do tipo de “observador” que você é. 

As redes convolucionais usam um exemplo simples desse princípio, chamado “equivariância de tradução”. Um filtro que detecta um determinado recurso em uma imagem – como bordas verticais – se “traduzirá” sobre o plano de pixels e codificará os locais de todas as bordas verticais, por exemplo. 

Em 2018, Weiler, Cohen e Welling conseguiram estender essa “equivariância” para outras medidas, por exemplo, para a detecção de feições rotacionadas ou refletidas em imagens planas sem ter que treinar exemplos específicos nessas orientações.   

Essa abordagem, entretanto, ainda não era geral o suficiente para manipular dados com estruturas irregulares, ou seja, quase tudo no mundo, de batatas a proteínas a curvatura do espaço-tempo.  

A chave para o avanço da equipe foi “esquecer” como a orientação de uma medida muda conforme ela se move ao longo de diferentes caminhos. Em outras palavras, a rede pode escolher apenas uma orientação (ou medida) e definir uma maneira consistente de converter todas as outras orientações nela. 

Embora qualquer medida arbitrária possa ser utilizada em uma orientação inicial, a conversão para outros sistemas deve preservar o padrão subjacente, da mesma forma que converter a velocidade da luz de metros por segundo a milhas por hora deve preservar a quantidade física subjacente, por exemplo. Assim, enquanto os números mudam, eles mudam de uma “maneira completamente previsível”, explica Welling. 

Sucesso 

O trio conseguiu codificar com sucesso a equivariância de medidas em uma rede neural convolucional pela primeira vez em 2019.  

“Basicamente, você pode fornecer qualquer superfície – de planos euclidianos a objetos curvados arbitrariamente, incluindo superfícies exóticas como o espaço-tempo quadridimensional – e [a rede] funciona para aprender profundamente nessa superfície”, afirmou Welling. 

Aplicações 

Em teoria, a tecnologia funciona em qualquer superfície de qualquer dimensionalidade. Para testá-la, porém, os pesquisadores escolheram dados climáticos globais, que necessariamente têm uma estrutura esférica 3D subjacente.  

Eles utilizaram a rede neural para detectar padrões climáticos extremos, como ciclones tropicais, a partir de dados de simulação climática. Lá atrás, em 2017, pesquisadores utilizaram uma rede convolucional convencional para detectar ciclones com 74% de precisão. Com a nova rede, foi possível detectar ciclones com 97,9% de precisão.  

As aplicações possíveis são inúmeras, porém. Uma startup fundada por Cohen e Welling foi adquirida recentemente pela Qualcomm, uma fabricante de chips, que planeja aplicar a teoria desenvolvida em aplicativos aprimorados de visão computacional, como um drone que “enxerga” 360 graus ao mesmo tempo. [QuantaMagazine]

Deixe seu comentário!