Aconteceu: máquina já é mais inteligente que o ser humano

Por Gabriela Mateos, em 19.10.2015

O big-data, ou análise de dados em massa, consiste na busca de padrões que têm algum tipo de poder de previsão. Mas escolher exatamente quais “características” dos dados devem ser analisadas, geralmente, requer alguma intuição humana.

Em um banco de dados contendo, por exemplo, as datas de início e fim de várias promoções de vendas e lucros semanais, os dados cruciais podem não ser os próprios dados em si, mas os vãos entre eles, ou as médias em todos esses vãos. A coisa é realmente muito complexa.

Mas tudo isso acaba de ser facilitado

Pesquisadores do MIT que têm como objetivo levar o elemento humano para este contexto de análise de big-data, desenvolveram um novo sistema que não só procura por padrões, mas também projeta o conjunto de recursos também. Para testar o primeiro protótipo de seu sistema, eles se matricularam em três competições científicas de dados, em que competiram contra equipes humanas para encontrar padrões preditivos em conjuntos de dados desconhecidos.
Das 906 equipes participantes nas três competições, a “Máquina” dos pesquisadores terminou à frente de 615. Parece bom, não?

Em duas das três competições, as previsões feitas pela máquina do MIT foram de 94 por cento e 96 por cento tão precisos quanto as apresentações vencedoras. Na terceira, o valor de precisão chegou a um modesto 87 por cento.

Mas tem um detalhe fundamental aí. Geralmente, onde as equipes de seres humanos tipicamente trabalham sobre os seus algoritmos de previsão por meses, a tal Máquina levou algo em torno de entre duas a 12 horas para produzir cada uma de suas entradas.

Isso significa que os humanos serão inúteis daqui para frente?

Calma. Ainda não. Para Max Kanter, cuja tese de mestrado em ciência da computação é a base para o desenvolvimento desta máquina incrível, a nova tecnologia pretende ser um complemento natural para a inteligência humana. Há muitos dados ainda para serem analisados e nós não devemos tirar conclusões precipitadas.

Uma revolução para o big data

Kanter e seu orientador de tese, Kalyan Veeramachaneni, cientista pesquisador do MIT em Ciência da Computação e no Laboratório de Inteligência Artificial (CSAIL), descreve a nova máquina de ciência de dados em um documento que Kanter vai apresentar na próxima semana, na Conferência Internacional sobre Ciência de Dados e Análise Avançada.

Veeramachaneni co-lidera um projeto de aprendizagem para todos grupo em CSAIL, que aplica técnicas de aprendizado de máquina para problemas práticos de análise de dados em massa, como a determinação da capacidade de geração de energia de sítios eólicos ou prever quais dos estudantes estão em maior risco de desistir de seus respectivos cursos. O que, para Veeramachaneni, significa um grande passo para a disciplina de engenharia de recurso.

Passo a passo

De acordo com o orientador, o que podemos observar a partir desta experiência é que a primeira coisa que devemos fazer é identificar as variáveis de um determinado banco de dados. Isso irá provocar uma série de raciocínios que já dão grandes passos para o desenvolvimento da tecnologia.

Na previsão de resolução, por exemplo, dois indicadores cruciais mostraram quanto tempo antes de um prazo chegar ao fim um estudante tem que começar a trabalhar em um conjunto de problemas e quanto tempo este estudante gasta para resolver o mesmo conjunto de problemas em relação aos seus colegas de classe. A plataforma de ensino a distância do MIT não registra nenhuma dessas estatísticas, mas coletar dados a partir do qual elas poderiam ser extraídas.

Composição

Kanter e Veeramachaneni usam alguns truques para fabricar características de candidatos para análises de dados. Uma delas é explorar as relações estruturais inerentes no projeto do banco de dados.

Bancos de dados normalmente armazenam diferentes tipos de dados em tabelas diferentes, indicando as correlações entre eles usando identificadores numéricos. A Máquina criada pelos gênios do MIT justamente rastreia essas correlações, usando-as como uma sugestão para caracterizar a construção.

Hã?

Por exemplo, uma tabela pode listar os itens de varejo e outra seus custos; outra pode listar os itens incluídos nas compras individuais de cada cliente. Como a tal máquina iria começar a trabalhar?

Bom, o primeiro passo dela é começar importando os custos da primeira tabela para o segundo.

Em seguida, fazer sugestões de associações entre vários itens diferentes na segunda tabela com o mesmo número de compra. Isso seria algo como executar um conjunto de operações para gerar recursos candidatos. Por exemplo: o custo total, o custo médio, o custo mínimo por encomenda, e assim por diante.

Como identificadores numéricos proliferam através de tabelas, a máquina apresenta as operações de camadas automáticas em cima de todos os dados disponíveis, encontrando mínimos das médias, médias de somas, e assim por diante. É uma coisa realmente muito complexa (e incrível na mesma medida).

Ela também olha para os chamados “dados categóricos”, que parecem ser restritos a uma gama limitada de valores, tais como dias da semana ou nomes de marcas. Em seguida, a máquina gera mais candidatos apresentando e dividindo os recursos existentes em todas as categorias.

Uma vez que é produzido um conjunto de candidatos, é reduzo o número de possibilidades, o que facilita o processo de identificação daqueles cujos valores parecem estar correlacionadas.

Acabou? Ainda não

Depois de tudo isso, a máquina começa a testar seu conjunto reduzido de recursos em dados de amostra, recombinando-os de diferentes maneiras para melhorar a precisão das previsões que forneceu originalmente.

Teoria na prática

A máquina de ciência de dados é um desses projetos incríveis onde pesquisas de ponta são aplicadas para resolver problemas práticos. Isso nos proporciona uma maneira inteiramente nova de olhar para o problema e, consequentemente, agiliza sua resolução.[phys]

Deixe seu comentário!

Cancelar resposta

Você precisa fazer o login para publicar um comentário.