Uncategorized

Big Data: correlação ao invés de causalidade

BIg-DataDando continuidade à leitura do livro Big Data, de Viktor Mayer-Schönberger e Kenneth Cukier, o Lab404 discute no encontro hoje, de 17 de julho, o capítulo “Correlation”.

Constrói-se, a partir da idéia de correlação utilizando-se de big data, o argumento de superação das análises por causalidade, típicas de uma época na qual o acesso e processamento de grande quantidades de dados era inviável. Em muitos casos, não há a necessidade de saber as causas: “Saber o que, e não como, já é bom o suficiente”.

Análises por correlação, no entanto, são comuns também na ausência de big data. Em uma perspectiva de “small-data”, hipóteses eram feitas e, a partir delas, os dados eram coletados buscando confirmá-las. A correlação em Big Data mostra-se diferente. As hipóteses prévias não são mais necessárias, justamente por causa da grande quantidade de dados e da capacidade dos computadores de processá-los. O mundo, segundo os autores, não precisa ser mais entendido a partir de grandes hipóteses em relação aos fenômenos. No lugar das hipóteses, devemos usar os dados. Assim, teremos resultados menos tendenciosos, mais precisos e mais rápidos.

O primeiro exemplo utilizado é o caso da Amazon. Inicialmente, a empresa criou um sistema de recomendação de livros baseado em preferências pessoais de compras. As variações em relação à última compra do consumidor, porém, eram pequenas, não se obtendo o êxito necessário: acertar na maior parte das vezes as preferências do cliente e fazê-lo comprar novamente a partir da indicação. Em seguida, uma solução foi encontrada. Ao invés de comparar apenas as referências entre pessoas, buscou-se uma associação entre produtos. No lugar de usar apenas uma parcela pequena dos dados, utilizaram-se todos os dados. Assim, as recomendações passaram a funcionar muito melhor: atualmente, o sistema de recomendação e personalização é responsável por um terço de toda a venda da Amazon.

Captura de tela 2013-07-17 às 10.47.26

Com uma grande quantidade de dados, as correlações são feitas de forma mais eficiente. O sistema não saberá o motivo de um cliente, após adquirir um livro de Michel Serres, comprar também um de Bruno Latour. A questão, reiterada também em outros capítulos é simples: isso não importa. Para a Amazon, por exemplo, basta funcionar, fazer indicações com maior probabilidade de acerto. Novamente: “knowing what, not why, is good enough”.

As correlações, portanto, podem ser úteis em uma perspectiva de dados limitados, mas se potencializa a partir do big data. Em uma correlação forte – ou seja, a que utiliza uma grande quantidade de dados –, há maior chance de previsões.

Os exemplos de usos de big data de forma correlacional multiplicam-se. Um deles é o da seguradora Aviva, que estudou a ideia de dados do estilo de vida de seus segurados para calcular o valor das apólices. Trata-se de um método de previsão baseado em correlações de padrões com o uso de grande quantidade de dados. Extrapolando o texto, refere-se a um uso bastante controverso, tocando em pontos sensíveis de privacidade e vigilância. Afinal, a quem pertencem os dados? Essa é uma questão importante a ser feita. Veremos se será tratada nos próximos capítulo. À seguradora, no caso, reserva-se o direito de colher dados pessoais de seus clientes e identificar os riscos de saúde?

Outro exemplo menos controverso em relação às previsões é o da transportadora UPS. Inicialmente, a substituição de peças de seus veículos era realizada em um determinado número de anos. Após mudar a lógica para uma análise de previsão, peças individuais passaram a ser medidas e monitoradas, permitindo substituí-las apenas quando necessário. O uso de grande quantidade de dados trouxe uma enorme economia em manutenção.

Novamente, então, nos deparamos com esta questão: a análise de previsão não explica a causa do problema, apenas indicando a sua existência. Para a UPS, saber qual o problema é mais importante do que descobrir a causa. Buscam-se as correlações, e não as causas.

Como explicam os autores, a causalidade, no entanto, não deve ser abandonada. Uma análise mais aprofundada baseada nela viria após a atuação do big data. Sendo assim, as causas não seriam descartadas, mas perderiam o posto de primeira fonte de conhecimento.

Precisamos, como escrevem Mayer-Schönberger e Cukier, confiar nas correlações sem saber previamente quais seriam as causas de previsões. Manter as teorias, mas esquecer as hipóteses prévias. Primeiro, buscar uma grande quantidade de dados e correlacioná-los.