Resenhas

Big Data: Datafication, ou extraindo dados de onde for possível

BIg-DataDando continuidade à sua argumentação quanto ao assim chamado fenômeno do big data, Mayer-Schönberger e Cukier buscam, nesse capítulo, mostrar como e por que coletar e classificar dados relativos às mais diversas situações, mesmo àquelas que não parecem inúteis ou nada valiosas. Datafication, assim, seria um processo sistemático de extração e tabulação desses dados dispersos e aparentemente irrelevantes.

Pela primeira vez no livro, ainda que apenas no 5º capítulo, os autores lembram a origem da palavra “data”: oriunda do Latim, significa  “dado”, num senso factual, algo objetivo, aquilo que se sabe ou se pode vir a saber (com efeito, vale observar que, em Português, não há tanta diferença entre nossa língua e palavra em Latim). Nesse sentido, “Dataficar um fenômeno é colocá-lo num formato quantificado de modo que possa ser tabulado e analisado”.

Navegar é preciso: as primeiras iniciativas

O capítulo começa com a história de Matthew Fontaine Maury, oficial da Marinha norte-americana, o qual foi um dos pioneiros da coleta e classificação de dados relativos à navegação marítima. Até sua atuação, a navegação era majoritariamente baseada em rotas pré-estabelecidas e consideradas de grande confiança, e a busca por alternativas era rechaçada. Em outras palavras, a prática majoritária das viagens se dava pela palavra, pela confiança em outros navegadores, pelo conhecimento acumulado não sistematizado. Esse era o problema exato: a falta de parâmetros metódicos e o objetivos para lidar com as informações produzidas. Diante de tal cenário, a renovação de cartas náuticas e outros saberes era quase inexistente, e, no máximo, a base de navegação se dava com documentos de algumas centenas anos de existência – vários deles com grandes omissões e informações inexatas.

Maury foi responsável por coordenar outros capitães de modo que conseguisse obter grandes volumes de informação sobre suas viagens – o que, de fato, revelava dados importantes sobre marés, correntes, ventos e outros elementos atuantes na navegação. Um dos procedimentos foi criar formulários padronizados e distribuí-los entre os navios. Igualmente, retribua com novas informações aqueles que cooperavam. Situado temporalmente em meados do século XIX, o comandante é colocado pelos autores como um percursor na coleta de dados.

Ao proceder desse modo, ele [Comandante Maury] foi um dos pioneiros da datafication, ao retirar dados de materiais que ninguém mais pensou que tivessem valor.

Remetendo a outros exemplos trazidos ao longo do livro, os autores colocam a atuação do Comandante Maury equiparada ao serviço Farecast (o qual, como avisam, fora incorporado ao buscador Bing, da Microsoft) ou ao Google, que conseguiram, de certa forma, “enxergar” padrões e correlações entre os dados obtidos (lembrado que, no capítulo inicial, conta-se como o buscador conseguiu realizar previsões de infecções a partir dos termos buscados por localização). “Maury pegou a informação gerada para um propósito e converteu em outra coisa”. Essa mutabilidade acaba se mostrando extremamente importante na medida em que é ela que consegue revelar aspectos de certa forma recônditos. Separados, os dados não mostram muita coisa. Quando aglutinados e sistematizados, aí sim podem desvelar padrões antes não enxergados.

Apreender, quantificar e representar o mundo

Vale ressaltar que o processo de dataficação, como colocam os autores, não é sinônimo de digitalização, o qual é apenas um processo de representação numérica por meio de codificação binária. A diferença fica clara quando percebemos que o exemplo trazido acima com o Comandante Maury não faz uso de tal representação, muito menos de processos computacionais. “A digitalização turbina a dataficação“, apenas isso. Outro exemplo contundente quanto a essa diferença se dá com a digitalização de livros a partir do Google Books: a página, digitalizada, é transformada em uma imagem ou similar, mas isso não torna o texto em si um dado. É necessário que se façam outros processos (como o reconhecimento textual) para que as palavras em si e a coerência que elas mantêm possam ser reconhecidas como dados.

Tudo o que o Google tinha eram imagens que apenas humanos podiam transformá-las em informação útil – através da leitura.

Para além dessa necessidade, Mayer-Schönberger e Cukier sublinham a importância da medição e do registro como facilitadores de criação de dados. Sem a invenção da escrita, como instrumento de catalogação, e a adoção dos algarismos, voltados ao cálculo, seria inviável qualquer processo de captura e aglutinação de dados. Passando a vista por um breve histórico da Matemática e das variadas formas de registro (como os livros comerciais), os autores mostram a importância de se ter uma abordagem padronizada e objetiva diante da manutenção e dos cálculos de tais dados.

E tudo vai se tornando dado…

Além da padronização dos processos da coleta, cálculo e armazenamento de dados, os autores ressaltam a mesma necessidade em relação aos nossos registros espaciais ao longo da Terra. Apesar de práticas nesse sentido já existentes na Grécia Antiga, 2000 a.C., e da importância da projeção de Mercator, no século XVI, é crucial sublinhar que foi a partir do século XIX que tivemos, de fato, a padronização de longitude e latitude. No século XX, com Universal Transverse Mercator (UTM), o sistema de coordenadas atualmente utilizado foi criado, estabelecendo novos parâmetros para viagens ao redor do globo terrestre.

A localização geoespacial poderia agora ser identificada, gravada, computada, analisada e comunicada num formato numérico padronizado. A posição poderia ser dataficada.

Não se poderia falar de localização e uso de dados sem mencionar o advento do Sistema de Posicionamento Global – GPS. Criado em fins dos anos 1970, com operação total alcançada apenas nos anos 1990, a tecnologia do GPS traçou uma nova compreensão à noção de marcação do espaço, com precisão antes não conhecida. Em sua trilha, não faltaram produtos (como aparelhos para uso em carro ou celulares) e serviços diversos (tais como aplicativos para smartphones – confira post neste blog) que lidam justamente com suas possibilidades de acurácia dessa ferramenta, bem como com a junção e mescla com outros tipos de dados (imagens, sons, textos, vídeos…).

E claro que, ao lidar com celulares, parece inescapável que falemos das interações entre os indivíduos. Nesse sentido, Mayer-Schönberger e Cukier apontam para sites de redes sociais como Twitter, Facebook e LinkedIn que, por seus próprios meios, acessam, registram, catalogam e analisam os rastros que neles deixamos. Citam também aplicativos diversos para celulares, como os utilizados por aqueles que adotam o movimento quantified self, e ainda falam de iniciativas sensores, como os projetos da empresa GreenGoose, voltados a perceber nosso uso de objetos diversos.

Exemplos diversos

Similar às iniciativas apontadas pelos autores, vale citar exemplos diversos que temos visto por aqui. Em termos de localização, Watchdogs é um mapa interativo que utiliza dados públicos oriundos de diferentes fontes para a exibição de diferentes camadas de informação, tais como banheiros públicos, linhas de ônibus, pontos de acesso wi-fi, além de dados originados de interações sociais, como aqueles produzidos por tweets, check-ins no Foursquare ou fotos publicadas no Instagram. Mais informações aqui.

watch_dogs
O Watchdogs utiliza dados de fontes diversas para montar mapas personalizados de algumas cidades.

Também relacionado às fotografias do Instagram, e relacionando horários e localizações, temos um excelente projeto de Lev Manovich, o Instagram Cities. Por meio da coleta e aglutinação de dados, é possível perceber variados padrões de práticas espaciais. Falei dele também no blog do GITS.

instagram-cities
Instagram Cities utiliza dados de fotografias públicas postadas no Instagram e correlaciona parâmetros como espaço e tempo.

Por fim, outro exemplo interessante é o Immersion, ferramenta do MIT para a visualização de interações realizadas no Gmail. O software acessa, com devida autorização, sua conta do Gmail e faz um rastreamento de todas as mensagens que a pessoa trocou. Dessa forma, é possível realizar um histórico e perceber variações das interações realizadas ao longo dos anos.

Com o Immersion, é possível retraçar o histórico de interações transcorridas no Gmail e perceber, dentre outras coisas, que pessoas (ou grupos de pessoas) foram mais importantes em determinados momentos.

Reticências finais…

O capítulo termina justamente com a ideia de que tudo, na atualidade, pode ser transformado em dado – se já não o é potencialmente, dada a imensa digitalização na qual estamos inseridos. De certa forma, acaba atuando como um panegírico à quantificação do mundo, e os autores apresentam pouca problematização ou visão crítica do que esse tipo de abordagem, se exagerada, pode ter como consequência.

Com um pouco de imaginação, uma cornucópia de coisas pode ser posta sob o formato de dado – e ainda nos surpreender ao longo do caminho.

É bastante curioso e inquietante que, até aqui, o texto não mostre preocupações com as decorrências de tanta datafication – o que, de certa forma, parece estar sendo guardado para os capítulos finais da obra. Coletar dados, aglutiná-los e buscar padrões pode, em alguma medida e potencialmente, ser uma intrusão em atividades de cunho privado – ou pelo menos o que supúnhamos privado até então. Alguns exemplos trazidos no capítulo anterior – Correlation -, como o grande avanço da Amazon e do Walmart ao conseguir correlacionar produtos entre si e entre as ações de seus clientes, poderiam ser facilmente levantados como condutas problemáticas. Como de fato apontam os próprios autores, os usos mais sofisticados de datafication estão no mundo dos negócios, a exemplo da Amazon, do Google e Walmart. É nesse universo que o big data tem sido utilizado para a criação de valores mercadológicos, e é precisamente esse ponto que será tratado no capítulo a seguir.