Siga-me no Twitter em @vascofurtado

quinta-feira, 18 de setembro de 2008

Mineração de Dados e Futebol

Semana passada estive a assistir uma reportagem na TV que, além de me fazer rir, me levou a uma relação entre o conceito de mineração de dados (data mining, em inglês) e o futebol. A reportagem era uma entrevista do técnico do Grêmio Celso Roth depois de uma derrota em casa inesperada (para ele e para os gremistas) diante do Goiás. O técnico argumentou que achou “estranho” (ele certamente queria dizer algo mais forte...) a forma de atuar da arbitragem que, segundo ele, não apitou conforme esperava (dá prá imaginar o que ele esperava, não?!). Ele disse que o árbitro só havia apitado dois jogos no campeonato (incluindo esse) e os dois foram jogos do Goiás. Pois é, ele foi bem hábil em encontrar uma correlação entre arbitragem e o adversário. Zero para o futebol, dez para a mineração de dados. E o que mesmo a mineração de dados tem a ver com isso? O conceito de mineração de dados se refere ao desenvolvimento de programas de computador que tenham a capacidade de encontrar correlações significativas em um conjunto (normalmente grande) de dados. Aqui duas palavras merecem destaque: significativas e conjunto grande de dados. Deixem-me mencionar o exemplo canônico de mineração de dados (o termo Business Intelligence – Inteligência de Negócio é também muito usado nesse contexto). O exemplo vem de uma grande rede de supermercados nos EUA que, ao analisar os registros de compras de seus clientes, começou a perceber que havia uma correlação, em compras feitas a noite, entre fraldas e cervejas. Um estudo mais aprofundado pôde explicar que se tratava de pais de famílias que, ao se verem obrigados a comprar fraldas para as crianças a noite, aproveitavam e compravam cerveja. A descoberta desse conhecimento fez com que o supermercado propusesse kits especiais onde fraldas e cervejas podiam ser compradas juntas e em promoção (evidentemente com fraldas e cervejas que apresentavam a maior margem de lucro!). Dá para perceber que o grande desafio dessa tarefa é descobrir uma correlação realmente útil em um banco de dados gigantesco como o de todos os itens comprados pelos clientes do supermercado. As historietas populares só contam o final feliz. Quantas outras correlações encontradas e que não agregam nenhum conhecimento útil tiveram que ser exploradas? Nesse sentido, a analogia com a mineração é bem feliz: há que se peneirar muito pedregulho até encontrar uma pepita. Há uma alternativa a qual recorrem alguns (políticos em maioria) e que Celso Roth também escolheu: só olha para a correlação que lhe interessa. E nem precisa ser um conjunto de dados muito grande.

2 comentários:

joellobo disse...

A história do Bill James também é muito boa. http://en.wikipedia.org/wiki/Bill_James

GMB disse...

Ótimo artigo