O mundo do Data Mining, ou em português, ‘Mineração de Dados’

Windows





Atualizando alguns diretórios, nessa semana encontrei em meus arquivos alguns trabalhos de quando estava iniciando um processo de upgrade entre meu mestrado e doutorado, trabalhos que me trouxeram boas lembranças. Então, resolvi compartilhar com vocês um pouco de um dos tópicos principais para um cientista de dados, o Data Mining – DM.

Esse processo de mineração busca, além de prever resultados, encontrar anomalias, padrões e correlações em grandes conjuntos de dados, o famoso Big Data. Fazendo uso de várias técnicas matemáticas, de lógicas, algoritmos de aprendizagem ou classificação baseados em redes neurais, probabilidades e estatística, é possível reduzir riscos, aumentar renda, melhorar o relacionamento com os clientes e muito mais.



A ideia principal é “minerar” esses dados para encontrar conexões que, de certa forma, estão escondidas dentro desse enorme conjunto de informações, sendo possível até mesmo predizer, com uma enorme taxa de acerto, resultados de tendências, diagnóstico médico e até mesmo ações na bolsa de valores.

Sei que podem pensar: “nossa, como isso é possível?” Não se trata de um processo tão simples como parece. Além de uma boa experiência para detectar o comportamento dos dados e utilização das melhores ferramentas da atualidade, faz-se necessário também um bom investimento em hardwares, pois haja vista a quantidade de processamento realizado durante as tarefas de mineração em um Big Data.

Atualmente, os servidores responsáveis pela execução desse processo contam com alto poder de armazenamento, execução de tarefas, processadores com várias cores e uma quantidade de memória assustadora (tipo 128 Gb de RAM), risos, e essa evolução não para.
Para se ter ideia, me lembro de um conjunto de dados (KDDCup) para detecção de intrusão em redes de computadores que utilizei no meu mestrado. Na época, trabalhei com apenas 10% do conjunto devido ao tamanho e a falta de hardware.

Hoje, após poucos anos, já é possível, com o avanço da tecnologia e dos hardwares, executar os mesmos experimentos praticamente no mesmo dia.

Um viva à evolução das técnicas computacionais risos. See you!

Clayton Pereira
Pós Doutor em Ciência da Computação na Universidade Estadual Paulista “Júlio de Mesquita Filho – UNESP” de Bauru

Confira outros artigos de Clayton Pereira no site da Revista O Comércio