O Processo de Mineração dos Dados

A mineração de dados é uma arte. Ela envolve a aplicação de uma quantidade substancial de ciência e tecnologia, mas como acontece com muitas artes maduras, existe um processo bem compreendido que coloca uma estrutura no problema, permitindo consistência, repetitividade e objetividade razoáveis. Uma codificação útil do processo de mineração de dados é dada pelo Processo de Indústrias Cruzadas para Exploração de Dados (CRISP-DM), conforme demonstra a imagem abaixo.

Figura 1: O processo de mineração de dados CRISP-DM

Este processo torna explicito o fato de que a repetição é a regra e não a exceção. Passar pelo processo uma vez sem ter resolvido o problema não é, de modo geral, um fracasso. Muitas vezes, todo o processo é uma mineração dos dados, e depois da primeira repetição a equipe de Data Sciense sabe muito mais. A próxima repetição pode ser muito mais bem informada.

Entendimento do Negócio: Pode parecer óbvio mais a primeira coisa a ser feita é entender o problema a ser resolvido. Esse entendimento no processo é demonstrado como um ciclo dentro do ciclo. O entendimento inicial pode não ser o ideal de modo que diversas repetições sejam necessárias.

Entendimento dos Dados: Tem-se que entender os pontos fortes e as limitações dos dados porque raramente há uma correspondência exata com o problema, os dados históricos geralmente são recolhidos para fins não relacionados com o problema de negócio ou para nenhum propósito explicito, podemos ter vários conjuntos de dados que apresentem populações de informações diferentes mais que podem se cruzar e gerar vários graus de confiabilidade.

No entendimento de dados, precisamos escavar a superfície e revelar a estrutura do problema de negócios e os dados que estão disponíveis e, em seguida, combina-las como uma ou mais tarefas da mineração de dados para que possamos ter ciência e tecnologia substanciais para aplica-las.

Preparação de Dados: Frequentemente temos que preparar os dados para que estejam em uma forma diferente de como são fornecidas naturalmente, e alguma conversão será necessária, muitas vezes os dados são manipulados e convertidos para que rendam resultados melhores. Uma preocupação muito importante durante a preparação dos dados é com vazamentos. Vazamento é uma situação onde uma variável coletada em dados históricos dá informações sobre a variável alvo.

Modelagem: A etapa de modelagem é o principal local onde as técnicas de mineração de dados são aplicadas aos dados. É importante ter alguma compreensão das ideias fundamentais de mineração de dados, incluindo os tipos de técnicas e algoritmos existentes, porque esta é a parte da arte em que a maioria da ciência e da tecnologia podem ser exercidas.

Avaliação: Seu objetivo é estimar os resultados de mineração de dados de forma rigorosa e obter a confiança de que são válidos e confiáveis antes de avançar. Averiguar se os modelos e padrões extraídos dos dados são regularidades verdadeiras e não apenas anomalias.

Disponibilização: Os resultados da mineração de dados são colocados em uso real afim de agregar valor ao investimento realizado. Independentemente de a disponibilização ser bem-sucedida, o processo muitas vezes volta para a fase de entendimento do negócio, uma segunda iteração pode produzir uma solução melhorada.

Fonte: Data Science para Negócios – Foster Provost & Tom Fawcett

Leave a comment