O Processo de Mineração dos Dados

A mineração de dados é uma arte. Ela envolve a aplicação de uma quantidade substancial de ciência e tecnologia, mas como acontece com muitas artes maduras, existe um processo bem compreendido que coloca uma estrutura no problema, permitindo consistência, repetitividade e objetividade razoáveis. Uma codificação útil do processo de mineração de dados é dada pelo Processo de Indústrias Cruzadas para Exploração de Dados (CRISP-DM), conforme demonstra a imagem abaixo.

Figura 1: O processo de mineração de dados CRISP-DM

Este processo torna explicito o fato de que a repetição é a regra e não a exceção. Passar pelo processo uma vez sem ter resolvido o problema não é, de modo geral, um fracasso. Muitas vezes, todo o processo é uma mineração dos dados, e depois da primeira repetição a equipe de Data Sciense sabe muito mais. A próxima repetição pode ser muito mais bem informada.

Entendimento do Negócio: Pode parecer óbvio mais a primeira coisa a ser feita é entender o problema a ser resolvido. Esse entendimento no processo é demonstrado como um ciclo dentro do ciclo. O entendimento inicial pode não ser o ideal de modo que diversas repetições sejam necessárias.

Entendimento dos Dados: Tem-se que entender os pontos fortes e as limitações dos dados porque raramente há uma correspondência exata com o problema, os dados históricos geralmente são recolhidos para fins não relacionados com o problema de negócio ou para nenhum propósito explicito, podemos ter vários conjuntos de dados que apresentem populações de informações diferentes mais que podem se cruzar e gerar vários graus de confiabilidade.

No entendimento de dados, precisamos escavar a superfície e revelar a estrutura do problema de negócios e os dados que estão disponíveis e, em seguida, combina-las como uma ou mais tarefas da mineração de dados para que possamos ter ciência e tecnologia substanciais para aplica-las.

Preparação de Dados: Frequentemente temos que preparar os dados para que estejam em uma forma diferente de como são fornecidas naturalmente, e alguma conversão será necessária, muitas vezes os dados são manipulados e convertidos para que rendam resultados melhores. Uma preocupação muito importante durante a preparação dos dados é com vazamentos. Vazamento é uma situação onde uma variável coletada em dados históricos dá informações sobre a variável alvo.

Modelagem: A etapa de modelagem é o principal local onde as técnicas de mineração de dados são aplicadas aos dados. É importante ter alguma compreensão das ideias fundamentais de mineração de dados, incluindo os tipos de técnicas e algoritmos existentes, porque esta é a parte da arte em que a maioria da ciência e da tecnologia podem ser exercidas.

Avaliação: Seu objetivo é estimar os resultados de mineração de dados de forma rigorosa e obter a confiança de que são válidos e confiáveis antes de avançar. Averiguar se os modelos e padrões extraídos dos dados são regularidades verdadeiras e não apenas anomalias.

Disponibilização: Os resultados da mineração de dados são colocados em uso real afim de agregar valor ao investimento realizado. Independentemente de a disponibilização ser bem-sucedida, o processo muitas vezes volta para a fase de entendimento do negócio, uma segunda iteração pode produzir uma solução melhorada.

Fonte: Data Science para Negócios – Foster Provost & Tom Fawcett

Advertisements

Criando Conexões no Pentaho Data Integration (PDI)

Nesse artigo demostraremos como se conectar a databases dentro do PDI. Basicamente todas as conexões possuem quatro requisitos para a conexão:

  • Host Name – Endereço ou nome do servidor onde se localiza o banco de dados;
  • Port Number- Número da porta no qual o servidor trabalha;
  • User Name – Nome do usuário;
  • Password – Senha do usuário.

Obs. Não esquecer que seu usuário terá que ter privilegio de acesso ao banco de dados que quer conectar.

Vamos agora ao passo a passo para realizar nossa primeira conexão.

  1. Abra o arquivo Spoon.bat conforme a figura 1;

Figura 1

  1. Seleciona a aba View e clique com o botão direito em cima de Database Connection em seguida escolha a opção New;
  2. Irá abrir uma janela conforme a figura 2;

Figura 2

  1. Em Connection Name coloque o nome de sua preferência para a conexão. Em Connection Type escolha o banco de dados que irá utilizar, dependendo da escolha as configurações ao lado irão se modificar. Em Acess você irá escolher a forma de acessar ao banco de dados escolhido.
  2. Depois pressione o botão Test para verificar se sua conexão está correta, caso esteja tudo de acordo basta clicar em OK.

As conexões criadas podem ser compartilhadas entre todas as transformações ou Jobs, esse recurso é muito importante assim evita que sempre que se crie uma transformação ou Jobs tenha que criar uma nova conexão. Para compartilhar uma nova conexão basta clicar com o botão direito na conexão e escolher a opção share.

Também temos a opção de usar as conexões em tempo de execução, como exemplo podemos colocar uma variável no host name usando a seguinte notação ${HOST_NAME} ou %%HOST_NAME%%. Se você decidir mover de seu banco de dados local para o servidor você tem apenas que modificar o valor da variável e não necessita alterar nada nas transformações ou Jobs.

O PDI suporta um vasto conjunto de bancos de dados. A lista inclui tanto bases de dados comerciais (como Oracle) e de código aberto (como o PostgreSQL), tradicionais bancos de dados (como MS SQL Server) e modernos bancos de dados (Tais como Infobright), bancos de dados baseados em disco de armazenamento (como Informix) e in-memory bases de dados (tais como HSQLBD). No entanto, pode acontecer que você deseja se conectar a um banco de dados que não está nessa lista. Nesse caso, você ainda pode criar uma conexão com esse banco de dados. O primeiro de tudo, você tem que obter um driver JDBC para o seu banco de dados. Copie o arquivo jar que contém o driver para o libext / diretório JDBC dentro do diretório de instalação PDI. Em seguida, crie a conexão.

Esse foi um artigo bem simples sobre como criar conexões no PDI, espero que tenha ajudado e nos próximos pretendo exemplificar vários steps, caso tenham alguma preferência por algum step deixe seu comentário.

Fonte: Livro Pentaho Data Integration 4 Cookbook

Nove passos para se tornar um cientista de dados

Devido ao crescimento muito rápido nos campos da ciência e análise de dados atualmente há uma escassez de candidatos qualificados para o número de vagas disponíveis nesses campos, fazendo assim com que a ciência de dados se torne um campo promissor e lucrativo para pessoas interessadas na área ou a procura de uma nova carreira.

Mas como você se tornar um cientista de dados?

Em primeiro lugar, a definição de cientista de dados muda de empresa para empresa. Não havendo uma definição única do termo, em geral um cientista de dados combina as habilidades de engenheiro de software com um estatístico e ainda domina uma boa dose de conhecimento específico.

Abaixo os nove passos para se tornar um cientista de dados:

1. Aperfeiçoar suas habilidades de matemática e estatística. Um bom cientista de dados deve ser capaz de entender o que os dados estão lhe dizendo, e para fazer isso, você deve ter um conhecimento básico de álgebra linear, uma compreensão de algoritmos e habilidades em estatísticas. Matemática avançada pode ser necessária para determinadas posições.

2. Compreender o conceito de aprendizado de máquina. Aprendizado de máquina está emergindo como a próxima palavra da moda, mas está indissociavelmente ligada à big data. Aprendizado de máquina usa algoritmos de inteligência artificial para transformar dados em valor e aprender sem ser programado de forma explícita.

3. Aprender a codificar, cientistas de dados devem saber como manipular o código, a fim de dizer ao computador como analisar os dados. Comece com uma linguagem de código aberto, como Python.

4. Entender as bases de dados e armazenamento distribuído. Os dados são armazenados em bases de dados ou em redes distribuídas, e a forma como esses repositórios são construídos pode ditar como você deverá acessar, usar e analisar esses dados.

5. Saiba preparar seus dados e técnicas de limpeza de dados. A preparação de dados é o processo de conversão de dados “brutos” para outro formato que é mais fácil de acessar e analisar. Limpeza de dados ajuda a eliminar a duplicação e dados “ruins”. Ambos são ferramentas essenciais na caixa de ferramentas de um cientista de dados.

6. Compreender os princípios de boa visualização de dados e relatórios. Você não tem que se tornar um designer gráfico, mas você precisa ser bem versátil em como criar relatórios para que um leigo – como seu gerente ou CEO – possa entender.

7. Adicionar mais ferramentas para sua caixa de ferramentas. Uma vez que você já domina as habilidades acima, é hora de expandir sua caixa de ferramentas para incluir programas como o Hadoop, R e Spark.

8. Prática. Como você pratica a ciência de dados antes de você ter um trabalho no campo? Desenvolver seu próprio projeto de estimação a partir de dados de código aberto, entrar em competições, participar de um bootcamp, voluntário ou estagiário. Os melhores cientistas de dados terão a experiência e intuição no campo e serão capazes de mostrar o seu trabalho para um recrutador.

9. Tornar-se parte da comunidade. Siga líderes na indústria, ler blogs da indústria e sites, participar, fazer perguntas, e ficar a par das notícias e da teoria atual.

Segue abaixo a fonte original desse artigo:

http://www.datasciencecentral.com/profiles/blogs/9-steps-to-become-a-data-scientist-from-scratch?overrideMobileRedirect

10 padrões de pessoas bem sucedidas

O sucesso pode assumir muitas formas. Podemos ter sucesso monetário, sucesso politico sob a forma de poder ou mesmo o sucesso cultural através da fama. As pessoas bem sucedidas são como nós porém elas seguem um padrão, segue abaixo 10 padrões de pessoas bem sucedidas.

  1. Crie sua propria realidade;
  2. Abrace as mudanças;
  3. Trabalhe mais;
  4. Não se preocupe com o “como”;
  5. Nunca se lamente;
  6. Sirva aos outros;
  7. Seja você mesmo;
  8. Respeite à todos;
  9. Cultive seu lado criativo;
  10. Definir verdadeiramente o que significa sucesso para você.

Fonte: http://www.inc.com/chris-dessi/10-simple-patterns-of-the-most-insanely-successful-people.html?cid=+sf01003&sr_share=linkedin

Planejamento e Estratégia

Considerando o momento atual de grande competição devido a globalização, a expectativa de vida das organizações será determinada pela sua capacidade de se adaptar a um ambiente de continua evolução. Essa necessidade de sobrevivência e prosperidade, um cenário de constantes mudanças requer das organizações a criação estruturada de estratégias que tragam vantagens competitivas.

A estratégia também está diretamente relacionada com o Modelo de Negócio da organização e o ambiente onde ele está inserido. O Modelo de Negócio é o elemento central da estratégia e deve ser diferenciado da concorrência, pois busca uma vantagem competitiva.

“A estratégia de uma organização descreve como ela pretende criar valor para seus acionistas, clientes e cidadãos.” Robert S. Kaplan, David P. Norton

Conforme definidos por Robert Kaplan e David Norton estes são os princípios-chave para alinhar os sistemas de mensuração e gestão com a estratégia:

  • Mobilizar a mudança por meio da liderança executiva;
  • Traduzir a estratégia em termos operacionais;
  • Alinhar a organização com a estratégia;
  • Motivar para transformar a estratégia em tarefa de todos; e
  • Gerenciar para converter a estratégia em processo contínuo.

Além de procurar viabilizar o objetivo dos acionistas e de atender às expectativas dos demais stakeholders, a estratégia da organização pode contribuir, por exemplo, para a consecução dos seguintes benefícios:

  • A equipe executiva e os colaboradores passam a ter uma visão compartilhada do negócio;
  • Os recursos e os esforços da organização são direcionados aos objetivos considerados prioritários;
  • As oportunidades emergentes no mercado são percebidas e exploradas com maior velocidade;
  • As mudanças na sociedade e no mercado e seu impacto na posição competitiva da empresa são rapidamente identificados e monitorados;
  • A sistemática análise crítica da estratégia competitiva e sua consistência, em face dos resultados obtidos e das mudanças no ambiente competitivo.

Planejar é definir os objetivos e escolher o melhor caminho para alcança-lo. O planejamento é uma função administrativa que determina antecipadamente o que se deve fazer e quais objetivos devem ser alcançados.

“O planejamento estratégico se trata de uma metodologia gerencial que permite estabelecer a direção a ser seguida pela organização, visando um maior grau de interação com o ambiente” Philip Kotler

Diferenciam-se níveis de planejamento de acordo com o seu significado, alcance ou impacto sobre a natureza dos problemas que se pretende solucionar com esse enfoque para ação futura, que é o ato de planejar. São três esses níveis de planejamento:

  • Planejamento estratégico: em que as decisões a serem tomadas dizem respeito principalmente a problemas externos da empresa;
  • Planejamento administrativo: no qual a preocupação volta-se para a melhor estruturação possível dos recursos – humanos, físicos e financeiros;
  • Planejamento operacional: é aquele em que as atividades previstas buscam a utilização dos recursos da empresa mais eficiente possível em dado período.

Além do planejamento também é necessário que se tenha controle pois somente o planejamento não garantirá a realização dos objetivos da organização. Padrões de desempenhos devem ser estabelecidos para o processo de controle servindo assim como guia para a realização dos objetivos da organização.

Existe uma relação fundamental entre o planejamento e controle. Sem um planejamento efetivo, não haverá um controle real e, sem controle efetivo, o planejamento será inexistente.