Suas metas são realmente importantes? Faça o teste!

Atualmente estou lendo o livro “Metas que Desafiam” e nele encontrei um teste para saber o quão importante é a meta que temos, o teste é bem simples basta responder cada pergunta listada abaixo com uma nota de 1 a 7 sendo 7 a melhor nota.

  1. Algo dentro de mim continua me empurrando para atingir essa meta, mesmo quando há obstáculos no caminho.
  2. Quando penso nessa meta, sinto emoções muito fortes.
  3. Mentalmente, essa meta já é minha, não pertence a meu chefe, conjugue, médico ou qualquer outro. Mesmo que alguém inicialmente tenha me dado a ideia, ela é 100% minha agora, ela é minha de corpo e alma.
  4. Minha meta está retratada de forma tão vivida em minha mente que sou capaz de dizer exatamente o que vejo, ouço e sinto no momento exato em que meu objetivo é alcançado.
  5. Uso muitos recursos visuais para descrever minha meta (como imagens, fotos, desenhos ou imagens mentais).
  6. Minha meta pode ser tão vividamente explicada por escrito que eu poderia, literalmente, mostrar para as outras pessoas e elas saberiam exatamente o que quero realizar.
  7. Sinto um sentido de urgência tão intenso em atingir minha meta que adiá-la ou até mesmo posterga-la por um dia não seria uma opção.
  8. Mesmo que todos os benefícios de realizar minha meta estejam distantes, ainda assim recebo os benefícios agora, enquanto minha busca por essa meta ainda está em processo.
  9. A compensação por atingir essa meta supera de longe os custos com os quais tenho de arcar agora.
  10. Vou precisar aprender novas habilidades antes de ser capaz de realizar essa meta.
  11. Essa meta me força a sair da minha zona de conforto; não me sinto imobilizado de terror, mas estou definitivamente ansioso e desperto por essa meta.
  12. Quando penso sobre as maiores e mais significantes realizações ao longo da minha vida, essa meta atual é tão difícil como aquelas outras.

Pontuação

Some seus pontos para os itens 1 a 3. Esta é a sua pontuação para a sinceridade.

Some seus pontos para os itens 4 a 6. Esta é a sua pontuação para a animação.

Some seus pontos para os itens 7 a 9. Esta é a sua pontuação para a necessidade.

Some seus pontos para os itens 10 a 12. Esta é a sua pontuação para a dificuldade.

De acordo com soma de cada grupo a pontuação deverá entrar numa zona, o ideal que é nenhum grupo entre na zona de alerta vermelho pois isso caracteriza que a sua meta não é tão importante ou você não está tão engajado. Bem eu meio que utilizei o teste para classificar minhas metas e assim poder focar nas mais importantes.

 

 

 

 

 

 

 

 

 

Fonte: Metas que desafiam de Mark Murphy. Editora Clio.

Advertisements

PostgreSQL versão 10

Foi lançado no dia 18/05/2017 a versão 10 Beta 1 Released do PostgreSQL. A versão final está prevista para Setembro/2017. Listo abaixo os principais pontos que sofreram alterações em relação a versão anterior.

  • Consultas paralelas usando btree;
  • Índices de hash;
  • Bloqueios referentes a permissões;
  • Otimizador;
  • Monitoramento;
  • Estatísticas;
  • Autenticação;
  • Novos tipos de dados;
  • Replicação e recuperação;

Para maiores detalhes basta consulta o link referente ao Release Notes da versão.

https://www.postgresql.org/docs/10/static/release-10.html

Dicas sobre Vacuum no Postgres

O Vacuum limpa e opcionalmente analisa um banco de dados e recupera a área de armazenamento ocupada pelos registros excluídos. Na operação normal do Postgres os registros excluídos ou tornados obsoletos por causa de uma atualização não são fisicamente removidos das tabelas, permanecem presentes até o comando Vacuum ser executado. Portanto é necessário executar o comando Vacuum periodicamente, especialmente em tabelas frequentemente atualizadas, sem nenhum parâmetro o Vacuum processa todas as tabelas do banco de dados correntes.

O comando Vacuum Analyze executa o Vacuum e depois o Analyze para cada tabela selecionada, esta é uma forma de combinação útil para scripts de rotinas de manutenção. O Analyze atualiza as estatísticas utilizadas pelo planejador para determinar o modo mais eficiente de executar um comando.

O comando Vacuum simples (sem o Full) apenas recupera o espaço, tornando-o disponível para ser reutilizado. Esta forma do comando pode operar em paralelo com a leitura e escrita normal da tabela, porque não é obtido um bloqueio exclusivo. O Vacuum Full executa um processamento mais extenso, incluindo a movimentação das tuplas entre blocos para tentar compactar a tabela no menor número de blocos de disco possível, esta forma é muito mais lenta e requer bloqueio exclusivo de cada tabela enquanto está sendo processada.

Por último temos a opção do Freeze, que seleciona um congelamento agressivo das tuplas, esta opção não é muito recomendada e é provável que seja retirada de futuras versões do Postgres.

Sistema de Apoio à Decisão


De acordo com (HEINRICHS, 2003), para competir no mercado global de hoje, as empresas precisam deter mais conhecimento do que antigamente e, ainda, para obter sucesso, elas precisam saber mais sobre seus clientes, mercados, tecnologias e processos, e precisam ter essas informações antes que seus concorrentes.

Para uma tomada de decisão é necessário ter em mãos informações estratégicas e, tendo em vista esse princípio, as empresas começaram a extrair dados dos seus sistemas operacionais e armazená-los, separados dos dados operacionais, donde surgiram os Sistemas de Apoio à Decisão. Esses sistemas são soluções computacionais desenvolvidas para apoiar a tomada de decisões complexas durante a resolução de problemas. Ferramentas clássicas de Sistemas de Apoio à Decisão compreendem componentes para gerenciamento de banco de dados sofisticados com poderosas funções de modelagem e projetos de interface com o usuário permitem trabalhar interativamente com questões, relatórios e funções gráficas.

Segundo (BIDGOLE, 1989) as decisões são classificadas em:

  • Decisão estruturada: apresenta procedimento operacional padrão, bem definido e claramente projetado. Este tipo de decisão conta com sistemas de informação relativamente fáceis de definir, programáveis, baseados em lógica clássica, fatos e resultados bem definidos, horizonte de tempo pequeno, rotinas repetitivas e voltados para baixos níveis da organização;
  • Decisão semi-estruturada: não é totalmente bem definida, porém incluem aspectos de estruturação; podem em grande parte contar com apoio dos sistemas de informação;
  • Decisão não-estruturada: não apresentam qualquer padrão de procedimento operacional, não se repetem. No tocante aos sistemas de informação, estes podem apenas apoiar ao decisor, o qual precisa contar fortemente com sua intuição, experiência etc. São difíceis de formalizar, envolvem heurística, tentativa e erro, senso comum em adição à lógica, horizonte de tempo longo, raramente replica decisões prévias e voltados para os níveis intermediários e alta gerência.

Um sistema de apoio à decisão possui como arquitetura básica dados, modelo e usuário. Conforme (SPRAGUE & WATSON, 1991) são identificados três níveis de tecnologia necessárias em um ambiente de sistema de apoio à decisão, conforme demonstrado na Figura 1.

Figura 1 – Tecnologias dos SADs


Fonte: BIDGOLI (1989)

  • SAD Especifico: é o sistema em si, combinação de hardware e software usada para apoio à decisão de uma operação especifica;
  • Gerador de SAD: combinação de software e hardware utilizado para desenvolver um SAD Especifico;
  • Ferramentas de SAD: hardware e software usados para desenvolver um SAD Especifico ou um Gerador de SAD.

O processo de tomada de decisão pode ser traduzido como uma sequência de tarefas que envolvem uma grande quantidade de informação com relacionamentos complexos entre si, os Sistemas de Apoio a Decisão tem ênfase na simulação e exploração de dados, com o objetivo de dar suporte às decisões de simulação e exploração de dados. De acordo com (ALTER, 1980) os Sistemas de Apoio à Decisão são classificados em:

  • Sistemas de análise de informações: provêm acesso a uma série de dados orientados a decisão e pequenos modelos para prover informação gerencial, possibilitando a análise através do uso de dados internos. Podem ainda, a partir de dados do passado, gerar previsões para períodos futuros;
  • Modelos de contas: calculam a consequência de ações planejadas sobre a base de definições de contas, em geral, geram estimativas baseadas em variações das entradas nas fórmulas das contas;
  • Modelos de representação: incluem modelos de simulação que estimam a consequência de ações sobre a base de modelos, tais como probabilidades de ocorrências;
  • Modelos de otimização: oferecem linhas de ação para uma solução ótima, considerando as restrições necessárias;
  • Modelos de sugestão: consideram uma sugestão específica para uma decisão, substituindo procedimentos menos eficientes

Essas categorias possuem dois agrupamentos, onde os três primeiros itens pertencem aos sistemas orientados a dados e os demais itens pertencem aos sistemas orientados a modelos. Segundo (BIDGOLI, 1989) à medida em que os usuários começarem a aceitar os conceitos de um Sistema de Apoio à Decisão e a utilizar todos os recursos de sua organização para estimular o aprendizado acerca dos problemas e suas soluções os Sistemas de Apoio à Decisão se tornarão mais efetivos e frequentes.

REFERÊNCIAS

BIDGOLI, H. Decision Support System – Principles and Practice, West Publishing Company, New York, 1989.

HEINRICHS, J.H. and Lim, J. (2003), Integrating web-based data mining tools with business models for knowledge management, Decision Support Systems, Vol. 35 No. 1, pp. 103-12.

SPRAGUE, Jr., WATSON, Hugh J. Sistema de apoio à decisão: Colocando a teoria em prática. Rio de Janeiro: Campus, 1991.


O Processo de Mineração dos Dados

A mineração de dados é uma arte. Ela envolve a aplicação de uma quantidade substancial de ciência e tecnologia, mas como acontece com muitas artes maduras, existe um processo bem compreendido que coloca uma estrutura no problema, permitindo consistência, repetitividade e objetividade razoáveis. Uma codificação útil do processo de mineração de dados é dada pelo Processo de Indústrias Cruzadas para Exploração de Dados (CRISP-DM), conforme demonstra a imagem abaixo.

Figura 1: O processo de mineração de dados CRISP-DM

Este processo torna explicito o fato de que a repetição é a regra e não a exceção. Passar pelo processo uma vez sem ter resolvido o problema não é, de modo geral, um fracasso. Muitas vezes, todo o processo é uma mineração dos dados, e depois da primeira repetição a equipe de Data Sciense sabe muito mais. A próxima repetição pode ser muito mais bem informada.

Entendimento do Negócio: Pode parecer óbvio mais a primeira coisa a ser feita é entender o problema a ser resolvido. Esse entendimento no processo é demonstrado como um ciclo dentro do ciclo. O entendimento inicial pode não ser o ideal de modo que diversas repetições sejam necessárias.

Entendimento dos Dados: Tem-se que entender os pontos fortes e as limitações dos dados porque raramente há uma correspondência exata com o problema, os dados históricos geralmente são recolhidos para fins não relacionados com o problema de negócio ou para nenhum propósito explicito, podemos ter vários conjuntos de dados que apresentem populações de informações diferentes mais que podem se cruzar e gerar vários graus de confiabilidade.

No entendimento de dados, precisamos escavar a superfície e revelar a estrutura do problema de negócios e os dados que estão disponíveis e, em seguida, combina-las como uma ou mais tarefas da mineração de dados para que possamos ter ciência e tecnologia substanciais para aplica-las.

Preparação de Dados: Frequentemente temos que preparar os dados para que estejam em uma forma diferente de como são fornecidas naturalmente, e alguma conversão será necessária, muitas vezes os dados são manipulados e convertidos para que rendam resultados melhores. Uma preocupação muito importante durante a preparação dos dados é com vazamentos. Vazamento é uma situação onde uma variável coletada em dados históricos dá informações sobre a variável alvo.

Modelagem: A etapa de modelagem é o principal local onde as técnicas de mineração de dados são aplicadas aos dados. É importante ter alguma compreensão das ideias fundamentais de mineração de dados, incluindo os tipos de técnicas e algoritmos existentes, porque esta é a parte da arte em que a maioria da ciência e da tecnologia podem ser exercidas.

Avaliação: Seu objetivo é estimar os resultados de mineração de dados de forma rigorosa e obter a confiança de que são válidos e confiáveis antes de avançar. Averiguar se os modelos e padrões extraídos dos dados são regularidades verdadeiras e não apenas anomalias.

Disponibilização: Os resultados da mineração de dados são colocados em uso real afim de agregar valor ao investimento realizado. Independentemente de a disponibilização ser bem-sucedida, o processo muitas vezes volta para a fase de entendimento do negócio, uma segunda iteração pode produzir uma solução melhorada.

Fonte: Data Science para Negócios – Foster Provost & Tom Fawcett

Criando Conexões no Pentaho Data Integration (PDI)

Nesse artigo demostraremos como se conectar a databases dentro do PDI. Basicamente todas as conexões possuem quatro requisitos para a conexão:

  • Host Name – Endereço ou nome do servidor onde se localiza o banco de dados;
  • Port Number- Número da porta no qual o servidor trabalha;
  • User Name – Nome do usuário;
  • Password – Senha do usuário.

Obs. Não esquecer que seu usuário terá que ter privilegio de acesso ao banco de dados que quer conectar.

Vamos agora ao passo a passo para realizar nossa primeira conexão.

  1. Abra o arquivo Spoon.bat conforme a figura 1;

Figura 1

  1. Seleciona a aba View e clique com o botão direito em cima de Database Connection em seguida escolha a opção New;
  2. Irá abrir uma janela conforme a figura 2;

Figura 2

  1. Em Connection Name coloque o nome de sua preferência para a conexão. Em Connection Type escolha o banco de dados que irá utilizar, dependendo da escolha as configurações ao lado irão se modificar. Em Acess você irá escolher a forma de acessar ao banco de dados escolhido.
  2. Depois pressione o botão Test para verificar se sua conexão está correta, caso esteja tudo de acordo basta clicar em OK.

As conexões criadas podem ser compartilhadas entre todas as transformações ou Jobs, esse recurso é muito importante assim evita que sempre que se crie uma transformação ou Jobs tenha que criar uma nova conexão. Para compartilhar uma nova conexão basta clicar com o botão direito na conexão e escolher a opção share.

Também temos a opção de usar as conexões em tempo de execução, como exemplo podemos colocar uma variável no host name usando a seguinte notação ${HOST_NAME} ou %%HOST_NAME%%. Se você decidir mover de seu banco de dados local para o servidor você tem apenas que modificar o valor da variável e não necessita alterar nada nas transformações ou Jobs.

O PDI suporta um vasto conjunto de bancos de dados. A lista inclui tanto bases de dados comerciais (como Oracle) e de código aberto (como o PostgreSQL), tradicionais bancos de dados (como MS SQL Server) e modernos bancos de dados (Tais como Infobright), bancos de dados baseados em disco de armazenamento (como Informix) e in-memory bases de dados (tais como HSQLBD). No entanto, pode acontecer que você deseja se conectar a um banco de dados que não está nessa lista. Nesse caso, você ainda pode criar uma conexão com esse banco de dados. O primeiro de tudo, você tem que obter um driver JDBC para o seu banco de dados. Copie o arquivo jar que contém o driver para o libext / diretório JDBC dentro do diretório de instalação PDI. Em seguida, crie a conexão.

Esse foi um artigo bem simples sobre como criar conexões no PDI, espero que tenha ajudado e nos próximos pretendo exemplificar vários steps, caso tenham alguma preferência por algum step deixe seu comentário.

Fonte: Livro Pentaho Data Integration 4 Cookbook

Nove passos para se tornar um cientista de dados

Devido ao crescimento muito rápido nos campos da ciência e análise de dados atualmente há uma escassez de candidatos qualificados para o número de vagas disponíveis nesses campos, fazendo assim com que a ciência de dados se torne um campo promissor e lucrativo para pessoas interessadas na área ou a procura de uma nova carreira.

Mas como você se tornar um cientista de dados?

Em primeiro lugar, a definição de cientista de dados muda de empresa para empresa. Não havendo uma definição única do termo, em geral um cientista de dados combina as habilidades de engenheiro de software com um estatístico e ainda domina uma boa dose de conhecimento específico.

Abaixo os nove passos para se tornar um cientista de dados:

1. Aperfeiçoar suas habilidades de matemática e estatística. Um bom cientista de dados deve ser capaz de entender o que os dados estão lhe dizendo, e para fazer isso, você deve ter um conhecimento básico de álgebra linear, uma compreensão de algoritmos e habilidades em estatísticas. Matemática avançada pode ser necessária para determinadas posições.

2. Compreender o conceito de aprendizado de máquina. Aprendizado de máquina está emergindo como a próxima palavra da moda, mas está indissociavelmente ligada à big data. Aprendizado de máquina usa algoritmos de inteligência artificial para transformar dados em valor e aprender sem ser programado de forma explícita.

3. Aprender a codificar, cientistas de dados devem saber como manipular o código, a fim de dizer ao computador como analisar os dados. Comece com uma linguagem de código aberto, como Python.

4. Entender as bases de dados e armazenamento distribuído. Os dados são armazenados em bases de dados ou em redes distribuídas, e a forma como esses repositórios são construídos pode ditar como você deverá acessar, usar e analisar esses dados.

5. Saiba preparar seus dados e técnicas de limpeza de dados. A preparação de dados é o processo de conversão de dados “brutos” para outro formato que é mais fácil de acessar e analisar. Limpeza de dados ajuda a eliminar a duplicação e dados “ruins”. Ambos são ferramentas essenciais na caixa de ferramentas de um cientista de dados.

6. Compreender os princípios de boa visualização de dados e relatórios. Você não tem que se tornar um designer gráfico, mas você precisa ser bem versátil em como criar relatórios para que um leigo – como seu gerente ou CEO – possa entender.

7. Adicionar mais ferramentas para sua caixa de ferramentas. Uma vez que você já domina as habilidades acima, é hora de expandir sua caixa de ferramentas para incluir programas como o Hadoop, R e Spark.

8. Prática. Como você pratica a ciência de dados antes de você ter um trabalho no campo? Desenvolver seu próprio projeto de estimação a partir de dados de código aberto, entrar em competições, participar de um bootcamp, voluntário ou estagiário. Os melhores cientistas de dados terão a experiência e intuição no campo e serão capazes de mostrar o seu trabalho para um recrutador.

9. Tornar-se parte da comunidade. Siga líderes na indústria, ler blogs da indústria e sites, participar, fazer perguntas, e ficar a par das notícias e da teoria atual.

Segue abaixo a fonte original desse artigo:

http://www.datasciencecentral.com/profiles/blogs/9-steps-to-become-a-data-scientist-from-scratch?overrideMobileRedirect