Confira algumas novidades do mercado que a Citrus7 selecionou para você.
Ciência de dados sem estatísticas é possível e até desejável
A ciência de dados usa mal a ciência e as técnicas de estatísticas.
26 de janeiro de 2015 Citrus7 Mercado
A nova ciência estatística não é considerada como tal. Ela é apontada pelos estatísticos como um “processamento de dados sujos”. Mistura vários mecanismos de scoring, de agrupamentos simples para aproveitar a “big data”, reduz dados e seleções de recursos combinatórios, une centenas de métodos de regressão confusos, proporciona técnicas preditivas simples e fáceis de serem interpretadas, tem baixa dimensionalidade e fornecendo estimativas ligeiramente tendenciosas.
Números aleatórios: novos tipos de simuladores de alta qualidade e não periódicos. Reconhecimento de padrões, detecção de estruturas e de sinal, agrupamento de dados sem o uso de grandes matrizes nxn, mas utilizando tabelas de “hash” e “Map-Reduce”. Modelagens preditivas, intervalos de confiança baseado em estatísticas computadas por meio de múltiplas caixas de dados semelhantes.
Métricas sintéticas, escalas variadas, extrapolação de dados. Algumas pessoas chamam isso de aprendizagem estatística. Um dos precursores desse tipo de método é Trevor Hastie, que escreveu um dos primeiros livros de ciência de dados chamado “The Elements of Statistical Learning”.
A ciência de dados usa um pouco de ciência estatística de idade, incluindo os seguintes tópicos: Time Series, ARMA, processos espaciais e de fragmentação, modelos de sobrevivência, processos de Markov, design experimental, testes variados, mas sem os tradicionais de hipóteses, métodos de simulação de Monte-Carlo, modelos hierárquicos, ranking de estatísticas, conceito de significância estatística, validação cruzada, técnicas de imputação (dados perdidos), análise exploratória de dados (automatizada com ferramentas como o dicionário de dados), distribuições estatísticas, variáveis aleatórias, entre outros. Alguns resultados são obtidos limitando distribuições, ao invés de oferecer princípios teóricos que não se podem aplicar a dados reais.
A técnica de Monte-Carlo, a otimização matemática, algoritmos simples,inventários e modelos de gestão de preços não são consideradas ciências estatística: elas podem ser referidas como analytics ou “ciência da decisão”.
Exemplos de técnicas estatísticas antigas: estimativa máxima de verossimilhança, regressão, ANOVA, testes de hipóteses, modelo linear geral, entre outros. Há ainda muitas pessoas fazendo técnicas como o naive Bayes, lineares ou de regressões logísticas. Isso funciona em muitos conjuntos de dados simples, e você vai conseguir um emprego se souber essas técnicas. Mas, no futuro, é possível uni-las sob uma metodologia única, simples, robusta, com fácil interpretação de resultados, disponíveis como caixa preta e não somente de automatização e para especialistas. Algumas técnicas modernas, como mecanismos de recomendação, às vezes, falham pois são incapazes de detectar opiniões falsas e porque ainda dependem de velhas técnicas estatísticas. A correção para este problema é refazer o modelo de negócio ao invés de melhorar os algoritmos da ciência de dados.
A ciência moderna de dados mal usa a ciência estatística. Em vez disso, ele se baseia principalmente em princípios estatísticos que não são considerados como ciência estatística pelos especialistas. Há uma percepção rígida do que é estatística, assim como a sua incapacidade de se adaptar às mudanças.
Para os não estatísticos (cientistas da computação, engenheiros, e assim por diante) é evidente que a ciência de dados tem um componente de estatísticas forte e essencial na ciência de dados. No entanto, quando se fala em recursos humanos, as estatísticas são estatísticas de idade. E as estatísticas antigas quase não são mais usadas na ciência de dados moderna.
Resultados interessantes
Um projeto bem planejado sempre gera bons resultados.
Veja alguns cases recentes e interessantes: