Porque investir em Ciência de Dados?

Se você está em uma estrada desconhecida, você prefere usar o sinal do GPS para se localizar em um mapa ou seguir em uma direção aleatória? Para chegar ao seu objetivo com maior agilidade e de modo mais fácil, é melhor respaldar suas decisões usando a ciência. No caso da sua empresa, na Ciência de Dados.

O que é ciência de dados?

A Ciência de Dados é um método para coletar e trabalhar com dados estruturados e não estruturados, usando abordagens que vão desde a análise estatística até a Inteligência Artificial, o que inclui o Machine Learning. Um primeiro passo é o de montar gráficos com os dados disponíveis para analisar a empresa por esse ponto de vista, investigar os problemas e examinar previsões e soluções. Embora o conceito seja parecido com o de Business Intelligence, a ciência de dados é interdisciplinar, pois incorpora conhecimentos das áreas de estatística, matemática, data mining e análises preditivas.

O uso de inteligência artificial é cada vez mais comum, com o objetivo de fazer o computador detectar automaticamente padrões que muitas vezes os seres humanos fariam de modo mais demorado e impreciso. Dentro dessa área, estão o machine learning e o data mining – veja mais sobre esses conceitos no post Conceitos em Machine Learning. Assim, note que essa área vai muito além de emitir um aviso de voz avisando que está na hora de fazer alguma tarefa.

Como a ciência de dados pode ajudar no seu negócio?

Uma das formas de uma empresa se destacar de outras de seu segmento e crescer, ou mesmo criar um novo segmento, é com inovação. Mesmo que não tenha muita ambição, apenas para o seu negócio continuar funcionando em um mercado cada vez mais competitivo, é preciso otimizar processos para reduzir despesas e aumentar as receitas através de, por exemplo:

  • mais agilidade nos negócios
  • automatizar processos
  • melhorar a relação com os clientes
  • evitar desperdícios
  • diminuir riscos financeiros
  • antecipar tendências
  • identificar padrões no comportamento dos consumidores
  • desenvolver novos produtos
  • detecção de fraudes em transações financeiras
  • e vários outros modos.

Um exemplo comum é o uso de séries temporais da venda de produtos e de outras variáveis que influenciam no volume de vendas para fazer uma previsão de cada produto. Isso permite o planejamento da produção e distribuição, gerando economia de estoque, com melhor utilização dos recursos disponíveis e maximização do faturamento. No caso das vendas no varejo, também é possível usar a informação gerada para estipular o melhor momento de fazer uma oferta/promoção, mesmo para diferentes regiões ou até grupos de consumidores.

Uma empresa produtora de bebidas já conseguiu, através de um algoritmo para otimizar as rotas de seus caminhões, reduzir o roubo de cargas em 20%. Empresas de contabilidade usam programas que reconhecem padrões em lançamentos contábeis para verificar possíveis erros, atuando assim no aumento da automação, redução de falhas e liberando os funcionários para tarefas mais intelectuais e menos mecânicas. Bancos e financeiras já fazem uso de algoritmos usando aprendizado de máquina para classificar transações com o objetivo de descobrir se elas podem ser fraudulentas. Carros autônomos usam outros algoritmos, mas também baseados em aprendizagem de máquina, para guiar o automóvel sem gerar acidentes. Os exemplos são vários e não param de surgir.

Um ponto que poderia desencorajar um diretor a contratar uma assessoria externa em ciências de dados é a questão de confidencialidade da informações que refletem o funcionamento e a situação da empresa. No entanto, além do contrato garantindo a confidencialidade entre as partes, os dados podem ser “mascarados” para não revelarem os números exatos, sem que a análise seja prejudicada. Também é possível fornecer valores sem informar exatamente de que se trata.

Todas as empresas estão se transformando digitalmente, o que gera muitas informações que podem ser usadas na otimização de diversos procedimentos, incluindo vendas. E são nesses dados que o profissional da área vai trabalhar. Muitas vezes, a quantidade de dados é imensa, o que entra no ramo de Big Data. Isso mostra a necessidade de quem trabalha com ciência de dados ter conhecimentos suficientes de estatística e de programação.

O que faz um cientista de dados?

Dentre os profissionais mais requisitados para trabalhar nessa área (que não possui uma graduação específica) estão profissionais de exatas (Física, Matemática, Ciência da Computação), Ciências Sociais e Economia. Pessoas que tiveram experiência em pesquisa, como mestres e doutores, são capazes de fazer uma pesquisa muito profunda sobre um tópico e de disseminar essa informação para os outros.

Assim, é valorizado o currículo de quem já tem uma vivência acadêmica. Isso porque o cientista vive de aplicar o método científico: um conjunto de regras básicas dos procedimentos para se produzir um novo conhecimento, correção ou complementação. O esquema abaixo mostra um pouco sobre seu funcionamento – para conhecer mais sobre o método científico, veja o artigo sobre artigo científico.

Esquema de funcionamento do método científico. fonte: Wikipedia

Como a ciência de dados requer alguma experiência em domínio de negócios, o papel de um cientista de dados varia dependendo da indústria. Geralmente, esse conhecimento é adquirido nas próprias empresas em que o cientista já trabalhou ou ainda trabalha.

De modo geral, é necessário analisar os dados de uma questão a ser trabalhada para então propor soluções e resolver problemas (ou propor melhorias). Analogamente, você pode tomar um remédio anti inflamatório todos os dias para não sentir a dor de uma inflamação, mas se não investigar e descobrir a causa para então focar em sua cura, vai gastar tempo e dinheiro com remédios e gerar outros problemas, como sobrecarregar rins, fígado e outros problemas colaterais.

Como o próprio nome da área diz, quanto mais dados o cientista possuir para analisar, maior a chance dos resultados serem de boa qualidade e permitirem melhores decisões. Algumas análises necessitam poucos dados, mas outras exigem milhares de amostras para se obter um resultado plausível – esse é o caso de algoritmos baseados em aprendizado de máquina.

Uma das tarefas de um cientista de dados, e que toma boa parte do tempo de trabalho, é o de organizar os dados de entrada para seus modelos numéricos. Muitas vezes, essa informação está em arquivos não estruturados (como arquivos PDF ou imagens), interfaces que necessitam da intervenção humana para extrair valores, planilhas com macros muito específicas, etc. Portanto, quanto mais próximo os dados estiverem de uma formatação estruturada (como arquivos de texto em formato CSV ou JSON ou APIs de consulta), mas rápido é o trabalho. Isso acaba sendo mais importante ainda em projetos que exijam uma atualização constante dos resultados.

A extração, o tratamento e as análises através de métodos estatísticos e modelos classificatórios ou preditivos costumam ser realizados em interfaces ou scripts que usam uma ou mais linguagens de programação. Para um pequeno volume de dados, planilhas Excel podem ser suficientes, mas para automatizar tarefas e trabalhar com um grande número de dados, é fundamental que estejam estruturados para servirem de entrada nos programas escritos. Atualmente, as linguagens mais usadas são Python, R e SQL.

Os resultados finais também podem ser gerados com essas linguagens, geralmente com foco na mensagem. Quanto mais tempo é usado para personalizar visualmente arquivos de saída e gráficos, menos foco acaba sendo dado aos valores e às análises.

O que NÃO faz um cientista de dados?

O foco do cientista de dados é o de encontrar as relações que melhor expliquem o comportamento da variável estudada e prever os melhores valores possíveis. Assim, quanto mais tarefas fora desse escopo forem adicionadas às obrigações do cientista, menos tempo será dedicado ao seu trabalho principal. Além disso, os conhecimentos adquiridos em sua formação estão voltados para resolver problemas que não são necessariamente de outras áreas. Por exemplo:

  • tarefas relacionadas à instalação e manutenção de sistema operacional e softwares costumam ser especialidade dos trabalhadores de TI (tecnologia da informação)
  • criação e manutenção de interfaces para visualização e manipulação da informação gerada em plataformas web e aplicativos geralmente são feitas por desenvolvedores web (front end)
  • estruturação eficiente de scripts operacionalmente usados, além da geração de arquivos em formatos muito específicos, são a especialidade de programadores (desenvolvimento back end)
  • questões relacionadas ao tráfego da informação entre computadores e manutenção do hardware em si é o trabalho de técnicos de rede e de manutenção de computadores

Para conhecer mais sobre o trabalho de um cientista de dados, clique no link.

Quando você está estruturando uma área de dados em uma empresa, você terá um trabalho mais voltado a engenharia de dados do que ciência. Não é possível criar ciência sem estruturas. Antes de começar a plugar o Watson até na cafeteira, você precisa fazer um trabalho menos sexy: organizar seus dados.

Como NÃO contratar um Cientista de Dados – Medium

Jornalismo de dados

Jornalistas podem fazer uso de dados (estruturados ou não) para extraírem informações e fazerem uma reportagem. É como se, em vez de entrevistar um a pessoa, entrevistasse o conjunto de dados. Essa “entrevista” deve acontecer na linguagem dos números, ou seja, usando estatísticas que representem adequadamente os valores, manipulando planilhas e outros arquivos de dados, montando gráficos e cruzando tudo com conhecimentos específicos de legislação, sociologia, engenharia, etc.

Esse tipo de profissional deve ser cada vez mais requisitado, já que as fontes de dados estão cada vez mais disponíveis. Um exemplo é a lei de acesso à informação, que permite obter dados sobre o destino do dinheiro do contribuinte e as ações tomadas pelos políticos. Desde 2010, o site Wikileaks libera muita informação sobre diversos governos e empresas do mundo todo. Um jornalista de dados precisa de ferramentas computacionais e insights para pode extrair boas reportagens, pois boa parte dessa informação está em arquivos de áudio, imagens e outras formas não-estruturadas a serem trabalhadas.