O que você sabe sobre ciência de dados?
Informar-se sobre o tema é uma ótima maneira de compreender melhor a complexidade do mundo no qual vivemos hoje.
Não existe a menor possibilidade de comparar a quantidade de informações a que temos acesso atualmente com o que a humanidade tinha disponível décadas atrás.
É o que chamamos de Era da Informação.
O problema é que estamos falando de tanta informação que excede a capacidade de processamento dos seres humanos.
Para coletar e organizar todos esses dados, só com a ajuda da tecnologia.
Só que as máquinas não fazem isso tudo sozinhas.
São as pessoas que definem diretrizes, estabelecem critérios e podem manusear as soluções tecnológicas.
Além, é claro, de transformar toda essa informação em conteúdo útil, em ação e em resultado.
Dentro desse cenário, o cientista de dados é figura fundamental.
Neste texto, vamos apresentar um bom panorama da área de atuação deste profissional.
Você vai aprender sobre:
- O que é ciência de dados?
- Quem é o responsável por fazer a ciência de dados?
- Qual a diferença entre ciência de dados e análises estatísticas?
- Para que serve a ciência de dados?
- Análise descritiva
- Análise diagnóstica
- Análise preditiva
- Análise prescritiva
- Qual a importância da ciência de dados?
- A ciência de dados nas empresas
- Benefícios da ciência de dados nas empresas
- Desafios da implementação da ciência de dados
- Como se dá o processo da ciência dos dados?
- O (Obter dados)
- S (Suprimir dados)
- E (Explorar dados)
- M (Modelar dados)
- N (Interpretar resultados)
- Principais aplicações da ciência de dados
- Ciência de dados e Big Data
- A prática profissional de um cientista de dados
- Perfil de um cientista de dados
- Qual é o salário de um cientista de dados?
- Quais são as principais atribuições de um cientista de dados?
- Como funciona o mercado de trabalho para um cientista de dados?
- Ciência de dados na FIA.
Acompanhe até o final para saber o que é ciência de dados na prática e usar no dia a dia!
Leia também:
- Gestão de Dados: o que é, princípios e 7 táticas eficientes
- Big Data: como funciona, exemplos, importância e desafios
- Engenharia de Dados: Tudo que você precisa saber
O que é ciência de dados?

A ciência de dados é o uso de diversas tecnologias, modelos e metodologias para capturar, armazenar e processar informações, gerando valor a um negócio.
Essa é a definição de Alessandra Montini, professora de Métodos Quantitativos e Informática na Faculdade de Economia, Administração e Contabilidade (FEA) da USP e coordenadora do Laboratório de Análise de Dados (Labdata) da FIA Business School.
Segundo ela, estamos falando de uma ciência completa.
Um cientista de dados precisa saber capturar, armazenar e processar com várias tecnologias.
Não pode saber uma ou duas, tem que saber o máximo possível.
Para a professora, o profissional que domina uma ou duas tecnologias para capturar e processar dados é um especialista, e não um cientista.
Ela argumenta que, na ciência de dados, também há preocupação com o armazenamento de dados e com a segurança na nuvem e no data lake da empresa.
A forma como as informações são guardadas sugere a modelagem do sistema.
Depois da captura e do armazenamento, entra a fase de preparação dos dados, na qual a validade e veracidade das informações são verificadas.
É importante observar que o cientista de dados não vai fazer essa verificação em cada informação contida na base de dados.
Em vez disso, ele se concentra em atestar se as fontes são confiáveis e deixa para os algoritmos o trabalho de validar as informações e dar a elas o destino adequado.
É isso que torna possível processar uma quantidade tão grande de dados em tão pouco tempo.
Quem é o responsável por fazer a ciência dos dados?
A partir do que vimos, é papel do cientista de dados fazer ciência a partir das informações coletadas e armazenadas em data lakes.
Como bem destacou a professora Alessandra Montini, o ciclo de atividades desse profissional deve ser completo.
Ele está envolvido desde a definição dos processos e métodos de prospecção de dados até o seu tratamento para extração de insights.
Sendo assim, o cientista de dados é quem cuida de coletar quantidades de dados não-estruturados massivos, transformando-os em informação útil.
Ele faz isso conforme as diversas demandas de negócios das empresas para as quais pode trabalhar, usando linguagens de programação, como Python, C e R.
Também precisa ter conhecimentos sólidos em ferramentas e processos de análises estatísticas, o que pode fazê-lo ser confundido com um estatístico.
Ainda que pareça uma atividade solitária, na verdade, acontece o contrário. Afinal, no seu dia a dia, o cientista de dados sempre faz parte de equipes, seja coordenando ou sendo coordenado.
Qual é a diferença entre ciência de dados e análises estatísticas?
A relação entre ciência de dados e estatística é como entre conteúdo e continente.
Isso porque a estatística consiste em uma das disciplinas usadas para analisar e modelar dados, sem se voltar necessariamente para a captura e armazenamento de informação.
Ou seja, a ciência de dados utiliza a estatística como uma de suas ferramentas para extrair informação de dados em estado bruto.
Em todas as etapas dos seus processos, ela utiliza algoritmos avançados de Inteligência Artificial, Machine Learning e Deep Learning, entre outras técnicas.
Assim, podemos dizer que a análise de dados é a parte final do trabalho de ciência de dados na prática.
Em Big Data, os dados, por si só, não dizem nada, mesmo que estejam armazenados, classificados e segmentados de várias maneiras.
O que dá valor a eles é a capacidade de relacioná-los com a realidade que se tem interesse em analisar, identificando problemas e oportunidades para uma empresa, por exemplo.
Portanto, cabe ao analista de dados conhecer a estatística aplicada e, pelo menos, o básico de Machine Learning para desempenhar suas funções.
Para que serve a ciência de dados?

Hoje em dia, os dados estão tão presentes na rotina de uma empresa que nenhuma área fica alheia a eles.
Práticas da ciência de dados são aplicadas nos setores de produção, além de vendas, marketing, comunicação, financeiro, jurídico e qualquer área que você possa imaginar.
Seja qual for o contexto, há sempre um objetivo proposto, de modo que a ciência dos dados nunca pode perder o alinhamento com a estratégia da empresa.
“São geradas muitas soluções e escolhida a melhor delas com base em métricas definidas inicialmente“, explica Alessandra Montini.
Assim, chega-se à chamada solução ótima, aquela que apresenta o melhor desempenho em determinado contexto.
A ciência de dados é um meio de encontrá-la e colocá-la em produção.
Veja, a seguir, quatro tipos de análise nas quais essa ciência se aplica.
Análise descritiva

Um dos tipos de análises que podem ser feitas a partir dos dados é aquela na qual tendências são identificadas a partir de certos padrões.
Essa é a essência da análise descritiva, que não parte de hipóteses ou de teorias, mas da observação do que os dados mostram.
Nela, o cientista de dados se dedica a organizar e tabular os dados para, com base nisso, apresentar resultados.
As análises descritivas são feitas por meio de cálculos para compor e distribuir as variáveis em questão, as quais apontam para certos tipos de tendência.
Um exemplo clássico desse tipo de análise é a que se faz para estabelecer diferenças estatisticamente significativas entre grupos de interesse.
Por exemplo: será que as mulheres consomem mesmo mais xampu do que os homens?
Análise diagnóstica
O termo diagnóstico é formado pelo sufixo “dia”, que significa “por meio de” e “gnosticu”, que remete “ao conhecimento de algo”.
Na medicina, diagnosticar significa conhecer uma doença pela observação dos seus sintomas.
Na ciência de dados, o termo é usado para designar um tipo de análise com a qual se busca encontrar relações de causa e efeito para certos fenômenos.
Diferentemente da análise descritiva, na diagnóstica, o cientista não usa os dados só para interpretar a realidade, mas também para modificá-la.
Ela utiliza muito mais ferramentas e técnicas baseadas em probabilidades, de modo a esgotar as possibilidades de diagnóstico, como faz também a medicina.
Em muitos casos, o cientista de dados terá que trabalhar mais para eliminar hipóteses do que para diagnosticar diretamente um problema.
Análise preditiva
É muito comum haver certa confusão entre previsão do futuro e o que se faz nas análises preditivas.
Ainda que elas de fato sirvam para antecipar o que está por vir, isso não quer dizer que sabem exatamente o que o futuro nos reserva.
O que torna esse tipo de análise confiável é que ela não prevê os acontecimentos, mas aponta para o que pode acontecer se certas condições forem satisfeitas.
As empresas fazem muito esse tipo de análise quando querem saber o que fazer se um certo concorrente entrar no mercado.
Dessa forma, elas antecipam possíveis consequências, caso essa ameaça de fato se concretize, ajudando assim seus gestores a tomar melhores decisões.
Um aspecto importante desse tipo de análise é que, nela, a ciência de dados trabalha a partir de correlações, podendo assim apontar para probabilidades.
Análise prescritiva
Ferramentas estatísticas e recursos como Machine Learning não seriam tão úteis se eles também não orientassem sobre o que fazer a partir dos resultados das análises.
Para isso, são realizadas na sequência das análises preditivas as chamadas análises prescritivas.
A finalidade, nesse caso, é determinar o que pode ser realizado a partir das previsões e insights obtidos, considerando os fatores internos e externos.
Nesse tipo de análise, as soluções baseadas em Inteligência Artificial e Machine Learning são ainda mais necessárias, tendo em vista as muitas possibilidades que elas podem indicar.
Isso porque as predições sugerem o que pode acontecer sem considerar os objetivos em jogo, as características de uma empresa, suas debilidades e riscos externos.
A análise prescritiva coloca esses e outros fatores na balança, de modo a estabelecer ligações com outros tipos de análises a fim de orientar o processo decisório.
Qual a importância da ciência de dados?
Com tantos dados relevantes à disposição, um gestor tem muito mais subsídios para tomar suas decisões.
Ele encontra insumos confiáveis e precisos com grande agilidade, diferente de quando os profissionais precisavam usar sobretudo da intuição ou, então, encomendar pesquisas demoradas, onerosas e nem tão precisas assim.
O mundo está se tornando cada vez mais “data driven”, ou seja, orientado por dados, de modo que não é mais possível tomar a decisão correta sem analisar esse volume gigantesco de informação disponível.
Afinal, se você não o fizer, pode ter certeza de que a concorrência está fazendo e, assim, terá uma importante vantagem em relação ao seu negócio.
A ciência de dados nas empresas

O desenvolvimento tecnológico anda a galope.
As mudanças estão mais rápidas do que nunca, o que exige um modelo novo para cada caso.
A professora da FIA observa que, por isso, as empresas não estão mais aceitando pagar milhões por soluções prontas.
Em vez disso, precisam desenvolver internamente a expertise da ciência de dados na prática.
É o que permite chegar à melhor solução a partir de um conhecimento íntimo do negócio.
Por isso, como falamos antes, o trabalho do cientista de dados não está dissociado do pensamento estratégico de gestão.
Dessa forma, ao contrário do que muitos pensam, os algoritmos não vão desumanizar a gestão das empresas.
Na realidade, eles permitem que os profissionais ocupem o seu tempo com tarefas ainda mais humanas, que as máquinas não são capazes de executar.
Benefícios da ciência de dados nas empresas
Para 2025, estima-se (conteúdo em inglês) que o mercado em Big Data deva gerar receitas na casa dos US$ 68 bilhões.
A ciência de dados tem pela frente um árduo trabalho, já que é seu papel direcionar o uso que as empresas fazem do colossal volume de dados disponível online.
A propósito, em 2025, esse volume deverá alcançar a marca de incríveis 181 zetabytes.
O tempo vem mostrando que Big Data é realmente uma mina de ouro, que precisa ser explorada para gerar as riquezas esperadas.
Essa exploração, por sua vez, não só torna as empresas mais rentáveis, como traz também uma série de vantagens, como:
- Desenvolvimento da Inteligência de Mercado (Business Intelligence)
- Menos exposição aos riscos externos e internos
- Atração de investidores mais qualificados
- Aumento da qualidade dos produtos e serviços e, em consequência, da satisfação dos clientes
- Colaboradores mais engajados, graças à aplicação das análises para melhorar programas de benefícios e estipular salários compatíveis com suas expectativas.
Desafios da implementação da ciência de dados
A pesquisa NewVantage Partners Big Data and AI Executive 2019 (em inglês) revela que 92% das empresas aumentaram seus investimentos em Big Data e AI.
Destas, 38% não obtiveram os resultados esperados, pelo menos não de uma forma mensurável.
Converter os esforços em lidar com o Big Data em resultados tangíveis é, portanto, um dos desafios que os cientistas de dados têm pela frente.
Outro obstáculo é tratar do aumento em escala exponencial do volume de dados circulante, que segundo um relatório da IDC (também em inglês), dobra a cada dois anos.
Em um país como o Brasil, em que boa parte das empresas não são amadurecidas digitalmente, muitas organizações sequer estão a par do Big Data e do que ele representa.
Nesse contexto, surge um outro desafio, o da geração de insights a tempo de gerar resultados rápidos.
Esse é um dos desafios previstos na Pesquisa Global de Gestão de Dados da Serasa Experian.
Como se dá o processo da ciência dos dados?
Toda ciência tem o seu modus operandi – e com a de dados não é diferente.
A base dos seus resultados vem dos projetos, que se estruturam em um framework de trabalho próprio conhecido pelo acrônimo OSEMN.
Vamos ver a seguir o que cada um de seus termos significa.
O (Obter dados)
A ciência dos dados começa por eles, é claro.
Nesta etapa, o cientista consulta os bancos de dados disponíveis, usando MySQL para o processamento da informação.
Os dados podem ser recebidos em diferentes formatos, incluindo o bom e velho Excel.
Para os que dominam as linguagens Python ou R, há pacotes específicos que podem ler dados dessas fontes diretamente em seus programas, agilizando o processo.
Mas há muito mais bancos de dados com que se pode trabalhar.
Os mais comumente usados são o PostgreSQL, Oracle ou bancos de dados não relacionais (NoSQL), como o MongoDB.
Outra maneira de obter dados é “raspar” os sites, usando ferramentas como o Beautiful Soup.
Conectar-se a APIs da internet é outra opção popular para coletar dados.
Redes sociais como Facebook e Twitter, por exemplo, permitem que os usuários se conectem aos seus servidores web e acessem seus dados via API.
A etapa da coleta exige do cientista de dados conhecimento nas ferramentas e soluções para trabalhar com Big Data, sendo as mais famosas: Apache Hadoop, Spark ou Flink.
S (Suprimir dados)
Nesta segunda etapa, os dados são depurados, o que leva boa parte deles a serem suprimidos.
Nesse processo, realiza-se a conversão dos dados de um formato para outro, consolidando-os em um formato padronizado.
Por exemplo, se os seus dados estiverem armazenados em vários arquivos CSV, é necessário consolidá-los em um único repositório, para que possam ser processados e analisados.
A depuração de dados também implica extrair e substituir valores.
Se você perceber que há conjuntos de dados ausentes ou eles podem parecer não valores, é nesta etapa que eles devem ser substituídos.
Outra tarefa inerente a essa fase é a de divisão, mesclagem e eliminação de colunas em arquivos no formato Excel.
Por exemplo, em uma planilha contendo dados sobre o local de origem, você pode ter colunas para “Cidade” e “Estado”.
Dependendo dos requisitos, talvez seja necessário mesclar ou dividir dados de mesma natureza.
E (Explorar dados)
Agora é a vez de examinar os dados antes que eles possam ser tratados com as soluções em Machine Learning e AI.
É onde o cientista inspeciona os dados e suas propriedades, considerando suas características.
Diferentes tipos de dados como números, categorias, dados ordinais e nominais, por exemplo, demandam tratamentos diferentes.
O próximo passo é computar estatísticas descritivas para extrair características e testar variáveis, por meio de testes por correlação.
Um exemplo desse tipo de análise é a que mensura o risco de alguém ter pressão alta considerando sua altura e peso.
M (Modelar dados)
Nesta etapa avançada, uma das primeiras coisas a serem feitas é reduzir a dimensionalidade do seu conjunto de dados, já que nem todos são essenciais para elaborar um modelo.
Aqui, o cientista de dados pode trabalhar com um outro profissional muito importante, o engenheiro de dados.
A modelagem é usada para agrupar dados, de modo que se possa entender a lógica por trás dos “clusters”, ou seja, grupos de dados com uma ou mais características em comum.
N (Interpretar resultados)
Na fase final do processo em ciência de dados, é feita a apresentação dos resultados, que devem ser inteligíveis para pessoas leigas.
Uma habilidade essencial nesta etapa é a capacidade de contar uma história, de modo a despertar algum tipo de reação nas pessoas.
Por isso, o cientista de dados deve ser alguém capaz não só de ler e interpretar dados, como de comunicá-los com clareza e empatia.
Principais aplicações da ciência de dados
Pensar que a ciência de dados se ocupa apenas de números seria um grande equívoco, como acabamos de ver.
Texto, imagem, sons e movimentos também são considerados dados.
É só uma questão de aplicar a tecnologia certa para capturar, armazenar e processar cada tipo de informação.
A seguir, confira alguns exemplos de aplicações práticas da ciência de dados.
- Texto: algoritmos podem ler em qualquer idioma e apresentar um resumo traduzido do conteúdo. Útil na área médica, na área de direito, marketing, jornalismo, segurança pública e outras áreas
- Imagem: a análise automatizada de imagens acelera a detecção de doenças e reduz o tempo no hospital, auxilia na busca de pessoas perdidas e criminosos, facilita a análise do padrão de consumo dos clientes e marcação de ponto nas empresas, etc.
- Som: a captura e análise de informações sonoras pode ser usada por robôs de atendimento, no diagnóstico de doenças e para descobrir a opinião dos clientes
- Previsões: a ciência de dados permite prever vendas, faturamento, acessos ao site, reclamações, visitas a um ponto de venda, comportamento do usuário, etc.
- Segmentação: criando grupos de clientes, fornecedores, alunos, colaboradores, usuários, etc, de acordo com determinados critérios de similaridade, é possível obter insights preciosos e criar ações segmentadas
- Classificação: o público pode ser classificado de várias maneiras, com base em dados passados. Por exemplo: portadores ou não de uma doença, compradores ou não de um produto ou serviço, terão sinistro ou não, deixarão a empresa ou não, processarão a empresa ou não, gostarão ou não da nova função e por aí vai
- Cesto de compras: com base nos hábitos de um cliente, é possível sugerir um cesto de compras. Por exemplo: se o cliente comprar carvão e carne, então, comprará cerveja também
- Social Network Analysis (SNA): ajuda a mapear líderes e seguidores em uma rede de relacionamentos
- Business Intelligence (BI): por meio de gráficos, é possível mapear os dados importantes da empresa. O país, estado, cidade, vendedor ou ponto de venda que mais gera receitas para cada produto, por exemplo
- Geolocalização: por meio de mapas, é possível identificar os padrões geográficos de vendas, reclamações, sinistralidade, doenças, etc.
Ciência de dados e Big Data

Big Data tem tudo a ver com a ciência de dados, mas não é uma área do conhecimento e nem uma profissão.
Big Data é um conjunto de metodologias utilizadas para a captura, armazenamento e processamento de informação.
Ou seja, o trabalho do cientista de dados está aí.
No Big Data, são processados dados estruturados e não estruturados em um sistema escalável, isto é, em que o número de máquinas aumenta conforme a necessidade.
A prática profissional de um cientista de dados
Cientista de dados é o profissional que estuda e trabalha com ciência de dados.
Para ser classificado como tal, ele precisa ter um conhecimento completo, que envolve desde a captura de dados até a modelagem.
É uma profissão com muitas exigências técnicas.
Afinal, como destacou a professora Alessandra Montini, aquele que domina apenas uma ou duas tecnologias de captura e processamento de dados não é um cientista, e sim um especialista.
Perfil de um cientista de dados
Estamos falando de uma área bastante tecnológica e que envolve cálculos, estatísticas e algoritmos.
Quem não se dá bem com números e ciências exatas em geral, portanto, talvez não tenha o perfil ideal para a profissão.
Mas há uma particularidade importante: a ciência de dados exige um equilíbrio entre a técnica e o pensamento estratégico, a capacidade de compreender a relação dos dados com os desafios das pessoas e organizações.
Quanto às soft skills, o cientista de dados precisa gostar de aprender e de encarar novos problemas, além de saber se comunicar com clareza.
Essas características são mais importantes do que qual graduação o profissional cursou.
Qual é o salário de um cientista de dados?
Com base nos conhecimentos exigidos, dá para imaginar que um cientista de dados pode ser bem remunerado.
No Vagas.com, a média salarial informada para o Brasil é de R$ 6.144,00, enquanto no Glassdoor, essa média sobe para R$ 8.311,00.
Lembrando que esses valores se referem a uma média nacional, ou seja, podem variar muito dependendo do porte da empresa e da região.
É possível ganhar mais que o dobro disso em uma grande empresa em uma metrópole, por exemplo.
Quais são as principais atribuições de um cientista de dados?
O trabalho de um cientista de dados envolve a gestão de dados, o que inclui a captura, o armazenamento e o processamento das informações de interesse da empresa.
A partir daí, ele deve trabalhar para extrair valor desses dados, e o faz gerando vários modelos e comparando-os para chegar a uma solução ótima.
Para qualificar continuamente seu trabalho e dar sequência ao seu desenvolvimento pessoal, é fundamental que o cientista de dados esteja sempre estudando novas tecnologias.
Afinal, como mencionamos no início do texto, as linguagens e tecnologias mudam constantemente.
Como funciona o mercado de trabalho para um cientista de dados?

O cientista de dados é um profissional bastante valorizado pelo mercado de trabalho.
Devido à importância do ofício, que já destacamos aqui, mas também ao fato de que não há uma oferta tão grande de mão de obra com essa especialidade.
Empresas de tecnologia ainda são mais propensas a apostarem na ciência de dados, mas cada vez mais enxergamos companhias das mais diversas áreas contratando profissionais com esses conhecimentos.
Ciência de dados na FIA
A FIA já está no futuro e disponibiliza para os seus alunos as modernas instalações do Labdata para formar cientistas de dados à frente do seu tempo.
Nesse verdadeiro centro de excelência em ensino, você se prepara para ser um verdadeiro solucionador de problemas ao fazer cursos como:
- Pós-graduação em Análise de Dados, Data Mining e Inteligência Artificial, com foco na modelagem usando estatística aplicada e AI
- Análise de Dados para Tomada de Decisão, no qual formamos profissionais data driven
- Análise de Dados para Internet das Coisas – IOT, em que você aprende os segredos dos dispositivos geradores de dados
- Análise de Dados Aplicada ao Setor Jurídico, curso voltado à inteligência de negócios para os que atuam na área do Direito.
Conclusão
Neste conteúdo, você aprendeu o que é ciência de dados, seus benefícios e melhores práticas.
Se você está querendo saber como trabalhar como um cientista de dados, a resposta já deve ter ficado clara ao longo do texto, não?
Não há como atuar na área sem muito estudo.
É preciso ter uma base teórica muito forte, tanto no conhecimento de linguagens de programação quanto em modelagem.
O curso de graduação mais comum entre os cientistas de dados é o de Ciências da Computação.
Mas essa não é uma regra.
O mais importante é que o profissional tenha sede pelo aprendizado constante e por resolver problemas.
Com tantas exigências e um perfil tão distinto, é natural que essa seja uma profissão bastante valorizada no mercado de trabalho.
Se você deseja seguir uma carreira nessa área, prepare-se para receber muitas propostas de emprego.
Não sem antes se dedicar muito.
Quer saber por onde começar? Acesse o site e conheça um pouco mais sobre o Labdata da FIA.
Se ficou com alguma dúvida ou tem algo a acrescentar sobre o assunto, deixe um comentário abaixo ou entre em contato conosco!