A análise de dados tornou-se crucial para a gestão das empresas hoje em dia. A empresa global de inteligência de mercado International Data Corporation (IDC) estima que os gastos com análise de dados cheguem a US$ 274,3 bilhões até 2022. No entanto, grande parte disso não está sendo empregado de forma inteligente. Segundo estimativa do analista da Gartner Nick Heudecker, 85% dos projetos de big-data terminam em fracasso.
Grande parte do problema é que os números que aparecem na tela do computador assumem uma aura especial de autoridade. Depois que os dados são armazenados nas enormes bases de dados e analisados por meio de software complexos, é raro alguém perguntar de onde eles vêm, como foram modificados, ou se são adequados àquele propósito específico.
A realidade é que, para se extrair respostas úteis dos dados, não adianta aceitá-los sem questionamento. É preciso aprender a fazer perguntas difíceis. Principalmente, é preciso saber como os dados foram originados, que modelos foram utilizados para analisá-los e o que foi ignorado. Acima de tudo, é preciso ir além da utilização de dados apenas para otimizar operações, e passar a alavancá-los para imaginar novas possibilidades.
Podemos começar perguntando:
Como os dados foram originados?
Diz o ditado que a palavra dados é o plural de anedota. Acontecimentos do mundo real, como transações, diagnósticos, entre outras informações relevantes, são registrados e armazenados em massivas torres de servidores. Ainda assim, poucas pessoas se importam em questionar de onde os dados vêm, e, infelizmente, a qualidade e o cuidado envolvidos na sua coleta podem variar muito. De fato, um estudo recente da Gartner revelou que as empresas perdem em média US$ 15 milhões por ano com dados de má qualidade.
Com frequência, os dados estão sujeitos ao erro humano, como, por exemplo, quando cabe a vendedores de lojas mal pagos e desmotivados fazer a verificação de estoques. No entanto, mesmo quando o processo de levantamento de dados é automatizado, pode haver expressivas fontes de erros, como queda de energia intermitente em torres de telefonia celular ou falhas no processo de compensação de operações financeiras.
Utilizar dados de má qualidade ou no contexto errado pode ser pior do que a ausência deles. De fato, um estudo revelou que 65% dos estoques de um varejista estavam imprecisos. Outra preocupação, que ganhou importância crescente desde que a União Europeia aprovou rigorosos padrões de dados seguindo a RGPD, é se houve anuência no momento da coleta dos dados.
Portanto, não se deve simplesmente presumir que os dados que se recebe são precisos e de boa qualidade. É preciso perguntar onde eles foram originados e como são mantidos. Cada vez mais, precisamos auditar as transações de dados com o mesmo cuidado dedicado às transações financeiras.
Como foram analisados?
Mesmo se os dados são precisos e mantidos de forma adequada, a qualidade dos modelos analíticos pode variar de forma muito ampla. Em geral, os modelos são reunidos a partir de plataformas abertas, tais como GitHub, e reaproveitados para uma tarefa específica. Em pouco tempo, as pessoas se esquecem de onde eles vieram ou de como estão avaliando um conjunto de dados específico.
Falhas desse tipo são mais comuns do que se imagina e podem causar enormes prejuízos. Vamos tomar como exemplo o caso de dois importantes economistas que publicaram um trabalho, afirmando que a dívida dos Estados Unidos estava atingindo um nível crítico. O trabalho provocou uma verdadeira uma tempestade política, mas logo se descobriu que havia um pequeno erro na tabela Excel que resultou no exagero do efeito da dívida no PIB.
À medida que os modelos se tornam mais sofisticados e incorporam novos recursos, passamos a enxergar mais e maiores problemas na forma como esses modelos são treinados. Um dos erros mais comuns é o sobreajuste, o que significa que, quanto mais variáveis utilizamos para criar um modelo, mais difícil fica generalizá-lo. Em alguns casos, o excesso de dados pode resultar em vazamento de dados, em que o treinamento se mistura com o teste.
Erros desse tipo podem contaminar até as empresas mais sofisticadas. A Amazon e a Google, para citar apenas dois dos principais casos, passaram por escândalos recentes relacionados a modelos que continham um viés. Assim como fazemos com os dados, precisamos – de maneira constante – fazer perguntas sobre os modelos. Eles são adequados ao propósito para o qual estão sendo utilizados? Estão levando em consideração os fatores corretos? O resultado reflete, de verdade, o que acontece no mundo real?
O que os dados não nos mostram?
Modelos de dados, assim como os seres humanos, tendem a embasar seu julgamento na informação que está mais disponível. Muitas vezes, os dados não disponíveis podem afetar sua tomada de decisão na mesma proporção em que os dados disponíveis. Normalmente, associamos esse tipo de viés de disponibilidade a decisões humanas, mas, muitas vezes, os próprios humanos passam essa tendência para os sistemas automatizados.
Por exemplo, no setor financeiro, as pessoas com grande histórico de crédito têm maior facilidade de acesso a financiamento do que as que não dispõem desse histórico, e que, com isso, têm maior dificuldade para comprar um carro, alugar um apartamento ou obter um cartão de crédito. (Greg, um dos autores deste artigo, passou pessoalmente por este problema, ao retornar aos EUA após 15 anos morando no exterior).
Ainda assim, um cliente com baixo histórico de crédito não significa um histórico de má qualidade. As empresas acabam perdendo clientes potencialmente rentáveis simplesmente por falta de informações sobre eles. Recentemente, a Experian passou a tratar desse problema, ao lançar o programa chamado Boost, que permite que os clientes elevem sua classificação, concedendo-lhes crédito para itens como o pagamento de contas de telefone e serviços essenciais. Até o momento, milhões de pessoas aderiram ao programa.
Portanto, é importante fazer perguntas difíceis sobre o que o seu modelo de dados pode estar deixando passar. Se você está gerindo o que você mede, precisa garantir que o que você está medindo reflete a realidade, e não apenas os dados fáceis de serem coletados.
Como usar os dados para redesenhar produtos e modelos de negócio?
Na última década, aprendemos como os dados podem nos ajudar a administrar os negócios com maior eficiência. Usá-los de forma inteligente nos permite automatizar processos, prever manutenções das máquinas e melhorar o serviço aos clientes. São eles que permitem que a Amazon ofereça entregas no mesmo dia.
Os dados podem se tornar parte importante do próprio produto. Um exemplo famoso disso é a Netflix, que há muito usa a análise de dados inteligente para criar a melhor programação ao menor custo. Isso já rendeu à empresa vantagem importante sobre rivais como a Disney e a WarnerMedia.
Mas, o melhor disso é poder usar os dados para repensar por completo o seu negócio. A Experian, onde Eric trabalha, conseguiu alavancar serviço na nuvem. Antes, oferecia apenas dados processados na forma de relatórios de crédito, e passou oferecer aos clientes acesso em tempo real a dados mais granulares em que se baseiam os relatórios. Pode parecer uma mudança pequena, mas tornou-se uma das áreas de negócio com maior crescimento na empresa.
Já foi dito que a análise de dados é o novo petróleo, mas ela é bem mais valiosa. Os dados são mais do que uma classe de bens passivos. Usados de forma inteligente, podem oferecer uma verdadeira vantagem competitiva e levar uma empresa a rumos totalmente novos. Para tanto, não basta procurar respostas. É preciso aprender a fazer novas perguntas.
Autores:
Eric Haller é vice-presidente executivo e head global da Experian DataLabs, que desenvolve produtos inovadores a partir de experimentos arrojados com inteligência artificial e dados.
Greg Satell é palestrante internacional, consultor e autor do best-seller Cascades: how to create a movement that drives transformational change. Sua obra anterior, Mapping innovation, foi selecionada como um dos melhores livros de negócios de 2017.
Fonte: Harvard Business Review