Teorias e dados - Como essas coisas caminham juntas numa seguradora
No centro de qualquer seguradora, um dos principais desafios é a subscrição e precificação (underwriting and pricing), que é o processo de avaliar a aceitação de um cliente e definir o prêmio para segurar um ativo, respectivamente. Essa decisão é complexa e influenciada por múltiplos fatores, desde as características do bem segurado até as restrições legais aplicáveis.
Em geral, as regras de subscrição e precificação combinam dois grandes componentes: regras de negócio e modelos de Machine Learning (ML).
As regras de negócio seguem definições determinísticas onde, por exemplo, se o usuário tiver a idade inferior a um determinado valor, o preço será mais elevado. Partimos de uma premissa e criamos uma regra a partir dela. A premissa pode ser derivada de intuição, requisitos de produto ou restrições legais.
Modelos de Machine Learning (ML), por outro lado, adotam uma abordagem estatística. Eles são projetados para analisar grandes volumes de dados e identificar padrões complexos, gerando uma função matemática capaz de prever a probabilidade de um evento. Dessa forma, para usuários estatisticamente mais propensos ao risco, preços mais elevados serão definidos. Ao analisar o histórico de sinistralidade da empresa, por exemplo, podemos concluir que a idade do usuário é um fator determinante para o risco.
Embora simples, esses exemplos ilustram dois métodos de trabalho distintos.
Partindo da Teoria (Theory-Driven)
O primeiro método parte de premissas, ideias e conhecimento de negócio para, em seguida, buscar a validação através de dados.
Essa filosofia, que chamamos de theory-driven, segue um ciclo dedutivo: partimos de um modelo teórico, formulamos uma hipótese e a submetemos a testes para confirmá-la ou refutá-la.
flowchart TD A["A - Teoria geral"] --> B["B - Hipótese testável"] B --> C["C - Teste empírico"] C --> D["D - Confirmação ou rejeição"] D --> A
Para entender melhor o fluxo de trabalho, usaremos o exemplo da elaboração de uma nova regra de subscrição e, a partir do diagrama acima, detalharemos as etapas realizadas:
- A - Teoria Geral: Um especialista de underwriting elabora a teoria de que alguns estados são mais fraudulentos do que outros;
- B - Hipótese testável: A partir disso, ele elabora uma hipótese de que se fecharmos o underwriting para um determinado estado, teremos menos sinistros e, consequentemente, menos gastos;
- C - Teste empírico: Com base no histórico da companhia, é possível executar um backtest para simular o impacto financeiro e operacional que a não aceitação de clientes daquele estado teria gerado;
- D - Confirmação ou rejeição: O resultado do backtest indicará a confirmação ou rejeição de tal hipótese, definindo se de fato devemos implementar tal estratégia;
Repare que o teste empírico realizado na etapa C é apenas um exemplo. Em cenários nos quais não temos dados suficientes para realizar um backtest, a regra pode ser colocada no ar utilizando abordagens como teste AB e em “modo sombra”.
Essa abordagem é muito utilizada quando não existem padrões detectáveis nos dados, ou não existem dados suficientes para criar modelos de Machine Learning. Uma outra possibilidade são conhecimentos de especialistas, que não são simples de serem inseridos ou convertidos em modelos baseados nos dados existentes, mas que podem carregar grande assertividade a velocidade para processos numa empresa.
Partindo dos Dados (Data-Driven)
No segundo método, a partir dos dados coletados, tentamos identificar padrões e desenvolver uma teoria. Chamaremos a filosofia por trás desse método de data-driven, uma vez que todo o processo de descoberta parte dos conjuntos de dados.
flowchart TD A["A - Observação empírica"] --> B["B - Padrão detectável"] B --> C["C - Hipótese experimental"] C --> D["D - Teoria geral"] D --> A
Utilizando o mesmo exemplo do processo de subscrição, temos que as etapas realizadas poderiam ser:
- A - Observação empírica: Dada uma base de usuários e o histórico de quais usuários solicitaram sinistro;
- B - Padrão detectável: Com esses dados, usaremos algoritmos de Machine Learning para tentar detectar um padrão;
- C - Hipótese experimental: Tal modelo é validado através de dados não vistos anteriormente e técnicas como testes A/B, buscando alcançar medidas de erro aceitáveis de acordo com o histórico que temos;
- D - Teoria geral: Uma vez validado, temos um modelo que poderá ser usado para indicar se devemos ou não aceitar um usuário.
Note que o ponto de partida se dá a partir de grandes volumes de dados que precisam existir e estarem estruturados de forma que seja utilizável. Como resultado, podemos descobrir insights que teorias existentes não previam, ou até mesmo corroborar tais teorias.
Unindo o Melhor dos Dois Mundos
A popularização do termo “data-driven”, impulsionada pela evolução computacional e pela redução nos custos de armazenamento, por vezes gerou a falsa impressão de que as teorias de negócio preexistentes haviam perdido sua relevância.
Na realidade, tais abordagens constantemente trabalham juntas, e são representadas por papéis bem definidos numa empresa. Para o theory-driven, temos pessoas mais próximas do negócio, normalmente representados por analistas de negócio. Já no data-driven, temos pessoas mais próximas dos dados e de métodos estatísticos que revelem padrões e percepções de fenômenos pouco compreendidos ou muito complexos, comumente representadas por cientistas de dados.
Vale destacar que data-driven não quer dizer ausência de teoria. Da mesma forma que theory-driven não quer dizer ausência de dados. Um cenário comum é usarmos ambas as abordagens em conjunto, uma complementando a outra. Como exemplo, times mais focados em theory-driven sugerem features que são posteriormente incorporadas em modelos estatísticos por times com abordagens mais data-driven.
Além disso, note que os métodos descritos são cíclicos, onde o resultado de experimentos anteriores servem de insumo para novas iterações. Assim, temos processos que se auto-alimentam e colaboram entre si, onde a abordagem theory-driven gera novas perguntas e direciona a coleta/análise de dados para a abordagem data-driven. E, por sua vez, a abordagem data-driven gera novas teorias e insights para validação de negócio.
graph TB subgraph "Abordagem Theory-Driven" direction LR TD_A["A - Teoria geral"] TD_B["B - Hipótese testável"] TD_C["C - Teste empírico"] TD_D["D - Confirmação ou rejeição"] TD_A --> TD_B --> TD_C --> TD_D --> TD_A end subgraph "Abordagem Data-Driven" direction LR DD_A["A - Observação empírica"] DD_B["B - Padrão detectável"] DD_C["C - Hipótese experimental"] DD_D["D - Teoria geral"] DD_A --> DD_B --> DD_C --> DD_D --> DD_A end TD_D --"Gera novas perguntas e direciona a coleta/análise de dados"--> DD_A DD_D --"Gera novas teorias e insights para validação de negócio"--> TD_A
Conclusão
Dessa forma, temos que theory-driven busca confirmar ou refutar modelos existentes, enquanto data-driven explora dados para revelar padrões ainda não explicados. Normalmente, as equipes mais eficazes combinam as duas abordagens em um ciclo contínuo de descoberta e validação.