Podemos prever ataques de tubarão com Ciência de Dados?

Dema proposta de modelo preditivo para o litoral de Pernambuco — o trecho costeiro com mais ataques fatais do mundoscrição do post.

Prof. Msc. Flávio José Ferreira Junior

6/25/20268 min read

No último fim de semana de maio de 2026, dois ataques de tubarão em menos de 48 horas voltaram a colocar Pernambuco no centro de um debate que vai muito além da tragédia individual: seria possível, com os dados que já temos, antecipar quando e onde o próximo ataque vai acontecer? Um menino de 11 anos na Praia de Piedade, em Jaboatão dos Guararapes, e uma jovem universitária de 19 anos na Praia de Boa Viagem, no Recife — duas vítimas, dois membros amputados, e uma pergunta que a Ciência de Dados pode, ao menos em parte, começar a responder.

Pernambuco não é apenas uma estatística brasileira. O trecho costeiro entre Olinda e o Cabo de Santo Agostinho carrega o triste título de um dos litorais com mais ataques fatais de tubarão do mundo. Desde 1992, quando o monitoramento sistemático começou pelo CEMIT (Comitê Estadual de Monitoramento de Incidentes com Tubarões), foram registrados 84 incidentes, com 24 mortes confirmadas — uma taxa de mortalidade de 41%, muito acima da média global de 15%. Esses números não existem no vácuo: eles guardam padrões, e padrões são exatamente o que a Ciência de Dados sabe extrair.

Dados sem análise são apenas números. Dados com análise se tornam aviso de tempestade — ou de tubarão.

O que os dados do CEMIT já revelam

Antes de propor qualquer modelo preditivo, é preciso olhar honestamente para o que 34 anos de registros já nos mostram. A análise dos 59 casos detalhados do banco do CEMIT (1992–2013), cruzada com os ataques mais recentes de 2026, revela padrões robustos e reprodutíveis que constituem a espinha dorsal de qualquer tentativa de previsão.

A lua importa mais do que parece. 62,7% dos ataques registrados ocorreram em lua nova ou lua cheia — as duas fases de maior amplitude de maré no ciclo lunar. Isso não é coincidência: marés mais intensas alteram correntes costeiras, a movimentação de cardumes e, consequentemente, o padrão de busca de alimento dos tubarões-tigre e cabeça-chata que habitam o litoral pernambucano.

A sazonalidade é igualmente marcante. O trimestre julho–setembro concentra 32,3% de todos os ataques históricos, com julho sendo o mês de pico absoluto (9 casos). Não por acaso, o inverno nordestino coincide com o período de maior turbidez das águas — chuvas que carreiam sedimentos dos rios, reduzindo visibilidade e aumentando o risco de confusão entre humanos e presas naturais. A água turva não é apenas desconfortável para banhistas: ela compromete a acuidade visual dos tubarões, que passam a depender mais de outros sentidos, como a linha lateral e o olfato, tornando encontros acidentais mais prováveis.

A concentração geográfica é outro dado que grita. Boa Viagem (40,7% dos casos) e Piedade (28,7%) respondem juntas por quase 70% de todos os ataques. Ambas compartilham uma característica crítica: estão próximas à desembocadura do Rio Jaboatão e à Baía de Suape, cujos estuários funcionam como corredores naturais de deslocamento para o tubarão-cabeça-chata (Carcharhinus leucas) — espécie capaz de sobreviver em água doce e que utiliza esses ambientes para reprodução e caça. A construção do Porto de Suape, iniciada nos anos 1980, alterou permanentemente esses padrões hidrológicos, deslocando os tubarões para mais perto da orla habitada.

A proposta: um modelo preditivo multivariável

O ensaio que motivou este artigo parte de uma premissa simples, mas ambiciosa: se os ataques são correlacionados com variáveis ambientais mensuráveis, então é possível construir um índice de risco diário para cada trecho do litoral pernambucano. Não uma certeza — tubarões não são previsíveis como algoritmos — mas uma probabilidade calculada, semelhante à previsão do tempo: "há 75% de chance de chuva amanhã" não significa que vai chover, mas informa a decisão de levar guarda-chuva.

As variáveis do modelo

Um modelo preditivo robusto para o contexto de Pernambuco precisaria integrar pelo menos quatro categorias de dados:

Dados oceanográficos em tempo real: temperatura da superfície do mar (TSM), turbidez, salinidade, altura e período de ondas, regime de correntes costeiras — disponíveis via INPE/CPTEC, NOAA e boias oceanográficas do PNBOIA.
Dados climáticos e hidrológicos: precipitação acumulada nos últimos 7 dias (índice de turbidez pós-chuva), nível dos rios Jaboatão e Capibaribe, velocidade e direção do vento — dados do INMET e da APAC/PE.
Dados astronômicos: fase lunar (com valor contínuo de iluminação, não apenas categorias), amplitude de maré prevista, horário do nascer e pôr do sol — todos calculáveis com precisão para qualquer data futura.
Dados de pressão humana: estimativa de frequentadores por praia (via dados de mobilidade do Google ou Meta), presença de pescaria artesanal, eventos especiais no litoral — indicadores que modulam o risco de exposição.

Pipeline de dados e modelagem

O fluxo proposto segue seis etapas: coleta de APIs (INMET/NOAA) → ETL e limpeza → feature engineering → treino do modelo de ML → índice de risco diário → alerta público.

O pipeline começa com a ingestão automatizada de dados de múltiplas fontes — uma tarefa rotineira em Python com bibliotecas como requests, pandas e xarray. A etapa de engenharia de features é onde a criatividade do cientista de dados entra: criar variáveis derivadas como "dias desde a última chuva intensa", "desvio da temperatura em relação à média histórica do mês" ou "diferencial de maré nas próximas 6 horas" pode ser mais informativo do que as variáveis brutas.

Quatro famílias de algoritmos são candidatas naturais para essa tarefa:

Random Forest — excelente para capturar interações não-lineares entre variáveis ambientais. Robusto com dados faltantes e interpretável via importância de features. Bom ponto de partida.
XGBoost / Gradient Boosting — maior poder preditivo que o Random Forest em dados tabulares. Ideal para o desequilíbrio de classes, já que ataques são eventos raros e esses modelos lidam bem com isso.
Regressão logística — menos poderosa, mas altamente interpretável. Permite comunicar o risco em termos de odds ratios para gestores públicos sem background técnico. Valiosa como baseline.
LSTM (redes neurais recorrentes) — promissora para capturar dependências temporais complexas, mas exige mais dados do que os atualmente disponíveis para generalizar bem.

O maior desafio técnico desse projeto não é o algoritmo: é o desequilíbrio de classes. Em 34 anos, foram registrados 84 ataques. Comparados ao número de dias em que nenhum ataque ocorreu (mais de 12.000), os eventos positivos representam menos de 1% do universo. Técnicas como SMOTE, ajuste de pesos por classe e o uso de métricas como AUC-ROC e F1-Score (em vez de simples acurácia) são obrigatórias para que o modelo aprenda a identificar o risco real, e não apenas aprenda a dizer "hoje não haverá ataque" — o que seria trivialmente correto mas completamente inútil.

O modelo não precisa ser perfeito. Precisa ser melhor do que a intuição, e comunicável o suficiente para mudar comportamentos.

O dashboard: 34 anos de dados em um painel

Para tornar essa proposta tangível, foi construído um painel interativo com os dados históricos do CEMIT, cruzando fase lunar, sazonalidade, distribuição geográfica e perfil das vítimas. Alguns destaques que ele revela:

62% dos ataques concentram-se entre abril e setembro;
34% ocorreram em lua nova;
90% das vítimas são do sexo masculino;
69% têm entre 14 e 25 anos;
a taxa de mortalidade geral é de 41%.

Explorando os filtros do painel, é possível, por exemplo, isolar todos os ataques em lua nova e verificar que eles se concentram desproporcionalmente em Boa Viagem às quartas e sextas-feiras, sugerindo que variáveis de comportamento humano também importam. Os dados falam, quando você sabe como perguntar.

Por que isso importa além da academia

A proposta aqui não é substituir o trabalho de biólogos marinhos e oceanógrafos — é potencializá-lo. O projeto PROTUBA e seu sucessor ECOTUBA, desenvolvidos pela UFRPE, geraram décadas de conhecimento sobre o comportamento dos tubarões-tigre e cabeça-chata no litoral pernambucano. Em maio de 2026, a FACEPE aprovou R$ 1,05 milhão para a continuação desse monitoramento com telemetria acústica. Esses dados de rastreamento, combinados com séries históricas de ataques e variáveis ambientais, são precisamente o insumo que um modelo de machine learning precisa para deixar de ser especulativo e se tornar operacional.

O objetivo não é prever com certeza: é gerar um índice de risco diário por praia — similar a um índice UV ou previsão do tempo — que permita ao CEMIT priorizar comunicações de alerta, e ao banhista tomar uma decisão informada: "hoje o risco está elevado, o mar está turvo, é lua nova e eu estou próximo ao estuário."

A Ciência de Dados, nesse contexto, opera como uma camada de síntese: ela não cria conhecimento novo sobre tubarões, mas integra o que já sabemos de forma que um gestor público possa agir sobre ele. O alerta poderia ser tão simples quanto uma mensagem nos painéis da Prefeitura do Recife ou uma notificação no aplicativo de monitoramento de praias — "Risco elevado hoje em Boa Viagem: mar turvo, lua nova, condições desfavoráveis." Isso é suficiente para mudar comportamentos e, potencialmente, salvar vidas.

O caminho à frente: uma agenda de pesquisa

Um estudo rigoroso nessa direção precisaria seguir uma agenda clara. O primeiro passo é a consolidação do banco de dados: unificar os registros do CEMIT (1992–2013) com os casos recentes, adicionando variáveis históricas de TSM, precipitação e fase lunar para cada data de ataque — uma tarefa viável com dados públicos do INMET, INPE e serviços astronômicos. O segundo passo é a construção da série de "não-eventos": para cada dia sem ataque, registrar as mesmas variáveis ambientais. Esse contraste é o coração do modelo supervisionado.

Com essa base estruturada, técnicas como Random Forest e XGBoost podem ser treinadas e validadas com rigor metodológico — separando amostras de treino, validação e teste por período, não por amostragem aleatória, para respeitar a natureza temporal dos dados. A métrica final de avaliação não pode ser acurácia simples: deve ser AUC-ROC e precisão do recall para a classe positiva, dado o extremo desequilíbrio entre dias com e sem ataque.

Por fim, o modelo precisa ser comunicável — sua saída não pode ser um número abstrato para pesquisadores, mas um índice de risco visual e compreensível para gestores, salva-vidas e o público. A Ciência de Dados que não consegue se traduzir em ação não cumpre seu propósito social.

Pernambuco tem 34 anos de dados, uma rede de monitoramento ativa, universidades comprometidas com o tema e, infelizmente, um histórico que faz com que cada praia do litoral metropolitano carregue a memória de tragédias que poderiam ter sido evitadas. A pergunta não é mais "há dados suficientes?" — há. A pergunta é: temos a vontade política e científica de conectá-los?

Fontes: CEMIT — Comitê Estadual de Monitoramento de Incidentes com Tubarões (SOBRASA/PE, 2013); CNN Brasil, junho 2026; Diário de Pernambuco, junho 2026; FACEPE, Projeto ECOTUBA/UFRPE, 2026; International Shark Attack File (ISAF), Florida Museum of Natural History; Baldridge, 2025 — "Global systematic review of the factors influencing shark bites", ScienceDirect; Dill & Burgess, 2021 — "Shark Side of the Moon", Frontiers in Marine Science.

Flávio é professor de Ciência de Dados, Arquitetura de Software e Backend com Python na UNINASSAU Recife e na CESAR School. Interessado na interseção entre dados, meio ambiente e políticas públicas, este artigo é um ensaio exploratório sobre o potencial de modelos preditivos aplicados à segurança costeira em Pernambuco.

Contato

Fale conosco para dúvidas ou serviços

contato@neuradata.ia.br