[BR/PT] Publicação científica sobre Previsão de Séries Temporais para Estação de Tratamento de Efluentes utilizando ARIMA e ETS.
O projeto tem por objetivo utilizar os dados existentes nas entidades P1 e P2 da estação de tratamento de efluentes durante o período de 2012 a 2018 para ajustar a modelos de análise de série temporal e prever o comportamento das séries no ano seguinte (2019).
A entidade P1 é o local de entrada do sistema de tratamento, contendo os parâmetros do esgoto bruto que chega na estação.
A entidade P2 é o ponto de saída do sistema de tratamento, com os parâmetros do esgoto tratado.
Comparação da eficácia entre os modelos
Serão lidos os dados tratados da fase de EDA e verificada a persistência de observações anômalas. Caso existam, serão removidas da fase de modelagem. A remoção será executada pelo algoritmo Isolation Forest. A remoção de dados anômalos funcionará como um filtro para dados que eventualmente poderão enviesar a interpretação dos modelos de análise temporal, devido a pequena quantidade de registros (< 100).
As observações removidas pela etapa anterior serão substituídas pela média ponderada anual para cada intervalo, utilizando o algoritmo k-Nearest Neighbors com k=11, utilizando o método de distância euclidiana.
Será realizada comparação entre as séries com registro anômalo e as com valores imputados a fim de identificar se os valores alterados impactaram negativamente na interpretabilidade da série original ou se melhoraram o ajuste aos modelos de análise temporal.
As séries temporais serão decompostas em tendência, sazonalidade e ruído.
As séries temporais serão ajustadas para cada um dos modelos contidos nos tipos:
Modelos:
Obs 1: os métodos Holt-Winters utilizam transformação Box-Cox prévia e nível de suavização
Obs 2: O modelo ETS mais preciso será definido pela menor raiz do erro médio quadrado (RMSE) encontrada na diferença entre o modelo e os dados de treino.
Obs: O modelo ARIMA mais preciso será definido pelo menor Critério de Informação Akaike (AIC) encontrado.
Gerar previsão para os próximos 12 meses utilizando cada um dos modelos ajustados aos dados de treino.
Trazer o melhor resultado de cada um dos tipos de modelo (ETS, ARIMA) e realizar comparação com os demais tipos (ETS, ARIMA e Prophet) para verificar qual foi a melhor previsão dos dados observados.
O resultado da comparação entre os modelos mais bem ajustados pode ser verificado de acordo com a entidade:
Os dados de origem são tabulares, provenientes de análise laboratorial e anotações realizadas por profissional laboratorista.
A maior parcela dos dados são variáveis contínuas, todas as observações das variáveis estão acompanhadas de rótulo com data.
Os dados são provenientes de ensaios laboratoriais, são revisados e já foram utilizados anteriormente para emissão de relatórios. Podem conter falha de digitação, falha de leitura, falha operacional ou escala alterada.
Os dados estão fragmentados em diversos documentos dispostos de forma tabular e preenchidos de forma distinta ao longo do tempo, não possuem normalização ou uniformidade. Será feita a união dos dados por tentativas, inicialmente serão agrupados em conjuntos por semelhança de elementos da estrutura, depois condicionados a mesma formatação para então unificação de todo o conteúdo relacionável e armazenamento em datasets.
Com os dados existentes, estima-se que a previsão seja de no máximo 1 ano, incluindo o conjunto de validação. O ano de 2020 é atípico e não será possível modelar utilizando os dados da série histórica.
Será realizada por intervalo mensal. Informações faltantes para o período mensal serão imputadas conforme a natureza da série avaliada.
O escopo inicial só permite análise estática, considerando apenas a prova de conceito da possibilidade de previsão das séries temporais. No entanto, os modelos de previsão mais adequados poderão receber novos dados se caso aplicado o mesmo procedimento de ETL.
Alternativamente, todo o procedimento poderá ser convertido para um pipeline de tratamento automatizado no qual seria necessário apenas plugar novos dados tabulares de um arquivo xlsx, csv ou similares.
As métrica de análise utilizadas serão a raiz do erro médio quadrado (RMSE) entre os valores verdadeiros e preditos e Critério de Informação Akaike (AIC). Os modelos cuja RMSE é menor são os mais precisos, isto é, geraram menor resíduo pela proximidade entre predição e valores observados.
Obs: RMSE funciona apenas para avaliar se o modelo se aproximou aos valores verdadeiros, não significando necessariamente que o modelo escolhido será o com melhor ajuste a dados futuros.
HYNDMAN, R. J., ATHANASOPOULOS, G. Forecasting Principles and Practice. Disponível em: https://otexts.com/fpp2/
VINK, R. Algorithm Breakdown: AR, MA and ARIMA models. Disponível em: https://www.ritchievink.com/blog/2018/09/26/algorithm-breakdown-ar-ma-and-arima-models/
KRISHNAN, A. Anomaly Detection with Time Series Forecasting. Disponível em: https://towardsdatascience.com/anomaly-detection-with-time-series-forecasting-c34c6d04b24a
BROWNLEE, J. How to Decompose Time Series Data into Trend and Seasonality. Disponível em: https://bit.ly/3lG4HgR