Date of Publication

12-2025

Document Type

Master's Thesis

Degree Name

Master of Science in Statistics

Subject Categories

Public Health

College

College of Science

Department/Unit

Mathematics and Statistics Department

Thesis Advisor

Robert F. Leong

Defense Panel Chair

Frumencio F. Co

Defense Panel Member

Ranzivelle L. Roxas-Villanueva

Abstract (English)

Laboratory-based disease surveillance is a fundamental component of public health surveillance (PHS), essential for estimating disease incidence and preventing transmission. However, its effectiveness is often hindered by reporting delays and its scope is limited to only tested individuals. To overcome these, PHS is often complemented by syndromic surveillance (SS) systems, which leverage on pre-diagnostic data to enable more timely monitoring by using aberration detection thresholds signaling when disease incidence exceeds expected baselines. Currently, the Philippines lacks dedicated meningococcal disease outbreak thresholds that can supplement meningococcal disease monitoring. This thesis proposes a framework for developing and evaluating model-based outbreak detection thresholds for meningococcal disease in the Philippines. The methodology is centered on simulating realistic time series data using an epidemic-endemic model developed by Held et al. (2005). Using these simulations, this study will construct and compare forecasting models from three distinct classes: (1) traditional statistical models (ARIMA, EARS, INAR, ZINAR), (2) machine learning algorithms (kNN and XGBoost), and (3) deep learning architectures (LSTM). This comparative approach assesses the trade-offs between the well-understood probabilistic properties of statistical models and the flexibility of machine learning models, which can capture complex data patterns without strong distributional assumptions. We obtained results from 100 simulations of a 259-week time series using a 52-week moving window. Performances of different models were evaluated using sensitivity, false positive rate (FPR), probability of detection, and timeliness. The results indicate that the framework developed thresholds with sensitivity, probability of detection, and timeliness values on par or, at times, even better than those of all variations of the widely used Early Aberration Reporting System, at the expense of higher false positive rates. However, these FPRs may be minimized by using higher quantiles for threshold construction or ensemble models. While there is no singular model or ensemble model that clearly outperformed all others, the ensemble model of kNN (k = 5) and mean could be singled out due to its relatively low FPR, quick timeliness, competitive probability of detection, and relative simplicity.

Abstract Format

html

Abstract (Filipino)

Ang pagmamatyag ng sakit na nakabatay sa laboratoryo ay isang pangunahing bahagi ng public health surveillance (PHS) na mahalaga para sa pag-estima ng insidente ng sakit at pagpigil sa pagkalat nito. Gayunpaman, ang pagiging epektibo nito ay madalas na nahahadlangan ng mga pagkaantala sa pag-uulat at ang saklaw nito ay limitado lamang sa mga indibidwal na nasuri. Upang malampasan ang mga ito, ang PHS ay madalas na pinupunan ng mga sistema ng syndromic surveillance (SS), na gumagamit ng mga datos bago ang diagnosis (pre-diagnostic data) upang magkaroon ng mas napapanahong pagmamatyag. Ginagawa ito gamit ang mga aberration detection threshold na nagsisenyas kapag ang insidente ng sakit ay lumampas sa inaasahang batayan. Sa kasalukuyan, ang Pilipinas ay walang tiyak na mga threshold para sa pagtukoy ng outbreak ng sakit na meningococcal na maaaring makatulong sa pagmamatyag nito. Ang pananaliksik na ito ay nagmumungkahi ng isang balangkas para sa pagbuo at pagsusuri ng mga threshold sa pagtukoy ng outbreak na nakabatay sa modelo para sa sakit na meningococcal sa Pilipinas. Ang metodolohiya ay nakasentro sa simulasyon ng makatotohanang time series data gamit ang isang epidemic-endemic model na binuo nina Held et al. (2005). Gamit ang mga simulasyong ito, bubuo at paghahambingin ng pag-aaral na ito ang mga modelo ng pagtataya mula sa tatlong magkakaibang klase: (1) mga tradisyonal na modelong estadistikal (ARIMA, EARS, INAR, ZINAR), (2) mga algorithm ng machine learning (kNN at XGBoost), at (3) mga arkitektura ng deep learning (LSTM). Sinusuri ng pamamaraang ito ng paghahambing ang mga kompromiso sa pagitan ng mga nauunawaang katangiang probabilistiko ng mga modelong estadistikal at ang kakayahang umangkop (flexibility) ng mga modelo ng machine learning, na kayang kumuha ng mga kumplikadong pattern ng datos nang walang mahigpit na mga distributional assumption. Ipinapahiwatig ng mga resulta na ang balangkas ay nakabuo ng mga threshold na may mga halaga ng sensitivity, false positive rate (FPR), probability of detection, at timeliness kapantay o, kung minsan, mas mahusay pa kaysa sa lahat ng mga iba’t ibang mga modelo ng malawakang ginagamit na Early Aberration Reporting System, sa kapinsalaan ng mas mataas na false positive rate. Gayunpaman, ang mga FPR na ito ay maaaring mabawasan sa pamamagitan ng paggamit ng mas iii mataas na quantile para sa pagbuo ng threshold o mga ensemble model. Bagama't walang isahan na modelo o ensemble model na malinaw na nakahihigit sa lahat ng iba pa, ang ensemble model ng kNN (k = 5) at mean ay maaaring ihiwalay dahil sa mababang FPR, mabilis na pagiging napapanahon, mapagkumpitensyang probabilidad ng pagtuklas, at relatibong pagiging simple.

Abstract Format

html

Language

English

Format

Electronic

Keywords

Public health surveillance--Philippines; Meningococcal infections--Philippines; Machine learning

Upload Full Text

wf_yes

Embargo Period

12-12-2025

Share

COinS