Phụ lục 6. Các trận lũ nhỏ có khả năng ảnh hưởng lớn (PILFs)

Mục lục

1. Bối cảnh và triết lý của PILF
2. Chi tiết tính toán để xác định PILFs bằng MGBT

Phụ lục này cung cấp phần giới thiệu chung về các trận lũ nhỏ có khả năng ảnh hưởng lớn (PILFs), và mô tả chi tiết tính toán để xác định PILFs — tức phép kiểm tra Grubbs–Beck nhiều lần (Multiple Grubbs–Beck Test, MGBT). Một số thông tin về MGBT và hiệu suất của nó được trình bày trong Cohn and others (2013), Lamontagne and others (2013), và Lamontagne and others (2016). Một số ví dụ phát hiện PILFs bằng MGBT được đưa ra ở Phụ lục 10.

1. Bối cảnh và triết lý của PILF

Có những vấn đề đã được ghi nhận với phép kiểm tra Grubbs–Beck (GB) (Grubbs và Beck, 1972) được sử dụng trong Bulletin 17B (IACWD, 1982) khi có nhiều giá trị ngoại lai thấp (low outliers). Vấn đề này đã được thảo luận trong phần Hỏi–Đáp của Bulletin 17B, dưới mục “Low Outliers” do Bill Kirby viết. Các đoạn liên quan của phần Hỏi–Đáp này được lặp lại ở đây, nhấn mạnh các vấn đề quan trọng.

Bulletin 17B phát hiện ngoại lai thấp bằng một tiêu chí thống kê (kiểm tra GB) thay vì xem xét ảnh hưởng của các điểm dữ liệu thấp đối với đường tần suất. Bài kiểm tra này dựa trên khoảng cách đã chuẩn hóa $\frac{x_i – \hat{\mu}}{\hat{\sigma}}$ giữa các quan sát nhỏ nhất và giá trị trung bình của tập dữ liệu. Phép kiểm tra này dễ bị thất bại khi có nhiều ngoại lai thấp, vì chúng gây ra ảnh hưởng méo lớn đối với đường tần suất đã lắp ráp, đồng thời làm tăng độ lệch chuẩn $\hat{\sigma}$, khiến khoảng cách đã chuẩn hóa quá nhỏ để kích hoạt kiểm tra Grubbs–Beck.

Phần Hỏi–Đáp cũng cung cấp thêm bối cảnh, và cơ sở thủy văn để đi chệch khỏi phép kiểm tra GB như sau, với nhấn mạnh vào đoạn văn liên quan.

Hiển nhiên, mục tiêu là cho phép loại bỏ càng nhiều ngoại lai thấp khi cần thiết để đạt được sự phù hợp tốt với phần dữ liệu chứa các trận lũ lớn và cận lũ. Cũng rõ ràng, ý định là kết quả phép kiểm tra GB sẽ được sử dụng trừ khi kết quả lắp ráp cuối cùng đưa ra lý do thuyết phục để không làm như vậy. Do đó, không có phương pháp phổ quát nào có thể được áp dụng một cách máy móc để luôn đạt sự phù hợp tốt.

Phân tích độ nhạy được đề cập trong Bulletin 17B dựa trên nguyên tắc thủy văn–kỹ thuật–thường thức rằng: các quan sát nhỏ nhất trong tập dữ liệu không truyền tải thông tin có ý nghĩa hoặc hợp lệ về độ lớn của các trận lũ lớn đáng kể, mặc dù chúng có cung cấp thông tin hợp lệ về tần suất của các trận lũ lớn đáng kể. Do đó, nếu phần đuôi trên của đường cong tần suất nhạy với giá trị số của các quan sát nhỏ nhất, thì sự nhạy cảm đó là một tác động giả tạo dựa trên dạng toán học giả định (nhưng thực tế không biết) của phân phối lũ, và không có giá trị thủy văn.

Những người khác cũng đã ghi nhận hiện tượng thủy văn này. Một quan sát chính được Klemés (1986, tr. 183S) nêu ra như sau:

“Không có lý do thủy văn nào để các giá trị lũ lớn nhất bị ảnh hưởng bởi chế độ của những năm không có lũ, ngoài việc xác suất của một trận bão lớn trúng lưu vực này sẽ phụ thuộc vào lượng tuyết tích tụ trong vài mùa đông khô hạn gần nhất, trong khi chu kỳ lặp lại của một năm lũ nhất định có thể chênh nhau hàng bậc độ lớn, chẳng hạn, chỉ do dao động nhiệt độ nhẹ trong các mùa tan tuyết của một vài năm.”

Klemés (2000, tr. 229) cũng đã mô tả vấn đề thủy văn này trong bối cảnh các phân phối tần suất, như được nhấn mạnh bên dưới.

“… Trớ trêu thay, manh mối duy nhất mà lý thuyết phân tích tần suất (FA) vô tình lấy từ thủy văn lại là manh mối sai. Nó rút ra các “giả định phân phối” [tức là dạng tổng quát của F(X) từ một “biểu đồ xác suất” như Hình 1(b), mà hình dạng của nó bị chi phối bởi các quan sát nhỏ và trung bình. Hình dạng này thường lồi trên biểu đồ Gaussian, vì các hiện tượng thủy văn như mưa, dòng chảy do mưa, tuyết phủ, v.v., có cận dưới bằng không, điều này “bẻ cong” phần đuôi dưới của đồ thị về phía tiệm cận ngang. Kết quả là, tất cả các mô hình phân phối “chuẩn” đều lồi trên thang tần suất Gaussian; tất cả đều là các mô hình có độ lệch dương. Do đó, chính cơ chế vật lý chi phối sự hình thành phần đuôi dưới sẽ quyết định hình dạng của phần đuôi trên được ngoại suy; các quan sát ít liên quan nhất về mặt thủy văn đến các giá trị cực trị cao và đến sự an toàn của các công trình bị ảnh hưởng bởi chúng—lại có ảnh hưởng lớn nhất đến xác suất ước lượng của chúng?! …”

Những quan sát này, cũng như các vấn đề dữ liệu được mô tả trong mục Dòng chảy bằng không và các trận lũ nhỏ có khả năng ảnh hưởng lớn, được xử lý bằng MGBT.

2. Chi tiết tính toán để xác định PILFs bằng MGBT

Mục đích của việc sử dụng MGBT là để xác định các PILFs. PILFs là các quan sát nhỏ (hoặc dòng chảy bằng 0) có khả năng tạo ra ảnh hưởng lớn đến các đường tần suất đã lắp ráp. Khi bộ dữ liệu có độ lệch âm, các quan sát nhỏ nhất có thể ảnh hưởng mạnh đến việc xác định hệ số độ lệch ước lượng và lưu lượng lũ ứng với AEP 1%.

MGBT mới là một tổng quát hóa hợp lý về mặt thống kê của phép kiểm tra GB, nhạy với khả năng rằng một số quan sát nhỏ nhất là “bất thường” hoặc có khả năng ảnh hưởng rất lớn. MGBT cũng đánh giá chính xác các trường hợp một hoặc nhiều quan sát bằng 0, hoặc thấp hơn ngưỡng ghi nhận (tại các trạm ghi không đầy đủ). Do đó, nó cung cấp một thuật toán nhất quán, khách quan và có cơ sở thống kê vững chắc, xem xét liệu một loạt các quan sát nhỏ nhất có nên được phân loại là PILFs hay không, áp dụng cho nhiều tình huống quan sát trong thực tế (xem, ví dụ, các trường hợp trong Lamontagne and others, 2012; Paretti and others, 2014a, và ví dụ ở Phụ lục 10).

Để đưa ra tiêu chí khách quan cho việc xác định nhiều ngoại lai thấp, MGBT sử dụng phân phối thực tế của quan sát lớn thứ k trong mẫu gồm n biến ngẫu nhiên chuẩn độc lập, trong đó xác suất $P_{[k:n]}$ là xác suất để quan sát lớn thứ k trong mẫu chuẩn kích thước n có thể nhỏ hơn giá trị đã quan sát. Nếu $P_{[k:n]}$ nhỏ, thì quan sát thứ k được coi là nhỏ bất thường.

Để kiểm định giả thuyết không – null hypothesis $H_0$, ta xét xem $\{X_{[1:n]}, X_{[2:n]}, \ldots, X_{[n:n]}\}$ có tuân theo phân phối chuẩn hay không và các quan sát còn lại trong mẫu bằng cách xét thống kê

$$\tilde{\omega} \equiv \frac{X_{[k:n]} – \hat{\mu}_k}{\hat{\sigma}_k} \tag{6–1}$$

trong đó $X_{[k:n]}$ là thống kê thứ tự nhỏ thứ k trong mẫu, và

$$\hat{\mu}_k = \frac{1}{n-k} \sum_{j=k+1}^{n} X_{[j:n]} \tag{6–2}$$

$$\hat{\sigma}^2_k = \frac{1}{n-k-1} \sum_{j=k+1}^{n} \left( X_{[j:n]} – \hat{\mu}_k \right)^2 \tag{6–3}$$

Giá trị trung bình một phần ($\hat{\mu}_k$) và phương sai một phần ($\hat{\sigma}^2_k$) được tính dựa trên tất cả các quan sát lớn hơn $X_{[k:n]}$ để tránh hiện tượng swamping (xác định quá nhiều ngoại lai). Mỗi quan sát $X_{[k:n]}$ được kiểm định tuần tự. Các quan sát lớn hơn $X_k$ không bị nghi ngờ là ngoại lai thấp, do đó $\hat{\mu}_k$ và $\hat{\sigma}^2_k$ được giả định là đại diện cho tổng thể quan tâm.

Từ giá trị thống kê $\tilde{\omega}$, ta tính p-value: đó là xác suất (trong trường hợp giả thuyết không $H_0$ đúng) để thu được một giá trị $\tilde{\omega}_{[k:n]}$ bằng hoặc nhỏ hơn giá trị quan sát được trong mẫu. Giá trị p-value được cho bởi:

$$p_k[\eta] \equiv P\left[ \tilde{\omega}_{[k:n]} < \eta \right] \tag{6–4}$$

Thay thế định nghĩa của $\tilde{\omega}_{[k:n]}$ từ phương trình (6–1) và sắp xếp lại các hạng tử thu được (Cohn and others, 2013):

$$p_k[\eta] = P\left[ \frac{Z_{[k:n]} – \hat{\mu}_{Z,k}}{\hat{\sigma}_{Z,k}} < \eta \right] \tag{6–5}$$

trong đó $Z_{[k:n]}$ là thống kê thứ tự k trong mẫu chuẩn chuẩn hóa có kích thước n, và $\hat{\mu}_{Z,k}$, $\hat{\sigma}_{Z,k}$ lần lượt là trung bình và độ lệch chuẩn một phần của mẫu chuẩn.

Nếu p-value này nhỏ (ví dụ, nhỏ hơn $\alpha = 10\%$), thì k quan sát nhỏ nhất sẽ được xác định là PILFs, như minh họa ở Hình 11. Ngưỡng PILF cũ $X_l$ được sử dụng trong EMA sẽ được đặt thành giá trị (k+1).

MGBT để xác định PILFs gồm hai bước. Dữ liệu đầu vào là logarit cơ số 10 của $X_j$ (lưu lượng đỉnh hàng năm) từ chuỗi đo đạc hệ thống ($n_s$), với các giá trị lưu lượng được biết chính xác như các quan sát điểm ($Q_{Y,\text{lower}} = Q_{Y,\text{upper}} = Q_Y$). Các giá trị lưu lượng được xếp hạng từ nhỏ nhất đến lớn nhất, như đã ghi trong mục Zero Flows and Identifying Potentially Influential Low Floods.

Bước 1:
Bắt đầu từ giá trị trung vị và quét ra ngoài về phía quan sát nhỏ nhất, mỗi quan sát $X_{[k:n]}$ được kiểm định và xác định là ngoại lai nếu $p(k;n) \le \alpha_{\text{out}}$. Nếu quan sát lớn thứ k được xác định là ngoại lai thấp, thì việc quét ra ngoài dừng lại và quan sát thứ k cùng tất cả các quan sát nhỏ hơn (tức là với mọi $j \le k$) cũng được xác định là ngoại lai thấp.

Bước 2:
Bắt đầu từ quan sát nhỏ nhất $X_{[1:n]}$ và quét vào trong về phía trung vị, tại đó quan sát thứ j được xác định là ngoại lai nếu $p(k;n) \le \alpha_{\text{in}}$. Nếu một quan sát $m = 1, 2, \ldots, n/2$ không bị xác định là ngoại lai bởi bước quét vào trong, thì quá trình quét vào trong dừng lại.

Số lượng PILFs được xác định sẽ là số lớn hơn giữa k và m-1.

Thuật toán có hai tham số: mức ý nghĩa của bước quét ra ngoài $\alpha_{\text{out}}$ và mức ý nghĩa của bước quét vào trong $\alpha_{\text{in}}$. Giá trị khuyến nghị được sử dụng trong MGBT là $\alpha_{\text{out}} = 0.005$ (0.5%) và $\alpha_{\text{in}} = 0.10$ (10%). Các giá trị này được xác định thông qua thử nghiệm và đánh giá kỹ lưỡng của HFAWG thông qua việc kiểm tra 82 trạm (Cohn and others), thử nghiệm và so sánh các phương án (Lamontagne and others, 2013), và các nghiên cứu khác (Lamontagne and others, 2016).

Quét ra ngoài (outward sweep) nhằm xác định xem có sự “đứt đoạn” nào ở nửa dưới của dữ liệu, gợi ý rằng mẫu nên được coi như có một số ngoại lai thấp. Quét vào trong (inward sweep) sử dụng mức ý nghĩa ít nghiêm ngặt hơn, p(k;n)≤10%, bắt chước cách tiếp cận của Bulletin 17B là sẵn sàng xác định một hoặc nhiều quan sát nhỏ nhất là ngoại lai thấp để phân tích trở nên vững hơn. Bulletin 17B cũng dùng mức ý nghĩa 10% với một ngưỡng GB duy nhất. Tuy nhiên, điểm khác biệt quan trọng là quét vào trong của MGBT sử dụng hàm p(k;n), mô tả chính xác việc quan sát lớn thứ k trong một mẫu chuẩn gồm n biến có phải là bất thường hay không.

Ví dụ, nếu một chuỗi số liệu có 5 giá trị dòng chảy bằng 0, thì giá trị dòng chảy nhỏ nhất khác 0 được coi là quan sát nhỏ thứ 6 trong chuỗi. Cách này phản ánh đúng thực tế rằng chuỗi số liệu lũ bao gồm 5 giá trị nhỏ hơn. Phép kiểm tra GB trong Bulletin 17B không có cơ chế điều chỉnh ngưỡng khi kiểm tra giá trị lũ nhỏ nhất khác 0 trong chuỗi có chứa giá trị bằng 0, hoặc các giá trị lưu lượng thấp hơn ngưỡng ở các trạm đo mực đỉnh. Điều này đặc biệt gây vấn đề vì các trạm có dòng chảy bằng 0 thường rất dễ có một hoặc nhiều giá trị lũ rất nhỏ hoặc gần bằng 0, và các giá trị này cần được xác định là ngoại lai thấp nếu sử dụng ngưỡng thích hợp. MGBT giải quyết được vấn đề này.

Cuối cùng, các chương trình máy tính (xem mục Software and Examples) được sử dụng để thực hiện MGBT và báo cáo các giá trị tới hạn và các PILFs.

(nd: null hypothesis)

Hiểu đơn giản:
+ $H_0$ giả định rằng giá trị nhỏ thứ k không phải ngoại lai thấp, mà thuộc cùng phân phối chuẩn với phần còn lại.
+ Nếu giá trị $\tilde{\omega}_{[k:n]}$ quá nhỏ so với kỳ vọng khi $H_0$ đúng, thì xác suất xảy ra (p-value) sẽ nhỏ.
+ p-value càng nhỏ ⇒ khả năng $H_0$ đúng càng thấp ⇒ giá trị đó có khả năng là ngoại lai thấp.

Công thức (6–4): $p_k[\eta] \equiv P\big[\tilde{\omega}_{[k:n]} < \eta\big]$ chính là cách viết toán học của “xác suất để thống kê nhỏ hơn giá trị đã quan sát”.

Hỗ trợ duy trì trang:

Tôi xây dựng trang này để chia sẻ các tài liệu kỹ thuật cốt lõi trong thiết kế hạ tầng giao thông.

Nếu bạn thấy nội dung hữu ích và muốn góp phần duy trì trang hoạt động bền vững, tôi rất trân trọng mọi sự ủng hộ.

Qua USD (Buy Me a Coffee)

BIDV • STK: 3101226659 • HOANG HAI HA

Updated on September 5, 2025