Phụ lục 5. Vị trí vẽ tính theo xác suất vượt ngưỡng (Threshold-Exceedance Plotting Positions)

Phụ lục này cung cấp phần tổng quan và các phương trình vẽ đồ thị theo xác suất vượt ngưỡng. Bảng 5–1 cung cấp các tham số vẽ đồ thị a và cơ sở lựa chọn chúng. Tham số vẽ đồ thị a = 0, tương ứng với công thức Weibull, được khuyến nghị dùng như giá trị mặc định, phù hợp với thực hành hiện tại. Các tham số vẽ đồ thị khác, bao gồm 0.40 (Cunnane), 0.44 (Gringorten) và 0.50 (Hazen), là các lựa chọn truyền thống cũng có thể được xem xét. Một số ví dụ được trình bày trong phụ lục 10.

Xét một chuỗi số liệu lũ lịch sử với giai đoạn lịch sử (historical period) dài $n_h$ năm, chuỗi số liệu lũ đo đạc tại trạm trong $n_s$ năm đầy đủ, không bị gián đoạn. Giả sử trong tổng số $n = (n_s + n_h)$ năm số liệu, có tổng cộng k trận lũ vượt ngưỡng nhận biết đối với lũ lịch sử (hình 3). Nếu k giá trị vượt ngưỡng được đánh chỉ số $i = 1, \dots, k$, thì các vị trí điểm vẽ hợp lý (reasonable plotting positions) xấp xỉ các xác suất vượt với khoảng ($0, p_e$) được xác định như sau:

$$p_i = p_e \left( \frac{1-a}{k+1-2a} \right) = \frac{k}{n} \left( \frac{i-a}{k+1-2a} \right) \tag{5–1}$$

trong đó

a là giá trị lấy từ bảng 5–1

$p_e = k/n$ là xác suất vượt một ngưỡng.

Với $k \gg (1 – 2a)$, $p_i$ không thể phân biệt được so với $\frac{i-a}{n+1-2a}$ đối với một ngưỡng duy nhất. Hirsch (1987) lưu ý rằng đối với k trận lũ đầu tiên, phương trình (5–1) là giống hệt công thức Hazen với a = 0.5, và rất gần với công thức Gringorten với a = 0.44. Các lựa chọn hợp lý cho a nói chung ít tạo khác biệt đối với các điểm vẽ thu được.

Vị trí vẽ điểm theo xác suất cho các trận lũ trong chuỗi số liệu đo đạc tại trạm nhưng nằm dưới ngưỡng cần được hiệu chỉnh để phản ánh thông tin bổ sung do chuỗi lũ lịch sử cung cấp, nếu dữ liệu lũ lịch sử và chuỗi đo đạc tại trạm được phân tích chung một cách nhất quán và hiệu quả thống kê (Hirsch and Stedinger, 1987).

Trong trường hợp này, gọi $e_s$ là số trận lũ trong chuỗi đo đạc tại trạm vượt ngưỡng và do đó được tính vào k lần vượt ngưỡng. Các vị trí vẽ điểm theo xác suất nằm trong khoảng ($p_e,1$) cho ($n_s – e_s$) trận lũ còn lại dưới ngưỡng trong chuỗi đo đạc tại trạm là:

$$p_r \;=\; p_e \;+\; (1-p_e)\left(\frac{r-a}{\,n_s – e_s + 1 – 2a\,}\right) \tag{5–2}$$

với r = 1, $\ldots, n_s – e_s$, trong đó a lại là một giá trị lấy từ bảng 5–1.

Cách tiếp cận này có thể mở rộng trực tiếp cho nhiều ngưỡng. Đối với các trường hợp nhiều ngưỡng vượt minh họa ở hình 12, phương trình 5–1 có thể được tổng quát hóa (Hirsch và Stedinger, 1987; Stedinger and others, 1988, 1993). Số lượng ngưỡng ký hiệu là j ($j=1,\ldots,m)$, trong đó các ngưỡng $Q_j$ ($j=1,\ldots,m$) được sắp xếp từ lớn đến nhỏ sao cho $Q_1>Q_2>\cdots>Q_m$. Xác suất vượt $p_{e j}$ ứng với mỗi ngưỡng j được xác định bởi

$$p_{e j}=p_{e,\,j-1}+\bigl(1-p_{e,\,j-1}\bigr)\,q_{e j} \tag{5–3}$$

trong đó $q_{e j}$ là xác suất có điều kiện rằng một trận lũ rơi vào khoảng giữa ngưỡng thứ j và ngưỡng thứ (j-1). Nó được cho bởi

$$q_{e j}=\frac{k_j}{\,n_j-\displaystyle\sum_{l=1}^{j-1}k_l\,}. \tag{5–4}$$

trong đó $k_j$ là số trận lũ vượt ngưỡng thứ j nhưng không vượt bất kỳ ngưỡng cao hơn nào (j−1); và mẫu số trong phương trình (5–4) là số năm $n_j$ mà ngưỡng Q_j được áp dụng trừ đi tổng số trận lũ $k_l$ đã vượt các ngưỡng cao hơn ($j-1, j-2, \ldots$) trong giai đoạn $n_j$. Các trận lũ trên ngưỡng có thể được vẽ theo:

$$p_i \;=\; p_{e,\,j-1} \;+\; \bigl(1 – p_{e,\,j-1}\bigr)\, q_{e j}\! \left(\frac{i-a}{\,k_j + 1 – 2a\,}\right) \tag{5–5}$$

và các trận lũ dưới tất cả các ngưỡng ($k_j+1,\ldots,g$) có thể được vẽ bằng phương trình (5–2) với $p_e = p_{e j}$.

Bảng 5–1. Giá trị điển hình của tham số a trong công thức vẽ điểm theo xác suất và lý do lựa chọn
(Stedinger and others, 1993)

Phương pháp	a	Lý do lựa chọn
Weibull	0	Xác suất vượt không chệch cho mọi phân phối
Cunnane	0.40	Xấp xỉ không chệch theo phân vị
Gringorten	0.44	Tối ưu cho phân phối Gumbel
Hazen	0.50	Một lựa chọn truyền thống

(nd: Reasonable plotting positions)

Reasonable plotting positions trong ngữ cảnh này nghĩa là các vị trí điểm vẽ hợp lý — tức là những giá trị xác suất (hoặc tần suất) được tính toán sao cho:

Phản ánh đúng phân phối thống kê của dữ liệu.
Thích hợp để vẽ điểm lên đồ thị tần suất (frequency curve).
Không quá chênh lệch so với thực tế do phương pháp tính hoặc do chọn công thức plotting position.

Nói cách khác, đây là các giá trị xác suất ước lượng hợp lý để biểu diễn vị trí của các điểm dữ liệu khi so sánh với đường cong lý thuyết.

(nd: k≫1−2a…)

Phân tích:
+ $p_i$ ở đây được tính theo công thức (5–1) có yếu tố k/n.
+ Khi k rất lớn so với (1−2a), biểu thức $p_i$ gần như trùng khớp với $\frac{i-a}{n+1-2a}$— đây là dạng công thức plotting position quen thuộc (ví dụ như công thức Hazen).

Ý là: Trong điều kiện k≫(1−2a) và chỉ xét một ngưỡng, hai công thức này cho kết quả gần như giống hệt nhau.

Đi từng bước từ (5–1): $$p_i \;=\; \frac{k}{n}\;\frac{i-a}{\,k+1-2a\,} \qquad (i=1,\ldots,k)$$

Tách hệ số theo k:

$$p_i \;=\; \frac{i-a}{n}\;\frac{k}{\,k+1-2a\,}.$$

Nếu k≫(1−2a) thì

$$\frac{k}{k+1-2a} \;=\; \frac{1}{1+\frac{1-2a}{k}} \;\approx\; 1 – \frac{1-2a}{k} \;\approx\; 1.$$

=> $p_i \approx \dfrac{i-a}{n}.$

Trường hợp single threshold (chỉ một ngưỡng) và ngưỡng đủ cao để mỗi năm nhiều nhất một lần vượt ngưỡng, ta có $k \approx n$ (số lần vượt ≈ số năm có quan sát). Khi đó thay n bằng n+1-2a để giữ dạng “plotting position” chuẩn (Hazen/Gringorten đều có dịch chuyển +1-2a ở mẫu), ta được:

$$p_i \;\approx\; \frac{i-a}{\,n+1-2a\,}.$$

Nói gọn: với k lớn (so với 1-2a) và một ngưỡng duy nhất (mỗi năm tối đa một lần vượt), hệ số $\tfrac{k}{k+1-2a} \text{~} 1$ và $k\approx n$, nên $p_i$ gần như trùng với công thức plotting position dạng Hazen/Gringorten: $p_i \simeq \frac{i-a}{\,n+1-2a\,}.$

(nd: nhất quán và hiệu quả thống kê)

“Hiệu quả thống kê” (statistical efficiency) là mức độ một phương pháp/ước lượng tận dụng dữ liệu để đạt độ chính xác cao nhất, thường hiểu là phương sai (hoặc MSE) nhỏ nhất trong số các ước lượng không chệch; lý tưởng là đạt cận dưới Cramér–Rao.

Hiệu quả thống kê: cách hiệu chỉnh vị trí vẽ điểm theo xác suất (công thức 5–2) dùng trọn thông tin từ cả số lần vượt ngưỡng k lẫn các giá trị dưới ngưỡng, nên ước lượng đường tần suất/return period ít nhiễu hơn, khoảng tin cậy hẹp hơn so với cách bỏ qua hoặc xử lý rời rạc dữ liệu lịch sử.

Nhất quán: xử lý thống nhất dữ liệu lịch sử và dữ liệu trạm (không đếm trùng, đúng logic xác suất).

(nd: lý do lựa chọn)

Lý do chọn giá trị a trong công thức plotting position (dạng chung: $p=\frac{i-a}{n+1-2a}$; a điều chỉnh vị trí vẽ điểm).

Weibull — a=0: “Unbiased exceedance probabilities for all distributions.”
Nghĩa là ước lượng xác suất vượt từ thứ hạng theo công thức này không chệch (kỳ vọng đúng bằng xác suất thật) với bất kỳ phân phối mẹ nào. Tuy nhiên, điều này không đảm bảo không chệch cho phân vị.
Cunnane — a=0.40: “Approximately quantile-unbiased.”
Nhắm tới việc ước lượng phân vị (quantile) gần như không chệch trên nhiều phân phối: trung bình nhiều mẫu, phân vị ước lượng $\hat{Q}(p)$ xấp xỉ đúng Q(p).
Gringorten — a=0.44: “Optimized for Gumbel distribution.”
Tối ưu (giảm thiên lệch/MSE) khi dữ liệu tuân phân phối Gumbel – vì thế hay được dùng trong phân tích tần suất lũ kiểu Gumbel.
Hazen — a=0.50: “A traditional choice.”
Lựa chọn truyền thống/lâu đời, đối xứng đẹp về mặt hình thức, nhưng không có tối ưu riêng nào.

Ghi chú: với cỡ mẫu vừa–lớn, khác biệt giữa các giá trị a thường nhỏ; quan trọng là chọn một phương pháp và dùng nhất quán trong toàn bộ phân tích.

(nd: quantile – phân vị)

Quantile là giá trị ngưỡng $Q(p)$ sao cho xác suất các quan sát $\le Q(p$) bằng p.
+ Trong thủy văn: $Q(p)$ là lưu lượng (hoặc mưa) có xác suất không vượt p; xác suất vượt là 1-p. Khi quy đổi sang chu kỳ lặp: $T=\frac{1}{1-p}$.
— Ví dụ, p=0.98 ⇒ 1-p=0.02 ⇒ khoảng lũ 50 năm.
+ Với biến ngẫu nhiên có CDF (Cumulative Distribution Function = hàm phân phối tích lũy) $F(x)=P(X\le x)$:
$$Q(p)=\inf\{x:\,F(x)\ge p\}\quad(0<p<1)$$
Nếu F liên tục và đơn điệu, $Q(p)=F^{-1}(p)$.
+ Ví dụ:
— Trung vị = 0.5-quantile.
— Phân vị 0.25 = quartile thứ nhất; 0.90 = 90th percentile.

(nd: Vị trí vẽ tính theo xác suất)

(1) Trường hợp chuẩn (không dùng dữ liệu lịch sử/ngưỡng)
Sắp xếp dữ liệu tăng dần $x_{(1)}\le\cdots\le x_{(n)}$. Vị trí điểm vẽ (xác suất không vượt – CDF) cho giá trị hạng i là

$$F_i \;=\; \frac{i-a}{\,n+1-2a\,},\qquad i=1,\ldots,n$$

Xác suất vượt tại $x_{(i)}$:

$$P_{\text{vượt}}(x_{(i)}) \;=\; 1 – F_i \;=\; \frac{n+1-a-i}{\,n+1-2a\,}.$$

(Nếu xếp giảm dần và dùng hạng m với m=1 là lớn nhất, thì $P_{\text{vượt}}=\dfrac{m-a}{\,n+1-2a\,}$.)

Giá trị a hay dùng:

Weibull a=0 → $F_i=\dfrac{i}{n+1}$
Cunnane a=0.40
Gringorten a=0.44 (tối ưu cho Gumbel)
Hazen a=0.50

(2) Có dữ liệu lịch sử với ngưỡng (single threshold)
Gọi $n=n_s+n_h$, k = số lần vượt ngưỡng trong n năm, $p_e=k/n$.

Các điểm trên ngưỡng (hạng $i=1,\ldots,k$, lớn→nhỏ):

$$p_i \;=\; p_e\;\frac{i-a}{\,k+1-2a\,}. \tag{5–1}$$

Các điểm dưới ngưỡng trong chuỗi trạm (còn lại $n_s-e_s$ giá trị, hạng $r=1,\ldots,n_s-e_s$):

$$p_r \;=\; p_e \;+\; (1-p_e)\,\frac{r-a}{\,n_s-e_s+1-2a\,}. \tag{5–2}$$

(Với k≫(1−2a), công thức (5–1) xấp xỉ $\dfrac{i-a}{\,n+1-2a\,}$.)

(3) Nhiều ngưỡng (multi-threshold)
Dùng quy nạp:

$$p_{e j}=p_{e,j-1}+\bigl(1-p_{e,j-1}\bigr)\,q_{e j},\quad q_{e j}=\frac{k_j}{\,n_j-\sum_{l=1}^{j-1}k_l\,},$$

và cho các điểm trên ngưỡng j:

$$p_i = p_{e,j-1} + (1-p_{e,j-1})\,q_{e j}\,\frac{i-a}{\,k_j+1-2a\,}. \tag{5–5}$$

Chọn một công thức (giá trị a) và dùng nhất quán trong toàn bộ phân tích là quan trọng nhất.

Hỗ trợ duy trì trang:

Tôi xây dựng trang này để chia sẻ các tài liệu kỹ thuật cốt lõi trong thiết kế hạ tầng giao thông.

Nếu bạn thấy nội dung hữu ích và muốn góp phần duy trì trang hoạt động bền vững, tôi rất trân trọng mọi sự ủng hộ.

Qua USD (Buy Me a Coffee)

BIDV • STK: 3101226659 • HOANG HAI HA

Updated on September 5, 2025