- III.1. Plotting Positions (Vị trí vẽ tính theo thang xác suất)
- III.2. Phân phối lũ
- III.3. Ước lượng tham số — Trường hợp đơn giản
- III.4. Lưu lượng bằng zero và xác định các trận lũ nhỏ có ảnh hưởng tiềm tàng
- III.5. Thuật toán Moment Kỳ vọng (Expected Moments Algorithm – EMA)
- III.6. Mở rộng chuỗi số liệu bằng các trạm lân cận
- III.7. Khoảng tin cậy cho các phân vị
Phần này trình bày các quy trình được khuyến nghị để xác định đường tần suất lũ. Các quy trình bao gồm:
- Các cách xác định Plotting positions;
- Phân phối lũ;
- Ước lượng tham số;
- Các phương pháp xử lý lưu lượng bằng 0 và xác định các PILF;
- Phương pháp EMA;
- Mở rộng chuỗi số liệu;
- Khoảng tin cậy cho các phân vị.
Việc tính toán này yêu cầu sử dụng các chương trình máy tính; xem phần Software and Examples để biết các sản phẩm hiện có.
III.1. Plotting Positions (Vị trí vẽ tính theo thang xác suất)
Các phân phối tần suất thực nghiệm là phương pháp không phụ thuộc vào dạng phân phối cụ thể, được dùng để suy đoán hàm phân phối xác suất – tức là mô hình toán học mô tả rủi ro lũ. Phương pháp này được sử dụng để kiểm tra xem một hàm phân phối (ví dụ như phân phối LP-III) có phù hợp với dữ liệu hay không. Để ước lượng giá trị đỉnh lũ theo thang xác suất, người ta dùng plotting positions.
Một công thức cơ bản để tính plotting positions được cho bởi:
$$p_i = \frac{i – a}{n + 1 – 2a} \tag{2}$$
(Theo Stedinger and others, 1993, trang 18.24)
Trong đó \(p_i\) là xác suất vượt ngưỡng ứng với giá trị lũ quan sát được \(Q_i\), được xếp từ lớn nhất (i = 1) đến nhỏ nhất (i = n), và a là một tham số trong công thức plotting position (giá trị nằm trong khoảng từ 0 đến 0.5) – xem bảng 5–1 trong Phụ lục 5.
Các đỉnh lũ trong lịch sử phản ánh tần suất xuất hiện của các trận lũ lớn và vì vậy, nên được đưa vào phân tích tần suất lũ. Các đỉnh lũ này cũng có thể được dùng để đánh giá mức độ phù hợp của các quan hệ tần suất lũ ước tính.
Để làm điều đó, người ta cần sử dụng các plotting position phù hợp, hoặc ước lượng xác suất vượt ngưỡng trung bình ứng với các đỉnh lũ trong lịch sử và phần còn lại của dữ liệu.
Hirsch và Stedinger (1987) đã đưa ra một thuật toán để gán plotting position cho các loại dữ liệu bị chặn(censored data), chẳng hạn như dữ liệu lũ lịch sử. Họ nhấn mạnh rằng cần hiểu đúng ý nghĩa thông tin trong dữ liệu lũ lịch sử, nhận thức được rằng các ước lượng xác suất vượt ngưỡng của lũ lịch sử có độ chính xác hạn chế, và rằng tất cả các phương pháp ước lượng đều khá thiếu chính xác (Hirsch and Stedinger, 1987).
Công thức tính vị trí vẽ theo thang xác suất (threshold-exceedance plotting-position formula) được trình bày trong Phụ lục 5. Nó có thể được áp dụng cho các trận lũ nhỏ nhưng có ảnh hưởng lớn, cũng như cho dữ liệu lũ lịch sử, vì nguyên tắc xử lý dữ liệu bị chặn là như nhau.
III.2. Phân phối lũ
Các hồ sơ lũ mô tả một chuỗi các hiện tượng tự nhiên không tuân theo bất kỳ một phân phối thống kê cụ thể nào đã biết. Để đơn giản hóa việc xác định xác suất lũ, việc lựa chọn một phân phối toán học hợp lý là điều cần thiết. Tài liệu hướng dẫn này khuyến nghị sử dụng phân phối log-Pearson loại III. Phân phối này đã được các cơ quan liên bang Hoa Kỳ sử dụng từ năm 1967 (USWRC, 1967; Benson, 1968).
Trong nhiều năm qua, đã có nhiều nghiên cứu nhằm xác định phân phối nào trong số các phân phối có thể và các phương pháp ước lượng tham số khác nhau là phù hợp nhất. Beard (1974), được tổng hợp trong IACWD (1982), kết luận rằng phân phối log-Pearson Type III (LP-III) với hệ số độ lệch vùng (regional skew coefficient) cho kết quả tốt. Griffis và Stedinger (2007b) đã khảo sát các đặc tính của phân phối LP-III và cho thấy nó linh hoạt, bao phủ được một dải rộng các mô hình hợp lý cho độ lệch trong không gian log, ví dụ như trường hợp \(|\gamma| \leq 1.414\).
Phương pháp moment (The method of moments) để ước lượng tham số hoạt động hiệu quả với các ràng buộc hợp lý về tham số (Griffis và Stedinger, 2007d) và khi có thông tin về độ lệch vùng (Griffis và Stedinger, 2009).
Nhóm nghiên cứu kết luận từ các nghiên cứu trên, cùng với nhiều ứng dụng trong suốt 40 năm qua, và qua quá trình kiểm định (Cohn and other, in press), rằng phân phối Pearson Type III với biến đổi log dữ liệu (log-Pearson Type III) cùng hệ số độ lệch vùng là phương pháp cơ sở để phân tích dữ liệu lưu lượng đỉnh hàng năm.
Phân phối LP-III cũng hoạt động tốt trong các ứng dụng sử dụng dữ liệu lịch sử và dữ liệu lũ cổ (paleoflood), theo các nghiên cứu như England (1998); Cục Thủy lợi Hoa Kỳ (2002); Blainey and others (2002); England and others (2003a, 2010); Harden and others (2011).
Các giá trị logarit cơ số 10 \(X_1, \ldots, X_n\) của các lưu lượng đỉnh \(Q_1, \ldots, Q_n\) được giả định tuân theo phân phối Pearson Type III. Hàm mật độ xác suất của phân phối này là:
$$f(x \mid \tau, \alpha, \beta) = \frac{ \left( \frac{x – \tau}{\beta} \right)^{\alpha – 1} \exp\left( -\frac{x – \tau}{\beta} \right) }{ |\beta| \Gamma(\alpha) } \tag{3}$$
với \(\left( \frac{x – \tau}{\beta} \right) \geq 0\), và các tham số phân phối gồm:
- \(\tau\): tham số vị trí (location parameter),
- \(\alpha\): tham số hình dạng (shape parameter),
- \(\beta\): tham số tỷ lệ (scale parameter),
- \(\Gamma(\alpha)\): là hàm gamma, được định nghĩa bởi:
$$\Gamma(\alpha) = \int_{0}^{\infty} t^{\alpha – 1} \exp(-t) \, dt \tag{4}$$
Tham số hình dạng α bị giới hạn là số dương, còn tham số tỷ lệ β có thể là dương hoặc âm.
- Khi β>0, phân phối P-III có giới hạn dưới là τ và có độ lệch dương (positive skewed).
- Khi β<0, phân phối có giới hạn trên tại τ và có độ lệch âm (negative skewed).
Hành vi này cũng có thể được mô tả thông qua hệ số độ lệch (γ) thay vì trực tiếp qua các tham số:
- Khi \(\gamma > 0\) (tương đương với \(\beta > 0\)), phân phối có độ lệch dương, và các giá trị lũ không bị giới hạn phía trên.
- Khi \(\gamma < 0\) (tương đương với \(\beta < 0\)), phân phối logarit của các giá trị lũ có độ lệch âm và giới hạn trên.
Trong trường hợp này, độ lệch trong không gian logarit được ràng buộc bởi điều kiện: \(\gamma \geq -1.41\)
Griffis và Stedinger (2007b) đã trình bày thêm các đặc tính khác của phân phối P-III, bao gồm cả các đồ thị minh họa cho hàm mật độ xác suất của phân phối này.
(nd: hàm mật độ xác suất)
Hàm mật độ xác suất (Probability Densty Function – PDF) là một hàm toán học mô tả xác suất tương đối của một biến ngẫu nhiên liên tục nhận một giá trị nhất định. Nó là khái niệm trung tâm trong lý thuyết xác suất và thống kê.
Khái niệm cơ bản
+ Một hàm mật độ xác suất, thường được ký hiệu là \(f_X{(x)}\), được sử dụng cho các biến ngẫu nhiên liên tục. Không giống như các biến ngẫu nhiên rời rạc, các biến ngẫu nhiên liên tục có thể nhận vô số giá trị trong một khoảng nhất định. Vì vậy, xác suất để biến ngẫu nhiên liên tục nhận chính xác một giá trị cụ thể là bằng 0.
+ Thay vào đó, PDF cho phép chúng ta tính xác suất để biến ngẫu nhiên nằm trong một khoảng giá trị. Xác suất này được tính bằng cách lấy tích phân (diện tích dưới đồ thị) của PDF trên khoảng đó.
\(\displaystyle P(a\le X\le b)=\int_a^b f(x)\,dx\)
Các tính chất quan trọng
+ Giá trị không âm: PDF luôn có giá trị không âm, tức là \(f_X{(x)}\)≥0 với mọi x.
+ Tổng diện tích bằng 1: Tổng diện tích dưới toàn bộ đồ thị PDF phải bằng 1, thể hiện rằng tổng xác suất của tất cả các kết quả có thể xảy ra là 100%.
\(\int_{-\infty}^{\infty} f_X(x)\,dx = 1\).
Ví dụ minh họa
Một ví dụ phổ biến của PDF là hàm mật độ xác suất của phân phối normal (normal distribution) hay còn gọi là đường cong hình chuông.

Đường cong này mô tả nhiều hiện tượng tự nhiên như chiều cao, cân nặng của con người, điểm thi, v.v.
Trong trường hợp này, PDF giúp chúng ta xác định xác suất để một người có chiều cao nằm trong một khoảng nhất định (ví dụ, từ 160 cm đến 170 cm) bằng cách tính diện tích dưới đường cong hình chuông trên khoảng đó.
(Lưu ý: với biến rời rạc, ta dùng “probability mass function” – hàm khối xác suất – chứ không dùng PDF.)
III.3. Ước lượng tham số — Trường hợp đơn giản
Tài liệu hướng dẫn này khuyến nghị sử dụng phương pháp moment (method of moments), áp dụng trên logarit của lưu lượng lũ, để ước lượng các tham số của phân phối P-III.
Ba moment mẫu đầu tiên được sử dụng để ước lượng các tham số của phân phối P-III. Bao gồm:
- Giá trị trung bình (\(\hat{\mu}\)),
- Độ lệch chuẩn (\(\hat{\sigma}\)),
- Hệ số độ lệch (\(\hat{\gamma}\)).
III.3.1. Moment và Tham số
Trong trường hợp có số liệu quan trắc đầy đủ (systematic data), không có thông tin lịch sử/dữ liệu lũ cổ hay PILFs, thì giá trị trung bình (mean), độ lệch chuẩn (standard deviation), và hệ số độ lệch tại trạm (skewness coefficient of station) có thể được tính theo các công thức sau:
$$\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} X_i \tag{5}$$
$$\hat{\sigma} = \sqrt{ \frac{1}{n – 1} \sum_{i=1}^{n} (X_i – \hat{\mu})^2 } \tag{6}$$
$$\hat{\gamma} = \left( \frac{n}{\hat{\sigma}^3 (n – 1)(n – 2)} \right) \sum_{i=1}^{n} (X_i – \hat{\mu})^3 \tag{7}$$
trong đó:
- n: số quan trắc lũ,
- Dấu “mũ” (^) thể hiện là ước lượng từ mẫu (sample estimate),
- Các công thức cho \(\hat{\sigma}\) và \(\hat{\gamma}\) bao gồm hệ số hiệu chỉnh cho cỡ mẫu nhỏ: (n−1) và (n – 1)(n – 2).
Việc ước lượng các tham số được thực hiện dựa trên các moment mẫu như sau.
$$\hat{\alpha} = \frac{4}{\hat{\gamma}^2} \tag{8}$$
$$\hat{\beta} = \operatorname{sign}(\hat{\gamma}) \left( \frac{ \hat{\sigma}^2 }{ \hat{\alpha} } \right)^{1/2} \tag{9}$$
$$\hat{\tau} = \hat{\mu} – \hat{\alpha} \hat{\beta} \tag{10}$$
Phân vị lũ \(\hat{Q}_q\) theo phân phối P-III được ước lượng bằng:
$$\hat{X}_q = \hat{\tau} + \hat{\beta} \cdot P^{-1}(\hat{\alpha}, q) \tag{11}$$
trong đó \(P^{-1}(\hat{\alpha}, q)\) là nghịch đảo của hàm gamma không đầy đủ (xem công trình của Abramowitz and Stegun, 1964)
Sau đó, quy đổi ngược lại logarit cơ số 10:
$$\hat{Q}_q = 10^{\hat{X}_q} \tag{12}$$
trong đó q là xác suất tích lũy mong muốn (ví dụ q = 0.99, khi đó p = 1 – q = 0.01).
Phân vị lũ cũng có thể được tính bằng hệ số tần suất \(K_{\hat{\gamma},p}\) – là một hàm của hệ số độ lệch \(\hat{\gamma}\) và xác suất vượt p:
$$\hat{X}_p = \hat{\mu} + \hat{\sigma} \cdot K_{\hat{\gamma},p} \tag{13}$$
Các giá trị \(K_{\hat{\gamma},p}\) có thể được tra từ bảng hoặc tính từ các thuật toán đã công bố (Kirby, 1972; Stedinger and others, 1993).
(nd: moment và parameter)
Moment:
Trong thống kê, các moment là các đại lượng mô tả hình dạng của một phân phối xác suất. Chúng được tính từ dữ liệu mẫu (hoặc từ công thức lý thuyết của phân phối). Trong thủy văn, chúng ta lấy các giá trị từ dữ liệu thực tế (dữ liệu dòng chảy lũ lụt) để tính các moment.
Cụ thể, các công thức được đánh số (5), (6), và (7) trong tài liệu là các công thức tính các moment của mẫu:
+\(\hat{\mu}\) (công thức 5): Đây là trung bình mẫu (sample mean), một moment bậc nhất.
+\(\hat{\sigma}\) (công thức 6): Đây là độ lệch chuẩn mẫu (sample standard deviation), có liên quan đến moment bậc hai (phương sai).
+\(\hat{\gamma}\) (công thức 7): Đây là hệ số bất đối xứng (skewness coefficient), một moment bậc ba.
Các giá trị này là các đại lượng được tính toán trực tiếp từ dữ liệu và được sử dụng làm ước lượng cho các tham số của phân phối.
Parameter:
Các parameter là những giá trị cố định và không đổi đặc trưng cho một phân phối xác suất cụ thể (ví dụ: phân phối P-III). Chúng quyết định hình dạng, vị trí và độ rộng của phân phối đó. Các tham số này thường không thể quan sát trực tiếp, mà phải được ước lượng từ dữ liệu mẫu.
Trong trường hợp của phân phối P-III, chúng ta sử dụng các moment của mẫu (\(\hat{\mu}, \hat{\sigma}, \hat{\gamma}\)) để ước lượng các tham số này.
Mối liên hệ:
Phương pháp Moment (Method of Moments), một kỹ thuật thống kê để ước lượng các tham số của một phân phối lý thuyết bằng cách so sánh các moment của mẫu với các moment lý thuyết của phân phối đó.
Nói một cách đơn giản, các moment là các đại lượng được tính toán từ dữ liệu thực tế, trong khi các parameter là các giá trị lý thuyết của một phân phối, và chúng ta dùng các moment để ước lượng các tham số này.
III.3.2. Ước lượng hệ số độ lệch có trọng số
Hệ số độ lệch tại trạm (moment bậc ba, ký hiệu \(\hat{\gamma}\)) thường có mức độ không chắc chắn khá lớn, do nó nhạy cảm với các giá trị cực đoan trong chuỗi số liệu có độ dài trung bình (Griffis và Stedinger, 2007a).
Hệ số độ lệch tại trạm \(\hat{\gamma}\) và hệ số độ lệch vùng G có thể được kết hợp lại để tạo ra một ước lượng tốt hơn cho độ lệch \(\tilde{G}\) ứng với một lưu vực nhất định, như minh họa trong nghiên cứu của Tasker (1978).
với giả định rằng:
- Hệ số độ lệch vùng G là không thiên lệch, và
- G là độc lập với hệ số độ lệch tại trạm \(\hat{\gamma}\)
(nd: không thiên lệch)
Không thiên lệch (tiếng Anh: unbiased) nghĩa là: Một ước lượng (hoặc phương pháp ước lượng) được gọi là không thiên lệch nếu giá trị trung bình của nó bằng đúng giá trị thực của tham số cần ước lượng.
thì phương sai trung bình bình phương (MSE) của:
- Hệ số độ lệch tại trạm (\(\mathrm{MSE}_{\hat{\gamma}})\),
- Hệ số độ lệch vùng (\(\mathrm{MSE}_G\))
có thể được sử dụng để ước lượng hệ số độ lệch có trọng số, như mô tả trong Phụ lục 7.
trong đó:
- \(\mathrm{MSE}_{\hat{\gamma}}\) được tính trực tiếp bằng phương pháp EMA.
- \(\mathrm{MSE}_G\) thường được ước lượng theo các quy trình mô tả trong mục Ước lượng độ lệch vùng (Estimating Regional Skew).
Nếu hệ số độ lệch vùng và hệ số độ lệch tại trạm chênh lệch nhau quá 0.5, cần phải xem xét kỹ lưỡng dữ liệu và các đặc điểm sinh lũ của lưu vực.
Trong một số trường hợp, có thể cần ưu tiên trọng số nhiều hơn cho hệ số độ lệch tại trạm, tùy thuộc vào:
- độ dài chuỗi số liệu,
- quy mô của các trận lũ lớn nhất trong chuỗi đo đạc và trong lưu vực,
- và đặc điểm của chính lưu vực đó.
Sự chênh lệch lớn giữa hệ số độ lệch vùng và tại trạm có thể cho thấy rằng đặc trưng tần suất lũ của lưu vực đang phân tích khác biệt với các lưu vực đã được dùng để xây dựng ước lượng hệ số độ lệch vùng.
Người ta cho rằng hệ số độ lệch tại trạm phụ thuộc vào độ lệch của mưa, khả năng trữ nước của kênh dẫn, và khả năng trữ nước trong lưu vực (McCuen và Smith, 2008).
Cũng cần lưu ý rằng có sự biến động đáng kể trong phản ứng của các lưu vực khác nhau, kể cả khi chúng có những đặc điểm quan sát được tương tự nhau. Ngoài ra, còn có sai số ngẫu nhiên do lấy mẫu khi ước lượng hệ số độ lệch từ chuỗi số liệu ngắn.
Do đó, việc ưu tiên trọng số nhiều hơn cho hệ số độ lệch tại trạm là điều hợp lý, sau khi đã cân nhắc kỹ lưỡng dữ liệu và các yếu tố sinh lũ của lưu vực.
III.4. Lưu lượng bằng zero và xác định các trận lũ nhỏ có ảnh hưởng tiềm tàng
Các điểm có ảnh hưởng tiềm tàng (“outliers” – giá trị ngoại lai) là những giá trị dữ liệu lệch đáng kể khỏi xu hướng chung của phần còn lại trong bộ dữ liệu. Trong chuỗi lưu lượng đỉnh hàng năm, các giá trị lũ nhỏ bất thường có thể là kết quả của các quá trình khác so với những trận lũ lớn trong cùng chuỗi, như đã nêu trong mục Lưu lượng bằng không và các trận lũ nhỏ có ảnh hưởng.
Việc đưa các giá trị lưu lượng bằng 0 và giá trị ngoại lai vào phân tích có thể ảnh hưởng đáng kể đến các tham số thống kê được tính toán từ dữ liệu, đặc biệt là khi kích thước mẫu nhỏ. Do đó, sự hiện diện của các PILFs (Potentially Influential Low Floods – các trận lũ nhỏ có ảnh hưởng) trong bộ dữ liệu có thể làm sai lệch kết quả ước lượng tham số.
Mục đích của việc ước lượng tần suất dòng chảy lũ là nhằm mô tả mối quan hệ giữa lưu lượng và xác suất vượt tại phía cao của phân phối tần suất — nơi mà các giá trị AEP có thể là 0.05, 0.02, 0.01, hoặc nhỏ hơn nữa.
Trong một số trường hợp, các trận lũ nhỏ quan sát được trong năm có thể ảnh hưởng mạnh đến hình dạng của phân phối tần suất ước lượng ở phía lưu lượng lớn. Do đó, mục tiêu của các quy trình được mô tả tại đây là loại bỏ ảnh hưởng của các trận lũ nhỏ, để chúng không hoặc rất ít ảnh hưởng đến các ước lượng tần suất ở phía lưu lượng cao. Mục tiêu cuối cùng là đạt được sự khớp tốt giữa phần đầu cao của phân phối tần suất quan sát và phân phối tần suất ước lượng. Việc này có thể dẫn đến sự khớp không tốt ở phía lưu lượng thấp của phân phối, tuy nhiên, việc không khớp ở phần thấp nhìn chung không gây hậu quả thực tiễn nghiêm trọng.
Các quan sát nhỏ nhất trong bộ dữ liệu không cung cấp thông tin có ý nghĩa hoặc hợp lệ về quy mô của các trận lũ nghiêm trọng (xem Phụ lục 6), mặc dù chúng có thể cung cấp thông tin hợp lệ về tần suất của các trận lũ nghiêm trọng. Do đó, nếu phần đuôi bên phải của đường cong tần suất (tức phần lưu lượng lớn) bị ảnh hưởng bởi các giá trị nhỏ nhất này, thì sự nhạy cảm đó là một sai lệch giả tạo, phát sinh từ hình thức toán học của phân phối giả định (thực chất chưa biết), và không có ý nghĩa thủy văn.
Mọi quy trình xử lý giá trị ngoại lai đều cần xét đến cả yếu tố toán học và thủy văn. Người phân tích cần vận dụng kiến thức thủy văn đồng thời áp dụng một phương pháp hợp lý và nhất quán về mặt toán học. Tài liệu hướng dẫn này khuyến nghị sử dụng kiểm định Grubbs–Beck mở rộng (Multiple Grubbs–Beck Test – MGBT) để phát hiện các trận lũ nhỏ có ảnh hưởng tiềm tàng (PILFs). Các phương pháp thống kê để phát hiện giá trị ngoại lai đã được nghiên cứu rộng rãi, bao gồm cả trường hợp có nhiều giá trị lũ nhỏ, như mô tả trong Cohn and others (2013), Lamontagne and others (2013, 2016), và các tài liệu trích dẫn liên quan.
Tuy nhiên, kiểm định GB khó áp dụng hiệu quả khi có nhiều giá trị lũ nhỏ, vì các giá trị này gây méo đáng kể đường tần suất, đồng thời làm tăng độ lệch chuẩn, khiến cho khoảng cách chuẩn hóa giữa các quan sát quá nhỏ để kiểm định GB có thể phát hiện ra ngoại lai.
MGBT là một cải tiến của kiểm định Grubbs–Beck (GB) ban đầu (Grubbs và Beck, 1972) được sử dụng trong Bulletin 17B.
MGBT là một tổng quát hóa hợp lý về mặt thống kê của kiểm định GB, và có khả năng phát hiện nhiều giá trị quan sát nhỏ nhất có thể là “bất thường” hoặc có ảnh hưởng tiềm tàng. MGBT cũng có thể đánh giá chính xác các trường hợp mà một hoặc nhiều giá trị bằng 0, hoặc nhỏ hơn ngưỡng ghi nhận (partial record sites). Do đó, MGBT cung cấp một thuật toán khách quan, nhất quán và có cơ sở thống kê rõ ràng để xem xét liệu một dải các giá trị quan sát nhỏ nhất có nên được phân loại là giá trị ngoại lai (hoặc PILFs) hay không, áp dụng được cho nhiều tình huống đa dạng hơn so với kiểm định GB truyền thống.
MGBT tuân theo lập luận tương tự như phép kiểm R-statistic của Rosner (1983). Giá trị trung bình và phương sai tổng thể được tính từ các điểm dữ liệu mà không thể là ngoại lai dưới cả giả thuyết gốc và giả thuyết thay thế. MGBT là một ứng dụng một phía của phương pháp này, trong đó chỉ quan tâm đến các ngoại lai nhỏ (low outliers), còn các giá trị lớn không được xem là ngoại lai.
Trong phân tích tần suất lũ, các giá trị ngoại lai nhỏ là vấn đề đáng quan tâm vì khi sử dụng logarit của lưu lượng đỉnh để lắp ráp với một phân phối, một hoặc vài giá trị lưu lượng nhỏ bất thường có thể làm méo đáng kể toàn bộ phân phối tần suất đã lắp ráp. Do đó, việc phát hiện các giá trị này là rất quan trọng.
Ngoài ra, các phân phối đã lắp nên được so sánh trực quan với dữ liệu để phát hiện các vấn đề bất thường.
Phép kiểm MGBT được áp dụng cho dữ liệu hệ thống của các lưu lượng đỉnh hàng năm từ hồ sơ trạm đo.
Gọi \(\{X_1, \ldots, X_n\}\) là chuỗi logarit của các giá trị lũ đỉnh hàng năm. Xét dãy sắp xếp tăng dần: \(\{X_{[1:n]}, X_{[2:n]}, \ldots, X_{[n:n]}\}\)
trong đó \(X_{[1:n]}\) là giá trị nhỏ nhất trong mẫu kích thước n.
- Giả thuyết gốc – Null hypothesis (H₀): tất cả các giá trị \(\{X_1, \ldots, X_n\}\) được lấy từ cùng một tổng thể chuẩn (độc lập và phân phối giống nhau).
- Giả thuyết thay thế – Alternative hypothesis (H₁): giá trị thứ k nhỏ nhất \(X_{[k:n]}\) là bất thường so với tổng thể đó.
Nếu \(X_{[k:n]}\) được xác định là một PILF (trận lũ nhỏ có ảnh hưởng), thì tất cả các giá trị nhỏ hơn nó (tức là \(X_{[1:n]}, X_{[2:n]}, …, X_{[k-1:n]}\)) cũng được xem là PILFs.
Các lưu lượng đỉnh hàng năm trong bộ dữ liệu, nếu được phát hiện là có ảnh hưởng tiềm tàng, sẽ được mã hóa lại thành giá trị nhỏ hơn một ngưỡng lưu lượng gọi là \(T_{PILF}\) và được xử lý như dữ liệu dạng khoảng (interval data) trong phương pháp EMA, như sẽ trình bày bên dưới.
Các giá trị bằng 0, nếu xuất hiện trong chuỗi lưu lượng đỉnh, cũng sẽ được phân loại là PILFs. Chi tiết tính toán của thuật toán MGBT và các giá trị p dùng để xác định PILFs được trình bày trong Phụ lục 6.
Trong trường hợp chỉ có một ngoại lai nhỏ duy nhất, kiểm định MGBT sẽ giống hệt kiểm định Grubbs–Beck gốc (Grubbs và Beck, 1972), đã được sử dụng trong IACWD (1982).
Khi thích hợp, nếu MGBT không xác định đầy đủ các PILFs, người phân tích có thể tự thiết lập một ngưỡng ngoại lai thấp dựa trên:
- các yếu tố thủy văn,
- kiến thức về lưu vực,
- và đặc điểm thực địa.
Lý do cho việc chọn ngưỡng PILF \(T_{PILF}\) cần được ghi chép rõ ràng và đầy đủ.
III.5. Thuật toán Moment Kỳ vọng (Expected Moments Algorithm – EMA)
Thuật toán Moment Kỳ vọng (EMA) là một mở rộng của phương pháp moment, được dùng để ước lượng các tham số của phân phối P-III. EMA cho phép lắp trực tiếp phân phối P-III với toàn bộ bộ dữ liệu, đồng thời sử dụng thông tin về hệ số độ lệch vùng (regional skew) và một loạt thông tin về lũ lịch sử và lũ vượt ngưỡng, đồng thời hiệu chỉnh cho các yếu tố như:
- các trận lũ nhỏ có ảnh hưởng tiềm tàng (PILFs),
- giá trị bị thiếu trong chuỗi không đầy đủ,
- hoặc các năm không có lũ (zero flood years)
(Stedinger và Griffis, 2008).
EMA sử dụng nhiều loại thông tin lũ tại trạm, bao gồm:
- Dữ liệu hệ thống (Systematic Records),
- Dữ liệu lũ lịch sử (Historical Flood Information),
- Dữ liệu cổ lũ và thực vật (Paleoflood and Botanical Information).
Thuật toán cũng sử dụng thông tin về:
- độ lớn của các trận lũ lịch sử và lũ cổ,
- các khoảng thời gian lũ,
- lưu lượng cơ sở thay đổi từ các công trình CSGs,
- số năm trong thời kỳ lịch sử mà không có lũ lớn xảy ra, như được mô tả trong mục Biểu diễn Dữ liệu theo Khoảng lưu lượng và Ngưỡng cảm nhận
EMA cũng trực tiếp sử dụng thông tin lũ vùng (xem mục Thông tin Vùng và Các Trạm Lân Cận ) dưới dạng hệ số độ lệch vùng G.
Đối với các trường hợp dữ liệu đơn giản, chỉ gồm dữ liệu hệ thống (Systematic Records), không có thông tin lịch sử và không có PILFs, EMA sẽ trả về các ước lượng moment tiêu chuẩn như trình bày trong mục Ước lượng Tham số – Trường hợp Đơn giản.
Thuật toán EMA là phần mở rộng hợp lý của phương pháp moment theo phân phối LP-III trong Bulletin 17B, nhằm xử lý dữ liệu trong một khuôn khổ thống kê nhất quán, tận dụng toàn bộ các nguồn thông tin thường có sẵn. Đã có nhiều nghiên cứu chỉ ra một số điểm yếu và đề xuất cải tiến cho phương pháp moment trong Bulletin 17B, bao gồm:
- dữ liệu lũ lịch sử,
- xử lý các giá trị ngoại lai nhỏ,
- sử dụng hệ số độ lệch vùng,
- khoảng tin cậy.
Stedinger và Cohn (1986) và Lane (1987) đã nhận thấy rằng dữ liệu lịch sử và lũ cổ không được Bulletin 17B khai thác hiệu quả.
EMA ban đầu được phát triển như một phương án thay thế cho Bulletin 17B (Lane, 1995; Lane và Cohn, 1996; Cohn and others, 1997), với mục tiêu tận dụng đầy đủ dữ liệu lũ lịch sử và lũ cổ (England and others, 2003a,b).
EMA sau đó được mở rộng để xử lý một cách nhất quán các điều chỉnh ngoại lai nhỏ và thông tin về hệ số độ lệch vùng (Griffis and others, 2004; Griffis, 2008), bên cạnh dữ liệu lũ lịch sử. Các khoảng tin cậy trong EMA đã được phát triển (Cohn and others, 2001), như được mô tả trong mục Khoảng tin cậy cho các phân vị; do đó, EMA cung cấp một khuôn khổ thống kê nhất quán để phân tích tần suất lũ. Đối với các trường hợp đơn giản chỉ có chuỗi dữ liệu hệ thống và hệ số độ lệch vùng, EMA quay lại sử dụng phương pháp moment như được khuyến nghị trong IACWD (1982) (xem mục Ước lượng tham số – trường hợp đơn giản). Thông tin lịch sử, cơ sở lý thuyết và góc nhìn mở rộng được trình bày trong Griffis và Stedinger (2007a) và Stedinger và Griffis (2008).
EMA sử dụng các khoảng lưu lượng đỉnh \(Q_{Y,lower}\) và \(Q_{Y,upper}\) để ước lượng các moment của phân phối LP-III. EMA cũng yêu cầu các ngưỡng cảm nhận tương ứng \(T_{Y,lower}\) và \(T_{Y,upper}\) để tính khoảng tin cậy và các đại lượng thể hiện độ bất định trong ước lượng tần suất. Do đó, việc ước lượng chính xác các khoảng lưu lượng và ngưỡng cảm nhận là rất quan trọng, dựa trên tất cả các thông tin và dữ liệu có sẵn, như trình bày trong mục Thông tin tần suất lũ. Như được mô tả trong mục Biểu diễn dữ liệu theo khoảng lưu lượng và ngưỡng cảm nhận, các khoảng lưu lượng đỉnh và ngưỡng cảm nhận được xác định riêng cho từng loại dữ liệu và từng năm.
Trong trường hợp tổng quát có ngưỡng cảm nhận lịch sử \(T_h\) và ngưỡng PILF \(T_{PILF}\), các đầu vào cho EMA được xác định bằng cách đếm số lượng lũ vượt ngưỡng (>) và lũ nhỏ hơn ngưỡng (<) trong từng năm, tương ứng với từng ngưỡng cảm nhận.
Nhắc lại rằng: \(X = \log_{10}(Q)\), và \(X_h, X_{PILF}\) là logarit cơ số 10 của \(T_h\) và \(T_{PILF}\), tương ứng
Các giá trị logarit của lũ được biểu diễn dưới dạng hợp của 4 tập (Cohn và cộng sự, 1997):
$$\{X\} = \{X^>_s\} \cup \{X^>_h\} \cup \{X^{<}_s\} \cup \{X^{<}_h\} \tag{14}$$
Trong đó, nếu PILFs được xác định, giai đoạn dữ liệu hệ thống sẽ được chia thành các lũ trên và dưới ngưỡng PILF \(X_l\) (Griffis, 2008):
$$\{X^{<}_s\} = \{X^{>}_l\} \cup \{X^{<}_l\} \tag{15}$$
Với các thuật ngữ được định nghĩa tại Bảng 1.
Các bước trong EMA cho trường hợp tổng quát có \(X_h\) và \(X_l\) bao gồm:
- Xác định các ngưỡng cảm nhận: \(X_h\) cho giai đoạn lịch sử và \(X_l\) cho PILFs trong giai đoạn quan trắc chính thức (systematic period).
- Sử dụng các giá trị vượt ngưỡng \(\{X^>_h\}\) và \(\{X^>_l\}\), để tính các ước lượng ban đầu của moment mẫu \(\{\hat{\mu}_1, \hat{\sigma}_1, \hat{\gamma}_1\}\) như thể đang có một bộ dữ liệu đầy đủ.
- Với mỗi vòng lặp i = 1, 2,… ước lượng các tham số phân phối P-III: \(\{\hat{\alpha}_{i+1}, \hat{\beta}_{i+1}, \hat{\tau}_{i+1}\}\) từ moment mẫu đã tính:
$$\hat{\alpha}_{i+1} = \frac{4}{\hat{\gamma}_i} \tag{16}$$
$$\hat{\beta}_{i+1} = \left(\frac{1}{2}\right) \hat{\sigma}_i \hat{\gamma}_i \tag{17}$$
$$\hat{\tau}_{i+1} = \hat{\mu}_i – \hat{\alpha}_{i+1} \hat{\beta}_{i+1} \tag{18}$$
- Tính moment mới \(\{\hat{\mu}_{i+1}, \hat{\sigma}_{i+1}, \hat{\gamma}_{i+1}\}\) bằng moment kỳ vọng (expected moments).
- Kiểm tra hội tụ: lặp lại Bước 3 và 4 cho đến khi các ước lượng tham số hội tụ.
Ví dụ, để tính lại trung bình ở vòng lặp i + 1, theo Công thức (5), ta dùng:
$$\hat{\mu}_{i+1} = \left( \frac{1}{n} \right) \sum_{i=1}^{n} \tilde{X}_i \tag{19}$$
Bảng 1. Các thuật ngữ lưu lượng và năm được sử dụng trong Thuật toán Momen kỳ vọng
| Lưu lượng hoặc Năm | Định nghĩa |
|---|---|
| \(\{X_s^{>} \}\) | Logarit (cơ số 10) của các trận lũ xuất hiện trong hồ sơ systematic data, với độ lớn lớn hơn ngưỡng lịch sử \(X_h\) |
| \(\{X_h^{>} \}\) | Logarit của các trận lũ lịch sử hoặc lũ cổ (historical floods or paleofloods) có độ lớn lớn hơn \(X_h\), xảy ra trong lịch sử. |
| \(\{X_l^{>} \}\) | Logarit của các trận lũ trong hồ sơ systematic data có độ lớn lớn hơn ngưỡng PILF \(X_l\) và nhỏ hơn \(X_h\). |
| \(\{X_h^{<} \}\) | Logarit của các trận lũ lịch sử hoặc lũ cổ không được đo đạc có độ lớn nhỏ hơn \(X_h\), vì chúng không vượt qua ngưỡng \(X_h\). |
| \(\{X_l^{<} \}\) | Logarit của các trận lũ trong hồ sơ systematic data có độ lớn nhỏ hơn ngưỡng PILF \(X_l\). |
| \(\{n_s^{<} \}\) | Số lượng trận lũ trong hồ sơ systematic data có độ lớn nhỏ hơn \(X_h\). |
| \(\{n_h^{<} \}\) | Số lượng trận lũ không được đo đạc trong lịch sử có độ lớn nhỏ hơn \(X_h\). |
| \(\{n_l^{<} \}\) | Số lượng trận lũ trong hồ sơ systematic data có độ lớn nhỏ hơn \(X_l\). |
với
$$\tilde{X}_i = \begin{cases} X_i & \text{nếu } X_i \text{ được đo đạc} \\ & \text{hoặc là “giá trị chính xác”} \\ E[X \mid X_{\text{lower}} < X_i < X_{\text{upper}}] & \text{nếu } X_{\text{lower}} < X_i < X_{\text{upper}} \end{cases} \tag{20}$$
và \(E[X \mid X_{\text{lower}} < X_i < X_{\text{upper}}]\) là giá trị kỳ vọng của một quan sát được biết là nằm trong một khoảng.
Các phương trình và chi tiết tính toán cho EMA được trình bày trong Phụ lục 7. Các khoảng tin cậy của EMA được mô tả trong mục Khoảng tin cậy cho các phân vị.
III.6. Mở rộng chuỗi số liệu bằng các trạm lân cận
Độ dài chuỗi số liệu tối thiểu được khuyến nghị để phân tích tần suất trong Bulletin 17C là 10 năm dữ liệu đỉnh lũ lớn nhất hàng năm. Ngay cả khi có sử dụng thông tin độ lệch vùng (regional skew) hữu ích, dữ liệu lịch sử, và hiệu chỉnh cho các trận lũ nhỏ, 10 năm số liệu vẫn có thể không đủ để ước lượng các trận lũ cực đoan hơn, như trận lũ có AEP 0.01. Việc kéo dài chuỗi số liệu theo thời gian là một cách để đạt được mẫu đại diện hơn. Dưới đây là một số lý do tại sao một trạm có chuỗi số liệu ngắn có thể không đại diện cho điều kiện dài hạn:
- Chuỗi số liệu ngắn có thể đại diện cho một giai đoạn ẩm ướt, trong đó một hoặc nhiều trận lũ lớn xảy ra trong thời gian ngắn;
- Chuỗi số liệu ngắn có thể đại diện cho một giai đoạn hạn hán, trong đó không có trận lũ lớn nào xảy ra; và
- Có thể đã biết rằng các trận lũ lịch sử lớn xảy ra trước hoặc sau thời điểm bắt đầu thu thập dữ liệu hệ thống tại trạm có chuỗi ngắn, và các ước lượng của những trận lũ này cần được đưa vào phân tích tần suất.
Phần kéo dài số liệu liên quan đến việc ước lượng thêm các năm số liệu cho một trạm đo có chuỗi ngắn hạn, bằng cách sử dụng dữ liệu từ một trạm dài hạn gần đó. Lưu lượng đỉnh năm được ước lượng sau đó sẽ được phân tích cùng với dữ liệu quan trắc trong phân tích tần suất theo Bulletin 17C.
Cách tiếp cận được khuyến nghị cho việc mở rộng số liệu dựa trên kỹ thuật Duy trì Phương sai Mở rộng (Maintenance of Variance Extension – MOVE) (Hirsch, 1982) với các cải tiến sau đó (Vogel và Stedinger, 1985). Các phương trình MOVE, cùng với ví dụ ứng dụng, được trình bày trong Phụ lục 8.
Một cách tiếp cận hợp lý để áp dụng MOVE là sử dụng dữ liệu đồng thời tại một trạm dài hạn gần đó có đặc điểm lưu vực tương tự với trạm cần mở rộng. Cần có ít nhất 10 năm dữ liệu chồng lặp giữa trạm ngắn hạn và trạm dài hạn, và hệ số tương quan cần vượt qua một giá trị tới hạn, như được định nghĩa trong phụ lục 8.
Việc áp dụng MOVE được khuyến nghị khi trạm có chuỗi số liệu ngắn hơn 20 năm, với độ dài tối thiểu là 10 năm.
III.7. Khoảng tin cậy cho các phân vị
Người sử dụng các đường cong tần suất cần lưu ý rằng đường cong này chỉ là một ước lượng của đường cong tổng thể, không phải là biểu diễn chính xác. Hồ sơ lưu lượng chỉ là một mẫu. Mức độ mà mẫu này có thể dự đoán đúng thực tế lũ lụt (tổng thể) phụ thuộc vào kích thước mẫu, mức độ đại diện của mẫu, và việc phân phối xác suất ngầm định có được biết đến hay lựa chọn đúng đắn hay không.
Hồ sơ lưu lượng đỉnh hàng năm tại một vị trí là một mẫu ngẫu nhiên lấy từ tổng thể của các giá trị đỉnh hàng năm, và có thể được sử dụng để ước lượng đường cong tần suất của tổng thể đó. Nếu chọn một mẫu ngẫu nhiên cùng cỡ nhưng từ một khoảng thời gian khác, thì ước lượng cho đường cong tần suất tổng thể có thể sẽ khác.
Do đó, một đường cong tần suất lũ được ước lượng chỉ có thể là xấp xỉ với đường cong tần suất thực sự của tổng thể lưu lượng đỉnh hàng năm. Để đánh giá mức độ chính xác của sự xấp xỉ này, người ta có thể thiết lập một khoảng hoặc một dải các đường cong tần suất giả định, trong đó với mức độ tin cậy cao, bao gồm được đường cong tần suất tổng thể. Các khoảng như vậy được gọi là khoảng tin cậy (confidence intervals), và các giới hạn của chúng được gọi là giới hạn tin cậy (confidence limits).
Các khoảng tin cậy cung cấp hoặc là một thước đo của sự không chắc chắn của xác suất vượt ước lượng đối với một lưu lượng được chọn, hoặc là một thước đo của sự không chắc chắn của lưu lượng tại một xác suất vượt ngưỡng được chọn.
Các khoảng tin cậy đối với lưu lượng trong phân phối P-III có thể được ước lượng bằng phương pháp mô tả trong phụ lục 7. EMA với toàn bộ dữ liệu sẵn có, bao gồm các trận lũ lịch sử, PILFs, dữ liệu theo khoảng, và độ lệch vùng (regional skew), được sử dụng. Sự không chắc chắn trong các ước lượng tại trạm và vùng đối với hệ số độ lệch cũng được đưa vào.
Việc áp dụng các khoảng tin cậy trong các quyết định lập kế hoạch tài nguyên nước phụ thuộc vào nhu cầu của người sử dụng. Phần trình bày này nhằm nhấn mạnh rằng đường cong tần suất được phát triển bằng các Hướng dẫn này chỉ là ước lượng tốt nhất hiện tại đối với phân phối tần suất lũ. Khi có thêm dữ liệu, ước lượng sẽ thường được cải thiện và các khoảng tin cậy sẽ được thu hẹp lại.
Hỗ trợ duy trì trang:
Tôi xây dựng trang này để chia sẻ các tài liệu kỹ thuật cốt lõi trong thiết kế hạ tầng giao thông.
Nếu bạn thấy nội dung hữu ích và muốn góp phần duy trì trang hoạt động bền vững, tôi rất trân trọng mọi sự ủng hộ.