- 5.1 Đặc điểm thống kê của lũ (Statistical Character of Floods)
- 5.1.1 Độ dài chuỗi số liệu và dữ liệu lịch sử (Record Length and Historical Data)
- 5.1.2 Chuỗi hàng năm và Chuỗi thời đoạn (Annual and Partial-Duration Series)
- 5.1.3 Các vấn đề thường gặp với dữ liệu tại chỗ
- 5.1.4 Xác suất vượt ngưỡng hàng năm và chu kỳ lặp
- 5.1.5 Khái niệm về phân tích tần suất
- 5.1.6 Hàm phân phối xác suất
- 5.1.7 Vẽ Dữ liệu của Mẫu với Công Thức tính vị trí vẽ theo xác suất (Plotting Position)
- 5.2 Các Phân Phối Tần Suất Chuẩn
Việc thiết kế các công trình thoát nước đường giao thông đặt ra cho kỹ sư bài toán phổ biến là ước tính lưu lượng đỉnh tương ứng với các AEP. Chương này trình bày các phương pháp áp dụng cho các vị trí có số liệu đo đạc, tức là các vị trí nằm tại hoặc gần trạm đo. Việc ước tính lưu lượng đỉnh đòi hỏi phải có chuỗi số liệu đo gần như đầy đủ và đủ dài.
Các vị trí nằm tại hoặc gần trạm đo, nhưng có chuỗi số liệu không đầy đủ hoặc ngắn, được xem là các trường hợp đặc biệt. Kỹ sư có thể ước tính lưu lượng đỉnh theo các tần suất chọn trước tại các vị trí này bằng cách bổ sung số liệu hoặc chuyển số liệu từ vị trí khác đến. Ngoài ra, họ có thể sử dụng phương trình hồi quy hoặc các phương pháp tổng hợp khác áp dụng cho các vị trí không có số liệu (xem Chương 6, 7 và 8).
Ấn phẩm của USGS có tên Guidelines for Determining Flood Flow Frequency (England và cộng sự, 2019), thường được gọi là Bulletin 17C, mô tả “dữ liệu và quy trình tính toán tần suất lũ khi có chuỗi số liệu đo lưu lượng dòng chảy đủ dài (ít nhất 10 năm, có độ lệch chuẩn khu vực mang tính thông tin và/hoặc được mở rộng bằng số liệu lịch sử) để có thể tiến hành phân tích thống kê.” Tài liệu này được biên soạn nhằm phục vụ phân tích chuỗi lưu lượng đỉnh lũ hàng năm, bao gồm cả số liệu đo hệ thống và số liệu lịch sử.
Bulletin 17C trình bày một phương pháp ước tính các tham số thống kê dùng để khớp đường cong tần suất lũ với chuỗi số liệu dòng chảy đo được hàng năm, thay thế cho Bulletin 17B (Water Resources Council, 1982). Bulletin 17C gọi phương pháp này là Expected Moments Algorithm (EMA), đã được mã hóa trong các phần mềm, chủ yếu là phần mềm HEC-SSP của U.S. Army Corps of Engineers (USACE) và phần mềm PeakFQ của U.S. Geological Survey (USGS).
Chương này chủ yếu tập trung vào phân tích thống kê số liệu đo đạc. Nội dung trình bày các kỹ thuật giải bài toán, bàn về các giả định và hạn chế của chúng, và giới thiệu các công cụ phổ biến. Bulletin 17C và EMA sẽ được sử dụng xuyên suốt trong các phần tiếp theo.
(nd: AEP)
AEP là viết tắt của Annual Exceedance Probability, tạm dịch là xác suất vượt ngưỡng hàng năm.
Giải thích:
- AEP biểu thị xác suất mà một sự kiện (như lũ đỉnh) sẽ xảy ra hoặc bị vượt quá trong một năm bất kỳ.
- Thường được dùng trong thiết kế thủy văn, đặc biệt là thiết kế các công trình như cống, cầu, hệ thống thoát nước,…
Ví dụ:
| AEP (%) | Chu kỳ lặp lại (Return Period) | Ý nghĩa |
|---|---|---|
| 1% | 100 năm | Sự kiện chỉ có 1% khả năng xảy ra trong 1 năm |
| 10% | 10 năm | Xác suất 10% xảy ra trong 1 năm |
AEP = 1% nghĩa là có 1% khả năng xảy ra lưu lượng đỉnh tương ứng hoặc lớn hơn trong bất kỳ năm nào — hay còn gọi là “lũ 100 năm”.
Tóm lại:
- AEP (Annual Exceedance Probability) là cách diễn đạt rủi ro xảy ra của một trận lũ với lưu lượng nhất định trong một năm.
- AEP càng nhỏ → sự kiện càng hiếm → lưu lượng đỉnh càng lớn → yêu cầu thiết kế càng nghiêm ngặt hơn.
(nd: Buletin 17C)
Tải Bulletin 17C
(nd: HEC-SSP)
tải HEC-SSP
HEC-SSP là phần mềm miễn phí do U.S. Army Corps of Engineers (USACE) phát triển, chuyên dùng để:
- Phân tích tần suất lũ (Flood Frequency Analysis) theo Bulletin 17C (Log-Pearson Type III)
- Ước lượng lưu lượng đỉnh ứng với các tần suất AEP (0.01, 0.02, 0.1, v.v.)
- Phân tích dữ liệu mực nước, lưu lượng và thời gian
- Hỗ trợ EMA (Expected Moments Algorithm) và các tùy chọn kiểm soát dữ liệu bị thiếu, outlier, v.v.
Miễn là bạn có dữ liệu đầu vào đúng định dạng (chuỗi lưu lượng đỉnh hàng năm), HEC-SSP hoàn toàn có thể chạy tốt và cho kết quả phù hợp.
Cân nhắc khi dùng
| Vấn đề | Chi tiết |
|---|---|
| Tiêu chuẩn Mỹ | HEC-SSP thực hiện đúng theo hướng dẫn Bulletin 17C – là tiêu chuẩn của Mỹ. Nếu dự án yêu cầu tuân thủ tiêu chuẩn khác thì cần kiểm tra xem kết quả có phù hợp hay không. |
| Phân bố thống kê | Chủ yếu dùng Log-Pearson Type III, |
| Đơn vị | Đơn vị mặc định là cfs (cubic feet per second) và feet – bạn cần chuyển đổi về m³/s hoặc mét. |
| Ngôn ngữ | Giao diện hoàn toàn bằng tiếng Anh – cần có người sử dụng hiểu phần mềm và thông số đầu vào, đầu ra. |
(nd: PeakFQ)
Tải PeakFQ
PeakFQ là một công cụ phân tích tần suất lũ (flood frequency analysis) dựa trên các chuỗi số liệu lưu lượng đỉnh (peak flow) từ các trạm đo.
Nếu bạn có dữ liệu lưu lượng đỉnh theo năm (annual peak flow data) từ các trạm thủy văn, bạn hoàn toàn có thể dùng PeakFQ để:
- Phân tích phân bố tần suất (như Log-Pearson Type III)
- Ước lượng lưu lượng ứng với tần suất 1%, 2%, 10%, v.v.
- Tính toán các tham số thống kê như trung bình, độ lệch chuẩn, skew
Cân nhắc khi dùng
| Vấn đề | Chi tiết |
|---|---|
| Phương pháp | PeakFQ tuân theo hướng dẫn Bulletin 17C của Hoa Kỳ, áp dụng cho dữ liệu của USGS. |
| Dữ liệu đầu vào | Bạn cần có chuỗi số liệu lưu lượng đỉnh hàng năm, với thời gian tối thiểu 10 năm trở lên, càng dài càng tốt. Số liệu phải đồng nhất và đáng tin cậy. |
| Hệ tọa độ, đơn vị | Phần mềm dùng đơn vị Mỹ theo mặc định (cfs, ft³/s). Cần chuyển đổi đơn vị nếu dữ liệu bạn đang dùng là m³/s. |
| Phân bố thống kê | PeakFQ chủ yếu dùng Log-Pearson Type III |
(nd: EMA)
Expected Moments Algorithm (EMA) là một thuật toán được sử dụng trong thống kê và xử lý tín hiệu, đặc biệt trong các bài toán ước lượng tham số khi dữ liệu bị thiếu, không hoàn chỉnh, hoặc có nhiễu. Thuật toán này được sử dụng để ước lượng các moment kỳ vọng (expected moments) của biến ngẫu nhiên, thường là khi phân phối của biến chưa được biết rõ nhưng ta có thể mô hình hóa nó.
Định nghĩa:
Expected Moments Algorithm (EMA) là một kỹ thuật ước lượng thống kê lặp nhằm tìm ra các tham số của một phân phối xác suất bằng cách sử dụng moment kỳ vọng (như trung bình, phương sai…) thay vì quan sát trực tiếp.
Ý tưởng chính:
EMA tận dụng mối quan hệ giữa các tham số chưa biết và các moment của phân phối. Nó thường được dùng trong các trường hợp:
- Dữ liệu không đầy đủ.
- Có cấu trúc mô hình nhưng cần ước lượng tham số từ dữ liệu gián tiếp.
- Mô hình thống kê ẩn (hidden structure), ví dụ: mô hình hỗn hợp (mixture models).
So sánh với EM Algorithm:
EMA có liên quan đến Expectation-Maximization (EM) Algorithm, nhưng không hoàn toàn giống:
| Thuật toán | Dùng gì? | Mục tiêu |
|---|---|---|
| EM | Phân phối đầy đủ & dữ liệu bị ẩn | Tối đa hóa hàm hợp lý (likelihood) |
| EMA | Các moment kỳ vọng | Ước lượng tham số dựa trên moment |
Ứng dụng:
- Ước lượng tham số trong mô hình hỗn hợp Gaussian.
- Phân tích tín hiệu có nhiễu.
- Hệ thống radar, sonar, và các bài toán nhận dạng mẫu.
- Machine learning khi dữ liệu bị thiếu.
5.1 Đặc điểm thống kê của lũ (Statistical Character of Floods)
Phân tích thống kê dựa trên các khái niệm về tập hợp và mẫu. Thống kê định nghĩa một tập hợp là toàn bộ tập hợp của tất cả các khả năng xảy ra của một đại lượng nhất định. Tập hợp có thể là hữu hạn hoặc vô hạn. Ví dụ, số khả năng có thể xảy ra khi gieo một con xúc xắc – một số cố định – là một tập hợp hữu hạn, trong khi số lưu lượng đỉnh hàng năm khác nhau có thể xảy ra đối với một dòng sông được xem như một tập hợp (gần như) vô hạn.
Trong mọi trường hợp thực tiễn, các kỹ sư phân tích dữ liệu thủy văn như một mẫu của một tập hợp vô hạn, và thường giả định rằng mẫu này là đại diện cho tập hợp mẹ. Trong trường hợp này, tính đại diện có nghĩa là các đặc trưng của mẫu, như các đại lượng đặc trưng về xu hướng trung tâm và phân bố tần suất, là giống với của tập hợp mẹ.
Thống kê suy diễn mô tả việc suy luận các đặc trưng và tham số của tập hợp từ các đặc trưng của mẫu. Kỹ sư thường sử dụng các kỹ thuật thống kê suy diễn để phân tích dữ liệu thủy văn vì các mẫu được dùng để dự đoán đặc trưng của tập hợp. Không chỉ giúp ước lượng các đặc trưng của tập hợp từ mẫu, các kỹ thuật thống kê suy diễn còn cung cấp công cụ để đánh giá độ tin cậy hoặc độ chính xác của các ước lượng. Các mục tiếp theo sẽ thảo luận một số phương pháp phân tích dữ liệu, minh họa các phương pháp này bằng dữ liệu lưu lượng đỉnh thực tế.
5.1.1 Độ dài chuỗi số liệu và dữ liệu lịch sử (Record Length and Historical Data)
Một yếu tố then chốt để suy luận đặc trưng của một tập hợp là sự tồn tại của một mẫu đủ lớn. Trong ngữ cảnh dữ liệu mực nước hoặc lưu lượng tại các trạm đo, các kỹ sư gọi đây là độ dài chuỗi số liệu. Việc ghi nhận thường xuyên lưu lượng đỉnh hằng năm tạo nên một chuỗi được gọi là “chuỗi hệ thống”. Các kỹ sư phân tích dữ liệu tại các trạm đo để ước lượng lưu lượng đỉnh theo xác suất hoặc tần suất vượt ngưỡng tại một vị trí cụ thể. Bulletin 17C (England et al. 2019) đề xuất rằng cần ít nhất 10 năm dữ liệu để đảm bảo cho một phân tích thống kê.
Tại một số vị trí, có thể có dữ liệu bổ sung hoặc ngoài chuỗi hệ thống. Những dữ liệu lịch sử này có thể ghi nhận các trận lũ lớn trước hoặc sau giai đoạn thu thập dữ liệu dòng chảy. Kỹ sư có thể thu thập thông tin này từ phỏng vấn, các bản tin báo chí, và khảo sát thực địa các dấu vết lũ. Khi có thể, việc thu thập và ghi nhận các dữ liệu này giúp cải thiện ước lượng tần suất lũ.
Khi có thông tin đáng tin cậy cho thấy có một hoặc nhiều trận lũ lớn xảy ra ngoài giai đoạn dữ liệu, kỹ sư sẽ hiệu chỉnh phân tích tần suất để tính đến những sự kiện này. Dù các ước lượng về dòng chảy lũ lịch sử chưa được ghi nhận có thể không chính xác, việc đưa chúng vào mẫu là cần thiết vì sai số trong việc ước lượng này thường nhỏ so với sự dao động ngẫu nhiên của lưu lượng đỉnh hằng năm. Tuy nhiên, nếu có bằng chứng cho thấy các trận lũ lớn xảy ra dưới điều kiện lưu vực khác với mẫu hiện có, chúng cần được điều chỉnh để phản ánh điều kiện hiện tại của lưu vực.
Trước Bulletin 17C, phương pháp đưa dữ liệu lịch sử vào phân tích tần suất tại trạm được xem như một thành phần riêng biệt khi phát triển các tham số thống kê để xây dựng đường tần suất lũ. Bulletin 17C đưa ra phương pháp điều chỉnh dữ liệu lịch sử dựa trên giả định rằng “dữ liệu từ chuỗi hệ thống đại diện cho giai đoạn giao thoa giữa dữ liệu hệ thống và dữ liệu lịch sử đáng tin cậy.” Kỹ sư nhập dữ liệu lịch sử vào phần mềm thực hiện phân tích Bulletin 17C như một phần của chuỗi đầu vào. Do đó, không cần tính toán riêng biệt các đặc trưng của dữ liệu lịch sử như trước đây.
5.1.2 Chuỗi hàng năm và Chuỗi thời đoạn (Annual and Partial-Duration Series)
Trước khi phân tích dữ liệu, kỹ sư sẽ sắp xếp dữ liệu một cách có hệ thống. Kỹ sư có thể sắp xếp dữ liệu theo nhiều cách, tùy thuộc vào các đặc điểm cụ thể đang được xem xét. Một cách sắp xếp dữ liệu theo đặc điểm cụ thể được gọi là phân phối hoặc chuỗi. Các nhóm dữ liệu phổ biến bao gồm độ lớn, thời điểm xảy ra và vị trí địa lý.
Các kỹ sư thường sắp xếp dữ liệu lũ theo chuỗi lưu lượng đỉnh hàng năm, hay đơn giản là chuỗi hàng năm. Chuỗi này là tập hợp các lưu lượng đỉnh lũ lớn nhất trong mỗi năm. Hình 5.1 minh họa một ví dụ về chuỗi hàng năm gồm 29 lưu lượng đỉnh lũ hàng năm tại Mono Creek gần Vermilion Valley, California.

Kỹ sư cũng sắp xếp dữ liệu lũ theo chuỗi thời đoạn (partial-duration series). Phương pháp này sử dụng các lưu lượng lũ vượt một giá trị ngưỡng nhất định. Ví dụ, chuỗi thời đoạn có thể bao gồm tất cả các lưu lượng vượt qua lưu lượng tương ứng với một mực nước nào đó. Cơ quan Khảo sát Địa chất Hoa Kỳ (USGS) đặt ngưỡng cho chuỗi này sao cho trung bình mỗi năm có khoảng ba đỉnh lũ vượt ngưỡng đó. Trong khoảng thời gian 20 năm, điều này có thể cho ra 60 đỉnh lũ hoặc nhiều hơn, so với chỉ 20 đỉnh lũ trong chuỗi hằng năm. Hồ sơ lưu trữ bao gồm cả các đỉnh lũ hằng năm và các đỉnh lũ thời đoạn đối với các lưu vực chưa bị điều tiết. Hình 5.2 minh họa một phần hồ sơ của trạm Mono Creek bao gồm cả các trận lũ lớn nhất hằng năm và các trận lũ lớn phụ khác.
Kỹ sư chủ yếu sử dụng chuỗi thời đoạn để xác định thiệt hại do lũ hằng năm khi có thể xảy ra nhiều hơn một trận lũ gây thiệt hại trong cùng một năm. Nếu ngưỡng cho chuỗi này gần tương ứng với mực nước tràn bờ, thì các đỉnh vượt ngưỡng thường là các sự kiện gây thiệt hại. Phương pháp này giúp khắc phục một vấn đề của chuỗi cực trị hằng năm, cụ thể là chuỗi cực trị chỉ xem xét trận lũ lớn nhất trong năm mà có thể bỏ qua những trận lũ khác cũng lớn trong cùng năm — ngay cả khi chúng lớn hơn cả các trận lũ cực đại của những năm khác.

Nếu các trận lũ này được sắp xếp theo cùng cách như trong chuỗi hằng năm, chúng có thể được biểu diễn như trong Hình 5.3. Với một thứ hạng nhất định (từ lớn nhất đến nhỏ nhất), m, chuỗi thời đoạn (partial-duration series) cho kết quả lưu lượng đỉnh cao hơn so với chuỗi hằng năm, vì một số đỉnh lũ phụ lớn vượt quá giá trị đỉnh lũ hằng năm. Sự khác biệt này lớn nhất ở các giá trị lưu lượng thấp và trở nên nhỏ hơn ở các giá trị lưu lượng cao hơn. Nếu chu kỳ lặp lại của các đỉnh lũ này được tính theo thứ hạng chia cho số lần xuất hiện (không phải số năm), thì chu kỳ lặp lại của chuỗi thời đoạn có thể được tính từ chuỗi hằng năm theo công thức:
$$T_B = \frac{1}{\ln T_A \cdot \ln(T_A – 1)} \tag {5.1}$$
trong đó:
- \(T_B\) = Chu kỳ lặp lại của chuỗi thời đoạn (PDS) (năm)
- \(T_A\) = Chu kỳ lặp lại của chuỗi hằng năm (AMS) (năm)
Phương trình 5.1 cũng có thể được biểu diễn dưới dạng đồ thị như trong Hình 5.4. Đường cong này cho thấy độ sai khác lớn nhất giữa hai chuỗi xảy ra đối với các lưu lượng có chu kỳ lặp lại nhỏ hơn 10 năm. Ở khoảng này, độ sai khác khoảng 5%; với lưu lượng ứng với chu kỳ 5 năm, độ sai khác khoảng 10%. Đối với các trận lũ ít xuất hiện hơn, hai chuỗi tiến gần nhau hơn.


Mối liên hệ giữa chuỗi hàng năm và chuỗi vượt ngưỡng là chúng giống nhau đối với các chu kỳ lặp lại từ 5 đến 10 năm hoặc lớn hơn. Chúng bắt đầu khác nhau ở những chu kỳ lặp lại ngắn hơn, trong đó chuỗi vượt ngưỡng có giá trị lớn hơn cho mỗi chu kỳ lặp lại.
Khi sử dụng chuỗi thời đoạn (partial-duartion series), điều quan trọng là cần đặc biệt cẩn trọng để đảm bảo rằng các đỉnh lũ được chọn là các sự kiện độc lập. Nói cách khác, việc sử dụng chuỗi th72i đoạn luôn tồn tại sự đánh đổi, bởi nó yêu cầu tiêu chí xác định tính độc lập của các đỉnh lũ. Hai đỉnh lũ lớn cách nhau vài ngày và được ngăn cách bằng một khoảng thời gian có lưu lượng thấp có thể là một phần của cùng một sự kiện thủy khí tượng. Trong thực tế, nhận biết điều này rất khó, vì đỉnh lũ phụ có thể xảy ra trong cùng một trận lũ do điều kiện ẩm ướt ban đầu cao. Trong trường hợp đó, trận lũ phụ không phải là một sự kiện độc lập.
Cũng cần thận trọng khi chọn ngưỡng dưới hoặc lũ cơ sở (base flood), vì điều này ảnh hưởng trực tiếp đến việc tính toán các đặc trưng của phân phối (ví dụ: trung bình, phương sai và độ lệch chuẩn, cũng như hệ số lệch), tất cả đều có thể làm thay đổi kết quả xác định lưu lượng đỉnh.
Vì lý do này (sự khó khăn trong việc xác định tính độc lập của các đỉnh lũ liền kề), các kỹ sư thường sử dụng chuỗi hằng năm và chuyển đổi kết quả sang chuỗi thời đoạn thông qua phương trình 5.1. Đối với các sự kiện ít xảy ra hơn (chu kỳ lặp lại lớn hơn 5 đến 10 năm), chuỗi hằng năm là phù hợp và không cần phân tích nào khác.
5.1.3 Các vấn đề thường gặp với dữ liệu tại chỗ
Phân tích tần suất sử dụng phương pháp thống kê dựa trên việc sắp xếp thứ tự của dữ liệu (order-theory statistics). Phân tích này phụ thuộc vào một số giả định cơ bản sau:
- Dữ liệu là các sự kiện ngẫu nhiên độc lập và phân phối giống nhau.
- Dữ liệu thuộc cùng một tổng thể mẫu.
- Dữ liệu được xem là đại diện cho tổng thể mẫu.
- Quá trình sinh ra các sự kiện này là ổn định (stationary) theo thời gian.
(nd: các giả định cơ bản)
- Dữ liệu là các sự kiện ngẫu nhiên độc lập và phân phối giống nhau
→ Mỗi trận lũ là một biến ngẫu nhiên, không bị ảnh hưởng bởi các trận lũ khác, và tuân theo cùng một phân phối xác suất. - Dữ liệu thuộc về tổng thể mẫu (sample population)
→ Tập dữ liệu đại diện cho một nhóm lớn hơn mà ta đang phân tích. - Dữ liệu được xem là đại diện cho tổng thể (representative)
→ Các số liệu đo tại chỗ đủ tốt để suy ra đặc điểm của toàn bộ khu vực. - Quá trình sinh ra dữ liệu là dừng theo thời gian (stationary)
→ Các đặc điểm thống kê (trung bình, phương sai…) của quá trình không thay đổi theo thời gian.
(Ví dụ: không có xu hướng tăng lũ do biến đổi khí hậu hoặc đô thị hóa.)
Vấn đề thường gặp khi các giả định không đúng:
- Dữ liệu không đồng nhất (nonhomogeneity)
→ Ví dụ: dữ liệu từ hai thời kỳ khí hậu khác nhau. - Giá trị ngoại lai (outliers)
→ Lũ cực trị bất thường có thể làm sai lệch phân tích. - Hồ sơ không đầy đủ (incomplete records)
→ Thiếu năm đo đạc hoặc mất dữ liệu. - Dòng chảy bằng 0 (zero flows)
→ Dễ gặp ở các lưu vực khô hạn. - Tổng thể pha trộn (mixed populations)
→ Dữ liệu từ hai loại sự kiện khác nhau (ví dụ: lũ do mưa lớn và lũ do băng tan).
(nd: stationary)
Một chuỗi dữ liệu được gọi là stationary nếu các đặc điểm thống kê của nó như:
+ trung bình,
+ phương sai,
+ phân phối xác suất,
… không thay đổi theo thời gian.
Ví dụ trong thủy văn:
+ Nếu lưu lượng đỉnh hằng năm của một con sông giữ đặc trưng ổn định trong 50 năm (không có xu hướng tăng/giảm rõ rệt), ta gọi chuỗi đó là stationary.
+ Ngược lại, nếu có xu hướng tăng dần do biến đổi khí hậu, đô thị hóa hoặc thay đổi sử dụng đất → chuỗi không stationary (non-stationary).
Trong phân tích tần suất (như tính lũ 100 năm), giả định stationarity là nền tảng để:
+ áp dụng phân phối xác suất chuẩn,
+ dự báo tin cậy trong tương lai.
Nếu dữ liệu không stationary, thì kết quả phân tích tần suất sẽ sai lệch nếu không được điều chỉnh.
Việc sử dụng phân tích tần suất giả định rằng không có lỗi đo đạc hoặc tính toán. Khi phân tích một tập dữ liệu, kỹ sư có thể đánh giá thống kê tính hợp lệ của bốn giả định trên bằng các bài kiểm tra được mô tả trong Bulletin 17C. Các vấn đề liên quan đến những giả định này bao gồm không đồng nhất (nonhomogeneity), giá trị ngoại lai (outliers), dữ liệu không đầy đủ (incomplete records), lưu lượng bằng không (zero flows), và tổng thể hỗn hợp (mixed populations).
.
5.1.3.1 Không đồng nhất trong chuỗi lũ hằng năm
Kỹ sư có thể sắp xếp chuỗi lũ hằng năm theo thời điểm xảy ra trong một cách gọi là chuỗi thời gian. Bằng cách kiểm tra trực quan một chuỗi thời gian, như trong Hình 5.5, kỹ sư sẽ xác định xem có xu hướng hay sự thay đổi có hệ thống nào theo thời gian hay không. Dựa trên quan sát trực quan Hình 5.5, không thấy xu hướng trong chuỗi lưu lượng đỉnh của các dữ liệu từ Mono Creek.
Để so sánh, Hình 5.6 trình bày một chuỗi thời gian thứ hai với 24 năm lưu lượng đỉnh hằng năm tại lưu vực Pond Creek, Kentucky. Lưu vực Pond Creek bắt đầu đô thị hóa vào cuối thập niên 1950, do đó đỉnh lũ có xu hướng tăng. Điều này được thể hiện rõ qua sự gia tăng giá trị lưu lượng đỉnh trong thời kỳ đô thị hóa. Như hình minh họa, quá trình đô thị hóa đã làm tăng ít nhất gấp đôi độ lớn đỉnh lũ. Những nguyên nhân khác của xu hướng này cũng cần được xem xét để đảm bảo rằng sự phát triển đô thị là nguyên nhân chính.
Phân tích xu thế đóng vai trò quan trọng trong việc đánh giá ảnh hưởng của thay đổi sử dụng đất và các tham số phụ thuộc thời gian khác. Bulletin 17C, HEC-17 (FHWA 2016) và nghiên cứu của Helsel et al. (2020) trình bày các kỹ thuật nhằm phát hiện các xu thế có thể xảy ra. Kỹ sư có thể sử dụng phân tích xu thế để đưa ra ước tính cho các sự kiện trong tương lai và hiểu rõ hơn các sự kiện trong quá khứ.


5.1.3.2 Giá trị ngoại lai
Giá trị ngoại lai (Outlies), có thể xuất hiện ở một hoặc cả hai đầu của phân bố tần suất, là các giá trị đo được nhưng dường như thuộc về một mẫu dài hơn hoặc một tổng thể khác. Điều này xảy ra khi một hoặc nhiều điểm dữ liệu không tuân theo xu hướng của phần dữ liệu còn lại.
Trong Bulletin 17B (Water Resources Council 1982), kiểm định Grubbs-Beck (GB) được sử dụng để xác định các giá trị ngoại lai thấp. Phương pháp này chỉ xác định được một giá trị ngoại lai thấp duy nhất và dễ bị ảnh hưởng bởi sự hiện diện của nhiều giá trị ngoại lai. Nhiều giá trị ngoại lai thấp có thể gây ảnh hưởng đáng kể đến đường cong tần suất, ví dụ làm tăng độ lệch chuẩn, dẫn đến khoảng cách tiêu chuẩn hóa giữa các quan sát quá nhỏ không đủ để kích hoạt kiểm định GB.
Do đó, Bulletin 17C đưa ra một phiên bản tổng quát của kiểm định GB, gọi là kiểm định Grubbs-Beck nhiều điểm (Multiple Grubbs-Beck Test – MGBT), nhằm xác định nhiều quan sát “bất thường” nhỏ hoặc có khả năng ảnh hưởng mạnh (PILF). MGBT cũng đánh giá chính xác các trường hợp có một hoặc nhiều giá trị bằng 0 hoặc thấp hơn ngưỡng ghi nhận.
(nd: MGBT & PILF)
Multiple Grubbs-Beck Test (MGBT) = Kiểm định Grubbs-Beck mở rộng (nhiều giá trị):
+ Đây là tên của một phép kiểm định thống kê mở rộng từ phương pháp Grubbs-Beck (GB) Test.
+ Dùng để phát hiện nhiều giá trị ngoại lai nhỏ trong chuỗi dữ liệu thủy văn (như lưu lượng lũ đỉnh).
+ Được giới thiệu trong Bulletin 17C.
Influential low flood (PILF) = Trận lũ nhỏ có ảnh hưởng mạnh đến kết quả phân tích
+ Tức là các trận lũ nhỏ có khả năng gây ảnh hưởng lớn đến kết quả phân tích tần suất nếu không xử lý đúng.
+ Thường là outlier nhỏ (low outlier) gây lệch kết quả hồi quy hoặc đường tần suất.
Bulletin 17C giới thiệu phép kiểm định Multiple Grubbs-Beck Test (MGBT) để xác định nhiều trận lũ nhỏ bất thường (PILF) có thể ảnh hưởng đến phân tích tần suất.
Cách tiếp cận cơ bản là xem xét chuỗi các giá trị logarit của đỉnh lũ hàng năm, {X₁, …, Xₙ}. Chuỗi đỉnh lũ hàng năm đã được sắp xếp theo thứ tự tăng dần (cũng là giá trị logarit) là {X[1:n], X[2:n], …, X[n:n]}.
Giả thuyết gốc (null hypothesis) là tất cả các quan sát đều xuất phát từ cùng một tổng thể gồm các biến ngẫu nhiên chuẩn, độc lập và phân phối giống nhau. Giả thuyết đối ngược (alternative hypothesis) là quan sát nhỏ thứ k trong tập dữ liệu, X[k:n], có giá trị bất thường nhỏ so với các quan sát còn lại.
Quy trình EMA trong Bulletin 17C bao gồm việc phát hiện các giá trị ngoại lai thấp, do đó không cần tính toán riêng biệt. Các giá trị ngoại lai được phát hiện trong quá trình lặp để giải hệ số phân bố, và kết quả được điều chỉnh tương ứng.
(nd: X[1:n])
EMA (Expected Moments Algorithm): thuật toán sử dụng trong Bulletin 17C để ước tính các tham số phân phối khi có số liệu bị thiếu hoặc có ngoại lai.
X[k:n] là ký hiệu thống kê thứ tự (order statistic): phần tử nhỏ thứ k trong tập có n phần tử.
5.1.3.3 Hồ sơ không đầy đủ và lưu lượng bằng không
Hồ sơ lưu lượng dòng chảy thường bị gián đoạn; điều này có thể do nhiều nguyên nhân. Các trạm đo có thể bị ngừng hoạt động hoặc bị tháo dỡ trong một thời gian, có thể có các giai đoạn lưu lượng bằng không (zero flows) tại các vùng khô hạn ở Hoa Kỳ, hoặc có thể có thời kỳ mà trạm đo không hoạt động do lưu lượng quá thấp không thể đo được, hoặc quá lớn gây hỏng trạm đo. Dữ liệu đầu vào cho phân tích EMA trong Bulletin 17C bao gồm cả những phần này như là một phần của hồ sơ hệ thống.
5.1.3.4 Tổng thể hỗn hợp
Ở một số vùng của Hoa Kỳ, nhiều loại hiện tượng gây lũ như tuyết tan ở vùng núi, bão dọc theo vùng vịnh và bờ biển Đại Tây Dương, hoặc các cơ chế mưa bão khác. Các nhà phân tích xem xét các hồ sơ ghi nhận sự kiện từ nhiều loại hiện tượng là tổng thể hỗn hợp, vì chúng biểu thị tín hiệu từ hai hoặc nhiều tổng thể. Do đó, các mẫu từ những tổng thể này cũng là hỗn hợp. Các hồ sơ này thường có hệ số lệch cao và khi vẽ đồ thị thường cho thấy có thể tồn tại hai phân bố khác nhau. Bulletin 17C đề cập đến cách xử lý các trường hợp như vậy.
5.1.4 Xác suất vượt ngưỡng hàng năm và chu kỳ lặp
Như đã giới thiệu ở Mục 1.3, các kỹ sư thường sử dụng xác suất vượt ngưỡng hàng năm (AEP) của một lưu lượng lũ nhất định, hoặc phổ biến hơn là giá trị lưu lượng ứng với một AEP đã cho. AEP là xác suất mà một lưu lượng đỉnh sẽ bị vượt quá trong bất kỳ năm nào. Các định luật xác suất xác định phương pháp phân tích thống kê của các quan sát lặp lại đối với một sự kiện (ví dụ, các quan sát lưu lượng đỉnh hằng năm). Các kỹ sư ước lượng xác suất vượt ngưỡng lưu lượng đỉnh, \(Q_A\), bằng cách lấy tỷ lệ số lần vượt ngưỡng \(Q_A\) so với tổng số quan sát trong chuỗi dài:
$$P(Q_A) = \frac{n_1}{n} \tag{5.2}$$
trong đó:
- \(P(Q_A)\) = Xác suất vượt ngưỡng \(Q_A\)
- \(n_1\) = Số lần vượt ngưỡng giá trị lưu lượng lũ \(Q_A\)
- n = Tổng số quan sát (trong chuỗi dài)
Xác suất không vượt (hay thất bại) của một sự kiện như lưu lượng đỉnh \(Q_A\) được tính bằng:
$$P(\text{not } Q_A) = \frac{n – n_1}{n} = 1 – \frac{n_1}{n} = 1 – P(Q_A) \tag{5.3}$$
Kết hợp các phương trình (5.2) và (5.3) cho ta:
$$P(Q_A) + P(\text{not } Q_A) = 1 \tag{5.4}$$
Do đó, xác suất một sự kiện bị vượt sẽ nằm trong khoảng từ 0 đến 1 (tức là,\(0 \leq P(Q_A) \leq 1\)). Nếu một sự kiện chắc chắn xảy ra, nó có xác suất bằng 1; nếu hoàn toàn không thể xảy ra, thì xác suất của nó là 0.
Chu kỳ lặp là một cách diễn đạt thay thế cho AEP. Nếu xác suất vượt của một lưu lượng đỉnh hằng năm nhất định hoặc tần suất tương đối được xác định từ phương trình 5.2 là 0.2, điều đó có nghĩa là có 20% khả năng rằng trận lũ này, xét trong một khoảng thời gian dài, sẽ bị vượt qua trong bất kỳ năm nào. Nói cách khác, trận lũ này sẽ bị vượt trung bình một lần mỗi 5 năm. Các kỹ sư gọi khoảng thời gian đó là chu kỳ lặp (return period). Như đã được giới thiệu ở Mục 3.4.5, chu kỳ lặp T liên hệ với xác suất vượt ngưỡng thông qua biểu thức:
$$T = \frac{1}{P(Q_A)} \tag{5.5}$$
trong đó:
- T = Chu kỳ lặp
- \(P(Q_A)\) = Xác suất vượt qua giá trị lưu lượng \(Q_A\)
Góc nhìn thường nhật về xác suất
Hầu hết mọi người đều có hiểu biết trực quan về khái niệm xác suất xảy ra của một sự kiện, hay xác suất vượt ngưỡng. Họ biết rằng nếu tung một đồng xu công bằng, thì khả năng ra mặt ngửa hay mặt sấp là như nhau, bất kỳ trong sáu kết quả có khả năng bằng nhau (các số từ 1 đến 6) đều có thể xảy ra. Mỗi kết quả có xác suất xảy ra là 1/6. Do đó, khả năng ra số 3 trong một lần tung là 1 trên 6. Những ví dụ này dễ hiểu vì tất cả các kết quả có thể xảy ra đều đã biết trước khi đồng xu được tung hay xúc xắc được thả, và các xác suất có thể được định lượng rõ ràng.
Một trận lũ với chu kỳ lặp lại là 5 năm không có nghĩa là trận lũ này sẽ xảy ra một lần mỗi 5 năm. Thay vào đó, có xác suất 20 phần trăm xuất hiện trận lũ bằng hoặc lớn hơn (xác suất vượt ngưỡng) trong bất kỳ năm nào; hai trận lũ 5 năm có thể xảy ra liên tiếp trong hai năm liền. Cũng có khả năng rằng một trận lũ 5 năm sẽ không xảy ra trong suốt một giai đoạn 10 năm. Điều tương tự cũng đúng với bất kỳ trận lũ nào có chu kỳ lặp lại được xác định. Khái niệm quan trọng này dẫn đến việc sử dụng định lý xác suất nhị thức để ước tính các xác suất khác nhau về việc xảy ra (hoặc không xảy ra) của các sự kiện quan tâm trong vòng đời của một dự án. Thông tin chi tiết hơn được trình bày ở Mục 10.3.
5.1.5 Khái niệm về phân tích tần suất
Không thể dự đoán chính xác các trận lũ trong tương lai. Do đó, các kỹ sư sử dụng các khái niệm xác suất để dự báo biên độ và tần suất của chúng. Để làm điều này, họ thu thập và phân tích một mẫu các giá trị lũ nhằm ước lượng một tổng thể có thể đại diện cho lũ lụt tại vị trí đó. Sau đó, kỹ sư sử dụng tổng thể giả định này để thực hiện các dự báo về biên độ và tần suất của lũ. Điều quan trọng là phải nhận ra rằng tổng thể được ước lượng từ thông tin mẫu và rằng tổng thể giả định, chứ không phải mẫu, mới được sử dụng để đưa ra các nhận định về khả năng xảy ra lũ trong tương lai. Phần này giới thiệu các khái niệm để phân tích dữ liệu mẫu nhằm xác định một phân bố xác suất có thể đại diện cho sự xuất hiện của lũ lụt.
5.1.5.1 Biểu đồ phân bố tần suất (Histogram)
Biểu đồ phân bố tần suất chứa dữ liệu được sắp xếp theo các lớp hoặc hạng mục với tần suất tương ứng của từng lớp. Kỹ sư sử dụng biểu đồ phân bố tần suất để trực quan hóa dữ liệu mẫu và nhận biết các đặc điểm cơ bản của phân bố. Phân bố thể hiện biên độ của các sự kiện trong quá khứ đối với các khoảng giá trị nhất định của biến. Kỹ sư cũng có thể tính xác suất mẫu bằng cách chia tần suất của mỗi khoảng cho kích thước mẫu.
Kỹ sư xây dựng biểu đồ phân bố tần suất bằng cách đầu tiên xem xét phạm vi biên độ (tức là hiệu giữa trận lũ lớn nhất và nhỏ nhất) và chia phạm vi này thành một số nhóm có kích thước phù hợp, thường từ 5 đến 20. Các nhóm này được gọi là khoảng lớp. Kích thước của khoảng lớp đơn giản là phạm vi chia cho số khoảng lớp đã chọn.
Quy tắc kinh nghiệm cho biểu đồ phân bố tần suất
Kỹ sư thường sử dụng các quy tắc kinh nghiệm khi chọn số lượng khoảng lớp:
+ Chọn các khoảng lớp không chồng lấn và không có khoảng trống giữa các ranh giới của khoảng.
+ Chọn số lượng khoảng lớp sao cho hầu hết các khoảng có ít nhất một sự kiện.
+ Ưu tiên các khoảng lớp có chiều rộng bằng nhau.
+ Nhắm đến việc hầu hết các khoảng lớp có ít nhất năm lần xuất hiện, dù điều này có thể khó thực hiện với khoảng đầu và cuối
(nd: Histogram)
Histogram (biểu đồ phân bố tần suất) là một dạng biểu đồ cột dùng để biểu diễn phân bố của một tập hợp dữ liệu số theo các khoảng (gọi là lớp hoặc khoảng lớp – class intervals). Nó cho thấy tần suất xuất hiện (số lần lặp lại) của các giá trị dữ liệu trong mỗi khoảng.
Cấu trúc cơ bản:
- Trục hoành (x-axis): các khoảng giá trị (ví dụ: lượng nước lũ từ 0–199, 200–399, v.v.).
- Trục tung (y-axis): số lượng quan sát rơi vào mỗi khoảng (tần suất – frequency).
Mục đích:
Histogram giúp:
- Nhìn thấy hình dạng tổng thể (phân bố) của dữ liệu.
- Phát hiện sự thiên lệch, tập trung, rải rác, hoặc các giá trị bất thường.
- So sánh mật độ dữ liệu giữa các khoảng khác nhau.
Khác với biểu đồ cột thông thường:
- Histogram chỉ dùng cho dữ liệu số liên tục.
- Các cột của histogram liền nhau (không có khoảng trắng), vì các khoảng liên tiếp không chồng lặp nhưng tiếp nối nhau.
Ví dụ 5.1: Tạo biểu đồ tần suất
Mục tiêu:
Tạo nhiều biểu đồ tần suất của lưu lượng đỉnh năm từ dữ liệu ở Mono Creek, California.
Dữ liệu cho trước:
Dữ liệu từ Bảng 5.1 được sử dụng làm dữ liệu đầu vào cho ví dụ này.
Bảng 5.1. Dữ liệu lưu lượng đỉnh hằng năm tại Mono Creek.
| Năm | Annual Maximum (ft³/s) | Năm | Annual Maximum (ft³/s) | Năm | Annual Maximum (ft³/s) | Năm | Annual Maximum (ft³/s) | Năm | Annual Maximum (ft³/s) |
|---|---|---|---|---|---|---|---|---|---|
| 1922 | 1390 | 1928 | 1110 | 1934 | 404 | 1940 | 1130 | 1946 | 910 |
| 1923 | 940 | 1929 | 750 | 1935 | 1230 | 1941 | 1420 | 1947 | 988 |
| 1924 | 488 | 1930 | 848 | 1936 | 1060 | 1942 | 1170 | 1948 | 838 |
| 1925 | 1060 | 1931 | 525 | 1937 | 1210 | 1943 | 1440 | 1949 | 916 |
| 1926 | 1030 | 1932 | 1,420 | 1938 | 1760 | 1944 | 855 | 1950 | 1,100 |
| 1927 | 1420 | 1933 | 1,350 | 1939 | 540 | 1945 | 1370 | 1951 | n/a |
Chú thích: “n/a” nghĩa là không có dữ liệu.
Bước 1. Dựa theo các quy tắc đã nêu, hãy đưa các giá trị lưu lượng tại trạm đo vào bảng bằng cách sử dụng các khoảng lớp đã chọn.
Lưu lượng đỉnh lớn nhất tại Mono Creek là 1760 ft³/s và nhỏ nhất là 404 ft³/s. Giá trị trung bình là 1.060 ft³/s và độ lệch chuẩn là 330 ft³/s. Nếu sử dụng kích thước khoảng lớp là 200 ft³/s thì sẽ có 9 khoảng lớp. Điều này phù hợp với phạm vi được đề xuất từ 5 đến 20 khoảng. Hãy đếm số lần xuất hiện trong từng khoảng và điền vào Bảng 5.2.
Bảng 5.2. Biểu đồ tần suất và phân tích tần suất tương đối của dữ liệu lũ hằng năm tại Mono Creek.
| Interval of Annual Floods Khoảng lũ hằng năm (ft³/s) | Frequency Tần suất | Relative Frequency Tần suất tương đối | Cumulative Frequency Tần suất tích lũy |
|---|---|---|---|
| 0 – 199 | 0 | 0.000 | 0.000 |
| 200 – 399 | 0 | 0.000 | 0.000 |
| 400 – 599 | 4 | 0.138 | 0.138 |
| 600 – 799 | 1 | 0.034 | 0.172 |
| 800 – 999 | 7 | 0.241 | 0.414 |
| 1000 – 1199 | 7 | 0.241 | 0.655 |
| 1200 – 1399 | 5 | 0.172 | 0.828 |
| 1400 – 1599 | 4 | 0.138 | 0.966 |
| 1600 – 1799 | 1 | 0.034 | 1.000 |
Bước 2. Dùng số lượng giá trị của mỗi lớp để tạo biểu đồ tần suất của dữ liệu.
Tạo biểu đồ tần suất bằng các giá trị trong Bảng 5.2 như thể hiện ở Hình 5.7.
Bước 3. Tính tần suất tương đối của các sự kiện trong mỗi lớp (hoặc mỗi khoảng) bằng cách lấy số lượng sự kiện trong mỗi lớp chia cho kích thước mẫu.
Tính tần suất tương đối của mỗi lớp bằng cách lấy số lượng giá trị trong lớp (tần suất trong Bảng 5.2) chia cho tổng số quan sát (trong trường hợp này là 29 quan sát). Điền các giá trị này vào Bảng 5.2.
Bước 4. Tạo biểu đồ tần suất tương đối cho mỗi lớp.
Thao tác này có thể thực hiện bằng cách thêm một trục tung thứ hai vào biểu đồ đã tạo trước đó. Lợi thế của biểu đồ kiểu này là kết hợp cả tần suất và tần suất tương đối trong cùng một hình. Thêm tần suất tương đối vào Hình 5.7 bằng cách thêm một trục tung thứ hai ở phía bên phải của hình.

Kết quả:
Kết quả trong Bảng 5.2 và biểu đồ phân bố tần suất trong Hình 5.7. Lưu ý rằng một số khoảng giá trị lưu lượng xuất hiện thường xuyên hơn các khoảng khác. Cũng cần lưu ý rằng dữ liệu có phần phân tán và phân bố theo trục tung không đối xứng. Mặc dù đã cố gắng để mỗi lớp có tần suất từ năm trở lên, nhưng điều này không thực hiện được với các khoảng lớp đã chọn. Do kích thước mẫu nhỏ, nên rất khó để đánh giá phân bố của tổng thể chỉ dựa vào biểu đồ phân bố tần suất.
Ví dụ 5.2: Tạo các biểu đồ phân bố tần suất từ một bộ dữ liệu duy nhất.
Mục tiêu: Xem xét ảnh hưởng của các kích thước khoảng lớp khác nhau đến biểu đồ phân bố tần suất thu được.
Nhiều chuỗi số liệu lũ có độ dài ghi nhận tương đối ngắn. Với các chuỗi như vậy, biểu đồ phân bố tần suất có thể không đủ để đánh giá đặc điểm hình dạng của phân bố lũ. Chuỗi số liệu lưu lượng tại Pond Creek trong Bảng 5.3 là một ví dụ minh họa tốt. Với độ dài chuỗi là 24 năm, sẽ không thực tế nếu sử dụng nhiều hơn 5 hoặc 6 khoảng lớp khi tạo biểu đồ phân bố tần suất. Do đó, năm khoảng lớp khác nhau được xây dựng để so sánh.
Bảng 5.3. Chuỗi lưu lượng đỉnh năm tại Pond Creek, Kentucky:
| Năm | Lưu lượng đỉnh năm (ft³/s) |
|---|---|
| 1945 | 2.002 |
| 1946 | 1.741 |
| 1947 | 1.462 |
| 1948 | 2.062 |
| 1949 | 1.532 |
| 1950 | 1.593 |
| 1951 | 1.691 |
| 1952 | 1.419 |
| 1953 | 1.331 |
| 1954 | 607 |
| 1955 | 1.381 |
| 1956 | 1.660 |
| 1957 | 2.292 |
| 1958 | 2.592 |
| 1959 | 3.263 |
| 1960 | 2.493 |
| 1961 | 3.083 |
| 1962 | 2.521 |
| 1963 | 3.362 |
| 1964 | 8.026 |
| 1965 | 4.311 |
| 1966 | 4.382 |
| 1967 | 3.224 |
| 1968 | 4.322 |
Bước 1. Dựng biểu đồ phân bố tần suất sử dụng năm khoảng lớp.
Sử dụng kích thước khoảng lớp là 1.412 ft³/s để dựng biểu đồ tần suất từ số liệu của Pond Creek. Cột thứ hai của Bảng 5.4 hiển thị kết quả. Biểu đồ thu được có dạng giống thủy đồ, với ít giá trị ở ô thấp nhất và một đỉnh rõ rệt ở ô thứ hai.
Bước 2. Vẽ biểu đồ phân bố tần suất thứ hai với năm khoảng lớp có kích thước khác với Bước 1.
Sử dụng khoảng lớp là 1.766 ft³/s để vẽ biểu đồ phân bố tần suất thứ hai. Cột thứ ba của Bảng 5.4 trình bày kết quả. Biểu đồ này có dạng giống hình hộp với nhiều quan sát nằm trong hai ô đầu tiên, các ô còn lại rất ít và một ô trung gian không có quan sát nào.
Bước 3. Vẽ biểu đồ phân bố tần suất thứ ba với khoảng lớp thay đổi.
Cột thứ năm của Bảng 5.4 chứa khoảng lớp cho ví dụ này. Khoảng lớp thay đổi, rộng hơn ở hai đầu thấp và cao của dải dữ liệu, và hẹp hơn ở giữa. Biểu đồ thứ ba được trình bày ở cột thứ tư của Bảng 5.4 có dạng giảm theo hàm mũ.
Kết quả:
Hình 5.8 trình bày ba lựa chọn kích thước khoảng (bin) và ảnh hưởng của chúng đến dạng của biểu đồ phân bố tần suất. Kết quả cho thấy độ dài chuỗi số liệu ngắn gây khó khăn trong việc xác định phân bố lũ.
Bảng 5.4. Các phương án Biểu đồ phân bố tần suất của dữ liệu tại Pond Creek, Kentucky:
| Interval (khoảng) | Histogram 1 Frequency | Histogram 2 Frequency | Histogram 3 Frequency | Histogram 3 Interval, ft³/s |
|---|---|---|---|---|
| 1 | 3 | 10 | 10 | 0 – 1.765 |
| 2 | 13 | 10 | 5 | 1.766 – 2.648 |
| 3 | 4 | 3 | 5 | 2.649 – 3.531 |
| 4 | 3 | 0 | 3 | 3.532 – 5.297 |
| 5 | 1 | 1 | 1 | > 5.297 |

(nd: dạng giảm theo hàm mũ)
Trong ngữ cảnh biểu đồ phân bố (histogram), điều này mô tả một hình dạng mà trong đó:
- Tần suất (frequency) bắt đầu rất cao ở khoảng lớp đầu tiên,
- Sau đó giảm dần nhanh chóng khi chuyển sang các khoảng lớp cao hơn,
- Giống với đồ thị của hàm mũ giảm (exponential decay function) trong toán học.
Bạn có thể hình dung dạng đó giống như một đường cong trượt dốc từ trái sang phải, biểu thị rằng các giá trị lớn hiếm gặp hơn rất nhiều so với các giá trị nhỏ.
5.1.5.2 Phương pháp moment để ước lượng tham số
Phân tích tần suất lũ sử dụng thông tin mẫu để khớp một tổng thể với một phân phối xác suất. Các phân phối này có các tham số được ước lượng nhằm đưa ra các phát biểu xác suất về khả năng xảy ra của các lưu lượng lũ trong tương lai. Phương pháp moment thực hiện bằng cách cho các moment của chuỗi số liệu lũ quan trắc bằng với các moment của phân phối tổng thể, từ đó cho ra các phương trình để ước lượng các tham số của tổng thể như là hàm của các moment của mẫu.
(nd: moment)
Trong thủy văn, từ “moment” thường xuất hiện trong ngữ cảnh thống kê mô tả dữ liệu thủy văn như: lưu lượng đỉnh, lượng mưa, mực nước, v.v.
“moment” là đại lượng dùng để mô tả đặc điểm hình dạng phân phối của dữ liệu thủy văn (như trung bình, độ phân tán, độ lệch, độ nhọn…)
Các moment thường dùng trong thủy văn:
| Moment | Tên gọi | Ý nghĩa trong thủy văn |
|---|---|---|
| Moment bậc 1 | Trung bình (mean) | Giá trị trung bình của lưu lượng, mưa, v.v. |
| Moment bậc 2 | Phương sai (variance) | Mức độ phân tán của dữ liệu quanh trung bình |
| Moment bậc 3 | Độ lệch (skewness) | Mức độ bất đối xứng: lũ lệch phải là phổ biến |
| Moment bậc 4 | Độ nhọn (kurtosis) | Phân phối nhọn (nhiều giá trị cực trị) hay bẹt |
Khi phân tích tần suất lũ, người ta tính các moment để:
+ Kiểm tra phân phối thống kê phù hợp (log-Pearson type III, Gumbel…)
+ Xác định xem dữ liệu có ngoại lệ, bất đối xứng hay không
+ Phục vụ cho các phương pháp như Expected Moments Algorithm (EMA) trong Bulletin 17C
Khi bạn phân tích chuỗi đỉnh lũ hàng năm để chọn phân phối thống kê, bạn cần tính:
- Moment bậc 1 → giá trị trung bình
- Moment bậc 2 → phương sai
- Moment bậc 3 → độ lệch → nếu lệch phải → chọn log-Pearson III
Ví dụ, nếu một tổng thể được giả định tuân theo phân phối f(x), thì giá trị trung bình của mẫu \(\bar{X}\) có thể được liên hệ với định nghĩa của kỳ vọng của tổng thể μ:
$$\bar{X} = \int_{-\infty}^{\infty} x f(x) dx \tag{5.6}$$
Phương sai của mẫu \(S^2\) có thể được liên hệ với định nghĩa phương sai của tổng thể \(\sigma^2\):
$$S^2 = \int_{-\infty}^{\infty} (x – \mu)^2 f(x) dx \tag{5.7}$$
Vì f(x) là một hàm bao gồm các tham số μ và \(\sigma^2\), nên nghiệm của các phương trình (5.6) và (5.7) sẽ là các biểu thức liên hệ các tham số mẫu \(\bar{X}\) và \(S^2\) với các tham số tổng thể μ và \(\sigma^2\).
5.1.5.3 Xu hướng trung tâm (Central Tendency)
Xu hướng trung tâm mô tả sự phân cụm của dữ liệu xung quanh các giá trị độ lớn cụ thể. Giá trị trung bình là thước đo xu hướng trung tâm được sử dụng phổ biến nhất và được tính bằng cách cộng tất cả các giá trị riêng lẻ của dữ liệu và chia tổng này cho số lượng các giá trị riêng lẻ:
$$\bar{Q} = \frac{1}{n} \sum_{i=1}^{n} Q_i \tag{5.8}$$
trong đó:
- \(\bar{Q}\) = Giá trị trung bình (trung bình cộng) của các lưu lượng đỉnh
- \(Q_i\) = Lưu lượng đỉnh thứ i
- n = Số lượng các giá trị đỉnh
Số trung vị (median), một thước đo khác của xu hướng trung tâm, là giá trị nằm giữa khi các phần tử được sắp xếp theo thứ tự độ lớn. Khi có số lượng phần tử là chẵn, số trung vị được lấy là trung bình của hai giá trị trung tâm.
Giá trị mode là thước đo thứ ba của xu hướng trung tâm. Mode là giá trị thường gặp nhất hoặc phổ biến nhất xuất hiện trong tập dữ liệu. Đối với các biến liên tục, như lưu lượng dòng chảy, mode được định nghĩa là giá trị trung tâm của khoảng lớp có tần suất cao nhất.
Mean, Median, Mode
- Mean là cách gọi chính xác hơn của trung bình cộng và thường được gọi là “average“. Mean nhạy cảm với các giá trị rất lớn (hoặc rất nhỏ) nằm xa so với trung bình.
- Median không bị ảnh hưởng nhiều bởi các quan sát rất lớn hoặc rất nhỏ vì median chỉ dựa vào thứ hạng của các quan sát, không phải giá trị cụ thể của chúng.
- Mode là giá trị xuất hiện thường xuyên nhất trong mẫu.
- Mean và median đều được sử dụng trong thống kê thủy văn. Mode thì ít được sử dụng hơn.
5.1.5.4 Độ biến thiên (Variability)
Mức độ phân tán của dữ liệu được gọi là độ phân tán (dispersion). Thước đo phổ biến nhất của độ phân tán là độ lệch chuẩn (standard deviation). Độ lệch chuẩn, ký hiệu S, được định nghĩa là căn bậc hai của trung bình bình phương các độ lệch (deviation) so với giá trị trung bình. Biểu diễn dưới dạng công thức như sau:
$$S = \left[ \frac{ \sum_{i=1}^{n} (Q_i – \bar{Q})^2 }{n – 1} \right]^{0.5} = \bar{Q} \left[ \frac{ \sum_{i=1}^{n} \left( \frac{Q_i}{\bar{Q}} – 1 \right)^2 }{n – 1} \right]^{0.5} \tag{5.9}$$
Một thước đo khác của độ phân tán là phương sai (variance), đơn giản là bình phương của độ lệch chuẩn. Một thước đo phân tán tương đối là hệ số biến thiên (variation), ký hiệu V, được tính bằng độ lệch chuẩn chia cho giá trị đỉnh trung bình:
$$V = \frac{S}{\bar{Q}} \tag{5.10}$$
5.1.5.5 Độ lệch (Skew)
Sự đối xứng (symmetry) của phân bố tần suất, hay nói chính xác hơn là sự bất đối xứng (asymmetry), được gọi là độ lệch (skew). Một thước đo phổ biến của độ lệch là hệ số lệch, ký hiệu G. Hệ số lệch (skew coefficient) được tính như sau:
$$G = \frac{n \sum_{i=1}^{n} (Q_i – \bar{Q})^3 }{(n – 1)(n – 2)S^3} = \frac{n \sum_{i=1}^{n} \left( \frac{Q_i}{\bar{Q}} – 1 \right)^3 }{(n – 1)(n – 2)V^3} \tag{5.11}$$
Nếu một phân bố tần suất là đối xứng, hệ số lệch sẽ bằng 0. Ví dụ, phân bố normal (được đề cập trong Mục 5.2.1) là một phân bố đối xứng và có hệ số lệch bằng 0. Nếu phân bố có “đuôi” dài hơn về phía bên phải của giá trị cực đại trung tâm so với bên trái, thì phân bố đó có độ lệch dương và G dương. Ngược lại, nếu đuôi dài hơn về phía bên trái của giá trị cực đại trung tâm, thì phân bố có độ lệch âm.
Ví dụ 5.3: Tính toán theo phương pháp moment.
Mục tiêu: Tính các moment cho chuỗi số liệu đỉnh lũ hàng năm.
Cho: Bảng 5.5 liệt kê chuỗi đỉnh lũ hàng năm trong giai đoạn chưa điều tiết của trạm Mono Creek, California.
Yêu cầu: Tính giá trị trung bình (mean), độ lệch chuẩn (standard deviation), hệ số biến thiên (coefficient of variation) và hệ số lệch (skew ceofficient).
Phần tính toán dưới đây minh họa cách xác định các thước đo xu hướng trung tâm, độ lệch chuẩn, độ biến thiên và hệ số lệch của phân bố tần suất Mono Creek thể hiện trong Hình 5.7 dựa trên dữ liệu được cung cấp trong Bảng 5.5.
Bước 1. Tính đỉnh lũ trung bình hàng năm.
Sử dụng công thức 5.6 và dữ liệu từ Bảng 5.5 để tính giá trị trung bình. Lưu ý rằng tổng được hiển thị ở cuối Bảng 5.5.
\(\bar{X} = \frac{ \sum_{i=1}^{n} X_i }{n} = \frac{30672}{29} = 1058 \text{ ft}^3/\text{s}\)
Bảng 5.5 – Dữ liệu đỉnh lũ hàng năm và các phép tính thống kê cho Mono Creek, California:
| Năm | Thứ hạng | Cực đại hàng năm (ft³/s) | \(\left(\frac{X}{\bar{X}}\right)\) | \(\left(\frac{X}{\bar{X}} – 1\right)\) | \(\left(\frac{X}{\bar{X}} – 1\right)^2\) | \(\left(\frac{X}{\bar{X}} – 1\right)^3\) |
|---|---|---|---|---|---|---|
| 1938 | 1 | 1,760 | 1.664 | 0.664 | 0.441 | 0.2929 |
| 1943 | 2 | 1,440 | 1.362 | 0.362 | 0.131 | 0.0473 |
| 1927 | 3 | 1,420 | 1.343 | 0.343 | 0.117 | 0.0402 |
| 1941 | 5 | 1,420 | 1.343 | 0.343 | 0.117 | 0.0402 |
| 1922 | 6 | 1,390 | 1.314 | 0.314 | 0.099 | 0.0310 |
| 1945 | 7 | 1,370 | 1.295 | 0.295 | 0.087 | 0.0257 |
| 1933 | 8 | 1,350 | 1.276 | 0.276 | 0.076 | 0.0211 |
| 1935 | 9 | 1,230 | 1.163 | 0.163 | 0.027 | 0.0043 |
| 1937 | 10 | 1,210 | 1.144 | 0.144 | 0.021 | 0.0030 |
| 1942 | 11 | 1,170 | 1.106 | 0.106 | 0.011 | 0.0012 |
| 1940 | 12 | 1,130 | 1.068 | 0.068 | 0.005 | 0.0003 |
| 1931 | 27 | 525 | 0.496 | -0.504 | 0.254 | -0.1277 |
| 1924 | 28 | 488 | 0.461 | -0.539 | 0.290 | -0.1562 |
| 1934 | 29 | 404 | 0.382 | -0.618 | 0.382 | -0.2361 |
| Tổng | – | 30,672 | – | – | 2.677 | -0.1449 |
Bước 2. Tính độ lệch chuẩn của các lưu lượng đỉnh hàng năm.
Sử dụng phương trình 5.7 và dữ liệu trong Bảng 5.5 để tính độ lệch chuẩn.
\(S = \bar{X} \left[ \frac{ \sum_{i=1}^{n} \left( \frac{X_i}{\bar{X}} – 1 \right)^2 }{n-1} \right]^{0.5} = 1058 \left[ \frac{2.677}{28} \right]^{0.5} = 327\ \text{ft}^3/\text{s}\)
Bước 3. Tính hệ số biến thiên của các lưu lượng đỉnh hàng năm.
Sử dụng phương trình 5.11 và dữ liệu trong Bảng 5.5 để tính hệ số biến thiên.
\(V = \frac{S}{\bar{X}} = \frac{327}{1058} = 0.31\)
Bước 4. Tính hệ số lệch của các lưu lượng đỉnh hàng năm.
Sử dụng phương trình 5.10 và dữ liệu trong Bảng 5.5 để tính hệ số lệch.
\(G = \frac{n \sum_{i=1}^{n} \left( \frac{X_i}{\bar{X}} – 1 \right)^3}{(n-1)(n-2)V^3} = \frac{29(-0.1448)}{28(27)(0.31)^3} = -0.19\)
Kết quả ví dụ 5.3:
Giá trị đỉnh trung bình hàng năm là 1.058 ft³/s. Độ lệch chuẩn của các giá trị đỉnh là 327 ft³/s, hệ số biến thiên là 0.31 (không thứ nguyên), và hệ số lệch là -0.19.
5.1.5.6 Độ lệch vùng và độ lệch có trọng số
Kỹ sư có thể sử dụng ba phương pháp để biểu diễn hệ số lệch: bao gồm độ lệch tại trạm (tính từ dữ liệu đo đạc), độ lệch vùng và độ lệch có trọng số. Vì hệ số lệch nhạy cảm với các giá trị cực đoan, nên độ lệch tại trạm có thể không chính xác nếu kích thước mẫu nhỏ. Các ước lượng độ lệch vùng và sai số bình phương trung bình của độ lệch vùng có thể được lấy từ các nghiên cứu của USGS sử dụng bình phương tối thiểu có trọng số Bayes (B-WLS) hoặc bình phương tối thiểu tổng quát Bayes (B-GLS). Cơ sở kỹ thuật cho các quy trình này vượt quá phạm vi của tài liệu này nhưng được trình bày trong Bulletin 17C cùng với thông tin về vị trí sử dụng độ lệch vùng. Giá trị của độ lệch vùng và sai số bình phương trung bình có thể được lấy từ các báo cáo hiện tại của USGS hoặc bằng cách liên hệ với văn phòng USGS địa phương. Bulletin 17C đặc biệt khuyến nghị không sử dụng các ước lượng kế thừa của độ lệch và sai số bình phương trung bình từ Bulletin 17B.
Bulletin 17C khuyến nghị tính toán độ lệch tại trạm và sử dụng hệ số độ lệch vùng được xác định bởi các nghiên cứu khác (như mô tả ở trên) hoặc lấy trực tiếp từ nhân sự chuyên môn của USGS. EMA tự động hóa quy trình này. Khi độ lệch tại trạm khác với độ lệch vùng nhiều hơn 0.5, kỹ sư cần thực hiện phân tích bổ sung để xác định xem có nên cho độ lệch tại trạm trọng số cao hơn trong việc ước tính hệ số lệch cho đường tần suất lũ hay không.
Nói chung, độ lệch tại trạm và độ lệch vùng có thể được kết hợp để đưa ra một ước lượng tốt hơn cho một bộ dữ liệu lũ nhất định. Bulletin 17C kết hợp việc ước tính độ lệch tại trạm (và các tham số phân bố khác), sai số bình phương trung bình của độ lệch tại trạm và tính toán độ lệch có trọng số trong quy trình EMA. Tuy nhiên, đối với phân tích một chuỗi hệ thống không có PILFs, độ lệch có trọng số có thể được tính bằng công thức:
$$G_W = \frac{ \text{MSE}_{\bar{G}}(G) + \text{MSE}_G(\bar{G}) }{ \text{MSE}_{\bar{G}} + \text{MSE}_G } \quad \tag{5.12}$$
trong đó:
- \(G_W\) = Độ lệch có trọng số
- G = Độ lệch tại trạm
- \(\bar{G}\) = Độ lệch vùng
- \(\text{MSE}_G\) = Sai số bình phương trung bình của độ lệch tại trạm
- \(\text{MSE}_{\bar{G}}\) = Sai số bình phương trung bình của độ lệch vùng
Khái niệm ở đây là sai số bình phương trung bình (MSE) của độ lệch có trọng số được tối thiểu hóa bằng cách gán trọng số cho độ lệch tại trạm và độ lệch tổng quát theo tỉ lệ nghịch với MSE riêng của chúng. MSE được định nghĩa là tổng bình phương sai số giữa giá trị thực và giá trị ước lượng của một đại lượng chia cho số quan sát.
Phương trình 5.12 giả định rằng độ lệch tại trạm và độ lệch vùng là độc lập. Nếu chúng độc lập, thì ước lượng có trọng số sẽ có phương sai thấp hơn cả độ lệch tại trạm hoặc độ lệch vùng. Phụ lục 7 của Bulletin 17C mô tả việc áp dụng độ lệch.
Trong Bulletin 17C, giá trị của \(\text{MSE}_G\) được tính như một phần của quy trình EMA. Tuy nhiên, nhằm mục đích sử dụng trong ví dụ tiếp theo, Bảng 5.6 (từ Bulletin 17B) trình bày \(\text{MSE}_G\) như một hàm của hệ số lệch và độ dài chuỗi số liệu.
(nd: skews)
Độ lệch vùng (regional skew) và độ lệch có trọng số (weighted skew) được sử dụng trong phân tích tần suất lũ để cải thiện độ chính xác khi ước lượng dòng lũ lớn (peak flow) trong tương lai, đặc biệt khi số liệu quan trắc tại trạm đo là ngắn hạn hoặc không đầy đủ. Cụ thể:
Độ lệch vùng (regional skew) để làm gì?
- Mục đích: Cung cấp một ước lượng tốt hơn cho hệ số lệch (skew coefficient) trong trường hợp số liệu tại trạm (station skew) không đáng tin cậy do chuỗi số liệu ngắn hoặc có giá trị ngoại lai.
- Cách sử dụng: Dựa vào các nghiên cứu quy mô lớn (USGS hoặc Bulletin 17B/17C), độ lệch vùng được ước tính từ các trạm tương tự trong cùng một khu vực thủy văn. Nó đại diện cho xu hướng lệch trung bình trong khu vực đó.
Độ lệch có trọng số (weighted skew) để làm gì?
- Mục đích: Kết hợp độ lệch tại trạm và độ lệch vùng để cho ra một hệ số lệch đáng tin cậy hơn.
- Cách sử dụng: Tính bằng công thức (5.12), có tính đến độ chính xác của từng nguồn thông tin thông qua MSE (mean square error). Nếu độ lệch tại trạm đáng tin cậy (MSE thấp), trọng số sẽ nghiêng về nó, và ngược lại.
Tóm lại:
- Cả hai hệ số này được dùng để xác định dạng của phân bố xác suất dòng lũ cực trị (ví dụ: lệch trái hay lệch phải).
- Điều này ảnh hưởng trực tiếp đến việc ước lượng các dòng lũ thiết kế như lũ 100 năm, 50 năm – từ đó quyết định kích thước cống, cầu,…
5.1.6 Hàm phân phối xác suất
Một biểu đồ phân bố tần suất (histogram) từ một tập dữ liệu lớn về lũ với các khoảng lớp nhỏ có xu hướng tiến gần đến một đường cong trơn khi kích thước mẫu tăng lên. Hình 5.9 minh họa một ví dụ về đường cong như vậy, được gọi là hàm phân phối xác suất, f(Q). Tương tự như biểu đồ phân bố tần suất, nó bao phủ một diện tích bằng 1.0, hay:
$$\int_{-\infty}^{\infty} f(Q)dQ = 1 \tag{5.13}$$

Bảng 5.6. Sai số bình phương trung bình (MSE) của độ lệch tại trạm là hàm của độ dài chuỗi số liệu và độ lệch tại trạm.
| Độ lệch (Skew) | 10 năm | 20 năm | 30 năm | 40 năm | 50 năm | 60 năm | 70 năm | 80 năm | 90 năm | 100 năm |
|---|---|---|---|---|---|---|---|---|---|---|
| 0.0 | 0.468 | 0.244 | 0.167 | 0.127 | 0.103 | 0.087 | 0.075 | 0.066 | 0.059 | 0.054 |
| 0.1 | 0.476 | 0.253 | 0.175 | 0.134 | 0.109 | 0.093 | 0.080 | 0.071 | 0.064 | 0.058 |
| 0.2 | 0.485 | 0.262 | 0.183 | 0.142 | 0.116 | 0.099 | 0.087 | 0.077 | 0.069 | 0.063 |
| 0.3 | 0.494 | 0.272 | 0.192 | 0.150 | 0.123 | 0.105 | 0.092 | 0.082 | 0.074 | 0.068 |
| 0.4 | 0.504 | 0.282 | 0.201 | 0.158 | 0.131 | 0.113 | 0.099 | 0.089 | 0.080 | 0.073 |
| 0.5 | 0.513 | 0.293 | 0.211 | 0.167 | 0.139 | 0.120 | 0.106 | 0.095 | 0.087 | 0.079 |
| 0.6 | 0.522 | 0.303 | 0.221 | 0.176 | 0.148 | 0.128 | 0.114 | 0.102 | 0.093 | 0.086 |
| 0.7 | 0.532 | 0.315 | 0.231 | 0.186 | 0.157 | 0.137 | 0.122 | 0.110 | 0.101 | 0.093 |
| 0.8 | 0.542 | 0.326 | 0.243 | 0.196 | 0.167 | 0.146 | 0.130 | 0.118 | 0.109 | 0.100 |
| 0.9 | 0.562 | 0.345 | 0.259 | 0.211 | 0.181 | 0.159 | 0.142 | 0.130 | 0.119 | 0.111 |
| 1.0 | 0.603 | 0.376 | 0.285 | 0.235 | 0.202 | 0.178 | 0.160 | 0.147 | 0.135 | 0.126 |
| 1.1 | 0.646 | 0.410 | 0.315 | 0.261 | 0.225 | 0.200 | 0.181 | 0.166 | 0.153 | 0.143 |
| 1.2 | 0.692 | 0.448 | 0.347 | 0.290 | 0.252 | 0.225 | 0.204 | 0.187 | 0.174 | 0.163 |
| 1.3 | 0.741 | 0.488 | 0.383 | 0.322 | 0.281 | 0.252 | 0.230 | 0.212 | 0.197 | 0.185 |
| 1.4 | 0.794 | 0.533 | 0.422 | 0.357 | 0.314 | 0.283 | 0.259 | 0.240 | 0.224 | 0.211 |
| 1.5 | 0.851 | 0.581 | 0.465 | 0.397 | 0.351 | 0.318 | 0.292 | 0.271 | 0.254 | 0.240 |
| 1.6 | 0.912 | 0.632 | 0.498 | 0.425 | 0.376 | 0.340 | 0.313 | 0.291 | 0.272 | 0.257 |
| 1.7 | 0.976 | 0.667 | 0.534 | 0.450 | 0.403 | 0.365 | 0.335 | 0.311 | 0.292 | 0.275 |
| 1.8 | 1.047 | 0.715 | 0.572 | 0.489 | 0.432 | 0.391 | 0.359 | 0.334 | 0.315 | 0.298 |
| 1.9 | 1.122 | 0.765 | 0.612 | 0.520 | 0.462 | 0.419 | 0.385 | 0.358 | 0.335 | 0.315 |
| 2.0 | 1.202 | 0.821 | 0.657 | 0.561 | 0.496 | 0.449 | 0.412 | 0.383 | 0.359 | 0.339 |
| 2.1 | 1.281 | 0.880 | 0.704 | 0.607 | 0.540 | 0.488 | 0.448 | 0.415 | 0.389 | 0.368 |
| 2.2 | 1.380 | 0.943 | 0.754 | 0.644 | 0.570 | 0.515 | 0.473 | 0.440 | 0.412 | 0.389 |
| 2.3 | 1.479 | 1.010 | 0.808 | 0.690 | 0.610 | 0.552 | 0.507 | 0.471 | 0.442 | 0.417 |
| 2.4 | 1.581 | 1.080 | 0.866 | 0.739 | 0.654 | 0.595 | 0.548 | 0.509 | 0.477 | 0.449 |
| 2.5 | 1.698 | 1.160 | 0.928 | 0.792 | 0.701 | 0.634 | 0.582 | 0.541 | 0.507 | 0.477 |
| 2.6 | 1.820 | 1.243 | 0.994 | 0.849 | 0.751 | 0.679 | 0.624 | 0.580 | 0.543 | 0.513 |
| 2.7 | 1.950 | 1.332 | 1.063 | 0.908 | 0.805 | 0.728 | 0.668 | 0.621 | 0.582 | 0.550 |
| 2.8 | 2.089 | 1.427 | 1.146 | 0.972 | 0.862 | 0.780 | 0.716 | 0.666 | 0.624 | 0.589 |
| 2.9 | 2.239 | 1.529 | 1.223 | 1.044 | 0.924 | 0.836 | 0.768 | 0.713 | 0.669 | 0.631 |
| 3.0 | 2.399 | 1.638 | 1.311 | 1.119 | 0.990 | 0.895 | 0.823 | 0.764 | 0.716 | 0.676 |
Phương trình 5.13 là một biểu thức toán học thể hiện rằng tổng xác suất của tất cả các sự kiện bằng 1. Hình 5.10a cho thấy xác suất của một lưu lượng Q nằm giữa hai giá trị Q₁ và Q₂ là diện tích dưới đường cong hàm phân phối xác suất trong khoảng từ Q₁ đến Q₂. Hình 5.10b cho thấy xác suất để xảy ra một trận lũ có lưu lượng Q lớn hơn Q₁ chính là diện tích dưới đường cong từ Q₁ đến vô cùng. Xác suất này được tính bằng: F(Q > Q1) = 1 – F(Q < Q1)

Từ Hình 5.10, việc tính toán xác suất từ hàm phân phối xác suất là tẻ nhạt. Một sự cải tiến thêm của phân phối tần suất là phân phối tần suất tích lũy. Hàm phân phối tích lũy (CDF), F(Q), bằng diện tích dưới hàm phân phối xác suất, f(Q), từ −∞ đến Q:
$$F(Q) = \int_{-\infty}^{Q} f(Q)\,dQ \tag{5.14}$$
(nd: hàm phân phối tích lũy – CDF)
CDF viết tắt của Cumulative Distribution Function,
Định nghĩa: Hàm phân phối tích lũy F(x) của một biến ngẫu nhiên X được định nghĩa là: F(x)=P(X≤x)
Nghĩa là: F(x) cho ta xác suất rằng giá trị của biến ngẫu nhiên X sẽ nhỏ hơn hoặc bằng x.
Hiểu đơn giản: CDF là đường cong tích lũy xác suất — nó cho ta biết xác suất tích lũy đến một điểm nào đó.
Ví dụ: F(10) = 0.8 nghĩa là: xác suất để X≤10 là 80%
Đặc điểm của CDF:
| Đặc điểm | Ý nghĩa |
|---|---|
| Giá trị luôn từ 0 đến 1 | Vì là xác suất |
| Tăng đơn điệu (không giảm) | Vì xác suất tích lũy không thể giảm |
| limx→−∞F(x)=0\lim_{x \to -\infty} F(x) = 0 | Rất nhỏ thì xác suất gần như bằng 0 |
| limx→+∞F(x)=1\lim_{x \to +\infty} F(x) = 1 | Rất lớn thì xác suất gần như bằng 1 |
Phân biệt với các hàm khác:
| Hàm | Ý nghĩa |
|---|---|
| PDF (Probability Density Function – hàm mật độ xác suất) | Mật độ xác suất tại mỗi điểm (chỉ dùng cho biến liên tục) |
| PMF (Probability Mass Function – hàm khối xác suất) | Xác suất rời rạc tại từng giá trị (chỉ dùng cho biến rời rạc) |
| CDF (Hàm phân phối tích lũy) | Xác suất tích lũy đến một giá trị bất kỳ |
Ví dụ minh họa: Giả sử X là biến ngẫu nhiên rời rạc có:
| Giá trị của X | Xác suất P(X = x) |
|---|---|
| 1 | 0.2 |
| 2 | 0.5 |
| 3 | 0.3 |
Ta có CDF:
- F(1) = P(X≤1) = 0.2
- F(2) = P(X≤2) = 0.2+0.5 = 0.7
- F(3) = P(X≤3) =1.0
Tóm lại:
| Tên đầy đủ | Hàm phân phối tích lũy |
|---|---|
| Ký hiệu | F(x)=P(X≤x)F(x) = P(X \le x) |
| Bản chất | Là hàm xác suất tích lũy |
| Dùng để làm gì? | Tính xác suất biến ngẫu nhiên không vượt quá x |
| Gắn liền với | PDF (liên tục), PMF (rời rạc), thống kê tổng quát |
Bảng 5.2 minh họa việc xây dựng phân phối tần suất tích lũy như một phần của việc xây dựng biểu đồ phân bố tần suất. CDF đơn giản là tổng tích lũy của các tần suất tương đối theo khoảng lớp. Với mỗi khoảng lưu lượng, Bảng 5.2 xác định số lần mà lũ bằng hoặc vượt quá giới hạn dưới của khoảng lớp và đưa ra tần suất tích lũy.
Sử dụng CDF, nhà phân tích có thể tính trực tiếp xác suất không vượt ngưỡng cho một độ lớn đã cho. Xác suất không vượt ngưỡng được định nghĩa là xác suất mà giá trị chỉ định sẽ không bị vượt quá. Xác suất vượt ngưỡng bằng 1.0 trừ đi xác suất không vượt ngưỡng. Hình 5.11 cho thấy biểu đồ phân phối tích lũy cho mẫu lũ hằng năm tại Mono Creek, California.
Một lần nữa, với một mẫu đủ lớn để xác định các khoảng lớp nhỏ, biểu đồ phân bố tần suất trở thành một đường cong mượt mà được định nghĩa là CDF, F(Q), được thể hiện trong Hình 5.12a. Hình này cho thấy diện tích dưới đường cong ở bên trái của mỗi Q trong Hình 5.9 và định nghĩa xác suất rằng lưu lượng sẽ nhỏ hơn một giá trị xác định nào đó, tức là xác suất không vượt ngưỡng.
Một biểu diễn thuận tiện khác cho phân tích thủy văn là hàm xác suất bù, G(Q), được định nghĩa như sau:
$$G(Q) = 1 – F(Q) = P_r(Q \geq Q_1) \tag{5.15}$$
Hàm G(Q), được thể hiện trong Hình 5.12b, là xác suất vượt ngưỡng (tức là xác suất xảy ra một lưu lượng có độ lớn bằng hoặc vượt quá một giá trị lưu lượng cho trước).


5.1.7 Vẽ Dữ liệu của Mẫu với Công Thức tính vị trí vẽ theo xác suất (Plotting Position)
Khi thực hiện phân tích tần suất lũ, kỹ sư thường vẽ các phân vị (quantiles) từ một hàm phân phối đã lắp và các đỉnh lũ quan sát được trên cùng một đồ thị để đánh giá mức độ phù hợp. Để biểu diễn các giá trị của mẫu trên trục hoành theo thang xác suất, người ta sử dụng công thức tính vị trí vẽ theo xác suất (plotting position formula).
Nhiều công thức tính vị trí theo xác suất khác nhau đã được đề xuất để ước tính xác suất của các đỉnh lũ quan sát được, nhưng chưa có sự thống nhất về phương pháp ưu tiên. Tuy nhiên, người ta thường sử dụng một vài công thức trong phân tích thống kê thủy văn. Bulletin 17C trình bày một công thức tổng quát để tính toán vị trí vẽ điểm theo thang sác xuất:
(nd: Phân vị – Quantiles)
Các phân vị (Quantiles) là các giá trị chia một tập dữ liệu thành các phần bằng nhau về số lượng quan sát. Nói cách khác, chúng là những điểm cắt phân phối xác suất để tạo ra các đoạn có cùng xác suất.
Một cách tổng quát:
+ Phân vị là một điểm chia dữ liệu thành các phần trăm nhất định.
+ Trung vị (median) là một dạng của phân vị, nó chia dữ liệu thành hai nửa bằng nhau (phân vị thứ 50).
+ Hai loại phân vị phổ biến nhất là bách phân vị (percentile) và tứ phân vị (quartile).
Cụ thể hơn:
- Bách phân vị (Percentile):
- Bách phân vị thứ p của một dãy số đã xếp theo thứ tự tăng dần là một số A sao cho p phần trăm số hạng của dãy số này có giá trị bé hơn hoặc bằng A, và 100−p phần trăm số hạng có giá trị lớn hơn hoặc bằng A.
- Ví dụ: Bách phân vị thứ 90 (90th percentile) là giá trị mà 90% dữ liệu nhỏ hơn hoặc bằng nó, và 10% dữ liệu lớn hơn hoặc bằng nó.
- Tứ phân vị (Quartile):
- Các số tứ phân vị chia dãy số đã được xếp thứ tự thành 4 phần có số số hạng bằng nhau (hay gần bằng nhau).
- Có 3 giá trị tứ phân vị, ký hiệu là Q1, Q2, và Q3:
- Q1 (Tứ phân vị thứ nhất): Là giá trị mà 25% dữ liệu nhỏ hơn hoặc bằng nó. Nó là trung vị của nửa dưới tập dữ liệu.
- Q2 (Tứ phân vị thứ hai): Chính là Trung vị (Median), là giá trị mà 50% dữ liệu nhỏ hơn hoặc bằng nó.
- Q3 (Tứ phân vị thứ ba): Là giá trị mà 75% dữ liệu nhỏ hơn hoặc bằng nó. Nó là trung vị của nửa trên tập dữ liệu.
Cụ thể về cách tính các quantiles (phân vị) và cách chúng được dùng trong phần mềm thủy văn như HEC-SSP:
1. Cách tính các quantiles
Giả sử bạn có một tập dữ liệu quan trắc gồm n giá trị đã được sắp xếp theo thứ tự tăng dần: \(x_1 \le x_2 \le \dots \le x_n\)
Công thức tổng quát để tìm quantile bậc p (với 0<p<1), bạn thực hiện:
- Tính chỉ số vị trí: i = p(n + 1)
- Xác định giá trị phân vị:
- Nếu i là số nguyên: chọn giá trị tại vị trí i: \(x_i\)
- Nếu i không nguyên: nội suy giữa xi và xi+1
Ví dụ:
Với dãy số có 10 giá trị: x = [3, 5, 6, 8, 10, 12, 15, 17, 19, 20]
- Phân vị 25% (Q1):
i=0.25×(10+1)=2.75
Nội suy giữa x2=5 và x3=6
Q1 = 5 + 0.75(6 – 5) = 5.75
2. Cách dùng quantiles trong HEC-SSP
HEC-SSP (Statistical Software Package) là phần mềm của USACE để phân tích tần suất lũ và mưa. Quantiles được dùng trong bước Frequency Analysis để xác định lưu lượng hoặc mưa ứng với một xác suất vượt ngưỡng cụ thể.
a. Fit Distribution to Data:
+ Bạn chọn một phân phối (ví dụ: Log-Pearson Type III).
+ Phần mềm ước lượng các tham số từ dữ liệu.
b. Tính quantiles (phân vị):
Dựa trên phân phối đã chọn, phần mềm tính các giá trị tương ứng với các xác suất vượt cụ thể:
+ 50% (T = 2 năm)
+ 10% (T = 10 năm)
+ 1% (T = 100 năm)
+ 0.2% (T = 500 năm)
\(Q_T = F^{-1}(1 – P)\)
trong đó:
\(Q_T\): lưu lượng ứng với chu kỳ lặp T
P: xác suất vượt = 1/T
\(F^{-1}\): hàm phân vị của phân phối đã chọn
c. Biểu diễn kết quả:
Trên đồ thị xác suất (Probability Plot), các quantiles từ phân phối đã lắp sẽ được vẽ cùng với dữ liệu thực tế để đánh giá độ phù hợp.
(nd: Ploting Position Fomula)
Công thức tính vị trí theo xác suất (ploting position formula) là một phương trình được sử dụng trong phân tích tần suất để tính xác suất của một sự kiện dựa trên thứ hạng của sự kiện đó và kích thước mẫu.
Khi bạn có một tập hợp các quan trắc (ví dụ: lưu lượng đỉnh hàng năm của một con sông) và bạn sắp xếp chúng theo thứ tự từ nhỏ nhất đến lớn nhất, ploting position formula là một công thức giúp bạn gán một xác suất cụ thể cho mỗi quan trắc đó. Mục đích là để biểu diễn dữ liệu trên biểu đồ phân phối xác suất (probability plot), chẳng hạn như biểu đồ log-Pearson loại III.
$$P = \frac{i – a}{n + 1 – 2a} \tag{5.16}$$
trong đó:
- i = Thứ hạng của giá trị đỉnh lũ đã được sắp xếp, với lũ lớn nhất có hạng là 1
- n = Chiều dài chuỗi số liệu
- a = Hằng số ứng với một công thức tính vị trí theo xác suất cụ thể
Ba khả năng phát sinh từ phương trình 5.16, bao gồm:
+ Weibull, \(P_w\) (a = 0):
$$P_w = \frac{i}{n + 1} \tag{5.17}$$
Hazen, \(P_h\) (a = 0.5):
$$P_h = \frac{i – 0.5}{n} \tag{5.18}$$
+Cunnane, \(P_c\) (a = 0.4):
$$P_c = \frac{i – 0.4}{n + 0.2} \tag{5.19}$$
Kỹ sư sẽ vẽ dữ liệu bằng cách đặt một điểm cho mỗi giá trị trong chuỗi lũ tại giao điểm giữa độ lớn của đỉnh lũ và xác suất vượt quá được tính bằng công thức tính vị trí theo xác suất. Dữ liệu đã vẽ có khả năng gần đúng với đường phân phối lý thuyết nếu mô hình phân phối đã lắp ban đầu là hợp lý.
Đối với chuỗi thời đoạn (partial-duration series) — trong đó số trận lũ vượt quá số năm ghi nhận — Beard (1962) khuyến nghị công thức sau:
$$P = \frac{2i – 1}{2n} = \frac{i – 0.5}{n} \tag{5.20}$$
Trước khi các kỹ sư sử dụng đường cong tần suất đã tính toán để ước lượng độ lớn lũ hoặc xác suất vượt ngưỡng, họ xác minh phân phối mà họ đã giả định bằng cách vẽ dữ liệu theo xác suất. Để vẽ dữ liệu:
- Sắp xếp chuỗi lũ theo thứ tự giảm dần, với trận lũ lớn nhất có hạng là 1 và trận lũ nhỏ nhất có hạng là n.
- Dùng thứ hạng i với công thức tính vị trí theo xác suất như phương trình 5.16 để tính giá trị vị trí của mỗi đỉnh lũ
- Vẽ độ lớn đỉnh lũ X với giá trị là điểm vẽ đã tính theo xác suất tương ứng.
Các điểm ở hai đầu của mẫu (lớn nhất và nhỏ nhất) thường chệch khỏi đường cong dẫn xuất từ phân phối xác suất đã lắp. Kỹ sư sử dụng kinh nghiệm thay vì tiêu chí khách quan để quyết định có chấp nhận phân phối xác suất đã lắp như là phân phối của tổng thể hay không. Phần tiếp theo mô tả các phân phối xác suất phổ biến được sử dụng trong thủy văn.
(nd: tiêu chí khách quan)
Trong thực tế phân tích thủy văn, việc đánh giá xem phân phối xác suất đã khớp có đủ tốt hay không thường mang tính chủ quan, dựa trên kinh nghiệm chuyên môn, hơn là dựa vào một chuẩn định lượng khách quan duy nhất. Điều này phản ánh đặc điểm phức tạp và không hoàn toàn chuẩn hóa của dữ liệu thủy văn.
Có các tiêu chí khách quan để đánh giá sự phù hợp của một phân phối xác suất với dữ liệu mẫu, đặc biệt trong thủy văn. Mặc dù kinh nghiệm của kỹ sư vẫn rất quan trọng, nhưng các phương pháp thống kê khách quan này cung cấp cơ sở định lượng để đưa ra quyết định. Chúng được gọi chung là kiểm định độ phù hợp (Goodness-of-Fit Tests).
Dưới đây là một số kiểm định độ phù hợp phổ biến và các tiêu chí khác được sử dụng trong thủy văn:
1. Các kiểm định độ phù hợp (Goodness-of-Fit Tests) dựa trên thống kê:
Các kiểm định này so sánh sự khác biệt giữa phân phối tích lũy thực nghiệm của dữ liệu mẫu (empirical cumulative distribution function – ECDF) và phân phối tích lũy lý thuyết của hàm phân phối xác suất được đề xuất. Một số kiểm định phổ biến bao gồm:
- Kiểm định Kolmogorov-Smirnov (K-S Test):
- Đây là một kiểm định phi tham số, nhạy cảm với sự khác biệt lớn nhất giữa ECDF và CDF lý thuyết.
- Nó thường được sử dụng để kiểm tra liệu một mẫu có đến từ một phân phối cụ thể hay không.
- Kiểm định Anderson-Darling (A-D Test):
- Là một biến thể của kiểm định K-S, nhưng nó đặc biệt nhạy cảm với sự khác biệt ở các “đuôi” (tail) của phân phối (tức là các giá trị cực đoan). Điều này rất quan trọng trong thủy văn, nơi các sự kiện cực đoan (lũ lụt lớn, hạn hán nghiêm trọng) thường là đối tượng quan tâm chính.
- Kiểm định Chi-Squared Test – χ2 :
- Đây là một kiểm định tham số, so sánh tần suất quan sát trong các khoảng (bins) dữ liệu với tần suất dự kiến từ phân phối lý thuyết.
- Nó yêu cầu dữ liệu phải được chia thành các lớp (bins), và hiệu suất của nó có thể phụ thuộc vào cách chọn các lớp này.
- Kiểm định Cramer-von Mises (CVM Test):
- Cũng là một kiểm định dựa trên ECDF, tương tự K-S và A-D, nhưng có cách tính toán thống kê khác nhau, thường nhạy cảm hơn với các khác biệt trên toàn bộ phân phối.
2. Tiêu chí thông tin (Information Criteria):
Các tiêu chí này giúp lựa chọn mô hình tốt nhất khi có nhiều hơn một phân phối có vẻ phù hợp. Chúng cân bằng giữa độ phù hợp của mô hình với dữ liệu và độ phức tạp của mô hình (tránh overfitting). Các tiêu chí phổ biến bao gồm:
- Tiêu chí thông tin Akaike (Akaike Information Criterion – AIC): Đánh giá chất lượng tương đối của các mô hình thống kê cho một tập hợp dữ liệu nhất định.
- Tiêu chí thông tin Bayesian (Bayesian Information Criterion – BIC): Tương tự AIC nhưng đưa ra hình phạt lớn hơn cho số lượng tham số trong mô hình, có xu hướng chọn các mô hình đơn giản hơn AIC.
3. Các chỉ số hiệu suất đồ thị (Graphical Performance Metrics):
Mặc dù câu gốc nói về việc “lệch khỏi đường cong” và kỹ sư sử dụng “kinh nghiệm”, nhưng việc trực quan hóa dữ liệu và phân phối đã khớp trên biểu đồ vẫn là một phần quan trọng của quá trình đánh giá khách quan. Các kỹ sư có thể sử dụng các tiêu chí hình ảnh để đánh giá:
- Biểu đồ tần suất lũ (Flood Frequency Plot): So sánh các điểm dữ liệu quan sát được với đường cong của phân phối lý thuyết. Sự “phù hợp” bằng mắt thường ở các đuôi phân phối thường rất quan trọng.
- Biểu đồ P-P và Q-Q: Các biểu đồ này giúp đánh giá xem dữ liệu có tuân theo một phân phối lý thuyết nhất định hay không bằng cách so sánh các phân vị của dữ liệu với các phân vị của phân phối lý thuyết.
4. Các tiêu chí khác trong thủy văn:
Ngoài các kiểm định thống kê trên, trong thực tế thủy văn, việc lựa chọn phân phối còn dựa trên:
- Đặc điểm vật lý của hiện tượng: Ví dụ, lũ lụt thường có tính chất lệch phải (skewed), do đó các phân phối có khả năng mô tả tốt độ lệch này (như Log-Pearson Type III, GEV, Log-normal) thường được ưu tiên.
- Độ tin cậy của ước tính ở các đuôi: Đối với phân tích tần suất lũ, việc ước tính chính xác các sự kiện cực đoan (ví dụ: lũ 100 năm) là rất quan trọng. Một số phân phối và phương pháp ước tính tham số có thể cho kết quả tin cậy hơn ở các đuôi.
- Tính nhất quán với các nghiên cứu trước đây: Nếu có các nghiên cứu tương tự trong khu vực hoặc điều kiện tương tự đã xác định một phân phối phù hợp, đó có thể là một điểm khởi đầu hợp lý.
- Dung lượng chuỗi số liệu: Với chuỗi số liệu ngắn, các kiểm định độ phù hợp có thể kém hiệu quả hơn, và kinh nghiệm kỹ sư trở nên quan trọng hơn.
5.2 Các Phân Phối Tần Suất Chuẩn
Các kỹ sư thường sử dụng một số phân phối tần suất tích lũy trong phân tích dữ liệu thủy văn, bao gồm phân phối normal, phân phối log-normal, phân phối giá trị cực trị Gumbel, và phân phối log-Pearson loại III. Phần này trình bày các đặc điểm và ứng dụng của từng phân phối nêu trên.
5.2.1 Phân Phối Normal
Phân phối normal, hay phân phối Gaussian, là một phân phối toán học kinh điển thường được sử dụng trong phân tích các hiện tượng tự nhiên. Phân phối normal có dạng đường cong hình chuông đối xứng, không bị giới hạn, với giá trị cực đại tại điểm trung tâm và kéo dài từ −∞ đến +∞. Hình 5.13a thể hiện phân phối normal.

Đối với phân phối normal, giá trị cực đại xảy ra tại giá trị trung bình. Do tính đối xứng, một nửa số giá trị lưu lượng nằm dưới trung bình và một nửa nằm trên. Một đặc điểm khác của đường cong phân phối normal là 68.3% các sự kiện nằm trong khoảng ±1 độ lệch chuẩn (S), 95% nằm trong ±2S, và 99.7% nằm trong ±3S. Trong một mẫu dữ liệu lưu lượng, các tỷ lệ phần trăm này sẽ được xấp xỉ.
Đối với phân phối normal, hệ số lệch (skew) bằng không. Hàm mô tả đường cong phân phối normal là:
$$f(X) = \frac{e^{ -\left( \frac{(x – \bar{x})^2}{2S^2} \right) }}{S \sqrt{2\pi}} \tag{5.21}$$
Chỉ có hai tham số được sử dụng để mô tả phân phối normal: giá trị trung bình \(\bar{x}\) và độ lệch chuẩn S.
Một nhược điểm của phân phối normal là nó không bị giới hạn theo hướng âm, trong khi hầu hết các biến thủy văn đều bị giới hạn và không bao giờ nhỏ hơn không. Vì lý do này, và vì nhiều biến thủy văn thể hiện độ lệch rõ rệt, phân phối normal thường chỉ có ứng dụng hạn chế. Tuy nhiên, những vấn đề này đôi khi có thể được khắc phục bằng cách thực hiện biến đổi logarit trên dữ liệu. Thường thì logarit của các biến thủy văn có phân phối normal.
5.2.1.1 Phân Phối Normal Chuẩn
Một trường hợp đặc biệt của phân phối normal là phân phối normal chuẩn, được biểu diễn bởi biến chuẩn z (xem Hình 5.13b). Phân phối normal chuẩn luôn có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1. Nếu biến ngẫu nhiên X có phân phối normal với trung bình \(\bar{X}\) và độ lệch chuẩn S, thì giá trị của X có thể được biến đổi sao cho tuân theo phân phối normal chuẩn bằng cách sử dụng phép biến đổi sau:
$$z = \frac{X – \bar{X}}{S} \tag{5.22}$$
trong đó:
- z = Biến chuẩn ứng với phân phối tích lũy normal
Bảng 5.7 tóm tắt các giá trị chọn lọc của z. Nếu biết \(\bar{X}\), S, và z ứng với một tần suất cho trước, thì giá trị X tương ứng với tần suất đó có thể được tính theo công thức:
$$X = \bar{X} + zS \tag{5.23}$$
Bảng 5.7. Các giá trị chọn lọc của biến chuẩn (z) cho phân phối normal tích lũy
| Xác suất vượt ngưỡng | Chu kỳ lặp (năm) | z |
|---|---|---|
| 0.5 | 2 | 0.0000 |
| 0.2 | 5 | 0.8416 |
| 0.1 | 10 | 1.2816 |
| 0.04 | 25 | 1.7507 |
| 0.02 | 50 | 2.0538 |
| 0.01 | 100 | 2.3264 |
| 0.002 | 500 | 2.8782 |
Ví dụ 5.4: Tính toán với phân phối normal chuẩn
Mục tiêu:
Minh họa cách ước lượng lũ 10 năm bằng cách sử dụng phân phối normal chuẩn và ước lượng xác suất của một lưu lượng 6.390 ft³/s cũng bằng phân phối normal chuẩn.
Cho:
Chuỗi đỉnh lũ hàng năm tuân theo phân phối normal với:
$$\bar{X} = 4.240 \text{ ft}³/\text{s} \quad S = 1.230 \text{ ft}³/\text{s}$$
Yêu cầu:
Tính lưu lượng lũ 10 năm và xác suất xảy ra của lưu lượng 6.390 ft³/s.
Bước 1. Tính lưu lượng lũ 10 năm
Sự kiện 10 năm có xác suất vượt quá là 0.10 (10%) hay xác suất không vượt quá là 0.90 (90%). Do đó, giá trị tương ứng của z từ Bảng 5.7 là 1.2816.
Tính lũ 10 năm theo phương trình (5.23):
$$X = \bar{X} + zS = 4.240 + 1.2816(1.230) = 5.816 \text{ ft}³/\text{s}$$
Bước 2. Tính xác suất của một trận lũ 6.390 ft³/s
Sử dụng phương trình (5.22) để tính giá trị biến chuẩn
$$z = \frac{X – \bar{X}}{S} = \frac{6.390 – 4.240}{1.230} = 1.75$$
Tra Bảng 5.7 với z = 1.75: xác suất vượt ngưỡng là 0.04, tức đây là trận lũ có chu kỳ lặp 25 năm.
Kết quả ví dụ 5.4
Lũ 10 năm là 5.816 ft³/s, và xác suất xảy ra của một trận lũ 6.390 ft³/s là 0.04, tương ứng với một trận lũ 25 năm.
5.2.1.2 Phân Tích Tần Suất theo Phân Phối Normal
Một biểu đồ xác suất-số học có trục hoành được biến đổi đặc biệt theo thang xác suất. Trục hoành này được biến đổi sao cho hàm phân phối tích lũy (CDF) của dữ liệu tuân theo phân phối normal sẽ là một đường thẳng. Nếu một chuỗi đỉnh lũ tuân theo phân phối normal được vẽ theo hàm tần suất tích lũy hoặc xác suất vượt ngưỡng trên trục xác suất, dữ liệu sẽ tạo thành một đường thẳng với phương trình:
(nd: CDF, hàm tần suất tích lũy, xác xuất vượt ngưỡng)
Đây là 3 khái niệm quan trọng trong thống kê và thủy văn, đặc biệt khi phân tích tần suất lũ. Dưới đây là giải thích rõ ràng từng khái niệm, cách dùng và mối liên hệ giữa chúng:
1. Hàm phân phối tích lũy (CDF – Cumulative Distribution Function)
Định nghĩa: Hàm CDF của một biến ngẫu nhiên X là hàm mô tả xác suất tích lũy cho đến một giá trị x: \(F(x) = P(X \leq x)\)
=> Tức là: xác suất mà giá trị của X nhỏ hơn hoặc bằng x.
Đặc điểm:
+ Tăng dần từ 0 đến 1.
+ Với phân phối Normal, đường cong CDF có hình chữ S.
+ Được dùng để tìm tần suất xuất hiện dưới ngưỡng.
2. Hàm tần suất tích lũy (cumulative frequency function)
Định nghĩa: Là dạng thực nghiệm của CDF — tức là lấy dữ liệu thực tế, sắp xếp theo thứ tự và tính xác suất hoặc tần suất tích lũy.
$$F(x_i) = \frac{\text{số lượng giá trị } \le x_i}{n}$$
- Đây là cách biểu diễn CDF từ dữ liệu quan sát (thống kê thực nghiệm).
- Ví dụ: Nếu có 10 quan sát, và 3 trong số đó ≤ 200 m³/s, thì tần suất tích lũy tại 200 là 0.3.
3. Xác suất vượt ngưỡng (Exceedance Probability)
Định nghĩa: Là xác suất mà giá trị vượt quá một giá trị nhất định: \(P(X > x) = 1 – F(x)\)
- Dùng phổ biến trong thủy văn để mô tả rủi ro: “Xác suất lũ vượt 500 m³/s là 10%”.
- Càng nhỏ → càng hiếm → thường ứng với các trận lũ cực đoan.
Mối liên hệ giữa ba khái niệm:
| Tên gọi | Ký hiệu | Ý nghĩa | Quan hệ |
|---|---|---|---|
| Hàm phân phối tích lũy | F(x)) | P(X≤x) | Gốc |
| Xác suất vượt ngưỡng | P(X>x) | 1−F(x) | Bổ sung |
| Hàm tần suất tích lũy (thực nghiệm) | \(\hat{F}(x)\) | Từ dữ liệu | Tiệm cận CDF nếu mẫu đủ lớn |
Trong thủy văn, khi vẽ đồ thị xác suất (probability plot), ta dùng:
- Trục tung: lưu lượng đỉnh
- Trục hoành: xác suất vượt ngưỡng (hoặc ngược lại là CDF)
→ Nếu phân phối normal phù hợp, các điểm sẽ gần thành đường thẳng trên biểu đồ.
$$X = \bar{X} + K S \tag{5.24}$$
trong đó:
- X = Lưu lượng lũ ứng với một tần suất xác định
- K = Hệ số tần suất của phân phối
Đối với phân phối normal, K = z trong đó z lấy từ Bảng 5.7. Bảng 5.8 cung cấp chi tiết các xác suất không vượt ngưỡng cho phân phối normal chuẩn tích lũy ứng với các giá trị của biến chuẩn z. Nếu chuỗi đỉnh lũ hàng năm có phân phối normal, kỹ sư có thể ước lượng xác suất không vượt ngưỡng của một lưu lượng đã cho bằng quy trình sau:
- Tính giá trị trung bình \(\bar{X}\) và độ lệch chuẩn S của chuỗi đỉnh lũ hàng năm.
- Sử dụng phương trình 5.22 để tính giá trị biến chuẩn z cho lưu lượng cần quan tâm.
- Tra Bảng 5.8 với giá trị z và lấy xác suất không vượt quá.
- Tính xác suất vượt ngưỡng hàng năm (AEP) bằng cách lấy 1 trừ xác suất không vượt ngưỡng.
Bảng 5.8. Xác suất không vượt ngưỡng của phân phối Normal chuẩn tích lũy ứng với các giá trị biến chuẩn (z)
| z | 0 | 0.01 | 0.02 | 0.03 | 0.04 | 0.05 | 0.06 | 0.07 | 0.08 | 0.09 |
|---|---|---|---|---|---|---|---|---|---|---|
| -3.4 | 0.0003 | 0.0003 | 0.0003 | 0.0003 | 0.0003 | 0.0003 | 0.0003 | 0.0003 | 0.0003 | 0.0002 |
| -3.3 | 0.0005 | 0.0005 | 0.0005 | 0.0004 | 0.0004 | 0.0004 | 0.0004 | 0.0004 | 0.0004 | 0.0003 |
| -3.2 | 0.0007 | 0.0007 | 0.0006 | 0.0006 | 0.0006 | 0.0006 | 0.0005 | 0.0005 | 0.0005 | 0.0005 |
| -3.1 | 0.0010 | 0.0009 | 0.0009 | 0.0009 | 0.0008 | 0.0008 | 0.0008 | 0.0007 | 0.0007 | 0.0007 |
| -3.0 | 0.0013 | 0.0013 | 0.0012 | 0.0012 | 0.0011 | 0.0011 | 0.0011 | 0.0010 | 0.0010 | 0.0010 |
| -2.9 | 0.0019 | 0.0018 | 0.0017 | 0.0016 | 0.0016 | 0.0015 | 0.0015 | 0.0014 | 0.0014 | 0.0014 |
| -2.8 | 0.0026 | 0.0025 | 0.0024 | 0.0023 | 0.0022 | 0.0021 | 0.0020 | 0.0020 | 0.0019 | 0.0019 |
| -2.7 | 0.0035 | 0.0034 | 0.0033 | 0.0032 | 0.0031 | 0.0030 | 0.0029 | 0.0028 | 0.0027 | 0.0026 |
| -2.6 | 0.0047 | 0.0045 | 0.0044 | 0.0043 | 0.0041 | 0.0040 | 0.0039 | 0.0038 | 0.0037 | 0.0036 |
| -2.5 | 0.0062 | 0.0060 | 0.0059 | 0.0057 | 0.0055 | 0.0054 | 0.0052 | 0.0051 | 0.0049 | 0.0048 |
| -2.4 | 0.0082 | 0.0080 | 0.0078 | 0.0075 | 0.0073 | 0.0071 | 0.0069 | 0.0068 | 0.0066 | 0.0064 |
| -2.3 | 0.0107 | 0.0104 | 0.0102 | 0.0099 | 0.0096 | 0.0094 | 0.0091 | 0.0089 | 0.0087 | 0.0084 |
| -2.2 | 0.0139 | 0.0136 | 0.0132 | 0.0129 | 0.0125 | 0.0122 | 0.0119 | 0.0116 | 0.0113 | 0.0110 |
| -2.1 | 0.0179 | 0.0174 | 0.0170 | 0.0166 | 0.0162 | 0.0158 | 0.0154 | 0.0150 | 0.0146 | 0.0143 |
| -2.0 | 0.0228 | 0.0222 | 0.0217 | 0.0212 | 0.0207 | 0.0202 | 0.0197 | 0.0192 | 0.0188 | 0.0183 |
| -1.9 | 0.0287 | 0.0281 | 0.0274 | 0.0268 | 0.0262 | 0.0256 | 0.0250 | 0.0244 | 0.0239 | 0.0233 |
| -1.8 | 0.0359 | 0.0351 | 0.0344 | 0.0336 | 0.0329 | 0.0322 | 0.0314 | 0.0307 | 0.0301 | 0.0294 |
| -1.7 | 0.0446 | 0.0436 | 0.0427 | 0.0418 | 0.0409 | 0.0401 | 0.0392 | 0.0384 | 0.0375 | 0.0367 |
| -1.6 | 0.0548 | 0.0537 | 0.0526 | 0.0516 | 0.0505 | 0.0495 | 0.0485 | 0.0475 | 0.0465 | 0.0455 |
| -1.5 | 0.0668 | 0.0655 | 0.0643 | 0.0630 | 0.0618 | 0.0606 | 0.0594 | 0.0582 | 0.0571 | 0.0559 |
| -1.4 | 0.0808 | 0.0793 | 0.0778 | 0.0764 | 0.0749 | 0.0735 | 0.0721 | 0.0708 | 0.0694 | 0.0681 |
| -1.3 | 0.0968 | 0.0951 | 0.0934 | 0.0918 | 0.0901 | 0.0885 | 0.0869 | 0.0853 | 0.0838 | 0.0823 |
| -1.2 | 0.1151 | 0.1131 | 0.1112 | 0.1093 | 0.1075 | 0.1056 | 0.1038 | 0.1020 | 0.1003 | 0.0985 |
| -1.1 | 0.1357 | 0.1335 | 0.1314 | 0.1292 | 0.1271 | 0.1251 | 0.1230 | 0.1210 | 0.1190 | 0.1170 |
| -1.0 | 0.1587 | 0.1562 | 0.1539 | 0.1515 | 0.1492 | 0.1469 | 0.1446 | 0.1423 | 0.1401 | 0.1379 |
| -0.9 | 0.1841 | 0.1814 | 0.1788 | 0.1762 | 0.1736 | 0.1711 | 0.1685 | 0.1660 | 0.1635 | 0.1611 |
| -0.8 | 0.2119 | 0.2090 | 0.2061 | 0.2033 | 0.2005 | 0.1977 | 0.1949 | 0.1922 | 0.1894 | 0.1867 |
| -0.7 | 0.2420 | 0.2389 | 0.2358 | 0.2327 | 0.2296 | 0.2266 | 0.2236 | 0.2206 | 0.2177 | 0.2148 |
| -0.6 | 0.2743 | 0.2709 | 0.2676 | 0.2643 | 0.2611 | 0.2578 | 0.2546 | 0.2514 | 0.2483 | 0.2451 |
| -0.5 | 0.3085 | 0.3050 | 0.3015 | 0.2981 | 0.2946 | 0.2912 | 0.2877 | 0.2843 | 0.2810 | 0.2776 |
| -0.4 | 0.3446 | 0.3409 | 0.3372 | 0.3336 | 0.3300 | 0.3264 | 0.3228 | 0.3192 | 0.3156 | 0.3121 |
| -0.3 | 0.3821 | 0.3783 | 0.3745 | 0.3707 | 0.3669 | 0.3632 | 0.3594 | 0.3557 | 0.3520 | 0.3483 |
| -0.2 | 0.4207 | 0.4168 | 0.4129 | 0.4090 | 0.4052 | 0.4013 | 0.3974 | 0.3936 | 0.3897 | 0.3859 |
| -0.1 | 0.4602 | 0.4562 | 0.4522 | 0.4483 | 0.4443 | 0.4404 | 0.4364 | 0.4325 | 0.4286 | 0.4247 |
| -0.0 | 0.5000 | 0.4960 | 0.4920 | 0.4880 | 0.4840 | 0.4801 | 0.4761 | 0.4721 | 0.4681 | 0.4641 |
Bảng 5.8 (tiếp theo).
| z | 0 | 0.01 | 0.02 | 0.03 | 0.04 | 0.05 | 0.06 | 0.07 | 0.08 | 0.09 |
|---|---|---|---|---|---|---|---|---|---|---|
| 0.0 | 0.5000 | 0.5040 | 0.5080 | 0.5120 | 0.5160 | 0.5199 | 0.5239 | 0.5279 | 0.5319 | 0.5359 |
| 0.1 | 0.5398 | 0.5438 | 0.5478 | 0.5517 | 0.5557 | 0.5596 | 0.5636 | 0.5675 | 0.5714 | 0.5753 |
| 0.2 | 0.5793 | 0.5832 | 0.5871 | 0.5910 | 0.5948 | 0.5987 | 0.6026 | 0.6064 | 0.6103 | 0.6141 |
| 0.3 | 0.6179 | 0.6217 | 0.6255 | 0.6293 | 0.6331 | 0.6368 | 0.6406 | 0.6443 | 0.6480 | 0.6517 |
| 0.4 | 0.6554 | 0.6591 | 0.6628 | 0.6664 | 0.6700 | 0.6736 | 0.6772 | 0.6808 | 0.6844 | 0.6879 |
| 0.5 | 0.6915 | 0.6950 | 0.6985 | 0.7019 | 0.7054 | 0.7088 | 0.7123 | 0.7157 | 0.7190 | 0.7224 |
| 0.6 | 0.7257 | 0.7291 | 0.7324 | 0.7357 | 0.7389 | 0.7422 | 0.7454 | 0.7486 | 0.7517 | 0.7549 |
| 0.7 | 0.7580 | 0.7611 | 0.7642 | 0.7673 | 0.7704 | 0.7734 | 0.7764 | 0.7794 | 0.7823 | 0.7852 |
| 0.8 | 0.7881 | 0.7910 | 0.7939 | 0.7967 | 0.7995 | 0.8023 | 0.8051 | 0.8078 | 0.8106 | 0.8133 |
| 0.9 | 0.8159 | 0.8186 | 0.8212 | 0.8238 | 0.8264 | 0.8289 | 0.8315 | 0.8340 | 0.8365 | 0.8389 |
| 1.0 | 0.8413 | 0.8438 | 0.8461 | 0.8485 | 0.8508 | 0.8531 | 0.8554 | 0.8577 | 0.8599 | 0.8621 |
| 1.1 | 0.8643 | 0.8665 | 0.8686 | 0.8708 | 0.8729 | 0.8749 | 0.8770 | 0.8790 | 0.8810 | 0.8830 |
| 1.2 | 0.8849 | 0.8869 | 0.8888 | 0.8907 | 0.8925 | 0.8944 | 0.8962 | 0.8980 | 0.8997 | 0.9015 |
| 1.3 | 0.9032 | 0.9049 | 0.9066 | 0.9082 | 0.9099 | 0.9115 | 0.9131 | 0.9147 | 0.9162 | 0.9177 |
| 1.4 | 0.9192 | 0.9207 | 0.9222 | 0.9236 | 0.9251 | 0.9265 | 0.9279 | 0.9292 | 0.9306 | 0.9319 |
| 1.5 | 0.9332 | 0.9345 | 0.9357 | 0.9370 | 0.9382 | 0.9394 | 0.9406 | 0.9418 | 0.9429 | 0.9441 |
| 1.6 | 0.9452 | 0.9463 | 0.9474 | 0.9484 | 0.9495 | 0.9505 | 0.9515 | 0.9525 | 0.9535 | 0.9545 |
| 1.7 | 0.9554 | 0.9564 | 0.9573 | 0.9582 | 0.9591 | 0.9599 | 0.9608 | 0.9616 | 0.9625 | 0.9633 |
| 1.8 | 0.9641 | 0.9649 | 0.9656 | 0.9664 | 0.9671 | 0.9678 | 0.9686 | 0.9693 | 0.9699 | 0.9706 |
| 1.9 | 0.9713 | 0.9719 | 0.9726 | 0.9732 | 0.9738 | 0.9744 | 0.9750 | 0.9756 | 0.9761 | 0.9767 |
| 2.0 | 0.9772 | 0.9778 | 0.9783 | 0.9788 | 0.9793 | 0.9798 | 0.9803 | 0.9808 | 0.9812 | 0.9817 |
| 2.1 | 0.9821 | 0.9826 | 0.9830 | 0.9838 | 0.9842 | 0.9846 | 0.9850 | 0.9854 | 0.9857 | 0.9861 |
| 2.2 | 0.9861 | 0.9864 | 0.9868 | 0.9871 | 0.9875 | 0.9878 | 0.9881 | 0.9884 | 0.9887 | 0.9890 |
| 2.3 | 0.9893 | 0.9896 | 0.9898 | 0.9901 | 0.9904 | 0.9906 | 0.9909 | 0.9911 | 0.9913 | 0.9916 |
| 2.4 | 0.9918 | 0.9920 | 0.9922 | 0.9925 | 0.9927 | 0.9929 | 0.9931 | 0.9932 | 0.9934 | 0.9936 |
| 2.5 | 0.9938 | 0.9940 | 0.9941 | 0.9943 | 0.9945 | 0.9946 | 0.9948 | 0.9949 | 0.9951 | 0.9952 |
| 2.6 | 0.9953 | 0.9955 | 0.9956 | 0.9957 | 0.9959 | 0.9960 | 0.9961 | 0.9962 | 0.9963 | 0.9964 |
| 2.7 | 0.9965 | 0.9966 | 0.9967 | 0.9968 | 0.9969 | 0.9970 | 0.9971 | 0.9972 | 0.9973 | 0.9974 |
| 2.8 | 0.9974 | 0.9975 | 0.9976 | 0.9976 | 0.9977 | 0.9977 | 0.9978 | 0.9979 | 0.9979 | 0.9980 |
| 2.9 | 0.9981 | 0.9982 | 0.9982 | 0.9982 | 0.9983 | 0.9984 | 0.9984 | 0.9984 | 0.9985 | 0.9985 |
| 3.0 | 0.9987 | 0.9987 | 0.9987 | 0.9988 | 0.9988 | 0.9989 | 0.9989 | 0.9989 | 0.9989 | 0.9990 |
| 3.1 | 0.9990 | 0.9990 | 0.9991 | 0.9991 | 0.9991 | 0.9992 | 0.9992 | 0.9992 | 0.9992 | 0.9993 |
| 3.2 | 0.9993 | 0.9993 | 0.9994 | 0.9994 | 0.9994 | 0.9994 | 0.9995 | 0.9995 | 0.9995 | 0.9995 |
| 3.3 | 0.9995 | 0.9996 | 0.9996 | 0.9996 | 0.9996 | 0.9996 | 0.9997 | 0.9997 | 0.9997 | 0.9997 |
| 3.4 | 0.9997 | 0.9997 | 0.9997 | 0.9997 | 0.9997 | 0.9997 | 0.9997 | 0.9997 | 0.9997 | 0.9998 |
Ngược lại, kỹ sư có thể ước lượng lưu lượng đỉnh tương ứng với một giá trị AEP cụ thể bằng quy trình sau:
- Tính giá trị trung bình \(\bar{X}\) và độ lệch chuẩn S của chuỗi đỉnh lũ hằng năm.
- Tính xác suất không vượt ngưỡng quan tâm bằng cách lấy 1 trừ đi AEP.
- Tra Bảng 5.8 với xác suất không vượt ngưỡng vừa tính để lấy giá trị tương ứng của z.
- Sử dụng phương trình 5.23 để tính lưu lượng X.
Ví dụ 5.5: Lắp phân phối normal cho chuỗi lưu lượng đỉnh hàng năm.
Mục tiêu: Ước lượng các tham số phân phối bằng cách sử dụng thống kê mẫu từ số liệu tại trạm đo lưu lượng và đánh giá mức độ phù hợp của dữ liệu với phân phối normal.
Cho:
Chuỗi dòng chảy đỉnh hàng năm từ trạm đo trên sông Nueces, phía hạ lưu Uvalde, Texas. Bảng 5.9 trình bày dữ liệu tại trạm đo sông Nueces cùng với các phép tính hỗ trợ cho phân tích sau đây.
Thông tin trạm đo: Sông Nueces phía hạ lưu Uvalde, Texas (08192000)
- Lưu vực: Sông Nueces phía hạ lưu Uvalde, Texas (USGS 08192000), nằm bên bờ phải, cách 5.7 dặm về phía thượng lưu của một cây cầu trên Quốc lộ Hoa Kỳ 83, cách 8.8 dặm về phía tây nam Uvalde, cách 18.2 dặm về phía hạ lưu của Uvalde, tại điểm mile 338.7.
- Vị trí: Vĩ độ 29°07’25” Bắc, Kinh độ 99°53’40” Tây
- Diện tích lưu vực: 1.861 dặm vuông (mi²)
- Ghi chú:
Một phần dòng chảy của sông Nueces và các nhánh đầu nguồn chảy qua các đá vôi Edwards và đá vôi liên quan trong vùng đứt gãy Balcones, cắt ngang lưu vực giữa trạm Nueces tại Laguna (trạm 08190000) và trạm này. Không có điều tiết dòng chảy đã biết. Có nhiều đập nhỏ phía trên trạm để phục vụ tưới tiêu. Đôi khi không có dòng chảy. Một số dữ liệu được liệt kê trong mục “Giai đoạn ghi nhận” đối với nước mặt và chất lượng nước có thể không có sẵn dưới dạng điện tử.- Giai đoạn ghi nhận: Từ năm 1939 đến nay.
Bảng 5.9. Tính toán phân tích tần suất cho phân phối normal: Sông Nueces dưới Uvalde, Texas (Trạm 08192000).
| Năm | Rank Hạng | Plotting Probability Vẽ theo xác suất | Annual Maximum Cực đại hàng năm (ft³/s) | X/\(\bar{X}\) | (X/\(\bar{X}\)) – 1 | [(X/\(\bar{X}\)) – 1]² | [(X/\(\bar{X}\)) – 1]³ |
|---|---|---|---|---|---|---|---|
| 1935 | 1 | 0.011 | 616000 | 17.034 | 16.034 | 257.086 | 4122.090 |
| 1932 | 2 | 0.021 | 207000 | 5.724 | 4.724 | 22.317 | 105.425 |
| 1997 | 3 | 0.032 | 201000 | 5.558 | 4.558 | 20.777 | 94.703 |
| 1955 | 4 | 0.043 | 189000 | 5.226 | 4.226 | 17.862 | 75.489 |
| 1964 | 5 | 0.053 | 188000 | 5.199 | 4.199 | 17.629 | 74.017 |
| 1958 | 6 | 0.064 | 146000 | 4.037 | 3.037 | 9.225 | 28.018 |
| 1974 | 7 | 0.074 | 144000 | 3.982 | 2.982 | 8.892 | 26.516 |
| 2019 | 8 | 0.085 | 105000 | 2.904 | 1.904 | 3.623 | 6.897 |
| 1971 | 9 | 0.096 | 90600 | 2.505 | 1.505 | 2.266 | 3.411 |
| 1939 | 10 | 0.106 | 89000 | 2.461 | 1.461 | 2.135 | 3.119 |
| 1998 | 11 | 0.117 | 83200 | 2.301 | 1.301 | 1.692 | 2.200 |
| 2007 | 12 | 0.128 | 80100 | 2.215 | 1.215 | 1.476 | 1.793 |
| 1936 | 13 | 0.138 | 74800 | 2.068 | 1.068 | 1.141 | 1.220 |
| 2016 | 14 | 0.149 | 70400 | 1.947 | 0.947 | 0.896 | 0.849 |
| 1930 | 15 | 0.160 | 68200 | 1.886 | 0.886 | 0.785 | 0.695 |
| 1987 | 16 | 0.170 | 67200 | 1.858 | 0.858 | 0.737 | 0.632 |
| 2002 | 17 | 0.181 | 65300 | 1.806 | 0.806 | 0.649 | 0.523 |
| 1949 | 18 | 0.191 | 63000 | 1.742 | 0.742 | 0.551 | 0.409 |
| 1982 | 19 | 0.202 | 58500 | 1.618 | 0.618 | 0.382 | 0.236 |
| 1985 | 20 | 0.213 | 44600 | 1.233 | 0.233 | 0.054 | 0.013 |
| 1972 | 21 | 0.223 | 44100 | 1.219 | 0.219 | 0.048 | 0.011 |
| 2005 | 22 | 0.234 | 42000 | 1.161 | 0.161 | 0.026 | 0.004 |
| 1966 | 23 | 0.245 | 39900 | 1.103 | 0.103 | 0.011 | 0.001 |
| 1924 | 24 | 0.255 | 37500 | 1.037 | 0.037 | 0.001 | 0.000 |
| 1991 | 25 | 0.266 | 36600 | 1.012 | 0.012 | 0.000 | 0.000 |
| 2004 | 26 | 0.277 | 35000 | 0.968 | -0.032 | 0.001 | 0.000 |
| 1961 | 27 | 0.287 | 28600 | 0.791 | -0.209 | 0.044 | -0.009 |
| 1931 | 28 | 0.298 | 27000 | 0.747 | -0.253 | 0.064 | -0.016 |
| 1981 | 29 | 0.309 | 25900 | 0.716 | -0.284 | 0.081 | -0.023 |
| 1965 | 30 | 0.319 | 25200 | 0.697 | -0.303 | 0.092 | -0.028 |
| 1970 | 31 | 0.330 | 23700 | 0.655 | -0.345 | 0.119 | -0.041 |
| 1948 | 32 | 0.340 | 23600 | 0.653 | -0.347 | 0.121 | -0.042 |
| 1975 | 33 | 0.351 | 22300 | 0.617 | -0.383 | 0.147 | -0.056 |
| 1990 | 34 | 0.362 | 22000 | 0.608 | -0.392 | 0.153 | -0.060 |
| 1963 | 35 | 0.372 | 19500 | 0.539 | -0.461 | 0.212 | -0.098 |
| 1954 | 36 | 0.383 | 18400 | 0.509 | -0.491 | 0.241 | -0.119 |
| 1938 | 37 | 0.394 | 18200 | 0.503 | -0.497 | 0.247 | -0.123 |
| 1959 | 38 | 0.404 | 17300 | 0.478 | -0.522 | 0.272 | -0.142 |
| 1976 | 39 | 0.415 | 14900 | 0.412 | -0.588 | 0.346 | -0.203 |
| 1929 | 40 | 0.426 | 14500 | 0.401 | -0.599 | 0.359 | -0.215 |
| 2001 | 41 | 0.436 | 13700 | 0.379 | -0.621 | 0.386 | -0.240 |
| 1968 | 42 | 0.447 | 12100 | 0.335 | -0.665 | 0.443 | -0.295 |
| 1986 | 43 | 0.457 | 11600 | 0.321 | -0.679 | 0.461 | -0.313 |
| 1942 | 44 | 0.468 | 11200 | 0.310 | -0.690 | 0.477 | -0.329 |
| 2015 | 45 | 0.479 | 11200 | 0.310 | -0.690 | 0.477 | -0.329 |
| 1999 | 46 | 0.489 | 10200 | 0.282 | -0.718 | 0.515 | -0.370 |
| 1928 | 47 | 0.500 | 10000 | 0.277 | -0.723 | 0.523 | -0.379 |
Bảng 5.9 (tiếp theo). Tính toán phân tích tần suất cho phân phối normal: Sông Nueces dưới Uvalde, Texas (Trạm 08192000).
| Năm | Hạng | Plotting Probability Vẽ theo xác suất | Annual Maximum Cực đại hàng năm (ft³/s) | X/\(\bar{X}\) | (X/\(\bar{X}\)) – 1 | [(X/\(\bar{X}\)) – 1]² | [(X/\(\bar{X}\)) – 1]³ |
|---|---|---|---|---|---|---|---|
| 2018 | 48 | 0.511 | 9720 | 0.269 | -0.731 | 0.535 | -0.391 |
| 1992 | 49 | 0.521 | 9400 | 0.260 | -0.740 | 0.547 | -0.422 |
| 1978 | 50 | 0.532 | 8270 | 0.229 | -0.771 | 0.595 | -0.459 |
| 1956 | 51 | 0.543 | 7170 | 0.199 | -0.801 | 0.642 | -0.514 |
| 1953 | 52 | 0.553 | 6160 | 0.170 | -0.830 | 0.688 | -0.571 |
| 1995 | 53 | 0.564 | 6070 | 0.168 | -0.832 | 0.692 | -0.576 |
| 1996 | 54 | 0.574 | 6000 | 0.166 | -0.834 | 0.695 | -0.580 |
| 1994 | 55 | 0.585 | 5760 | 0.160 | -0.840 | 0.705 | -0.592 |
| 1940 | 56 | 0.596 | 5000 | 0.139 | -0.861 | 0.743 | -0.639 |
| 1947 | 57 | 0.606 | 4490 | 0.124 | -0.876 | 0.767 | -0.672 |
| 1960 | 58 | 0.617 | 3900 | 0.108 | -0.892 | 0.796 | -0.711 |
| 1944 | 59 | 0.628 | 3370 | 0.093 | -0.907 | 0.822 | -0.746 |
| 1957 | 60 | 0.638 | 3190 | 0.088 | -0.912 | 0.831 | -0.755 |
| 1946 | 61 | 0.649 | 3010 | 0.083 | -0.917 | 0.840 | -0.771 |
| 1941 | 62 | 0.660 | 2830 | 0.078 | -0.922 | 0.850 | -0.778 |
| 1943 | 63 | 0.670 | 2380 | 0.066 | -0.934 | 0.873 | -0.815 |
| 1942 | 64 | 0.681 | 2090 | 0.058 | -0.942 | 0.888 | -0.835 |
| 2011 | 65 | 0.691 | 1480 | 0.040 | -0.960 | 0.922 | -0.885 |
| 2020 | 66 | 0.702 | 1440 | 0.040 | -0.960 | 0.922 | -0.885 |
| 2003 | 67 | 0.713 | 1230 | 0.034 | -0.966 | 0.933 | -0.902 |
| 2005 | 68 | 0.723 | 1220 | 0.033 | -0.967 | 0.936 | -0.904 |
| 1937 | 69 | 0.734 | 330 | 0.009 | -0.991 | 0.982 | -0.973 |
| 1939 | 70 | 0.745 | 240 | 0.006 | -0.994 | 0.988 | -0.977 |
| 1980 | 71 | 0.755 | 200 | 0.005 | -0.995 | 0.990 | -0.980 |
| 1984 | 72 | 0.766 | 189 | 0.004 | -0.996 | 0.992 | -0.984 |
| 1961 | 73 | 0.777 | 180 | 0.004 | -0.996 | 0.992 | -0.984 |
| 1949 | 74 | 0.787 | 125 | 0.003 | -0.997 | 0.994 | -0.986 |
| 2006 | 75 | 0.798 | 103 | 0.003 | -0.997 | 0.994 | -0.988 |
| 1945 | 76 | 0.809 | 74 | 0.002 | -0.998 | 0.996 | -0.990 |
| 2009 | 77 | 0.819 | 74 | 0.002 | -0.998 | 0.996 | -0.990 |
| 1948 | 78 | 0.830 | 62 | 0.002 | -0.998 | 0.996 | -0.992 |
| 2008 | 79 | 0.840 | 62 | 0.002 | -0.998 | 0.996 | -0.992 |
| 1989 | 80 | 0.851 | 56 | 0.002 | -0.998 | 0.996 | -0.993 |
| 1990 | 81 | 0.862 | 55 | 0.002 | -0.998 | 0.997 | -0.994 |
| 1951 | 82 | 0.872 | 50 | 0.001 | -0.999 | 0.997 | -0.995 |
| 1988 | 83 | 0.883 | 46 | 0.001 | -0.999 | 0.997 | -0.996 |
| 2004 | 84 | 0.894 | 46 | 0.001 | -0.999 | 0.997 | -0.996 |
| 2010 | 85 | 0.904 | 37 | 0.001 | -0.999 | 0.998 | -0.997 |
| 2019 | 86 | 0.915 | 27 | 0.001 | -0.999 | 0.999 | -0.998 |
| 2014 | 87 | 0.926 | 25 | 0.001 | -0.999 | 0.999 | -0.998 |
| 2007 | 88 | 0.936 | 19 | 0.000 | -1.000 | 1.000 | -1.000 |
| 1956 | 89 | 0.947 | 14 | 0.000 | -1.000 | 1.000 | -1.000 |
| 2012 | 90 | 0.957 | 10 | 0.000 | -1.000 | 1.000 | -1.000 |
| 2013 | 91 | 0.968 | 7 | 0.000 | -1.000 | 1.000 | -1.000 |
| 2021 | 92 | 0.979 | 0 | 0.000 | -1.000 | 1.000 | -1.000 |
| 1945 | 93 | 0.989 | 0 | 0.000 | -1.000 | 1.000 | -1.000 |
| Tổng | 3,363,176 | 417.159 | -4505.599 |
Bước 1. Tính giá trị trung bình và độ lệch chuẩn.
$$\bar{X} = \frac{\sum_{i=1}^n X_i}{n} = \frac{3{,}363{,}176}{93} = 36{,}163 \, \text{ft}^3/\text{s}$$
$$S = \bar{X} \left[ \frac{ \sum_{i=1}^n \left( \frac{X_i}{\bar{X}} – 1 \right)^2 }{n – 1} \right]^{0.5} = 36{,}186 \left[ \frac{417.159}{93 – 1} \right]^{0.5} = 77{,}006 \, \text{ft}^3/\text{s}$$
Bước 2. Tính các phân vị điển hình để vẽ phân phối đã lắp.
Bảng 5.10 trình bày kết quả tính toán sử dụng phương trình 5.22 và các ước lượng cho các tham số phân phối của sông Nueces. Các vị trí theo xác suất (plotting positions) được xác định bằng công thức Weibull.
Bảng 5.10. Ước lượng phân vị theo phân phối normal đã lắp, Sông Nueces dưới Uvalde, Texas.
| Xác suất vượt | Chu kỳ lặp lại (năm) | z | \(X_{RI}\) (ft³/s) |
|---|---|---|---|
| 0.5 | 2 | 0.0000 | 36,163 |
| 0.2 | 5 | 0.8416 | 100,971 |
| 0.1 | 10 | 1.2816 | 134,854 |
| 0.04 | 25 | 1.7507 | 170,977 |
| 0.02 | 50 | 2.0538 | 194,318 |
| 0.01 | 100 | 2.3264 | 215,310 |
| 0.002 | 500 | 2.8782 | 257,801 |
Bước 3. Vẽ mẫu từ Bảng 5.9 và các phân vị từ Bảng 5.10 trên cùng một biểu đồ xác suất logarit.
Hình 5.14 là kết quả, sử dụng phần mềm HEC-SSP.
Bước 4. Tính hệ số biến thiên và hệ số lệch cho mẫu.
Dựa vào Hình 5.14, sự tương quan giữa đường phân phối normal và dữ liệu thực tế là kém. Do đó, các dữ liệu lưu lượng đỉnh hàng năm này không tuân theo phân phối normal.
Sử dụng phương trình 5.10 và 5.11 để ước lượng hệ số biến thiên và hệ số lệch, rõ ràng là dữ liệu có độ lệch lớn trong khi phân phối normal có hệ số lệch bằng 0. Điều này giải thích sự tương quan kém trong trường hợp này.
$$V = \frac{S}{\bar{X}} = \frac{77{,}006 \, \text{ft}^3/\text{s}}{36{,}163 \, \text{ft}^3/\text{s}} = 2.129$$
$$G = \frac{n \sum \left( \frac{X_i}{\bar{X}} – 1 \right)^3}{(n – 1)(n – 2)V^3} = \frac{93 (4505.6)}{(92)(91)(2.129)^3} = 5.18$$

Kết quả ví dụ 5.5:
Các ước lượng tham số của mẫu đã được trình bày ở trên. Bảng 5.10 trình bày các ước lượng phân vị điển hình. Hình 5.14 trình bày dữ liệu và sự phù hợp của phân phối. Dữ liệu không phù hợp với phân phối Normal.
5.2.2 Phân phối Log-Normal
Phân phối log-normal có các đặc điểm tương tự như phân phối normal, ngoại trừ biến phụ thuộc, X, được thay thế bằng logarith cơ số 10 của nó. Đặc điểm của phân phối log-normal là nó bị chặn bên trái bởi giá trị 0 và có độ lệch dương rõ rệt. Đây đều là những đặc điểm của nhiều phân phối tần suất thu được từ phân tích dữ liệu thủy văn.
Nếu kỹ sư thực hiện phép biến đổi logarith đối với hàm phân phối normal, phân phối logarith thu được sẽ có phân phối normal. Điều này cho phép kỹ sư sử dụng các giá trị z được lập bảng trong Bảng 5.7 và Bảng 5.8 cho phân phối normal chuẩn trong phân tích tần suất log-normal. Cũng như với phân phối normal, các thang tần suất log-normal đã được phát triển, trong đó đồ thị của hàm phân phối tích lũy (CDF) là một đường thẳng. Thang này sử dụng trục hoành biến đổi dựa trên hàm xác suất của phân bố normal và trục tung là thang logarith. Nếu logarith của các lưu lượng đỉnh có phân phối normal, dữ liệu sẽ tạo thành một đường thẳng theo phương trình:
$$Y = \log X = \overline{Y} + K S_y \tag{5.25}$$
trong đó:
\(\overline{Y} = \text{Giá trị trung bình của logarith của X} \\ S_y = \text{Độ lệch chuẩn của các logarith}\)
5.2.2.1 Lắp ráp phân phối
Quy trình để lắp phân phối log-normal tương tự như đối với phân phối normal, với điểm khác biệt là các lưu lượng đỉnh được biến đổi bằng cách lấy logarith:
- Biến đổi các giá trị của chuỗi lũ X bằng cách lấy logarith: Y = log₁₀X.
- Tính trung bình logarith (\(\overline{Y}\)) và độ lệch chuẩn logarith (\(S_y\)).
- Dùng \(\overline{Y}\) và \(S_y\), tính \(10^{\overline{Y} + S_y}\) và \(10^{\overline{Y} – S_y}\) cho các phân vị quan tâm. Vẽ các giá trị này trên hệ tọa độ xác suất-log (thường bằng phần mềm).
- Vì phân bố log-normal tạo thành đường thẳng trên hệ tọa độ xác suất-log, kết quả nên là một đường thẳng.
- Tính các vị trí theo xác suất của các quan trắc (các điểm dữ liệu trong mẫu).
- Vẽ các quan trắc (các điểm vị trí theo xác suất) trên cùng hệ tọa độ.
- Xem xét các quan trắc và phân phối để đánh giá độ phù hợp.
5.2.2.2 Ước lượng độ lớn lũ
Các ước lượng đồ thị của độ lớn hoặc xác suất lũ có thể được lấy trực tiếp từ đường biểu diễn phân phối log-normal giả định. Để tính xác suất cho logarith của một độ lớn cho trước (Y = log₁₀X), tính:
$$z = \frac{Y – \overline{Y}}{S_y} \tag{5.26}$$
Để tìm độ lớn ứng với một xác suất cho trước, tính:
$$Y = \overline{Y} + z S_y \tag{5.27}$$
Giá trị Y được biến đổi để ước lượng lưu lượng:
$$X = 10^Y \tag{5.28}$$
Ví dụ 5.6: Khớp một phân bố log-normal với chuỗi lưu lượng đỉnh hàng năm.
Mục tiêu: Ước lượng các tham số phân bố bằng cách sử dụng thống kê mẫu từ số liệu tại trạm đo.
Cho:
Sử dụng chuỗi lưu lượng đỉnh hàng năm từ sông Nueces bên dưới Uvalde, Texas, tại trạm đo. Mô tả trạm đo giống như trong ví dụ 5.5.
Bước 1. Sử dụng số liệu trạm đo trong Bảng 5.12 để tính logarith của chuỗi lưu lượng đỉnh hàng năm.
Lưu ý rằng trong ví dụ này, quan trắc nhỏ nhất của lưu lượng đỉnh là giá trị bằng 0. Logarith của số 0 là không xác định. Với ví dụ này, giá trị đó được loại bỏ khỏi tập số liệu. Do có số lượng quan trắc tương đối lớn trong mẫu, điều này không ảnh hưởng nghiêm trọng đến phân tích (và là đủ cho một ví dụ). Trong thực tế, các kỹ sư sử dụng công cụ tinh vi hơn (chẳng hạn như trong Bulletin 17C) để xử lý giá trị bằng 0.
Bước 2. Tính trung bình và độ lệch chuẩn của logarith lưu lượng đỉnh.
$$\overline{Y} = \frac{\sum_{i=1}^n Y_i}{n} = \frac{331.474}{92} = 3.603 \, \text{ft}^3/\text{s}$$
$$S_y = \overline{Y} \left[ \frac{\sum_{i=1}^{n} \left(\frac{Y_i}{\overline{Y}} – 1\right)^2}{n – 1} \right]^{0.5} = 3.603 \left( \frac{12.66}{91} \right)^{0.5} = 1.334 \, \text{ft}^3/\text{s}$$
Bước 3. Tính các phân vị quan tâm.
Bảng 5.11 thể hiện kết quả từ các phép tính này.
Bảng 5.11. Ước lượng phân vị cho một phân bố log-normal khớp, số liệu trạm đo trên sông Nueces bên dưới Uvalde, Texas.
| Xác suất vượt ngưỡng | Chu kỳ lặp (năm) | z | \(Y_{RI}\) (log-ft³/s) | \(X_{RI}\) (ft³/s) |
|---|---|---|---|---|
| 0.5 | 2 | 0.0000 | 3.603 | 4,008 |
| 0.2 | 5 | 0.8416 | 4.725 | 53,120 |
| 0.1 | 10 | 1.2816 | 5.312 | 205,120 |
| 0.04 | 25 | 1.7507 | 5.938 | 866,082 |
| 0.02 | 50 | 2.0538 | 6.342 | 2,196,581 |
| 0.01 | 100 | 2.3264 | 6.705 | 5,072,981 |
| 0.002 | 500 | 2.8782 | 7.441 | 27,611,921 |
Bước 4. Vẽ kết quả trên hệ tọa độ xác suất-log.
Hình 5.15 hiển thị kết quả của các phép tính.
Bảng 5.12. Các phép tính phân tích tần suất cho phân bố log-normal, sông Nueces bên dưới Uvalde, Texas.
| Năm | Hạng | Plotting Probability Vẽ theo xác suất | Lưu lượng cực đại hàng năm (x) (ft³/s) | Y = Log(x) | Y/Ȳ | [(Y/Ȳ) – 1] | [(Y/Ȳ) – 1]² | [(Y/Ȳ) – 1]³ |
|---|---|---|---|---|---|---|---|---|
| 1935 | 1 | 0.011 | 616000 | 5.7896 | 1.607 | 0.607 | 0.368 | 0.224 |
| 1932 | 2 | 0.022 | 207000 | 5.3160 | 1.475 | 0.475 | 0.226 | 0.107 |
| 1997 | 3 | 0.032 | 201000 | 5.3032 | 1.472 | 0.472 | 0.223 | 0.105 |
| 1955 | 4 | 0.043 | 189000 | 5.2756 | 1.464 | 0.464 | 0.215 | 0.100 |
| 1964 | 5 | 0.054 | 188000 | 5.2742 | 1.464 | 0.464 | 0.215 | 0.100 |
| 1938 | 6 | 0.066 | 146000 | 5.1644 | 1.432 | 0.432 | 0.186 | 0.080 |
| 1974 | 7 | 0.075 | 144000 | 5.1584 | 1.432 | 0.432 | 0.186 | 0.080 |
| 2019 | 8 | 0.086 | 120000 | 5.0792 | 1.410 | 0.410 | 0.168 | 0.069 |
| 1971 | 9 | 0.097 | 96000 | 4.9571 | 1.376 | 0.376 | 0.141 | 0.053 |
| 1939 | 10 | 0.108 | 91000 | 4.9594 | 1.371 | 0.371 | 0.138 | 0.052 |
| 1998 | 11 | 0.118 | 83200 | 4.9201 | 1.366 | 0.366 | 0.134 | 0.049 |
| 2007 | 12 | 0.129 | 80100 | 4.9036 | 1.361 | 0.361 | 0.130 | 0.047 |
| 1936 | 13 | 0.140 | 78000 | 4.8793 | 1.354 | 0.354 | 0.125 | 0.044 |
| 2016 | 14 | 0.151 | 70400 | 4.8476 | 1.345 | 0.345 | 0.119 | 0.041 |
| 1973 | 15 | 0.161 | 68200 | 4.8344 | 1.342 | 0.342 | 0.117 | 0.040 |
| 1987 | 16 | 0.172 | 67200 | 4.8274 | 1.340 | 0.340 | 0.115 | 0.039 |
| 2002 | 17 | 0.183 | 65300 | 4.8149 | 1.336 | 0.336 | 0.113 | 0.038 |
| 1984 | 18 | 0.194 | 63000 | 4.7993 | 1.332 | 0.332 | 0.110 | 0.037 |
| 1982 | 19 | 0.204 | 58500 | 4.7672 | 1.323 | 0.323 | 0.104 | 0.034 |
| 1985 | 20 | 0.215 | 44600 | 4.6493 | 1.289 | 0.289 | 0.084 | 0.024 |
| 1972 | 21 | 0.226 | 44100 | 4.6444 | 1.289 | 0.289 | 0.084 | 0.024 |
| 2005 | 22 | 0.237 | 42000 | 4.6232 | 1.283 | 0.283 | 0.080 | 0.023 |
| 1966 | 23 | 0.247 | 39900 | 4.6010 | 1.277 | 0.277 | 0.077 | 0.021 |
| 1960 | 24 | 0.258 | 37500 | 4.5740 | 1.270 | 0.270 | 0.073 | 0.020 |
| 1991 | 25 | 0.269 | 36600 | 4.5635 | 1.267 | 0.267 | 0.071 | 0.019 |
| 1961 | 26 | 0.279 | 28600 | 4.4564 | 1.237 | 0.237 | 0.056 | 0.013 |
| 1993 | 27 | 0.290 | 28000 | 4.4471 | 1.234 | 0.234 | 0.055 | 0.013 |
| 1981 | 28 | 0.301 | 27000 | 4.4314 | 1.229 | 0.229 | 0.052 | 0.012 |
| 1968 | 29 | 0.312 | 25900 | 4.4133 | 1.225 | 0.225 | 0.051 | 0.011 |
| 1965 | 30 | 0.323 | 25200 | 4.4041 | 1.222 | 0.222 | 0.049 | 0.011 |
| 1980 | 31 | 0.333 | 23700 | 4.3747 | 1.214 | 0.214 | 0.046 | 0.010 |
| 1948 | 32 | 0.344 | 23600 | 4.3729 | 1.214 | 0.214 | 0.046 | 0.010 |
| 1975 | 33 | 0.355 | 22300 | 4.3483 | 1.207 | 0.207 | 0.043 | 0.009 |
| 1990 | 34 | 0.366 | 22000 | 4.3424 | 1.205 | 0.205 | 0.042 | 0.009 |
| 1930 | 35 | 0.376 | 19500 | 4.2900 | 1.191 | 0.191 | 0.036 | 0.007 |
| 1954 | 36 | 0.387 | 18400 | 4.2648 | 1.184 | 0.184 | 0.034 | 0.006 |
| 1938 | 37 | 0.398 | 18200 | 4.2601 | 1.182 | 0.182 | 0.033 | 0.006 |
| 1959 | 38 | 0.409 | 17300 | 4.2380 | 1.176 | 0.176 | 0.031 | 0.006 |
| 1939 | 39 | 0.419 | 14900 | 4.1732 | 1.158 | 0.158 | 0.025 | 0.004 |
| 1929 | 40 | 0.430 | 14500 | 4.1614 | 1.155 | 0.155 | 0.024 | 0.004 |
| 1970 | 41 | 0.441 | 13700 | 4.1367 | 1.148 | 0.148 | 0.022 | 0.003 |
| 1968 | 42 | 0.452 | 12100 | 4.0828 | 1.133 | 0.133 | 0.018 | 0.002 |
| 1986 | 43 | 0.462 | 11600 | 4.0645 | 1.128 | 0.128 | 0.016 | 0.002 |
Bảng 5.12 (tiếp theo). Phân tích tần suất cho phân phối log-normal, sông Nueces phía dưới Uvalde, Texas
| Năm | Hạng | Plotting Probability Vẽ theo xác suất | Lưu lượng cực đại hàng năm (x) (ft³/s) | Y = Log(x) | Y/Ȳ | [(Y/Ȳ) – 1] | [(Y/Ȳ) – 1]² | [(Y/Ȳ) – 1]³ |
|---|---|---|---|---|---|---|---|---|
| 1942 | 44 | 0.473 | 11200 | 4.0492 | 1.124 | 0.124 | 0.015 | 0.002 |
| 2015 | 45 | 0.484 | 11200 | 4.0492 | 1.124 | -0.124 | 0.015 | -0.002 |
| 1999 | 46 | 0.494 | 10200 | 4.0086 | 1.113 | -0.113 | 0.013 | -0.001 |
| 1928 | 47 | 0.505 | 10000 | 4.0001 | 1.110 | -0.110 | 0.012 | -0.001 |
| 2018 | 48 | 0.516 | 9720 | 3.9877 | 1.107 | -0.107 | 0.011 | -0.001 |
| 1992 | 49 | 0.527 | 9040 | 3.9562 | 1.098 | -0.098 | 0.010 | -0.001 |
| 1978 | 50 | 0.537 | 8270 | 3.9175 | 1.087 | -0.087 | 0.008 | -0.001 |
| 1977 | 51 | 0.548 | 7450 | 3.8722 | 1.075 | -0.075 | 0.006 | 0.000 |
| 1953 | 52 | 0.559 | 6160 | 3.7896 | 1.052 | -0.052 | 0.003 | 0.000 |
| 1979 | 53 | 0.570 | 6040 | 3.7810 | 1.049 | -0.049 | 0.002 | 0.000 |
| 1996 | 54 | 0.581 | 5200 | 3.7162 | 1.031 | -0.031 | 0.001 | 0.000 |
| 1994 | 55 | 0.591 | 5000 | 3.7604 | 1.044 | -0.044 | 0.002 | 0.000 |
| 1952 | 56 | 0.602 | 5020 | 3.7007 | 1.027 | -0.027 | 0.001 | 0.000 |
| 1935 | 57 | 0.613 | 4990 | 3.6981 | 1.026 | -0.026 | 0.001 | 0.000 |
| 1947 | 58 | 0.624 | 4490 | 3.6522 | 1.014 | -0.014 | 0.000 | 0.000 |
| 1980 | 59 | 0.634 | 3370 | 3.5266 | 0.978 | -0.022 | 0.000 | 0.000 |
| 1957 | 60 | 0.645 | 3090 | 3.4900 | 0.969 | -0.031 | 0.001 | 0.000 |
| 1963 | 61 | 0.656 | 2960 | 3.4718 | 0.964 | -0.036 | 0.001 | 0.000 |
| 1983 | 62 | 0.667 | 2390 | 3.3784 | 0.938 | -0.062 | 0.004 | 0.000 |
| 1984 | 63 | 0.677 | 2380 | 3.3763 | 0.937 | -0.063 | 0.004 | 0.000 |
| 1961 | 64 | 0.688 | 1960 | 3.2923 | 0.914 | -0.086 | 0.007 | -0.001 |
| 1965 | 65 | 0.699 | 1790 | 3.2529 | 0.903 | -0.097 | 0.009 | -0.001 |
| 2017 | 66 | 0.710 | 1440 | 3.1584 | 0.877 | -0.123 | 0.015 | -0.002 |
| 1962 | 67 | 0.720 | 728 | 2.8621 | 0.794 | -0.206 | 0.042 | -0.009 |
| 2003 | 68 | 0.731 | 626 | 2.7966 | 0.776 | -0.224 | 0.050 | -0.011 |
| 1950 | 69 | 0.742 | 384 | 2.5843 | 0.717 | -0.283 | 0.080 | -0.023 |
| 1937 | 70 | 0.752 | 330 | 2.5185 | 0.699 | -0.301 | 0.091 | -0.027 |
| 1933 | 71 | 0.763 | 246 | 2.3909 | 0.664 | -0.336 | 0.113 | -0.038 |
| 1980 | 72 | 0.774 | 212 | 2.3263 | 0.646 | -0.354 | 0.126 | -0.045 |
| 1954 | 73 | 0.785 | 189 | 2.2765 | 0.632 | -0.368 | 0.136 | -0.050 |
| 1958 | 74 | 0.796 | 153 | 2.1847 | 0.607 | -0.393 | 0.155 | -0.061 |
| 1993 | 75 | 0.806 | 125 | 2.0969 | 0.582 | -0.418 | 0.175 | -0.073 |
| 2006 | 76 | 0.817 | 83 | 1.9191 | 0.533 | -0.467 | 0.218 | -0.102 |
| 2006 | 77 | 0.828 | 74 | 1.8692 | 0.519 | -0.481 | 0.232 | -0.111 |
| 2020 | 78 | 0.839 | 70 | 1.8451 | 0.512 | -0.488 | 0.238 | -0.116 |
| 2012 | 79 | 0.849 | 63.2 | 1.8007 | 0.500 | -0.500 | 0.250 | -0.125 |
| 2000 | 80 | 0.860 | 60 | 1.7782 | 0.494 | -0.506 | 0.256 | -0.130 |
| 2008 | 81 | 0.871 | 56 | 1.7482 | 0.485 | -0.515 | 0.265 | -0.136 |
| 1989 | 82 | 0.882 | 55 | 1.7404 | 0.483 | -0.517 | 0.267 | -0.138 |
| 2002 | 83 | 0.892 | 51 | 1.7076 | 0.474 | -0.526 | 0.277 | -0.146 |
| 1951 | 84 | 0.903 | 46 | 1.6628 | 0.461 | -0.539 | 0.290 | -0.156 |
| 2004 | 85 | 0.914 | 45 | 1.6532 | 0.458 | -0.542 | 0.294 | -0.158 |
| 1984 | 86 | 0.925 | 37 | 1.5682 | 0.435 | -0.565 | 0.319 | -0.180 |
| 2010 | 87 | 0.935 | 25 | 1.3979 | 0.388 | -0.612 | 0.375 | -0.229 |
| 2009 | 88 | 0.946 | 19 | 1.2788 | 0.355 | -0.645 | 0.416 | -0.268 |
| 1956 | 89 | 0.957 | 14 | 1.1461 | 0.318 | -0.682 | 0.465 | -0.317 |
| 2011 | 90 | 0.968 | 8.3 | 0.9191 | 0.255 | -0.745 | 0.555 | -0.414 |
| 2012 | 91 | 0.978 | 6.2 | 0.7924 | 0.220 | -0.780 | 0.609 | -0.475 |
| 2013 | 92 | 0.989 | 0.07 | -1.1549 | -0.321 | -1.000 | 1.000 | -1.000 |
| Tổng | — | — | — | — | — | –0.321 | 12.466 | –4.229 |

Bước 5. Tính hệ số biến thiên và hệ số lệch (skew) cho mẫu.
Tính hệ số biến thiên và hệ số lệch:
$$V = \frac{S}{\overline{Y}} = \frac{1.334\ \log ft^3/s}{3.603\ \log ft^3/s} = 0.370 $$
$$G = \frac{n \sum \left( \frac{Y_i}{\overline{Y}} – 1 \right)^3}{(n-1)(n-2)V^3} = \frac{92(-4.229)}{(91)(90)(0.370)^3} = -0.937$$
Hệ số lệch không gần bằng 0. Điều này cũng được thể hiện rõ trên Hình 5.15 do độ cong trong dữ liệu quan trắc.
Kết quả ví dụ 5.6
Việc tính toán, bảng dữ liệu và đồ thị phân phối đã cho kết quả.
Phân phối log-normal không phù hợp tốt với dữ liệu.
5.2.3 Phân phối giá trị cực hạn Gumbel
Phân phối giá trị cực hạn Gumbel (Gumbel 1941), đôi khi còn được gọi là phân phối mũ kép của các giá trị cực trị, cũng có thể được sử dụng để mô tả phân phối của các biến thủy văn, đặc biệt là lưu lượng đỉnh. Nó dựa trên giả định rằng hàm phân phối tích lũy của các giá trị lớn nhất trong các mẫu được rút ra từ một tổng thể lớn có thể được mô tả bởi:
$$F(X) = e^{-e^{-\alpha (X – \beta)}} \tag{5.29}$$
Các tham số phân phối là:
$$\alpha = \frac{1.281}{S} \tag{5.30} $$
$$\beta = \overline{X} – 0.450 S \tag{5.31}$$
Các giá trị của hàm phân phối Gumbel được tính từ phương trình 5.29, tương tự như quy trình đã sử dụng cho các phân phối normal và log-normal. Bảng 5.13 liệt kê các giá trị hệ số tần suất K.
Đặc điểm của phân phối giá trị cực hạn Gumbel là lưu lượng trung bình, \(\overline{X}\), xảy ra tại chu kỳ lặp lại T = 2.33 năm và nó có hệ số lệch dương (tức là, phân phối lệch về phía lưu lượng lớn hoặc các giá trị cực hạn).
Bảng 5.13. Hệ số tần suất (K) cho phân phối giá trị cực hạn Gumbel
| Cỡ mẫu n | Xác suất vượt | Xác suất vượt | Xác suất vượt | Xác suất vượt | Xác suất vượt | Xác suất vượt | Xác suất vượt |
|---|---|---|---|---|---|---|---|
| 0.5 | 0.2 | 0.1 | 0.04 | 0.02 | 0.01 | 0.002 | |
| 10 | -0.1355 | 1.0581 | 1.8483 | 2.8468 | 3.5876 | 4.3228 | 6.0219 |
| 15 | -0.1433 | 0.9672 | 1.7025 | 2.6315 | 3.3207 | 4.0048 | 5.5857 |
| 20 | -0.1478 | 0.9186 | 1.6247 | 2.5169 | 3.1787 | 3.8357 | 5.3538 |
| 25 | -0.1506 | 0.8879 | 1.5755 | 2.4442 | 3.0887 | 3.7285 | 5.2068 |
| 30 | -0.1525 | 0.8664 | 1.5410 | 2.3933 | 3.0257 | 3.6533 | 5.1038 |
| 35 | -0.1540 | 0.8504 | 1.5153 | 2.3555 | 2.9789 | 3.5976 | 5.0273 |
| 40 | -0.1552 | 0.8379 | 1.4955 | 2.3262 | 2.9426 | 3.5543 | 4.9680 |
| 45 | -0.1561 | 0.8280 | 1.4795 | 2.3027 | 2.9134 | 3.5196 | 4.9204 |
| 50 | -0.1568 | 0.8197 | 1.4662 | 2.2831 | 2.8892 | 3.4907 | 4.8808 |
| 55 | -0.1574 | 0.8128 | 1.4552 | 2.2668 | 2.8690 | 3.4667 | 4.8478 |
| 60 | -0.1580 | 0.8069 | 1.4457 | 2.2529 | 2.8517 | 3.4460 | 4.8195 |
| 65 | -0.1584 | 0.8019 | 1.4377 | 2.2401 | 2.8369 | 3.4285 | 4.7955 |
| 70 | -0.1588 | 0.7973 | 1.4304 | 2.2302 | 2.8236 | 3.4126 | 4.7738 |
| 75 | -0.1592 | 0.7934 | 1.4242 | 2.2211 | 2.8123 | 3.3991 | 4.7552 |
| 80 | -0.1595 | 0.7899 | 1.4186 | 2.2128 | 2.8020 | 3.3869 | 4.7384 |
| 85 | -0.1598 | 0.7868 | 1.4135 | 2.2054 | 2.7928 | 3.3759 | 4.7234 |
| 90 | -0.1600 | 0.7840 | 1.4090 | 2.1987 | 2.7845 | 3.3660 | 4.7098 |
| 95 | -0.1602 | 0.7815 | 1.4049 | 2.1926 | 2.7770 | 3.3570 | 4.6974 |
| 100 | -0.1604 | 0.7791 | 1.4011 | 2.1869 | 2.7699 | 3.3487 | 4.6860 |
Ví dụ 5.7: Khớp phân phối Gumbel với chuỗi lưu lượng đỉnh hàng năm.
Mục tiêu:
Sử dụng thông tin từ các ví dụ trước, khớp phân phối Gumbel với dữ liệu và kiểm tra độ phù hợp của phân phối với dữ liệu.
Cho:
Sử dụng dữ liệu cho sông Nueces phía dưới Uvalde, Texas, như trong các ví dụ trước.
Lưu lượng đỉnh trung bình hàng năm là 36,163 ft³/s và độ lệch chuẩn là 77,006 ft³/s.
Bước 1. Tính các thống kê của mẫu (giá trị trung bình và độ lệch chuẩn) của các lưu lượng đỉnh quan trắc hàng năm.
Việc này đã được thực hiện trong ví dụ trước đối với phân phối normal (ví dụ 5.5) và các thống kê của mẫu kết quả được xem là đã biết.
Bước 2. Sử dụng Bảng 5.13 để xác định hệ số tần suất Gumbel (K) cho các phân vị quan tâm.
Bảng 5.14 tổng hợp các ước lượng phân vị.
Bảng 5.14. Ước lượng phân vị cho phân phối Gumbel khớp, dữ liệu sông Nueces phía dưới Uvalde, Texas.
| Xác suất vượt (Exceedance Probability) | Chu kỳ lặp lại (năm) | K | \(X_{RI}\) (ft³/s) |
|---|---|---|---|
| 0.5 | 2 | -0.160 | 23,842 |
| 0.2 | 5 | 0.784 | 96,536 |
| 0.1 | 10 | 1.409 | 144,664 |
| 0.04 | 25 | 2.199 | 205,476 |
| 0.02 | 50 | 2.785 | 250,586 |
| 0.01 | 100 | 3.366 | 295.365 |
| 0.002 | 500 | 4.710 | 398,845 |
Bước 3. Vẽ phân phối Gumbel thu được và dữ liệu quan trắc trên hệ tọa độ xác suất-log.
Kết quả được vẽ trên Hình 5.16.
Kết quả ví dụ 5.7
Kết quả được trình bày trong các phép tính, bảng, và đồ thị phân phối.
Phân phối Gumbel không phù hợp tốt với dữ liệu.
Hệ số lệch (skew coefficient) của dữ liệu sông Nueces chưa biến đổi là dương (G = 5.18), cũng như hệ số lệch của phân phối Gumbel (G = 1.139). Độ lệch lớn hơn nhiều của dữ liệu làm cho phân phối Gumbel không phù hợp tốt với các dữ liệu này.
Một câu hỏi đặt ra là “vì sao?” lại như vậy; các phần tiếp theo sẽ trả lời câu hỏi này. Nội dung tiếp theo sẽ mô tả (và áp dụng) phân phối log-Pearson loại III, và sau đó áp dụng Bulletin 17C (EMA) cho cùng tập dữ liệu.

5.2.4 Phân phối log-Pearson loại III
Phân phối Pearson loại III được áp dụng cho logarit của chuỗi lưu lượng đỉnh hàng năm có ứng dụng rộng rãi trong phân tích thủy văn. Các kỹ sư thường gọi phân phối này là phân phối log-Pearson loại III (LP3). Đây là một phân phối gamma ba tham số với biến phụ thuộc (lưu lượng đỉnh hàng năm) được biến đổi bằng logarit. Nhờ có ba tham số, phân phối LP3 có thể phù hợp với nhiều loại dữ liệu khác nhau. Vì lý do này, các kỹ sư sử dụng nó rộng rãi trong phân tích lũ vì dữ liệu đo được tại các trạm quan trắc thường không phù hợp hoàn toàn với phân phối giả định. Tính linh hoạt này đã dẫn đến việc Ủy ban cố vấn liên ngành về dữ liệu nước khuyến nghị sử dụng nó như là phân phối tiêu chuẩn cho các nghiên cứu tần suất lũ của tất cả các cơ quan liên bang. Thomas (1985) cung cấp bối cảnh về việc các cơ quan liên bang chấp nhận sử dụng phân phối LP3 trong một loạt tài liệu bao gồm Bulletin 15 (Hội đồng Tài nguyên nước 1967) và Bulletin 17B. Lựa chọn này tiếp tục được duy trì thông qua việc tiếp tục sử dụng phân phối LP3 trong Bulletin 17C.
Phân phối log-Pearson loại III khác với hầu hết các phân phối đã thảo luận ở trên ở chỗ ba tham số (trung bình-mean, độ lệch chuẩn-standard deviation và hệ số lệch-skew coefficient) mô tả phân phối. Phân phối LP3, nhờ ba tham số này, phù hợp với nhiều bộ dữ liệu lưu lượng đỉnh. Bulletin 17C trình bày chi tiết việc sử dụng phân phối này trong xác định các phân phối tần suất lũ. Quy trình trong Bulletin 17C giả định rằng logarit của lưu lượng đỉnh hàng năm tuân theo phân phối Pearson loại III, thay vì giả định rằng dữ liệu chưa biến đổi tuân theo hàm phân phối log-Pearson loại III. Bảng 5.15 cung cấp bảng rút gọn của hàm phân phối log-Pearson loại III.
Bảng 5.15. Hệ số tần suất (K) cho phân phối log-Pearson loại III
| Prob Xác suất | Skew = -2.0 | -1.9 | -1.8 | -1.7 | -1.6 | -1.5 | -1.4 |
|---|---|---|---|---|---|---|---|
| 0.9999 | -8.21034 | -7.98888 | -7.76632 | -7.54272 | -7.31818 | -7.09277 | -6.86661 |
| 0.9995 | -6.60090 | -6.44251 | -6.28285 | -6.12196 | -5.95990 | -5.79673 | -5.63252 |
| 0.9990 | -5.90776 | -5.77549 | -5.64190 | -5.50701 | -5.37087 | -5.23353 | -5.09505 |
| 0.9980 | -5.21461 | -5.10768 | -4.99937 | -4.88971 | -4.77875 | -4.66651 | -4.55304 |
| 0.9950 | -4.29832 | -4.22336 | -4.14700 | -4.06926 | -3.99016 | -3.90973 | -3.82798 |
| 0.9900 | -3.60517 | -3.55295 | -3.49935 | -3.44438 | -3.38804 | -3.33035 | -3.27134 |
| 0.9800 | -2.91022 | -2.88091 | -2.84848 | -2.81472 | -2.77964 | -2.74325 | -2.70556 |
| 0.9750 | -2.68888 | -2.66413 | -2.63810 | -2.61076 | -2.58214 | -2.55222 | -2.52102 |
| 0.9600 | -2.21888 | -2.20670 | -2.19332 | -2.17873 | -2.16293 | -2.14591 | -2.12768 |
| 0.9500 | -1.99351 | -1.98906 | -1.98217 | -1.97271 | -1.96213 | -1.95083 | -1.93861 |
| 0.9000 | -1.30259 | -1.31054 | -1.31760 | -1.32376 | -1.32900 | -1.33330 | -1.33665 |
| 0.8000 | -0.60944 | -0.62662 | -0.64335 | -0.65959 | -0.67532 | -0.69050 | -0.70512 |
| 0.7000 | -0.20397 | -0.22250 | -0.24094 | -0.25925 | -0.27740 | -0.29553 | -0.31307 |
| 0.6000 | 0.08371 | 0.06718 | 0.05040 | 0.03344 | 0.01631 | -0.00092 | -0.01824 |
| 0.5704 | 0.15516 | 0.13964 | 0.12381 | 0.10769 | 0.09132 | 0.07476 | 0.05803 |
| 0.5000 | 0.30685 | 0.29443 | 0.28150 | 0.26808 | 0.25422 | 0.23996 | 0.22553 |
| 0.4296 | 0.43854 | 0.43008 | 0.42095 | 0.41116 | 0.40075 | 0.38977 | 0.37824 |
| 0.4000 | 0.48917 | 0.48265 | 0.47538 | 0.46739 | 0.45873 | 0.44942 | 0.43949 |
| 0.3000 | 0.64333 | 0.64453 | 0.64488 | 0.64436 | 0.64300 | 0.64080 | 0.63779 |
| 0.2000 | 0.76866 | 0.78316 | 0.79886 | 0.80837 | 0.81720 | 0.82516 | 0.83223 |
| 0.1000 | 0.89464 | 0.91988 | 0.94496 | 0.96977 | 0.99418 | 1.01810 | 1.04144 |
| 0.0500 | 0.94871 | 0.98381 | 1.01973 | 1.05631 | 1.09338 | 1.13075 | 1.16827 |
| 0.0400 | 0.96399 | 1.00594 | 1.05345 | 1.10173 | 1.15062 | 1.19842 | 1.24612 |
| 0.0250 | 0.97468 | 1.01640 | 1.06001 | 1.10537 | 1.15229 | 1.20009 | 1.25004 |
| 0.0200 | 0.97980 | 1.02311 | 1.06864 | 1.11628 | 1.16584 | 1.21716 | 1.26999 |
| 0.0100 | 0.98995 | 1.03695 | 1.08711 | 1.14042 | 1.19680 | 1.25611 | 1.31815 |
| 0.0050 | 0.99319 | 1.04427 | 1.09749 | 1.15477 | 1.21618 | 1.28167 | 1.35114 |
| 0.0020 | 0.99800 | 1.04898 | 1.10465 | 1.16534 | 1.23132 | 1.30297 | 1.37981 |
| 0.0010 | 0.99900 | 1.05068 | 1.10743 | 1.16974 | 1.23805 | 1.31275 | 1.39408 |
| 0.0005 | 0.99950 | 1.05159 | 1.10901 | 1.17240 | 1.24235 | 1.31944 | 1.40413 |
| 0.0001 | 0.99990 | 1.05239 | 1.11054 | 1.17520 | 1.24728 | 1.32774 | 1.41753 |
Bảng 5.15 (tiếp theo). Hệ số tần suất (K) cho phân phối log-Pearson loại III
| Prob Xác suất | Skew = -1.3 | -1.2 | -1.1 | -1.0 | -0.9 | -0.8 | -0.7 |
|---|---|---|---|---|---|---|---|
| 0.9999 | -6.63980 | -6.41249 | -6.18480 | -5.95691 | -5.72899 | -5.50124 | -5.27389 |
| 0.9995 | -5.46735 | -5.30130 | -5.13449 | -4.96701 | -4.79899 | -4.63057 | -4.46189 |
| 0.9990 | -4.95549 | -4.81492 | -4.67344 | -4.53112 | -4.38807 | -4.24439 | -4.10022 |
| 0.9980 | -4.43839 | -4.32263 | -4.20582 | -4.08802 | -3.96932 | -3.84981 | -3.72957 |
| 0.9950 | -3.74497 | -3.66073 | -3.57530 | -3.48874 | -3.40109 | -3.31243 | -3.22281 |
| 0.9900 | -3.21103 | -3.14944 | -3.08660 | -3.02256 | -2.95735 | -2.89101 | -2.82359 |
| 0.9800 | -2.66657 | -2.62631 | -2.58480 | -2.54206 | -2.49811 | -2.45298 | -2.40670 |
| 0.9750 | -2.48855 | -2.45482 | -2.41984 | -2.38364 | -2.34623 | -2.30764 | -2.26790 |
| 0.9600 | -2.10823 | -2.08758 | -2.06573 | -2.04269 | -2.01848 | -1.99311 | -1.96660 |
| 0.9500 | -1.92472 | -1.90992 | -1.89395 | -1.87683 | -1.85856 | -1.83916 | -1.81864 |
| 0.9000 | -1.33904 | -1.34047 | -1.34092 | -1.34039 | -1.33889 | -1.33640 | -1.33294 |
| 0.8000 | -0.71915 | -0.73257 | -0.74537 | -0.75752 | -0.76902 | -0.77986 | -0.79002 |
| 0.7000 | -0.33054 | -0.34772 | -0.36458 | -0.38111 | -0.39729 | -0.41309 | -0.42851 |
| 0.6000 | -0.03560 | -0.05297 | -0.07032 | -0.08763 | -0.10486 | -0.12199 | -0.13901 |
| 0.5704 | 0.04116 | 0.02421 | 0.00719 | -0.00987 | -0.02693 | -0.04397 | -0.06097 |
| 0.5000 | 0.21040 | 0.19517 | 0.17968 | 0.16397 | 0.14807 | 0.13199 | 0.11578 |
| 0.4296 | 0.36620 | 0.35370 | 0.34075 | 0.32740 | 0.31368 | 0.29961 | 0.28516 |
| 0.4000 | 0.42899 | 0.41794 | 0.40638 | 0.39344 | 0.38186 | 0.36889 | 0.35565 |
| 0.3000 | 0.63400 | 0.62944 | 0.62415 | 0.61815 | 0.61146 | 0.60412 | 0.59615 |
| 0.2000 | 0.88849 | 0.88409 | 0.84809 | 0.85161 | 0.85426 | 0.85607 | 0.85703 |
| 0.1000 | 1.06413 | 1.08680 | 1.10726 | 1.12762 | 1.14712 | 1.16574 | 1.18347 |
| 0.0500 | 1.20578 | 1.24313 | 1.28019 | 1.31684 | 1.35299 | 1.38855 | 1.42345 |
| 0.0400 | 1.24208 | 1.28225 | 1.32414 | 1.36584 | 1.40720 | 1.44813 | 1.48852 |
| 0.0250 | 1.30042 | 1.35153 | 1.40314 | 1.45507 | 1.50712 | 1.55914 | 1.61099 |
| 0.0200 | 1.32412 | 1.37929 | 1.43529 | 1.49188 | 1.54886 | 1.60604 | 1.66325 |
| 0.0100 | 1.38267 | 1.44942 | 1.51808 | 1.58838 | 1.66001 | 1.73271 | 1.80621 |
| 0.0050 | 1.42439 | 1.51481 | 1.60734 | 1.70215 | 1.79904 | 1.89680 | 1.99527 |
| 0.0020 | 1.46322 | 1.55016 | 1.64305 | 1.74062 | 1.84244 | 1.94608 | 2.05071 |
| 0.0010 | 1.48216 | 1.57695 | 1.67825 | 1.78572 | 1.89894 | 2.01739 | 2.14053 |
| 0.0005 | 1.49673 | 1.59738 | 1.70603 | 1.82241 | 1.94611 | 2.07661 | 2.21328 |
| 0.0001 | 1.51752 | 1.62838 | 1.75053 | 1.88410 | 2.02891 | 2.18448 | 2.35015 |
Bảng 5.15 (tiếp theo). Hệ số tần suất (K) cho phân phối log-Pearson loại III
| Xác suất (Prob.) | Skew = -0.6 | -0.5 | -0.4 | -0.3 | -0.2 | -0.1 | 0.0 |
|---|---|---|---|---|---|---|---|
| 0.9999 | -5.04718 | -4.82141 | -4.59687 | -4.37394 | -4.15301 | -3.93453 | -3.71902 |
| 0.9995 | -4.29311 | -4.12443 | -3.95605 | -3.78820 | -3.62113 | -3.45513 | -3.29053 |
| 0.9990 | -3.95567 | -3.81090 | -3.66608 | -3.52139 | -3.37703 | -3.23322 | -3.09023 |
| 0.9980 | -3.60872 | -3.48737 | -3.36656 | -3.24371 | -3.12169 | -2.99978 | -2.87816 |
| 0.9950 | -3.13232 | -3.04102 | -2.94900 | -2.85636 | -2.76321 | -2.66965 | -2.57583 |
| 0.9900 | -2.75514 | -2.68572 | -2.61539 | -2.54421 | -2.47226 | -2.39961 | -2.32635 |
| 0.9800 | -2.35931 | -2.31084 | -2.26133 | -2.21081 | -2.15935 | -2.10697 | -2.05375 |
| 0.9750 | -2.22702 | -2.18505 | -2.14202 | -2.09795 | -2.05290 | -2.00688 | -1.95996 |
| 0.9600 | -1.93896 | -1.91022 | -1.88039 | -1.84949 | -1.81756 | -1.78462 | -1.75069 |
| 0.9500 | -1.79701 | -1.77428 | -1.75048 | -1.72562 | -1.69971 | -1.67279 | -1.64485 |
| 0.9000 | -1.32850 | -1.32309 | -1.31671 | -1.30936 | -1.30105 | -1.29178 | -1.28155 |
| 0.8000 | -0.79950 | -0.80829 | -0.81638 | -0.82377 | -0.83044 | -0.83639 | -0.84162 |
| 0.7000 | -0.44352 | -0.45812 | -0.47228 | -0.48600 | -0.49927 | -0.51207 | -0.52440 |
| 0.6000 | -0.15589 | -0.17261 | -0.18916 | -0.20552 | -0.22168 | -0.23763 | -0.25335 |
| 0.5704 | -0.07791 | -0.09178 | -0.11154 | -0.12820 | -0.14472 | -0.16111 | -0.17733 |
| 0.5000 | 0.09945 | 0.08302 | 0.06651 | 0.04993 | 0.03325 | 0.01662 | 0.00000 |
| 0.4296 | 0.27047 | 0.25558 | 0.24037 | 0.22492 | 0.20925 | 0.19339 | 0.17733 |
| 0.4000 | 0.34198 | 0.32796 | 0.31362 | 0.29897 | 0.28403 | 0.26882 | 0.25335 |
| 0.3000 | 0.58757 | 0.57840 | 0.56687 | 0.55389 | 0.54757 | 0.53624 | 0.52440 |
| 0.2000 | 0.85718 | 0.85653 | 0.85508 | 0.85285 | 0.84986 | 0.84611 | 0.84162 |
| 0.1000 | 1.20028 | 1.21618 | 1.23114 | 1.24516 | 1.25824 | 1.27037 | 1.28155 |
| 0.0500 | 1.45762 | 1.49101 | 1.52357 | 1.55527 | 1.58607 | 1.61594 | 1.64485 |
| 0.0400 | 1.52830 | 1.56740 | 1.60574 | 1.64329 | 1.67999 | 1.71580 | 1.75069 |
| 0.0250 | 1.66253 | 1.71366 | 1.76427 | 1.81427 | 1.86360 | 1.91219 | 1.95996 |
| 0.0200 | 1.72033 | 1.77716 | 1.83361 | 1.88859 | 1.94449 | 1.99973 | 2.05375 |
| 0.0100 | 1.88029 | 1.95472 | 2.02933 | 2.10394 | 2.17840 | 2.25258 | 2.32635 |
| 0.0050 | 2.01644 | 2.10825 | 2.20022 | 2.29423 | 2.38795 | 2.48187 | 2.57583 |
| 0.0020 | 2.16884 | 2.28311 | 2.39942 | 2.51741 | 2.63672 | 2.75706 | 2.87816 |
| 0.0010 | 2.26780 | 2.39867 | 2.53261 | 2.66918 | 2.80786 | 2.94834 | 3.09023 |
| 0.0005 | 2.35549 | 2.50257 | 2.65390 | 2.80889 | 2.96698 | 3.12767 | 3.29053 |
| 0.0001 | 2.52507 | 2.70836 | 2.89907 | 3.09631 | 3.29921 | 3.50703 | 3.71902 |
Bảng 5.15 (tiếp theo). Hệ số tần suất (K) cho phân phối log-Pearson loại III
| Xác suất (Prob.) | Skew = 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 |
|---|---|---|---|---|---|---|---|
| 0.9999 | -3.50703 | -3.29921 | -3.09631 | -2.89907 | -2.70836 | -2.52507 | -2.35015 |
| 0.9995 | -3.12767 | -2.96698 | -2.80889 | -2.65390 | -2.50257 | -2.35549 | -2.21328 |
| 0.9990 | -2.94834 | -2.80786 | -2.66918 | -2.53261 | -2.39867 | -2.26780 | -2.14053 |
| 0.9980 | -2.75706 | -2.63672 | -2.51741 | -2.39942 | -2.28311 | -2.16884 | -2.05701 |
| 0.9950 | -2.48187 | -2.38795 | -2.29423 | -2.20092 | -2.10825 | -2.01644 | -1.92580 |
| 0.9900 | -2.25258 | -2.17840 | -2.10394 | -2.02933 | -1.95472 | -1.88029 | -1.80621 |
| 0.9800 | -1.99973 | -1.94449 | -1.88859 | -1.83361 | -1.77716 | -1.72033 | -1.66251 |
| 0.9750 | -1.91219 | -1.86360 | -1.81427 | -1.76427 | -1.71366 | -1.66253 | -1.61099 |
| 0.9600 | -1.71580 | -1.67999 | -1.64329 | -1.60574 | -1.56740 | -1.52830 | -1.48852 |
| 0.9500 | -1.61594 | -1.58607 | -1.55527 | -1.52357 | -1.49101 | -1.45762 | -1.42345 |
| 0.9000 | -1.27037 | -1.25824 | -1.24516 | -1.23114 | -1.21618 | -1.20028 | -1.18347 |
| 0.8000 | -0.84611 | -0.84986 | -0.85285 | -0.85508 | -0.85653 | -0.85718 | -0.85703 |
| 0.7000 | -0.53624 | -0.54757 | -0.55839 | -0.56867 | -0.57840 | -0.58757 | -0.59615 |
| 0.6000 | -0.26882 | -0.28403 | -0.29897 | -0.31362 | -0.32796 | -0.34198 | -0.35565 |
| 0.5704 | -0.19339 | -0.20925 | -0.22492 | -0.24037 | -0.25558 | -0.27047 | -0.28516 |
| 0.5000 | -0.01662 | -0.03325 | -0.04993 | -0.06651 | -0.08302 | -0.09945 | -0.11578 |
| 0.4296 | 0.16111 | 0.14472 | 0.12820 | 0.11154 | 0.09478 | 0.07791 | 0.06097 |
| 0.4000 | 0.23763 | 0.22168 | 0.20552 | 0.18916 | 0.17261 | 0.15589 | 0.13901 |
| 0.3000 | 0.51207 | 0.49927 | 0.48600 | 0.47228 | 0.45812 | 0.44352 | 0.42851 |
| 0.2000 | 0.83639 | 0.83044 | 0.82377 | 0.81638 | 0.80829 | 0.79950 | 0.79002 |
| 0.1000 | 1.29178 | 1.30105 | 1.30936 | 1.31671 | 1.32309 | 1.32850 | 1.33294 |
| 0.0500 | 1.67279 | 1.69971 | 1.72562 | 1.75048 | 1.77428 | 1.79701 | 1.81864 |
| 0.0400 | 1.78462 | 1.81756 | 1.84949 | 1.88039 | 1.91022 | 1.93896 | 1.96660 |
| 0.0250 | 2.00688 | 2.05290 | 2.09795 | 2.14202 | 2.18505 | 2.22702 | 2.26790 |
| 0.0200 | 2.10697 | 2.15935 | 2.21081 | 2.26133 | 2.31084 | 2.35931 | 2.40670 |
| 0.0100 | 2.39961 | 2.47226 | 2.54421 | 2.61539 | 2.68572 | 2.75514 | 2.82359 |
| 0.0050 | 2.66965 | 2.76321 | 2.85636 | 2.94900 | 3.04102 | 3.13232 | 3.22281 |
| 0.0020 | 2.99978 | 3.12169 | 3.24371 | 3.36566 | 3.48737 | 3.60872 | 3.72957 |
| 0.0010 | 3.23322 | 3.37703 | 3.52139 | 3.66608 | 3.81090 | 3.95567 | 4.10022 |
| 0.0005 | 3.45513 | 3.62113 | 3.78820 | 3.95605 | 4.12443 | 4.29311 | 4.46189 |
| 0.0001 | 3.93453 | 4.15301 | 4.37394 | 4.59687 | 4.82141 | 5.04718 | 5.27389 |
Bảng 5.15 (tiếp theo). Hệ số tần suất (K) cho phân phối log-Pearson loại III
| Xác suất (Prob.) | Skew = 0.8 | 0.9 | 1.0 | 1.1 | 1.2 | 1.3 | 1.4 |
|---|---|---|---|---|---|---|---|
| 0.9999 | 2.18448 | -2.02891 | -1.88410 | -1.75053 | -1.62838 | -1.51752 | -1.41753 |
| 0.9995 | -2.07661 | -1.94611 | -1.82241 | -1.70603 | -1.59738 | -1.49673 | -1.40413 |
| 0.9990 | -2.01973 | -1.89894 | -1.78572 | -1.67825 | -1.57695 | -1.48216 | -1.39408 |
| 0.9980 | -1.94806 | -1.84244 | -1.74062 | -1.64305 | -1.55016 | -1.46232 | -1.37981 |
| 0.9950 | -1.83660 | -1.74919 | -1.66390 | -1.58110 | -1.50114 | -1.42439 | -1.35114 |
| 0.9900 | -1.73271 | -1.66001 | -1.58838 | -1.51808 | -1.44942 | -1.38267 | -1.31815 |
| 0.9800 | -1.60604 | -1.54886 | -1.49188 | -1.43529 | -1.37912 | -1.32412 | -1.26998 |
| 0.9750 | -1.55914 | -1.50712 | -1.45507 | -1.40314 | -1.35153 | -1.30042 | -1.25004 |
| 0.9600 | -1.44813 | -1.40720 | -1.36584 | -1.32414 | -1.28225 | -1.24028 | -1.19842 |
| 0.9500 | -1.38855 | -1.35299 | -1.31684 | -1.28019 | -1.24313 | -1.20578 | -1.16827 |
| 0.9000 | -1.16574 | -1.14712 | -1.12761 | -1.10726 | -1.08606 | -1.06414 | -1.04144 |
| 0.8000 | -0.85607 | -0.85426 | -0.85161 | -0.84809 | -0.84369 | -0.83841 | -0.83223 |
| 0.7000 | -0.60412 | -0.61146 | -0.61815 | -0.62415 | -0.62944 | -0.63400 | -0.63779 |
| 0.6000 | -0.36889 | -0.38186 | -0.39434 | -0.40638 | -0.41794 | -0.42899 | -0.43949 |
| 0.5704 | -0.29961 | -0.31366 | -0.32740 | -0.34076 | -0.35370 | -0.36620 | -0.37824 |
| 0.5000 | -0.13199 | -0.14807 | -0.16397 | -0.17968 | -0.19517 | -0.21040 | -0.22535 |
| 0.4296 | 0.04397 | 0.02693 | 0.00987 | -0.00719 | -0.02241 | -0.04116 | -0.05803 |
| 0.4000 | 0.12199 | 0.10486 | 0.08763 | 0.07032 | 0.05297 | 0.03560 | 0.01824 |
| 0.3000 | 0.41309 | 0.39729 | 0.38111 | 0.36458 | 0.34772 | 0.33054 | 0.31307 |
| 0.2000 | 0.77986 | 0.76902 | 0.75752 | 0.74537 | 0.73257 | 0.71915 | 0.70512 |
| 0.1000 | 1.33640 | 1.33889 | 1.34039 | 1.34092 | 1.34047 | 1.33904 | 1.33665 |
| 0.0500 | 1.83916 | 1.85856 | 1.87683 | 1.89395 | 1.90992 | 1.92472 | 1.93836 |
| 0.0400 | 1.99311 | 2.01848 | 2.04269 | 2.06573 | 2.08758 | 2.10823 | 2.12768 |
| 0.0250 | 2.30764 | 2.34623 | 2.38364 | 2.41984 | 2.45482 | 2.48855 | 2.52102 |
| 0.0200 | 2.45298 | 2.49811 | 2.54200 | 2.58480 | 2.62631 | 2.66657 | 2.70556 |
| 0.0100 | 2.89101 | 2.95735 | 3.02256 | 3.08660 | 3.14944 | 3.21103 | 3.27134 |
| 0.0050 | 3.31243 | 3.40109 | 3.48874 | 3.57530 | 3.66073 | 3.74497 | 3.82798 |
| 0.0020 | 3.84981 | 3.96932 | 4.08802 | 4.20582 | 4.32263 | 4.43839 | 4.55304 |
| 0.0010 | 4.24439 | 4.38807 | 4.53112 | 4.67344 | 4.81492 | 4.95549 | 5.09505 |
| 0.0005 | 4.63057 | 4.79899 | 4.96701 | 5.13449 | 5.30130 | 5.46735 | 5.63252 |
| 0.0001 | 5.50124 | 5.72899 | 5.95691 | 6.18480 | 6.41249 | 6.63980 | 6.86661 |
Bảng 5.15 (tiếp theo). Hệ số tần suất (K) cho phân phối log-Pearson loại III
| Xác suất (Prob.) | Skew = 1.5 | 1.6 | 1.7 | 1.8 | 1.9 | 2.0 |
|---|---|---|---|---|---|---|
| 0.9999 | -1.32774 | -1.24728 | -1.17520 | -1.11054 | -1.05239 | -0.99990 |
| 0.9995 | -1.31944 | -1.24235 | -1.17240 | -1.10901 | -1.05159 | -0.99950 |
| 0.9990 | -1.31275 | -1.23805 | -1.16974 | -1.10743 | -1.05068 | -0.99900 |
| 0.9980 | -1.30279 | -1.23132 | -1.16534 | -1.10465 | -1.04898 | -0.99800 |
| 0.9950 | -1.28167 | -1.21618 | -1.15477 | -1.09749 | -1.04427 | -0.99499 |
| 0.9900 | -1.25611 | -1.19680 | -1.14042 | -1.08711 | -1.03695 | -0.98995 |
| 0.9800 | -1.21716 | -1.16584 | -1.11628 | -1.06864 | -1.02311 | -0.97980 |
| 0.9750 | -1.20059 | -1.15229 | -1.10537 | -1.06001 | -1.01640 | -0.97468 |
| 0.9600 | -1.15682 | -1.11566 | -1.07513 | -1.03543 | -0.99672 | -0.95918 |
| 0.9500 | -1.13075 | -1.09338 | -1.05631 | -1.01973 | -0.98381 | -0.94871 |
| 0.9000 | -1.01810 | -0.99418 | -0.96977 | -0.94496 | -0.91988 | -0.89464 |
| 0.8000 | -0.82516 | -0.81720 | -0.80837 | -0.79868 | -0.78816 | -0.77686 |
| 0.7000 | -0.64080 | -0.64300 | -0.64436 | -0.64488 | -0.64453 | -0.64333 |
| 0.6000 | -0.44942 | -0.45873 | -0.46739 | -0.47538 | -0.48265 | -0.48917 |
| 0.5704 | -0.38977 | -0.40075 | -0.41116 | -0.42095 | -0.43008 | -0.43854 |
| 0.5000 | -0.23996 | -0.25422 | -0.26808 | -0.28150 | -0.29443 | -0.30685 |
| 0.4296 | -0.07476 | -0.09132 | -0.10769 | -0.12381 | -0.13964 | -0.15516 |
| 0.4000 | 0.00922 | -0.01631 | -0.03344 | -0.05040 | -0.06718 | -0.08371 |
| 0.3000 | 0.29535 | 0.27740 | 0.25925 | 0.24094 | 0.22250 | 0.20397 |
| 0.2000 | 0.69050 | 0.67532 | 0.65959 | 0.64335 | 0.62662 | 0.60944 |
| 0.1000 | 1.33300 | 1.32900 | 1.32376 | 1.31760 | 1.31054 | 1.30259 |
| 0.0500 | 1.95083 | 1.96213 | 1.97227 | 1.98124 | 1.98906 | 1.99573 |
| 0.0400 | 2.14591 | 2.16293 | 2.17873 | 2.19332 | 2.20670 | 2.21888 |
| 0.0250 | 2.55222 | 2.58214 | 2.61076 | 2.63810 | 2.66413 | 2.68888 |
| 0.0200 | 2.74325 | 2.77964 | 2.81472 | 2.84848 | 2.88091 | 2.91202 |
| 0.0100 | 3.33035 | 3.38804 | 3.44438 | 3.49935 | 3.55295 | 3.60517 |
| 0.0050 | 3.90973 | 3.99016 | 4.06926 | 4.14700 | 4.22336 | 4.29832 |
| 0.0020 | 4.66651 | 4.77875 | 4.88971 | 4.99937 | 5.10768 | 5.21461 |
| 0.0010 | 5.32353 | 5.37087 | 5.50701 | 5.64193 | 5.77547 | 5.90776 |
| 0.0005 | 5.79673 | 5.95990 | 6.12196 | 6.28285 | 6.44251 | 6.60090 |
| 0.0001 | 7.09277 | 7.31818 | 7.54272 | 7.76632 | 7.98888 | 8.21034 |
Sử dụng giá trị trung bình, độ lệch chuẩn và hệ số lệch cho bất kỳ tập dữ liệu lưu lượng đỉnh năm nào đã được biến đổi logarit, kết hợp với Bảng 5.15, lũ ứng với bất kỳ tần suất vượt nào có thể được tính bằng công thức:
$$\hat{Y} = \log X = \bar{Y} + K S_y \tag{5.32}$$
\(\hat{Y}\) là giá trị dự đoán của log X, \(\bar{Y}\) và \(S_y\) được định nghĩa như trước, và K là hàm của xác suất vượt và hệ số lệch. Lưu lượng tính toán được ước lượng bằng cách khử logarit từ giá trị trên:
$$\hat{X} = 10^{\hat{Y}} \tag{5.33}$$
Kết quả từ việc hiệu chỉnh phân bố LP3 thường được biểu diễn trên trục xác suất log-normal, mặc dù đường tần suất biểu diễn sẽ không phải là đường thẳng. Phân bố LP3 chỉ thể hiện dưới dạng đường thẳng khi hệ số lệch của các giá trị logarit bằng không.
5.2.4.1 Lắp ráp phân phối
Quy trình lắp phân phối log-Pearson loại III tương tự như đối với phân phối normal và log-normal. Bulletin 17C gọi phương pháp này là “Trường hợp đơn giản” (Simple Case), trong đó dữ liệu chỉ bao gồm chuỗi quan trắc hệ thống và không có giá trị PILFs. Các bước cụ thể để thực hiện cơ bản bao gồm:
- Tạo chuỗi logarit theo năm từ các quan trắc trong chuỗi lưu lượng đỉnh năm (\(Y_i = \log X_i\)).
- Tính các thống kê mẫu, gồm giá trị trung bình (\(\bar{Y}\)), độ lệch chuẩn (\(S_y\)) và hệ số lệch (G) của các giá trị logarit. Làm tròn giá trị lệch đến chữ số thập phân gần nhất (ví dụ: 0.32 làm tròn thành 0.3).
- Tính giá trị logarit \(\hat{Y}\) cho từng xác suất vượt ngưỡng cần thiết bằng công thức 5.32.
- Khử logarit các phân vị từ bước 3 để tính lưu lượng sử dụng công thức 5.33, trong đó \(\hat{X}\) là lưu lượng ước tính ứng với phân bố log-Pearson loại III giả định.
- Biểu diễn các phân vị từ phân phối đã lắp (bước 4) trên tọa độ xác suất logarit và nối các điểm bằng đường cong trơn.
- Tính vị trí theo xác suất (plotting position) của các quan trắc và vẽ chúng trên cùng hệ tọa độ với phân phối đã lắp. Việc này cho phép kiểm tra trực quan mức độ phù hợp của phân bố LP3 với dữ liệu thực tế.
Trong phương pháp của Bulletin 17C, các điều chỉnh tùy chọn được tích hợp trong cách tiếp cận EMA. Do đó, các điều chỉnh này không phù hợp để tính toán thủ công (hoặc bằng bảng tính) và không được trình bày trong phần này.
5.2.4.2 Ước tính lưu lượng lũ
Ngoài phương pháp ước tính bằng đồ thị, kỹ sư có thể thực hiện các phép ước tính bằng mô hình toán học từ công thức (5.33). Để tính lưu lượng ứng với một xác suất cho trước, quy trình được khuyến nghị là giống như các bước 3 và 4 đã trình bày ở trên. Để ước tính xác suất ứng với một giá trị lưu lượng X cho trước, giá trị này cần được biến đổi bằng logarit (Y = log X). Giải phương trình (5.32) để tìm K, sau đó tính giá trị K ứng với Y (logarit của X) đang quan tâm:
$$K = \frac{Y – \bar{Y}}{S_y} \tag{5.34}$$
Sử dụng Bảng 5.15 và giá trị K vừa tính được cho lưu lượng quan tâm, sử dụng hệ số lệch tương ứng với phân phối đã lắp để ước tính xác suất xảy ra của X. Việc nội suy tuyến tính trong Bảng 5.15 được chấp nhận.
Ví dụ 5.8:
Yêu cầu: Lắp phân phối log-Pearson loại III cho chuỗi lưu lượng đỉnh năm.
Mục tiêu:
Sử dụng dữ liệu từ các ví dụ trước, lắp phân phối log-Pearson loại III với tập dữ liệu và đánh giá mức độ phù hợp của phân bố so với dữ liệu thực tế.
Cho:
Sử dụng dữ liệu từ sông Nueces phía dưới Uvalde, Texas, và các ví dụ trước.
Giá trị trung bình của logarit lưu lượng đỉnh là 3.603 log ft³/s, độ lệch chuẩn của logarit là 1.334 log ft³/s, và hệ số lệch tại trạm là -0.937.
(Lưu ý: Giống như trong Ví dụ 5.7, loại bỏ đỉnh năm 2014 (bằng 0) vì logarit của 0 là không xác định.)
Yêu cầu:
Tìm các phân vị tần suất lũ ứng với AEP (xác suất vượt ngưỡng hàng năm) gồm các giá trị: 0.50, 0.20, 0.10, 0.04, 0.02, 0.01, và 0.005 sử dụng:
a) hệ số lệch tại trạm,
b) hệ số lệch vùng,
c) hệ số lệch kết hợp giữa trạm và vùng.
Bước 1.
Các thống kê mẫu đã được tính trong các ví dụ trước. Sử dụng hệ số lệch tại trạm để xác định giá trị K cho các phân vị mong muốn.
Sử dụng hệ số lệch tại trạm là -0.937, làm tròn thành -0.9. Sau đó sử dụng giá trị này và Bảng 5.15 để tra hệ số tần suất K ứng với các phân vị mong muốn (0.5, 0.2, 0.1, 0.04, 0.02, 0.01, 0.005).
Điền các giá trị này vào cột thứ hai của Bảng 5.16.
Bước 2.
Tính logarit của các phân vị mong muốn.
Sử dụng công thức (5.32) cùng các hệ số K từ bước 1 để tính giá trị Y (log X) tương ứng.
Điền kết quả vào cột thứ ba của Bảng 5.16.
Bước 3.
Tính giá trị phân vị thực (X).
Sử dụng công thức (5.33) với các giá trị Y từ bước 2 để tính các giá trị lưu lượng X.
Ghi kết quả vào cột thứ tư của Bảng 5.16.
Bước 4.
Lặp lại quy trình trên nhưng sử dụng hệ số lệch vùng thay cho hệ số lệch tại trạm.
Sử dụng hệ số lệch vùng là -0.4 và Bảng 5.15 để tra các hệ số K ứng với các phân vị yêu cầu (như ở bước 1).
Điền các giá trị này vào cột thứ năm của Bảng 5.16.
Bước 5.
Tính logarit của các phân vị mong muốn.
Sử dụng công thức (5.32) và các hệ số K từ bước 4 để tính giá trị Y.
Ghi kết quả vào cột thứ sáu của Bảng 5.16.
Bước 6.
Tính giá trị phân vị thực (X).
Sử dụng công thức (5.33) với các giá trị Y từ bước 5 để tính lưu lượng đỉnh tương ứng.
Ghi kết quả vào cột thứ bảy của Bảng 5.16.
Bước 7. Tính hệ số lệch có trọng số.
Giá trị MSEG cho hệ số lệch tại trạm được ước tính từ Bảng 5.6. Sử dụng hệ số lệch tại trạm là -0.9 và chuỗi số liệu dài 92 năm. MSEG của hệ số lệch tại trạm là 0.119. Hệ số lệch vùng là -0.4 và MSEG của nó là 0.216 (Asquith 2021). Với các giá trị này, tính hệ số lệch có trọng số theo công thức 5.12:
$$G_w = \frac{0.216 \cdot (-0.4) + 0.119 \cdot (-0.9)}{0.216 + 0.119} = -0.57$$
Kết quả được làm tròn thành -0.6.
Bước 8. Sử dụng kết quả từ bước 7 và hệ số lệch có trọng số để tra hệ số tần suất K trong Bảng 5.15 cho các phân vị mong muốn.
Sử dụng hệ số lệch có trọng số là -0.6 và Bảng 5.15, tra hệ số tần suất K cho các phân vị mong muốn (0.5, 0.2, 0.1, 0.04, 0.02, 0.01 và 0.005). Ghi các giá trị này vào cột thứ tám của Bảng 5.16.
Bước 9. Tính logarit của các phân vị mong muốn.
Tính các giá trị Y sử dụng công thức 5.32 và hệ số tần suất từ bước 8 để tính logarit của các phân vị mong muốn. Ghi các kết quả này vào cột thứ chín của Bảng 5.16.
Bảng 5.16. Tính toán lưu lượng log-Pearson loại III cho sông Nueces phía dưới Uvalde, Texas (08192000).
| Xác suất vượt ngưỡng | Station Skew (G = -0.9) | Station Skew (G = -0.9) | Station Skew (G = -0.9) | Regional Skew (G = -0.4) | Regional Skew (G = -0.4) | Regional Skew (G = -0.4) | Weighted Skew (G = -0.6) | Weighted Skew (G = -0.6) | Weighted Skew (G = -0.6) |
|---|---|---|---|---|---|---|---|---|---|
| K | Y | X (ft³/s) | K | Y | X (ft³/s) | K | Y | X (ft³/s) | |
| 0.50 | 0.148 | 3.800 | 6,316 | 0.067 | 3.692 | 4,917 | 0.099 | 3.736 | 5,440 |
| 0.20 | 0.854 | 4.742 | 55,226 | 0.855 | 4.743 | 55,365 | 0.857 | 4.746 | 55,723 |
| 0.10 | 1.147 | 5.133 | 135,855 | 1.231 | 5.245 | 175,678 | 1.200 | 5.204 | 159,796 |
| 0.04 | 1.407 | 5.479 | 301,645 | 1.764 | 5.956 | 902,931 | 1.528 | 5.641 | 437,507 |
| 0.02 | 1.549 | 5.668 | 466,018 | 1.834 | 6.048 | 1,117,173 | 1.720 | 5.897 | 788,969 |
| 0.01 | 1.660 | 5.817 | 655,575 | 2.029 | 6.309 | 2,037,587 | 1.880 | 6.110 | 1,289,345 |
| 0.002 | 1.842 | 6.060 | 1,147,877 | 2.399 | 6.803 | 6,347,994 | 2.169 | 6.495 | 3,127,193 |
Bước 10. Tính các phân vị mong muốn.
Tính bộ phân vị sử dụng các giá trị Y từ bước 8 và phương trình 5.33. Điền các giá trị này vào cột thứ mười (cuối cùng) của Bảng 5.16.
Bước 11. Vẽ các đường tần suất lũ thu được và dữ liệu trên tọa độ xác suất-log.
Kết quả từ các phép tính này là một tập hợp ba đường tần suất lũ. Hình 5.17 là một đồ thị của cả ba đường tần suất lũ và dữ liệu quan sát được. Đường liền là phân phối sử dụng hệ số lệch tại trạm. Đường gạch là phân bố sử dụng hệ số lệch vùng. Đường chấm là phân phối sử dụng hệ số lệch trọng số. Các vòng tròn rỗng là các điểm dữ liệu quan sát được. Lưu ý rằng phần đuôi bên trái của các phân phối đã lắp được mở rộng bằng các phép tính không có trong Bảng 5.16 để so sánh với các hình khác trong chương này.
Vẽ các đường cong trên cùng một đồ thị với các quan sát cho thấy rõ ảnh hưởng của các cách tính hệ số lệch khác nhau. Trong ví dụ này, kích thước mẫu khá lớn (gần 100 quan sát). Nói chung, kích thước mẫu lớn hơn dẫn đến ước lượng hệ số lệch tại trạm tốt hơn.
Tuy nhiên, việc so sánh các phân phối đã lắp với dữ liệu quan sát cho thấy vẫn còn sự sai lệch giữa chúng.

Kết quả ví dụ 5.8: Hình 5.17 và Bảng 5.16 trình bày kết quả từ ba cách ước lượng khác nhau của hệ số lệch.
Ví dụ 5.9: Lắp phân phối log-Pearson type III sử dụng Bulletin 17C.
Mục tiêu: Sử dụng dữ liệu từ ví dụ trước để lắp phân bố Log-Pearson loại III cho một tập dữ liệu bằng quy trình EMA trong Bulletin 17C.
Cho:
Bộ dữ liệu cho sông Nueces phía dưới Uvalde, Texas và HEC-SSP (phiên bản 2.2 hoặc mới hơn) từ USACE (Bartles và cộng sự, 2019).
Tìm:
Sử dụng quy trình Bulletin 17C EMA để lắp phân bố Log-Pearson loại III cho dữ liệu.
Bước 1. Khởi động HEC-SSP và tạo một dự án mới.
Sau khi mở HEC-SSP, chọn File | New Study để tạo một dự án mới. Tên dự án có thể đặt tùy ý.
Bước 2. Tạo tập dữ liệu mới bằng cổng tích hợp với dữ liệu USGS.
Chọn Data | New để mở hộp thoại nhập dữ liệu. Chọn một tên tập dữ liệu có ý nghĩa và ID ngắn. Thêm mô tả nếu muốn.
Bước 3. Tìm và nhập tập dữ liệu.
Đảm bảo “USGS Website” được chọn, “Annual Peak Data” là loại dữ liệu, và “Flow” được chọn trong hộp thoại nhập dữ liệu.
Sau đó chọn “Get USGS Station ID’s by State” và chọn tiểu bang trong danh sách (Texas).
Điều này sẽ điền vào bảng ở cuối hộp thoại nhập dữ liệu.
Chọn Station ID 08192000, sau đó chọn “Import to Study DSS File” gần giữa bên phải hộp thoại.
Hệ thống sẽ tải xuống và nhập dữ liệu nghiên cứu.
Bước 4. Tạo một phân tích Bulletin 17 mới và điền các trường.
Nhấp chuột phải vào “Bulletin 17 Analysis” và chọn “New.” Điều này sẽ mở trình chỉnh sửa Bulletin 17 và tab “General.”
Chọn “17C EMA,” “Use Station Skew,” “Multiple Grubbs-Beck,” và lưu ý rằng “Hirsch/Stedinger” là tùy chọn duy nhất để plotting position
vẽ biểu đồ.
Chọn tab “Options.” Ở bên phải là bảng “Output Frequency Ordinates.”
Trong ví dụ này, sự kiện 25 năm có ý nghĩa hơn sự kiện 20 năm, nên thay thế tần suất 5.0 phần trăm bằng 4.0 phần trăm.
Không có tùy chọn nào khác được chỉ định cho ví dụ này.
Bước 5. Tính toán lắp phân phối
Chọn nút “Compute” ở cuối hộp thoại Bulletin 17 Editor. Thao tác này sẽ thực hiện các phép tính.
Nếu không có lỗi, hãy mở phần hiển thị bằng cách chọn “Plot Curve” để tạo một đồ thị như Hình 5.18.
Chọn “View Report” ở cuối trình chỉnh sửa Bulletin 17 để xem chi tiết kết quả trong báo cáo.
Hình 5.18 minh họa ảnh hưởng của các giá trị ngoại lai thấp đến sự khớp phân bố.
Bảng 5.17. Kết quả từ phân tích EMA theo Bulletin 17C của chuỗi lưu lượng đỉnh năm trên sông Nueces phía dưới Uvalde, Texas (08192000).
| AEP | X (ft³/s) |
|---|---|
| 0.5 | 9,309 |
| 0.2 | 49,530 |
| 0.1 | 102,500 |
| 0.04 | 200,900 |
| 0.02 | 294,300 |
| 0.01 | 401,100 |
| 0.002 | 686,000 |

Lưu lượng đỉnh năm quan sát được và phân bố Log-Pearson loại III lắp cho mẫu này được vẽ dưới dạng lưu lượng đỉnh so với xác suất vượt ngưỡng. Các giá trị quan sát khớp rất tốt với các giá trị lý thuyết.
Kết quả ví dụ: Bảng 5.17 và Hình 5.18 trình bày kết quả từ Lắp phân phối theo Bulletin 17C cho dữ liệu sông Nueces.
5.2.5 Đánh giá các ước lượng tần suất lũ
Quá trình Lắp một phân phối cho một mẫu không phải là một quy trình cơ học. Để đảm bảo một đường cong tần suất hợp lý, điều quan trọng là phải xem xét kết quả so với dữ liệu thực tế. Ví dụ 5.5 đến Ví dụ 5.9 minh họa việc Lắp bốn phân phối khác nhau (normal, log-normal, Gumbel và log-Pearson loại III) cho dữ liệu lưu lượng đỉnh tại trạm đo sông Nueces. Đối với phân phối log-Pearson loại III, đã sử dụng bốn phương pháp tiếp cận khác nhau – ba phương pháp dựa trên Trường hợp Đơn giản (Simple Case, được nêu trong Bulletin 17C) và một phương pháp sử dụng EMA theo Bulletin 17C (sử dụng phần mềm HEC-SSP). Bảng 5.18 tóm tắt các phân vị 10 năm và 100 năm từ mỗi phương pháp.
Phân phối log-normal hai tham số là một trường hợp đặc biệt của phân phối log-Pearson loại III, cụ thể là khi hệ số lệch bằng không. Phân phối Normal và Gumbel giả định hệ số lệch cố định là 0 và 1.139, tương ứng, đối với dữ liệu chưa biến đổi. Do phân phối log-Pearson loại III sử dụng một tham số thứ ba nên nó thường cho kết quả khớp tốt hơn với dữ liệu so với các phân phối hai tham số.
Các ước lượng trong Bảng 5.18 cho thấy sự biến thiên đáng kể, đặc biệt là đối với trận lũ 100 năm, với các giá trị dao động từ 215,300 đến 2,038,000 ft³/s. Người thiết kế phải đối mặt với câu hỏi rõ ràng: phân phối nào là phù hợp với tập dữ liệu đã cho? Kỹ sư có thể có được cái nhìn sâu sắc về câu hỏi này bằng cách so sánh biểu đồ các quan sát được chồng lên phân phối tần suất đã lắp, sử dụng thang xác suất tiêu chuẩn. Dựa trên phân tích đồ thị sơ bộ này, cũng như phán đoán, một số phân phối tiêu chuẩn có thể bị loại bỏ trước khi bắt đầu phân tích tần suất.
Đôi khi, có thể có hơn một phân phối, hoặc trong trường hợp của log-Pearson loại III, hơn một tùy chọn hệ số lệch, có vẻ như phù hợp với dữ liệu một cách hợp lý. Khi điều này xảy ra, kỹ sư sử dụng một thước đo định lượng để xác định xem phân phối hoặc đường cong nào là tốt hơn. Các phần tiếp theo sẽ thảo luận hai kỹ thuật phổ biến: sai số chuẩn của ước lượng và giới hạn tin cậy.
Bảng 5.18. So sánh lưu lượng từ các phân phối với dữ liệu tại sông Nueces phía dưới Uvalde, Texas, trạm đo (08192000).
| Phân phối | Độ lệch | Lưu lượng ước tính (ft³/s) | Lưu lượng ước tính (ft³/s) |
|---|---|---|---|
| 0.1 AEP | 0.01 AEP | ||
| Bình thường (Normal) | Bằng 0 | 134,000 | 215,300 |
| Log-normal | Trường hợp đặc biệt của LP3 với G = 0 | 205,100 | 4,073,000 |
| Gumbel | Cố định tại 1.139 | 144,700 | 295,400 |
| Log-Pearson loại III | Độ lệch tại trạm (G = -0.9) | 135,900 | 1,365,000 |
| Log-Pearson loại III | Độ lệch vùng (Ḡ = -0.4) | 135,700 | 2,038,000 |
| Log-Pearson loại III | Độ lệch trung bình có trọng số (Gₚ = -0.6) | 159,800 | 1,289,000 |
| Log-Pearson loại III (Bulletin 17C) | Độ lệch tại trạm (G = -0.9) | 102,500 | 401,100 |
5.2.5.1 Sai số chuẩn của ước lượng (Standard Error of Estimate)
Sai số chuẩn của ước lượng hay sai số căn trung bình bình phương cung cấp một thước đo độ tin cậy thống kê. Beard (1962) đưa ra công thức sai số chuẩn của ước lượng đối với mean-trung bình (STM), standard deviation-độ lệch chuẩn (STS), và coefficient of skew-hệ số lệch (STG) như sau:
$$S_{TM} = \frac{S}{n^{0.5}} \tag{5.35}$$
$$S_{TS} = \frac{S}{(2n)^{0.5}} \tag{5.36}$$
$$S_{TG} = \left[ \frac{6n(n – 1)}{(n – 2)(n + 1)(n + 3)} \right]^{0.5} \tag{5.37}$$
trong đó:
- S = Độ lệch chuẩn của mẫu
- n = Số lượng quan sát trong mẫu
Các phương trình này cho thấy rằng sai số chuẩn của ước lượng tỉ lệ nghịch với căn bậc hai của thời gian ghi nhận số liệu. Nói cách khác, càng ít năm số liệu thì sai số chuẩn càng lớn. Ví dụ, sai số chuẩn đối với một chuỗi số liệu ngắn sẽ xấp xỉ gấp đôi so với chuỗi số liệu dài gấp bốn lần.
Sai số chuẩn của ước lượng đo lường phương sai có thể xảy ra trong một sự kiện AEP được dự đoán, nếu sự kiện đó được ước lượng từ mỗi tập hợp lớn các mẫu có chất lượng tương đương và độ dài bằng nhau. Do sự phụ thuộc lớn vào độ dài chuỗi số liệu, các kỹ sư có thể gặp khó khăn trong việc diễn giải sai số chuẩn, và một giá trị lớn có thể phản ánh rằng chuỗi số liệu quá ngắn.
Ví dụ 5.10:
Tính sai số chuẩn của ước lượng đối với trung bình, độ lệch chuẩn và hệ số lệch cho bộ dữ liệu sông Nueces phía dưới Uvalde, Texas.
Mục tiêu: Áp dụng các phương trình sai số chuẩn của ước lượng cho một bộ dữ liệu và đánh giá kết quả.
Cho:
Phương pháp Bulletin 17C được sử dụng để Lắp phân phối LP3 cho chuỗi lưu lượng đỉnh năm từ trạm đo. Giá trị trung bình logarit của lưu lượng là 3.847695, độ lệch chuẩn là 0.988839 và hệ số skew là -0.741814. Số lượng quan sát trong bộ dữ liệu là 93. Trong số 93 quan sát, có 35 quan sát được xác định là ngoại lai thấp.
Tìm:
\(S_{TM}, S_{TS}, S_{TG}\)
Sử dụng chuỗi lũ hàng năm của sông Medina làm ví dụ, sai số chuẩn cho các tham số của phân bố log-Pearson loại III được tính từ các phương trình 5.35, 5.36 và 5.37 đối với các logarit như sau:
$$S_{TM} = \frac{0.989}{(93)^{0.5}} = 0.103$$
$$S_{TS} = \frac{0.989}{(2(93))^{0.5}} = 0.0725$$
$$S_{TG} = \left[\frac{6(93)(92)}{(91)(94)(96)}\right]^{0.5} = 0.250$$
Kết quả ví dụ 5.10:
Sai số chuẩn cho hệ số lệch là 0.250 là tương đối lớn. Chuỗi số liệu dài 93 năm là khá dài, nhưng có 35 giá trị ngoại lai thấp trong tập dữ liệu, theo Multiple Grubbs-Beck Test. Kết quả là độ dài chuỗi số liệu tương đương được rút ngắn, gợi ý rằng cần xem xét hệ số lệch trọng số.
5.2.5.2 Giới hạn tin cậy
Các kỹ sư sử dụng giới hạn tin cậy để ước lượng sự không chắc chắn liên quan đến việc xác định lũ có xác suất vượt ngưỡng (AEPs) xác định từ các phân phối tần suất. Một phân phối tần suất nhất định chỉ ước lượng phân phối của tổng thể, với ước lượng đó được phát triển từ một mẫu của tổng thể. Do đó, một mẫu khác được lấy tại cùng vị trí và có độ dài bằng nhau nhưng được lấy vào một thời kỳ khác có thể sẽ tạo ra một phân phối tần suất khác. Giới hạn tin cậy, hay chính xác hơn là khoảng tin cậy, xác định phạm vi mà trong đó các đường tần suất này có thể được kỳ vọng nằm trong với một mức độ tin cậy xác định.
Thông tư 17B (Hội đồng Tài nguyên Nước 1982) đã phác thảo một phương pháp để phát triển khoảng tin cậy trên và dưới dựa trên giả định rằng các khoảng tin cậy được phân bố chuẩn xung quanh phân phối đã được Lắp. Dạng tổng quát của các giới hạn tin cậy này là:
$$U_{p,c}(Q) = \overline{Q} + S \cdot K^U_{p,c} \tag{5.38}$$
$$L_{p,c}(Q) = \overline{Q} + S \cdot K^L_{p,c} \tag{5.39}$$
trong đó:
- c = Mức độ tin cậy
- p = Xác suất vượt ngưỡng
- \(U_{p,c}\)(Q) = Giới hạn tin cậy trên tương ứng với các giá trị của p và c, cho lưu lượng Q
- \(L_{p,c}\)(Q) = Giới hạn tin cậy dưới tương ứng với các giá trị của p và c, cho lưu lượng Q
- \(K^U_{p,c}\) = Hệ số tin cậy trên tương ứng với các giá trị của p và c
- \(K^L_{p,c}\) = Hệ số tin cậy dưới tương ứng với các giá trị của p và c
Bảng 5.19 cung cấp các giá trị của \(K^U_{p,c}\) và \(K^L_{p,c}\) cho phân phối nọmal với các mức tin cậy thường dùng là 0.05 và 0.95. Thông tư 17B, từ đó Bảng 5.19 được trích xuất, chứa một bảng đầy đủ hơn bao gồm các mức tin cậy khác. Thông tư 17C không chứa cách tiếp cận này, mà thay vào đó áp dụng một phương pháp hoàn toàn khác đối với các giới hạn tin cậy cho các phân phối LP3. Tuy nhiên, phương pháp này áp dụng cho các phân phối khác ngoài LP3.
Các giới hạn tin cậy được xác định theo cách này và với các giá trị trong Bảng 5.19 được gọi là giới hạn một phía vì mỗi giới hạn chỉ xác định giới hạn ở một phía của đường tần suất; với mức tin cậy 95%, chỉ một trong các giá trị được tính. Các giới hạn một phía này có thể kết hợp với nhau để tạo thành khoảng tin cậy hai phía sao cho tổ hợp của giới hạn tin cậy 95% và 5% tạo thành khoảng tin cậy hai phía 90%. Trên thực tế, điều này có nghĩa là tại một xác suất vượt ngưỡng nhất định, có 5% khả năng lưu lượng sẽ vượt quá giới hạn tin cậy trên và 5% khả năng lưu lượng sẽ nhỏ hơn giới hạn tin cậy dưới. Nói cách khác, có thể kỳ vọng rằng 90% thời gian, lưu lượng theo tần suất xác định sẽ nằm trong hai giới hạn tin cậy đó.
Trong Thông tư 17C, các khoảng tin cậy được tính sau khi quy trình EMA hoàn tất và tạo ra các tham số cho phân phối đã lắp. Các khoảng tin cậy được phần mềm tính toán và dựa trên phân phối T của Student. Phụ lục 7 của Thông tư 17C chứa thêm chi tiết.
Các khoảng tin cậy được tính toán cho chuỗi lũ sông Nueces bằng cách sử dụng qui trình Thông tư 17B cho cả phân phối log-normal và phương pháp Thông tư 17C cho phân bố LP3. Hệ số lệch có trọng số 0.1 được sử dụng với phân tích LP3. Bảng 5.20 và Bảng 5.21 cung cấp các phép tính cho khoảng tin cậy của phân phối log-normal và log-Pearson III tương ứng. Hình 5.15 và Hình 5.17 thể hiện các giới hạn tin cậy cho log-normal và log-Pearson III, tương ứng.
Bảng 5.19. Giá trị hệ số lệch giới hạn tin cậy cho phân phối normal và log-normal
(từ cột 3 đến cột 11 là giá trị ứng với Xác suất vượt ngưỡng – Exceedance Probability)
| Mức tin cậy | Số quan sát n | EP=0.002 | EP=0.010 | EP=0.020 | EP=0.040 | EP=0.100 | EP=0.200 | EP=0.500 | EP=0.800 | EP=0.990 |
|---|---|---|---|---|---|---|---|---|---|---|
| (1) | (2) | (3) | (4) | (5) | (6) | (7) | (8) | (9) | (10) | (11) |
| 0.05 | 10 | 4.862 | 3.981 | 3.549 | 3.075 | 2.355 | 1.702 | 0.580 | -0.317 | -1.563 |
| 15 | 4.304 | 3.520 | 3.136 | 2.713 | 2.068 | 1.482 | 0.455 | -0.406 | -1.677 | |
| 20 | 4.033 | 3.295 | 2.934 | 2.534 | 1.926 | 1.370 | 0.387 | -0.460 | -1.749 | |
| 25 | 3.868 | 3.158 | 2.809 | 2.425 | 1.838 | 1.301 | 0.342 | -0.497 | -1.801 | |
| 30 | 3.755 | 3.064 | 2.724 | 2.350 | 1.777 | 1.252 | 0.310 | -0.525 | -1.840 | |
| 40 | 3.608 | 2.941 | 2.613 | 2.251 | 1.697 | 1.188 | 0.266 | -0.556 | -1.896 | |
| 50 | 3.515 | 2.862 | 2.542 | 2.188 | 1.646 | 1.146 | 0.237 | -0.592 | -1.936 | |
| 60 | 3.448 | 2.807 | 2.492 | 2.143 | 1.609 | 1.116 | 0.216 | -0.612 | -1.966 | |
| 70 | 3.399 | 2.765 | 2.454 | 2.110 | 1.581 | 1.093 | 0.199 | -0.629 | -1.990 | |
| 80 | 3.360 | 2.733 | 2.425 | 2.083 | 1.559 | 1.076 | 0.186 | -0.642 | -2.010 | |
| 90 | 3.328 | 2.706 | 2.400 | 2.062 | 1.542 | 1.061 | 0.175 | -0.652 | -2.026 | |
| 100 | 3.301 | 2.684 | 2.380 | 2.044 | 1.527 | 1.049 | 0.166 | -0.662 | -2.040 | |
| 0.95 | 10 | 1.989 | 1.563 | 1.348 | 1.104 | 0.712 | 0.317 | -0.580 | -1.702 | -3.981 |
| 15 | 2.121 | 1.677 | 1.454 | 1.203 | 0.802 | 0.406 | -0.455 | -1.482 | -3.520 | |
| 20 | 2.204 | 1.749 | 1.522 | 1.266 | 0.858 | 0.460 | -0.387 | -1.370 | -3.295 | |
| 25 | 2.264 | 1.801 | 1.569 | 1.309 | 0.898 | 0.497 | -0.342 | -1.301 | -3.158 | |
| 30 | 2.310 | 1.840 | 1.605 | 1.342 | 0.928 | 0.525 | -0.310 | -1.252 | -3.064 | |
| 40 | 2.375 | 1.896 | 1.657 | 1.391 | 0.970 | 0.565 | -0.266 | -1.188 | -2.941 | |
| 50 | 2.421 | 1.936 | 1.694 | 1.424 | 1.000 | 0.592 | -0.237 | -1.146 | -2.862 | |
| 60 | 2.456 | 1.966 | 1.722 | 1.450 | 1.022 | 0.612 | -0.216 | -1.116 | -2.807 | |
| 70 | 2.484 | 1.990 | 1.745 | 1.470 | 1.040 | 0.629 | -0.199 | -1.093 | -2.765 | |
| 80 | 2.507 | 2.010 | 1.762 | 1.487 | 1.054 | 0.642 | -0.186 | -1.076 | -2.733 | |
| 90 | 2.526 | 2.026 | 1.778 | 1.500 | 1.066 | 0.652 | -0.175 | -1.061 | -2.706 | |
| 100 | 2.542 | 2.040 | 1.791 | 1.512 | 1.077 | 0.662 | -0.166 | -1.049 | -2.684 |
Ví dụ 5.11: Tính toán giới hạn tin cậy (khoảng tin cậy) cho phân phối log-normal của sông Nueces.
Mục tiêu: Áp dụng phương pháp ước lượng giới hạn tin cậy cho một tập dữ liệu.
Cho: Phân phối log-normal được Lắp cho dữ liệu trạm đo lưu lượng sông Nueces. Độ dài chuỗi số liệu là 93 năm, trung bình logarit là 3.603, và độ lệch chuẩn logarit là 1.334.
Tìm: Ước lượng các giới hạn tin cậy 5% và 95% cho phân phối log-normal của chuỗi số liệu lưu lượng đỉnh sông Nueces dưới Uvalde, Texas.
Bước 1. Đối với các xác suất vượt ngưỡng quan tâm (0.50, 0.20, 0.10, 0.04, 0.02, 0.01, và 0.002), xác định các hệ số K cho giới hạn tin cậy trên và dưới.
Sử dụng độ dài chuỗi số liệu 93 năm và Bảng 5.19, tra cứu các hệ số K cho các xác suất vượt ngưỡng quan tâm và ghi vào Bảng 5.20.
Bước 2. Tính logarit của các giới hạn tin cậy.
Sử dụng các hệ số K đã xác định trong bước 1, điền vào các cột logarit của các giới hạn tin cậy trên và dưới bằng cách sử dụng các phương trình 5.38 và 5.39. Ví dụ, với sự kiện 2 năm, \(K^L\) = -0.175 từ Bảng 5.19, do đó giới hạn tin cậy dưới là:
L = 3.603 + 1.334(-0.175) = 3.370
\(X_L = 10^{3.370} = 2{,}342 \, \text{ft}^3/\text{s}\)
Tương tự, đối với giới hạn tin cậy trên, \(K^U = 0.174\) từ Bảng 5.19, do đó giới hạn tin cậy trên là:
U = 3.603 + 1.334(0.175) = 3.836
\(X_U = 10^{3.836} = 6{,}862 \, \text{ft}^3/\text{s}\)
Ghi các giá trị này vào Bảng 5.19.
Bước 3. Khử logarit các giới hạn tin cậy.
Sử dụng phương trình \(X = 10^Y\), khử logarit các giới hạn tin cậy và ghi vào Bảng 5.20.
Bước 4. Vẽ đồ thị kết quả lên cùng hệ tọa độ với phân phối đã lắp và dữ liệu quan trắc. Sau đó so sánh phân phối đã lắp và dữ liệu quan trắc với các giới hạn tin cậy (khoảng tin cậy).
Hoàn tất các phép tính và vẽ kết quả. So sánh với dữ liệu quan trắc.
Kết quả ví dụ 5.11: Bảng 5.20 thể hiện kết quả của các phép tính. Vẽ các điểm này lên cùng hệ tọa độ với phân phối và dữ liệu. Hình 5.15 thể hiện kết quả. Lưu ý các điểm quan trắc nằm ngoài khoảng tin cậy 90%. Việc kiểm tra bằng mắt này cho thấy phân phối log-normal đã lắp với dữ liệu quan trắc là không phù hợp. Như đã thảo luận ở trên, điều này là do số lượng lớn điểm ngoại lai thấp trong dữ liệu quan trắc (35 điểm ngoại lai thấp). Hơn nữa, điều này cho thấy tầm quan trọng của việc cẩn trọng khi lắp phân bố với dữ liệu quan trắc và tính hữu dụng của kiểm tra ngoại lai thấp MGBT trong Thông tư 17C.
Bảng 5.20. Tính toán khoảng tin cậy hai phía, 90 phần trăm cho phân tích log-normal của chuỗi lưu lượng đỉnh năm sông Nueces
| AEP | Y (log(ft³/s)) | X (ft³/s) | Kᴸ | L | Xᴸ (ft³/s) | Kᵁ | U | Xᵁ (ft³/s) |
|---|---|---|---|---|---|---|---|---|
| 0.5 | 3.603 | 4,008 | -0.175 | 3.370 | 2,342 | 0.175 | 3.836 | 6,862 |
| 0.2 | 4.725 | 53,120 | 0.652 | 4.473 | 29,701 | 1.061 | 5.018 | 104,322 |
| 0.1 | 5.312 | 205,120 | 1.066 | 5.025 | 105,936 | 1.542 | 5.660 | 457,118 |
| 0.04 | 5.938 | 866,082 | 1.500 | 5.604 | 401,791 | 2.062 | 6.354 | 2,257,917 |
| 0.02 | 6.342 | 2,196,581 | 1.778 | 5.975 | 943,739 | 2.400 | 6.805 | 6,376,759 |
| 0.01 | 6.705 | 5,072,981 | 2.026 | 6.306 | 2,021,548 | 2.706 | 7.213 | 16,323,151 |
| 0.002 | 7.441 | 27,611,921 | 2.526 | 6.973 | 9,390,398 | 3.328 | 8.043 | 110,294,029 |
Bảng 5.21. Các phân vị và giới hạn tin cậy trên/dưới cho khoảng tin cậy 90% từ các tính toán EMA theo Thông tư 17C cho chuỗi lưu lượng đỉnh năm sông Nueces dưới Uvalde, Texas
| AEP | X (ft³/s) | Xᴸ (ft³/s) | Xᵁ (ft³/s) |
|---|---|---|---|
| 0.5 | 9,309 | 4,731 | 13,600 |
| 0.2 | 49,530 | 34,300 | 73,500 |
| 0.1 | 102,500 | 70,200 | 160,200 |
| 0.04 | 200,900 | 134,100 | 346,400 |
| 0.02 | 294,300 | 190,700 | 550,500 |
| 0.01 | 401,100 | 250,000 | 820,000 |
| 0.002 | 686,000 | 382,400 | 1,797,000 |
Nhận xét:
Có vẻ như phân phối log-Pearson III được Lắp bằng thủ tục EMA của Thông tư 17C là phân phối chấp nhận được nhất đối với dữ liệu sông Nueces. Dữ liệu thực tế phù hợp rất tốt với phân phối và tất cả các điểm dữ liệu nằm trong khoảng tin cậy ngoại trừ các ngoại lai thấp. Dựa trên phân tích này, log-Pearson III là phân bố tiêu chuẩn được ưu tiên. Do ảnh hưởng của các điểm ngoại lai thấp đến việc Lắp các phân phối khác, chúng không phù hợp với dữ liệu sông Nueces.
5.2.6 Mở rộng chuỗi số liệu bằng các trạm lân cận
Thông tư 17C trình bày một cách tiếp cận mở rộng từ Thông tư 17B cho phân tích thống kê dữ liệu lưu lượng tại trạm đo. Điều này là do việc tính toán các tham số của mẫu là một quá trình lặp trong phương pháp EMA và quá trình so sánh hai trạm được gọi là quá trình Mở rộng chuỗi số liệu bằng các trạm lân cận. Cũng giống như phương pháp trong Thông tư 17B, phương pháp này nhằm mục tiêu cải thiện ước lượng trung bình và độ lệch chuẩn của logarit tại một trạm có chuỗi số liệu ngắn (Y) bằng cách sử dụng các thống kê từ một trạm gần đó có chuỗi số liệu dài (X). Nếu phù hợp, hệ số tương quan giữa lưu lượng đỉnh chung của hai trạm sẽ được sử dụng để mở rộng chuỗi số liệu hệ thống của trạm có chuỗi ngắn (Y).
Phụ lục 8 của Thông tư 17C trình bày phương pháp mở rộng chuỗi số liệu. Giả định được đưa ra là toàn bộ chuỗi số liệu của trạm chuỗi ngắn nằm trong khoảng thời gian của trạm chuỗi dài. Quy trình tổng quát để ước lượng trung bình và phương sai tại trạm chuỗi ngắn và xây dựng chuỗi số liệu mở rộng với các quan sát mới như sau:
- Chọn một trạm gần có đặc điểm thủy văn tương tự và có chuỗi số liệu dài hơn trạm chuỗi ngắn. Mối tương quan của các lưu lượng đỉnh giữa hai trạm là yếu tố then chốt trong việc mở rộng chuỗi số liệu và nên càng lớn càng tốt. Đây không phải là một quy trình cơ học, phán đoán là điều quan trọng.
a. Vẽ biểu đồ chuỗi thời gian thể hiện cả hai chuỗi (có phân định rõ ràng để dễ nhận biết từng chuỗi).
b. Xem xét biểu đồ để nhận diện các điểm khác biệt và tương đồng trong khoảng thời gian trùng nhau của chuỗi.
c. Đánh giá xem hai chuỗi trùng nhau có tương tự hay không. Xác định liệu chuỗi dài hơn có thể hiện một chuỗi dài hơn các sự kiện thủy văn được quan sát trong chuỗi ngắn hơn. - Sử dụng các quan hệ toán học trong Phụ lục 8 của Thông tư 17C để khảo sát các đặc tính thống kê và quan hệ hồi quy giữa hai chuỗi.
a. Nếu hệ số tương quan giữa hai chuỗi vượt quá giá trị giới hạn (r ≥ 0.8), thì mở rộng chuỗi có thể phù hợp. Phân tích có thể tiếp tục.
b. Nếu hệ số tương quan nhỏ hơn giá trị giới hạn, mở rộng chuỗi có thể không phù hợp. Các phương pháp thay thế có thể bao gồm sử dụng hệ số lệch có trọng số hoặc hệ số lệch vùng với chuỗi ngắn. - Tính các thống kê của mẫu cho các chuỗi trùng nhau, sau đó tính trung bình và phương sai cho trạm chuỗi ngắn dựa trên toàn bộ chuỗi của trạm chuỗi dài.
- Tính tổng độ dài hiệu quả của chuỗi ngắn. Điều này xác định số lượng quan sát cần thêm vào chuỗi ngắn.
- Tính các tham số mở rộng và sử dụng mô hình mở rộng để tạo ra các giá trị lưu lượng cần thiết cho việc mở rộng chuỗi của trạm chuỗi ngắn.
Sử dụng các giá trị gần nhất từ trạm chuỗi dài không trùng với quan sát từ trạm chuỗi ngắn. Xem xét các vấn đề trong chuỗi mở rộng.
a. Ví dụ: nếu các giá trị tạo ra đến từ phần chuỗi dữ liệu dài bao gồm đỉnh lớn nhất hoặc nhì, thì chuỗi mở rộng có thể bao gồm các giá trị sai lệch, làm sai hệ số lệch tại trạm.
b. Giải pháp là điều chỉnh đoạn chuỗi trong trạm chuỗi dài để tránh các đỉnh này. - Sử dụng chuỗi kết quả cho trạm chuỗi ngắn làm đầu vào cho quy trình của Thông tư 17C.
Mô tả trên là tóm tắt tổng quát về quy trình chi tiết trong Thông tư 17C. Thông tư này trình bày đầy đủ chi tiết và ví dụ minh họa.
5.2.7 Các phương pháp khác để ước lượng các tham số phân phối tần suất lũ
Các kỹ thuật Lắp chuỗi dữ liệu lũ hàng năm với các phân phối tần suất chuẩn được mô tả ở trên đều là các ví dụ áp dụng phương pháp moment. Các moment của tổng thể được ước tính từ các moment của mẫu, với giá trị trung bình được lấy làm moment bậc nhất quanh gốc, phương sai làm moment bậc hai quanh trung bình, và độ lệch làm moment bậc ba quanh trung bình. Các kỹ sư sử dụng ba phương pháp được công nhận khác để xác định các đường tần suất: phương pháp cực đại khả năng (maximum likelihood), L-moment hoặc moment có trọng số xác suất, và phương pháp đồ thị.
Phương pháp cực đại khả năng là một kỹ thuật thống kê dựa trên nguyên lý rằng các giá trị của các tham số thống kê của mẫu được tối đa hóa sao cho xác suất thu được một sự kiện quan sát là cao nhất có thể. Phương pháp này hiệu quả hơn đôi chút đối với các phân phối có độ lệch cao nếu tồn tại các ước lượng hiệu quả của các tham số thống kê. Mặt khác, phương pháp này phức tạp để sử dụng và tính thực tiễn trong thiết kế đường không được biện minh khi xem xét đến sự chấp nhận rộng rãi và việc sử dụng phương pháp moment để Lắp dữ liệu với các phân phối chuẩn.
Phương pháp cực đại khả năng (ước lượng cực đại khả năng [MLE]) (Kite 1988, Helsel et al. 2020) không được sử dụng trong Bulletin 17C và phức tạp hơn so với phương pháp moment. Tuy nhiên, việc trình bày MLE lướt qua là điều hữu ích. MLE định nghĩa một hàm khả năng biểu diễn xác suất thu được các tham số đặc trưng của tổng thể khi biết dữ liệu lũ đã được ghi nhận. Ví dụ, nếu μ và σ là các tham số đặc trưng của tổng thể và chuỗi dữ liệu lũ X có N sự kiện, thì hàm khả năng là:
$$L(\mu, \sigma \mid X_1, X_2, \ldots, X_N) = \prod_{i=1}^{N} f(X_i \mid \mu, \sigma) \tag{5.40}$$
trong đó:
\(f(X_i \mid \mu, \sigma)\) = Phân bố xác suất của X như một hàm của các tham số
Nghiệm của phương trình 5.40 cho các biểu thức ước lượng μ và σ từ chuỗi dữ liệu lũ X.
Một cách tiếp cận khác để ước lượng các tham số đặc trưng của tổng thể là phương pháp L-moment. Phương pháp L-moment sử dụng các thống kê bậc thấp của mẫu để ước lượng các thống kê tương tự. Các thống kê của mẫu giống nhau được sử dụng để xác định các tham số đặc trưng của tổng thể cũng như với các phương pháp Lắp phân bố khác cho mẫu (Hosking 1990, Hosking 1992).
(nd: các tham số đặc trưng của tổng thể – population parameters)
Trong thống kê và nghiên cứu, “population” (tổng thể) là toàn bộ tập hợp các cá thể, vật thể, sự kiện hoặc quan sát mà chúng ta quan tâm và muốn rút ra kết luận.
Ví dụ:
- Nếu bạn muốn nghiên cứu chiều cao trung bình của tất cả học sinh cấp 3 ở Hà Nội, thì tất cả học sinh cấp 3 ở Hà Nội chính là tổng thể (population) của bạn.
- Nếu một nhà sản xuất muốn kiểm tra chất lượng của một lô bóng đèn mới, thì tất cả bóng đèn trong lô đó là tổng thể.
- Trong một nghiên cứu về hiệu quả của một loại thuốc mới, tất cả những bệnh nhân mắc bệnh X là tổng thể.
Đặc điểm của tổng thể:
- Tính toàn vẹn: Tổng thể bao gồm tất cả các phần tử có chung một đặc điểm nào đó mà nhà nghiên cứu đang tìm hiểu.
- Tính xác định: Mặc dù tổng thể có thể rất lớn, nhưng nó phải được định nghĩa rõ ràng về ranh giới và các đặc điểm chung của các phần tử.
- Có thể hữu hạn hoặc vô hạn:
- Tổng thể hữu hạn: Có thể đếm được số lượng phần tử (ví dụ: tất cả sinh viên trong một trường đại học).
- Tổng thể vô hạn: Không thể đếm được số lượng phần tử (ví dụ: tất cả các số nguyên tố).
Mối quan hệ với mẫu (sample):
Trong nhiều trường hợp, việc thu thập dữ liệu từ toàn bộ tổng thể là không khả thi hoặc quá tốn kém. Do đó, các nhà nghiên cứu thường chọn một mẫu (sample) – một tập hợp con nhỏ hơn được lấy từ tổng thể. Mục tiêu là từ dữ liệu của mẫu, chúng ta có thể suy luận và đưa ra kết luận về tổng thể lớn hơn.
Các phương pháp đồ thị liên quan đơn giản đến việc khớp một đường cong với dữ liệu mẫu bằng mắt thường. Thông thường, kỹ sư sẽ biến đổi dữ liệu bằng cách vẽ chúng trên giấy đồ thị xác suất hoặc log-xác suất sao cho dữ liệu được vẽ gần đúng với một đường thẳng. Quy trình này hiện không còn được sử dụng phổ biến vì các cơ quan tài nguyên thường ưu tiên sử dụng các phân phối được Lắp bằng phương pháp thống kê. Tuy nhiên, công cụ này có thể hữu ích để kiểm tra kết quả từ các phương pháp khác. Như Sanders (1980) đã lưu ý, có thể cải thiện phần nào bằng cách đảm bảo rằng độ lệch dương và âm lớn nhất so với đường đã chọn xấp xỉ bằng nhau và rằng các độ lệch lớn nhất được giảm thiểu càng nhiều càng tốt.
5.2.8 Phân tích tần suất dòng chảy kiệt
Trong khi các kỹ sư thủy văn sử dụng lưu lượng đỉnh tức thời để phân tích tần suất lũ, họ cũng thường xuyên quan tâm đến dòng chảy kiệt. Các kỹ sư sử dụng phân tích tần suất dòng chảy kiệt trong các nghiên cứu chất lượng nước và thiết kế cống nơi yêu cầu đảm bảo đường di chuyển của cá. Đối với phân tích tần suất dòng chảy kiệt, các kỹ sư thường chỉ định cả chu kỳ lặp lại và khoảng thời gian dòng chảy. Ví dụ, một giá trị dòng chảy kiệt có thể được tính cho khoảng thời gian 7 ngày. Trong trường hợp này, một sự kiện có chu kỳ lặp lại 10 năm sẽ được gọi là dòng chảy kiệt 7-ngày, 10-năm.
Các kỹ sư lập hồ sơ dữ liệu cho phân tích tần suất dòng chảy kiệt bằng cách xác định giá trị trung bình thấp nhất của dòng chảy trong mỗi năm ghi nhận với khoảng thời gian đã cho. Ví dụ, nếu cần xây dựng đường tần suất dòng chảy kiệt 21 ngày, dữ liệu của mỗi năm sẽ được phân tích để tìm ra khoảng thời gian 21 ngày có giá trị trung bình nhỏ nhất. Phân tích làm trơn bằng trung bình trượt với khoảng thời gian 21 ngày có thể được sử dụng để xác định dòng chảy này. Với hồ sơ có N năm, phân tích như vậy sẽ cho ra N giá trị dòng chảy kiệt cần thiết.
Quy trình tính toán cho phân tích tần suất dòng chảy kiệt tương tự như phân tích tần suất lũ. Kỹ sư đầu tiên xác định phân phối xác suất, thường sử dụng phân phối log-normal, mặc dù có thể sử dụng các phân phối khác.
Để thực hiện phân tích log-normal, ta biến đổi logarit của từng trong N giá trị dòng chảy kiệt. Sau đó tính toán giá trị trung bình và độ lệch chuẩn của các logarit. Đến điểm này, phân tích là giống như phân tích lưu lượng đỉnh lũ. Tuy nhiên, với phân tích dòng chảy kiệt, phương trình chính được dùng như sau:
$$Y = \bar{Y}_L – z S_L \tag{5.41}$$
trong đó:
- \(\bar{Y}_L\) = Trung bình logarit
- \(S_L\) = Độ lệch chuẩn logarit
- z = Biến thiên chuẩn
Phương trình 5.41 có dấu trừ thay vì dấu cộng như trong phương trình 5.25. Đường cong tần suất dòng chảy kiệt sẽ có độ dốc âm thay vì dương như ở các đường cong tần suất lũ. Ngoài ra, các giá trị dòng chảy kiệt được tính cho các sự kiện ít xảy ra hơn (ví dụ, dòng chảy kiệt 100 năm) sẽ nhỏ hơn giá trị trung bình. Tài liệu tham khảo HEC-19 của FHWA (FHWA 2022a) cung cấp thông tin bổ sung về các phương pháp dòng chảy kiệt.
Ví dụ 5.12: Phân tích dòng chảy kiệt
Mục tiêu: Ước tính giá trị dòng chảy kiệt 7-ngày, 50-năm.
Cho:
Giá trị trung bình và độ lệch chuẩn của logarit cơ số 10 chuỗi dòng chảy kiệt 7 ngày hằng năm: \(\bar{Q}_L = 1.1\), \(S_L\) = 0.2
Phương trình 5.41 được sử dụng để tính giá trị cần thiết. Với sự kiện 50 năm, xác suất vượt ngưỡng (AEP) là 0.02. Xác suất không vượt ngưỡng cho sự kiện 50 năm là 0.98.
Bước 1. Xác định giá trị chuẩn tương ứng với xác suất không vượt ngưỡng là 0.98 (sự kiện 50 năm)
Giá trị chuẩn tắc từ Bảng 5.8 là 2.054 (sử dụng nội suy tuyến tính).
Bước 2. Áp dụng phương trình 5.41 với các thông tin đã cho
$$\log Y = 1.1 – 2.054(0.2) = 0.6892 \\ Q = 10^{0.6892} = 4.9 \text{ ft}^3/\text{s}$$
Kết luận:
Dòng chảy kiệt 7-ngày, 50-năm tại vị trí này được ước tính là 4.9 ft³/s.
5.2.9 Các công cụ phổ biến để phân tích thống kê dữ liệu tại trạm đo
Mặc dù có nhiều phần mềm phân tích thống kê khác nhau, các kỹ sư thường sử dụng hai công cụ chính để phân tích thống kê dữ liệu tại trạm đo:
- Phần mềm HEC-SSP của U.S. Army Corps of Engineers (USACE), và
- Phần mềm PeakFQ của USGS.
Gói phần mềm HEC-SSP (Bartles et al. 2019) là công cụ phân tích thống kê đa dụng xử lý dữ liệu tại trạm đo bằng nhiều phương pháp. Các phương pháp này bao gồm những phương pháp được trình bày trong chương này, bao gồm cả các phương pháp trong Bulletin 17C phiên bản 2.2 hoặc mới hơn. HEC-SSP có một mô-đun hỗ trợ tải trực tiếp dữ liệu trạm đo của USGS từ cổng dữ liệu, giúp thuận tiện cho việc xử lý.
Gói phần mềm PeakFQ của USGS (Flynn et al. 2006) là công cụ phân tích thống kê để xây dựng các đường tần suất lũ lớn nhất hằng năm. Chương trình khớp phân bố Pearson loại III với logarit của chuỗi giá trị lớn nhất hằng năm. Tính đến phiên bản 7.3, PeakFQ thực hiện theo Bulletin 17C mặc dù tài liệu đi kèm vẫn tham chiếu đến Bulletin 17B. Để sử dụng PeakFQ, người dùng cần tải dữ liệu lưu lượng đỉnh hằng năm từ cổng dữ liệu USGS.
5.3 Điều chỉnh số liệu theo chỉ số để phản ánh thay đổi lưu vực
Các phương pháp phân tích tần suất lũ được trình bày trong chương này giả định rằng chuỗi số liệu lũ là một dãy sự kiện từ cùng một tổng thể. Về mặt thống kê, các sự kiện này cần độc lập và phân phối giống nhau. Về mặt thủy văn, các sự kiện nên xuất phát từ cùng điều kiện khí tượng và quá trình dòng chảy mặt. Sự biến động theo năm chỉ nên do biến đổi tự nhiên của lượng và thời gian mưa.
Các thay đổi trong lưu vực như trồng rừng, phá rừng và đô thị hóa sẽ làm thay đổi các quá trình điều khiển phản ứng của lưu vực đối với mưa. Về mặt thống kê, các sự kiện không còn phân phối giống nhau vì tổng thể thay đổi do sự thay đổi sử dụng đất. Trồng rừng có thể làm giảm lưu lượng trung bình. Đô thị hóa có thể làm tăng lưu lượng đỉnh nhưng giảm biến động của dòng chảy đỉnh. Nếu sự thay đổi lưu vực diễn ra trong một giai đoạn kéo dài, thì mỗi sự kiện trong khoảng thời gian đó có thể đến từ một tổng thể khác. Do đó, các giá trị và xác suất vượt ngưỡng thu được từ chuỗi số liệu lũ không thể đại diện cho các sự kiện trong tương lai. Trước khi sử dụng chuỗi số liệu như vậy cho phân tích tần suất, kỹ sư cần điều chỉnh các giá trị đo được sao cho phản ánh điều kiện lưu vực đồng nhất. Một phương pháp điều chỉnh số liệu lũ như vậy gọi là phương pháp điều chỉnh theo chỉ số-index adjustment method (không nên nhầm lẫn với phương pháp chỉ số lũ-index flood method trình bày ở Mục 6.3).
Số liệu lũ có thể được điều chỉnh bằng cách sử dụng một biến chỉ số, chẳng hạn như phần trăm diện tích không thấm nước hoặc tỷ lệ lòng dẫn đã được cải tạo (nắn dòng), để điều chỉnh lưu lượng đỉnh lũ. Các phương pháp dùng chỉ số sử dụng giá trị của biến chỉ số theo thời gian và một mô hình liên hệ giữa biến động của lưu lượng đỉnh, biến chỉ số và xác suất vượt. Ngoài đô thị hóa, các phương pháp dùng chỉ số có thể được hiệu chỉnh để phản ánh ảnh hưởng của phá rừng, hoạt động khai thác bề mặt, thực hành quản lý nông nghiệp hoặc biến đổi khí hậu. Tài liệu HEC-17 (FHWA 2016) và HEC-19 (FHWA 2022a) trình bày cụ thể các phương pháp xử lý ảnh hưởng tiềm tàng của biến đổi khí hậu.
FHWA khuyến khích lồng ghép các yếu tố biến đổi khí hậu và phát triển bền vững vào toàn bộ quá trình lập kế hoạch và thiết kế dự án, bao gồm cả việc đánh giá mức độ phù hợp với các mục tiêu giảm phát thải khí nhà kính, tăng khả năng chống chịu khí hậu và cam kết bảo vệ môi trường (FHWA 2021; USDOT 2021; USDOT 2022). Các yếu tố này có thể giúp đảm bảo rằng mạng lưới giao thông có khả năng chống chịu và tin cậy đối với tất cả người sử dụng, bất chấp các rủi ro do biến đổi khí hậu gây ra (USDOT 2021; FHWA 2021).
Việc xem xét tác động và thích ứng với biến đổi khí hậu từ sớm trong quá trình lập dự án là rất quan trọng để đảm bảo rằng khả năng chống chịu khí hậu được tích hợp vào thiết kế dự án ở mức hợp lý và phù hợp nhất. Các đánh giá thích ứng dựa trên hiểu biết kỹ thuật thăm dò có thể có tác động lớn nhất đến các yếu tố thiết kế của dự án khi được thực hiện từ sớm trong quá trình phát triển dự án (FHWA 2017).
Vì đô thị hóa thường gây ra sự không đồng nhất trong chuỗi số liệu lũ, nên sẽ sử dụng nó để minh họa cho việc điều chỉnh lũ theo chỉ số. Tài liệu hiện hành không chỉ ra một phương pháp cụ thể nào là tốt nhất để điều chỉnh chuỗi lũ hàng năm khi chỉ có dữ liệu thời gian về đô thị hóa. Hơn nữa, đô thị hóa có thể được định nghĩa bằng nhiều tham số, bao gồm nhưng không giới hạn ở:
- Tỷ lệ diện tích không thấm nước.
- Tỷ lệ diện tích đất đô thị hóa (khu dân cư, thương mại và công nghiệp).
- Mật độ dân số.
Mỗi phương pháp phụ thuộc vào dữ liệu được sử dụng để hiệu chỉnh quá trình dự đoán, và các dữ liệu này thường rất khan hiếm. Tuy nhiên, độ nhạy của lưu lượng đỉnh đo được cho thấy rằng một sự gia tăng 1% trong tỷ lệ diện tích không thấm nước sẽ gây ra sự gia tăng lưu lượng đỉnh khoảng 1 đến 2.5% đối với các sự kiện 100 năm và 2 năm, tương ứng (McCuen 2012). Sử dụng dữ liệu từ các trạm đo của USGS, Blum et al. (2020) ước tính rằng sự gia tăng diện tích không thấm nước dẫn đến mức tăng lưu lượng lũ hàng năm từ 3.3 đến 4.7%, tùy thuộc vào dữ liệu được sử dụng. Điểm mấu chốt là sự gia tăng diện tích không thấm nước làm tăng dòng chảy từ lưu vực bị ảnh hưởng.
Dựa trên các xu hướng tổng quát của kết quả được công bố trong các nghiên cứu về tần suất lũ đô thị hiện có, McCuen (2012) đã phát triển một phương pháp điều chỉnh chuỗi số liệu lũ để phản ánh tác động của đô thị hóa. Đô thị hóa đề cập đến việc hình thành các bề mặt không thấm nước hoặc các thay đổi trong hệ thống thoát nước làm tăng lưu lượng đỉnh và thể tích dòng chảy. Hình 5.19 minh họa hệ số điều chỉnh lưu lượng đỉnh như một hàm của xác suất vượt đối với các tỷ lệ diện tích không thấm nước lên đến 60%. Ảnh hưởng lớn nhất xảy ra đối với các sự kiện có tần suất cao và tỷ lệ diện tích không thấm nước lớn nhất. Trong phần trình bày này, tỷ lệ diện tích không thấm nước được sử dụng làm đại diện cho mức độ đô thị hóa.
Khi biết xác suất vượt quá hàng năm (AEP) của lưu lượng đỉnh trong một lưu vực chưa đô thị hóa, ảnh hưởng của quá trình đô thị hóa có thể được đánh giá bằng cách nhân lưu lượng với hệ số điều chỉnh đỉnh, là một hàm của AEP và tỷ lệ đô thị hóa. Khi điều chỉnh lưu lượng cho một điều kiện lưu vực khác, lưu lượng đo được có thể chia cho hệ số điều chỉnh đỉnh tương ứng với điều kiện hiện tại để tính ra lưu lượng “nông thôn”. Lưu lượng này sau đó được nhân với hệ số điều chỉnh đỉnh cho điều kiện lưu vực thứ hai. Phép toán đầu tiên (tức là phép chia) điều chỉnh lưu lượng về một giá trị đại diện cho điều kiện chưa đô thị hóa, trong khi phép toán thứ hai (tức là phép nhân) điều chỉnh lưu lượng này để tính ra lưu lượng tương ứng với điều kiện lưu vực thứ hai. Quá trình này được biểu diễn như sau:
$$Q_a = \frac{f_2}{f_1} Q \tag{5.42}$$
trong đó:
- \(Q_a\) = Lưu lượng đỉnh đã điều chỉnh
- Q = Lưu lượng đỉnh chưa điều chỉnh (đo được)
- \(f_1\) = Hệ số điều chỉnh đỉnh để điều chỉnh giá trị đo được về điều kiện chưa đô thị hóa
- \(f_2\) = Hệ số điều chỉnh đỉnh để điều chỉnh lưu lượng chưa đô thị hóa về mức độ đô thị hóa mục tiêu
Phương pháp điều chỉnh trong Hình 5.19 sử dụng xác suất vượt. Đối với chuỗi số liệu lũ, ước lượng tốt nhất của xác suất được lấy từ công thức tính vị trí theo xác suất. Các bước sau đây có thể được sử dụng để điều chỉnh một chuỗi lũ trong đó các sự kiện lũ riêng lẻ xảy ra trên một lưu vực đang trải qua sự thay đổi liên tục về mức độ đô thị hóa:
Bước 1. Xác định tỷ lệ đô thị hóa cho từng sự kiện trong chuỗi số liệu lũ.
Do bản chất của chuỗi lũ và sự thiếu thông tin khác về lưu vực, diễn tiến của sự thay đổi có thể không hoàn toàn rõ ràng. Tỷ lệ thay đổi diện tích không thấm nước có thể không có sẵn cho từng năm trong hồ sơ. Nếu đúng như vậy, hãy nội suy hoặc ngoại suy các thay đổi từ các ước lượng hiện có để gán tỷ lệ phần trăm cho từng sự kiện lũ trong hồ sơ.
Bước 2. Xác định tỷ lệ đô thị hóa mục tiêu cần thiết cho việc điều chỉnh chuỗi số liệu lũ.
Xác định mức độ đô thị hóa mà tất cả các sự kiện lũ trong hồ sơ sẽ được điều chỉnh về, từ đó tạo ra một chuỗi được giả định là bao gồm các sự kiện độc lập và phân bố giống nhau.
Bước 3. Tính hạng (i) và xác suất vượt (p) cho từng sự kiện trong chuỗi số liệu lũ.
Sử dụng công thức tính vị trí theo xác suất
Bước 4. Tìm hệ số điều chỉnh đỉnh (f₁) về điều kiện chưa đô thị hóa.
Sử dụng xác suất vượt và tỷ lệ đô thị hóa từ bước 1, tìm hệ số điều chỉnh đỉnh (f₁) từ Hình 5.19 để biến đổi lưu lượng đỉnh đo được từ mức độ đô thị hóa thực tế về điều kiện chưa đô thị hóa.

Bước 5. Tìm hệ số điều chỉnh đỉnh (f₂) cho điều kiện đô thị hóa mục tiêu.
Sử dụng xác suất vượt và tỷ lệ đô thị hóa mục tiêu từ bước 2 cùng với Hình 5.19, tìm hệ số điều chỉnh đỉnh (f₂) sao cho có thể biến đổi lưu lượng đỉnh chưa đô thị hóa từ bước 4 thành lưu lượng tương ứng với mức độ đô thị hóa mục tiêu trong bước 2.
Bước 6. Tính lưu lượng đã điều chỉnh (Qₐ).
Tính lưu lượng đã điều chỉnh bằng phương trình 5.42 và các hệ số điều chỉnh đỉnh từ bước 4 và 5 cùng với lưu lượng đo được cho mỗi sự kiện trong chuỗi.
Bước 7. Xếp hạng các trận lũ trong chuỗi đã điều chỉnh và kiểm tra sự thay đổi thứ hạng.
Gán thứ hạng mới dựa trên các lưu lượng đã điều chỉnh. Nếu thứ hạng không thay đổi, chuỗi đã điều chỉnh sẽ được xem là chuỗi cuối cùng.
Bước 8. Lặp lại các bước 3 đến 7 cho đến khi thứ hạng ổn định.
Nếu thứ hạng của các sự kiện trong chuỗi đã điều chỉnh khác với thứ hạng trong chuỗi trước đó (tức là chuỗi sự kiện đo được sau một lần lặp các bước 3 đến 7), thì tiếp tục quá trình lặp lại cho đến khi thứ hạng không thay đổi.
Ví dụ 5.13: Áp dụng phương pháp điều chỉnh theo chỉ số.
Mục tiêu: Ước tính các phân vị lũ ứng với mức độ không thấm nước hiện tại của lưu vực Rubio Wash.
Bảng 5.22 chứa chuỗi số liệu lưu lượng đỉnh lớn nhất hằng năm trong 48 năm cho lưu vực Rubio Wash tại Los Angeles. Các moment logarit của lưu lượng được tóm tắt như sau:
- Trung bình logarit: 3.252
- Độ lệch chuẩn logarit: 0.191
- Hệ số lệch của trạm: -0.7
- Hệ số lệch khu vực: -0.45
Quy trình nêu trên được sử dụng để điều chỉnh chuỗi số liệu lũ trong giai đoạn 1929 đến 1963 về điều kiện bao phủ không thấm nước hiện tại. Tỷ lệ không thấm nước được sử dụng làm biến chỉ số để đo mức độ đô thị hóa.
Bước 1. Xác định tỷ lệ đô thị hóa cho từng sự kiện trong chuỗi số liệu lũ.
Bảng 5.22 tóm tắt tỷ lệ diện tích không thấm nước theo từng sự kiện trong chuỗi lũ. Ví dụ, các trận lũ đỉnh trong năm 1931 và 1945 xảy ra khi tỷ lệ không thấm nước lần lượt là 19% và 34%.
Bước 2. Xác định tỷ lệ đô thị hóa mục tiêu cần điều chỉnh chuỗi lũ về.
Các giá trị được điều chỉnh về một tỷ lệ chung là 40%, đây là trạng thái của lưu vực sau năm 1964.
Bước 3. Tính thứ hạng (i) và xác suất vượt (p) cho từng sự kiện trong chuỗi số liệu lũ.
Bảng 5.22 tóm tắt thứ hạng ban đầu và xác suất vượt cho mỗi trận lũ.
Bước 4. Tìm hệ số điều chỉnh đỉnh (f₁).
Bảng 5.22 tóm tắt hệ số điều chỉnh đỉnh để đưa lưu lượng đỉnh về điều kiện chưa đô thị hóa.
Bước 5. Tìm hệ số điều chỉnh đỉnh (f₂).
Bảng 5.22 tóm tắt hệ số điều chỉnh đỉnh để đưa lưu lượng đỉnh chưa đô thị hóa về điều kiện đô thị hóa mục tiêu với tỷ lệ không thấm nước là 40%.
Bước 6. Tính lưu lượng đã điều chỉnh (Qₐ).
Sử dụng phương trình 5.42, tính lưu lượng đỉnh đã điều chỉnh theo điều kiện đô thị hóa được tóm tắt trong Bảng 5.22.
Bước 7. Xếp hạng các trận lũ trong chuỗi đã điều chỉnh và kiểm tra sự thay đổi thứ hạng.
Bảng 5.22 tóm tắt thứ hạng của chuỗi đã điều chỉnh. Sau mỗi lần lặp, so sánh thứ hạng sau điều chỉnh với thứ hạng trước đó để xác định xem các phép tính đã hoàn tất chưa. Vì một số thứ hạng đã thay đổi (ví dụ, trận lũ năm 1930), nên cần thực hiện các vòng lặp tiếp theo.
Bước 8. Lặp lại các bước 3 đến 7 cho đến khi thứ hạng ổn định.
Có hai vòng lặp bổ sung được chỉ ra và tóm tắt trong Bảng 5.23 và Bảng 5.24. Quá trình lặp là cần thiết vì thứ hạng của một số sự kiện ban đầu đã thay đổi đáng kể so với thứ hạng ban đầu. Ví dụ, thứ hạng của lưu lượng đỉnh năm 1930 thay đổi từ 30 lên 22, và thứ hạng của sự kiện năm 1933 thay đổi từ 20 xuống 14. Việc thay đổi thứ hạng dẫn đến thay đổi xác suất vượt, và do đó, thay đổi hệ số điều chỉnh.
Bảng 5.22. Điều chỉnh đô thị hóa của lũ lụt tối đa hàng năm tại Rubio Wash (Lặp lại 1).

Bảng 5.23. Điều chỉnh đô thị hóa của lũ lụt tối đa hàng năm tại Rubio Wash (Lặp lại 2).

Bảng 5.24. Điều chỉnh đô thị hóa của lũ lụt tối đa hàng năm tại Rubio Wash (Lặp lại 3).

Chuỗi đã điều chỉnh có giá trị trung bình và độ lệch chuẩn lần lượt là 3.280 và 0.178. Giá trị trung bình tăng lên, nhưng độ lệch chuẩn lại giảm. Do đó, đường tần suất lũ đã điều chỉnh nói chung sẽ cao hơn đường của chuỗi đã đo, nhưng có độ dốc nhỏ hơn. Bảng 5.25 tóm tắt các đường tần suất lũ đã điều chỉnh và chưa điều chỉnh (đã đo) với các lượng tử AEP được tính từ:
- Đã đo Q = \(10^(3.252 + 0.191K)\)
- Đã điều chỉnh Q = \(10^(3.280 + 0.179K)\)
Bảng 5.25. Lưu lượng tính toán cho phân bố log-Pearson loại III với độ lệch vùng cho chuỗi đã đo và chuỗi đã điều chỉnh theo điều kiện không thấm 40%.
| AEP | K (G = -0.45) | Chuỗi đã đo (ft³/s) | Chuỗi đã điều chỉnh (ft³/s) | Tăng (%) |
|---|---|---|---|---|
| 0.5 | 0.07476 | 1,850 | 1,960 | 6 |
| 0.2 | 0.85580 | 2,600 | 2,710 | 4 |
| 0.1 | 1.22366 | 3,060 | 3,150 | 3 |
| 0.04 | 1.58657 | 3,590 | 3,650 | 2 |
| 0.02 | 1.80538 | 3,950 | 3,990 | 1 |
| 0.01 | 1.99202 | 4,290 | 4,310 | 0 |
Vì chuỗi đã đo không đồng nhất, nên độ lệch tổng quát -0.45 được sử dụng để tính toán các giá trị cho đường tần suất lũ. Bảng 5.25 cũng đưa ra phần trăm tăng tương ứng với từng cấp độ lũ AEP. Sự thay đổi là tương đối nhỏ vì độ không thấm không thay đổi sau năm 1964 và mức thay đổi nhỏ (tức là 10 phần trăm) từ năm 1942 đến năm 1964. Ngoài ra, hầu hết các sự kiện mưa lớn hơn xảy ra sau khi lưu vực đạt đến điều kiện phát triển. Các chuỗi đã điều chỉnh thể hiện chuỗi lũ hàng năm cho điều kiện đô thị hóa cố định (tức là không thấm 40%).
Kết quả ví dụ 5.13: Bảng 5.25 tóm tắt các mức tăng trong lưu lượng ứng với các giá trị AEP, từ gần như không thay đổi với AEP 0.01 đến mức tăng 6 phần trăm với AEP 0.5.
5.4 Chuyển vị trí lưu lượng đỉnh (Peak Flow Transposition)
Chuyển vị trí lưu lượng đỉnh cho phép dữ liệu lưu lượng tại trạm đo được áp dụng tại các vị trí thiết kế gần, nhưng không trùng khớp với vị trí trạm đo. Chuyển vị trí lưu lượng đỉnh là quá trình điều chỉnh lưu lượng đỉnh được xác định tại trạm đo tới một vị trí ở hạ lưu hoặc thượng lưu. Nếu vị trí thiết kế nằm giữa hai trạm đo, việc chuyển vị trí lưu lượng đỉnh cũng có thể được thực hiện bằng quy trình nội suy.
Thông lệ tốt nhất là vị trí thiết kế nằm cùng kênh dòng chảy với trạm đo và không có nhánh sông lớn nào đổ vào kênh trong đoạn trung gian. Khái niệm “gần” phụ thuộc vào phương pháp được áp dụng và những thay đổi trong lưu vực đóng góp giữa trạm đo và vị trí thiết kế.
Kỹ sư thường có thể chọn từ nhiều phương pháp chuyển vị trí lưu lượng đỉnh. Phương pháp tỉ lệ diện tích (area-ratio method) được mô tả bởi:
$$Q_d = Q_g \left(\frac{A_d}{A_g}\right)^C \tag{5.43}$$
trong đó:
- \(Q_d\) = Lưu lượng đỉnh tại vị trí thiết kế (không có trạm đo)
- \(Q_g\) = Lưu lượng đỉnh tại vị trí trạm đo
- \(A_d\) = Diện tích lưu vực tại vị trí thiết kế (không có trạm đo)
- \(A_g\) = Diện tích lưu vực tại vị trí trạm đo
- C = Số mũ chuyển vị
Phương pháp tỉ lệ diện tích áp dụng cho nhiều tình huống, nhưng kỹ sư cần thận trọng khi áp dụng phương pháp này cho các vị trí thiết kế có diện tích lưu vực chênh lệch quá 25 phần trăm so với trạm đo. Số mũ chuyển vị thường được lấy bằng số mũ diện tích lưu vực trong phương trình hồi quy lưu lượng đỉnh áp dụng cho khu vực và thường nhỏ hơn 1. (Xem Mục 6.1 để biết thêm thông tin về phương trình hồi quy lưu lượng đỉnh.) Asquith và Thompson (2008) đã tìm thấy các số mũ trong khoảng từ 0.50 đến 0.52 cho nhiều AEP khác nhau ở các lưu vực tại Texas.
Một phương pháp khác, phương pháp Sauer (1974), trước tiên tính toán lưu lượng có trọng số tại trạm đo từ phân tích log-Pearson loại III của chuỗi số liệu tại trạm đo và phương trình hồi quy tại vị trí trạm đo. Sau đó, Sauer sử dụng diện tích lưu vực tại trạm đo, diện tích lưu vực tại vị trí thiết kế, lưu lượng có trọng số tại trạm đo, và ước lượng từ phương trình hồi quy tại trạm đo và vị trí thiết kế để xác định lưu lượng phù hợp tại vị trí thiết kế. Sauer (1974) và McCuen và Levy (2000) cung cấp mô tả chi tiết hơn về phương pháp của Sauer.
Các trạm đo được dùng để chuyển vị trí cần được cân nhắc và lựa chọn cẩn thận. Cũng như đối với một vị trí không có trạm đo, kỹ sư có thể cân nhắc các đặc điểm như vị trí địa lý gần nhau, tính chất dòng chảy (kênh chính đơn, cấp dòng chảy), địa chất, địa hình, lượng mưa trung bình năm, và mục đích sử dụng đất. Việc chuyển vị trí từ nhiều trạm đo (với nhau và tới vị trí không có trạm đo) và so sánh kết quả có thể cung cấp thông tin có giá trị. Kỹ sư có thể gán trọng số cho ước lượng từ các trạm đo khác nhau, ví dụ, theo trọng số khoảng cách nghịch đảo, hoặc trọng số diện tích nghịch đảo.
Mặc dù kỹ sư có thể không xem chuyển vị trí là phương pháp cung cấp độ lớn lưu lượng đáng tin cậy như các phương pháp khác, nhưng bằng cách chuyển vị trí lưu lượng, phương pháp này có thể cung cấp thông tin tại chỗ và kiểm chứng so với hình dạng tổng thể của đường tần suất lũ, và sự gia tăng lưu lượng khi AEP giảm.
Chuyển vị trí đơn giản hóa (Transposition Made Easy)
USGS thường công bố các lưu lượng định lượng lũ từ phân tích thống kê dữ liệu tại trạm đo, được sử dụng để phát triển các phương trình hồi quy vùng trong các báo cáo đi kèm theo các phương trình đó. Thông tin này có thể được trích xuất dễ dàng từ các tài liệu công bố và sử dụng như tài liệu tham khảo để chọn trạm cho “chuyển vị trí”. Các tài liệu này thường cũng cung cấp vĩ độ và kinh độ của từng trạm.
Một lớp đối tượng GIS hoặc tệp dạng shape chứa các lưu lượng tần suất lũ, đặc điểm lưu vực, và tỉ số lưu lượng có thể dễ dàng được tạo từ các thông tin này để sử dụng nhanh chóng và dễ dàng trong “chuyển vị trí”. Sau khi được tạo, nó có thể được chia sẻ để những người thiết kế khác cùng sử dụng. GIS cũng cho phép so sánh dễ dàng các điểm tương đồng và khác biệt về mặt vật lý giữa lưu vực chưa có trạm đo đang nghiên cứu và các lưu vực đã có trạm đo.
Hỗ trợ duy trì trang:
Tôi xây dựng trang này để chia sẻ các tài liệu kỹ thuật cốt lõi trong thiết kế hạ tầng giao thông.
Nếu bạn thấy nội dung hữu ích và muốn góp phần duy trì trang hoạt động bền vững, tôi rất trân trọng mọi sự ủng hộ.