5 Lưu lượng đỉnh cho các vị trí có số liệu đo đạc

Mục lục

5.1 Đặc điểm thống kê của lũ (Statistical Character of Floods)
5.2 Các Phân Phối Tần Suất Chuẩn

Việc thiết kế các công trình thoát nước đường giao thông đặt ra cho kỹ sư bài toán phổ biến là ước tính lưu lượng đỉnh tương ứng với các AEP. Chương này trình bày các phương pháp áp dụng cho các vị trí có số liệu đo đạc, tức là các vị trí nằm tại hoặc gần trạm đo. Việc ước tính lưu lượng đỉnh đòi hỏi phải có chuỗi số liệu đo gần như đầy đủ và đủ dài.

Các vị trí nằm tại hoặc gần trạm đo, nhưng có chuỗi số liệu không đầy đủ hoặc ngắn, được xem là các trường hợp đặc biệt. Kỹ sư có thể ước tính lưu lượng đỉnh theo các tần suất chọn trước tại các vị trí này bằng cách bổ sung số liệu hoặc chuyển số liệu từ vị trí khác đến. Ngoài ra, họ có thể sử dụng phương trình hồi quy hoặc các phương pháp tổng hợp khác áp dụng cho các vị trí không có số liệu (xem Chương 6, 7 và 8).

Ấn phẩm của USGS có tên Guidelines for Determining Flood Flow Frequency (England và cộng sự, 2019), thường được gọi là Bulletin 17C, mô tả “dữ liệu và quy trình tính toán tần suất lũ khi có chuỗi số liệu đo lưu lượng dòng chảy đủ dài (ít nhất 10 năm, có độ lệch chuẩn khu vực mang tính thông tin và/hoặc được mở rộng bằng số liệu lịch sử) để có thể tiến hành phân tích thống kê.” Tài liệu này được biên soạn nhằm phục vụ phân tích chuỗi lưu lượng đỉnh lũ hàng năm, bao gồm cả số liệu đo hệ thống và số liệu lịch sử.

Bulletin 17C trình bày một phương pháp ước tính các tham số thống kê dùng để khớp đường cong tần suất lũ với chuỗi số liệu dòng chảy đo được hàng năm, thay thế cho Bulletin 17B (Water Resources Council, 1982). Bulletin 17C gọi phương pháp này là Expected Moments Algorithm (EMA), đã được mã hóa trong các phần mềm, chủ yếu là phần mềm HEC-SSP của U.S. Army Corps of Engineers (USACE) và phần mềm PeakFQ của U.S. Geological Survey (USGS).

Chương này chủ yếu tập trung vào phân tích thống kê số liệu đo đạc. Nội dung trình bày các kỹ thuật giải bài toán, bàn về các giả định và hạn chế của chúng, và giới thiệu các công cụ phổ biến. Bulletin 17C và EMA sẽ được sử dụng xuyên suốt trong các phần tiếp theo.

(nd: AEP)

AEP là viết tắt của Annual Exceedance Probability, tạm dịch là xác suất vượt ngưỡng hàng năm.

Giải thích:

AEP biểu thị xác suất mà một sự kiện (như lũ đỉnh) sẽ xảy ra hoặc bị vượt quá trong một năm bất kỳ.
Thường được dùng trong thiết kế thủy văn, đặc biệt là thiết kế các công trình như cống, cầu, hệ thống thoát nước,…

Ví dụ:

AEP (%)	Chu kỳ lặp lại (Return Period)	Ý nghĩa
1%	100 năm	Sự kiện chỉ có 1% khả năng xảy ra trong 1 năm
10%	10 năm	Xác suất 10% xảy ra trong 1 năm

AEP = 1% nghĩa là có 1% khả năng xảy ra lưu lượng đỉnh tương ứng hoặc lớn hơn trong bất kỳ năm nào — hay còn gọi là “lũ 100 năm”.

Tóm lại:

AEP (Annual Exceedance Probability) là cách diễn đạt rủi ro xảy ra của một trận lũ với lưu lượng nhất định trong một năm.
AEP càng nhỏ → sự kiện càng hiếm → lưu lượng đỉnh càng lớn → yêu cầu thiết kế càng nghiêm ngặt hơn.

(nd: Buletin 17C)

Tải Bulletin 17C

(nd: HEC-SSP)

tải HEC-SSP

HEC-SSP là phần mềm miễn phí do U.S. Army Corps of Engineers (USACE) phát triển, chuyên dùng để:

Phân tích tần suất lũ (Flood Frequency Analysis) theo Bulletin 17C (Log-Pearson Type III)
Ước lượng lưu lượng đỉnh ứng với các tần suất AEP (0.01, 0.02, 0.1, v.v.)
Phân tích dữ liệu mực nước, lưu lượng và thời gian
Hỗ trợ EMA (Expected Moments Algorithm) và các tùy chọn kiểm soát dữ liệu bị thiếu, outlier, v.v.

Miễn là bạn có dữ liệu đầu vào đúng định dạng (chuỗi lưu lượng đỉnh hàng năm), HEC-SSP hoàn toàn có thể chạy tốt và cho kết quả phù hợp.

Cân nhắc khi dùng

Vấn đề	Chi tiết
Tiêu chuẩn Mỹ	HEC-SSP thực hiện đúng theo hướng dẫn Bulletin 17C – là tiêu chuẩn của Mỹ. Nếu dự án yêu cầu tuân thủ tiêu chuẩn khác thì cần kiểm tra xem kết quả có phù hợp hay không.
Phân bố thống kê	Chủ yếu dùng Log-Pearson Type III,
Đơn vị	Đơn vị mặc định là cfs (cubic feet per second) và feet – bạn cần chuyển đổi về m³/s hoặc mét.
Ngôn ngữ	Giao diện hoàn toàn bằng tiếng Anh – cần có người sử dụng hiểu phần mềm và thông số đầu vào, đầu ra.

(nd: PeakFQ)

Tải PeakFQ

PeakFQ là một công cụ phân tích tần suất lũ (flood frequency analysis) dựa trên các chuỗi số liệu lưu lượng đỉnh (peak flow) từ các trạm đo.

Nếu bạn có dữ liệu lưu lượng đỉnh theo năm (annual peak flow data) từ các trạm thủy văn, bạn hoàn toàn có thể dùng PeakFQ để:

Phân tích phân bố tần suất (như Log-Pearson Type III)
Ước lượng lưu lượng ứng với tần suất 1%, 2%, 10%, v.v.
Tính toán các tham số thống kê như trung bình, độ lệch chuẩn, skew

Cân nhắc khi dùng

Vấn đề	Chi tiết
Phương pháp	PeakFQ tuân theo hướng dẫn Bulletin 17C của Hoa Kỳ, áp dụng cho dữ liệu của USGS.
Dữ liệu đầu vào	Bạn cần có chuỗi số liệu lưu lượng đỉnh hàng năm, với thời gian tối thiểu 10 năm trở lên, càng dài càng tốt. Số liệu phải đồng nhất và đáng tin cậy.
Hệ tọa độ, đơn vị	Phần mềm dùng đơn vị Mỹ theo mặc định (cfs, ft³/s). Cần chuyển đổi đơn vị nếu dữ liệu bạn đang dùng là m³/s.
Phân bố thống kê	PeakFQ chủ yếu dùng Log-Pearson Type III

(nd: EMA)

Expected Moments Algorithm (EMA) là một thuật toán được sử dụng trong thống kê và xử lý tín hiệu, đặc biệt trong các bài toán ước lượng tham số khi dữ liệu bị thiếu, không hoàn chỉnh, hoặc có nhiễu. Thuật toán này được sử dụng để ước lượng các moment kỳ vọng (expected moments) của biến ngẫu nhiên, thường là khi phân phối của biến chưa được biết rõ nhưng ta có thể mô hình hóa nó.

Định nghĩa:

Expected Moments Algorithm (EMA) là một kỹ thuật ước lượng thống kê lặp nhằm tìm ra các tham số của một phân phối xác suất bằng cách sử dụng moment kỳ vọng (như trung bình, phương sai…) thay vì quan sát trực tiếp.

Ý tưởng chính:

EMA tận dụng mối quan hệ giữa các tham số chưa biết và các moment của phân phối. Nó thường được dùng trong các trường hợp:

Dữ liệu không đầy đủ.
Có cấu trúc mô hình nhưng cần ước lượng tham số từ dữ liệu gián tiếp.
Mô hình thống kê ẩn (hidden structure), ví dụ: mô hình hỗn hợp (mixture models).

So sánh với EM Algorithm:

EMA có liên quan đến Expectation-Maximization (EM) Algorithm, nhưng không hoàn toàn giống:

Thuật toán	Dùng gì?	Mục tiêu
EM	Phân phối đầy đủ & dữ liệu bị ẩn	Tối đa hóa hàm hợp lý (likelihood)
EMA	Các moment kỳ vọng	Ước lượng tham số dựa trên moment

Ứng dụng:

Ước lượng tham số trong mô hình hỗn hợp Gaussian.
Phân tích tín hiệu có nhiễu.
Hệ thống radar, sonar, và các bài toán nhận dạng mẫu.
Machine learning khi dữ liệu bị thiếu.

5.1 Đặc điểm thống kê của lũ (Statistical Character of Floods)

Phân tích thống kê dựa trên các khái niệm về tập hợp và mẫu. Thống kê định nghĩa một tập hợp là toàn bộ tập hợp của tất cả các khả năng xảy ra của một đại lượng nhất định. Tập hợp có thể là hữu hạn hoặc vô hạn. Ví dụ, số khả năng có thể xảy ra khi gieo một con xúc xắc – một số cố định – là một tập hợp hữu hạn, trong khi số lưu lượng đỉnh hàng năm khác nhau có thể xảy ra đối với một dòng sông được xem như một tập hợp (gần như) vô hạn.

Trong mọi trường hợp thực tiễn, các kỹ sư phân tích dữ liệu thủy văn như một mẫu của một tập hợp vô hạn, và thường giả định rằng mẫu này là đại diện cho tập hợp mẹ. Trong trường hợp này, tính đại diện có nghĩa là các đặc trưng của mẫu, như các đại lượng đặc trưng về xu hướng trung tâm và phân bố tần suất, là giống với của tập hợp mẹ.

Thống kê suy diễn mô tả việc suy luận các đặc trưng và tham số của tập hợp từ các đặc trưng của mẫu. Kỹ sư thường sử dụng các kỹ thuật thống kê suy diễn để phân tích dữ liệu thủy văn vì các mẫu được dùng để dự đoán đặc trưng của tập hợp. Không chỉ giúp ước lượng các đặc trưng của tập hợp từ mẫu, các kỹ thuật thống kê suy diễn còn cung cấp công cụ để đánh giá độ tin cậy hoặc độ chính xác của các ước lượng. Các mục tiếp theo sẽ thảo luận một số phương pháp phân tích dữ liệu, minh họa các phương pháp này bằng dữ liệu lưu lượng đỉnh thực tế.

5.1.1 Độ dài chuỗi số liệu và dữ liệu lịch sử (Record Length and Historical Data)

Một yếu tố then chốt để suy luận đặc trưng của một tập hợp là sự tồn tại của một mẫu đủ lớn. Trong ngữ cảnh dữ liệu mực nước hoặc lưu lượng tại các trạm đo, các kỹ sư gọi đây là độ dài chuỗi số liệu. Việc ghi nhận thường xuyên lưu lượng đỉnh hằng năm tạo nên một chuỗi được gọi là “chuỗi hệ thống”. Các kỹ sư phân tích dữ liệu tại các trạm đo để ước lượng lưu lượng đỉnh theo xác suất hoặc tần suất vượt ngưỡng tại một vị trí cụ thể. Bulletin 17C (England et al. 2019) đề xuất rằng cần ít nhất 10 năm dữ liệu để đảm bảo cho một phân tích thống kê.

Tại một số vị trí, có thể có dữ liệu bổ sung hoặc ngoài chuỗi hệ thống. Những dữ liệu lịch sử này có thể ghi nhận các trận lũ lớn trước hoặc sau giai đoạn thu thập dữ liệu dòng chảy. Kỹ sư có thể thu thập thông tin này từ phỏng vấn, các bản tin báo chí, và khảo sát thực địa các dấu vết lũ. Khi có thể, việc thu thập và ghi nhận các dữ liệu này giúp cải thiện ước lượng tần suất lũ.

Khi có thông tin đáng tin cậy cho thấy có một hoặc nhiều trận lũ lớn xảy ra ngoài giai đoạn dữ liệu, kỹ sư sẽ hiệu chỉnh phân tích tần suất để tính đến những sự kiện này. Dù các ước lượng về dòng chảy lũ lịch sử chưa được ghi nhận có thể không chính xác, việc đưa chúng vào mẫu là cần thiết vì sai số trong việc ước lượng này thường nhỏ so với sự dao động ngẫu nhiên của lưu lượng đỉnh hằng năm. Tuy nhiên, nếu có bằng chứng cho thấy các trận lũ lớn xảy ra dưới điều kiện lưu vực khác với mẫu hiện có, chúng cần được điều chỉnh để phản ánh điều kiện hiện tại của lưu vực.

Trước Bulletin 17C, phương pháp đưa dữ liệu lịch sử vào phân tích tần suất tại trạm được xem như một thành phần riêng biệt khi phát triển các tham số thống kê để xây dựng đường tần suất lũ. Bulletin 17C đưa ra phương pháp điều chỉnh dữ liệu lịch sử dựa trên giả định rằng “dữ liệu từ chuỗi hệ thống đại diện cho giai đoạn giao thoa giữa dữ liệu hệ thống và dữ liệu lịch sử đáng tin cậy.” Kỹ sư nhập dữ liệu lịch sử vào phần mềm thực hiện phân tích Bulletin 17C như một phần của chuỗi đầu vào. Do đó, không cần tính toán riêng biệt các đặc trưng của dữ liệu lịch sử như trước đây.

5.1.2 Chuỗi hàng năm và Chuỗi thời đoạn (Annual and Partial-Duration Series)

Trước khi phân tích dữ liệu, kỹ sư sẽ sắp xếp dữ liệu một cách có hệ thống. Kỹ sư có thể sắp xếp dữ liệu theo nhiều cách, tùy thuộc vào các đặc điểm cụ thể đang được xem xét. Một cách sắp xếp dữ liệu theo đặc điểm cụ thể được gọi là phân phối hoặc chuỗi. Các nhóm dữ liệu phổ biến bao gồm độ lớn, thời điểm xảy ra và vị trí địa lý.

Các kỹ sư thường sắp xếp dữ liệu lũ theo chuỗi lưu lượng đỉnh hàng năm, hay đơn giản là chuỗi hàng năm. Chuỗi này là tập hợp các lưu lượng đỉnh lũ lớn nhất trong mỗi năm. Hình 5.1 minh họa một ví dụ về chuỗi hàng năm gồm 29 lưu lượng đỉnh lũ hàng năm tại Mono Creek gần Vermilion Valley, California.

Hình 5.1. Chuỗi lũ lớn nhất hàng năm, Mono Creek, California.

Kỹ sư cũng sắp xếp dữ liệu lũ theo chuỗi thời đoạn (partial-duration series). Phương pháp này sử dụng các lưu lượng lũ vượt một giá trị ngưỡng nhất định. Ví dụ, chuỗi thời đoạn có thể bao gồm tất cả các lưu lượng vượt qua lưu lượng tương ứng với một mực nước nào đó. Cơ quan Khảo sát Địa chất Hoa Kỳ (USGS) đặt ngưỡng cho chuỗi này sao cho trung bình mỗi năm có khoảng ba đỉnh lũ vượt ngưỡng đó. Trong khoảng thời gian 20 năm, điều này có thể cho ra 60 đỉnh lũ hoặc nhiều hơn, so với chỉ 20 đỉnh lũ trong chuỗi hằng năm. Hồ sơ lưu trữ bao gồm cả các đỉnh lũ hằng năm và các đỉnh lũ thời đoạn đối với các lưu vực chưa bị điều tiết. Hình 5.2 minh họa một phần hồ sơ của trạm Mono Creek bao gồm cả các trận lũ lớn nhất hằng năm và các trận lũ lớn phụ khác.

Kỹ sư chủ yếu sử dụng chuỗi thời đoạn để xác định thiệt hại do lũ hằng năm khi có thể xảy ra nhiều hơn một trận lũ gây thiệt hại trong cùng một năm. Nếu ngưỡng cho chuỗi này gần tương ứng với mực nước tràn bờ, thì các đỉnh vượt ngưỡng thường là các sự kiện gây thiệt hại. Phương pháp này giúp khắc phục một vấn đề của chuỗi cực trị hằng năm, cụ thể là chuỗi cực trị chỉ xem xét trận lũ lớn nhất trong năm mà có thể bỏ qua những trận lũ khác cũng lớn trong cùng năm — ngay cả khi chúng lớn hơn cả các trận lũ cực đại của những năm khác.

Hình 5.2. Lưu lượng dòng chảy thứ cấp lớn hàng năm và các lưu lượng dòng chảy thứ cấp lớn khác, Mono Creek, California

Nếu các trận lũ này được sắp xếp theo cùng cách như trong chuỗi hằng năm, chúng có thể được biểu diễn như trong Hình 5.3. Với một thứ hạng nhất định (từ lớn nhất đến nhỏ nhất), m, chuỗi thời đoạn (partial-duration series) cho kết quả lưu lượng đỉnh cao hơn so với chuỗi hằng năm, vì một số đỉnh lũ phụ lớn vượt quá giá trị đỉnh lũ hằng năm. Sự khác biệt này lớn nhất ở các giá trị lưu lượng thấp và trở nên nhỏ hơn ở các giá trị lưu lượng cao hơn. Nếu chu kỳ lặp lại của các đỉnh lũ này được tính theo thứ hạng chia cho số lần xuất hiện (không phải số năm), thì chu kỳ lặp lại của chuỗi thời đoạn có thể được tính từ chuỗi hằng năm theo công thức:

$$T_B = \frac{1}{\ln T_A \cdot \ln(T_A – 1)} \tag {5.1}$$

trong đó:

$T_B$ = Chu kỳ lặp lại của chuỗi thời đoạn (PDS) (năm)
$T_A$ = Chu kỳ lặp lại của chuỗi hằng năm (AMS) (năm)

Phương trình 5.1 cũng có thể được biểu diễn dưới dạng đồ thị như trong Hình 5.4. Đường cong này cho thấy độ sai khác lớn nhất giữa hai chuỗi xảy ra đối với các lưu lượng có chu kỳ lặp lại nhỏ hơn 10 năm. Ở khoảng này, độ sai khác khoảng 5%; với lưu lượng ứng với chu kỳ 5 năm, độ sai khác khoảng 10%. Đối với các trận lũ ít xuất hiện hơn, hai chuỗi tiến gần nhau hơn.

Hình 5.3. *Chuỗi hàng năm* và *chuỗi thời đoạn* cho Mono Creek, California (1930 đến 1940)

Hình 5.4. Mối quan hệ giữa *chuỗi hàng năm* và *chuỗi thời đoạn*.

Mối liên hệ giữa chuỗi hàng năm và chuỗi vượt ngưỡng là chúng giống nhau đối với các chu kỳ lặp lại từ 5 đến 10 năm hoặc lớn hơn. Chúng bắt đầu khác nhau ở những chu kỳ lặp lại ngắn hơn, trong đó chuỗi vượt ngưỡng có giá trị lớn hơn cho mỗi chu kỳ lặp lại.

Khi sử dụng chuỗi thời đoạn (partial-duartion series), điều quan trọng là cần đặc biệt cẩn trọng để đảm bảo rằng các đỉnh lũ được chọn là các sự kiện độc lập. Nói cách khác, việc sử dụng chuỗi th72i đoạn luôn tồn tại sự đánh đổi, bởi nó yêu cầu tiêu chí xác định tính độc lập của các đỉnh lũ. Hai đỉnh lũ lớn cách nhau vài ngày và được ngăn cách bằng một khoảng thời gian có lưu lượng thấp có thể là một phần của cùng một sự kiện thủy khí tượng. Trong thực tế, nhận biết điều này rất khó, vì đỉnh lũ phụ có thể xảy ra trong cùng một trận lũ do điều kiện ẩm ướt ban đầu cao. Trong trường hợp đó, trận lũ phụ không phải là một sự kiện độc lập.

Cũng cần thận trọng khi chọn ngưỡng dưới hoặc lũ cơ sở (base flood), vì điều này ảnh hưởng trực tiếp đến việc tính toán các đặc trưng của phân phối (ví dụ: trung bình, phương sai và độ lệch chuẩn, cũng như hệ số lệch), tất cả đều có thể làm thay đổi kết quả xác định lưu lượng đỉnh.

Vì lý do này (sự khó khăn trong việc xác định tính độc lập của các đỉnh lũ liền kề), các kỹ sư thường sử dụng chuỗi hằng năm và chuyển đổi kết quả sang chuỗi thời đoạn thông qua phương trình 5.1. Đối với các sự kiện ít xảy ra hơn (chu kỳ lặp lại lớn hơn 5 đến 10 năm), chuỗi hằng năm là phù hợp và không cần phân tích nào khác.

5.1.3 Các vấn đề thường gặp với dữ liệu tại chỗ

Phân tích tần suất sử dụng phương pháp thống kê dựa trên việc sắp xếp thứ tự của dữ liệu (order-theory statistics). Phân tích này phụ thuộc vào một số giả định cơ bản sau:

Dữ liệu là các sự kiện ngẫu nhiên độc lập và phân phối giống nhau.
Dữ liệu thuộc cùng một tổng thể mẫu.
Dữ liệu được xem là đại diện cho tổng thể mẫu.
Quá trình sinh ra các sự kiện này là ổn định (stationary) theo thời gian.

(nd: các giả định cơ bản)

Dữ liệu là các sự kiện ngẫu nhiên độc lập và phân phối giống nhau
→ Mỗi trận lũ là một biến ngẫu nhiên, không bị ảnh hưởng bởi các trận lũ khác, và tuân theo cùng một phân phối xác suất.
Dữ liệu thuộc về tổng thể mẫu (sample population)
→ Tập dữ liệu đại diện cho một nhóm lớn hơn mà ta đang phân tích.
Dữ liệu được xem là đại diện cho tổng thể (representative)
→ Các số liệu đo tại chỗ đủ tốt để suy ra đặc điểm của toàn bộ khu vực.
Quá trình sinh ra dữ liệu là dừng theo thời gian (stationary)
→ Các đặc điểm thống kê (trung bình, phương sai…) của quá trình không thay đổi theo thời gian.
(Ví dụ: không có xu hướng tăng lũ do biến đổi khí hậu hoặc đô thị hóa.)

Vấn đề thường gặp khi các giả định không đúng:

Dữ liệu không đồng nhất (nonhomogeneity)
→ Ví dụ: dữ liệu từ hai thời kỳ khí hậu khác nhau.
Giá trị ngoại lai (outliers)
→ Lũ cực trị bất thường có thể làm sai lệch phân tích.
Hồ sơ không đầy đủ (incomplete records)
→ Thiếu năm đo đạc hoặc mất dữ liệu.
Dòng chảy bằng 0 (zero flows)
→ Dễ gặp ở các lưu vực khô hạn.
Tổng thể pha trộn (mixed populations)
→ Dữ liệu từ hai loại sự kiện khác nhau (ví dụ: lũ do mưa lớn và lũ do băng tan).

(nd: stationary)

Một chuỗi dữ liệu được gọi là stationary nếu các đặc điểm thống kê của nó như:
+ trung bình,
+ phương sai,
+ phân phối xác suất,
… không thay đổi theo thời gian.

Ví dụ trong thủy văn:
+ Nếu lưu lượng đỉnh hằng năm của một con sông giữ đặc trưng ổn định trong 50 năm (không có xu hướng tăng/giảm rõ rệt), ta gọi chuỗi đó là stationary.
+ Ngược lại, nếu có xu hướng tăng dần do biến đổi khí hậu, đô thị hóa hoặc thay đổi sử dụng đất → chuỗi không stationary (non-stationary).

Trong phân tích tần suất (như tính lũ 100 năm), giả định stationarity là nền tảng để:
+ áp dụng phân phối xác suất chuẩn,
+ dự báo tin cậy trong tương lai.

Nếu dữ liệu không stationary, thì kết quả phân tích tần suất sẽ sai lệch nếu không được điều chỉnh.

Việc sử dụng phân tích tần suất giả định rằng không có lỗi đo đạc hoặc tính toán. Khi phân tích một tập dữ liệu, kỹ sư có thể đánh giá thống kê tính hợp lệ của bốn giả định trên bằng các bài kiểm tra được mô tả trong Bulletin 17C. Các vấn đề liên quan đến những giả định này bao gồm không đồng nhất (nonhomogeneity), giá trị ngoại lai (outliers), dữ liệu không đầy đủ (incomplete records), lưu lượng bằng không (zero flows), và tổng thể hỗn hợp (mixed populations).
.

5.1.3.1 Không đồng nhất trong chuỗi lũ hằng năm

Kỹ sư có thể sắp xếp chuỗi lũ hằng năm theo thời điểm xảy ra trong một cách gọi là chuỗi thời gian. Bằng cách kiểm tra trực quan một chuỗi thời gian, như trong Hình 5.5, kỹ sư sẽ xác định xem có xu hướng hay sự thay đổi có hệ thống nào theo thời gian hay không. Dựa trên quan sát trực quan Hình 5.5, không thấy xu hướng trong chuỗi lưu lượng đỉnh của các dữ liệu từ Mono Creek.

Để so sánh, Hình 5.6 trình bày một chuỗi thời gian thứ hai với 24 năm lưu lượng đỉnh hằng năm tại lưu vực Pond Creek, Kentucky. Lưu vực Pond Creek bắt đầu đô thị hóa vào cuối thập niên 1950, do đó đỉnh lũ có xu hướng tăng. Điều này được thể hiện rõ qua sự gia tăng giá trị lưu lượng đỉnh trong thời kỳ đô thị hóa. Như hình minh họa, quá trình đô thị hóa đã làm tăng ít nhất gấp đôi độ lớn đỉnh lũ. Những nguyên nhân khác của xu hướng này cũng cần được xem xét để đảm bảo rằng sự phát triển đô thị là nguyên nhân chính.

Phân tích xu thế đóng vai trò quan trọng trong việc đánh giá ảnh hưởng của thay đổi sử dụng đất và các tham số phụ thuộc thời gian khác. Bulletin 17C, HEC-17 (FHWA 2016) và nghiên cứu của Helsel et al. (2020) trình bày các kỹ thuật nhằm phát hiện các xu thế có thể xảy ra. Kỹ sư có thể sử dụng phân tích xu thế để đưa ra ước tính cho các sự kiện trong tương lai và hiểu rõ hơn các sự kiện trong quá khứ.

Hình 5.5. Chuỗi thời gian lưu lượng đỉnh hàng năm từ Mono Creek, California.

Hình 5.6. Chuỗi thời gian lưu lượng đỉnh hàng năm từ Pond Creek, Kentucky

5.1.3.2 Giá trị ngoại lai

Giá trị ngoại lai (Outlies), có thể xuất hiện ở một hoặc cả hai đầu của phân bố tần suất, là các giá trị đo được nhưng dường như thuộc về một mẫu dài hơn hoặc một tổng thể khác. Điều này xảy ra khi một hoặc nhiều điểm dữ liệu không tuân theo xu hướng của phần dữ liệu còn lại.

Trong Bulletin 17B (Water Resources Council 1982), kiểm định Grubbs-Beck (GB) được sử dụng để xác định các giá trị ngoại lai thấp. Phương pháp này chỉ xác định được một giá trị ngoại lai thấp duy nhất và dễ bị ảnh hưởng bởi sự hiện diện của nhiều giá trị ngoại lai. Nhiều giá trị ngoại lai thấp có thể gây ảnh hưởng đáng kể đến đường cong tần suất, ví dụ làm tăng độ lệch chuẩn, dẫn đến khoảng cách tiêu chuẩn hóa giữa các quan sát quá nhỏ không đủ để kích hoạt kiểm định GB.

Do đó, Bulletin 17C đưa ra một phiên bản tổng quát của kiểm định GB, gọi là kiểm định Grubbs-Beck nhiều điểm (Multiple Grubbs-Beck Test – MGBT), nhằm xác định nhiều quan sát “bất thường” nhỏ hoặc có khả năng ảnh hưởng mạnh (PILF). MGBT cũng đánh giá chính xác các trường hợp có một hoặc nhiều giá trị bằng 0 hoặc thấp hơn ngưỡng ghi nhận.

(nd: MGBT & PILF)

Multiple Grubbs-Beck Test (MGBT) = Kiểm định Grubbs-Beck mở rộng (nhiều giá trị):
+ Đây là tên của một phép kiểm định thống kê mở rộng từ phương pháp Grubbs-Beck (GB) Test.
+ Dùng để phát hiện nhiều giá trị ngoại lai nhỏ trong chuỗi dữ liệu thủy văn (như lưu lượng lũ đỉnh).
+ Được giới thiệu trong Bulletin 17C.

Influential low flood (PILF) = Trận lũ nhỏ có ảnh hưởng mạnh đến kết quả phân tích
+ Tức là các trận lũ nhỏ có khả năng gây ảnh hưởng lớn đến kết quả phân tích tần suất nếu không xử lý đúng.
+ Thường là outlier nhỏ (low outlier) gây lệch kết quả hồi quy hoặc đường tần suất.

Bulletin 17C giới thiệu phép kiểm định Multiple Grubbs-Beck Test (MGBT) để xác định nhiều trận lũ nhỏ bất thường (PILF) có thể ảnh hưởng đến phân tích tần suất.

Cách tiếp cận cơ bản là xem xét chuỗi các giá trị logarit của đỉnh lũ hàng năm, {X₁, …, Xₙ}. Chuỗi đỉnh lũ hàng năm đã được sắp xếp theo thứ tự tăng dần (cũng là giá trị logarit) là {X[1:n], X[2:n], …, X[n:n]}.

Giả thuyết gốc (null hypothesis) là tất cả các quan sát đều xuất phát từ cùng một tổng thể gồm các biến ngẫu nhiên chuẩn, độc lập và phân phối giống nhau. Giả thuyết đối ngược (alternative hypothesis) là quan sát nhỏ thứ k trong tập dữ liệu, X[k:n], có giá trị bất thường nhỏ so với các quan sát còn lại.

Quy trình EMA trong Bulletin 17C bao gồm việc phát hiện các giá trị ngoại lai thấp, do đó không cần tính toán riêng biệt. Các giá trị ngoại lai được phát hiện trong quá trình lặp để giải hệ số phân bố, và kết quả được điều chỉnh tương ứng.

(nd: X[1:n])

EMA (Expected Moments Algorithm): thuật toán sử dụng trong Bulletin 17C để ước tính các tham số phân phối khi có số liệu bị thiếu hoặc có ngoại lai.

X[k:n] là ký hiệu thống kê thứ tự (order statistic): phần tử nhỏ thứ k trong tập có n phần tử.

5.1.3.3 Hồ sơ không đầy đủ và lưu lượng bằng không

Hồ sơ lưu lượng dòng chảy thường bị gián đoạn; điều này có thể do nhiều nguyên nhân. Các trạm đo có thể bị ngừng hoạt động hoặc bị tháo dỡ trong một thời gian, có thể có các giai đoạn lưu lượng bằng không (zero flows) tại các vùng khô hạn ở Hoa Kỳ, hoặc có thể có thời kỳ mà trạm đo không hoạt động do lưu lượng quá thấp không thể đo được, hoặc quá lớn gây hỏng trạm đo. Dữ liệu đầu vào cho phân tích EMA trong Bulletin 17C bao gồm cả những phần này như là một phần của hồ sơ hệ thống.

5.1.3.4 Tổng thể hỗn hợp

Ở một số vùng của Hoa Kỳ, nhiều loại hiện tượng gây lũ như tuyết tan ở vùng núi, bão dọc theo vùng vịnh và bờ biển Đại Tây Dương, hoặc các cơ chế mưa bão khác. Các nhà phân tích xem xét các hồ sơ ghi nhận sự kiện từ nhiều loại hiện tượng là tổng thể hỗn hợp, vì chúng biểu thị tín hiệu từ hai hoặc nhiều tổng thể. Do đó, các mẫu từ những tổng thể này cũng là hỗn hợp. Các hồ sơ này thường có hệ số lệch cao và khi vẽ đồ thị thường cho thấy có thể tồn tại hai phân bố khác nhau. Bulletin 17C đề cập đến cách xử lý các trường hợp như vậy.

5.1.4 Xác suất vượt ngưỡng hàng năm và chu kỳ lặp

Như đã giới thiệu ở Mục 1.3, các kỹ sư thường sử dụng xác suất vượt ngưỡng hàng năm (AEP) của một lưu lượng lũ nhất định, hoặc phổ biến hơn là giá trị lưu lượng ứng với một AEP đã cho. AEP là xác suất mà một lưu lượng đỉnh sẽ bị vượt quá trong bất kỳ năm nào. Các định luật xác suất xác định phương pháp phân tích thống kê của các quan sát lặp lại đối với một sự kiện (ví dụ, các quan sát lưu lượng đỉnh hằng năm). Các kỹ sư ước lượng xác suất vượt ngưỡng lưu lượng đỉnh, $Q_A$, bằng cách lấy tỷ lệ số lần vượt ngưỡng $Q_A$ so với tổng số quan sát trong chuỗi dài:

$$P(Q_A) = \frac{n_1}{n} \tag{5.2}$$

trong đó:

$P(Q_A)$ = Xác suất vượt ngưỡng $Q_A$
$n_1$ = Số lần vượt ngưỡng giá trị lưu lượng lũ $Q_A$
n = Tổng số quan sát (trong chuỗi dài)

Xác suất không vượt (hay thất bại) của một sự kiện như lưu lượng đỉnh $Q_A$ được tính bằng:

$$P(\text{not } Q_A) = \frac{n – n_1}{n} = 1 – \frac{n_1}{n} = 1 – P(Q_A) \tag{5.3}$$

Kết hợp các phương trình (5.2) và (5.3) cho ta:

$$P(Q_A) + P(\text{not } Q_A) = 1 \tag{5.4}$$

Do đó, xác suất một sự kiện bị vượt sẽ nằm trong khoảng từ 0 đến 1 (tức là,$0 \leq P(Q_A) \leq 1$). Nếu một sự kiện chắc chắn xảy ra, nó có xác suất bằng 1; nếu hoàn toàn không thể xảy ra, thì xác suất của nó là 0.

Chu kỳ lặp là một cách diễn đạt thay thế cho AEP. Nếu xác suất vượt của một lưu lượng đỉnh hằng năm nhất định hoặc tần suất tương đối được xác định từ phương trình 5.2 là 0.2, điều đó có nghĩa là có 20% khả năng rằng trận lũ này, xét trong một khoảng thời gian dài, sẽ bị vượt qua trong bất kỳ năm nào. Nói cách khác, trận lũ này sẽ bị vượt trung bình một lần mỗi 5 năm. Các kỹ sư gọi khoảng thời gian đó là chu kỳ lặp (return period). Như đã được giới thiệu ở Mục 3.4.5, chu kỳ lặp T liên hệ với xác suất vượt ngưỡng thông qua biểu thức:

$$T = \frac{1}{P(Q_A)} \tag{5.5}$$

trong đó:

T = Chu kỳ lặp
$P(Q_A)$ = Xác suất vượt qua giá trị lưu lượng $Q_A$

Góc nhìn thường nhật về xác suất

Hầu hết mọi người đều có hiểu biết trực quan về khái niệm xác suất xảy ra của một sự kiện, hay xác suất vượt ngưỡng. Họ biết rằng nếu tung một đồng xu công bằng, thì khả năng ra mặt ngửa hay mặt sấp là như nhau, bất kỳ trong sáu kết quả có khả năng bằng nhau (các số từ 1 đến 6) đều có thể xảy ra. Mỗi kết quả có xác suất xảy ra là 1/6. Do đó, khả năng ra số 3 trong một lần tung là 1 trên 6. Những ví dụ này dễ hiểu vì tất cả các kết quả có thể xảy ra đều đã biết trước khi đồng xu được tung hay xúc xắc được thả, và các xác suất có thể được định lượng rõ ràng.

Một trận lũ với chu kỳ lặp lại là 5 năm không có nghĩa là trận lũ này sẽ xảy ra một lần mỗi 5 năm. Thay vào đó, có xác suất 20 phần trăm xuất hiện trận lũ bằng hoặc lớn hơn (xác suất vượt ngưỡng) trong bất kỳ năm nào; hai trận lũ 5 năm có thể xảy ra liên tiếp trong hai năm liền. Cũng có khả năng rằng một trận lũ 5 năm sẽ không xảy ra trong suốt một giai đoạn 10 năm. Điều tương tự cũng đúng với bất kỳ trận lũ nào có chu kỳ lặp lại được xác định. Khái niệm quan trọng này dẫn đến việc sử dụng định lý xác suất nhị thức để ước tính các xác suất khác nhau về việc xảy ra (hoặc không xảy ra) của các sự kiện quan tâm trong vòng đời của một dự án. Thông tin chi tiết hơn được trình bày ở Mục 10.3.

5.1.5 Khái niệm về phân tích tần suất

Không thể dự đoán chính xác các trận lũ trong tương lai. Do đó, các kỹ sư sử dụng các khái niệm xác suất để dự báo biên độ và tần suất của chúng. Để làm điều này, họ thu thập và phân tích một mẫu các giá trị lũ nhằm ước lượng một tổng thể có thể đại diện cho lũ lụt tại vị trí đó. Sau đó, kỹ sư sử dụng tổng thể giả định này để thực hiện các dự báo về biên độ và tần suất của lũ. Điều quan trọng là phải nhận ra rằng tổng thể được ước lượng từ thông tin mẫu và rằng tổng thể giả định, chứ không phải mẫu, mới được sử dụng để đưa ra các nhận định về khả năng xảy ra lũ trong tương lai. Phần này giới thiệu các khái niệm để phân tích dữ liệu mẫu nhằm xác định một phân bố xác suất có thể đại diện cho sự xuất hiện của lũ lụt.

5.1.5.1 Biểu đồ phân bố tần suất (Histogram)

Biểu đồ phân bố tần suất chứa dữ liệu được sắp xếp theo các lớp hoặc hạng mục với tần suất tương ứng của từng lớp. Kỹ sư sử dụng biểu đồ phân bố tần suất để trực quan hóa dữ liệu mẫu và nhận biết các đặc điểm cơ bản của phân bố. Phân bố thể hiện biên độ của các sự kiện trong quá khứ đối với các khoảng giá trị nhất định của biến. Kỹ sư cũng có thể tính xác suất mẫu bằng cách chia tần suất của mỗi khoảng cho kích thước mẫu.

Kỹ sư xây dựng biểu đồ phân bố tần suất bằng cách đầu tiên xem xét phạm vi biên độ (tức là hiệu giữa trận lũ lớn nhất và nhỏ nhất) và chia phạm vi này thành một số nhóm có kích thước phù hợp, thường từ 5 đến 20. Các nhóm này được gọi là khoảng lớp. Kích thước của khoảng lớp đơn giản là phạm vi chia cho số khoảng lớp đã chọn.

Quy tắc kinh nghiệm cho biểu đồ phân bố tần suất

Kỹ sư thường sử dụng các quy tắc kinh nghiệm khi chọn số lượng khoảng lớp:
+ Chọn các khoảng lớp không chồng lấn và không có khoảng trống giữa các ranh giới của khoảng.
+ Chọn số lượng khoảng lớp sao cho hầu hết các khoảng có ít nhất một sự kiện.
+ Ưu tiên các khoảng lớp có chiều rộng bằng nhau.
+ Nhắm đến việc hầu hết các khoảng lớp có ít nhất năm lần xuất hiện, dù điều này có thể khó thực hiện với khoảng đầu và cuối

(nd: Histogram)

Histogram (biểu đồ phân bố tần suất) là một dạng biểu đồ cột dùng để biểu diễn phân bố của một tập hợp dữ liệu số theo các khoảng (gọi là lớp hoặc khoảng lớp – class intervals). Nó cho thấy tần suất xuất hiện (số lần lặp lại) của các giá trị dữ liệu trong mỗi khoảng.

Cấu trúc cơ bản:

Trục hoành (x-axis): các khoảng giá trị (ví dụ: lượng nước lũ từ 0–199, 200–399, v.v.).
Trục tung (y-axis): số lượng quan sát rơi vào mỗi khoảng (tần suất – frequency).

Mục đích:

Histogram giúp:

Nhìn thấy hình dạng tổng thể (phân bố) của dữ liệu.
Phát hiện sự thiên lệch, tập trung, rải rác, hoặc các giá trị bất thường.
So sánh mật độ dữ liệu giữa các khoảng khác nhau.

Khác với biểu đồ cột thông thường:

Histogram chỉ dùng cho dữ liệu số liên tục.
Các cột của histogram liền nhau (không có khoảng trắng), vì các khoảng liên tiếp không chồng lặp nhưng tiếp nối nhau.

Ví dụ 5.1: Tạo biểu đồ tần suất
Mục tiêu:
Tạo nhiều biểu đồ tần suất của lưu lượng đỉnh năm từ dữ liệu ở Mono Creek, California.

Dữ liệu cho trước:
Dữ liệu từ Bảng 5.1 được sử dụng làm dữ liệu đầu vào cho ví dụ này.

Bảng 5.1. Dữ liệu lưu lượng đỉnh hằng năm tại Mono Creek.

Năm	Annual Maximum (ft³/s)	Năm	Annual Maximum (ft³/s)	Năm	Annual Maximum (ft³/s)	Năm	Annual Maximum (ft³/s)	Năm	Annual Maximum (ft³/s)
1922	1390	1928	1110	1934	404	1940	1130	1946	910
1923	940	1929	750	1935	1230	1941	1420	1947	988
1924	488	1930	848	1936	1060	1942	1170	1948	838
1925	1060	1931	525	1937	1210	1943	1440	1949	916
1926	1030	1932	1,420	1938	1760	1944	855	1950	1,100
1927	1420	1933	1,350	1939	540	1945	1370	1951	n/a

Chú thích: “n/a” nghĩa là không có dữ liệu.

Bước 1. Dựa theo các quy tắc đã nêu, hãy đưa các giá trị lưu lượng tại trạm đo vào bảng bằng cách sử dụng các khoảng lớp đã chọn.

Lưu lượng đỉnh lớn nhất tại Mono Creek là 1760 ft³/s và nhỏ nhất là 404 ft³/s. Giá trị trung bình là 1.060 ft³/s và độ lệch chuẩn là 330 ft³/s. Nếu sử dụng kích thước khoảng lớp là 200 ft³/s thì sẽ có 9 khoảng lớp. Điều này phù hợp với phạm vi được đề xuất từ 5 đến 20 khoảng. Hãy đếm số lần xuất hiện trong từng khoảng và điền vào Bảng 5.2.

Bảng 5.2. Biểu đồ tần suất và phân tích tần suất tương đối của dữ liệu lũ hằng năm tại Mono Creek.

Interval of Annual Floods *Khoảng lũ hằng năm (ft³/s)*	Frequency Tần suất	Relative Frequency Tần suất tương đối	Cumulative Frequency *Tần suất tích lũy*
0 – 199	0	0.000	0.000
200 – 399	0	0.000	0.000
400 – 599	4	0.138	0.138
600 – 799	1	0.034	0.172
800 – 999	7	0.241	0.414
1000 – 1199	7	0.241	0.655
1200 – 1399	5	0.172	0.828
1400 – 1599	4	0.138	0.966
1600 – 1799	1	0.034	1.000

Bước 2. Dùng số lượng giá trị của mỗi lớp để tạo biểu đồ tần suất của dữ liệu.

Tạo biểu đồ tần suất bằng các giá trị trong Bảng 5.2 như thể hiện ở Hình 5.7.

Bước 3. Tính tần suất tương đối của các sự kiện trong mỗi lớp (hoặc mỗi khoảng) bằng cách lấy số lượng sự kiện trong mỗi lớp chia cho kích thước mẫu.

Tính tần suất tương đối của mỗi lớp bằng cách lấy số lượng giá trị trong lớp (tần suất trong Bảng 5.2) chia cho tổng số quan sát (trong trường hợp này là 29 quan sát). Điền các giá trị này vào Bảng 5.2.

Bước 4. Tạo biểu đồ tần suất tương đối cho mỗi lớp.

Thao tác này có thể thực hiện bằng cách thêm một trục tung thứ hai vào biểu đồ đã tạo trước đó. Lợi thế của biểu đồ kiểu này là kết hợp cả tần suất và tần suất tương đối trong cùng một hình. Thêm tần suất tương đối vào Hình 5.7 bằng cách thêm một trục tung thứ hai ở phía bên phải của hình.

Hình 5.7. Biểu đồ phân bố tần suất, Mono Creek, California.

Kết quả:
Kết quả trong Bảng 5.2 và biểu đồ phân bố tần suất trong Hình 5.7. Lưu ý rằng một số khoảng giá trị lưu lượng xuất hiện thường xuyên hơn các khoảng khác. Cũng cần lưu ý rằng dữ liệu có phần phân tán và phân bố theo trục tung không đối xứng. Mặc dù đã cố gắng để mỗi lớp có tần suất từ năm trở lên, nhưng điều này không thực hiện được với các khoảng lớp đã chọn. Do kích thước mẫu nhỏ, nên rất khó để đánh giá phân bố của tổng thể chỉ dựa vào biểu đồ phân bố tần suất.

Ví dụ 5.2: Tạo các biểu đồ phân bố tần suất từ một bộ dữ liệu duy nhất.
Mục tiêu: Xem xét ảnh hưởng của các kích thước khoảng lớp khác nhau đến biểu đồ phân bố tần suất thu được.

Nhiều chuỗi số liệu lũ có độ dài ghi nhận tương đối ngắn. Với các chuỗi như vậy, biểu đồ phân bố tần suất có thể không đủ để đánh giá đặc điểm hình dạng của phân bố lũ. Chuỗi số liệu lưu lượng tại Pond Creek trong Bảng 5.3 là một ví dụ minh họa tốt. Với độ dài chuỗi là 24 năm, sẽ không thực tế nếu sử dụng nhiều hơn 5 hoặc 6 khoảng lớp khi tạo biểu đồ phân bố tần suất. Do đó, năm khoảng lớp khác nhau được xây dựng để so sánh.

Bảng 5.3. Chuỗi lưu lượng đỉnh năm tại Pond Creek, Kentucky:

Năm	Lưu lượng đỉnh năm (ft³/s)
1945	2.002
1946	1.741
1947	1.462
1948	2.062
1949	1.532
1950	1.593
1951	1.691
1952	1.419
1953	1.331
1954	607
1955	1.381
1956	1.660
1957	2.292
1958	2.592
1959	3.263
1960	2.493
1961	3.083
1962	2.521
1963	3.362
1964	8.026
1965	4.311
1966	4.382
1967	3.224
1968	4.322

Bước 1. Dựng biểu đồ phân bố tần suất sử dụng năm khoảng lớp.
Sử dụng kích thước khoảng lớp là 1.412 ft³/s để dựng biểu đồ tần suất từ số liệu của Pond Creek. Cột thứ hai của Bảng 5.4 hiển thị kết quả. Biểu đồ thu được có dạng giống thủy đồ, với ít giá trị ở ô thấp nhất và một đỉnh rõ rệt ở ô thứ hai.

Bước 2. Vẽ biểu đồ phân bố tần suất thứ hai với năm khoảng lớp có kích thước khác với Bước 1.
Sử dụng khoảng lớp là 1.766 ft³/s để vẽ biểu đồ phân bố tần suất thứ hai. Cột thứ ba của Bảng 5.4 trình bày kết quả. Biểu đồ này có dạng giống hình hộp với nhiều quan sát nằm trong hai ô đầu tiên, các ô còn lại rất ít và một ô trung gian không có quan sát nào.

Bước 3. Vẽ biểu đồ phân bố tần suất thứ ba với khoảng lớp thay đổi.
Cột thứ năm của Bảng 5.4 chứa khoảng lớp cho ví dụ này. Khoảng lớp thay đổi, rộng hơn ở hai đầu thấp và cao của dải dữ liệu, và hẹp hơn ở giữa. Biểu đồ thứ ba được trình bày ở cột thứ tư của Bảng 5.4 có dạng giảm theo hàm mũ.

Kết quả:
Hình 5.8 trình bày ba lựa chọn kích thước khoảng (bin) và ảnh hưởng của chúng đến dạng của biểu đồ phân bố tần suất. Kết quả cho thấy độ dài chuỗi số liệu ngắn gây khó khăn trong việc xác định phân bố lũ.

Bảng 5.4. Các phương án Biểu đồ phân bố tần suất của dữ liệu tại Pond Creek, Kentucky:

Interval (khoảng)	Histogram 1 Frequency	Histogram 2 Frequency	Histogram 3 Frequency	Histogram 3 Interval, ft³/s
1	3	10	10	0 – 1.765
2	13	10	5	1.766 – 2.648
3	4	3	5	2.649 – 3.531
4	3	0	3	3.532 – 5.297
5	1	1	1	> 5.297

Hình 5.8. Ba Histogram cho Pond Creek, Kentucky.

(nd: dạng giảm theo hàm mũ)

Trong ngữ cảnh biểu đồ phân bố (histogram), điều này mô tả một hình dạng mà trong đó:

Tần suất (frequency) bắt đầu rất cao ở khoảng lớp đầu tiên,
Sau đó giảm dần nhanh chóng khi chuyển sang các khoảng lớp cao hơn,
Giống với đồ thị của hàm mũ giảm (exponential decay function) trong toán học.

Bạn có thể hình dung dạng đó giống như một đường cong trượt dốc từ trái sang phải, biểu thị rằng các giá trị lớn hiếm gặp hơn rất nhiều so với các giá trị nhỏ.

5.1.5.2 Phương pháp moment để ước lượng tham số

Phân tích tần suất lũ sử dụng thông tin mẫu để khớp một tổng thể với một phân phối xác suất. Các phân phối này có các tham số được ước lượng nhằm đưa ra các phát biểu xác suất về khả năng xảy ra của các lưu lượng lũ trong tương lai. Phương pháp moment thực hiện bằng cách cho các moment của chuỗi số liệu lũ quan trắc bằng với các moment của phân phối tổng thể, từ đó cho ra các phương trình để ước lượng các tham số của tổng thể như là hàm của các moment của mẫu.

(nd: moment)

Trong thủy văn, từ “moment” thường xuất hiện trong ngữ cảnh thống kê mô tả dữ liệu thủy văn như: lưu lượng đỉnh, lượng mưa, mực nước, v.v.

“moment” là đại lượng dùng để mô tả đặc điểm hình dạng phân phối của dữ liệu thủy văn (như trung bình, độ phân tán, độ lệch, độ nhọn…)

Các moment thường dùng trong thủy văn:

Moment	Tên gọi	Ý nghĩa trong thủy văn
Moment bậc 1	Trung bình (mean)	Giá trị trung bình của lưu lượng, mưa, v.v.
Moment bậc 2	Phương sai (variance)	Mức độ phân tán của dữ liệu quanh trung bình
Moment bậc 3	Độ lệch (skewness)	Mức độ bất đối xứng: lũ lệch phải là phổ biến
Moment bậc 4	Độ nhọn (kurtosis)	Phân phối nhọn (nhiều giá trị cực trị) hay bẹt

Khi phân tích tần suất lũ, người ta tính các moment để:
+ Kiểm tra phân phối thống kê phù hợp (log-Pearson type III, Gumbel…)
+ Xác định xem dữ liệu có ngoại lệ, bất đối xứng hay không
+ Phục vụ cho các phương pháp như Expected Moments Algorithm (EMA) trong Bulletin 17C

Khi bạn phân tích chuỗi đỉnh lũ hàng năm để chọn phân phối thống kê, bạn cần tính:

Moment bậc 1 → giá trị trung bình
Moment bậc 2 → phương sai
Moment bậc 3 → độ lệch → nếu lệch phải → chọn log-Pearson III

Ví dụ, nếu một tổng thể được giả định tuân theo phân phối f(x), thì giá trị trung bình của mẫu $\bar{X}$ có thể được liên hệ với định nghĩa của kỳ vọng của tổng thể μ:

$$\bar{X} = \int_{-\infty}^{\infty} x f(x) dx \tag{5.6}$$

Phương sai của mẫu $S^2$ có thể được liên hệ với định nghĩa phương sai của tổng thể $\sigma^2$:

$$S^2 = \int_{-\infty}^{\infty} (x – \mu)^2 f(x) dx \tag{5.7}$$

Vì f(x) là một hàm bao gồm các tham số μ và $\sigma^2$, nên nghiệm của các phương trình (5.6) và (5.7) sẽ là các biểu thức liên hệ các tham số mẫu $\bar{X}$ và $S^2$ với các tham số tổng thể μ và $\sigma^2$.

5.1.5.3 Xu hướng trung tâm (Central Tendency)

Xu hướng trung tâm mô tả sự phân cụm của dữ liệu xung quanh các giá trị độ lớn cụ thể. Giá trị trung bình là thước đo xu hướng trung tâm được sử dụng phổ biến nhất và được tính bằng cách cộng tất cả các giá trị riêng lẻ của dữ liệu và chia tổng này cho số lượng các giá trị riêng lẻ:

$$\bar{Q} = \frac{1}{n} \sum_{i=1}^{n} Q_i \tag{5.8}$$

trong đó:

$\bar{Q}$ = Giá trị trung bình (trung bình cộng) của các lưu lượng đỉnh
$Q_i$ = Lưu lượng đỉnh thứ i
n = Số lượng các giá trị đỉnh

Số trung vị (median), một thước đo khác của xu hướng trung tâm, là giá trị nằm giữa khi các phần tử được sắp xếp theo thứ tự độ lớn. Khi có số lượng phần tử là chẵn, số trung vị được lấy là trung bình của hai giá trị trung tâm.

Giá trị mode là thước đo thứ ba của xu hướng trung tâm. Mode là giá trị thường gặp nhất hoặc phổ biến nhất xuất hiện trong tập dữ liệu. Đối với các biến liên tục, như lưu lượng dòng chảy, mode được định nghĩa là giá trị trung tâm của khoảng lớp có tần suất cao nhất.

Mean, Median, Mode

Mean là cách gọi chính xác hơn của trung bình cộng và thường được gọi là “average“. Mean nhạy cảm với các giá trị rất lớn (hoặc rất nhỏ) nằm xa so với trung bình.

Median không bị ảnh hưởng nhiều bởi các quan sát rất lớn hoặc rất nhỏ vì median chỉ dựa vào thứ hạng của các quan sát, không phải giá trị cụ thể của chúng.

Mode là giá trị xuất hiện thường xuyên nhất trong mẫu.

Mean và median đều được sử dụng trong thống kê thủy văn. Mode thì ít được sử dụng hơn.

5.1.5.4 Độ biến thiên (Variability)

Mức độ phân tán của dữ liệu được gọi là độ phân tán (dispersion). Thước đo phổ biến nhất của độ phân tán là độ lệch chuẩn (standard deviation). Độ lệch chuẩn, ký hiệu S, được định nghĩa là căn bậc hai của trung bình bình phương các độ lệch (deviation) so với giá trị trung bình. Biểu diễn dưới dạng công thức như sau:

$$S = \left[ \frac{ \sum_{i=1}^{n} (Q_i – \bar{Q})^2 }{n – 1} \right]^{0.5} = \bar{Q} \left[ \frac{ \sum_{i=1}^{n} \left( \frac{Q_i}{\bar{Q}} – 1 \right)^2 }{n – 1} \right]^{0.5} \tag{5.9}$$

Một thước đo khác của độ phân tán là phương sai (variance), đơn giản là bình phương của độ lệch chuẩn. Một thước đo phân tán tương đối là hệ số biến thiên (variation), ký hiệu V, được tính bằng độ lệch chuẩn chia cho giá trị đỉnh trung bình:

$$V = \frac{S}{\bar{Q}} \tag{5.10}$$

5.1.5.5 Độ lệch (Skew)

Sự đối xứng (symmetry) của phân bố tần suất, hay nói chính xác hơn là sự bất đối xứng (asymmetry), được gọi là độ lệch (skew). Một thước đo phổ biến của độ lệch là hệ số lệch, ký hiệu G. Hệ số lệch (skew coefficient) được tính như sau:

$$G = \frac{n \sum_{i=1}^{n} (Q_i – \bar{Q})^3 }{(n – 1)(n – 2)S^3} = \frac{n \sum_{i=1}^{n} \left( \frac{Q_i}{\bar{Q}} – 1 \right)^3 }{(n – 1)(n – 2)V^3} \tag{5.11}$$

Nếu một phân bố tần suất là đối xứng, hệ số lệch sẽ bằng 0. Ví dụ, phân bố normal (được đề cập trong Mục 5.2.1) là một phân bố đối xứng và có hệ số lệch bằng 0. Nếu phân bố có “đuôi” dài hơn về phía bên phải của giá trị cực đại trung tâm so với bên trái, thì phân bố đó có độ lệch dương và G dương. Ngược lại, nếu đuôi dài hơn về phía bên trái của giá trị cực đại trung tâm, thì phân bố có độ lệch âm.

Ví dụ 5.3: Tính toán theo phương pháp moment.
Mục tiêu: Tính các moment cho chuỗi số liệu đỉnh lũ hàng năm.

Cho: Bảng 5.5 liệt kê chuỗi đỉnh lũ hàng năm trong giai đoạn chưa điều tiết của trạm Mono Creek, California.

Yêu cầu: Tính giá trị trung bình (mean), độ lệch chuẩn (standard deviation), hệ số biến thiên (coefficient of variation) và hệ số lệch (skew ceofficient).

Phần tính toán dưới đây minh họa cách xác định các thước đo xu hướng trung tâm, độ lệch chuẩn, độ biến thiên và hệ số lệch của phân bố tần suất Mono Creek thể hiện trong Hình 5.7 dựa trên dữ liệu được cung cấp trong Bảng 5.5.

Bước 1. Tính đỉnh lũ trung bình hàng năm.

Sử dụng công thức 5.6 và dữ liệu từ Bảng 5.5 để tính giá trị trung bình. Lưu ý rằng tổng được hiển thị ở cuối Bảng 5.5.

$\bar{X} = \frac{ \sum_{i=1}^{n} X_i }{n} = \frac{30672}{29} = 1058 \text{ ft}^3/\text{s}$

Bảng 5.5 – Dữ liệu đỉnh lũ hàng năm và các phép tính thống kê cho Mono Creek, California:

Năm	Thứ hạng	Cực đại hàng năm (ft³/s)	$\left(\frac{X}{\bar{X}}\right)$	$\left(\frac{X}{\bar{X}} – 1\right)$	$\left(\frac{X}{\bar{X}} – 1\right)^2$	$\left(\frac{X}{\bar{X}} – 1\right)^3$
1938	1	1,760	1.664	0.664	0.441	0.2929
1943	2	1,440	1.362	0.362	0.131	0.0473
1927	3	1,420	1.343	0.343	0.117	0.0402
1941	5	1,420	1.343	0.343	0.117	0.0402
1922	6	1,390	1.314	0.314	0.099	0.0310
1945	7	1,370	1.295	0.295	0.087	0.0257
1933	8	1,350	1.276	0.276	0.076	0.0211
1935	9	1,230	1.163	0.163	0.027	0.0043
1937	10	1,210	1.144	0.144	0.021	0.0030
1942	11	1,170	1.106	0.106	0.011	0.0012
1940	12	1,130	1.068	0.068	0.005	0.0003
1931	27	525	0.496	-0.504	0.254	-0.1277
1924	28	488	0.461	-0.539	0.290	-0.1562
1934	29	404	0.382	-0.618	0.382	-0.2361
Tổng	–	30,672	–	–	2.677	-0.1449

Bước 2. Tính độ lệch chuẩn của các lưu lượng đỉnh hàng năm.
Sử dụng phương trình 5.7 và dữ liệu trong Bảng 5.5 để tính độ lệch chuẩn.

$S = \bar{X} \left[ \frac{ \sum_{i=1}^{n} \left( \frac{X_i}{\bar{X}} – 1 \right)^2 }{n-1} \right]^{0.5} = 1058 \left[ \frac{2.677}{28} \right]^{0.5} = 327\ \text{ft}^3/\text{s}$

Bước 3. Tính hệ số biến thiên của các lưu lượng đỉnh hàng năm.
Sử dụng phương trình 5.11 và dữ liệu trong Bảng 5.5 để tính hệ số biến thiên.

$V = \frac{S}{\bar{X}} = \frac{327}{1058} = 0.31$

Bước 4. Tính hệ số lệch của các lưu lượng đỉnh hàng năm.
Sử dụng phương trình 5.10 và dữ liệu trong Bảng 5.5 để tính hệ số lệch.

$G = \frac{n \sum_{i=1}^{n} \left( \frac{X_i}{\bar{X}} – 1 \right)^3}{(n-1)(n-2)V^3} = \frac{29(-0.1448)}{28(27)(0.31)^3} = -0.19$

Kết quả ví dụ 5.3:
Giá trị đỉnh trung bình hàng năm là 1.058 ft³/s. Độ lệch chuẩn của các giá trị đỉnh là 327 ft³/s, hệ số biến thiên là 0.31 (không thứ nguyên), và hệ số lệch là -0.19.

5.1.5.6 Độ lệch vùng và độ lệch có trọng số

Kỹ sư có thể sử dụng ba phương pháp để biểu diễn hệ số lệch: bao gồm độ lệch tại trạm (tính từ dữ liệu đo đạc), độ lệch vùng và độ lệch có trọng số. Vì hệ số lệch nhạy cảm với các giá trị cực đoan, nên độ lệch tại trạm có thể không chính xác nếu kích thước mẫu nhỏ. Các ước lượng độ lệch vùng và sai số bình phương trung bình của độ lệch vùng có thể được lấy từ các nghiên cứu của USGS sử dụng bình phương tối thiểu có trọng số Bayes (B-WLS) hoặc bình phương tối thiểu tổng quát Bayes (B-GLS). Cơ sở kỹ thuật cho các quy trình này vượt quá phạm vi của tài liệu này nhưng được trình bày trong Bulletin 17C cùng với thông tin về vị trí sử dụng độ lệch vùng. Giá trị của độ lệch vùng và sai số bình phương trung bình có thể được lấy từ các báo cáo hiện tại của USGS hoặc bằng cách liên hệ với văn phòng USGS địa phương. Bulletin 17C đặc biệt khuyến nghị không sử dụng các ước lượng kế thừa của độ lệch và sai số bình phương trung bình từ Bulletin 17B.

Bulletin 17C khuyến nghị tính toán độ lệch tại trạm và sử dụng hệ số độ lệch vùng được xác định bởi các nghiên cứu khác (như mô tả ở trên) hoặc lấy trực tiếp từ nhân sự chuyên môn của USGS. EMA tự động hóa quy trình này. Khi độ lệch tại trạm khác với độ lệch vùng nhiều hơn 0.5, kỹ sư cần thực hiện phân tích bổ sung để xác định xem có nên cho độ lệch tại trạm trọng số cao hơn trong việc ước tính hệ số lệch cho đường tần suất lũ hay không.

Nói chung, độ lệch tại trạm và độ lệch vùng có thể được kết hợp để đưa ra một ước lượng tốt hơn cho một bộ dữ liệu lũ nhất định. Bulletin 17C kết hợp việc ước tính độ lệch tại trạm (và các tham số phân bố khác), sai số bình phương trung bình của độ lệch tại trạm và tính toán độ lệch có trọng số trong quy trình EMA. Tuy nhiên, đối với phân tích một chuỗi hệ thống không có PILFs, độ lệch có trọng số có thể được tính bằng công thức:

$$G_W = \frac{ \text{MSE}_{\bar{G}}(G) + \text{MSE}_G(\bar{G}) }{ \text{MSE}_{\bar{G}} + \text{MSE}_G } \quad \tag{5.12}$$

trong đó:

$G_W$ = Độ lệch có trọng số
G = Độ lệch tại trạm
$\bar{G}$ = Độ lệch vùng
$\text{MSE}_G$ = Sai số bình phương trung bình của độ lệch tại trạm
$\text{MSE}_{\bar{G}}$ = Sai số bình phương trung bình của độ lệch vùng

Khái niệm ở đây là sai số bình phương trung bình (MSE) của độ lệch có trọng số được tối thiểu hóa bằng cách gán trọng số cho độ lệch tại trạm và độ lệch tổng quát theo tỉ lệ nghịch với MSE riêng của chúng. MSE được định nghĩa là tổng bình phương sai số giữa giá trị thực và giá trị ước lượng của một đại lượng chia cho số quan sát.

Phương trình 5.12 giả định rằng độ lệch tại trạm và độ lệch vùng là độc lập. Nếu chúng độc lập, thì ước lượng có trọng số sẽ có phương sai thấp hơn cả độ lệch tại trạm hoặc độ lệch vùng. Phụ lục 7 của Bulletin 17C mô tả việc áp dụng độ lệch.

Trong Bulletin 17C, giá trị của $\text{MSE}_G$ được tính như một phần của quy trình EMA. Tuy nhiên, nhằm mục đích sử dụng trong ví dụ tiếp theo, Bảng 5.6 (từ Bulletin 17B) trình bày $\text{MSE}_G$ như một hàm của hệ số lệch và độ dài chuỗi số liệu.

(nd: skews)

Độ lệch vùng (regional skew) và độ lệch có trọng số (weighted skew) được sử dụng trong phân tích tần suất lũ để cải thiện độ chính xác khi ước lượng dòng lũ lớn (peak flow) trong tương lai, đặc biệt khi số liệu quan trắc tại trạm đo là ngắn hạn hoặc không đầy đủ. Cụ thể:

Độ lệch vùng (regional skew) để làm gì?

Mục đích: Cung cấp một ước lượng tốt hơn cho hệ số lệch (skew coefficient) trong trường hợp số liệu tại trạm (station skew) không đáng tin cậy do chuỗi số liệu ngắn hoặc có giá trị ngoại lai.
Cách sử dụng: Dựa vào các nghiên cứu quy mô lớn (USGS hoặc Bulletin 17B/17C), độ lệch vùng được ước tính từ các trạm tương tự trong cùng một khu vực thủy văn. Nó đại diện cho xu hướng lệch trung bình trong khu vực đó.

Độ lệch có trọng số (weighted skew) để làm gì?

Mục đích: Kết hợp độ lệch tại trạm và độ lệch vùng để cho ra một hệ số lệch đáng tin cậy hơn.
Cách sử dụng: Tính bằng công thức (5.12), có tính đến độ chính xác của từng nguồn thông tin thông qua MSE (mean square error). Nếu độ lệch tại trạm đáng tin cậy (MSE thấp), trọng số sẽ nghiêng về nó, và ngược lại.

Tóm lại:

Cả hai hệ số này được dùng để xác định dạng của phân bố xác suất dòng lũ cực trị (ví dụ: lệch trái hay lệch phải).
Điều này ảnh hưởng trực tiếp đến việc ước lượng các dòng lũ thiết kế như lũ 100 năm, 50 năm – từ đó quyết định kích thước cống, cầu,…

5.1.6 Hàm phân phối xác suất

Một biểu đồ phân bố tần suất (histogram) từ một tập dữ liệu lớn về lũ với các khoảng lớp nhỏ có xu hướng tiến gần đến một đường cong trơn khi kích thước mẫu tăng lên. Hình 5.9 minh họa một ví dụ về đường cong như vậy, được gọi là hàm phân phối xác suất, f(Q). Tương tự như biểu đồ phân bố tần suất, nó bao phủ một diện tích bằng 1.0, hay:

$$\int_{-\infty}^{\infty} f(Q)dQ = 1 \tag{5.13}$$

Bảng 5.6. Sai số bình phương trung bình (MSE) của độ lệch tại trạm là hàm của độ dài chuỗi số liệu và độ lệch tại trạm.

Độ lệch (Skew)	10 năm	20 năm	30 năm	40 năm	50 năm	60 năm	70 năm	80 năm	90 năm	100 năm
0.0	0.468	0.244	0.167	0.127	0.103	0.087	0.075	0.066	0.059	0.054
0.1	0.476	0.253	0.175	0.134	0.109	0.093	0.080	0.071	0.064	0.058
0.2	0.485	0.262	0.183	0.142	0.116	0.099	0.087	0.077	0.069	0.063
0.3	0.494	0.272	0.192	0.150	0.123	0.105	0.092	0.082	0.074	0.068
0.4	0.504	0.282	0.201	0.158	0.131	0.113	0.099	0.089	0.080	0.073
0.5	0.513	0.293	0.211	0.167	0.139	0.120	0.106	0.095	0.087	0.079
0.6	0.522	0.303	0.221	0.176	0.148	0.128	0.114	0.102	0.093	0.086
0.7	0.532	0.315	0.231	0.186	0.157	0.137	0.122	0.110	0.101	0.093
0.8	0.542	0.326	0.243	0.196	0.167	0.146	0.130	0.118	0.109	0.100
0.9	0.562	0.345	0.259	0.211	0.181	0.159	0.142	0.130	0.119	0.111
1.0	0.603	0.376	0.285	0.235	0.202	0.178	0.160	0.147	0.135	0.126
1.1	0.646	0.410	0.315	0.261	0.225	0.200	0.181	0.166	0.153	0.143
1.2	0.692	0.448	0.347	0.290	0.252	0.225	0.204	0.187	0.174	0.163
1.3	0.741	0.488	0.383	0.322	0.281	0.252	0.230	0.212	0.197	0.185
1.4	0.794	0.533	0.422	0.357	0.314	0.283	0.259	0.240	0.224	0.211
1.5	0.851	0.581	0.465	0.397	0.351	0.318	0.292	0.271	0.254	0.240
1.6	0.912	0.632	0.498	0.425	0.376	0.340	0.313	0.291	0.272	0.257
1.7	0.976	0.667	0.534	0.450	0.403	0.365	0.335	0.311	0.292	0.275
1.8	1.047	0.715	0.572	0.489	0.432	0.391	0.359	0.334	0.315	0.298
1.9	1.122	0.765	0.612	0.520	0.462	0.419	0.385	0.358	0.335	0.315
2.0	1.202	0.821	0.657	0.561	0.496	0.449	0.412	0.383	0.359	0.339
2.1	1.281	0.880	0.704	0.607	0.540	0.488	0.448	0.415	0.389	0.368
2.2	1.380	0.943	0.754	0.644	0.570	0.515	0.473	0.440	0.412	0.389
2.3	1.479	1.010	0.808	0.690	0.610	0.552	0.507	0.471	0.442	0.417
2.4	1.581	1.080	0.866	0.739	0.654	0.595	0.548	0.509	0.477	0.449
2.5	1.698	1.160	0.928	0.792	0.701	0.634	0.582	0.541	0.507	0.477
2.6	1.820	1.243	0.994	0.849	0.751	0.679	0.624	0.580	0.543	0.513
2.7	1.950	1.332	1.063	0.908	0.805	0.728	0.668	0.621	0.582	0.550
2.8	2.089	1.427	1.146	0.972	0.862	0.780	0.716	0.666	0.624	0.589
2.9	2.239	1.529	1.223	1.044	0.924	0.836	0.768	0.713	0.669	0.631
3.0	2.399	1.638	1.311	1.119	0.990	0.895	0.823	0.764	0.716	0.676

Phương trình 5.13 là một biểu thức toán học thể hiện rằng tổng xác suất của tất cả các sự kiện bằng 1. Hình 5.10a cho thấy xác suất của một lưu lượng Q nằm giữa hai giá trị Q₁ và Q₂ là diện tích dưới đường cong hàm phân phối xác suất trong khoảng từ Q₁ đến Q₂. Hình 5.10b cho thấy xác suất để xảy ra một trận lũ có lưu lượng Q lớn hơn Q₁ chính là diện tích dưới đường cong từ Q₁ đến vô cùng. Xác suất này được tính bằng: F(Q > Q₁) = 1 – F(Q < Q₁)

Hình 5.10. Xác suất thủy văn từ các hàm phân phối xác suất.

Từ Hình 5.10, việc tính toán xác suất từ hàm phân phối xác suất là tẻ nhạt. Một sự cải tiến thêm của phân phối tần suất là phân phối tần suất tích lũy. Hàm phân phối tích lũy (CDF), F(Q), bằng diện tích dưới hàm phân phối xác suất, f(Q), từ −∞ đến Q:

$$F(Q) = \int_{-\infty}^{Q} f(Q)\,dQ \tag{5.14}$$

(nd: hàm phân phối tích lũy – CDF)

CDF viết tắt của Cumulative Distribution Function,

Định nghĩa: Hàm phân phối tích lũy F(x) của một biến ngẫu nhiên X được định nghĩa là: F(x)=P(X≤x)

Nghĩa là: F(x) cho ta xác suất rằng giá trị của biến ngẫu nhiên X sẽ nhỏ hơn hoặc bằng x.

Hiểu đơn giản: CDF là đường cong tích lũy xác suất — nó cho ta biết xác suất tích lũy đến một điểm nào đó.

Ví dụ: F(10) = 0.8 nghĩa là: xác suất để X≤10 là 80%

Đặc điểm của CDF:

Đặc điểm	Ý nghĩa
Giá trị luôn từ 0 đến 1	Vì là xác suất
Tăng đơn điệu (không giảm)	Vì xác suất tích lũy không thể giảm
lim⁡x→−∞F(x)=0\lim_{x \to -\infty} F(x) = 0	Rất nhỏ thì xác suất gần như bằng 0
lim⁡x→+∞F(x)=1\lim_{x \to +\infty} F(x) = 1	Rất lớn thì xác suất gần như bằng 1

Phân biệt với các hàm khác:

Hàm	Ý nghĩa
PDF (Probability Density Function – hàm mật độ xác suất)	Mật độ xác suất tại mỗi điểm (chỉ dùng cho biến liên tục)
PMF (Probability Mass Function – hàm khối xác suất)	Xác suất rời rạc tại từng giá trị (chỉ dùng cho biến rời rạc)
CDF (Hàm phân phối tích lũy)	Xác suất tích lũy đến một giá trị bất kỳ

Ví dụ minh họa: Giả sử X là biến ngẫu nhiên rời rạc có:

Giá trị của X	Xác suất P(X = x)
1	0.2
2	0.5
3	0.3

Ta có CDF:

F(1) = P(X≤1) = 0.2
F(2) = P(X≤2) = 0.2+0.5 = 0.7
F(3) = P(X≤3) =1.0

Tóm lại:

Tên đầy đủ	Hàm phân phối tích lũy
Ký hiệu	F(x)=P(X≤x)F(x) = P(X \le x)
Bản chất	Là hàm xác suất tích lũy
Dùng để làm gì?	Tính xác suất biến ngẫu nhiên không vượt quá x
Gắn liền với	PDF (liên tục), PMF (rời rạc), thống kê tổng quát

Bảng 5.2 minh họa việc xây dựng phân phối tần suất tích lũy như một phần của việc xây dựng biểu đồ phân bố tần suất. CDF đơn giản là tổng tích lũy của các tần suất tương đối theo khoảng lớp. Với mỗi khoảng lưu lượng, Bảng 5.2 xác định số lần mà lũ bằng hoặc vượt quá giới hạn dưới của khoảng lớp và đưa ra tần suất tích lũy.

Sử dụng CDF, nhà phân tích có thể tính trực tiếp xác suất không vượt ngưỡng cho một độ lớn đã cho. Xác suất không vượt ngưỡng được định nghĩa là xác suất mà giá trị chỉ định sẽ không bị vượt quá. Xác suất vượt ngưỡng bằng 1.0 trừ đi xác suất không vượt ngưỡng. Hình 5.11 cho thấy biểu đồ phân phối tích lũy cho mẫu lũ hằng năm tại Mono Creek, California.

Một lần nữa, với một mẫu đủ lớn để xác định các khoảng lớp nhỏ, biểu đồ phân bố tần suất trở thành một đường cong mượt mà được định nghĩa là CDF, F(Q), được thể hiện trong Hình 5.12a. Hình này cho thấy diện tích dưới đường cong ở bên trái của mỗi Q trong Hình 5.9 và định nghĩa xác suất rằng lưu lượng sẽ nhỏ hơn một giá trị xác định nào đó, tức là xác suất không vượt ngưỡng.

Một biểu diễn thuận tiện khác cho phân tích thủy văn là hàm xác suất bù, G(Q), được định nghĩa như sau:

$$G(Q) = 1 – F(Q) = P_r(Q \geq Q_1) \tag{5.15}$$

Hàm G(Q), được thể hiện trong Hình 5.12b, là xác suất vượt ngưỡng (tức là xác suất xảy ra một lưu lượng có độ lớn bằng hoặc vượt quá một giá trị lưu lượng cho trước).

Hình 5.11. Biểu đồ tần suất tích lũy, Mono Creek, California

Hình 5.12. Xác suất *tích lũy* và *tích lũy bù* (Cumulative and complementary CDFs).

5.1.7 Vẽ Dữ liệu của Mẫu với Công Thức tính vị trí vẽ theo xác suất (Plotting Position)

Khi thực hiện phân tích tần suất lũ, kỹ sư thường vẽ các phân vị (quantiles) từ một hàm phân phối đã lắp và các đỉnh lũ quan sát được trên cùng một đồ thị để đánh giá mức độ phù hợp. Để biểu diễn các giá trị của mẫu trên trục hoành theo thang xác suất, người ta sử dụng công thức tính vị trí vẽ theo xác suất (plotting position formula).

Nhiều công thức tính vị trí theo xác suất khác nhau đã được đề xuất để ước tính xác suất của các đỉnh lũ quan sát được, nhưng chưa có sự thống nhất về phương pháp ưu tiên. Tuy nhiên, người ta thường sử dụng một vài công thức trong phân tích thống kê thủy văn. Bulletin 17C trình bày một công thức tổng quát để tính toán vị trí vẽ điểm theo thang sác xuất:

(nd: Phân vị – Quantiles)

Các phân vị (Quantiles) là các giá trị chia một tập dữ liệu thành các phần bằng nhau về số lượng quan sát. Nói cách khác, chúng là những điểm cắt phân phối xác suất để tạo ra các đoạn có cùng xác suất.

Một cách tổng quát:
+ Phân vị là một điểm chia dữ liệu thành các phần trăm nhất định.
+ Trung vị (median) là một dạng của phân vị, nó chia dữ liệu thành hai nửa bằng nhau (phân vị thứ 50).
+ Hai loại phân vị phổ biến nhất là bách phân vị (percentile) và tứ phân vị (quartile).

Cụ thể hơn:

Bách phân vị (Percentile):
- Bách phân vị thứ p của một dãy số đã xếp theo thứ tự tăng dần là một số A sao cho p phần trăm số hạng của dãy số này có giá trị bé hơn hoặc bằng A, và 100−p phần trăm số hạng có giá trị lớn hơn hoặc bằng A.
- Ví dụ: Bách phân vị thứ 90 (90th percentile) là giá trị mà 90% dữ liệu nhỏ hơn hoặc bằng nó, và 10% dữ liệu lớn hơn hoặc bằng nó.
Tứ phân vị (Quartile):
- Các số tứ phân vị chia dãy số đã được xếp thứ tự thành 4 phần có số số hạng bằng nhau (hay gần bằng nhau).
- Có 3 giá trị tứ phân vị, ký hiệu là Q1, Q2, và Q3:
  - Q1 (Tứ phân vị thứ nhất): Là giá trị mà 25% dữ liệu nhỏ hơn hoặc bằng nó. Nó là trung vị của nửa dưới tập dữ liệu.
  - Q2 (Tứ phân vị thứ hai): Chính là Trung vị (Median), là giá trị mà 50% dữ liệu nhỏ hơn hoặc bằng nó.
  - Q3 (Tứ phân vị thứ ba): Là giá trị mà 75% dữ liệu nhỏ hơn hoặc bằng nó. Nó là trung vị của nửa trên tập dữ liệu.

Cụ thể về cách tính các quantiles (phân vị) và cách chúng được dùng trong phần mềm thủy văn như HEC-SSP:

1. Cách tính các quantiles

Giả sử bạn có một tập dữ liệu quan trắc gồm n giá trị đã được sắp xếp theo thứ tự tăng dần: $x_1 \le x_2 \le \dots \le x_n$

Công thức tổng quát để tìm quantile bậc p (với 0<p<1), bạn thực hiện:

Tính chỉ số vị trí: i = p(n + 1)
Xác định giá trị phân vị:
- Nếu i là số nguyên: chọn giá trị tại vị trí i: $x_i$
- Nếu i không nguyên: nội suy giữa x_i và x_i+1

Ví dụ:

Với dãy số có 10 giá trị: x = [3, 5, 6, 8, 10, 12, 15, 17, 19, 20]

Phân vị 25% (Q1):
i=0.25×(10+1)=2.75
Nội suy giữa x₂=5 và x₃=6
Q1 = 5 + 0.75(6 – 5) = 5.75

2. Cách dùng quantiles trong HEC-SSP

HEC-SSP (Statistical Software Package) là phần mềm của USACE để phân tích tần suất lũ và mưa. Quantiles được dùng trong bước Frequency Analysis để xác định lưu lượng hoặc mưa ứng với một xác suất vượt ngưỡng cụ thể.

a. Fit Distribution to Data:
+ Bạn chọn một phân phối (ví dụ: Log-Pearson Type III).
+ Phần mềm ước lượng các tham số từ dữ liệu.

b. Tính quantiles (phân vị):
Dựa trên phân phối đã chọn, phần mềm tính các giá trị tương ứng với các xác suất vượt cụ thể:
+ 50% (T = 2 năm)
+ 10% (T = 10 năm)
+ 1% (T = 100 năm)
+ 0.2% (T = 500 năm)

$Q_T = F^{-1}(1 – P)$

trong đó:
$Q_T$: lưu lượng ứng với chu kỳ lặp T
P: xác suất vượt = 1/T
$F^{-1}$: hàm phân vị của phân phối đã chọn

c. Biểu diễn kết quả:
Trên đồ thị xác suất (Probability Plot), các quantiles từ phân phối đã lắp sẽ được vẽ cùng với dữ liệu thực tế để đánh giá độ phù hợp.

(nd: Ploting Position Fomula)

Công thức tính vị trí theo xác suất (ploting position formula) là một phương trình được sử dụng trong phân tích tần suất để tính xác suất của một sự kiện dựa trên thứ hạng của sự kiện đó và kích thước mẫu.

Khi bạn có một tập hợp các quan trắc (ví dụ: lưu lượng đỉnh hàng năm của một con sông) và bạn sắp xếp chúng theo thứ tự từ nhỏ nhất đến lớn nhất, ploting position formula là một công thức giúp bạn gán một xác suất cụ thể cho mỗi quan trắc đó. Mục đích là để biểu diễn dữ liệu trên biểu đồ phân phối xác suất (probability plot), chẳng hạn như biểu đồ log-Pearson loại III.

$$P = \frac{i – a}{n + 1 – 2a} \tag{5.16}$$

trong đó:

i = Thứ hạng của giá trị đỉnh lũ đã được sắp xếp, với lũ lớn nhất có hạng là 1
n = Chiều dài chuỗi số liệu
a = Hằng số ứng với một công thức tính vị trí theo xác suất cụ thể

Ba khả năng phát sinh từ phương trình 5.16, bao gồm:

+ Weibull, $P_w$ (a = 0):

$$P_w = \frac{i}{n + 1} \tag{5.17}$$

Hazen, $P_h$ (a = 0.5):

$$P_h = \frac{i – 0.5}{n} \tag{5.18}$$

+Cunnane, $P_c$ (a = 0.4):

$$P_c = \frac{i – 0.4}{n + 0.2} \tag{5.19}$$

Kỹ sư sẽ vẽ dữ liệu bằng cách đặt một điểm cho mỗi giá trị trong chuỗi lũ tại giao điểm giữa độ lớn của đỉnh lũ và xác suất vượt quá được tính bằng công thức tính vị trí theo xác suất. Dữ liệu đã vẽ có khả năng gần đúng với đường phân phối lý thuyết nếu mô hình phân phối đã lắp ban đầu là hợp lý.

Đối với chuỗi thời đoạn (partial-duration series) — trong đó số trận lũ vượt quá số năm ghi nhận — Beard (1962) khuyến nghị công thức sau:

$$P = \frac{2i – 1}{2n} = \frac{i – 0.5}{n} \tag{5.20}$$

Trước khi các kỹ sư sử dụng đường cong tần suất đã tính toán để ước lượng độ lớn lũ hoặc xác suất vượt ngưỡng, họ xác minh phân phối mà họ đã giả định bằng cách vẽ dữ liệu theo xác suất. Để vẽ dữ liệu:

Sắp xếp chuỗi lũ theo thứ tự giảm dần, với trận lũ lớn nhất có hạng là 1 và trận lũ nhỏ nhất có hạng là n.
Dùng thứ hạng i với công thức tính vị trí theo xác suất như phương trình 5.16 để tính giá trị vị trí của mỗi đỉnh lũ
Vẽ độ lớn đỉnh lũ X với giá trị là điểm vẽ đã tính theo xác suất tương ứng.

Các điểm ở hai đầu của mẫu (lớn nhất và nhỏ nhất) thường chệch khỏi đường cong dẫn xuất từ phân phối xác suất đã lắp. Kỹ sư sử dụng kinh nghiệm thay vì tiêu chí khách quan để quyết định có chấp nhận phân phối xác suất đã lắp như là phân phối của tổng thể hay không. Phần tiếp theo mô tả các phân phối xác suất phổ biến được sử dụng trong thủy văn.

(nd: tiêu chí khách quan)

Trong thực tế phân tích thủy văn, việc đánh giá xem phân phối xác suất đã khớp có đủ tốt hay không thường mang tính chủ quan, dựa trên kinh nghiệm chuyên môn, hơn là dựa vào một chuẩn định lượng khách quan duy nhất. Điều này phản ánh đặc điểm phức tạp và không hoàn toàn chuẩn hóa của dữ liệu thủy văn.

Có các tiêu chí khách quan để đánh giá sự phù hợp của một phân phối xác suất với dữ liệu mẫu, đặc biệt trong thủy văn. Mặc dù kinh nghiệm của kỹ sư vẫn rất quan trọng, nhưng các phương pháp thống kê khách quan này cung cấp cơ sở định lượng để đưa ra quyết định. Chúng được gọi chung là kiểm định độ phù hợp (Goodness-of-Fit Tests).

Dưới đây là một số kiểm định độ phù hợp phổ biến và các tiêu chí khác được sử dụng trong thủy văn:

1. Các kiểm định độ phù hợp (Goodness-of-Fit Tests) dựa trên thống kê:

Các kiểm định này so sánh sự khác biệt giữa phân phối tích lũy thực nghiệm của dữ liệu mẫu (empirical cumulative distribution function – ECDF) và phân phối tích lũy lý thuyết của hàm phân phối xác suất được đề xuất. Một số kiểm định phổ biến bao gồm:

Kiểm định Kolmogorov-Smirnov (K-S Test):
- Đây là một kiểm định phi tham số, nhạy cảm với sự khác biệt lớn nhất giữa ECDF và CDF lý thuyết.
- Nó thường được sử dụng để kiểm tra liệu một mẫu có đến từ một phân phối cụ thể hay không.
Kiểm định Anderson-Darling (A-D Test):
- Là một biến thể của kiểm định K-S, nhưng nó đặc biệt nhạy cảm với sự khác biệt ở các “đuôi” (tail) của phân phối (tức là các giá trị cực đoan). Điều này rất quan trọng trong thủy văn, nơi các sự kiện cực đoan (lũ lụt lớn, hạn hán nghiêm trọng) thường là đối tượng quan tâm chính.
Kiểm định Chi-Squared Test – χ2 :
- Đây là một kiểm định tham số, so sánh tần suất quan sát trong các khoảng (bins) dữ liệu với tần suất dự kiến từ phân phối lý thuyết.
- Nó yêu cầu dữ liệu phải được chia thành các lớp (bins), và hiệu suất của nó có thể phụ thuộc vào cách chọn các lớp này.
Kiểm định Cramer-von Mises (CVM Test):
- Cũng là một kiểm định dựa trên ECDF, tương tự K-S và A-D, nhưng có cách tính toán thống kê khác nhau, thường nhạy cảm hơn với các khác biệt trên toàn bộ phân phối.

2. Tiêu chí thông tin (Information Criteria):

Các tiêu chí này giúp lựa chọn mô hình tốt nhất khi có nhiều hơn một phân phối có vẻ phù hợp. Chúng cân bằng giữa độ phù hợp của mô hình với dữ liệu và độ phức tạp của mô hình (tránh overfitting). Các tiêu chí phổ biến bao gồm:

Tiêu chí thông tin Akaike (Akaike Information Criterion – AIC): Đánh giá chất lượng tương đối của các mô hình thống kê cho một tập hợp dữ liệu nhất định.
Tiêu chí thông tin Bayesian (Bayesian Information Criterion – BIC): Tương tự AIC nhưng đưa ra hình phạt lớn hơn cho số lượng tham số trong mô hình, có xu hướng chọn các mô hình đơn giản hơn AIC.

3. Các chỉ số hiệu suất đồ thị (Graphical Performance Metrics):

Mặc dù câu gốc nói về việc “lệch khỏi đường cong” và kỹ sư sử dụng “kinh nghiệm”, nhưng việc trực quan hóa dữ liệu và phân phối đã khớp trên biểu đồ vẫn là một phần quan trọng của quá trình đánh giá khách quan. Các kỹ sư có thể sử dụng các tiêu chí hình ảnh để đánh giá:

Biểu đồ tần suất lũ (Flood Frequency Plot): So sánh các điểm dữ liệu quan sát được với đường cong của phân phối lý thuyết. Sự “phù hợp” bằng mắt thường ở các đuôi phân phối thường rất quan trọng.
Biểu đồ P-P và Q-Q: Các biểu đồ này giúp đánh giá xem dữ liệu có tuân theo một phân phối lý thuyết nhất định hay không bằng cách so sánh các phân vị của dữ liệu với các phân vị của phân phối lý thuyết.

4. Các tiêu chí khác trong thủy văn:

Ngoài các kiểm định thống kê trên, trong thực tế thủy văn, việc lựa chọn phân phối còn dựa trên:

Đặc điểm vật lý của hiện tượng: Ví dụ, lũ lụt thường có tính chất lệch phải (skewed), do đó các phân phối có khả năng mô tả tốt độ lệch này (như Log-Pearson Type III, GEV, Log-normal) thường được ưu tiên.
Độ tin cậy của ước tính ở các đuôi: Đối với phân tích tần suất lũ, việc ước tính chính xác các sự kiện cực đoan (ví dụ: lũ 100 năm) là rất quan trọng. Một số phân phối và phương pháp ước tính tham số có thể cho kết quả tin cậy hơn ở các đuôi.
Tính nhất quán với các nghiên cứu trước đây: Nếu có các nghiên cứu tương tự trong khu vực hoặc điều kiện tương tự đã xác định một phân phối phù hợp, đó có thể là một điểm khởi đầu hợp lý.
Dung lượng chuỗi số liệu: Với chuỗi số liệu ngắn, các kiểm định độ phù hợp có thể kém hiệu quả hơn, và kinh nghiệm kỹ sư trở nên quan trọng hơn.

5.2 Các Phân Phối Tần Suất Chuẩn

Các kỹ sư thường sử dụng một số phân phối tần suất tích lũy trong phân tích dữ liệu thủy văn, bao gồm phân phối normal, phân phối log-normal, phân phối giá trị cực trị Gumbel, và phân phối log-Pearson loại III. Phần này trình bày các đặc điểm và ứng dụng của từng phân phối nêu trên.

5.2.1 Phân Phối Normal

Phân phối normal, hay phân phối Gaussian, là một phân phối toán học kinh điển thường được sử dụng trong phân tích các hiện tượng tự nhiên. Phân phối normal có dạng đường cong hình chuông đối xứng, không bị giới hạn, với giá trị cực đại tại điểm trung tâm và kéo dài từ −∞ đến +∞. Hình 5.13a thể hiện phân phối normal.

Hình 5.13. (a) Phân phối Normal; (b) Phân phối Normal chuẩn

Đối với phân phối normal, giá trị cực đại xảy ra tại giá trị trung bình. Do tính đối xứng, một nửa số giá trị lưu lượng nằm dưới trung bình và một nửa nằm trên. Một đặc điểm khác của đường cong phân phối normal là 68.3% các sự kiện nằm trong khoảng ±1 độ lệch chuẩn (S), 95% nằm trong ±2S, và 99.7% nằm trong ±3S. Trong một mẫu dữ liệu lưu lượng, các tỷ lệ phần trăm này sẽ được xấp xỉ.

Đối với phân phối normal, hệ số lệch (skew) bằng không. Hàm mô tả đường cong phân phối normal là:

$$f(X) = \frac{e^{ -\left( \frac{(x – \bar{x})^2}{2S^2} \right) }}{S \sqrt{2\pi}} \tag{5.21}$$

Chỉ có hai tham số được sử dụng để mô tả phân phối normal: giá trị trung bình $\bar{x}$ và độ lệch chuẩn S.

Một nhược điểm của phân phối normal là nó không bị giới hạn theo hướng âm, trong khi hầu hết các biến thủy văn đều bị giới hạn và không bao giờ nhỏ hơn không. Vì lý do này, và vì nhiều biến thủy văn thể hiện độ lệch rõ rệt, phân phối normal thường chỉ có ứng dụng hạn chế. Tuy nhiên, những vấn đề này đôi khi có thể được khắc phục bằng cách thực hiện biến đổi logarit trên dữ liệu. Thường thì logarit của các biến thủy văn có phân phối normal.

5.2.1.1 Phân Phối Normal Chuẩn

Một trường hợp đặc biệt của phân phối normal là phân phối normal chuẩn, được biểu diễn bởi biến chuẩn z (xem Hình 5.13b). Phân phối normal chuẩn luôn có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1. Nếu biến ngẫu nhiên X có phân phối normal với trung bình $\bar{X}$ và độ lệch chuẩn S, thì giá trị của X có thể được biến đổi sao cho tuân theo phân phối normal chuẩn bằng cách sử dụng phép biến đổi sau:

$$z = \frac{X – \bar{X}}{S} \tag{5.22}$$

trong đó:

z = Biến chuẩn ứng với phân phối tích lũy normal

Bảng 5.7 tóm tắt các giá trị chọn lọc của z. Nếu biết $\bar{X}$, S, và z ứng với một tần suất cho trước, thì giá trị X tương ứng với tần suất đó có thể được tính theo công thức:

$$X = \bar{X} + zS \tag{5.23}$$

Bảng 5.7. Các giá trị chọn lọc của biến chuẩn (z) cho phân phối normal tích lũy

Xác suất vượt ngưỡng	Chu kỳ lặp (năm)	z
0.5	2	0.0000
0.2	5	0.8416
0.1	10	1.2816
0.04	25	1.7507
0.02	50	2.0538
0.01	100	2.3264
0.002	500	2.8782

Ví dụ 5.4: Tính toán với phân phối normal chuẩn
Mục tiêu:
Minh họa cách ước lượng lũ 10 năm bằng cách sử dụng phân phối normal chuẩn và ước lượng xác suất của một lưu lượng 6.390 ft³/s cũng bằng phân phối normal chuẩn.

Cho:
Chuỗi đỉnh lũ hàng năm tuân theo phân phối normal với:

$$\bar{X} = 4.240 \text{ ft}³/\text{s} \quad S = 1.230 \text{ ft}³/\text{s}$$

Yêu cầu:
Tính lưu lượng lũ 10 năm và xác suất xảy ra của lưu lượng 6.390 ft³/s.

Bước 1. Tính lưu lượng lũ 10 năm

Sự kiện 10 năm có xác suất vượt quá là 0.10 (10%) hay xác suất không vượt quá là 0.90 (90%). Do đó, giá trị tương ứng của z từ Bảng 5.7 là 1.2816.
Tính lũ 10 năm theo phương trình (5.23):

$$X = \bar{X} + zS = 4.240 + 1.2816(1.230) = 5.816 \text{ ft}³/\text{s}$$

Bước 2. Tính xác suất của một trận lũ 6.390 ft³/s

Sử dụng phương trình (5.22) để tính giá trị biến chuẩn

$$z = \frac{X – \bar{X}}{S} = \frac{6.390 – 4.240}{1.230} = 1.75$$

Tra Bảng 5.7 với z = 1.75: xác suất vượt ngưỡng là 0.04, tức đây là trận lũ có chu kỳ lặp 25 năm.

Kết quả ví dụ 5.4
Lũ 10 năm là 5.816 ft³/s, và xác suất xảy ra của một trận lũ 6.390 ft³/s là 0.04, tương ứng với một trận lũ 25 năm.

5.2.1.2 Phân Tích Tần Suất theo Phân Phối Normal

Một biểu đồ xác suất-số học có trục hoành được biến đổi đặc biệt theo thang xác suất. Trục hoành này được biến đổi sao cho hàm phân phối tích lũy (CDF) của dữ liệu tuân theo phân phối normal sẽ là một đường thẳng. Nếu một chuỗi đỉnh lũ tuân theo phân phối normal được vẽ theo hàm tần suất tích lũy hoặc xác suất vượt ngưỡng trên trục xác suất, dữ liệu sẽ tạo thành một đường thẳng với phương trình:

(nd: CDF, hàm tần suất tích lũy, xác xuất vượt ngưỡng)

Đây là 3 khái niệm quan trọng trong thống kê và thủy văn, đặc biệt khi phân tích tần suất lũ. Dưới đây là giải thích rõ ràng từng khái niệm, cách dùng và mối liên hệ giữa chúng:

1. Hàm phân phối tích lũy (CDF – Cumulative Distribution Function)

Định nghĩa: Hàm CDF của một biến ngẫu nhiên X là hàm mô tả xác suất tích lũy cho đến một giá trị x: $F(x) = P(X \leq x)$

=> Tức là: xác suất mà giá trị của X nhỏ hơn hoặc bằng x.

Đặc điểm:
+ Tăng dần từ 0 đến 1.
+ Với phân phối Normal, đường cong CDF có hình chữ S.
+ Được dùng để tìm tần suất xuất hiện dưới ngưỡng.

2. Hàm tần suất tích lũy (cumulative frequency function)

Định nghĩa: Là dạng thực nghiệm của CDF — tức là lấy dữ liệu thực tế, sắp xếp theo thứ tự và tính xác suất hoặc tần suất tích lũy.

$$F(x_i) = \frac{\text{số lượng giá trị } \le x_i}{n}$$

Đây là cách biểu diễn CDF từ dữ liệu quan sát (thống kê thực nghiệm).
Ví dụ: Nếu có 10 quan sát, và 3 trong số đó ≤ 200 m³/s, thì tần suất tích lũy tại 200 là 0.3.

3. Xác suất vượt ngưỡng (Exceedance Probability)

Định nghĩa: Là xác suất mà giá trị vượt quá một giá trị nhất định: $P(X > x) = 1 – F(x)$

Dùng phổ biến trong thủy văn để mô tả rủi ro: “Xác suất lũ vượt 500 m³/s là 10%”.
Càng nhỏ → càng hiếm → thường ứng với các trận lũ cực đoan.

Mối liên hệ giữa ba khái niệm:

Tên gọi	Ký hiệu	Ý nghĩa	Quan hệ
Hàm phân phối tích lũy	F(x))	P(X≤x)	Gốc
Xác suất vượt ngưỡng	P(X>x)	1−F(x)	Bổ sung
Hàm tần suất tích lũy (thực nghiệm)	$\hat{F}(x)$	Từ dữ liệu	Tiệm cận CDF nếu mẫu đủ lớn

Trong thủy văn, khi vẽ đồ thị xác suất (probability plot), ta dùng:

Trục tung: lưu lượng đỉnh
Trục hoành: xác suất vượt ngưỡng (hoặc ngược lại là CDF)

→ Nếu phân phối normal phù hợp, các điểm sẽ gần thành đường thẳng trên biểu đồ.

$$X = \bar{X} + K S \tag{5.24}$$

trong đó:

X = Lưu lượng lũ ứng với một tần suất xác định
K = Hệ số tần suất của phân phối

Đối với phân phối normal, K = z trong đó z lấy từ Bảng 5.7. Bảng 5.8 cung cấp chi tiết các xác suất không vượt ngưỡng cho phân phối normal chuẩn tích lũy ứng với các giá trị của biến chuẩn z. Nếu chuỗi đỉnh lũ hàng năm có phân phối normal, kỹ sư có thể ước lượng xác suất không vượt ngưỡng của một lưu lượng đã cho bằng quy trình sau:

Tính giá trị trung bình $\bar{X}$ và độ lệch chuẩn S của chuỗi đỉnh lũ hàng năm.
Sử dụng phương trình 5.22 để tính giá trị biến chuẩn z cho lưu lượng cần quan tâm.
Tra Bảng 5.8 với giá trị z và lấy xác suất không vượt quá.
Tính xác suất vượt ngưỡng hàng năm (AEP) bằng cách lấy 1 trừ xác suất không vượt ngưỡng.

Bảng 5.8. Xác suất không vượt ngưỡng của phân phối Normal chuẩn tích lũy ứng với các giá trị biến chuẩn (z)

z	0	0.01	0.02	0.03	0.04	0.05	0.06	0.07	0.08	0.09
-3.4	0.0003	0.0003	0.0003	0.0003	0.0003	0.0003	0.0003	0.0003	0.0003	0.0002
-3.3	0.0005	0.0005	0.0005	0.0004	0.0004	0.0004	0.0004	0.0004	0.0004	0.0003
-3.2	0.0007	0.0007	0.0006	0.0006	0.0006	0.0006	0.0005	0.0005	0.0005	0.0005
-3.1	0.0010	0.0009	0.0009	0.0009	0.0008	0.0008	0.0008	0.0007	0.0007	0.0007
-3.0	0.0013	0.0013	0.0012	0.0012	0.0011	0.0011	0.0011	0.0010	0.0010	0.0010
-2.9	0.0019	0.0018	0.0017	0.0016	0.0016	0.0015	0.0015	0.0014	0.0014	0.0014
-2.8	0.0026	0.0025	0.0024	0.0023	0.0022	0.0021	0.0020	0.0020	0.0019	0.0019
-2.7	0.0035	0.0034	0.0033	0.0032	0.0031	0.0030	0.0029	0.0028	0.0027	0.0026
-2.6	0.0047	0.0045	0.0044	0.0043	0.0041	0.0040	0.0039	0.0038	0.0037	0.0036
-2.5	0.0062	0.0060	0.0059	0.0057	0.0055	0.0054	0.0052	0.0051	0.0049	0.0048
-2.4	0.0082	0.0080	0.0078	0.0075	0.0073	0.0071	0.0069	0.0068	0.0066	0.0064
-2.3	0.0107	0.0104	0.0102	0.0099	0.0096	0.0094	0.0091	0.0089	0.0087	0.0084
-2.2	0.0139	0.0136	0.0132	0.0129	0.0125	0.0122	0.0119	0.0116	0.0113	0.0110
-2.1	0.0179	0.0174	0.0170	0.0166	0.0162	0.0158	0.0154	0.0150	0.0146	0.0143
-2.0	0.0228	0.0222	0.0217	0.0212	0.0207	0.0202	0.0197	0.0192	0.0188	0.0183
-1.9	0.0287	0.0281	0.0274	0.0268	0.0262	0.0256	0.0250	0.0244	0.0239	0.0233
-1.8	0.0359	0.0351	0.0344	0.0336	0.0329	0.0322	0.0314	0.0307	0.0301	0.0294
-1.7	0.0446	0.0436	0.0427	0.0418	0.0409	0.0401	0.0392	0.0384	0.0375	0.0367
-1.6	0.0548	0.0537	0.0526	0.0516	0.0505	0.0495	0.0485	0.0475	0.0465	0.0455
-1.5	0.0668	0.0655	0.0643	0.0630	0.0618	0.0606	0.0594	0.0582	0.0571	0.0559
-1.4	0.0808	0.0793	0.0778	0.0764	0.0749	0.0735	0.0721	0.0708	0.0694	0.0681
-1.3	0.0968	0.0951	0.0934	0.0918	0.0901	0.0885	0.0869	0.0853	0.0838	0.0823
-1.2	0.1151	0.1131	0.1112	0.1093	0.1075	0.1056	0.1038	0.1020	0.1003	0.0985
-1.1	0.1357	0.1335	0.1314	0.1292	0.1271	0.1251	0.1230	0.1210	0.1190	0.1170
-1.0	0.1587	0.1562	0.1539	0.1515	0.1492	0.1469	0.1446	0.1423	0.1401	0.1379
-0.9	0.1841	0.1814	0.1788	0.1762	0.1736	0.1711	0.1685	0.1660	0.1635	0.1611
-0.8	0.2119	0.2090	0.2061	0.2033	0.2005	0.1977	0.1949	0.1922	0.1894	0.1867
-0.7	0.2420	0.2389	0.2358	0.2327	0.2296	0.2266	0.2236	0.2206	0.2177	0.2148
-0.6	0.2743	0.2709	0.2676	0.2643	0.2611	0.2578	0.2546	0.2514	0.2483	0.2451
-0.5	0.3085	0.3050	0.3015	0.2981	0.2946	0.2912	0.2877	0.2843	0.2810	0.2776
-0.4	0.3446	0.3409	0.3372	0.3336	0.3300	0.3264	0.3228	0.3192	0.3156	0.3121
-0.3	0.3821	0.3783	0.3745	0.3707	0.3669	0.3632	0.3594	0.3557	0.3520	0.3483
-0.2	0.4207	0.4168	0.4129	0.4090	0.4052	0.4013	0.3974	0.3936	0.3897	0.3859
-0.1	0.4602	0.4562	0.4522	0.4483	0.4443	0.4404	0.4364	0.4325	0.4286	0.4247
-0.0	0.5000	0.4960	0.4920	0.4880	0.4840	0.4801	0.4761	0.4721	0.4681	0.4641

Bảng 5.8 (tiếp theo).

z	0	0.01	0.02	0.03	0.04	0.05	0.06	0.07	0.08	0.09
0.0	0.5000	0.5040	0.5080	0.5120	0.5160	0.5199	0.5239	0.5279	0.5319	0.5359
0.1	0.5398	0.5438	0.5478	0.5517	0.5557	0.5596	0.5636	0.5675	0.5714	0.5753
0.2	0.5793	0.5832	0.5871	0.5910	0.5948	0.5987	0.6026	0.6064	0.6103	0.6141
0.3	0.6179	0.6217	0.6255	0.6293	0.6331	0.6368	0.6406	0.6443	0.6480	0.6517
0.4	0.6554	0.6591	0.6628	0.6664	0.6700	0.6736	0.6772	0.6808	0.6844	0.6879
0.5	0.6915	0.6950	0.6985	0.7019	0.7054	0.7088	0.7123	0.7157	0.7190	0.7224
0.6	0.7257	0.7291	0.7324	0.7357	0.7389	0.7422	0.7454	0.7486	0.7517	0.7549
0.7	0.7580	0.7611	0.7642	0.7673	0.7704	0.7734	0.7764	0.7794	0.7823	0.7852
0.8	0.7881	0.7910	0.7939	0.7967	0.7995	0.8023	0.8051	0.8078	0.8106	0.8133
0.9	0.8159	0.8186	0.8212	0.8238	0.8264	0.8289	0.8315	0.8340	0.8365	0.8389
1.0	0.8413	0.8438	0.8461	0.8485	0.8508	0.8531	0.8554	0.8577	0.8599	0.8621
1.1	0.8643	0.8665	0.8686	0.8708	0.8729	0.8749	0.8770	0.8790	0.8810	0.8830
1.2	0.8849	0.8869	0.8888	0.8907	0.8925	0.8944	0.8962	0.8980	0.8997	0.9015
1.3	0.9032	0.9049	0.9066	0.9082	0.9099	0.9115	0.9131	0.9147	0.9162	0.9177
1.4	0.9192	0.9207	0.9222	0.9236	0.9251	0.9265	0.9279	0.9292	0.9306	0.9319
1.5	0.9332	0.9345	0.9357	0.9370	0.9382	0.9394	0.9406	0.9418	0.9429	0.9441
1.6	0.9452	0.9463	0.9474	0.9484	0.9495	0.9505	0.9515	0.9525	0.9535	0.9545
1.7	0.9554	0.9564	0.9573	0.9582	0.9591	0.9599	0.9608	0.9616	0.9625	0.9633
1.8	0.9641	0.9649	0.9656	0.9664	0.9671	0.9678	0.9686	0.9693	0.9699	0.9706
1.9	0.9713	0.9719	0.9726	0.9732	0.9738	0.9744	0.9750	0.9756	0.9761	0.9767
2.0	0.9772	0.9778	0.9783	0.9788	0.9793	0.9798	0.9803	0.9808	0.9812	0.9817
2.1	0.9821	0.9826	0.9830	0.9838	0.9842	0.9846	0.9850	0.9854	0.9857	0.9861
2.2	0.9861	0.9864	0.9868	0.9871	0.9875	0.9878	0.9881	0.9884	0.9887	0.9890
2.3	0.9893	0.9896	0.9898	0.9901	0.9904	0.9906	0.9909	0.9911	0.9913	0.9916
2.4	0.9918	0.9920	0.9922	0.9925	0.9927	0.9929	0.9931	0.9932	0.9934	0.9936
2.5	0.9938	0.9940	0.9941	0.9943	0.9945	0.9946	0.9948	0.9949	0.9951	0.9952
2.6	0.9953	0.9955	0.9956	0.9957	0.9959	0.9960	0.9961	0.9962	0.9963	0.9964
2.7	0.9965	0.9966	0.9967	0.9968	0.9969	0.9970	0.9971	0.9972	0.9973	0.9974
2.8	0.9974	0.9975	0.9976	0.9976	0.9977	0.9977	0.9978	0.9979	0.9979	0.9980
2.9	0.9981	0.9982	0.9982	0.9982	0.9983	0.9984	0.9984	0.9984	0.9985	0.9985
3.0	0.9987	0.9987	0.9987	0.9988	0.9988	0.9989	0.9989	0.9989	0.9989	0.9990
3.1	0.9990	0.9990	0.9991	0.9991	0.9991	0.9992	0.9992	0.9992	0.9992	0.9993
3.2	0.9993	0.9993	0.9994	0.9994	0.9994	0.9994	0.9995	0.9995	0.9995	0.9995
3.3	0.9995	0.9996	0.9996	0.9996	0.9996	0.9996	0.9997	0.9997	0.9997	0.9997
3.4	0.9997	0.9997	0.9997	0.9997	0.9997	0.9997	0.9997	0.9997	0.9997	0.9998

Ngược lại, kỹ sư có thể ước lượng lưu lượng đỉnh tương ứng với một giá trị AEP cụ thể bằng quy trình sau:

Tính giá trị trung bình $\bar{X}$ và độ lệch chuẩn S của chuỗi đỉnh lũ hằng năm.
Tính xác suất không vượt ngưỡng quan tâm bằng cách lấy 1 trừ đi AEP.
Tra Bảng 5.8 với xác suất không vượt ngưỡng vừa tính để lấy giá trị tương ứng của z.
Sử dụng phương trình 5.23 để tính lưu lượng X.

Ví dụ 5.5: Lắp phân phối normal cho chuỗi lưu lượng đỉnh hàng năm.
Mục tiêu: Ước lượng các tham số phân phối bằng cách sử dụng thống kê mẫu từ số liệu tại trạm đo lưu lượng và đánh giá mức độ phù hợp của dữ liệu với phân phối normal.

Cho:
Chuỗi dòng chảy đỉnh hàng năm từ trạm đo trên sông Nueces, phía hạ lưu Uvalde, Texas. Bảng 5.9 trình bày dữ liệu tại trạm đo sông Nueces cùng với các phép tính hỗ trợ cho phân tích sau đây.

Thông tin trạm đo: Sông Nueces phía hạ lưu Uvalde, Texas (08192000)

Lưu vực: Sông Nueces phía hạ lưu Uvalde, Texas (USGS 08192000), nằm bên bờ phải, cách 5.7 dặm về phía thượng lưu của một cây cầu trên Quốc lộ Hoa Kỳ 83, cách 8.8 dặm về phía tây nam Uvalde, cách 18.2 dặm về phía hạ lưu của Uvalde, tại điểm mile 338.7.

Vị trí: Vĩ độ 29°07’25” Bắc, Kinh độ 99°53’40” Tây

Diện tích lưu vực: 1.861 dặm vuông (mi²)

Ghi chú:
Một phần dòng chảy của sông Nueces và các nhánh đầu nguồn chảy qua các đá vôi Edwards và đá vôi liên quan trong vùng đứt gãy Balcones, cắt ngang lưu vực giữa trạm Nueces tại Laguna (trạm 08190000) và trạm này. Không có điều tiết dòng chảy đã biết. Có nhiều đập nhỏ phía trên trạm để phục vụ tưới tiêu. Đôi khi không có dòng chảy. Một số dữ liệu được liệt kê trong mục “Giai đoạn ghi nhận” đối với nước mặt và chất lượng nước có thể không có sẵn dưới dạng điện tử.

Giai đoạn ghi nhận: Từ năm 1939 đến nay.

Bảng 5.9. Tính toán phân tích tần suất cho phân phối normal: Sông Nueces dưới Uvalde, Texas (Trạm 08192000).

Năm	Rank Hạng	Plotting Probability Vẽ theo xác suất	Annual Maximum Cực đại hàng năm (ft³/s)	X/$\bar{X}$	(X/$\bar{X}$) – 1	[(X/$\bar{X}$) – 1]²	[(X/$\bar{X}$) – 1]³
1935	1	0.011	616000	17.034	16.034	257.086	4122.090
1932	2	0.021	207000	5.724	4.724	22.317	105.425
1997	3	0.032	201000	5.558	4.558	20.777	94.703
1955	4	0.043	189000	5.226	4.226	17.862	75.489
1964	5	0.053	188000	5.199	4.199	17.629	74.017
1958	6	0.064	146000	4.037	3.037	9.225	28.018
1974	7	0.074	144000	3.982	2.982	8.892	26.516
2019	8	0.085	105000	2.904	1.904	3.623	6.897
1971	9	0.096	90600	2.505	1.505	2.266	3.411
1939	10	0.106	89000	2.461	1.461	2.135	3.119
1998	11	0.117	83200	2.301	1.301	1.692	2.200
2007	12	0.128	80100	2.215	1.215	1.476	1.793
1936	13	0.138	74800	2.068	1.068	1.141	1.220
2016	14	0.149	70400	1.947	0.947	0.896	0.849
1930	15	0.160	68200	1.886	0.886	0.785	0.695
1987	16	0.170	67200	1.858	0.858	0.737	0.632
2002	17	0.181	65300	1.806	0.806	0.649	0.523
1949	18	0.191	63000	1.742	0.742	0.551	0.409
1982	19	0.202	58500	1.618	0.618	0.382	0.236
1985	20	0.213	44600	1.233	0.233	0.054	0.013
1972	21	0.223	44100	1.219	0.219	0.048	0.011
2005	22	0.234	42000	1.161	0.161	0.026	0.004
1966	23	0.245	39900	1.103	0.103	0.011	0.001
1924	24	0.255	37500	1.037	0.037	0.001	0.000
1991	25	0.266	36600	1.012	0.012	0.000	0.000
2004	26	0.277	35000	0.968	-0.032	0.001	0.000
1961	27	0.287	28600	0.791	-0.209	0.044	-0.009
1931	28	0.298	27000	0.747	-0.253	0.064	-0.016
1981	29	0.309	25900	0.716	-0.284	0.081	-0.023
1965	30	0.319	25200	0.697	-0.303	0.092	-0.028
1970	31	0.330	23700	0.655	-0.345	0.119	-0.041
1948	32	0.340	23600	0.653	-0.347	0.121	-0.042
1975	33	0.351	22300	0.617	-0.383	0.147	-0.056
1990	34	0.362	22000	0.608	-0.392	0.153	-0.060
1963	35	0.372	19500	0.539	-0.461	0.212	-0.098
1954	36	0.383	18400	0.509	-0.491	0.241	-0.119
1938	37	0.394	18200	0.503	-0.497	0.247	-0.123
1959	38	0.404	17300	0.478	-0.522	0.272	-0.142
1976	39	0.415	14900	0.412	-0.588	0.346	-0.203
1929	40	0.426	14500	0.401	-0.599	0.359	-0.215
2001	41	0.436	13700	0.379	-0.621	0.386	-0.240
1968	42	0.447	12100	0.335	-0.665	0.443	-0.295
1986	43	0.457	11600	0.321	-0.679	0.461	-0.313
1942	44	0.468	11200	0.310	-0.690	0.477	-0.329
2015	45	0.479	11200	0.310	-0.690	0.477	-0.329
1999	46	0.489	10200	0.282	-0.718	0.515	-0.370
1928	47	0.500	10000	0.277	-0.723	0.523	-0.379

Bảng 5.9 (tiếp theo). Tính toán phân tích tần suất cho phân phối normal: Sông Nueces dưới Uvalde, Texas (Trạm 08192000).

Năm	Hạng	Plotting Probability Vẽ theo xác suất	Annual Maximum Cực đại hàng năm (ft³/s)	X/$\bar{X}$	(X/$\bar{X}$) – 1	[(X/$\bar{X}$) – 1]²	[(X/$\bar{X}$) – 1]³
2018	48	0.511	9720	0.269	-0.731	0.535	-0.391
1992	49	0.521	9400	0.260	-0.740	0.547	-0.422
1978	50	0.532	8270	0.229	-0.771	0.595	-0.459
1956	51	0.543	7170	0.199	-0.801	0.642	-0.514
1953	52	0.553	6160	0.170	-0.830	0.688	-0.571
1995	53	0.564	6070	0.168	-0.832	0.692	-0.576
1996	54	0.574	6000	0.166	-0.834	0.695	-0.580
1994	55	0.585	5760	0.160	-0.840	0.705	-0.592
1940	56	0.596	5000	0.139	-0.861	0.743	-0.639
1947	57	0.606	4490	0.124	-0.876	0.767	-0.672
1960	58	0.617	3900	0.108	-0.892	0.796	-0.711
1944	59	0.628	3370	0.093	-0.907	0.822	-0.746
1957	60	0.638	3190	0.088	-0.912	0.831	-0.755
1946	61	0.649	3010	0.083	-0.917	0.840	-0.771
1941	62	0.660	2830	0.078	-0.922	0.850	-0.778
1943	63	0.670	2380	0.066	-0.934	0.873	-0.815
1942	64	0.681	2090	0.058	-0.942	0.888	-0.835
2011	65	0.691	1480	0.040	-0.960	0.922	-0.885
2020	66	0.702	1440	0.040	-0.960	0.922	-0.885
2003	67	0.713	1230	0.034	-0.966	0.933	-0.902
2005	68	0.723	1220	0.033	-0.967	0.936	-0.904
1937	69	0.734	330	0.009	-0.991	0.982	-0.973
1939	70	0.745	240	0.006	-0.994	0.988	-0.977
1980	71	0.755	200	0.005	-0.995	0.990	-0.980
1984	72	0.766	189	0.004	-0.996	0.992	-0.984
1961	73	0.777	180	0.004	-0.996	0.992	-0.984
1949	74	0.787	125	0.003	-0.997	0.994	-0.986
2006	75	0.798	103	0.003	-0.997	0.994	-0.988
1945	76	0.809	74	0.002	-0.998	0.996	-0.990
2009	77	0.819	74	0.002	-0.998	0.996	-0.990
1948	78	0.830	62	0.002	-0.998	0.996	-0.992
2008	79	0.840	62	0.002	-0.998	0.996	-0.992
1989	80	0.851	56	0.002	-0.998	0.996	-0.993
1990	81	0.862	55	0.002	-0.998	0.997	-0.994
1951	82	0.872	50	0.001	-0.999	0.997	-0.995
1988	83	0.883	46	0.001	-0.999	0.997	-0.996
2004	84	0.894	46	0.001	-0.999	0.997	-0.996
2010	85	0.904	37	0.001	-0.999	0.998	-0.997
2019	86	0.915	27	0.001	-0.999	0.999	-0.998
2014	87	0.926	25	0.001	-0.999	0.999	-0.998
2007	88	0.936	19	0.000	-1.000	1.000	-1.000
1956	89	0.947	14	0.000	-1.000	1.000	-1.000
2012	90	0.957	10	0.000	-1.000	1.000	-1.000
2013	91	0.968	7	0.000	-1.000	1.000	-1.000
2021	92	0.979	0	0.000	-1.000	1.000	-1.000
1945	93	0.989	0	0.000	-1.000	1.000	-1.000
Tổng			3,363,176			417.159	-4505.599

Bước 1. Tính giá trị trung bình và độ lệch chuẩn.

$$\bar{X} = \frac{\sum_{i=1}^n X_i}{n} = \frac{3{,}363{,}176}{93} = 36{,}163 \, \text{ft}^3/\text{s}$$

$$S = \bar{X} \left[ \frac{ \sum_{i=1}^n \left( \frac{X_i}{\bar{X}} – 1 \right)^2 }{n – 1} \right]^{0.5} = 36{,}186 \left[ \frac{417.159}{93 – 1} \right]^{0.5} = 77{,}006 \, \text{ft}^3/\text{s}$$

Bước 2. Tính các phân vị điển hình để vẽ phân phối đã lắp.

Bảng 5.10 trình bày kết quả tính toán sử dụng phương trình 5.22 và các ước lượng cho các tham số phân phối của sông Nueces. Các vị trí theo xác suất (plotting positions) được xác định bằng công thức Weibull.

Bảng 5.10. Ước lượng phân vị theo phân phối normal đã lắp, Sông Nueces dưới Uvalde, Texas.

Xác suất vượt	Chu kỳ lặp lại (năm)	z	$X_{RI}$ (ft³/s)
0.5	2	0.0000	36,163
0.2	5	0.8416	100,971
0.1	10	1.2816	134,854
0.04	25	1.7507	170,977
0.02	50	2.0538	194,318
0.01	100	2.3264	215,310
0.002	500	2.8782	257,801

Bước 3. Vẽ mẫu từ Bảng 5.9 và các phân vị từ Bảng 5.10 trên cùng một biểu đồ xác suất logarit.

Hình 5.14 là kết quả, sử dụng phần mềm HEC-SSP.

Bước 4. Tính hệ số biến thiên và hệ số lệch cho mẫu.

Dựa vào Hình 5.14, sự tương quan giữa đường phân phối normal và dữ liệu thực tế là kém. Do đó, các dữ liệu lưu lượng đỉnh hàng năm này không tuân theo phân phối normal.

Sử dụng phương trình 5.10 và 5.11 để ước lượng hệ số biến thiên và hệ số lệch, rõ ràng là dữ liệu có độ lệch lớn trong khi phân phối normal có hệ số lệch bằng 0. Điều này giải thích sự tương quan kém trong trường hợp này.

$$V = \frac{S}{\bar{X}} = \frac{77{,}006 \, \text{ft}^3/\text{s}}{36{,}163 \, \text{ft}^3/\text{s}} = 2.129$$

$$G = \frac{n \sum \left( \frac{X_i}{\bar{X}} – 1 \right)^3}{(n – 1)(n – 2)V^3} = \frac{93 (4505.6)}{(92)(91)(2.129)^3} = 5.18$$

Hình 5.14. Đường cong tần suất phân phối normal và lưu lượng đỉnh hàng năm quan sát được, Sông Nueces bên dưới Uvalde, Texas (USGS 08192000)

Kết quả ví dụ 5.5:
Các ước lượng tham số của mẫu đã được trình bày ở trên. Bảng 5.10 trình bày các ước lượng phân vị điển hình. Hình 5.14 trình bày dữ liệu và sự phù hợp của phân phối. Dữ liệu không phù hợp với phân phối Normal.

5.2.2 Phân phối Log-Normal

Phân phối log-normal có các đặc điểm tương tự như phân phối normal, ngoại trừ biến phụ thuộc, X, được thay thế bằng logarith cơ số 10 của nó. Đặc điểm của phân phối log-normal là nó bị chặn bên trái bởi giá trị 0 và có độ lệch dương rõ rệt. Đây đều là những đặc điểm của nhiều phân phối tần suất thu được từ phân tích dữ liệu thủy văn.

Nếu kỹ sư thực hiện phép biến đổi logarith đối với hàm phân phối normal, phân phối logarith thu được sẽ có phân phối normal. Điều này cho phép kỹ sư sử dụng các giá trị z được lập bảng trong Bảng 5.7 và Bảng 5.8 cho phân phối normal chuẩn trong phân tích tần suất log-normal. Cũng như với phân phối normal, các thang tần suất log-normal đã được phát triển, trong đó đồ thị của hàm phân phối tích lũy (CDF) là một đường thẳng. Thang này sử dụng trục hoành biến đổi dựa trên hàm xác suất của phân bố normal và trục tung là thang logarith. Nếu logarith của các lưu lượng đỉnh có phân phối normal, dữ liệu sẽ tạo thành một đường thẳng theo phương trình:

$$Y = \log X = \overline{Y} + K S_y \tag{5.25}$$

trong đó:

$\overline{Y} = \text{Giá trị trung bình của logarith của X} \\ S_y = \text{Độ lệch chuẩn của các logarith}$

5.2.2.1 Lắp ráp phân phối

Quy trình để lắp phân phối log-normal tương tự như đối với phân phối normal, với điểm khác biệt là các lưu lượng đỉnh được biến đổi bằng cách lấy logarith:

Biến đổi các giá trị của chuỗi lũ X bằng cách lấy logarith: Y = log₁₀X.
Tính trung bình logarith ($\overline{Y}$) và độ lệch chuẩn logarith ($S_y$).
Dùng $\overline{Y}$ và $S_y$, tính $10^{\overline{Y} + S_y}$ và $10^{\overline{Y} – S_y}$ cho các phân vị quan tâm. Vẽ các giá trị này trên hệ tọa độ xác suất-log (thường bằng phần mềm).
Vì phân bố log-normal tạo thành đường thẳng trên hệ tọa độ xác suất-log, kết quả nên là một đường thẳng.
Tính các vị trí theo xác suất của các quan trắc (các điểm dữ liệu trong mẫu).
Vẽ các quan trắc (các điểm vị trí theo xác suất) trên cùng hệ tọa độ.
Xem xét các quan trắc và phân phối để đánh giá độ phù hợp.

5.2.2.2 Ước lượng độ lớn lũ

Các ước lượng đồ thị của độ lớn hoặc xác suất lũ có thể được lấy trực tiếp từ đường biểu diễn phân phối log-normal giả định. Để tính xác suất cho logarith của một độ lớn cho trước (Y = log₁₀X), tính:

$$z = \frac{Y – \overline{Y}}{S_y} \tag{5.26}$$

Để tìm độ lớn ứng với một xác suất cho trước, tính:

$$Y = \overline{Y} + z S_y \tag{5.27}$$

Giá trị Y được biến đổi để ước lượng lưu lượng:

$$X = 10^Y \tag{5.28}$$

Ví dụ 5.6: Khớp một phân bố log-normal với chuỗi lưu lượng đỉnh hàng năm.
Mục tiêu: Ước lượng các tham số phân bố bằng cách sử dụng thống kê mẫu từ số liệu tại trạm đo.

Cho:
Sử dụng chuỗi lưu lượng đỉnh hàng năm từ sông Nueces bên dưới Uvalde, Texas, tại trạm đo. Mô tả trạm đo giống như trong ví dụ 5.5.

Bước 1. Sử dụng số liệu trạm đo trong Bảng 5.12 để tính logarith của chuỗi lưu lượng đỉnh hàng năm.

Lưu ý rằng trong ví dụ này, quan trắc nhỏ nhất của lưu lượng đỉnh là giá trị bằng 0. Logarith của số 0 là không xác định. Với ví dụ này, giá trị đó được loại bỏ khỏi tập số liệu. Do có số lượng quan trắc tương đối lớn trong mẫu, điều này không ảnh hưởng nghiêm trọng đến phân tích (và là đủ cho một ví dụ). Trong thực tế, các kỹ sư sử dụng công cụ tinh vi hơn (chẳng hạn như trong Bulletin 17C) để xử lý giá trị bằng 0.

Bước 2. Tính trung bình và độ lệch chuẩn của logarith lưu lượng đỉnh.

$$\overline{Y} = \frac{\sum_{i=1}^n Y_i}{n} = \frac{331.474}{92} = 3.603 \, \text{ft}^3/\text{s}$$

$$S_y = \overline{Y} \left[ \frac{\sum_{i=1}^{n} \left(\frac{Y_i}{\overline{Y}} – 1\right)^2}{n – 1} \right]^{0.5} = 3.603 \left( \frac{12.66}{91} \right)^{0.5} = 1.334 \, \text{ft}^3/\text{s}$$

Bước 3. Tính các phân vị quan tâm.

Bảng 5.11 thể hiện kết quả từ các phép tính này.

Bảng 5.11. Ước lượng phân vị cho một phân bố log-normal khớp, số liệu trạm đo trên sông Nueces bên dưới Uvalde, Texas.

Xác suất vượt ngưỡng	Chu kỳ lặp (năm)	z	$Y_{RI}$ (log-ft³/s)	$X_{RI}$ (ft³/s)
0.5	2	0.0000	3.603	4,008
0.2	5	0.8416	4.725	53,120
0.1	10	1.2816	5.312	205,120
0.04	25	1.7507	5.938	866,082
0.02	50	2.0538	6.342	2,196,581
0.01	100	2.3264	6.705	5,072,981
0.002	500	2.8782	7.441	27,611,921

Bước 4. Vẽ kết quả trên hệ tọa độ xác suất-log.

Hình 5.15 hiển thị kết quả của các phép tính.

Bảng 5.12. Các phép tính phân tích tần suất cho phân bố log-normal, sông Nueces bên dưới Uvalde, Texas.

Năm	Hạng	Plotting Probability Vẽ theo xác suất	Lưu lượng cực đại hàng năm (x) (ft³/s)	Y = Log(x)	Y/Ȳ	[(Y/Ȳ) – 1]	[(Y/Ȳ) – 1]²	[(Y/Ȳ) – 1]³
1935	1	0.011	616000	5.7896	1.607	0.607	0.368	0.224
1932	2	0.022	207000	5.3160	1.475	0.475	0.226	0.107
1997	3	0.032	201000	5.3032	1.472	0.472	0.223	0.105
1955	4	0.043	189000	5.2756	1.464	0.464	0.215	0.100
1964	5	0.054	188000	5.2742	1.464	0.464	0.215	0.100
1938	6	0.066	146000	5.1644	1.432	0.432	0.186	0.080
1974	7	0.075	144000	5.1584	1.432	0.432	0.186	0.080
2019	8	0.086	120000	5.0792	1.410	0.410	0.168	0.069
1971	9	0.097	96000	4.9571	1.376	0.376	0.141	0.053
1939	10	0.108	91000	4.9594	1.371	0.371	0.138	0.052
1998	11	0.118	83200	4.9201	1.366	0.366	0.134	0.049
2007	12	0.129	80100	4.9036	1.361	0.361	0.130	0.047
1936	13	0.140	78000	4.8793	1.354	0.354	0.125	0.044
2016	14	0.151	70400	4.8476	1.345	0.345	0.119	0.041
1973	15	0.161	68200	4.8344	1.342	0.342	0.117	0.040
1987	16	0.172	67200	4.8274	1.340	0.340	0.115	0.039
2002	17	0.183	65300	4.8149	1.336	0.336	0.113	0.038
1984	18	0.194	63000	4.7993	1.332	0.332	0.110	0.037
1982	19	0.204	58500	4.7672	1.323	0.323	0.104	0.034
1985	20	0.215	44600	4.6493	1.289	0.289	0.084	0.024
1972	21	0.226	44100	4.6444	1.289	0.289	0.084	0.024
2005	22	0.237	42000	4.6232	1.283	0.283	0.080	0.023
1966	23	0.247	39900	4.6010	1.277	0.277	0.077	0.021
1960	24	0.258	37500	4.5740	1.270	0.270	0.073	0.020
1991	25	0.269	36600	4.5635	1.267	0.267	0.071	0.019
1961	26	0.279	28600	4.4564	1.237	0.237	0.056	0.013
1993	27	0.290	28000	4.4471	1.234	0.234	0.055	0.013
1981	28	0.301	27000	4.4314	1.229	0.229	0.052	0.012
1968	29	0.312	25900	4.4133	1.225	0.225	0.051	0.011
1965	30	0.323	25200	4.4041	1.222	0.222	0.049	0.011
1980	31	0.333	23700	4.3747	1.214	0.214	0.046	0.010
1948	32	0.344	23600	4.3729	1.214	0.214	0.046	0.010
1975	33	0.355	22300	4.3483	1.207	0.207	0.043	0.009
1990	34	0.366	22000	4.3424	1.205	0.205	0.042	0.009
1930	35	0.376	19500	4.2900	1.191	0.191	0.036	0.007
1954	36	0.387	18400	4.2648	1.184	0.184	0.034	0.006
1938	37	0.398	18200	4.2601	1.182	0.182	0.033	0.006
1959	38	0.409	17300	4.2380	1.176	0.176	0.031	0.006
1939	39	0.419	14900	4.1732	1.158	0.158	0.025	0.004
1929	40	0.430	14500	4.1614	1.155	0.155	0.024	0.004
1970	41	0.441	13700	4.1367	1.148	0.148	0.022	0.003
1968	42	0.452	12100	4.0828	1.133	0.133	0.018	0.002
1986	43	0.462	11600	4.0645	1.128	0.128	0.016	0.002

Bảng 5.12 (tiếp theo). Phân tích tần suất cho phân phối log-normal, sông Nueces phía dưới Uvalde, Texas

Năm	Hạng	Plotting Probability Vẽ theo xác suất	Lưu lượng cực đại hàng năm (x) (ft³/s)	Y = Log(x)	Y/Ȳ	[(Y/Ȳ) – 1]	[(Y/Ȳ) – 1]²	[(Y/Ȳ) – 1]³
1942	44	0.473	11200	4.0492	1.124	0.124	0.015	0.002
2015	45	0.484	11200	4.0492	1.124	-0.124	0.015	-0.002
1999	46	0.494	10200	4.0086	1.113	-0.113	0.013	-0.001
1928	47	0.505	10000	4.0001	1.110	-0.110	0.012	-0.001
2018	48	0.516	9720	3.9877	1.107	-0.107	0.011	-0.001
1992	49	0.527	9040	3.9562	1.098	-0.098	0.010	-0.001
1978	50	0.537	8270	3.9175	1.087	-0.087	0.008	-0.001
1977	51	0.548	7450	3.8722	1.075	-0.075	0.006	0.000
1953	52	0.559	6160	3.7896	1.052	-0.052	0.003	0.000
1979	53	0.570	6040	3.7810	1.049	-0.049	0.002	0.000
1996	54	0.581	5200	3.7162	1.031	-0.031	0.001	0.000
1994	55	0.591	5000	3.7604	1.044	-0.044	0.002	0.000
1952	56	0.602	5020	3.7007	1.027	-0.027	0.001	0.000
1935	57	0.613	4990	3.6981	1.026	-0.026	0.001	0.000
1947	58	0.624	4490	3.6522	1.014	-0.014	0.000	0.000
1980	59	0.634	3370	3.5266	0.978	-0.022	0.000	0.000
1957	60	0.645	3090	3.4900	0.969	-0.031	0.001	0.000
1963	61	0.656	2960	3.4718	0.964	-0.036	0.001	0.000
1983	62	0.667	2390	3.3784	0.938	-0.062	0.004	0.000
1984	63	0.677	2380	3.3763	0.937	-0.063	0.004	0.000
1961	64	0.688	1960	3.2923	0.914	-0.086	0.007	-0.001
1965	65	0.699	1790	3.2529	0.903	-0.097	0.009	-0.001
2017	66	0.710	1440	3.1584	0.877	-0.123	0.015	-0.002
1962	67	0.720	728	2.8621	0.794	-0.206	0.042	-0.009
2003	68	0.731	626	2.7966	0.776	-0.224	0.050	-0.011
1950	69	0.742	384	2.5843	0.717	-0.283	0.080	-0.023
1937	70	0.752	330	2.5185	0.699	-0.301	0.091	-0.027
1933	71	0.763	246	2.3909	0.664	-0.336	0.113	-0.038
1980	72	0.774	212	2.3263	0.646	-0.354	0.126	-0.045
1954	73	0.785	189	2.2765	0.632	-0.368	0.136	-0.050
1958	74	0.796	153	2.1847	0.607	-0.393	0.155	-0.061
1993	75	0.806	125	2.0969	0.582	-0.418	0.175	-0.073
2006	76	0.817	83	1.9191	0.533	-0.467	0.218	-0.102
2006	77	0.828	74	1.8692	0.519	-0.481	0.232	-0.111
2020	78	0.839	70	1.8451	0.512	-0.488	0.238	-0.116
2012	79	0.849	63.2	1.8007	0.500	-0.500	0.250	-0.125
2000	80	0.860	60	1.7782	0.494	-0.506	0.256	-0.130
2008	81	0.871	56	1.7482	0.485	-0.515	0.265	-0.136
1989	82	0.882	55	1.7404	0.483	-0.517	0.267	-0.138
2002	83	0.892	51	1.7076	0.474	-0.526	0.277	-0.146
1951	84	0.903	46	1.6628	0.461	-0.539	0.290	-0.156
2004	85	0.914	45	1.6532	0.458	-0.542	0.294	-0.158
1984	86	0.925	37	1.5682	0.435	-0.565	0.319	-0.180
2010	87	0.935	25	1.3979	0.388	-0.612	0.375	-0.229
2009	88	0.946	19	1.2788	0.355	-0.645	0.416	-0.268
1956	89	0.957	14	1.1461	0.318	-0.682	0.465	-0.317
2011	90	0.968	8.3	0.9191	0.255	-0.745	0.555	-0.414
2012	91	0.978	6.2	0.7924	0.220	-0.780	0.609	-0.475
2013	92	0.989	0.07	-1.1549	-0.321	-1.000	1.000	-1.000
Tổng	—	—	—	—	—	–0.321	12.466	–4.229

Hình 5.15. Đường tần suất theo phân phối log-normal và lưu lượng đỉnh hàng năm quan trắc được, sông Nueces phía dưới Uvalde, Texas (USGS 08192000).

Bước 5. Tính hệ số biến thiên và hệ số lệch (skew) cho mẫu.

Tính hệ số biến thiên và hệ số lệch:

$$V = \frac{S}{\overline{Y}} = \frac{1.334\ \log ft^3/s}{3.603\ \log ft^3/s} = 0.370 $$

$$G = \frac{n \sum \left( \frac{Y_i}{\overline{Y}} – 1 \right)^3}{(n-1)(n-2)V^3} = \frac{92(-4.229)}{(91)(90)(0.370)^3} = -0.937$$

Hệ số lệch không gần bằng 0. Điều này cũng được thể hiện rõ trên Hình 5.15 do độ cong trong dữ liệu quan trắc.

Kết quả ví dụ 5.6
Việc tính toán, bảng dữ liệu và đồ thị phân phối đã cho kết quả.
Phân phối log-normal không phù hợp tốt với dữ liệu.

5.2.3 Phân phối giá trị cực hạn Gumbel

Phân phối giá trị cực hạn Gumbel (Gumbel 1941), đôi khi còn được gọi là phân phối mũ kép của các giá trị cực trị, cũng có thể được sử dụng để mô tả phân phối của các biến thủy văn, đặc biệt là lưu lượng đỉnh. Nó dựa trên giả định rằng hàm phân phối tích lũy của các giá trị lớn nhất trong các mẫu được rút ra từ một tổng thể lớn có thể được mô tả bởi:

$$F(X) = e^{-e^{-\alpha (X – \beta)}} \tag{5.29}$$

Các tham số phân phối là:

$$\alpha = \frac{1.281}{S} \tag{5.30} $$

$$\beta = \overline{X} – 0.450 S \tag{5.31}$$

Các giá trị của hàm phân phối Gumbel được tính từ phương trình 5.29, tương tự như quy trình đã sử dụng cho các phân phối normal và log-normal. Bảng 5.13 liệt kê các giá trị hệ số tần suất K.

Đặc điểm của phân phối giá trị cực hạn Gumbel là lưu lượng trung bình, $\overline{X}$, xảy ra tại chu kỳ lặp lại T = 2.33 năm và nó có hệ số lệch dương (tức là, phân phối lệch về phía lưu lượng lớn hoặc các giá trị cực hạn).

Bảng 5.13. Hệ số tần suất (K) cho phân phối giá trị cực hạn Gumbel

Cỡ mẫu n	Xác suất vượt	Xác suất vượt	Xác suất vượt	Xác suất vượt	Xác suất vượt	Xác suất vượt	Xác suất vượt
	0.5	0.2	0.1	0.04	0.02	0.01	0.002
10	-0.1355	1.0581	1.8483	2.8468	3.5876	4.3228	6.0219
15	-0.1433	0.9672	1.7025	2.6315	3.3207	4.0048	5.5857
20	-0.1478	0.9186	1.6247	2.5169	3.1787	3.8357	5.3538
25	-0.1506	0.8879	1.5755	2.4442	3.0887	3.7285	5.2068
30	-0.1525	0.8664	1.5410	2.3933	3.0257	3.6533	5.1038
35	-0.1540	0.8504	1.5153	2.3555	2.9789	3.5976	5.0273
40	-0.1552	0.8379	1.4955	2.3262	2.9426	3.5543	4.9680
45	-0.1561	0.8280	1.4795	2.3027	2.9134	3.5196	4.9204
50	-0.1568	0.8197	1.4662	2.2831	2.8892	3.4907	4.8808
55	-0.1574	0.8128	1.4552	2.2668	2.8690	3.4667	4.8478
60	-0.1580	0.8069	1.4457	2.2529	2.8517	3.4460	4.8195
65	-0.1584	0.8019	1.4377	2.2401	2.8369	3.4285	4.7955
70	-0.1588	0.7973	1.4304	2.2302	2.8236	3.4126	4.7738
75	-0.1592	0.7934	1.4242	2.2211	2.8123	3.3991	4.7552
80	-0.1595	0.7899	1.4186	2.2128	2.8020	3.3869	4.7384
85	-0.1598	0.7868	1.4135	2.2054	2.7928	3.3759	4.7234
90	-0.1600	0.7840	1.4090	2.1987	2.7845	3.3660	4.7098
95	-0.1602	0.7815	1.4049	2.1926	2.7770	3.3570	4.6974
100	-0.1604	0.7791	1.4011	2.1869	2.7699	3.3487	4.6860

Ví dụ 5.7: Khớp phân phối Gumbel với chuỗi lưu lượng đỉnh hàng năm.
Mục tiêu:
Sử dụng thông tin từ các ví dụ trước, khớp phân phối Gumbel với dữ liệu và kiểm tra độ phù hợp của phân phối với dữ liệu.

Cho:
Sử dụng dữ liệu cho sông Nueces phía dưới Uvalde, Texas, như trong các ví dụ trước.
Lưu lượng đỉnh trung bình hàng năm là 36,163 ft³/s và độ lệch chuẩn là 77,006 ft³/s.

Bước 1. Tính các thống kê của mẫu (giá trị trung bình và độ lệch chuẩn) của các lưu lượng đỉnh quan trắc hàng năm.

Việc này đã được thực hiện trong ví dụ trước đối với phân phối normal (ví dụ 5.5) và các thống kê của mẫu kết quả được xem là đã biết.

Bước 2. Sử dụng Bảng 5.13 để xác định hệ số tần suất Gumbel (K) cho các phân vị quan tâm.

Bảng 5.14 tổng hợp các ước lượng phân vị.

Bảng 5.14. Ước lượng phân vị cho phân phối Gumbel khớp, dữ liệu sông Nueces phía dưới Uvalde, Texas.

Xác suất vượt (Exceedance Probability)	Chu kỳ lặp lại (năm)	K	$X_{RI}$ (ft³/s)
0.5	2	-0.160	23,842
0.2	5	0.784	96,536
0.1	10	1.409	144,664
0.04	25	2.199	205,476
0.02	50	2.785	250,586
0.01	100	3.366	295.365
0.002	500	4.710	398,845

Bước 3. Vẽ phân phối Gumbel thu được và dữ liệu quan trắc trên hệ tọa độ xác suất-log.

Kết quả được vẽ trên Hình 5.16.

Kết quả ví dụ 5.7
Kết quả được trình bày trong các phép tính, bảng, và đồ thị phân phối.
Phân phối Gumbel không phù hợp tốt với dữ liệu.

Hệ số lệch (skew coefficient) của dữ liệu sông Nueces chưa biến đổi là dương (G = 5.18), cũng như hệ số lệch của phân phối Gumbel (G = 1.139). Độ lệch lớn hơn nhiều của dữ liệu làm cho phân phối Gumbel không phù hợp tốt với các dữ liệu này.

Một câu hỏi đặt ra là “vì sao?” lại như vậy; các phần tiếp theo sẽ trả lời câu hỏi này. Nội dung tiếp theo sẽ mô tả (và áp dụng) phân phối log-Pearson loại III, và sau đó áp dụng Bulletin 17C (EMA) cho cùng tập dữ liệu.

Hình 5.16. Đường cong phân phối tần suất theo giá trị cực đại Gumbel, Nueces Rive

5.2.4 Phân phối log-Pearson loại III

Phân phối Pearson loại III được áp dụng cho logarit của chuỗi lưu lượng đỉnh hàng năm có ứng dụng rộng rãi trong phân tích thủy văn. Các kỹ sư thường gọi phân phối này là phân phối log-Pearson loại III (LP3). Đây là một phân phối gamma ba tham số với biến phụ thuộc (lưu lượng đỉnh hàng năm) được biến đổi bằng logarit. Nhờ có ba tham số, phân phối LP3 có thể phù hợp với nhiều loại dữ liệu khác nhau. Vì lý do này, các kỹ sư sử dụng nó rộng rãi trong phân tích lũ vì dữ liệu đo được tại các trạm quan trắc thường không phù hợp hoàn toàn với phân phối giả định. Tính linh hoạt này đã dẫn đến việc Ủy ban cố vấn liên ngành về dữ liệu nước khuyến nghị sử dụng nó như là phân phối tiêu chuẩn cho các nghiên cứu tần suất lũ của tất cả các cơ quan liên bang. Thomas (1985) cung cấp bối cảnh về việc các cơ quan liên bang chấp nhận sử dụng phân phối LP3 trong một loạt tài liệu bao gồm Bulletin 15 (Hội đồng Tài nguyên nước 1967) và Bulletin 17B. Lựa chọn này tiếp tục được duy trì thông qua việc tiếp tục sử dụng phân phối LP3 trong Bulletin 17C.

Phân phối log-Pearson loại III khác với hầu hết các phân phối đã thảo luận ở trên ở chỗ ba tham số (trung bình-mean, độ lệch chuẩn-standard deviation và hệ số lệch-skew coefficient) mô tả phân phối. Phân phối LP3, nhờ ba tham số này, phù hợp với nhiều bộ dữ liệu lưu lượng đỉnh. Bulletin 17C trình bày chi tiết việc sử dụng phân phối này trong xác định các phân phối tần suất lũ. Quy trình trong Bulletin 17C giả định rằng logarit của lưu lượng đỉnh hàng năm tuân theo phân phối Pearson loại III, thay vì giả định rằng dữ liệu chưa biến đổi tuân theo hàm phân phối log-Pearson loại III. Bảng 5.15 cung cấp bảng rút gọn của hàm phân phối log-Pearson loại III.

Bảng 5.15. Hệ số tần suất (K) cho phân phối log-Pearson loại III

Prob Xác suất	Skew = -2.0	-1.9	-1.8	-1.7	-1.6	-1.5	-1.4
0.9999	-8.21034	-7.98888	-7.76632	-7.54272	-7.31818	-7.09277	-6.86661
0.9995	-6.60090	-6.44251	-6.28285	-6.12196	-5.95990	-5.79673	-5.63252
0.9990	-5.90776	-5.77549	-5.64190	-5.50701	-5.37087	-5.23353	-5.09505
0.9980	-5.21461	-5.10768	-4.99937	-4.88971	-4.77875	-4.66651	-4.55304
0.9950	-4.29832	-4.22336	-4.14700	-4.06926	-3.99016	-3.90973	-3.82798
0.9900	-3.60517	-3.55295	-3.49935	-3.44438	-3.38804	-3.33035	-3.27134
0.9800	-2.91022	-2.88091	-2.84848	-2.81472	-2.77964	-2.74325	-2.70556
0.9750	-2.68888	-2.66413	-2.63810	-2.61076	-2.58214	-2.55222	-2.52102
0.9600	-2.21888	-2.20670	-2.19332	-2.17873	-2.16293	-2.14591	-2.12768
0.9500	-1.99351	-1.98906	-1.98217	-1.97271	-1.96213	-1.95083	-1.93861
0.9000	-1.30259	-1.31054	-1.31760	-1.32376	-1.32900	-1.33330	-1.33665
0.8000	-0.60944	-0.62662	-0.64335	-0.65959	-0.67532	-0.69050	-0.70512
0.7000	-0.20397	-0.22250	-0.24094	-0.25925	-0.27740	-0.29553	-0.31307
0.6000	0.08371	0.06718	0.05040	0.03344	0.01631	-0.00092	-0.01824
0.5704	0.15516	0.13964	0.12381	0.10769	0.09132	0.07476	0.05803
0.5000	0.30685	0.29443	0.28150	0.26808	0.25422	0.23996	0.22553
0.4296	0.43854	0.43008	0.42095	0.41116	0.40075	0.38977	0.37824
0.4000	0.48917	0.48265	0.47538	0.46739	0.45873	0.44942	0.43949
0.3000	0.64333	0.64453	0.64488	0.64436	0.64300	0.64080	0.63779
0.2000	0.76866	0.78316	0.79886	0.80837	0.81720	0.82516	0.83223
0.1000	0.89464	0.91988	0.94496	0.96977	0.99418	1.01810	1.04144
0.0500	0.94871	0.98381	1.01973	1.05631	1.09338	1.13075	1.16827
0.0400	0.96399	1.00594	1.05345	1.10173	1.15062	1.19842	1.24612
0.0250	0.97468	1.01640	1.06001	1.10537	1.15229	1.20009	1.25004
0.0200	0.97980	1.02311	1.06864	1.11628	1.16584	1.21716	1.26999
0.0100	0.98995	1.03695	1.08711	1.14042	1.19680	1.25611	1.31815
0.0050	0.99319	1.04427	1.09749	1.15477	1.21618	1.28167	1.35114
0.0020	0.99800	1.04898	1.10465	1.16534	1.23132	1.30297	1.37981
0.0010	0.99900	1.05068	1.10743	1.16974	1.23805	1.31275	1.39408
0.0005	0.99950	1.05159	1.10901	1.17240	1.24235	1.31944	1.40413
0.0001	0.99990	1.05239	1.11054	1.17520	1.24728	1.32774	1.41753