View Categories

4. Phương pháp

4.1. Dữ liệu

4.1.1. Thuộc tính

Nguồn. Các đo mưa theo ngày, giờn-phút (định nghĩa bên dưới) từ nhiều nguồn khác nhau được dùng cho dự án này (Bảng 4.1.1). Hình 4.1.1 thể hiện vị trí các trạm ngày (bao gồm SNOTEL, định nghĩa bên dưới) trong khu vực dự án. Hình 4.1.2 thể hiện các trạm giờn-phút.

Chương trình COOP (Cooperative Observer Program) của National Weather Service – NWS với các trạm đo mưa ngàygiờnguồn chính của số liệu mưa. Các bộ dữ liệu COOP sau đây được lấy từ NOAA/National Climatic Data Center (NCDC):

  • Bộ dữ liệu giờ: TD3240
  • Bộ dữ liệu ngày: TD3200TD3206
  • Bộ dữ liệu n-phút: TD9649 và một bộ dữ liệu bổ sung cho giai đoạn 1973–1979

Các nguồn khác gồm NRCS (USDA) và các bộ dữ liệu địa phương, bao gồm dữ liệu từ:

  • San Bernardino County Flood Control District, California
  • Riverside County Flood Control and Water Conservation District, California
  • NWS’s California–Nevada River Forecast Center, Sacramento, California
  • California Department of Water Resources (CDWR) – ALERT (Automated Local Evaluation in Real Time) các đồng hồ đo mưa
  • Dữ liệu ALERT theo giờ từ Maricopa County Flood Control District, Arizona
  • USGS – mạng đồng hồ đo mưa dày đặc của Albuquerque Metropolitan Arroyo Flood Control Authority (AMAFCA)

Nhiều trạm bổ sung cung cấp thông tin tại những nơi trước đây không có hoặc rất ít dữ liệu—ở vùng caophía nam biên giới Hoa Kỳ. SNOTEL (SNOwpack TELemetry) cung cấp thông tin ở các khu vực núi cao của vùng dự án. Mạng SNOTEL ở cao độ 6000–11 000 ft do USDA/NRCS vận hành. Dữ liệu ngày bổ sung ở phía nam biên giới Hoa Kỳ được cung cấp nhờ hợp tác với ông Jorge Sanchez-Sesma, Instituto Mexicano de Technologia del Agua, Mexico City, Mexico.

Bảng 4.1.1. Số lượng trạm tại mỗi bang trong khu vực dự án

Bang/VùngNgày (Daily)SNOTELGiờ (Hourly)n-phút (N-min)
Arizona27013685
Đông Nam California1291757
Nevada11426395
New Mexico23911763
Utah21267424
Các bang giáp ranh*477641813
Baja, Mexico31n/an/an/a
Chihuahua, Mexico10n/an/an/a
Sonora, Mexico22n/an/an/a
Tổng150418248127

* Các bang giáp ranh gồm các phần của California, Colorado, Idaho, Oklahoma, Oregon, Texas và Wyoming tiếp giáp vùng lõi dự án.

Hình 4.1.1. Bản đồ các trạm hàng ngày và SNOTEL cho NOAA Atlas 14 Volume 1
Hình 4.1.2. Bản đồ các trạm theo giờ và n phút cho NOAA Atlas 14 Volume 1

Chiều dài chuỗi số liệu. Chiều dài chuỗi có thể được đặc trưng bởi toàn bộ giai đoạn có số liệu (period of record) hoặc bởi số năm số liệu sử dụng được trong toàn bộ giai đoạn đó (data years). Trong dự án này, chỉ các trạm ngày có từ 20 năm dữ liệu trở lên và các trạm giờ có từ 15 năm dữ liệu trở lên mới được dùng trong phân tích. (Riêng dữ liệu Mexico bị hạn chế, nên dùng ngưỡng 13 năm dữ liệu.) Chuỗi số liệu của các trạm này kéo dài đến tháng 12 năm 2000 và trung bình đạt 54 năm dữ liệu đối với trạm ngày và 37 năm dữ liệu đối với trạm giờ (Bảng 4.1.2). Hình 4.1.3 4.1.4 cho thấy số năm dữ liệu theo tỷ lệ phần trăm số trạm đối với dữ liệu ngày và giờ. Các chuỗi n-phút dùng trong phân tích có từ 14 đến gần 100 năm dữ liệu, với số liệu kéo dài đến tháng 5/1997. Tại thời điểm thực hiện dự án, dữ liệu n-phút tại NCDC chưa được cập nhật sau năm 1997. Có tám trạm n-phút có hơn 80 năm dữ liệu. (Xem Phụ lục A.7 để có danh sách đầy đủ các trạm, hoặc truy cập đường dẫn nêu trong tài liệu để tải danh sách trạm ở dạng văn bản phân tách bằng dấu phẩy/CSV.)

Bảng 4.1.2. Thông tin cho bộ dữ liệu ngàygiờ đến 12/2000 và bộ dữ liệu n-phút đến 5/1997.

Ngày (Daily)Giờ (Hourly)n-phút (N-minute)
Số lượng trạm1441 (+182 SNOTEL, +63 Mexico)48127
Chiều dài chuỗi dài nhất (data yrs) (Mã trạm)108 (29-8535)62 (04-4211)88 (02-6481)
Chiều dài chuỗi trung bình (data yrs)54*3736

* Không tính các trạm SNOTEL hoặc trạm ở Mexico.

Hình 4.1.3. Đồ thị tỷ lệ phần trăm trên tổng số trạm ngày được sử dụng trong NOAA Atlas 14, Tập 1 theo số năm dữ liệu.
Hình 4.1.4. Đồ thị tỷ lệ phần trăm trên tổng số trạm giờ được sử dụng trong NOAA Atlas 14, Tập 1 theo số năm dữ liệu.

Dữ liệu n-phút. Dữ liệu n-phút là số liệu mưa được đo với độ phân giải thời gian 5 phút, có thể cộng gộp thành các khoảng n-phút khác nhau (10, 15, 30 và 60 phút). Do số trạm có dữ liệu n-phút còn ít, tần suất mưa n-phút được ước tính bằng cách tỷ lệ tuyến tính từ dữ liệu 60 phút. Các hệ số tỷ lệ tuyến tính được xây dựng từ tỷ số giữa các phân vị n-phút và các phân vị 60 phút tại 27 trạm có đồng thời dữ liệu n-phút và giờ, chia thành 6 vùng (Hình 4.1.5). Các tỷ số được tính và lấy trung bình cho từng vùng. Vì nhận thấy các tỷ số này hầu như giống nhau theo vùng và theo xác suất vượt hàng năm (AEP), nên với mỗi thời đoạn, các tỷ số được lấy trung bình trên cả 6 vùng và trên mọi mức AEP, rồi áp dụng cho toàn bộ khu vực dự án.

Các tỷ số này phù hợp với các nghiên cứu khác. Bảng 4.1.3 trình bày các tỷ số n-phút (n-phút/60-phút) tính cho NOAA Atlas 14 Tập 1 và các tỷ số đã công bố trong NOAA Atlas 2 (Miller and others, 1973) cho các thời đoạn 5, 10, 15 và 30 phút. Bảng 4.1.3 cũng cho thấy các tỷ số do Arkell và Richards (1986) sử dụng, được tính cho một khu vực địa lý tương đương nhưng không bao gồm California.

Hình 4.1.5. Phân nhóm theo vùng cho dữ liệu n-phút trong NOAA Atlas 14, Tập 1.

Bảng 4.1.3. Tỷ số n-phút/60-phút: 5, 10, 15 và 30 phút.

5-phút10-phút15-phút30-phút
NOAA Atlas 14, Tập 10.3180.4840.6000.808
NOAA Atlas 20.290.450.570.79
Arkell & Richards (1986)0.340.520.620.82

Các giá trị là tỷ số lượng mưa n-phút so với 60-phút (n-minute ÷ 60-minute).

Dữ liệu SNOTEL. Các trạm SNOTEL cung cấp số liệu mưa ở vùng địa hình cao—nơi NOAA Atlas 2 không có thông tin. Số lượng và chất lượng dữ liệu không đủ để tính trực tiếp các moment thống kê bậc cao, vì vậy chúng không được dùng để tính các tham số vùng. Thay vào đó, tại mỗi vị trí, người ta tính giá trị cực đại năm trung bình cho các thời đoạn từ 24 giờ đến 60 ngày để phục vụ phân tích và nội suy không gian. Các ước lượng tần suất mưa cho trạm SNOTEL được tính bằng hệ số tăng trưởng vùng (RGF)—một tham số phân bố tần suất vùng không thứ nguyên suy ra từ vùng nơi trạm đặt (Mục 4.6.1)—kết hợp với trung bình của chuỗi cực đại năm tại chính trạm SNOTEL. Các ước lượng này sau đó được dùng để neo phân bố không gian của phần dư tần suất mưa, là cơ sở của các lưới tần suất mưa (Mục 4.8), giúp tăng độ chính xác ở khu vực cao độ lớn.

Dữ liệu Mexico. Dữ liệu Mexico được đưa vào để bảo đảm tính liên tục không gian dọc biên giới phía nam của vùng dự án. Chiều dài chuỗi lớn nhất của dữ liệu ngày này là 15 năm. Chuỗi cực đại năm được trích xuất với ngưỡng tối thiểu 13 năm dữ liệu để có thể bao gồm số lượng trạm hợp lý. Dữ liệu này không được dùng trực tiếp trong các tính toán L-moments cho vùng dự án. Thay vào đó, người ta tính lượng mưa năm trung bìnhcực đại năm trung bình cho các thời đoạn 24 giờ đến 60 ngày, rồi dùng chúng trong nội suy không gian của các giá trị cực đại năm trung bình; không dùng để ước lượng tần suất mưa.

Thời đoạn nhiều ngày/giờ. Các cực đại cho thời đoạn > 24 giờ được tạo bằng cách cộng dồn dữ liệu ngày. Các cực đại nhiều ngày (từ 2 đến 60 ngày) được trích xuất theo quy trình lặp, trong đó các quan trắc 1 ngày được cộng dồn và so sánh với tổng của cửa sổ trước đó dịch 1 ngày. Các thời đoạn nhiều giờ (từ 2 đến 48 giờ) được tạo bằng cách cộng dồn dữ liệu giờ. (Xem Mục 4.1.3 để biết thêm chi tiết về quy trình trích xuất chuỗi cực đại năm (AMS)chuỗi thời đoạn một phần (Partial Duration Series – PDS).)

So sánh với NOAA Atlas 2. NOAA Atlas 14 Tập 1 sử dụng tổng cộng 2.194 trạm, nhiều hơn đáng kể—tăng 76%—so với số trạm có sẵn cho NOAA Atlas 2 (khu vực Đông Nam California không thể so sánh trực tiếp). Bảng 4.1.4 so sánh số trạm được dùng trong mỗi Atlas cho 4 bang lõi: Arizona, Nevada, New MexicoUtah. Nhiều trạm mới cũng bổ sung thông tin tại các khu vực trọng yếu nơi Atlas 2 không có dữ liệu, gồm 182 trạm SNOTEL63 trạm ở Mexico. Atlas 2 dùng dữ liệu đến năm 1970, còn Atlas 14 Tập 1 dùng đến năm 2000, làm tăng mạnh lượng dữ liệu. Một số trạm dùng cho Atlas 14 có thời gian quan trắc dài hơn tới 30 năm so với trong Atlas 2, cho phép loại bỏ các chuỗi ngắn hơn, ít tin cậy hơn. Atlas 2 yêu cầu tối thiểu 15 năm dữ liệu, còn Atlas 14 Tập 1 nâng lên 20 năm dữ liệu. Hình 4.1.6 cho thấy số năm dữ liệu của các trạm ngày dùng trong mỗi Atlas cho 4 bang lõi nói trên (Đông Nam California không so sánh trực tiếp).

Bảng 4.1.4. So sánh tổng số trạmArizona, Nevada, New Mexico, Utah được dùng trong NOAA Atlas 2NOAA Atlas 14 Tập 1
(Đông Nam California không thể so sánh trực tiếp)

Loại dữ liệuNOAA Atlas 2NOAA Atlas 14 Tập 1Tăng% tăng
Giờ (Hourly)1802254525%
Ngày (Daily)56383527248%
SNOTEL0182182
Mexico06363
Tổng743130556276%
Hình 4.1.6. So sánh số năm số liệu tại các trạm được sử dụng ở Arizona, Nevada, New MexicoUtah (khu vực Đông Nam California không thể so sánh trực tiếp) trong NOAA Atlas 2 (NA2)NOAA Atlas 14, Tập 1 (NA14). Lưu ý: không bao gồm các trạm Mexico và SNOTEL trong biểu đồ.

4.1.2. Chuyển đổi dữ liệu

Dữ liệu ngày (Daily). Dữ liệu ngày có thời điểm quan trắc khác nhau. Lượng mưa cực đại 24 giờ hiếm khi trọn vẹn nằm trong một chu kỳ quan trắc ngày. Để làm cho dữ liệu ngày và giờ có thể so sánh được, cần chuyển đổi từ ngày quan trắc sang 24 giờ. Cả NOAA Atlas 2Technical Paper 40 (Hershfield, 1961) đều dùng hệ số thực nghiệm 1.13 để quy đổi dữ liệu ngày sang 24 giờ.

Trong dự án này, hệ số chuyển đổi được tính từ tỷ số các phân vị 2 năm rút ra từ chuỗi cực đại năm (AMS) tại 32 trạm có đồng thời dữ liệu giờ và ngày trong khu vực dự án (lưu ý: tối thiểu 10 trạm là trạm cấp 1). Chuỗi thời gian đồng kỳ được tạo cho các giá trị mưa 24 giờ bằng cách cộng dồn quan trắc giờ và dùng các quan trắc mưa ngày đồng vị trí. Mỗi chuỗi được phân tích riêng bằng L-moments. Sau đó tính và lấy trung bình tỷ số phân vị 2 năm của 24 giờ so với 1 ngày. Hệ số thu được phù hợp với kết quả hồi quy giữa cực đại năm ngày–giờ xảy ra cùng ngày (hồi quy không dùng trực tiếp vì thiếu số liệu để cho kết quả tin cậy). Hệ số được dùng trong dự án là 1.14, rất gần với hệ số của NOAA Atlas 2 và Technical Paper 40 (xem Bảng 4.1.5). Tương tự, dự án cũng xác định hệ số quy đổi 2 ngày → 48 giờ1.03 cho NOAA Atlas 14 Tập 1 (hệ số này chưa được tính trong các nghiên cứu trước). Tất cả dữ liệu 1 ngày2 ngày, bao gồm cả SNOTEL, đều được quy đổi về 24 giờ48 giờ unconstrained tương ứng.

Dữ liệu giờ (Hourly). Để so sánh giữa dữ liệu giờ đồng hồ constrained 60 phút unconstrained, cũng như giữa 2 giờ120 phút, cần có chuyển đổi. Hệ số được tính từ tỷ số phân vị 2 năm của chuỗi cực đại năm tại 12 trạm có đồng vị trí trạm giờtrạm n-phút trong khu vực dự án. Chuỗi đồng kỳ được tạo cho các giá trị mưa 60 phút bằng cách cộng dồn quan trắc n-phút và dùng thêm quan trắc mưa giờ đồng vị trí. Mỗi chuỗi được phân tích riêng bằng L-moments. Sau đó tính và lấy trung bình tỷ số phân vị 2 năm của 60 phút so với 1 giờ. Kết quả cho hệ số 1 giờ → 60 phút1.122 giờ → 120 phút1.03. Các giá trị này phù hợp với NOAA Atlas 2 và Technical Paper 40, trong đó dùng 1.13 cho chuyển đổi 1 giờ → 60 phút (các nghiên cứu đó không cung cấp chuyển đổi 2 giờ → 120 phút) (xem Bảng 4.1.5).

Bảng 4.1.5. Hệ số chuyển đổi từ thời đoạn quan trắc cố định (theo lịch) sang thời đoạn không ràng buộc (trượt).

Dự án1-ngày → 24-giờ2-ngày → 48-giờ1-giờ → 60-phút2-giờ → 120-phút
NOAA Atlas 14, Tập 1
(vùng bán khô hạn Tây Nam Hoa Kỳ)
1.141.031.121.03
NOAA Atlas 2 (Miller et al., 1973)1.13N/A1.13N/A
Technical Paper 401.13N/A1.13N/A

Ghi chú: thời đoạn cố định = 1 ngày lịch/giờ đồng hồ; không ràng buộc (trượt) = bất kỳ 24 giờ hoặc 60 phút liên tiếp

4.1.3. Trích xuất chuỗi

Hai phương pháp được dùng để trích xuất các chuỗi số liệu tại một trạm phục vụ phân tích tần suất mưa: Chuỗi cực đại năm (Annual Maximum Series, AMS)Chuỗi thời đoạn (Partial Duration Series, PDS).

Phương pháp AMS chọn một giá trị lớn nhất xảy ra trong mỗi năm dương lịch của giai đoạn có số liệu. Nếu trong một năm có một trận rất lớn nhưng không phải lớn nhất của năm đó thì không được đưa vào chuỗi.

Phương pháp PDS thừa nhận rằng trong một năm dương lịch có thể có hơn một trận lớn. Đối với Atlas này, chọn N trường hợp lớn nhất trong toàn bộ giai đoạn có số liệu, trong đó N bằng số năm dữ liệu được sử dụng, để tạo thành chuỗi PDS. Có thể chọn nhiều hơn một trường hợp trong cùng một năm, và một trường hợp không phải lớn nhất của năm vẫn có thể xuất hiện trong chuỗi. Chuỗi kiểu này còn gọi là chuỗi vượt hàng năm (Annual Exceedance Series, AES) (Chow và cs., 1988).

Sự khác nhau về ý nghĩa kết quả phân tích khi dùng hai loại chuỗi này đã được bàn trong Mục 3.2. Các hệ số chuyển đổi thực nghiệm trung bình cũng được phát triển để suy ra kết quả dựa trên PDS từ kết quả dựa trên AMS (xem Mục 4.6.4). Các chuỗi dữ liệu dùng trong phân tích (kèm tài liệu) được cung cấp qua Precipitation Frequency Data Server (PFDS).

Quy trình trích xuất các giá trị cực đại từ bộ dữ liệu sử dụng các tiêu chí cụ thể; các tiêu chí này bảo đảm mỗi năm đều có đủ số liệu, đặc biệt là trong “mùa mưa” đã ấn định, để rút ra các giá trị có ý nghĩa thống kê. “Mùa mưa” cho từng vị trí được xác định là những tháng mà các trường hợp cực đoan nhiều khả năng xảy ra nhất, và được gán bằng cách đánh giá biểu đồ tần suất (histogram) của lượng mưa cực đại năm cho từng vùng đồng nhất (Bảng 4.1.5 4.1.6). Việc xây dựng và kiểm chứng các vùng đồng nhất được trình bày trong Mục 4.4 và minh họa ở Hình 4.4.1 4.4.2.

Tiêu chí cho chuỗi cực đại năm theo thời đoạn giờ.
Với mọi thời đoạn tính theo giờ (từ 1 giờ đến 48 giờ), trong mỗi năm lấy giá trị lớn nhất làm cực đại năm cho năm đó. Các trường hợp vượt qua mốc 1/1 được quy về ngàylượng mưa giờ lớn nhất xảy ra trong thời đoạn tương ứng.
Một tháng bị coi là không hợp lệcực đại tháng được gán thiếu số liệu nếu xảy ra bất kỳ điều kiện nào dưới đây:
+ Số giờ dữ liệu sẵn có trong tháng < số giờ của thời đoạn.
+ Thiếu ≥ 240 giờ trong tháng cực đại tháng ≤ 0.01 inch.
+ Thiếu ≥ 360 giờ trong tháng cực đại tháng < 33% lượng mưa trung bình tháng tại trạm.
+ Thiếu ≥ 50% số giờ (đối với thời đoạn đang xét).
Ngoài ra, nếu hơn 50% số tháng trong “mùa mưa” của một vùng bị thiếu số liệu, thì cực đại năm của năm đó được gán thiếu số liệu.

Bảng 4.1.5. Các tháng “mùa mưa” cho các vùng dữ liệu ngày của NOAA Atlas 14 – Tập 1
(Tháng được ký hiệu bằng số: 1=Jan, …, 12=Dec.)

VùngBắt đầuKết thúcVùngBắt đầuKết thúcVùngBắt đầuKết thúc
11062231144712
2106237345610
31062471146510
44102571147510
5962671148510
64102711349510
74102811350510
81032911351712
91033011352712
101063111353712
11863211354712
12311337355610
13311347356510
1486357357610
15410367358113
161133771259610
1711338712A1712
1811339510A2712
19734073A3610
20734173A4610
21734273A5711
4373A6106

Bảng 4.1.6. Các tháng “mùa mưa” cho các vùng dữ liệu giờ của NOAA Atlas 14 – Tập 1
(Tháng ký hiệu số: 1=Jan, …, 12=Dec.)

VùngBắt đầuKết thúcVùngBắt đầuKết thúc
110612712
241013610
310614510
48615113
510616103
67111796
771218106
871219410
951020113
10E7321311
10W7322113
11732386
24113

Tiêu chí cho chuỗi cực đại năm theo thời đoạn ngày (daily annual maximum series).
Một cực đại năm được trích cho các thời đoạn ngày (từ 1-day đến 60-day) nếu có ≥50% số tháng trong “mùa mưa” đã ấn định ≥50% dữ liệu của thời đoạn tích lũy đó. Trong mỗi năm, giá trị lớn nhất được lấy làm cực đại năm. Các trường hợp vượt qua ngày 1 tháng 1 được gán cho ngàylượng mưa ngày lớn nhất xảy ra trong thời đoạn tương ứng.
Ngoài ra, áp dụng các tiêu chí sau:
* 1-day
Một tháng bị coi là thiếu số liệu (set to missing) nếu:
+ Mất toàn bộ ngày trong tháng; hoặc
+ Thiếu >10 ngàycực đại tháng = 0.00 inch; hoặc
+ Thiếu >15 ngàycực đại tháng < 30% của trung bình cực đại 1-day của tháng đó trong toàn bộ giai đoạn số liệu tại trạm.
* 2-day
Tháng bị thiếu số liệu nếu:
+ Chỉ có 1 ngày dữ liệu trong tháng, còn lại thiếu; hoặc
+ Thiếu >10 ngàycực đại tháng = 0.00 inch; hoặc
+ Thiếu >15 ngàycực đại tháng < 30% của trung bình cực đại 2-day của tháng đó trong toàn bộ giai đoạn số liệu tại trạm.
* 4-day
Năm bị thiếu số liệu nếu:
+ Thiếu >96% số ngày trong năm; hoặc
+ Thiếu 50% số ngàycực đại năm ≤ 0.3 inch.
* 7-day
Năm bị thiếu số liệu nếu:
+ Thiếu >93% số ngày; hoặc
+ Thiếu 50% số ngàycực đại năm ≤ 0.3 inch.
* 10-day
Năm bị thiếu số liệu nếu:
+ Thiếu >93% số ngày; hoặc
+ Thiếu 50% số ngàycực đại năm ≤ 0.35 inch.
* 20-day
Năm bị thiếu số liệu nếu:
+ Thiếu >88% số ngày; hoặc
+ Thiếu 50% số ngàycực đại năm ≤ 0.35 inch.
* 30-day
Năm bị thiếu số liệu nếu:
+ Thiếu >82% số ngày; hoặc
+ Thiếu 50% số ngàycực đại năm ≤ 0.45 inch.
* 45-day
Năm bị thiếu số liệu nếu:
+ Thiếu >73% số ngày; hoặc
+ Thiếu 50% số ngàycực đại năm ≤ 0.45 inch.
* 60-day
Năm bị thiếu số liệu nếu:
+ Thiếu >64% số ngày; hoặc
+ Thiếu 50% số ngàycực đại năm ≤ 0.45 inch.

Tiêu chí cho chuỗi thời đoạn (Partial Duration Series – PDS).
Các tiêu chí nêu ở trên cũng dùng để quyết định một tháng hoặc một nămđủ dữ liệu để được đưa vào quy trình trích xuất PDS hay không. Các trường hợp vượt qua mốc 1 tháng 1 được gán cho ngàylượng mưa lớn nhất xảy ra trong thời đoạn tương ứng.
Các tổng lượng mưa tích lũy cho từng thời đoạn được trích xuất rồi sắp xếp giảm dần. Giữ lại N giá trị lớn nhất cho mỗi thời đoạn, trong đó Nsố năm dữ liệu thực tế tại mỗi trạm.

4.2. Cách tiếp cận vùng dựa trên L-moments

4.2.1. Khái quát

Hosking và Wallis (1997) mô tả phân tích tần suất theo vùng sử dụng phương pháp L-moments. Cách tiếp cận này bắt nguồn từ các nghiên cứu đầu thập niên 1970, được triển khai rộng vào thập niên 1990 và nay được xem là chuẩn thực hành. National Weather Service (NWS) dùng Hosking & Wallis (1997) làm tài liệu tham chiếu chính cho phương pháp thống kê của Atlas này.

Phương pháp L-moments (hay các tổ hợp tuyến tính của moment có trọng số theo xác suất) rất hữu ích để chọn phân phối xác suất thích hợp nhất mô tả các ước lượng tần suất mưa. Phương pháp cung cấp công cụ để ước tính dáng/độ nghiêng hình dạng của phân phối và sự bất định của các ước lượng, đồng thời có công cụ đánh giá dữ liệu có khả năng thuộc cùng một vùng đồng nhất (ví dụ: cùng chế độ khí hậu) hay không.

Cách tiếp cận vùng sử dụng dữ liệu từ nhiều trạm trong một vùng để ước tính đường cong phân phối tần suất cho tổng thể cơ sở tại mỗi trạm. Giả định cốt lõi là các phân phối tần suất của nhiều trạm trong một vùng đồng nhấtgiống nhau, chỉ khác bởi hệ số tỉ lệ đặc thù vị trí. Nhờ giả định này, các tham số hình dạng có thể được ước tính từ tổ hợp dữ liệu của toàn bộ các trạm trong vùng (thay vì từng trạm riêng lẻ), qua đó tăng mạnh lượng thông tin dùng cho ước lượng và nâng độ chính xác. Trong phân tích, dùng trung bình có trọng số với trọng số tỷ lệ với số năm dữ liệu của từng trạm trong vùng.

Phân tích tần suất theo vùng bằng L-moments hỗ trợ chọn phân phốihình dạng phân phối phù hợp; còn các ước lượng tần suất mưa (phân vị) vẫn được tính riêng cho từng trạm bằng một hệ số tỉ lệ—trong dự án này là giá trị trung bình của chuỗi cực đại năm tại mỗi trạm. Các phân vị thu được đáng tin cậy hơn so với ước lượng chỉ dựa trên phân tích đơn trạm (Hosking & Wallis, 1997).

4.2.2. Mô tả L-moments

Phân tích tần suất theo vùng sử dụng L-moments cung cấp các công cụ để: kiểm tra chất lượng bộ dữ liệu, kiểm định giả thiết đồng nhất theo vùng, chọn phân phối tần suất, ước tính tần suất mưa, và ước tính giới hạn tin cậy cho Atlas này. Chi tiết và công thức xem các tài liệu khác (Hosking & Wallis, 1997; Lin và cs., 2004). Dưới đây là mô tả ngắn gọn.

Về bản chất, phân tích tần suất mưa dùng mẫu dữ liệu hữu hạn để suy ra đặc trưng của tổng thể bằng cách chọn và tham số hóa một phân phối xác suất. Mỗi phân phối được đặc trưng bởi một số hữu hạn tham số. Trong các ấn phẩm NWS trước đây như NOAA Atlas 2, các tham số của phân phối thường được ước tính bằng moment tích (product moments) hay phương pháp moment thông thường (CMM). Tuy nhiên, các moment mẫu theo CMM có một số nhược điểm: các moment bậc cao (bậc 3 gắn với độ lệch và bậc 4 gắn với độ nhọn (kurtosis)) có thể lệch đáng kể khi độ dài chuỗi nhỏ; chúng cũng rất nhạy/không ổn định trước giá trị ngoại lai trong dữ liệu (Hosking & Wallis, 1997; Lin và cs., 2004).

L-momentskỳ vọng của những tổ hợp tuyến tính của thống kê thứ tự (Hosking, 1989). Vì được biểu diễn như hàm tuyến tính của dữ liệu, L-moments ít bị ảnh hưởng bởi biến thiên lấy mẫu, đặc biệt ít nhạy với ngoại lai hơn so với CMM (Hosking & Wallis, 1997). Khi áp dụng theo vùng, L-moments còn tăng độ vững của ước lượng bằng cách suy ra các tham số hình dạng từ tất cả các trạm trong một vùng đồng nhất, thay vì từng trạm riêng lẻ.

Các phân phối xác suất có thể được mô tả bằng hệ số biến thiên L (coefficient of L-variation), độ lệch L (L-skewness)độ nhọn L (L-kurtosis), là các đại lượng tương tự với những đại lượng trong phương pháp moment thông thường (CMM). Hệ số biến thiên L đo mức độ phân tán; độ lệch L đo mức độ bất đối xứng; độ nhọn L đo mức độ nhọn của phân phối. Các tỷ số L-moment này được chuẩn hóa theo thang đo, nhờ đó có thể ước tính các tham số hình dạng của phân phối không phụ thuộc thang đo. Các ước lượng không chệch của L-moments được xây dựng như mô tả trong Hosking & Wallis (1997).

Vì các tham số phân phối tần suất không phụ thuộc thang đo được ước tính từ nhóm dữ liệu đã quy vùng, kết quả là một phân phối tần suất không thứ nguyên dùng chung cho N trạm trong vùng. Khi áp dụng hệ số tỉ lệ đặc thù vị trí (giá trị trung bình) vào phân phối không thứ nguyên này (hệ số tăng trưởng vùng; xem Mục 4.6.1), ta tính được các phân vị theo từng trạm cho mỗi mức tần suất và thời đoạn.

Phân tích tần suất theo vùng bằng L-moments cũng cung cấp công cụ để xác định dữ liệu có khả năng thuộc cùng các vùng đồng nhất hay không (ví dụ: cùng chế độ khí hậu) và để phát hiện các vấn đề chất lượng dữ liệu. Một thước đo không đồng nhất trong vùng, ký hiệu H1, sử dụng hệ số biến thiên L để kiểm tra mức chênh lệch giữa các trạm của các L-moments mẫu trong một nhóm trạm so với mức chênh lệch kỳ vọng đối với một vùng đồng nhất (Hosking & Wallis, 1997) (xem Mục 4.4). Ngoài ra, thước đo “lệch nhóm” (discordancy measure) được dùng để xác định dữ liệu của một trạmnhất quán với tập trạm trong vùng hay không, dựa trên L-CV, L-skewness và L-kurtosis (Mục 4.3).

4.3. Chuẩn bị bộ dữ liệu

Kiểm soát chất lượng nghiêm ngặt là phần quan trọng trong chuẩn bị dữ liệu. Các phương pháp dùng trong dự án để bảo đảm chất lượng dữ liệu gồm: kiểm tra giá trị cực trị vượt ngưỡng, các phép kiểm định “lệch nhóm” L-moments (discordancy), và kiểm tra dữ liệu thực (RDC) của các phân vị, cùng những phân tích khác. Ngoài ra còn có: phân tích xu thế của chuỗi cực đại năm, nghiên cứu tương quan chéo giữa các trạm, và kiểm tra các chuỗi có khoảng trống lớn—tất cả đều giúp gia tăng bảo đảm chất lượng. Một khía cạnh hữu ích của quy trình phân tích (kể cả nội suy không gian) là trong suốt quá trình luôn có kết quả trung gian và các chỉ số cho phép đánh giá bổ sung chất lượng dữ liệu. Ở mỗi bước, các chỉ số này cho biết dữ liệu có phù hợp với giả định thủ tục hay không; những dấu hiệu không phù hợp được dùng làm cờ cảnh báo chất lượng.

Phương pháp kiểm soát chất lượng và lắp ráp dữ liệu.
Kiểm soát chất lượng ban đầu gồm: kiểm tra các giá trị cực trị vượt ngưỡng, gộp những trạm lân cận phù hợp, và kiểm tra khoảng trống lớn trong chuỗi. Các quan trắc sai/không hợp lệ được loại khỏi các bộ dữ liệu ngày, giờ, và n-phút thông qua bước kiểm tra cực trị vượt ngưỡng. Các ngưỡng được thiết lập cho 1-giờ24-giờ dựa trên yếu tố khí hậu và các ước lượng tần suất mưa trước đây trong vùng. Những quan trắc vượt ngưỡng được đối chiếu với trạm lân cận, sổ gốc và các bản tin khí hậu khác.
Các trạm ngày trong khu vực dự án nằm trong phạm vi ≤5 dặm theo phương ngang và ≤300 ft chênh cao, có chuỗi không trùng thời gian, được cân nhắc gộp để tăng chiều dài chuỗigiảm chồng lấn không gian. Chuỗi cực đại năm 24-giờ của các trạm ứng viên được kiểm định t (mức tin cậy 90%) nhằm bảo đảm các mẫu cùng một tổng thể, đủ điều kiện để gộp. Trong dự án này, các trạm giờ không đáp ứng các tiêu chí đó nên không được gộp.

Lệch nhóm (Discordancy).
Thước đo lệch nhóm theo L-moments (Hosking & Wallis, 1997) được dùng để kiểm soát chất lượng dữ liệu. Khi đánh giá các vùng, thước đo này cũng được dùng để xác định liệu một trạm có bị gán sai vùng hay không. Thước đo dựa trên hệ số biến thiên L (L-CV), độ lệch L (L-skewness)độ nhọn L (L-kurtosis), tức là mỗi trạm được biểu diễn như một điểm trong không gian 3 chiều bởi ba đại lượng đó.
Lệch nhóm đo khoảng cách của từng điểm tới tâm cụm của tập các điểm (tất cả trạm trong một vùng). Tâm cụm được định nghĩa là trung bình không trọng số của ba L-moment của các trạm trong vùng đang kiểm tra. Những trạm có giá trị lệch nhóm ≥ 3.0 được xem xét kỹ để phát hiện dữ liệu đáng ngờ/bất thường, hoặc cân nhắc chuyển sang vùng khác hay xem như phân tích đơn trạm (at-site) (xem Mục 4.4). Một số trạm ghi nhận một sự kiện rất lớn đơn lẻ hoặc chuỗi dữ liệu ngắn có thể cho thấy lệch nhóm, nhưng vẫn được chấp nhận trong vùng đồng nhất nếu không có lý do khí hậu hay vật lý để loại bỏ.
Việc kiểm tra lệch nhóm được thực hiện cho các trạm ở các thời đoạn n-phút, 1-giờ, 24-giờ và một số thời đoạn dài hơn (thường là 10-ngày). Phụ lục A.7 (danh sách các trạm dùng trong dự án) cũng cung cấp các thống kê Lgiá trị lệch nhóm cho dữ liệu 24-giờ hoặc 60-phút của từng trạm trong vùng tương ứng.

Sàng lọc chuỗi cực đại năm.
Dữ liệu chuỗi cực đại năm 1-ngày (AMS) được kiểm tra kỹ lưỡng. Ví dụ, các khoảng trống lớn (nhiều năm liên tiếp thiếu) trong chuỗi AMS của các trạm được rà soát vì không thể bảo đảm hai đoạn chuỗi đó thuộc cùng một tổng thể (cùng chế độ khí hậu, cùng loại đồng hồ mưa, cùng môi trường vật lý). Quy trình sàng lọc nhằm đảm bảo tính nhất quán của chuỗi trước khi sử dụng. Các trạm có khoảng trống lớn được gắn cờ và xem xét từng trường hợp; các trạm lân cận được kiểm tra để tìm các năm trùng thời gian nhằm bù khoảng trống nếu vượt qua phép thử thống kê về tính nhất quán. Nếu mỗi đoạnít nhất 10 năm dữ liệu, tiến hành kiểm định t (mức tin cậy 90%) để đánh giá tính toàn vẹn thống kê của chuỗi. Khi cần tạo các chuỗi hài hòa hơn cho phân tích, chiều dài chuỗi của trạm được điều chỉnh phù hợp.
Dữ liệu AMS 1-ngày cũng được kiểm tra xu thế tuyến tính của trung bình, xu thế tuyến tính của phương saisự dịch chuyển trung bình. Nhìn chung, dữ liệu không cho thấy xu thế hay dịch chuyển đáng kể về mặt thống kê. (Xem Phụ lục A.3 để biết thêm chi tiết.)
Cuối cùng, dữ liệu AMS 1-ngày được khảo sát tương quan chéo giữa các trạm để đánh giá mức phụ thuộc liên trạm, vì trong phân tích tần suất mưa thường giả định các sự kiện độc lập. Các trường hợp mà cực đại năm trùng nhau (±1 ngày) giữa các trạm cách ≤50 dặm và có >20 năm dữ liệu được phân tích bằng kiểm định t đối với hệ số tương quan có ý nghĩa ở mức tin cậy 90%. Kết quả cho thấy mức tương quan chéo rất thấp trong vùng dự án: chỉ 7% dữ liệu trên toàn vùng có tương quan mạnh (hệ số ≥ 0.7 ở mức tin cậy 90%). Ảnh hưởng của tương quan chéo lên các phân vị ngàyrất nhỏ. Sai số tương đối được tính tại 8 vùng nơi tỷ lệ trạm có tương quan chéo > 20%, bằng cách so sánh với kết quả phân tích chỉ dùng các trạm không có tương quan chéo. Sai số tương đối trung bình của ước lượng phân vị chỉ 1,6% (chu kỳ 100 năm) và 3,7% (chu kỳ 1.000 năm). Do phân vị cuối cùng hầu như không bị ảnh hưởng, kết luận là không cần áp dụng thêm biện pháp nào để xử lý cấu trúc phụ thuộc trong dữ liệu.

4.4. Phát triển và kiểm chứng các vùng đồng nhất

Giả định nền tảng của cách tiếp cận theo vùng là có thể nhóm các trạm thành các tập hay “vùng” mà trong đó các trạm có thống kê phân phối tần suất tương tự nhau, chỉ khác nhau bởi một hệ số tỉ lệ riêng theo vị trí. Những vùng thỏa giả định này được gọi là “đồng nhất”. Mấu chốt của cách tiếp cận theo vùng là xây dựng một tập các vùng đồng nhất cho toàn bộ khu vực dự án. Hosking và Wallis (1997) lập luận rằng các vùng đồng nhất nên được nhận diện dựa trên những yếu tố khác với các thống kê được dùng để kiểm định giả thiết đồng nhất.

Trong dự án này, các vùng trước hết được phân định (mang tính định tính/chủ quan) dựa trên: khí hậu, mùa (các mùa) có lượng mưa lớn nhất, loại hình mưa (ví dụ: mưa bão diện rộng, đối lưu, bão nhiệt đới/hurricane, hoặc kết hợp), địa hình, và mức độ đồng nhất của các đặc trưng nói trên trong một khu vực địa lý nhất định.

Các vùng sau đó được kiểm tra bằng các phép kiểm định đồng nhất thống kê và những kiểm tra khác. Theo gợi ý của Hosking & Wallis (1997), đã có các điều chỉnh vùng—như chuyển trạm sang vùng khác hoặc chia nhỏ vùng—nhằm giảm mức không đồng nhất. Thước đo không đồng nhất H1 kiểm tra mức biến thiên giữa các trạm của các L-moments mẫu so với mức kỳ vọng của một vùng đồng nhất, dựa trên hệ số biến thiên L (L-CV) (Hosking & Wallis, 1997). Các nghiên cứu trước (Hosking & Wallis, 1997; cũng như trao đổi với Hosking tại NWS, 2001) cho thấy ngưỡng H1 = 2thận trọng và hợp lý. Vì vậy, H1 > 2 được xem là không đồng nhất, còn H1 < 2đồng nhất.

Các vùng theo thời đoạn ngày (từ 24 giờ đến 60 ngày, Hình 4.4.1) được xây dựng dựa trên kết quả 24 giờ. Với các thời đoạn dài (48–60 ngày) nơi H1 > 2, đã kiểm tra kỹ chất lượng dữ liệu. Phần lớn các trường hợp, một hoặc vài trạm đẩy H1 lên cao do đặc điểm lấy mẫu. Khi loại bỏ trạm gây vấn đề, H1 giảm đáng kểước lượng tần suất mưa 100 năm cùng hệ số tăng trưởng vùng (RGF) thay đổi ≤ 5%. Sau khi xác định và kiểm tra, giá trị H1 cao ở các vùng này đôi khi vẫn được chấp nhậnkhông chỉnh sửa vùng.

Các vùng theo thời đoạn giờ (Hình 4.4.2) được xây dựng dựa trên dữ liệu 60 phút. Với các thời đoạn ngắn khác (2–24 giờ) có H1 > 2, cũng kiểm tra kỹ chất lượng dữ liệu. Do mật độ trạmbản chất mưavùng bán khô hạn Tây Nam, đặc biệt khó áp dụng một cách cứng nhắc ngưỡng H1 = 2 (được đề xuất như một hướng dẫn thận trọng) cho dữ liệu giờ. Trong mỗi trường hợp H1 > 2, sau khi xác nhận chất lượng dữ liệu, đã thử loại 1–3 trạm: mỗi lần loại bỏ như vậy đều làm H1 giảm đáng kể, còn ước lượng tần suất 100 nămRGF thay đổi ≤ 5%. Xét đến vị trí địa lýtính hợp lệ của dữ liệu, các trạm bị nghi ngờ thường vẫn được giữ lại trong vùng, và vùng được chấp nhận như hiện trạng, dù H1 cao.

Về lý tưởng, chỉ dùng L-CV là đủ để đánh giá đồng nhất vùng. Tuy nhiên, trong thực tế, NWS nhận thấy chỉ dùng H1 không tối ưu cho việc xác định vùng đồng nhất. Ảnh hưởng của L-skewness lên việc hình thành một vùng đồng nhất cũng được xem xét, nhất là vì L-CVL-skewness không nhất thiết tương quan, và cần tính đến tác động ở các chu kỳ lặp trung bình dài hơn (ARI). L-skewnessL-kurtosis được xét thông qua một quy trình gọi là “kiểm tra dữ liệu thực” (real-data-check, RDC). RDC sẽ gắn cờ khi cực đại quan trắc tại một trạm vượt ước lượng theo tần suất cho trước (trong ví dụ này là chu kỳ 100 năm). Các trạm như vậy được rà soát cẩn thận về chất lượng dữ liệutính phù hợp để quy vùng. Thuật ngữ “real-data-check” được dùng để chỉ việc đối chiếu giữa tần suất kinh nghiệm của từng trạm và ước lượng tần suất được tính từ phân phối ghép vùng (xem Mục 4.5).

Tổng thể. Trong quá trình chia nhỏ/điều chỉnh vùng, nhóm biên soạn đã cố gắng giảm các sai khác có thể do (1) sai số lấy mẫu vì kích thước mẫu nhỏ, hoặc (2) quy vùng không phản ánh đúng điều kiện địa phương. Mục tiêu của quy trình quy vùng là thu được các phân vị tối ưu phản ánh điều kiện địa phương và giảm sai số tương đối.

Các nhóm trạm cuối cùng trong khu vực dự án được minh họa ở Hình 4.4.1 (cho các vùng dữ liệu ngày) và Hình 4.4.2 (cho các vùng dữ liệu giờ). Phụ lục A.8 liệt kê giá trị H1 và các thống kê L-moments trung bình theo vùng cho mọi vùng ở hai thời đoạn 24-giờ60-phút. Các thước đo không đồng nhất (H1) cho từng vùngmọi thời đoạn được cung cấp trong Phụ lục A.9.

(Thuật ngữ “kiểm tra dữ liệu thực – real-data-check” cũng được dùng trong phép kiểm định phân phối khớp tốt nhất; xem Mục 4.5.)

Hình 4.4.1. Nhóm khu vực cho dữ liệu hàng ngày được sử dụng để chuẩn bị NOAA Atlas 14 Tập 1.
Hình 4.4.2. Nhóm khu vực cho dữ liệu theo giờ được sử dụng để chuẩn bị NOAA Atlas 14 Tập 1.

At-site stations – Các phân tích đơn trạm.
Ở một số trạm ngày, thay vì phân tích theo vùng, phân tích đơn trạm (at-site) tỏ ra phù hợp hơn để ước tính phân vị tần suất mưa. (Dự án không có trạm giờ nào được xử lý theo at-site.) Chọn at-site khi:
+ Phản ánh được chế độ mưa cực đoan quan trắc mà phương pháp theo vùng không giải quyết được;
+ Có >50 năm dữ liệu, đủ để ước lượng hợp lý không phụ thuộc vào vùng;
+ Quy trình nội suy không gian có thể chấp nhận các trạm này;
+ Giảm sai số ước lượng so với khi đưa vào một vùng.
Mặc dù đôi khi có lợi, at-site chỉ được xem là giải pháp cuối cùng, vì các ước lượng tần suất mưa của chúng đôi khi gây bất thường trong nội suy không gian. Trước khi phân tích at-site, luôn cố gắng xếp trạm vào một vùng. Thực tế, trạm at-site phải thỏa ít nhất 4 tiêu chí sau:
+ Dữ liệu trạm khác thường rõ rệt, không phù hợp với các vùng kề;
+ Nếu giữ trạm trong vùng “tự nhiên” của nó thì vùng đó trở nên không đồng nhất;
+ RMSE của L-moments cho vùng giảm khi loại trạm khỏi vùng;
+ Trạm bị gắn cờ trong kiểm tra lệch nhóm hoặc “kiểm tra dữ liệu thực” (RDC);
+ Trạm có ≥50 năm dữ liệu (đa số thực tế >80 năm);
+ Không có trạm at-site này trong vùng kề không ảnh hưởng lớn đến ước lượng tần suất mưa theo vùng cuối cùng;
+ Có lý do khí hậu/địa hình địa phương thuyết phục để ủng hộ phân tích at-site.

Đồ thị tần suất kinh nghiệm được dùng để đánh giá độ phù hợp của phân phối đã chọn tại từng trạm. Với at-site, chênh lệch giữa tần suất kinh nghiệmước lượng lý thuyết (tức RMSE – căn trung bình bình phương sai số) nhỏ hơn nhiều so với trường hợp đưa trạm vào một vùng. Ví dụ, Hình 4.4.3 minh họa phân phối kinh nghiệm cho Bosque Del Apache, NM như một at-site.
Vì trạm at-site thường là ngoại lệ thống kê và có thể ảnh hưởng đến mẫu hình không gian, nên chúng được khảo sát kỹ. Ảnh hưởng không gian (nếu có) được giảm nhẹ bằng làm trơn không gian, giúp pha trộn ước lượng tần suất mưa at-site với các ước lượng thu được từ phương pháp theo vùng.
Đối với NOAA Atlas 14 – Tập 1, có 5 trạm ngàymột cặp trạm được phân tích at-site (Bảng 4.4.1), ký hiệu A1 đến A6. A1A6 nằm ngoài miền lõi, nên không được trình bày chi tiết trong tài liệu này.

Bảng 4.4.1. Các trạm được phân tích theo phương pháp at-site

At-siteMã trạm (Station ID)Tên trạm (Station Name)Số năm dữ liệu
A105-6524Placerville, CO53
A229-0818Beaverhead, NM56
A329-1138Bosque del Apache, NM102
A429-8535State University, NM109
A542-5733Moab Radio, UT108
A604-2504 & 04-2506Doyle & Doyle 4 SSE, CA74 & 44

Ghi chú: A6cặp trạm (hai mã trạm) nên có hai độ dài chuỗi dữ liệu.

Thảo luận ngắn về các trạm at-site trong miền lõi

  • A2. Beaverhead, NM (29-0818):
    Lượng mưa quan trắc tại 29-0818 không nhất quán với khu vực lân cận. H1 của Vùng 44 khi loại 29-0818 là −0.06, nhưng khi gồm trạm này thì tệ hơn (1.73). Ước lượng tần suất mưa của Vùng 44 hầu như không đổi dù có hay không có 29-0818. So sánh tần suất kinh nghiệm với ước lượng lý thuyết cho thấy phân tích at-site giảm RMSE. Mẫu hình không gian kết quả khi dùng at-site cũng phù hợp với khu vực xung quanh vị trí này.
  • A3. Bosque Del Apache, NM (29-1138):
    Trạm at-site này được phân tích kỹ nhất trong dự án. Nhiều lần thử đưa vào các vùng lân cận (kể cả Vùng 59) đều không đạt. Bằng chứng khí hậu cho thấy khu vực quanh Bosque Del Apache dễ xảy ra cực đoan, và chính nơi đây là tâm điểm rủi ro. Để giảm hiện tượng “mắt bò” không gian do các ước lượng tần suất 24-giờ và dài hơn rất cao tại trạm này, Vùng 59 được lập từ các trạm xung quanh Bosque Del Apache. Cả at-siteVùng 59 đều chịu ảnh hưởng của hai nguồn ẩm (phù hợp Hình 7 của NOAA Atlas 2 và phân tích bản đồ synoptic khi có cực đoan): dòng gió mùa từ phía nam và ẩm vịnh Mexico từ đông nam. Phần lớn Vùng 59 và Bosque Del Apache nằm trong Jornada Del Muerto (NM)—một bồn trũng phẳng, rộng giữa hai dãy núi hướng ĐB–TN. Địa hình hướng ẩm vào khu vực từ nam/đông nam, kèm nâng cưỡng bức địa hình, tạo mưa cực đoan rồi bị chắn bởi địa hình cao hơn về phía bắc. Dù nguồn ẩm nào, các cực đoan chủ yếu gắn với dông cục bộ. Khí hậu và địa hình đặc thù này biện minh cho Vùng 59 và xử lý at-site cho Bosque Del Apache. So sánh tần suất kinh nghiệm với ước lượng lý thuyết cho thấy at-site giảm RMSE. Hình 4.4.3 cho thấy phân phối kinh nghiệm tại Bosque Del Apache, NM.
  • A4. State University, NM (29-8535):
    Với 109 năm dữ liệu và đặc trưng mưa khác biệt, trạm này được xử lý at-site. Ưu điểm là phản ánh mẫu hình cực đoan riêng khác với vùng xung quanh. Làm trơn không gian giúp pha trộn ước lượng tần suất mưa at-site với ước lượng theo vùng; nói cách khác, kết quả phù hợp với bối cảnh chung.
  • A5. Moab Radio, UT (42-5733):
    Moab, UT nằm trong thung lũng cô lập ở cao độ khoảng 4000 ft; một số núi xung quanh ở phía đông/đông nam cao >12.000 ft. Vị trí được che chắn này có thể tạo cực đoan mưa riêng dưới một số mẫu hình synoptic khác với vùng lân cận. Gia nhiệt khác biệt sườn núi gây đối lưu mạnh cục bộ, các hiệu ứng địa hình khác, và dòng ẩm gió mùa vào thung lũng Moab đều có thể làm tăng xác suất mưa cực đoan. Thực tế, Moab đã ghi nhận ít nhất 3 đợt cực đoan cục bộ gây biến thiên lớn trong dữ liệu tại đây. Khí hậu và địa hình đặc thù biện minh việc tính tần suất mưa at-site cho trạm này.
Hình 4.4.3. Đồ thị tần suất kinh nghiệm tại Bosque Del Apache, NM so sánh phân tích at-sitephân tích theo vùng

Vì các trạm at-site phản ánh các chế độ mưa cực đoan cục bộ24 giờ hoặc dài hơn, nên đôi khi ước lượng tần suất mưa của chúng không khớp với các ước lượng theo giờ nội suy không gian. Nói cách khác, các ước lượng theo giờ nội suy thấp hơn các ước lượng at-site (cao hơn), gây ra hiện tượng “nhảy bậc” từ 12 giờ lên 24 giờ. Để bảo đảm tính nhất quán theo thời đoạn, đã tạo dữ liệu giả theo giờ (hourly pseudo data) (xem Mục 4.8.3) cho Bosque Del Apache, NM; Moab Radio, UT;Doyle 4 SSE, CA.

4.5. Lựa chọn phân phối tần suất

Giả định rằng các trạm trong cùng một vùngcùng dạng (shape) nhưng khác thang (scale) của đường cong phân phối tần suất mưa. Không giả định rằng dạng phân phối hay chính phân phối là giống nhau giữa các vùng. Nói cách khác, mỗi vùng được chọn một phân phối xác suất và ước lượng tham số riêng. Trong giai đoạn thử nhạy, phân phối đã chọn và các tham số của chúng được kiểm tra để bảo đảm biến thiên hợp lý trên toàn miền dự án. Mục tiêu là chọn phân phối mô tả tốt nhất tần suất mưa nền; mục tiêu này không nhất thiết đồng nghĩa “khớp tốt nhất” với mẫu dữ liệu.

Vì các phân phối 3 tham số thường ổn địnhlinh hoạt, nên chúng được ưu tiên làm ứng viên: Generalized Logistic (GLO), Generalized Extreme Value (GEV), Generalized Normal (GNO), Generalized Pareto (GPA)Pearson loại III (PE3). Phân phối Wakeby (5 tham số) chỉ được cân nhắc nếu tất cả các phân phối 3 tham số không phù hợp cho một vùng—điều này không xảy ra trong dự án. Ba thước đo mức độ khớp được dùng để chọn phân phối thích hợp nhất cho từng vùng: kiểm định mô phỏng Monte Carlo, kiểm tra “dữ liệu thực” (real-data-check), và RMSE của các L-moments mẫu.

Kiểm định mô phỏng Monte Carlo.
Tạo 1.000 bộ dữ liệu tổng hợpcùng chiều dài chuỗicùng L-moments mẫu tại từng trạm trong vùng. Thử nghiệm cho thấy 1.000 lần mô phỏng là đủ (giá trị trung bình hội tụ). Với mỗi mô phỏng, tính trung bình theo vùng của L-skewnessL-kurtosis (có trọng số theo số năm dữ liệu của trạm). Sau đó, tính trung bình qua toàn bộ 1.000 mô phỏng và đặt điểm này trên đồ thị L-skewness vs L-kurtosis để so sánh với các phân phối lý thuyết ứng viên (Hình 4.5.1). Giả sử phân phối có L-skewness bằng L-skewness trung bình theo vùng, mức khớp được đánh giá bằng độ lệch giữa điểm trung bình mô phỏngđường cong lý thuyết theo chiều L-skewness. Để xét biến thiên do lấy mẫu, chuẩn hóa độ lệch này (ký hiệu GZ) bằng cách giả định Z chuẩn hóa. Với mức tin cậy 90%, một phân phối được chấp nhận nếu |GZ| ≤ 1.64; trong số các phân phối được chấp nhận, phân phối có GZ nhỏ nhất được xem là phù hợp nhất (Hosking, 1991).

Hình 4.5.1. Đồ thị điểm trung bình từ mô phỏng Monte Carlo và các phân phối lý thuyết trên sơ đồ L-skewness vs L-kurtosis

Kiểm tra “dữ liệu thực” (real-data-check).
Tương tự cách dùng real-data-check khi xây dựng vùng đồng nhất, ở đây nó được dùng như một thước đo mức độ khớp: so sánh mỗi phân phối lý thuyết với tần suất kinh nghiệm của chuỗi dữ liệu quan trắc tại tất cả các trạm trong một vùng, cho các chu kỳ lặp từ 2 năm đến 100 năm (Lin & Vogel, 1993). Sai số tương đối (hay độ chệch tương đối) của từng phân phối được tính bằng cách so các phân vị sinh ra từ phân phối khớp với tần suất kinh nghiệm tại mỗi trạm, rồi lấy trung bình qua mọi phân vịmọi trạm trong vùng. Chỉ số này phản ánh mức độ nhất quán giữa tần suất kinh nghiệmxác suất lý thuyết của vùng; sai số tương đối nhỏ hơnphân phối khớp tốt hơn.
Lưu ý: sai số tương đối ở một vài trạm đơn lẻ kém ý nghĩa do sai số lấy mẫu; nhưng sai số tương đối đã trung bình theo vùngcó ý nghĩa thống kê và được dùng làm chỉ số chọn phân phối phù hợp nhất. Để xếp hạng các phân phối theo phép thử này, sai số tương đối được quy đổi thành một chỉ số sao cho chỉ số càng cao ⇒ sai số càng nhỏ.

RMSE của các L-moments mẫu.
Khác với phép thử mô phỏng Monte Carlo (nhấn mạnh tác động của trung bình theo vùng được mô phỏng), phép thử này dùng L-skewnessL-kurtosis của dữ liệu thực để đánh giá phân phối. Với mỗi trạm, tính độ lệch giữa điểm mẫu (L-skewness, L-kurtosis)phân phối lý thuyết tương ứng trên thang L-kurtosis. Sau đó tính sai số căn phương bình phương trung bình (RMSE) trên toàn bộ tập độ lệch của tất cả các trạm. Thao tác này được thực hiện cho từng phân phối ứng viên; phân phối có RMSE nhỏ nhất được xem là phù hợp nhất theo phép thử này.

Lựa chọn phân phối phù hợp nhất.
Quyết định cuối cùng về phân phối phù hợp nhất cho mỗi vùng dựa chủ yếu trên tổng hợp kết quả của ba phép thử. Các phép thử mức độ phù hợp (goodness-of-fit) được thực hiện theo từng vùng. Bảng 4.5.1 trình bày kết quả ba phép thử cho dữ liệu 24-giờ84 vùng “daily”2 trạm at-site; Bảng 4.5.2 trình bày kết quả cho dữ liệu 60-phút26 vùng “hourly”. Ba phép thử này cung cấp cơ sở thống kê để chọn phân phối thích hợp.
Tuy nhiên, sau đó các kết quả mức độ phù hợp còn được cân nhắc cùng tính nhất quán khí hậu và địa lý. Để giảm các “mắt bò” (bull’s eyes – điểm nóng giá trị quá cao cục bộ) và/hoặc các gradien giữa các vùng trong ước lượng tần suất mưa, đôi khi phân phối do ba phép thử đề xuất được điều chỉnh sau khi rà soát ở quy mô vĩ mô. Nỗ lực được thực hiện để giữ nhất quán loại phân phối đã chọn giữa các vùng. Khi dùng một phân phối thay thế khác với phân phối do kiểm định thống kê gợi ý, nhóm đã kiểm tra độ nhạy để bảo đảm kết quả vẫn chấp nhận được (ví dụ: thay đổi phân vị 100 năm < 5%).
Ví dụ:vùng daily 13, GEV không xếp hạng nhất về mặt thống kê; nhưng nếu dùng GLO (phân phối phù hợp tốt nhất theo thống kê) thì sẽ tạo ra “mắt bò” rất cao không hợp lý về khí hậu so với các vùng xung quanh, nơi GEV lại là phân phối phù hợp tốt nhất theo thống kê. Thử độ nhạy cho thấy ước lượng 24-giờ, chu kỳ 100 năm ở vùng 13 chỉ giảm 4,7% khi dùng GEV thay vì GLO. Vì vậy, GEV được chọn cho vùng này.
Dựa trên kết quả mức độ phù hợp, cân nhắc khí hậuthử độ nhạy trên tất cả các vùng trong dự án, GEV được chọn là phân phối đại diện tốt nhất cho tất cả dữ liệu cực đại năm theo ngàygiờ. GEV cũng được chọn cho dữ liệu 5-, 10- và 15-phút; còn GNO được chọn cho dữ liệu cực đại 30-phút dùng trong tính tỷ số n-phút.
Các trạm at-site được kiểm tra kỹ để chọn phân phối phù hợp nhất cho mọi thời đoạn, vì chúng vốn không nhất quán với cách tiếp cận theo vùng và cần xử lý riêng. Kết quả cho thấy, với một trạm at-site trong miền lõi (A3), các thời đoạn khác nhau cần phân phối khác nhau:
+ GLO được chọn cho thời đoạn 24-giờ đến 30-ngày tại A3 (29-1138);
+ GEV được chọn cho 45-ngày60-ngày.

Bảng 4.5.1. Kết quả phép thử mức độ phù hợp (goodness-of-fit) cho dữ liệu chuỗi cực đại năm 24-giờ tại từng vùng dữ liệu ngày, tính cho NOAA Atlas 14 – Tập 1.

VùngXếp hạngMô phỏng Monte CarloKiểm tra dữ liệu thực (RDC)Kiểm định RMSEPhân phối được chọn
phân phốitest valuephân phốitest valuephân phốiRMSE
11st GEV -0.42GLO 22.5GEV 0.12795GEV
2nd GNO -0.92GEV 18GNO 0.13153
3rd GLO 1.72GNO 16GLO 0.13598
21st GLO 0.9GEV 19GEV 0.13807GEV
2nd GEV -1.13GNO 17GLO 0.13956
3rd GNO -2.11GLO 16GNO 0.14005
31st GEV -0.33GEV 21.5GNO 0.10771GEV
2nd GNO -1.09GNO 20.5GEV 0.10842
3rd GLO 2.41PE3 13PE3 0.11205
41st GEV -1.02GNO 18.5GEV 0.09502GEV
2nd GNO -1.97GEV 18.5GNO 0.09689
3rd PE3 -3.93PE3 17GLO 0.10194
51st GEV -0.85GEV 21GEV 0.11629GEV
2nd GNO -1.67GNO 20.5GNO 0.11698
3rd GLO 2.46PE3 16PE3 0.12256
61st GEV -1.93GEV 20.5GLO 0.10816GEV
2nd GLO 1.93GLO 18.5GEV 0.10836
3rd GNO -2.91GNO 17.5GNO 0.11044
71st GNO -0.21PE3 17.5GNO 0.17183GEV
2nd GEV 0.42GNO 16.5GEV 0.17281
3rd PE3 -1.41GEV 14.5PE3 0.17348
81st GEV 0.09PE3 20GNO 0.08923GEV
2nd GNO -0.92GEV 18.5GEV 0.08975
3rd PE3 -3.29GNO 17.5PE3 0.09234
91st GEV -0.22GEV 20.5GNO 0.12301GEV
2nd GNO -0.98GNO 18.5GEV 0.1235
3rd GLO 2.07GLO 17PE3 0.12672
101st GEV -1.54GEV 20GEV 0.08236GEV
2nd GLO 1.73GNO 19GNO 0.08428
3rd GNO -2.33GLO 16GLO 0.08663
111st GEV -1.24GEV 22GEV 0.08419GEV
2nd GNO -2.42GNO 18GNO 0.08519
3rd GLO 3.28GLO 16PE3 0.09176
121st GEV -1.01PE3 18GEV 0.14403GEV
2nd GNO -1.47GEV 17.5GNO 0.14504
3rd GLO 1.96GNO 16GLO 0.14907
131st GLO 1.67GLO 22.5GEV 0.06946GEV
2nd GEV -2.48GEV 20GLO 0.07001
3rd GNO -3GNO 17GNO 0.07188
141st GEV 0.08GNO 19.5GEV 0.08189GEV
2nd GNO -0.64PE3 19GNO 0.08267
3rd PE3 -2.32GEV 15.5PE3 0.08631
151st GEV -1.27GEV 21GEV 0.06844GEV
2nd GNO -2.63GNO 20GNO 0.07128
3rd GLO 2.64PE3 16GLO 0.07612
161st GEV -2.52GEV 24.5GEV 0.06716GEV
2nd GLO 3.17GNO 18GNO 0.07304
3rd GNO -3.62GLO 15GLO 0.07467
171st GLO 0.81GNO 18.5GEV 0.09861GEV
2nd GEV -1.86GEV 18.5GLO 0.09909
3rd GNO -3.17GLO 18GNO 0.10213
181st GNO 0.02PE3 19.5GNO 0.15977GEV
2nd GEV 0.82GNO 19.5PE3 0.16119
3rd PE3 -1.41GPA 14.5GPA 0.16197
191st GEV -1.51GLO 19.5GEV 0.08115GEV
2nd GNO -1.6GNO 16.5GNO 0.08257
3rd GLO 1.65GEV 16.5GLO 0.08803
201st GLO 0.02GNO 19.5GEV 0.19198GEV
2nd GEV -0.99GEV 19.5GLO 0.19285
3rd GNO -1.62PE3 14.5GNO 0.19447
211st GEV -1.49GEV 19.5GEV 0.06105GEV
2nd GNO -2.3GNO 17.5GNO 0.06697
3rd GLO 2.95GLO 17.5GLO 0.07256
221st GLO 1.77PE3 19GEV 0.05648GEV
2nd GEV -1.89GNO 19GNO 0.05958
3rd GNO -2.71GEV 18GLO 0.06004
231st GEV -0.08GEV 20.5GEV 0.12292GEV
2nd GNO -0.78GNO 18.5GNO 0.12502
3rd PE3 -2.21GLO 16GLO 0.12971
241st GEV -0.8GEV 20GEV 0.15892GEV
2nd GLO 1.23GLO 17GNO 0.16155
3rd GNO -1.5GNO 16.5GLO 0.16249
251st GEV 0.1GNO 18GEV 0.09318GEV
2nd GNO -0.24PE3 17GNO 0.09472
3rd PE3 -1.22GEV 17PE3 0.10036
261st GEV -0.79GEV 19.5GEV 0.10688GEV
2nd GNO -1.61GLO 18GNO 0.10735
3rd GLO 1.87GNO 17PE3 0.11193
271st PE3 0.36PE3 22PE3 0.11129GEV
2nd GNO 1.54GNO 18GNO 0.11312
3rd GEV 1.92GEV 17GEV 0.11405
281st GEV -0.41GNO 21GEV 0.09215GEV
2nd GNO -1.59GEV 21GNO 0.09349
3rd GLO 3.04PE3 14PE3 0.1013
291st GLO -0.06GEV 19.5GEV 0.17908GEV
2nd GEV -1.4GNO 18.5GLO 0.18107
3rd GNO -2.02PE3 15GNO 0.18131
301st PE3 -0.53PE3 22PE3 0.09627GEV
2nd GNO 1.04GNO 17GNO 0.09635
3rd GEV 1.76GPA 13GEV 0.09733
311st PE3 0.05PE3 18.5PE3 0.06318GEV
2nd GNO 3.51GNO 16.5GNO 0.06446
3rd GEV 5GEV 16GEV 0.06612
321st GNO 0.09PE3 20.5GNO 0.08061GEV
2nd GEV 1.47GNO 18.5GEV 0.08254
3rd PE3 -2.49GEV 15.5PE3 0.0837
331st GLO 0.59GEV 20GLO 0.1165GEV
2nd GEV -1.65GLO 19.5GEV 0.11676
3rd GNO -2.73GNO 16.5GNO 0.11872
341st GLO 0.97GEV 22GEV 0.11298GEV
2nd GEV -1.68GLO 18GLO 0.1138
3rd GNO -2.49GNO 16.5GNO 0.11702
351st GEV 0.01GNO 18.5GNO 0.21691GEV
2nd GNO -0.53GEV 18.5GEV 0.21803
3rd GLO 1.18GLO 17PE3 0.21869
361st GEV -0.32GEV 20.5GEV 0.09814GEV
2nd GNO -1.22GLO 18.5GNO 0.10126
3rd PE3 -3.1GNO 17.5GLO 0.10746
371st GEV -0.63GLO 18.5GEV 0.09089GEV
2nd GNO -1.84GEV 18GNO 0.09312
3rd GLO 3.61GNO 16PE3 0.09986
381st GEV -0.78GEV 20GEV 0.1128GEV
2nd GNO -1.3GLO 17.5GNO 0.11447
3rd PE3 -2.59GNO 16.5GLO 0.11937
391st GEV -0.33GNO 19GEV 0.07051GEV
2nd GNO -1.66PE3 18GNO 0.07422
3rd PE3 -4.36GEV 17PE3 0.08397
401st GEV 0.04GEV 19GEV 0.14036GEV
2nd GNO -0.73GNO 18GNO 0.14086
3rd GLO 1.63GLO 15.5PE3 0.14594
411st GLO 0.47GLO 22.5GEV 0.16359GEV
2nd GEV -1.21GEV 18GLO 0.16651
3rd GNO -1.61GNO 14.5GNO 0.16677
421st GNO -0.36GEV 20.5GEV 0.08687GEV
2nd GEV 0.75GNO 17.5GNO 0.08715
3rd PE3 -2.63PE3 16PE3 0.09243
431st GEV -0.55GNO 21GEV 0.10722GEV
2nd GNO -1.22GEV 19GNO 0.10763
3rd GLO 2.26PE3 17PE3 0.1114
441st GEV -1.03GEV 23.5GEV 0.0966GEV
2nd GNO -1.61GNO 18.5GNO 0.09779
3rd GEV 2.57GLO 15GLO 0.10121
451st GEV -2.2GEV 21.5GEV 0.07639GEV
2nd GNO -3.15GNO 18.5GNO 0.07899
3rd GLO 3.74GLO 18GLO 0.08315
461st GEV 0.01GLO 19.5GEV 0.23419GEV
2nd GNO -0.66GNO 16.5GNO 0.23598
3rd GLO 0.86GEV 16GLO 0.237
471st GEV -1.17GEV 23GEV 0.08716GEV
2nd GLO 2.15GNO 19GNO 0.08908
3rd GNO -2.24GLO 15GLO 0.09399
481st GNO 1GNO 22.5GNO 0.08534GEV
2nd PE3 -1.54PE3 19GEV 0.08638
3rd GEV 2.34GEV 18.5PE3 0.08843
491st GNO -0.68GEV 20.5GNO 0.08092GEV
2nd GEV 0.74GNO 19.5GEV 0.08095
3rd PE3 -3.38PE3 16.5PE3 0.08639
501st GLO 0.88GEV 19GEV 0.09805GEV
2nd GEV -1.66GNO 17GLO 0.10052
3rd GNO -2.5GLO 17GNO 0.10112
511st GLO 0.66GLO 18GEV 0.1403GEV
2nd GEV -1.62GEV 18GLO 0.1413
3rd GNO -2.18GNO 16.5GNO 0.14219
521st GNO 0.44GNO 21.5GEV 0.10154GEV
2nd PE3 -1.04GEV 20.5GNO 0.10186
3rd GEV 1.06PE3 18PE3 0.10338
531st GNO 0.5PE3 24GNO 0.08635GEV
2nd PE3 -0.81GNO 18.5GEV 0.08681
3rd GEV 0.93GEV 14.5PE3 0.087
541st GNO -0.36GLO 19.5GNO 0.20462GEV
2nd GEV 0.43GEV 18GEV 0.20488
3rd GLO 1.69GNO 16.5PE3 0.20908
551st PE3 -0.13PE3 21GEV 0.11877GEV
2nd GNO 1.09GNO 20.5GNO 0.11969
3rd GEV 1.47GEV 14PE3 0.12137
561st GLO 0.37GEV 19.5GEV 0.10186GEV
2nd GEV -1.82GLO 18GLO 0.10287
3rd GNO -2.8GNO 16.5GNO 0.10627
571st GEV -0.32GEV 17GNO 0.15977GEV
2nd GLO 0.76GNO 16.5GEV 0.16049
3rd GNO -0.94PE3 15GLO 0.16424
581st GPA -0.61GPA 21GPA 0.21246GEV
2nd PE3 1.16PE3 18PE3 0.21341
3rd GNO 2.14GNO 14.5GNO 0.21686
591st GEV -0.56PE3 17.5GEV 0.14145GLO
2nd GNO -0.88GLO 16.5GNO 0.14312
3rd PE3 -1.71GEV 16.5GLO 0.14701
A1 1st GEV -0.09PE3 18.5GEV 0.58763GEV
2nd GLO 0.15GPA 18.5GNO 0.58811
3rd GNO -0.39GNO 13.5GLO 0.58817
A2 1st GNO 0.08GNO 18.5GNO 0.36387GNO
2nd GEV 0.47GEV 18.5PE3 0.3643
3rd PE3 -0.6GLO 13.5GEV 0.36499
A3 1st GLO -1GLO 18GLO 0.53849GLO
2nd GEV -1.4GEV 17GEV 0.54077
3rd GNO -1.68GNO 15GNO 0.54337
A4 1st GLO 0.19GNO 19.5GEV 0.55521GEV
2nd GEV -0.22PE3 16GLO 0.55544
3rd GNO -0.57GEV 15.5GNO 0.556
A5 1st GLO -0.63GNO 18.5GLO 0.58584GEV
2nd GEV -0.91GEV 17.5GEV 0.58701
3rd GNO -1.24GLO 14GNO 0.58958
A6 1st GNO 0.25GPA 19GNO 0.39431GNO
2nd PE3 -0.47PE3 18PE3 0.39445
3rd GEV 0.66GNO 15.5GEV 0.39518

Bảng 4.5.2. Kết quả phép thử độ mức phù hợp (goodness-of-fit) cho dữ liệu chuỗi cực đại năm 60 phút trong từng vùng 1-giờ, tính cho NOAA Atlas 14, Tập 1.

VùngXếp hạngMô phỏng Monte CarloKiểm tra dữ liệu thực (RDC)Kiểm định RMSEPhân phối được chọn
phân phốitest valuephân phốitest valuephân phốiRMSE
11st GLO -0.42GPA 17.5GEV 0.26435GEV
2nd GEV -0.89PE3 15.5GLO 0.26451
3rd GNO -1.51GNO 15.5GNO 0.26654
21st GNO 0.07PE3 22GNO 0.14997GEV
2nd GEV 1.13GPA 22PE3 0.15201
3rd PE3 -1.75GNO 14.5GEV 0.15353
31st GLO 0.09GNO 19GEV 0.1329GEV
2nd GEV -0.82GEV 17GNO 0.13398
3rd GNO -1.68PE3 13.5GLO 0.13657
41st GLO 0.29GPA 16.5GEV 0.09848GEV
2nd GEV -0.7PE3 15.5GNO 0.10085
3rd GNO -1.6GNO 15GLO 0.10527
51st GEV -0.17GEV 17GEV 0.19905GEV
2nd GLO 0.7GNO 16.5GPA 0.20164
3rd GNO -1GLO 16.5GNO 0.20212
61st GEV -0.12GEV 19GEV 0.12998GEV
2nd GLO 0.73GLO 18GNO 0.13211
3rd GNO -0.92GNO 16GPA 0.13467
71st GEV 0.48PE3 18.5GNO 0.17481GEV
2nd GNO -0.51GEV 18.5GEV 0.17537
3rd GLO 1.85GNO 17.5PE3 0.18091
81st GEV 0.42GNO 19GEV 0.10531GEV
2nd GNO -0.49PE3 18GNO 0.10642
3rd PE3 -2.16GEV 14PE3 0.11274
91st GEV 0.1GEV 17GNO 0.15911GEV
2nd GNO -0.58PE3 16.5GEV 0.15918
3rd GLO 1.62GNO 16PE3 0.16294
10E 1st PE3 0.89PE3 17.5GPA 0.13788GEV
2nd GNO 1.55GPA 17PE3 0.14033
3rd GEV 1.77GNO 14GNO 0.14229
10W 1st GNO -0.25GNO 19GNO 0.18046GEV
2nd GEV 0.83GEV 17.5PE3 0.18299
3rd GLO 1.98PE3 15GEV 0.18374
111st GEV -0.18GLO 22.5GEV 0.11029GEV
2nd GNO -0.75GEV 18GNO 0.11413
3rd GLO 1.79GNO 16GLO 0.12386
121st GNO 0.04GLO 18.5GEV 0.11718GEV
2nd GEV 0.37GEV 18GNO 0.11769
3rd PE3 -0.81PE3 17.5PE3 0.12
131st PE3 0.39PE3 18.5PE3 0.07046GEV
2nd GNO 1.98GNO 18GNO 0.0711
3rd GEV 2.62GEV 17GEV 0.07178
141st GEV 0.33GEV 23GNO 0.10488GEV
2nd GNO -0.38GNO 20PE3 0.10526
3rd PE3 -2.04PE3 14GEV 0.10668
151st GLO 1.31GEV 20GEV 0.09094GEV
2nd GEV -2.6GNO 18GNO 0.09615
3rd GNO -4.11GLO 16GLO 0.09653
161st GLO -1.67GLO 20GEV 0.13951GEV
2nd GEV -2.64GEV 20GLO 0.1412
3rd GNO -3.73GNO 18GNO 0.14662
171st GLO 0.09GNO 18GLO 0.18737GEV
2nd GEV -0.48GEV 18GEV 0.1875
3rd GNO -1.49GPA 15GNO 0.18944
181st PE3 -0.08GNO 17.5GPA 0.34593GEV
2nd GPA -0.68GEV 17.5PE3 0.34705
3rd GNO 0.9PE3 15GNO 0.35029
191st GNO -0.13PE3 17PE3 0.21012GEV
2nd GEV 0.3GLO 15.5GNO 0.21183
3rd PE3 -0.89GEV 15.5GEV 0.21522
201st GEV -0.47GNO 18GEV 0.14207GEV
2nd GLO 1.23GEV 17.5GNO 0.14653
3rd GNO -1.49PE3 15GLO 0.14908
211st GEV 0.32GLO 19.5GEV 0.16714GEV
2nd GNO -0.69GEV 17GNO 0.16908
3rd GLO 1.55GNO 14.5GPA 0.17343
221st GEV -0.38GNO 17GNO 0.12547GEV
2nd GNO -1.04GEV 16GEV 0.12816
3rd GLO 1.58PE3 15.5PE3 0.12854
231st GNO -0.11GNO 20.5GNO 0.22287GEV
2nd GEV 0.64GLO 15GEV 0.2249
3rd GLO 1.36GEV 13.5GPA 0.2255
241st GLO -0.38GEV 19.5GEV 0.20494GEV
2nd GEV -1.27GLO 18.5GNO 0.20698
3rd GNO -2.06GNO 17GLO 0.20763

4.6. Ước lượng các phân vị

4.6.1. Hệ số tăng trưởng vùng

Trong cách tiếp cận phân tích vùng dựa trên index-flood, các hệ số tăng trưởng vùng (RGFs) được định nghĩa là các phân vị của một phân phối không thứ nguyên ở cấp vùng. RGFs thu được bằng cách khớp hàm phân phối không thứ nguyên đã chọn với các tỷ số L-moment trung bình có trọng số (hoặc các tham số) cho một vùng; các tỷ số/tham số này được tính từ dữ liệu đã được chuẩn hóa theo giá trị trung bình của chuỗi cực đại năm (Hosking và Wallis, 1997). Vì các tham số là hằng số trong mỗi vùng, nên mỗi vùng chỉ có một RGF và RGF này chỉ thay đổi theo tần suấtthời đoạn. Bảng RGFs cho mọi thời đoạn của từng vùng được cung cấp ở Phụ lục A.9. Sau đó, RGFs được nhân với hệ số tỷ lệ đặc thù vị trí (site-specific scaling factor) để tạo ra các phân vị tại mỗi tần suất và thời đoạn cho từng điểm. Hệ số tỷ lệ dùng trong dự án này là trung bình của chuỗi cực đại năm tại từng điểm. Hệ số này thường được gọi là “Index Flood” (lũ chỉ số) vì nguồn gốc của phương pháp thống kê là trong phân tích tần suất lũ.

Trong dự án này, các hệ số tỷ lệ cho từng thời đoạn trước hết được nội suy không gian lên các lưới có độ phân giải cao (Mục 4.8.1) để khai thác RGFs ở mỗi tần suất và thu được các lưới phân vị. Một quy trình nội suy không gian riêng (Mục 4.8.2) đã được phát triển để giữ gìn khác biệt giữa các vùng nhưng vẫn tạo ra các phân vị biến thiên trơn tru theo không gian qua các ranh giới vùng.

4.6.2. Tính cho 1 năm

Các ước lượng tần suất mưa theo khoảng lặp trung bình 1 năm (ARI) đã được tính cho dự án này. ARI là khoảng thời gian trung bình giữa các lần vượt quá (tại một vị trí và thời đoạn nhất định) và gắn với chuỗi partial duration (PDS). Xác suất vượt quá hàng năm (AEP) là xác suất một lượng mưa cụ thể sẽ bị vượt quá trong bất kỳ năm nào (tại một vị trí và thời đoạn nhất định) và được suy ra từ chuỗi cực đại năm (AMS). Một độ sâu AEP có thể xảy ra một lần hoặc nhiều hơn trong một năm (Mục 3.2 thảo luận thêm).

Ước lượng AEP 1 năm, gắn với AMS, ít ý nghĩa về mặt thống kê hay vật lý. Tuy nhiên, ARI 1 năm, gắn với PDS, lại có ý nghĩa và được dùng trong một số ứng dụng thực tế. Phương trình \(T_{PDS}=\left[\ln\!\left(\frac{T_{AMS}}{T_{AMS}-1}\right)\right]^{-1}\) (Chow và cs., 1988), vốn độc lập phân phối, cung cấp cơ sở toán học để đổi qua lại giữa các chu kỳ lặp đối với dữ liệu AMSPDS. Ở đây, \(T_{AMS}\) và \(T_{PDS}\) lần lượt là chu kỳ lặp tương ứng với dữ liệu AMS và PDS. Phương trình có thể biến đổi thành:

$$T_{AMS}=\frac{1}{\,1-e^{-1/T_{PDS}}\,}.$$

Do đó, từ phương trình trên, \(T_{AMS}=1{,}58\) năm khi \(T_{PDS}=1\) năm. Điều này có nghĩa là một sự kiện PDS 1 năm tương đương với một sự kiện AMS 1,58 năm. Quan hệ này được dùng để tính ARI 1 năm từ dữ liệu AMS cho dự án. Phụ lục A.9 cung cấp các hệ số tăng trưởng vùng (RGF) được tính cho kết quả AMS 1,58 năm. Tuy nhiên, với mọi ARI khác 1 năm, kết quả được thu bằng cách phân tích riêng rẽ cả AMSPDS, lấy trung bình tỷ số giữa các phân vị PDS và AMS rồi áp dụng tỷ số trung bình này lên kết quả AMS (xem Mục 4.6.4).

4.6.3. Điều chỉnh tính nhất quán thực hành

Trong thực tế, dữ liệu không phải lúc nào cũng hành xử “đẹp”. Tập dữ liệu cũng không luôn được thu thập hoàn hảo theo thời gian hoặc trên mạng lưới không gian dày đặc. Vì trong dự án này các phân vị cho mỗi thời đoạn và mỗi trạm được tính độc lập, nên các điều chỉnh thực hành dưới đây được áp dụng để cho ra các kết quả cuối cùng thực tếnhất quán theo thời đoạn, theo tần suất và theo không gian.

Điều chỉnh tính nhất quán của cực đại năm.

Ở một số trạm ngày, xuất hiện các bất nhất trong chuỗi cực đại năm giữa hai thời đoạn liền kề. Cụ thể, quan trắc ở thời đoạn ngắn hơn trong một năm đôi khi lại lớn hơn quan trắc ở thời đoạn dài hơn kế tiếp. Hiện tượng này thường xảy ra vì có một lượng thiếu dữ liệu đáng kể quanh ca sự kiện đó; khi dữ liệu lân cận không có sẵn thì không thể cộng dồn để hình thành thời đoạn dài hơn. Nó cũng xảy ra khi áp dụng các hệ số quy đổi trung bình nhằm hiệu chỉnh khác biệt khoảng lấy mẫu (ví dụ đổi dữ liệu 1-day sang 24-hour; xem Mục 4.1.2). Nếu không điều chỉnh, các bất nhất này có thể gây thiên lệch âm cho ước lượng tần suất mưa ở thời đoạn dài so với thực tế. Vì vậy, những bất nhất lớn giữa cực đại năm của hai thời đoạn liền nhau trong cùng một năm được rà soát và bổ sung/sửa dữ liệu khi có thể. Nếu không thể tìm dữ liệu thiếu và/hoặc chênh lệch giữa hai thời đoạn là nhỏ (<10%), thì giá trị thời đoạn dài được gán bằng giá trị thời đoạn ngắn. Điều chỉnh này đảm bảo nhất quán từ thời đoạn này sang thời đoạn dài hơn tiếp theo cho mỗi năm tại một trạm.

Điều chỉnh giữa các trạm đo theo giờ và theo ngày đặt cùng vị trí (co-located).

Vì các thời đoạn theo giờ và theo ngày được tính tách biệt và từ các bộ dữ liệu khác nhau, cần phải bảo đảm rõ ràng tính nhất quán của ước lượng tần suất mưa qua các thời đoạn tại các trạm theo ngày và theo giờ cùng vị trí. Ở các trạm cùng vị trí, ước lượng 24-giờ từ dữ liệu theo ngày được giữ lại vì dựa trên nhiều trạm hơn, thường có chuỗi quan trắc dài hơn, và ít bị thiếu bắt mưa. Các phân vị tại các trạm cùng vị trí được điều chỉnh để bảo đảm nhất quán, đặc biệt đối với các thời đoạn 12-giờ24-giờ nơi có thể xuất hiện sai khác. Có nhiều nguyên nhân khả dĩ cho các sai khác này, như khác biệt về đồng hồ đo (gage) hoặc về giai đoạn ghi nhận. Việc điều chỉnh giữ nguyên các phân vị 24-giờ từ dữ liệu theo ngày và giữ phân bố theo giờ cho các phân vị từ 120 phút (2 giờ) đến 12 giờ tại trạm theo giờ đó. Các phân vị từ 24-giờ đến 2-giờ của các trạm theo giờ cùng vị trí được điều chỉnh bằng tỷ số đặc thù trạm giữa trung bình 24-giờ theo ngày và theo giờ của chính trạm đó, cùng với tỷ số giữa hệ số tăng trưởng vùng (RGF) 24-giờ theo ngày và theo giờ ở mọi tần suất (1,58 năm; 2 năm; 5 năm; …; 1.000 năm).

Những bài học rút ra ở NOAA Atlas 14, Tập 2 gợi ý cần cân nhắc thêm điều chỉnh phân vị 60 phút để dung hòa khác biệt giữa vùng theo giờ và vùng theo ngày, xét đến gần kề không gian của đa số trạm, hệ số chuyển đổi trung bình từ 1-giờ sang 60 phút, và việc áp dụng các tỷ số n-phút. Một quy trình đã được xây dựng nhằm tránh đứt gãy tại phân vị 60 phút so với các phân vị đã điều chỉnh từ 2-giờ đến 24-giờ và các phân vị n-phút, đồng thời giảm các “bull’s-eye” (vệt tròn đậm) trên các bản đồ cuối cùng.

Trong một số trường hợp, tỷ số đặc thù trạm giữa RGF vùng theo ngàyvùng theo giờ tại các trạm cùng vị trí nhỏ hơn 1,0. Điều này không phổ biến nhưng có xảy ra. Khi tỷ số RGF 24-giờ, 100-năm (theo ngày)/RGF 24-giờ, 100-năm (theo giờ) — được dùng như chỉ sốnhỏ hơn 1,0, thì áp dụng tỷ số điều chỉnh đặc thù trạm cho các thời đoạn từ 24-giờ đến 60 phút để duy trì nhất quán trên mọi thời đoạn theo giờ và tránh điều chỉnh quá mức. Ngược lại, khi tỷ số đặc thù trạm RGF 24-giờ, 100-năm lớn hơn 1,0, phân vị 60 phút được điều chỉnh bằng tỷ số RGF trung bình theo vùngtỷ số trung bình 24-giờ tính từ tất cả các trạm cùng vị trí trong vùng theo giờ để đạt kết quả nhất quán theo không gian hơn.

Kết quả cuối cùng khi dùng điều chỉnh đặc thù trạm cho phân vị 60 phút có thể không trơn tru theo không gian bằng phương án lấy trung bình theo vùng. Tuy nhiên, điều chỉnh đặc thù trạm đại diện tốt hơn cho dữ liệu tại trạm và giảm rủi ro điều chỉnh quá mức.

Ngoài ra, việc điều chỉnh cho các trạm cùng vị trí được hiệu chỉnh nhẹ theo các bài học ở Volum 3 để xử lý những trường hợp đặc biệt. Đặc điểm dữ liệu riêng lẻ ở một vài trạm, kết hợp với khác biệt giữa các vùng theo ngày và theo giờ, đã tạo ra đứt gãy so với các trạm lân cận. Tại một số ít trạm này, tỷ số RGF từ ngày sang giờ ở mỗi tần suất thấp bất thường. Dữ liệu của từ hai thời đoạn theo giờ trở lên tại các trạm này cùng có cực đại năm hoặc có giá trị rất gần nhau, khiến độ dốc của đường phân vị từ 5 năm đến 1.000 năm rất phẳng. Để bảo đảm nhất quán của ước lượng tần suất mưa trong trường hợp như vậy, tỷ số RGF theo vùngtỷ số trung bình đặc thù trạm được dùng để điều chỉnh thời đoạn 60 phút tại trạm khi đồng thời thỏa ba tiêu chí sau:
(1) Tỷ số đặc thù trạm RGF 100 năm (ngày/giờ) < 1,0;
(2) Độ chênh (range) của các tỷ số RGF 100 năm của tất cả trạm theo giờ trong vùng theo giờ > 0,2; và
(3) Range chia cho giá trị nhỏ nhất của tỷ số RGF 100 năm ≥ 0,4.

Các tiêu chí này được xác lập thực nghiệmkiểm chứng trong Volume 3. Việc điều chỉnh tạo ra các ước lượng tần suất mưa tại trạm cùng vị trí như vậy hợp lý hơn, nhất quán (xuyên suốt các thời đoạn từ 24-giờ đến 2-giờ) và so sánh được với các trạm khác trong vùng theo giờ đó. Tuy nhiên, không ghi nhận trường hợp nào như vậy trong dữ liệu Volume 1.

Điều chỉnh tính nhất quán cho trạm chỉ-theo-giờ (hourly-only).

Để bảo đảm các trạm chỉ có dữ liệu theo giờ nhất quán với các trạm cùng vị trí (co-located) có cả dữ liệu giờ/ngày (dù thuộc các vùng khác nhau) và để giảm các “bull’s-eye” không gian thấy trong kết quả theo giờ, một phép điều chỉnh được áp dụng cho các trạm chỉ-theo-giờ. Cụ thể, các phân vị từ 48-giờ đến 60-phút của các trạm chỉ-theo-giờ được hiệu chỉnh bằng tỷ số trung bình theo vùng giữa trung bình 24-giờ theo ngàytrung bình 24-giờ theo giờ, cùng bộ tỷ số RGF trung bình theo vùng ở mọi tần suất (1,58 năm; 2 năm; 5 năm; …; 1.000 năm), tính từ tất cả các trạm cùng vị trí trong vùng theo giờ.

Điều chỉnh tính nhất quán nội bộ (internal consistency).

phân vị của từng thời đoạn tại một trạm được tính độc lập, có thể xuất hiện bất nhất khi thời đoạn ngắn hơn lại có phân vị cao hơn thời đoạn kế tiếp dài hơn tại cùng một khoảng lặp trung bình. Ví dụ: tại một trạm, phân vị 2-giờ cho tần suất 100 năm có thể lớn hơn phân vị 3-giờ cho 100 năm. Dù thống kê có thể chấp nhận, điều này không hợp lý về mặt vật lý. Các kết quả như vậy thường xảy ra khi các thời đoạn có trung bình cực đại năm gần nhau nhưng thời đoạn ngắn hơn lại có tham số vùng (như độ biến thiên L – L-variation, độ lệch L – L-skewness) cao hơn, làm phân vị của nó vượt phân vị của thời đoạn dài hơn. Nguyên nhân gốc chủ yếu: đứt gãy trong việc chọntham số hóa hàm phân phối giữa các thời đoạn, dao động lấy mẫu, và việc áp dụng hệ số quy đổi trung bình để đổi dữ liệu 1-giờ → 60-phút1-ngày → 24-giờ.

Các bất nhất được nhận diện khi tỷ số (phân vị thời đoạn dài hơn / phân vị thời đoạn ngắn kế tiếp) < 1,0 tại một khoảng lặp cho trước.

  • Nếu bất nhất xảy ra ở tần suất cao (khoảng lặp nhỏ), xử lý bằng cách phân bổ phần dư (tỷ số > 1,0) của tần suất liền trước cho các thời đoạn đó theo độ dốc không đổi đến các tỷ số ở tần suất bất nhất, rồi tiếp tục tăng dần đến 1.000 năm cho đến khi hội tụ về 1,0 tại 1.000 năm (Bảng 4.6.1).
  • Nếu bất nhất xảy ra ở tần suất thấp (khoảng lặp lớn), xử lý bằng cách phân bổ phần dư (tỷ số > 1,0) của tần suất liền sau cho các thời đoạn đó theo độ dốc không đổi xuống các tỷ số ở tần suất bất nhất và các tần suất thấp hơn cho đến 1,58 năm, sao cho hội tụ về 1,0 trước 1,58 năm.

Các tỷ số sau điều chỉnh khi đó sẽ ≥ 1,0 như kỳ vọng. Bảng 4.6.1 cho ví dụ ở Ohio River basin và vùng lân cận đối với tỷ số 3-giờ/2-giờ cho các khoảng lặp từ 1,58 năm đến 1.000 năm tại một trạm, trướcsau khi điều chỉnh nội bộ. Hình 4.6.1 cho thấy các phân vị 3-giờ tương ứng, trước và sau điều chỉnh.

Trong đa số trường hợp, chỉ cần áp dụng điều chỉnh từ 1,58 năm đến 1.000 nămđủ. Tuy nhiên, nếu bất nhất chỉ xuất hiện ở một vài tần suất (ví dụ giữa 50 năm500 năm), vẫn áp dụng điều chỉnh từ 1,58 năm đến 1.000 năm để bảo đảm nhất quánkhông làm thay đổi các phân vị vốn đã đáp ứng điều kiện.

Bảng 4.6.1. Ví dụ điều chỉnh tính nhất quán nội bộ của các phân vị, thể hiện tỷ số phân vị 3 giờ/2 giờ cho các khoảng lặp từ 1,58 năm đến 1.000 năm tại trạm 15-3709, Hazard, Kentucky.

Tỷ số 3 giờ / 2 giờ1,58 năm2 năm5 năm10 năm25 năm50 năm100 năm200 năm500 năm1.000 năm
Trước điều chỉnh1.0251.0221.0171.0091.0040.9970.9940.9900.9830.979
Sau điều chỉnh1.0251.0221.0171.0091.0041.0031.0031.0021.0021.001

Ghi chú: Sau điều chỉnh, các tỷ số ≳ 1.0 để bảo đảm tính đơn điệu (thời đoạn dài không nhỏ hơn thời đoạn ngắn).

Hình 4.6.1. Ví dụ điều chỉnh tính nhất quán nội bộ giữa các phân vị 3 giờ2 giờ tại trạm 15-3709, Hazard, Kentucky.

4.6.4. Hệ số chuyển đổi từ AMS sang PDS

Dữ liệu chuỗi cực đại năm (AMS) gồm ca lớn nhất trong mỗi năm, bất kể ca lớn thứ hai trong năm đó có vượt các ca lớn nhất của các năm khác hay không. Trong dự án này, chuỗi partial duration (PDS) là một tập con của chuỗi dữ liệu đầy đủ, trong đó chọn N ca lớn nhất và N bằng số năm của chuỗi; loại chuỗi như vậy cũng được gọi là chuỗi vượt quá năm (AES) (Chow và cs., 1988). Trong Atlas này, việc dùng thuật ngữ PDS là theo nghĩa AES.

Dữ liệu AMS được dùng cho mọi thời đoạn từ 5 phút đến 60 ngày và cho các xác suất vượt quá hàng năm (AEP) từ 1/2 đến 1/1.000. Việc dùng dữ liệu AMS phù hợp với khái niệm phân tích tần suất và thao tác với xác suất vượt quá hàng năm, đồng thời phù hợp với nền tảng thống kê của dự án. Cách tiếp cận thống kê đối với dữ liệu PDS thì kém “chuẩn hóa” hơn. Tuy nhiên, để nhất quán với các nghiên cứu trước (ví dụ NOAA Atlas 2) và đáp ứng nhu cầu hiện nay ở chu kỳ lặp ngắn, NOAA Atlas 14 cũng trình bày kết quả theo PDS. Sự khác nhau về ý nghĩa giữa kết quả dựa trên AMSPDS được thảo luận ở Mục 3.2.

Kết quả PDS được thu bằng cách phân tích AMSPDS tách biệt, sau đó lấy trung bình các tỷ số giữa phân vị PDSphân vị AMS, rồi áp tỷ số trung bình này vào kết quả AMS. Các tỷ số PDS/AMS được xây dựng bằng cách fit phân phối độc lập cho dữ liệu AMS và PDS riêng cho từng vùng, rồi mới lấy trung bình. Hình 4.6.2 trình bày kết quả trung bình của các tỷ số PDS/AMS cho dữ liệu 24 giờ trên 59 vùng đồng nhất trong phạm vi dự án. Để tính đến dao động do lấy mẫu và tạo đường cong trơn, nhất quán, đã áp dụng tiệm cận 1.004 cho các chu kỳ lặp từ 50 năm trở lên.

Hình 4.6.2. Kết quả tỷ số PDS/AMS theo khoảng lặp trung bình cho thời đoạn 24 giờ trên 59 vùng đồng nhất dùng để biên soạn NOAA Atlas 14, Tập 1.

Các tỷ số trong Atlas này (Bảng 4.6.2) nhất quán với NOAA Atlas 2 và các tính toán lý thuyết. Ví dụ, Chow (1988) đề xuất một quan hệ toán học theo chu kỳ lặp (T) giữa PDS (hay AES)AMS:

$$T_{AES}=\left[\ln\!\left(\frac{T_{AMS}}{T_{AMS}-1}\right)\right]^{-1}.$$

Theo quan hệ này, giá trị AMS 2 năm tương đương với giá trị AES 1,44 năm. Kết quả của dự án phù hợp với quan hệ đó. Các tỷ số này cũng phù hợp với kết quả của dự án tần suất mưa gần đây cho Ohio River Basin và các bang lân cận (Bonnin và cs., 2004). Sự nhất quán của các tỷ số PDS/AMS với các nguồn suy dẫn khác củng cố mạnh mẽ tính hợp lệ của kết quả dự án, vì các phân vị PDSAMS được suy ra độc lập bằng các phân phối xác suất khác nhau.

Để suy ra tỷ số PDS/AMS, dữ liệu được dùng ở cấp vùng (loại trừ số liệu tại chính trạm). Generalized Pareto (GPA) được chọn là phân phối phù hợp nhất cho dữ liệu PDStất cả các vùng trừ 9 vùng; với các vùng 9, 24, 29, 33, 35, 50, 55, 56 và 59, Generalized Normal (GNO) là phân phối phù hợp nhất.

Bảng 4.6.2. Tỷ số PDS/AMS cho mọi thời đoạn trong NOAA Atlas 14, Tập 1 (áp dụng tiệm cận 1,004 từ 50 năm trở lên).

Chu kỳ lặp2 năm5 năm10 năm25 năm50 năm100 năm200 năm500 năm1.000 năm
Tỷ số PDS/AMS1.1131.0291.0131.0061.0041.0041.0041.0041.004

4.7. Ước lượng các giới hạn tin cậy (confidence limits)

Lần đầu tiên, National Weather Service cung cấp giới hạn tin cậy cho các ước lượng nhằm định lượng mức độ bất định. Việc này giúp người dùng hiểu rõ hơn về bất định và làm tăng tính hữu dụng của các ước lượng trong thực hành thiết kế kỹ thuật và môi trường. Bản thân các phân vị là những biến thống kê thay đổi trong một khoảng chưa biết theo một phân phối chưa biết. Để đánh giá định lượng bất định, kỹ thuật mô phỏng Monte Carlo được dùng để sinh 1.000 bộ dữ liệu tổng hợp có cùng các đặc trưng thống kê.

Các giới hạn tin cậy trên và dưới ở mức 90% được tính cho ước lượng tần suất mưa của từng trạm bằng mô phỏng Monte Carlo kết hợp với phương pháp L-moments cấp vùng, như Hosking & Wallis (1997) đề xuất. Các tham số mẫu tại mỗi trạm được dùng trong 1.000 lần mô phỏng để tạo 1.000 mẫu có độ dài chuỗitham số vùng trung bình giống dữ liệu thực. Với mỗi trạm, tính 1.000 giá trị phân vị; sau đó lấy 5% lớn nhất5% nhỏ nhất để xác định biên trênbiên dưới của giới hạn tin cậy. Đối với dữ liệu n-phút, các tỷ số n-phút (tức ước lượng trung bình tần suất mưa n-phút so với 60-phút) được áp dụng lên lưới 60-phút (biên trên/dưới) để suy ra biên trên/dưới cho các ước lượng n-phút.

Các giới hạn tin cậy được hiệu chỉnh để nhất quán với phân vị tương ứng bằng cách áp dụng tỷ số giữa phân vị trước điều chỉnh và sau điều chỉnh, theo cách tương tự các điều chỉnh tính nhất quán cho trạm cùng vị trí giờ/ngàytrạm chỉ-theo-giờ. Với trạm cùng vị trí hoặc chỉ-theo-ngày, giới hạn tin cậy 24-giờ được suy ra từ kết quả trạm trong phân tích vùng theo ngày.

Việc ước lượng giới hạn tin cậy cung cấp miền sai số cho chính các phân vị, giả định rằng dữ liệu đã được kiểm soát chất lượng tốt; ước lượng không bao gồm sai số liên quan đến đo mưaquy trình nội suy không gian.

4.8. Nội suy không gian

4.8.1. Lưới giá trị cực đại trung bình năm (hay “Index Flood”)

Như đã giải thích ở Mục 4.6.1, giá trị cực đại trung bình năm tại từng trạm được dùng như hệ số tỷ lệ đặc thù vị trí để tạo các ước lượng tần suất mưa từ hệ số tăng trưởng vùng (RGFs). Các giá trị cực đại trung bình năm ở trạm được nội suy không gian để tạo thành các lưới cực đại trung bình năm (hay lưới “Index Flood”) bằng công nghệ do Spatial Climate Analysis Service (SCAS) của Oregon State University phát triển. SCAS đã phát triển PRISM (Parameter-elevation Regressions on Independent Slopes Model) — một cách tiếp cận lai giữa thống kê và địa–khí hậu để lập bản đồ dữ liệu khí hậu (Daly & Neilson, 1992; Daly et al., 1994; 1997; 2002). PRISM nội suy không gian các giá trị cực đại trung bình năm do HDSC tính toán bằng cách khai thác mối liên hệ tự nhiên rất mạnh với lượng mưa trung bình năm.

SCAS hiệu chỉnh PRISM để sử dụng các lưới lượng mưa trung bình năm sẵn có (USDA-NRCS, 1998), sau khi lấy căn bậc hai, làm lưới biến dự báo nhằm nội suy cực đại trung bình năm lên một lưới đều. Lượng mưa trung bình năm được chọn làm biến dự báo vì dựa trên bộ dữ liệu lớn, phản ánh biến thiên không gian của thông tin khí hậu và nhất quán với các dự án trước đây, kể cả NOAA Atlas 2. PRISM dùng một hàm hồi quy riêng cho mỗi ô lưới đích và có khả năng xét đến: hiểu biết của người dùng, khoảng cách từ trạm quan trắc đến ô đích, việc trạm có thuộc một cụm trạm, chênh lệch lượng mưa trung bình năm giữa trạm và ô đích, đặc trưng địa hình (facet) và mức độ gần bờ biển. Các tham số khác gồm bán kính ảnh hưởng, số trạm tối thiểu trên một facet và tổng số trạm tối thiểu cần cho hồi quy để ước lượng cực đại trung bình năm tại một ô lưới. Thống kê cross-validation của PRISM được tính bằng cách lần lượt loại bỏ từng trạm khỏi bộ dữ liệu và dự báo trong điều kiện thiếu trạm đó. Kết quả cho thấy thiên lệch tổng thể < 2%sai số chuẩn trung bình ≈ 10% đối với Atlas này. Phụ lục A.4 cung cấp thêm chi tiết về công việc SCAS thực hiện cho HDSC.

Bảng 4.8.1 liệt kê các lưới cực đại trung bình năm (tức “Index Flood”) — mỗi thời đoạn một lưới — được nội suy bằng PRISM. Các lưới đầu ra độ phân giải cao (30-giây, xấp xỉ 0,5 mile × 0,5 mile) này sau đó được dùng làm nền tảng để suy ra các ước lượng tần suất mưa theo nhiều chu kỳ lặp khác nhau, thông qua một thủ tục nội suy không gian độc đáo do HDSC phát triển, gọi là CRAB (Cascade, Residual Add-Back), trình bày chi tiết ở Mục 4.8.2.

Có thể xuất hiện độ lệch giữa giá trị điểm quan trắc của cực đại trung bình năm trong cơ sở dữ liệu HDSCgiá trị ô lưới sau nội suy do các kỹ thuật nội suy và làm mượt của PRISM. “Cơ sở dữ liệu HDSC” gồm các ước lượng tần suất mưa, giá trị cực đại trung bình năm và siêu dữ liệu (kinh độ, vĩ độ, thời kỳ số liệu, v.v.) của từng trạm. Các độ lệch này xảy ra vì PRISM tạo ra các giá trị nội suy giúp giảm khác biệt giữa ước lượng tại điểm quan trắc và các trạm lân cận có khí hậu tương tự, lượng mưa trung bình năm, cao độ, hướng sườn, khoảng cách tới thủy vực lớnảnh hưởng bóng mưa. Xem thêm Phụ lục A.4.

Bảng 4.8.1. Lưới cực đại trung bình năm (Index Flood) nội suy bằng PRISM

STTThời đoạn (Duration)
160 phút (60-minute)
2120 phút (120-minute)
33 giờ (3-hour)
46 giờ (6-hour)
512 giờ (12-hour)
624 giờ (24-hour)
748 giờ (48-hour)
84 ngày (4-day)
97 ngày (7-day)
1010 ngày (10-day)
1120 ngày (20-day)
1230 ngày (30-day)
1345 ngày (45-day)
1460 ngày (60-day)

4.8.2. Suy dẫn (dẫn xuất) các lưới tần suất mưa

Quy trình lưới CRAB (Cascade, Residual Add-Back) là một kỹ thuật nội suy không gian độc đáo do HDSC phát triển để chuyển các lưới cực đại trung bình năm thành các lưới ước lượng tần suất mưa (xem Hình 4.8.1). “Triết lý CRAB” lần đầu được áp dụng khi xây dựng một số bản đồ trong Climate Atlas of the United States của NCDC (Plantico và cộng sự, 2000).

CRAB cho phép làm mượtnội suy vượt qua ranh giới “vùng” để loại bỏ khả năng xuất hiện các đứt gãy do RGF khác nhau—kết quả của phân tích L-moments cấp vùng. Đúng như tên gọi “cascade”, CRAB dùng lưới vừa suy ra để suy ra lưới kế tiếp theo chiều tần suất, còn các phân vị của từng thời đoạn thì được nội suy tách biệt. Bởi vậy, mẫu hình không gian phụ thuộc thời đoạn sẽ phát triển độc lập giữa các thời đoạn.

CRAB khai thác mối quan hệ tuyến tính vốn rất mạnh giữa các tần suất khác nhau tại cùng một thời đoạn; về thực chất, mối quan hệ này chính là tỷ số các RGF (ví dụ, RGF 24-giờ 100 năm / RGF 24-giờ 50 năm) và cố định theo từng vùng. Bước đầu, CRAB khái quát hóa rằng mọi vùng có cùng tỷ số RGF, từ đó tạo ra ước lượng tần suất mưa dự báo tuyến tính: vùng này có thể bị dự báo cao, vùng khác bị dự báo thấp.

Để hiệu chỉnh khác biệt giữa các vùng, CRAB dùng phần dư — tức hiệu giữa ước lượng tần suất mưa dựa trên tỷ số RGF đã khái quát (toàn các vùng)ước lượng tần suất mưa thực tế tại từng trạm. Nhờ cách khái quát đó, các phần dư theo từng trạm trong mỗi vùng thường cùng dấu (dương, âm, hoặc gần 0) do tự tương quan không gian mạnh và CRAB có khả năng nội suy phần dư tốt. Kết hợp với tính tuyến tính mạnh khi đi từ lưới này sang lưới kế tiếp, CRAB trở thành phương pháp hiệu quả để tạo ra các lưới tần suất mưa nhất quán theo không gian.

Như đã nêu, quy trình suy dẫn CRAB khai thác mối quan hệ tuyến tính rất mạnh giữa một thời đoạn và tần suất nhất định, các ước lượng “predictor”, và tần suất hiếm hơn kế tiếp của cùng thời đoạn. Hình 4.8.2 minh họa mối quan hệ giữa ước lượng tần suất mưa “predictor” (ví dụ: 24 giờ – 50 năm) và ước lượng tần suất mưa kế tiếp (24 giờ – 100 năm). Giá trị R² = 0,9986 ở đây rất gần 1,0, điều vốn phổ biến trong tất cả các hồi quy. Vì phép tính dùng mọi trạm trong vùng dự án, độ dốc của quan hệ này (1,1345) có thể xem như tỷ số RGF trung bình trên toàn miền. Các khác biệt theo vùng sau đó được hiệu chỉnh bằng phần dư (residuals).

Tóm lược toàn bộ thủ tục CRAB được minh họa trong Hình 4.8.1 và có thể gói gọn thành một chuỗi bước. Trong mô tả này, thuật ngữ “predictor” chỉ lưới trước đó làm cơ sở để suy ra lưới kế tiếp.

Hình 4.8.2. Biểu đồ phân tán giữa các ước lượng tần suất mưa 24 giờ–100 năm24 giờ–50 năm, kèm đường hồi quy tuyến tính, trích từ NOAA Atlas 14, Tập 1.

Bước 1: Xây dựng hồi quy

Chuỗi cascade bắt đầu với lưới cực đại trung bình năm do SCAS tạo bằng PRISM cho một thời đoạn cho trước, được dùng làm lưới dự báo (predictor) ban đầu (ví dụ: cực đại trung bình năm 24-giờ), và lưới kế tiếptần suất 2 năm của cùng thời đoạn (ví dụ: 24-giờ 2 năm). Tất cả ước lượng tần suất mưa trong cơ sở dữ liệu HDSC được hiệu chỉnh để phù hợp với làm mượt không gian của các lưới cực đại trung bình năm PRISM.
Một hệ số hiệu chỉnh được tính từ chênh lệch giữa giá trị ô lưới PRISM của cực đại trung bình năm và giá trị điểm cực đại trung bình năm tính từ số liệu quan trắc (theo CSDL HDSC). Hệ số này là giá trị riêng cho từng trạm, áp dụng lên các ước lượng tần suất mưa và không phụ thuộc tần suất.
Ví dụ: một trạm có cực đại trung bình năm 60-phút quan trắc được là 0.82 inch, trong khi ô lưới PRISM tại vị trí đó là 0.861 inchhệ số hiệu chỉnh = 1.05. Hệ số này được nhân vào mọi ước lượng tần suất mưa 60-phút (từ 2 năm đến 1.000 năm) trước khi lập phương trình hồi quy. Các ước lượng tần suất mưa đã hiệu chỉnh này tương đương với ước lượng gốc. Trong đa số trường hợp, mức hiệu chỉnh là ±5% (xem Phụ lục A.4).
đầu mỗi vòng lặp, một quan hệ toàn miền (all-region) cho mỗi cặp thời đoạn/tần suất được xây dựng dựa trên ước lượng tần suất tại trạm (đã hiệu chỉnh làm mượt) ở tất cả các trạm.

Để xây dựng quan hệ toàn miền, tạo một tệp dữ liệu x–y trong đó ban đầu xcực đại trung bình năm của một thời đoạn, còn yước lượng tần suất 2 năm của cùng thời đoạn tại từng trạm. Tính hệ số góctung độ gốc của đường hồi quy tuyến tính bình phương tối thiểu dùng tất cả các trạm trong miền. Với mỗi vùng, hệ số góc của đường này tương đương RGF 2 nămlần chạy đầu, và tương đương tỷ số RGF ở các lần chạy tiếp theo.

Hình 4.8.1. Lưu đồ quy trình suy dẫn lưới CRAB (cascade residual add-back), bắt đầu từ lưới cực đại trung bình năm của thời đoạn x và minh họa cách suy ra lưới thời đoạn x – 2 năm.

  1. Lọc & lưu lưới dự báo kế tiếp
    Áp dụng bộ lọc khối nhỏ (3×3 ô lưới), trọng tâm cho lưới gần-cuối (pre-final) để khử nhiễu và làm mượt đường đẳng trị. Lưới không gán mặt nạ (unmasked), không lọc (unfiltered), chưa điều chỉnh các vi phạm tính nhất quán nội bộ – IC này được lưu làm lưới predictor kế tiếp.
  2. Kiểm tra IC theo thời đoạn (duration-based)
    Khi x không phảicực đại trung bình năm (lưu ý: cực đại trung bình năm chỉ dùng ở vòng lặp đầu), kiểm tra lưới gần-cuối đã lọc để bảo đảm y lớn hơn lưới cuối của thời đoạn ngắn hơn kế tiếp tại cùng tần suất (ví dụ: 5y24h > 5y12h). Ô nào vi phạm, thì điều chỉnh y bằng cách đặt giá trị ô = thời đoạn ngắn hơn kế tiếp + 1%.
  3. Kiểm tra IC theo tần suất (frequency-based)
    Cũng trong trường hợp x không phảicực đại trung bình năm, kiểm tra lưới gần-cuối đã lọc để bảo đảm y lớn hơn x (tức lưới cuối ở tần suất cao hơn kế tiếp, ví dụ: 5y24h > 2y24h). Ô nào vi phạm, thì điều chỉnh y bằng cách đặt giá trị ô = tần suất cao hơn kế tiếp + 1%. Kết quả thu được là lưới cuối (final grid).
  4. Kiểm tra IC bổ sung cho dải tin cậy
    Nếu x & ybiên trên/dưới của ước lượng tần suất mưa, thì thực hiện các kiểm tra IC bổ sung (ví dụ: bảo đảm 5y24h_upper > 5y24h).
  5. Suy ra lưới n-phút từ 60 phút
    Nếu thời đoạn = 60 phút, tính các lưới n-phút (5, 10, 15, 30 phút) bằng cách áp dụng tỷ số 60-phút→n-phút trên toàn miền cho lưới cuối.

Bước 2: Xây dựng các lưới “ước đoán ban đầu” (first guess grids).
Quan hệ hồi quy tuyến tính toàn miền được áp dụng (trong GIS) lên lưới predictor (ví dụ: lưới cực đại trung bình năm 24-giờ) để tạo lưới ước đoán ban đầu (ví dụ: 24-giờ – 2 năm). Lưu ý lưới này không nhất thiết trùng với các ước lượng thực tế vốn dựa trên RGF riêng của từng vùng.

Bước 3: Xây dựng các lưới phần dư nội suy không gian.
Để xét đến khác biệt vùng, tính phần dư tại từng trạm (thực tế – dự báo), trong đó giá trị dự báo (ví dụ: 24-giờ – 2 năm) là giá trị lấy từ lưới first guess. Các phần dư được chuẩn hóa bằng cách chia cho cực đại trung bình năm để thuận tiện nội suy đến các vị trí không có trạm.

Các phần dư đã chuẩn hóa tại từng trạm sau đó được nội suy lên lưới bằng thuật toán IDW (trọng số theo khoảng cách nghịch đảo) trong GRASS GIS (bản hiệu chỉnh; GRASS, 2002) để tạo lưới phần dư đã chuẩn hóa. Để cho kết quả mượt, trước khi nội suy bằng IDW, độ phân giải không gian được giảm từ 30-giây xuống 1-phút; sau đó, kết quả được lấy mẫu lại về 30-giây cho các bước tiếp theo. Đã thực hiện các thử nghiệm nhạy cảm để chọn độ phân giải tối ưu, nhằm tránh làm mượt quá mức (có thể làm bản đồ lệch khỏi các phân vị thu được từ phân tích L-moments).

Phương pháp IDW giả định giá trị tại một điểm chưa lấy mẫu có thể ước tính như trung bình có trọng số của các điểm trong một phạm vi nhất định hoặc của m điểm gần nhất; trong CRAB dùng 12 điểm gần nhất (m = 12). Trọng số tỉ lệ nghịch với lũy thừa của khoảng cách (mét). Tại điểm chưa lấy mẫu r=(x,y)r=(x,y), công thức là:

$$F(r)=\frac{\displaystyle\sum_{j=1}^{m}\, \frac{z(r_j)}{|\,r-r_j\,|^{p}}} {\displaystyle\sum_{j=1}^{m}\, \frac{1}{|\,r-r_j\,|^{p}}}$$

(E.8, Neteler and Mitasova, 2002)

trong đó:
F(r) = lượng mưa nội suy tại ô lưới chưa lấy mẫu;
z = lượng mưa tại điểm mẫu;
m=12; p=2;
\(r_j\) = vị trí điểm mẫu thứ j; r = vị trí ô lưới chưa lấy mẫu.

IDW được thực hiện trong hệ chiếu địa lý (vĩ-kinh độ); khoảng cách giữa r và \(r_j\) được tính bằng mét. IDW được chọn vì về định nghĩa đây là bộ nội suy “chính xác”: giá trị nội suy tại vị trí trạm trùng với phần dư đã chuẩn hóa quan trắc; điều này quan trọng để khi chuyển ngược phần dư đã chuẩn hóa về phần dư thực, chúng khớp không gian với phần dư thực tại trạm. Do cực đại trung bình nămtính nhất quán không gian cao, các phần dư chuẩn hóa cũng có xu thế nhất quán theo vùng; vì vậy, IDW là sơ đồ nội suy phù hợp (xem thêm chi tiết quy trình trong Hình 4.8.1).

Bản dịch:

Lưới phần dư đã chuẩn hóa được khử chuẩn hóa bằng cách nhân nó với lưới cực đại trung bình năm đã nội suy không gian ban đầu, để thu được lưới phần dư thực nội suy không gian cho toàn vùng dự án. Hình 4.8.3 cho thấy mối quan hệ giữa phần dư thực 24 giờ – 100 nămước lượng cực đại trung bình năm 24 giờ. Mỗi cụm tuyến tính trên biểu đồ phân tán này biểu diễn các trạm trong cùng một vùng nhưng có độ sâu mưa 24 giờ – 100 năm khác nhau.

Hình 4.8.3. Mối quan hệ giữa phần dư thực 24 giờ – 100 nămlượng mưa cực đại trung bình năm 24 giờ từ NOAA Atlas 14 Tập 1.

Bước 4: Xây dựng các lưới “gần-cuối” (pre-final grids).
Lưới phần dư thực đã nội suy không gian được cộng vào lưới ước đoán ban đầu (first guess) để tạo lưới gần-cuối (ví dụ: 24 giờ – 2 năm). Để khử nhiễu thừa và làm mượt các đường đẳng trị, áp dụng bộ lọc trung bình khối 3×3 ô lưới. Nhằm tránh lan truyền sai số có thể phát sinh ở bước điều chỉnh tính nhất quán nội bộ (mô tả ở Bước 5), lưới gần-cuối được lưu trữ và dùng làm lưới dự báo (predictor) cho lần suy dẫn lưới tần suất mưa kế tiếp. Ví dụ, lưới gần-cuối 24 giờ – 2 năm được dùng làm predictor cho lưới 24 giờ – 5 năm, thay vì dùng lưới cuối 24 giờ – 2 năm, để trung thực với dữ liệu và cho phép các mẫu hình phát triển mà không bị ảnh hưởng bởi các điều chỉnh/lọc.

Bước 5: Kiểm tra tính nhất quán nội bộ (internal consistency).
Để bảo đảm tính nhất quán nội bộ của các giá trị ô trong lưới gần-cuối, tiến hành hai nhóm kiểm tra: theo tần suấttheo thời đoạn.

  • Vi phạm theo tần suất (ví dụ: 100 năm < 50 năm) rất hiếm; nếu có thì mức vi phạm cũng nhỏ so với độ lớn các ước lượng tần suất mưa.
  • Vi phạm theo thời đoạn (ví dụ: 24 giờ < 12 giờ) phổ biến hơn, đặc biệt giữa 120 phút3 giờ, nhưng cũng chỉ nhỏ so với độ lớn các ước lượng.

Cách khắc phục: giá trị ô của thời đoạn dài hơn hoặc tần suất hiếm hơn được điều chỉnh bằng cách nhân giá trị ô của thời đoạn ngắn hơn hoặc tần suất thường hơn với 1,01 để tạo chênh 1% giữa hai ô. Chọn 1% (thay vì một hằng số tuyệt đối) để mức chênh tỷ lệ theo độ lớn của các ô, vừa đủ nhỏ để hiệu chỉnh mà không làm thay đổi những dữ liệu vốn đã thỏa điều kiện. Trình tự thực hiện: kiểm tra/điều chỉnh theo thời đoạn trước, tạo ra lưới gần-cuối mới; tiếp đó kiểm tra/điều chỉnh theo tần suất. Lưới thu được cuối cùng trở thành lưới cuối (final grid) cho tần suấtthời đoạn đang xét (ví dụ: 24 giờ – 2 năm).

Phát triển các lưới n-phút.
Các thời đoạn ngắn hơn 60 phút (tức các ước lượng tần suất mưa n-phút) được tính bằng cách nhân hệ số tỷ lệ tuyến tính vào các lưới cuối của ước lượng tần suất mưa 60 phút đã nội suy không gian. Do số trạm n-phút rất ít trong khu vực dự án, các tỷ số toàn miền giữa n-phút/60-phút được tính bình quân trên toàn vùng nghiên cứu (Mục 4.1.1). Dùng các tỷ số này (liệt kê lại ở Bảng 4.8.2), ta nhân lưới 60 phút cuối với tỷ số tương ứng để thu được lưới n-phút. Các tỷ số này được áp dụng cho mọi tần suất, cũng như cho cả lưới biên trênbiên dưới của n-phút.

Bảng 4.8.2. Tỷ số n-phút trong NOAA Atlas 14 Tập 1: 5-, 10-, 15- và 30-phút so với 60-phút.

Thời đoạn5 phút10 phút15 phút30 phút
Tỷ số (n/60)0.3180.4840.6000.808

Thẩm định (Validation).
Các lưới cực đại trung bình năm bản nháp ban đầu (còn gọi là “Index Flood”) cho Atlas này, cùng với các lưới tần suất mưa 24 giờ–100 năm60 phút–100 năm suy dẫn bằng CRAB, đã được phản biện đồng cấp (Phụ lục A.6). Sau khi xem xét và xử lý toàn bộ ý kiến phản biện, các lưới cực đại trung bình năm cuối cùng được PRISM tạo lại và quy trình CRAB được chạy lại.
Ngoài ra, đối chứng chéo kiểu jackknife (jackknife cross-validation) cho phép đánh giá khách quan hơn độ tin cậy của các lưới tần suất mưa. Bài toán jackknife được thực hiện bằng cách chạy CRAB một trạm trong bộ dữ liệu, lưu giá trị ô lưới đích (tại vị trí trạm), rồi chạy lại CRAB không có trạm đó và so sánh hai giá trị ô lưới đích. Do chi phí quá lớn, không thể tái tạo các lưới PRISM cực đại trung bình năm cho từng vòng đối chứng chéo; vì vậy, kết quả đối chứng chéo phản ánh độ chính xác của CRAB dựa trên cùng một bộ lưới cực đại trung bình năm. Việc so sánh được dùng để kiểm tra độ vữngđộ chính xác của phép nội suy CRAB. Một phép thẩm định “hoàn hảo” sẽ cho hai giá trị bằng nhau — có và không có trạm. Kết quả 60 phút–100 năm (đòi hỏi nội suy nhiều nhất tới các vị trí không có trạm do số trạm theo giờ ít) cho thấy CRAB hoạt động tốt (Hình 4.8.4). Thông điệp chính của Hình 4.8.4 là nhìn chung CRAB tái tạo tốt các giá trị khi thiếu dữ liệu trạm. Hình cũng cho thấy CRAB hơi có xu hướng đánh giá thấp giá trị tần suất mưa tại một vị trí khi không có trạm.

Hình 4.8.4. Kết quả đối chứng chéo jackknife cho 60 phút–100 năm trong NOAA Atlas 14, Tập 1.

Suy dẫn các lưới giới hạn trên/dưới của ước lượng tần suất mưa
Các lưới giới hạn trêngiới hạn dưới của ước lượng tần suất mưa cũng được suy dẫn bằng quy trình CRAB. Việc thử nghiệm cho thấy cách tốt nhất để suy ra các lưới giới hạn trên/dưới là dùng lưới giới hạn liền trước (trên hoặc dưới) làm lưới dự báo (predictor) đồng thời làm lưới chuẩn hóa cho lưới giới hạn đang suy ra, thay vì dùng lưới giá trị trung bình tương ứng.
Mặc dù các ước lượng giới hạn trên/dưới có độ ổn định hơi kém hơn so với các lưới trung bình, chúng vẫn biểu hiện quan hệ tuyến tính mạnh với lưới trước đó (predictor). Lưới cực đại trung bình năm cùng thời đoạn (lưới “Index Flood” do PRISM tạo) được dùng làm predictor ban đầu cho các lưới ước lượng tần suất mưa giới hạn trêngiới hạn dưới ở chu kỳ 2 năm. Hình 4.8.5 là biểu đồ phân tán giữa giá trị trung bình 24 giờgiới hạn trên 24 giờ – 2 năm của ước lượng tần suất mưa.

Hình 4.8.5. Biểu đồ phân tán giữa ước lượng tần suất mưa trung bình 24 giờgiới hạn trên 24 giờ – 2 năm, với hệ số xác định \(R^2 = 0{,}9922\) trong NOAA Atlas 14, Tập 1.

Tương tự các lưới ước lượng tần suất mưa, các lưới giới hạn trên/dưới cũng được đánh giá và hiệu chỉnh để bảo đảm tính nhất quán nội bộ. Dù rất hiếm, các hiệu chỉnh theo thời đoạn được áp dụng để bảo đảm giá trị ô lưới của giới hạn trên (dưới) lớn hơn (nhỏ hơn) giá trị trung bình. Nếu xảy ra vi phạm (ví dụ: 60-phút 100 năm < giới hạn dưới 60-phút 100 năm), thì lưới giới hạn trên (dưới) được tăng (giảm) thêm 1% của lưới trung bình. Giống như với các lưới mưa, khi cần sẽ thực hiện các hiệu chỉnh theo tần suất hoặc theo thời đoạn. Để khắc phục mọi vi phạm nhất quán nội bộ, giá trị ô lưới của thời đoạn dài hơn hoặc tần suất hiếm hơn được hiệu chỉnh bằng cách nhân giá trị ô của thời đoạn ngắn hơn hoặc tần suất thường hơn với 1,01, tạo chênh lệch 1% giữa hai ô.

4.8.3. Dữ liệu giả (pseudo data)

Vì mỗi thời đoạn được tính độc lập, nên có khả năng xuất hiện bất nhất giữa các thời đoạn tại một vị trí. Trong nội suy không gian, điều này đặc biệt đáng lưu ý ở các trạm chỉ-theo-giờchỉ-theo-ngày. Tuy vậy, các bất nhất như vậy hiếm.

Ở các trạm chỉ-theo-giờ, bất nhất có thể xảy ra vì các ước lượng 60 phút đến 48 giờ được dùng để neo phép nội suy, trong khi các ước lượng 4 ngày đến 60 ngày tại chính các vị trí đó lại được tính trong quá trình nội suy không gian dựa trên ước lượng ở các trạm theo ngày lân cận. Trong giai đoạn đánh giá các lưới, HDSC phát hiện 6 trường hợp có bất nhất giữa các ước lượng tần suất mưa từ 48 giờ đến 4 ngày. Mỗi trường hợp đều được xử lý sau khi rà soát số liệu quan trắchành vi của các trạm lân cận. Một số trường hợp cho thấy dữ liệu 48 giờ dẫn xuất từ quan trắc theo giờ kém tin cậy hơn so với dữ liệu dẫn xuất từ quan trắc theo ngày; khi đó, ước lượng điểm 48 giờ được loại bỏ và thay bằng ước lượng nội suy không gian. Với các trường hợp còn lại, mẫu hình không mâu thuẫn với khí hậu có thể có trong khu vực nên được giữ lại.

Tương tự, có 21 trường hợp phát sinh bất nhất ở các trạm chỉ-theo-ngày vì các ước lượng 24 giờ đến 60 ngày được dùng để neo phép nội suy, trong khi các ước lượng 60 phút đến 12 giờ tại chính các vị trí đó lại được tính trong quá trình nội suy dựa trên ước lượng ở các trạm theo giờ lân cận. Trong 21 trường hợp này, các ước lượng tần suất mưa ≤ 12 giờ (được nội suy) thấp đáng kểkhông nhất quán với các ước lượng ≥ 24 giờ (được tính trực tiếp) ở khu vực xung quanh, dẫn đến biến đổi bất hợp lý giữa ước lượng 12 giờ24 giờ tại các vị trí đó.

Những trường hợp này được xác định khách quan bằng cách dùng các lưới biểu diễn hiệu giữa ước lượng 12 giờ–100 năm và 24 giờ–100 năm. Nhờ các lưới này, ta phân biệt được tạo tác không gian với các mẫu hình do khí hậu chi phối. Nói chung, nếu chênh lệch giữa 12 giờ–100 năm24 giờ–100 năm tại một ô lưới ≥ 1,40 inch, thì trạm chỉ-theo-ngày trong khu vực đó được rà soát kỹ. 21 vị trí có bất nhất như vậy đã được xác định và đối chiếu với số liệu trạm; các vị trí này chủ yếu nằm gần các vùng chuyển tiếp khí hậu, đặc biệt ở khu vực phía tây.

Bảng 4.8.3. Các trạm “giả” theo giờ dùng trong biên soạn NOAA Atlas 14 – Tập 1

Mã trạmTên trạmTiểu bang
02-2434DATELAND WHITEWING RCHAZ
02-4702KOFA MINEAZ
02-5627MOHAWKAZ
02-8396TACNA 3 NEAZ
02-9211WELLTONAZ
02-9652YUMA CITRUS STATIONAZ
02-9654YUMA PROVING GROUNDAZ
02-9656YUMA QUARTERMASTER DEPOTAZ
02-9657YUMA VALLEYAZ
02-9662YUMA WB CITYAZ
02-2319DEATH VALLEYCA
04-2504DOYLECA
04-2506DOYLE 4 SSECA
04-3489GOLD ROCK RANCHCA
04-3711HAIWEECA
04-9761WILDROSE R SCA
26-0501AMARGOSA FARMS GAREYNV
26-6691RED ROCK CANYON ST PKNV
29-1183BOSQUE DEL APACHENM
42-2607ESKDALE PSEUDOUT
42-5733MOAB RADIOUT

“Dữ liệu giả (pseudo data)” đã được dùng để giảm các bất nhất tại 21 vị trí này. Bảng 4.8.3 liệt kê các trạm giả theo giờ được tạo cho Atlas này. Việc tạo ước lượng tần suất mưa giả theo giờ thực hiện tương tự cách dùng để khắc phục bất nhất 12 giờ ↔ 24 giờ ở các trạm cùng vị trí (Mục 4.6.3). Cụ thể, các ước lượng giả được tạo bằng cách áp dụng tỷ số giữa ước lượng x-giờ24-giờ đã được nội suy không gian bằng thuật toán trọng số theo khoảng cách nghịch đảo (IDW) của GRASS (GRASS, 2002; xem Mục 4.8.2), dựa chỉ trên các trạm giờ/ngày cùng vị trí.
Tỷ số tại mỗi trạm cùng vị trí được tính bằng (ước lượng tần suất mưa 24-giờ của trạm) / (ước lượng tần suất mưa x-giờ của trạm). Tỷ số đã nội suy này sau đó được nhân với ước lượng tần suất mưa 24-giờ của các trạm chỉ-theo-ngày để tạo dữ liệu giả theo giờ tại vị trí trạm đó. Cách xử lý này giúp chuyển tiếp mượt hơnhợp lý về khí tượng từ các ước lượng theo giờ sang theo ngày.

Các thử nghiệm cho thấy: với những trạm chỉ-theo-ngày không có chênh lệch lớn giữa 12 giờ24 giờ, việc bổ sung dữ liệu giả theo giờ hầu như không làm thay đổi các ước lượng tần suất mưa (trước và sau khi thêm dữ liệu giả gần như giống nhau). Dữ liệu giả không được thêm vào các trạm không cần hoặc vào vị trí không có trạm đo. Những nơi không chứng minh được rõ ràng có bất nhất giữa ước lượng 12 giờ24 giờ thì giữ nguyên (coi là phù hợp với khí hậu) và không áp dụng biện pháp can thiệp. Dữ liệu giả chỉ được dùng khi thật sự cần thiết để tạo ra kết quả nhất quán.

4.8.4. Suy dẫn các đường đẳng lượng mưa (isohyets) của ước lượng tần suất mưa

Các tệp GIS isohyetal (đường đẳng lượng mưa) được tạo từ các lưới ước lượng tần suất mưa dựa trên chuỗi partial duration để người dùng khai thác trong các hệ thống GIS. Các isohyet được xuất thành shapefile dạng đường theo chuẩn ESRI (2003). Isohyet được tạo bằng cách vẽ đường đẳng trị trên các lưới bằng lệnh r.contour của GRASS (GRASS, 2002). Tệp kết quả sau đó được xuất ra shapefile bằng lệnh v.out.shapefile (GRASS, 2002). Để giữ cho isohyet và lưới nhất quán, không thực hiện khái quát hóa hay làm mượt đường; độ chính xác và độ phân giải của lưới đã đủ cao để cho ra các đường đẳng trị trơn.

Việc chọn bước đẳng trị (contour interval) được quyết định bằng một thuật toán dùng giá trị lớn nhất, nhỏ nhất và miền biến thiên của các giá trị ô lưới. Số mức đẳng trị riêng lẻ bị ràng buộc trong khoảng 10–30; tuy nhiên, một số lưới n-phút không có đủ miền biến thiên để đạt ngưỡng tối thiểu 10 mức, nên có ít hơn 10 mức. Mọi khoảng đẳng trị đều là bội số của 0,10 inch—đây là bước nhỏ nhất. Script dùng để tính các khoảng đẳng trị phù hợp và tạo shapefile cũng sinh siêu dữ liệu tuân thủ FGDC và một tệp “fact file”. Tệp fact ở định dạng HTML cung cấp chi tiết về shapefile và kèm danh sách các mức đẳng trị.

Để đơn giản hóa việc tải các shapefile isohyet từ PFDS (Precipitation Frequency Data Server), toàn bộ thành phần của shapefile (*.shp, *.dbf, *.shx, *.prj), siêu dữ liệu và fact file được đóng góinén vào một tệp lưu trữ chứa nhiều tệp (đuôi *.tar). Thông tin về phép chiếu, độ phân giải và các chi tiết khác của shapefile, xin xem siêu dữ liệufact file.

Các shapefile isohyet được tạo nhằm trợ giúp trực quankhông khuyến nghị dùng để nội suy các ước lượng tần suất mưa cuối cùng tại điểm hoặc diện phục vụ tiêu chí thiết kế. Người dùng được khuyến khích sử dụng các lưới hoặc giao diện PFDS để truy cập các ước lượng cuối cùng.

4.8.5. Tạo bản đồ chuyên đề màu

Các shapefile isohyet được dùng để tạo bản đồ chuyên đề màu của các lưới ước lượng tần suất mưa dựa trên chuỗi partial duration. Bản đồ được dựng bằng phần mềm ArcGIS 8.3 (đặc biệt là ArcMap; ESRI, 2003). Dù về hình thức trông như gồm các đa giác khép kín từ các ô hai chiều, thực ra không phải: phần tô màu theo giá trị ô lưới kết hợp với shapefile đường tạo ra diện mạo “gọn gàng” như đa giác.

Các bản đồ chuyên đề được cung cấp dưới dạng PDF để dễ xem và in. Tỷ lệ bản đồ1:2.000.000 khi in ở kích thước gốc 15,5″ × 21,5″ (cùng cỡ với bản đồ của NOAA Atlas 2), tuy nhiên có thể in ở bất kỳ kích thước nào. Người dùng lưu ý rằng các bản đồ về sau và/hoặc dự án khác có thể có tỷ lệ hoặc khổ in khác.

Các bản đồ chuyên đề màu được tạo làm trợ giúp trực quan và, khác với NOAA Atlas 2, không khuyến nghị dùng để nội suy các ước lượng tần suất mưa điểm hoặc diện cuối cùng cho tiêu chí thiết kế. Người dùng nên khai thác giao diện PFDS (Precipitation Frequency Data Server) để truy cập các ước lượng cuối.