Cập nhật Tập (31/3/2011). NOAA Atlas 14 Tập 6 thay thế Tập 1 đối với các ước lượng tần suất lượng mưa ở Đông Nam California. Vui lòng xem tài liệu của Tập 6 để biết chi tiết về dữ liệu sử dụng và cách tiếp cận phân tích cho California.
4.1. Dữ liệu
4.1.1. Thuộc tính
Nguồn. Các đo mưa theo ngày, giờ và n-phút (định nghĩa bên dưới) từ nhiều nguồn khác nhau được dùng cho dự án này (Bảng 4.1.1). Hình 4.1.1 thể hiện vị trí các trạm ngày (bao gồm SNOTEL, định nghĩa bên dưới) trong khu vực dự án. Hình 4.1.2 thể hiện các trạm giờ và n-phút.
Chương trình COOP (Cooperative Observer Program) của National Weather Service – NWS với các trạm đo mưa ngày và giờ là nguồn chính của số liệu mưa. Các bộ dữ liệu COOP sau đây được lấy từ NOAA/National Climatic Data Center (NCDC):
- Bộ dữ liệu giờ: TD3240
- Bộ dữ liệu ngày: TD3200 và TD3206
- Bộ dữ liệu n-phút: TD9649 và một bộ dữ liệu bổ sung cho giai đoạn 1973–1979
Các nguồn khác gồm NRCS (USDA) và các bộ dữ liệu địa phương, bao gồm dữ liệu từ:
- San Bernardino County Flood Control District, California
- Riverside County Flood Control and Water Conservation District, California
- NWS’s California–Nevada River Forecast Center, Sacramento, California
- California Department of Water Resources (CDWR) – ALERT (Automated Local Evaluation in Real Time) các đồng hồ đo mưa
- Dữ liệu ALERT theo giờ từ Maricopa County Flood Control District, Arizona
- USGS – mạng đồng hồ đo mưa dày đặc của Albuquerque Metropolitan Arroyo Flood Control Authority (AMAFCA)
Nhiều trạm bổ sung cung cấp thông tin tại những nơi trước đây không có hoặc rất ít dữ liệu—ở vùng cao và phía nam biên giới Hoa Kỳ. SNOTEL (SNOwpack TELemetry) cung cấp thông tin ở các khu vực núi cao của vùng dự án. Mạng SNOTEL ở cao độ 6000–11 000 ft do USDA/NRCS vận hành. Dữ liệu ngày bổ sung ở phía nam biên giới Hoa Kỳ được cung cấp nhờ hợp tác với ông Jorge Sanchez-Sesma, Instituto Mexicano de Technologia del Agua, Mexico City, Mexico.
Bảng 4.1.1. Số lượng trạm tại mỗi bang trong khu vực dự án
| Bang/Vùng | Ngày (Daily) | SNOTEL | Giờ (Hourly) | n-phút (N-min) |
|---|---|---|---|---|
| Arizona | 270 | 13 | 68 | 5 |
| Đông Nam California | 129 | 1 | 75 | 7 |
| Nevada | 114 | 26 | 39 | 5 |
| New Mexico | 239 | 11 | 76 | 3 |
| Utah | 212 | 67 | 42 | 4 |
| Các bang giáp ranh* | 477 | 64 | 181 | 3 |
| Baja, Mexico | 31 | n/a | n/a | n/a |
| Chihuahua, Mexico | 10 | n/a | n/a | n/a |
| Sonora, Mexico | 22 | n/a | n/a | n/a |
| Tổng | 1504 | 182 | 481 | 27 |
* Các bang giáp ranh gồm các phần của California, Colorado, Idaho, Oklahoma, Oregon, Texas và Wyoming tiếp giáp vùng lõi dự án.


Chiều dài chuỗi số liệu. Chiều dài chuỗi có thể được đặc trưng bởi toàn bộ giai đoạn có số liệu (period of record) hoặc bởi số năm số liệu sử dụng được trong toàn bộ giai đoạn đó (data years). Trong dự án này, chỉ các trạm ngày có từ 20 năm dữ liệu trở lên và các trạm giờ có từ 15 năm dữ liệu trở lên mới được dùng trong phân tích. (Riêng dữ liệu Mexico bị hạn chế, nên dùng ngưỡng 13 năm dữ liệu.) Chuỗi số liệu của các trạm này kéo dài đến tháng 12 năm 2000 và trung bình đạt 54 năm dữ liệu đối với trạm ngày và 37 năm dữ liệu đối với trạm giờ (Bảng 4.1.2). Hình 4.1.3 và 4.1.4 cho thấy số năm dữ liệu theo tỷ lệ phần trăm số trạm đối với dữ liệu ngày và giờ. Các chuỗi n-phút dùng trong phân tích có từ 14 đến gần 100 năm dữ liệu, với số liệu kéo dài đến tháng 5/1997. Tại thời điểm thực hiện dự án, dữ liệu n-phút tại NCDC chưa được cập nhật sau năm 1997. Có tám trạm n-phút có hơn 80 năm dữ liệu. (Xem Phụ lục A.7 để có danh sách đầy đủ các trạm, hoặc truy cập đường dẫn nêu trong tài liệu để tải danh sách trạm ở dạng văn bản phân tách bằng dấu phẩy/CSV.)
Bảng 4.1.2. Thông tin cho bộ dữ liệu ngày và giờ đến 12/2000 và bộ dữ liệu n-phút đến 5/1997.
| Ngày (Daily) | Giờ (Hourly) | n-phút (N-minute) | |
|---|---|---|---|
| Số lượng trạm | 1441 (+182 SNOTEL, +63 Mexico) | 481 | 27 |
| Chiều dài chuỗi dài nhất (data yrs) (Mã trạm) | 108 (29-8535) | 62 (04-4211) | 88 (02-6481) |
| Chiều dài chuỗi trung bình (data yrs) | 54* | 37 | 36 |
* Không tính các trạm SNOTEL hoặc trạm ở Mexico.


Dữ liệu n-phút. Dữ liệu n-phút là số liệu mưa được đo với độ phân giải thời gian 5 phút, có thể cộng gộp thành các khoảng n-phút khác nhau (10, 15, 30 và 60 phút). Do số trạm có dữ liệu n-phút còn ít, tần suất mưa n-phút được ước tính bằng cách tỷ lệ tuyến tính từ dữ liệu 60 phút. Các hệ số tỷ lệ tuyến tính được xây dựng từ tỷ số giữa các phân vị n-phút và các phân vị 60 phút tại 27 trạm có đồng thời dữ liệu n-phút và giờ, chia thành 6 vùng (Hình 4.1.5). Các tỷ số được tính và lấy trung bình cho từng vùng. Vì nhận thấy các tỷ số này hầu như giống nhau theo vùng và theo xác suất vượt hàng năm (AEP), nên với mỗi thời đoạn, các tỷ số được lấy trung bình trên cả 6 vùng và trên mọi mức AEP, rồi áp dụng cho toàn bộ khu vực dự án.
Các tỷ số này phù hợp với các nghiên cứu khác. Bảng 4.1.3 trình bày các tỷ số n-phút (n-phút/60-phút) tính cho NOAA Atlas 14 Tập 1 và các tỷ số đã công bố trong NOAA Atlas 2 (Miller and others, 1973) cho các thời đoạn 5, 10, 15 và 30 phút. Bảng 4.1.3 cũng cho thấy các tỷ số do Arkell và Richards (1986) sử dụng, được tính cho một khu vực địa lý tương đương nhưng không bao gồm California.

Bảng 4.1.3. Tỷ số n-phút/60-phút: 5, 10, 15 và 30 phút.
| 5-phút | 10-phút | 15-phút | 30-phút | |
|---|---|---|---|---|
| NOAA Atlas 14, Tập 1 | 0.318 | 0.484 | 0.600 | 0.808 |
| NOAA Atlas 2 | 0.29 | 0.45 | 0.57 | 0.79 |
| Arkell & Richards (1986) | 0.34 | 0.52 | 0.62 | 0.82 |
Các giá trị là tỷ số lượng mưa n-phút so với 60-phút (n-minute ÷ 60-minute).
Dữ liệu SNOTEL. Các trạm SNOTEL cung cấp số liệu mưa ở vùng địa hình cao—nơi NOAA Atlas 2 không có thông tin. Số lượng và chất lượng dữ liệu không đủ để tính trực tiếp các moment thống kê bậc cao, vì vậy chúng không được dùng để tính các tham số vùng. Thay vào đó, tại mỗi vị trí, người ta tính giá trị cực đại năm trung bình cho các thời đoạn từ 24 giờ đến 60 ngày để phục vụ phân tích và nội suy không gian. Các ước lượng tần suất mưa cho trạm SNOTEL được tính bằng hệ số tăng trưởng vùng (RGF)—một tham số phân bố tần suất vùng không thứ nguyên suy ra từ vùng nơi trạm đặt (Mục 4.6.1)—kết hợp với trung bình của chuỗi cực đại năm tại chính trạm SNOTEL. Các ước lượng này sau đó được dùng để neo phân bố không gian của phần dư tần suất mưa, là cơ sở của các lưới tần suất mưa (Mục 4.8), giúp tăng độ chính xác ở khu vực cao độ lớn.
Dữ liệu Mexico. Dữ liệu Mexico được đưa vào để bảo đảm tính liên tục không gian dọc biên giới phía nam của vùng dự án. Chiều dài chuỗi lớn nhất của dữ liệu ngày này là 15 năm. Chuỗi cực đại năm được trích xuất với ngưỡng tối thiểu 13 năm dữ liệu để có thể bao gồm số lượng trạm hợp lý. Dữ liệu này không được dùng trực tiếp trong các tính toán L-moments cho vùng dự án. Thay vào đó, người ta tính lượng mưa năm trung bình và cực đại năm trung bình cho các thời đoạn 24 giờ đến 60 ngày, rồi dùng chúng trong nội suy không gian của các giá trị cực đại năm trung bình; không dùng để ước lượng tần suất mưa.
Thời đoạn nhiều ngày/giờ. Các cực đại cho thời đoạn > 24 giờ được tạo bằng cách cộng dồn dữ liệu ngày. Các cực đại nhiều ngày (từ 2 đến 60 ngày) được trích xuất theo quy trình lặp, trong đó các quan trắc 1 ngày được cộng dồn và so sánh với tổng của cửa sổ trước đó dịch 1 ngày. Các thời đoạn nhiều giờ (từ 2 đến 48 giờ) được tạo bằng cách cộng dồn dữ liệu giờ. (Xem Mục 4.1.3 để biết thêm chi tiết về quy trình trích xuất chuỗi cực đại năm (AMS) và chuỗi thời đoạn một phần (Partial Duration Series – PDS).)
So sánh với NOAA Atlas 2. NOAA Atlas 14 Tập 1 sử dụng tổng cộng 2.194 trạm, nhiều hơn đáng kể—tăng 76%—so với số trạm có sẵn cho NOAA Atlas 2 (khu vực Đông Nam California không thể so sánh trực tiếp). Bảng 4.1.4 so sánh số trạm được dùng trong mỗi Atlas cho 4 bang lõi: Arizona, Nevada, New Mexico và Utah. Nhiều trạm mới cũng bổ sung thông tin tại các khu vực trọng yếu nơi Atlas 2 không có dữ liệu, gồm 182 trạm SNOTEL và 63 trạm ở Mexico. Atlas 2 dùng dữ liệu đến năm 1970, còn Atlas 14 Tập 1 dùng đến năm 2000, làm tăng mạnh lượng dữ liệu. Một số trạm dùng cho Atlas 14 có thời gian quan trắc dài hơn tới 30 năm so với trong Atlas 2, cho phép loại bỏ các chuỗi ngắn hơn, ít tin cậy hơn. Atlas 2 yêu cầu tối thiểu 15 năm dữ liệu, còn Atlas 14 Tập 1 nâng lên 20 năm dữ liệu. Hình 4.1.6 cho thấy số năm dữ liệu của các trạm ngày dùng trong mỗi Atlas cho 4 bang lõi nói trên (Đông Nam California không so sánh trực tiếp).
Bảng 4.1.4. So sánh tổng số trạm ở Arizona, Nevada, New Mexico, Utah được dùng trong NOAA Atlas 2 và NOAA Atlas 14 Tập 1
(Đông Nam California không thể so sánh trực tiếp)
| Loại dữ liệu | NOAA Atlas 2 | NOAA Atlas 14 Tập 1 | Tăng | % tăng |
|---|---|---|---|---|
| Giờ (Hourly) | 180 | 225 | 45 | 25% |
| Ngày (Daily) | 563 | 835 | 272 | 48% |
| SNOTEL | 0 | 182 | 182 | — |
| Mexico | 0 | 63 | 63 | — |
| Tổng | 743 | 1305 | 562 | 76% |

4.1.2. Chuyển đổi dữ liệu
Dữ liệu ngày (Daily). Dữ liệu ngày có thời điểm quan trắc khác nhau. Lượng mưa cực đại 24 giờ hiếm khi trọn vẹn nằm trong một chu kỳ quan trắc ngày. Để làm cho dữ liệu ngày và giờ có thể so sánh được, cần chuyển đổi từ ngày quan trắc sang 24 giờ. Cả NOAA Atlas 2 và Technical Paper 40 (Hershfield, 1961) đều dùng hệ số thực nghiệm 1.13 để quy đổi dữ liệu ngày sang 24 giờ.
Trong dự án này, hệ số chuyển đổi được tính từ tỷ số các phân vị 2 năm rút ra từ chuỗi cực đại năm (AMS) tại 32 trạm có đồng thời dữ liệu giờ và ngày trong khu vực dự án (lưu ý: tối thiểu 10 trạm là trạm cấp 1). Chuỗi thời gian đồng kỳ được tạo cho các giá trị mưa 24 giờ bằng cách cộng dồn quan trắc giờ và dùng các quan trắc mưa ngày đồng vị trí. Mỗi chuỗi được phân tích riêng bằng L-moments. Sau đó tính và lấy trung bình tỷ số phân vị 2 năm của 24 giờ so với 1 ngày. Hệ số thu được phù hợp với kết quả hồi quy giữa cực đại năm ngày–giờ xảy ra cùng ngày (hồi quy không dùng trực tiếp vì thiếu số liệu để cho kết quả tin cậy). Hệ số được dùng trong dự án là 1.14, rất gần với hệ số của NOAA Atlas 2 và Technical Paper 40 (xem Bảng 4.1.5). Tương tự, dự án cũng xác định hệ số quy đổi 2 ngày → 48 giờ là 1.03 cho NOAA Atlas 14 Tập 1 (hệ số này chưa được tính trong các nghiên cứu trước). Tất cả dữ liệu 1 ngày và 2 ngày, bao gồm cả SNOTEL, đều được quy đổi về 24 giờ và 48 giờ unconstrained tương ứng.
Dữ liệu giờ (Hourly). Để so sánh giữa dữ liệu giờ đồng hồ constrained và 60 phút unconstrained, cũng như giữa 2 giờ và 120 phút, cần có chuyển đổi. Hệ số được tính từ tỷ số phân vị 2 năm của chuỗi cực đại năm tại 12 trạm có đồng vị trí trạm giờ và trạm n-phút trong khu vực dự án. Chuỗi đồng kỳ được tạo cho các giá trị mưa 60 phút bằng cách cộng dồn quan trắc n-phút và dùng thêm quan trắc mưa giờ đồng vị trí. Mỗi chuỗi được phân tích riêng bằng L-moments. Sau đó tính và lấy trung bình tỷ số phân vị 2 năm của 60 phút so với 1 giờ. Kết quả cho hệ số 1 giờ → 60 phút là 1.12 và 2 giờ → 120 phút là 1.03. Các giá trị này phù hợp với NOAA Atlas 2 và Technical Paper 40, trong đó dùng 1.13 cho chuyển đổi 1 giờ → 60 phút (các nghiên cứu đó không cung cấp chuyển đổi 2 giờ → 120 phút) (xem Bảng 4.1.5).
Bảng 4.1.5. Hệ số chuyển đổi từ thời đoạn quan trắc cố định (theo lịch) sang thời đoạn không ràng buộc (trượt).
| Dự án | 1-ngày → 24-giờ | 2-ngày → 48-giờ | 1-giờ → 60-phút | 2-giờ → 120-phút |
|---|---|---|---|---|
| NOAA Atlas 14, Tập 1 (vùng bán khô hạn Tây Nam Hoa Kỳ) | 1.14 | 1.03 | 1.12 | 1.03 |
| NOAA Atlas 2 (Miller et al., 1973) | 1.13 | N/A | 1.13 | N/A |
| Technical Paper 40 | 1.13 | N/A | 1.13 | N/A |
Ghi chú: thời đoạn cố định = 1 ngày lịch/giờ đồng hồ; không ràng buộc (trượt) = bất kỳ 24 giờ hoặc 60 phút liên tiếp
4.1.3. Trích xuất chuỗi
Hai phương pháp được dùng để trích xuất các chuỗi số liệu tại một trạm phục vụ phân tích tần suất mưa: Chuỗi cực đại năm (Annual Maximum Series, AMS) và Chuỗi thời đoạn (Partial Duration Series, PDS).
Phương pháp AMS chọn một giá trị lớn nhất xảy ra trong mỗi năm dương lịch của giai đoạn có số liệu. Nếu trong một năm có một trận rất lớn nhưng không phải lớn nhất của năm đó thì không được đưa vào chuỗi.
Phương pháp PDS thừa nhận rằng trong một năm dương lịch có thể có hơn một trận lớn. Đối với Atlas này, chọn N trường hợp lớn nhất trong toàn bộ giai đoạn có số liệu, trong đó N bằng số năm dữ liệu được sử dụng, để tạo thành chuỗi PDS. Có thể chọn nhiều hơn một trường hợp trong cùng một năm, và một trường hợp không phải lớn nhất của năm vẫn có thể xuất hiện trong chuỗi. Chuỗi kiểu này còn gọi là chuỗi vượt hàng năm (Annual Exceedance Series, AES) (Chow và cs., 1988).
Sự khác nhau về ý nghĩa kết quả phân tích khi dùng hai loại chuỗi này đã được bàn trong Mục 3.2. Các hệ số chuyển đổi thực nghiệm trung bình cũng được phát triển để suy ra kết quả dựa trên PDS từ kết quả dựa trên AMS (xem Mục 4.6.4). Các chuỗi dữ liệu dùng trong phân tích (kèm tài liệu) được cung cấp qua Precipitation Frequency Data Server (PFDS).
Quy trình trích xuất các giá trị cực đại từ bộ dữ liệu sử dụng các tiêu chí cụ thể; các tiêu chí này bảo đảm mỗi năm đều có đủ số liệu, đặc biệt là trong “mùa mưa” đã ấn định, để rút ra các giá trị có ý nghĩa thống kê. “Mùa mưa” cho từng vị trí được xác định là những tháng mà các trường hợp cực đoan nhiều khả năng xảy ra nhất, và được gán bằng cách đánh giá biểu đồ tần suất (histogram) của lượng mưa cực đại năm cho từng vùng đồng nhất (Bảng 4.1.5 và 4.1.6). Việc xây dựng và kiểm chứng các vùng đồng nhất được trình bày trong Mục 4.4 và minh họa ở Hình 4.4.1 và 4.4.2.
Tiêu chí cho chuỗi cực đại năm theo thời đoạn giờ.
Với mọi thời đoạn tính theo giờ (từ 1 giờ đến 48 giờ), trong mỗi năm lấy giá trị lớn nhất làm cực đại năm cho năm đó. Các trường hợp vượt qua mốc 1/1 được quy về ngày mà lượng mưa giờ lớn nhất xảy ra trong thời đoạn tương ứng.
Một tháng bị coi là không hợp lệ và cực đại tháng được gán thiếu số liệu nếu xảy ra bất kỳ điều kiện nào dưới đây:
+ Số giờ dữ liệu sẵn có trong tháng < số giờ của thời đoạn.
+ Thiếu ≥ 240 giờ trong tháng và cực đại tháng ≤ 0.01 inch.
+ Thiếu ≥ 360 giờ trong tháng và cực đại tháng < 33% lượng mưa trung bình tháng tại trạm.
+ Thiếu ≥ 50% số giờ (đối với thời đoạn đang xét).
Ngoài ra, nếu hơn 50% số tháng trong “mùa mưa” của một vùng bị thiếu số liệu, thì cực đại năm của năm đó được gán thiếu số liệu.
Bảng 4.1.5. Các tháng “mùa mưa” cho các vùng dữ liệu ngày của NOAA Atlas 14 – Tập 1
(Tháng được ký hiệu bằng số: 1=Jan, …, 12=Dec.)
| Vùng | Bắt đầu | Kết thúc | Vùng | Bắt đầu | Kết thúc | Vùng | Bắt đầu | Kết thúc | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 10 | 6 | 22 | 3 | 11 | 44 | 7 | 12 | ||
| 2 | 10 | 6 | 23 | 7 | 3 | 45 | 6 | 10 | ||
| 3 | 10 | 6 | 24 | 7 | 11 | 46 | 5 | 10 | ||
| 4 | 4 | 10 | 25 | 7 | 11 | 47 | 5 | 10 | ||
| 5 | 9 | 6 | 26 | 7 | 11 | 48 | 5 | 10 | ||
| 6 | 4 | 10 | 27 | 11 | 3 | 49 | 5 | 10 | ||
| 7 | 4 | 10 | 28 | 11 | 3 | 50 | 5 | 10 | ||
| 8 | 10 | 3 | 29 | 11 | 3 | 51 | 7 | 12 | ||
| 9 | 10 | 3 | 30 | 11 | 3 | 52 | 7 | 12 | ||
| 10 | 10 | 6 | 31 | 11 | 3 | 53 | 7 | 12 | ||
| 11 | 8 | 6 | 32 | 11 | 3 | 54 | 7 | 12 | ||
| 12 | 3 | 11 | 33 | 7 | 3 | 55 | 6 | 10 | ||
| 13 | 3 | 11 | 34 | 7 | 3 | 56 | 5 | 10 | ||
| 14 | 8 | 6 | 35 | 7 | 3 | 57 | 6 | 10 | ||
| 15 | 4 | 10 | 36 | 7 | 3 | 58 | 11 | 3 | ||
| 16 | 11 | 3 | 37 | 7 | 12 | 59 | 6 | 10 | ||
| 17 | 11 | 3 | 38 | 7 | 12 | A1 | 7 | 12 | ||
| 18 | 11 | 3 | 39 | 5 | 10 | A2 | 7 | 12 | ||
| 19 | 7 | 3 | 40 | 7 | 3 | A3 | 6 | 10 | ||
| 20 | 7 | 3 | 41 | 7 | 3 | A4 | 6 | 10 | ||
| 21 | 7 | 3 | 42 | 7 | 3 | A5 | 7 | 11 | ||
| 43 | 7 | 3 | A6 | 10 | 6 |
Bảng 4.1.6. Các tháng “mùa mưa” cho các vùng dữ liệu giờ của NOAA Atlas 14 – Tập 1
(Tháng ký hiệu số: 1=Jan, …, 12=Dec.)
| Vùng | Bắt đầu | Kết thúc | Vùng | Bắt đầu | Kết thúc | |
|---|---|---|---|---|---|---|
| 1 | 10 | 6 | 12 | 7 | 12 | |
| 2 | 4 | 10 | 13 | 6 | 10 | |
| 3 | 10 | 6 | 14 | 5 | 10 | |
| 4 | 8 | 6 | 15 | 11 | 3 | |
| 5 | 10 | 6 | 16 | 10 | 3 | |
| 6 | 7 | 11 | 17 | 9 | 6 | |
| 7 | 7 | 12 | 18 | 10 | 6 | |
| 8 | 7 | 12 | 19 | 4 | 10 | |
| 9 | 5 | 10 | 20 | 11 | 3 | |
| 10E | 7 | 3 | 21 | 3 | 11 | |
| 10W | 7 | 3 | 22 | 11 | 3 | |
| 11 | 7 | 3 | 23 | 8 | 6 | |
| 24 | 11 | 3 |
Tiêu chí cho chuỗi cực đại năm theo thời đoạn ngày (daily annual maximum series).
Một cực đại năm được trích cho các thời đoạn ngày (từ 1-day đến 60-day) nếu có ≥50% số tháng trong “mùa mưa” đã ấn định và có ≥50% dữ liệu của thời đoạn tích lũy đó. Trong mỗi năm, giá trị lớn nhất được lấy làm cực đại năm. Các trường hợp vượt qua ngày 1 tháng 1 được gán cho ngày mà lượng mưa ngày lớn nhất xảy ra trong thời đoạn tương ứng.
Ngoài ra, áp dụng các tiêu chí sau:
* 1-day
Một tháng bị coi là thiếu số liệu (set to missing) nếu:
+ Mất toàn bộ ngày trong tháng; hoặc
+ Thiếu >10 ngày và cực đại tháng = 0.00 inch; hoặc
+ Thiếu >15 ngày và cực đại tháng < 30% của trung bình cực đại 1-day của tháng đó trong toàn bộ giai đoạn số liệu tại trạm.
* 2-day
Tháng bị thiếu số liệu nếu:
+ Chỉ có 1 ngày dữ liệu trong tháng, còn lại thiếu; hoặc
+ Thiếu >10 ngày và cực đại tháng = 0.00 inch; hoặc
+ Thiếu >15 ngày và cực đại tháng < 30% của trung bình cực đại 2-day của tháng đó trong toàn bộ giai đoạn số liệu tại trạm.
* 4-day
Năm bị thiếu số liệu nếu:
+ Thiếu >96% số ngày trong năm; hoặc
+ Thiếu 50% số ngày và cực đại năm ≤ 0.3 inch.
* 7-day
Năm bị thiếu số liệu nếu:
+ Thiếu >93% số ngày; hoặc
+ Thiếu 50% số ngày và cực đại năm ≤ 0.3 inch.
* 10-day
Năm bị thiếu số liệu nếu:
+ Thiếu >93% số ngày; hoặc
+ Thiếu 50% số ngày và cực đại năm ≤ 0.35 inch.
* 20-day
Năm bị thiếu số liệu nếu:
+ Thiếu >88% số ngày; hoặc
+ Thiếu 50% số ngày và cực đại năm ≤ 0.35 inch.
* 30-day
Năm bị thiếu số liệu nếu:
+ Thiếu >82% số ngày; hoặc
+ Thiếu 50% số ngày và cực đại năm ≤ 0.45 inch.
* 45-day
Năm bị thiếu số liệu nếu:
+ Thiếu >73% số ngày; hoặc
+ Thiếu 50% số ngày và cực đại năm ≤ 0.45 inch.
* 60-day
Năm bị thiếu số liệu nếu:
+ Thiếu >64% số ngày; hoặc
+ Thiếu 50% số ngày và cực đại năm ≤ 0.45 inch.
Tiêu chí cho chuỗi thời đoạn (Partial Duration Series – PDS).
Các tiêu chí nêu ở trên cũng dùng để quyết định một tháng hoặc một năm có đủ dữ liệu để được đưa vào quy trình trích xuất PDS hay không. Các trường hợp vượt qua mốc 1 tháng 1 được gán cho ngày mà lượng mưa lớn nhất xảy ra trong thời đoạn tương ứng.
Các tổng lượng mưa tích lũy cho từng thời đoạn được trích xuất rồi sắp xếp giảm dần. Giữ lại N giá trị lớn nhất cho mỗi thời đoạn, trong đó N là số năm dữ liệu thực tế tại mỗi trạm.
4.2. Cách tiếp cận vùng dựa trên L-moments
4.2.1. Khái quát
Hosking và Wallis (1997) mô tả phân tích tần suất theo vùng sử dụng phương pháp L-moments. Cách tiếp cận này bắt nguồn từ các nghiên cứu đầu thập niên 1970, được triển khai rộng vào thập niên 1990 và nay được xem là chuẩn thực hành. National Weather Service (NWS) dùng Hosking & Wallis (1997) làm tài liệu tham chiếu chính cho phương pháp thống kê của Atlas này.
Phương pháp L-moments (hay các tổ hợp tuyến tính của moment có trọng số theo xác suất) rất hữu ích để chọn phân phối xác suất thích hợp nhất mô tả các ước lượng tần suất mưa. Phương pháp cung cấp công cụ để ước tính dáng/độ nghiêng hình dạng của phân phối và sự bất định của các ước lượng, đồng thời có công cụ đánh giá dữ liệu có khả năng thuộc cùng một vùng đồng nhất (ví dụ: cùng chế độ khí hậu) hay không.
Cách tiếp cận vùng sử dụng dữ liệu từ nhiều trạm trong một vùng để ước tính đường cong phân phối tần suất cho tổng thể cơ sở tại mỗi trạm. Giả định cốt lõi là các phân phối tần suất của nhiều trạm trong một vùng đồng nhất là giống nhau, chỉ khác bởi hệ số tỉ lệ đặc thù vị trí. Nhờ giả định này, các tham số hình dạng có thể được ước tính từ tổ hợp dữ liệu của toàn bộ các trạm trong vùng (thay vì từng trạm riêng lẻ), qua đó tăng mạnh lượng thông tin dùng cho ước lượng và nâng độ chính xác. Trong phân tích, dùng trung bình có trọng số với trọng số tỷ lệ với số năm dữ liệu của từng trạm trong vùng.
Phân tích tần suất theo vùng bằng L-moments hỗ trợ chọn phân phối và hình dạng phân phối phù hợp; còn các ước lượng tần suất mưa (phân vị) vẫn được tính riêng cho từng trạm bằng một hệ số tỉ lệ—trong dự án này là giá trị trung bình của chuỗi cực đại năm tại mỗi trạm. Các phân vị thu được đáng tin cậy hơn so với ước lượng chỉ dựa trên phân tích đơn trạm (Hosking & Wallis, 1997).
4.2.2. Mô tả L-moments
Phân tích tần suất theo vùng sử dụng L-moments cung cấp các công cụ để: kiểm tra chất lượng bộ dữ liệu, kiểm định giả thiết đồng nhất theo vùng, chọn phân phối tần suất, ước tính tần suất mưa, và ước tính giới hạn tin cậy cho Atlas này. Chi tiết và công thức xem các tài liệu khác (Hosking & Wallis, 1997; Lin và cs., 2004). Dưới đây là mô tả ngắn gọn.
Về bản chất, phân tích tần suất mưa dùng mẫu dữ liệu hữu hạn để suy ra đặc trưng của tổng thể bằng cách chọn và tham số hóa một phân phối xác suất. Mỗi phân phối được đặc trưng bởi một số hữu hạn tham số. Trong các ấn phẩm NWS trước đây như NOAA Atlas 2, các tham số của phân phối thường được ước tính bằng moment tích (product moments) hay phương pháp moment thông thường (CMM). Tuy nhiên, các moment mẫu theo CMM có một số nhược điểm: các moment bậc cao (bậc 3 gắn với độ lệch và bậc 4 gắn với độ nhọn (kurtosis)) có thể lệch đáng kể khi độ dài chuỗi nhỏ; chúng cũng rất nhạy/không ổn định trước giá trị ngoại lai trong dữ liệu (Hosking & Wallis, 1997; Lin và cs., 2004).
L-moments là kỳ vọng của những tổ hợp tuyến tính của thống kê thứ tự (Hosking, 1989). Vì được biểu diễn như hàm tuyến tính của dữ liệu, L-moments ít bị ảnh hưởng bởi biến thiên lấy mẫu, đặc biệt ít nhạy với ngoại lai hơn so với CMM (Hosking & Wallis, 1997). Khi áp dụng theo vùng, L-moments còn tăng độ vững của ước lượng bằng cách suy ra các tham số hình dạng từ tất cả các trạm trong một vùng đồng nhất, thay vì từng trạm riêng lẻ.
Các phân phối xác suất có thể được mô tả bằng hệ số biến thiên L (coefficient of L-variation), độ lệch L (L-skewness) và độ nhọn L (L-kurtosis), là các đại lượng tương tự với những đại lượng trong phương pháp moment thông thường (CMM). Hệ số biến thiên L đo mức độ phân tán; độ lệch L đo mức độ bất đối xứng; độ nhọn L đo mức độ nhọn của phân phối. Các tỷ số L-moment này được chuẩn hóa theo thang đo, nhờ đó có thể ước tính các tham số hình dạng của phân phối không phụ thuộc thang đo. Các ước lượng không chệch của L-moments được xây dựng như mô tả trong Hosking & Wallis (1997).
Vì các tham số phân phối tần suất không phụ thuộc thang đo được ước tính từ nhóm dữ liệu đã quy vùng, kết quả là một phân phối tần suất không thứ nguyên dùng chung cho N trạm trong vùng. Khi áp dụng hệ số tỉ lệ đặc thù vị trí (giá trị trung bình) vào phân phối không thứ nguyên này (hệ số tăng trưởng vùng; xem Mục 4.6.1), ta tính được các phân vị theo từng trạm cho mỗi mức tần suất và thời đoạn.
Phân tích tần suất theo vùng bằng L-moments cũng cung cấp công cụ để xác định dữ liệu có khả năng thuộc cùng các vùng đồng nhất hay không (ví dụ: cùng chế độ khí hậu) và để phát hiện các vấn đề chất lượng dữ liệu. Một thước đo không đồng nhất trong vùng, ký hiệu H1, sử dụng hệ số biến thiên L để kiểm tra mức chênh lệch giữa các trạm của các L-moments mẫu trong một nhóm trạm so với mức chênh lệch kỳ vọng đối với một vùng đồng nhất (Hosking & Wallis, 1997) (xem Mục 4.4). Ngoài ra, thước đo “lệch nhóm” (discordancy measure) được dùng để xác định dữ liệu của một trạm có nhất quán với tập trạm trong vùng hay không, dựa trên L-CV, L-skewness và L-kurtosis (Mục 4.3).
4.3. Chuẩn bị bộ dữ liệu
Kiểm soát chất lượng nghiêm ngặt là phần quan trọng trong chuẩn bị dữ liệu. Các phương pháp dùng trong dự án để bảo đảm chất lượng dữ liệu gồm: kiểm tra giá trị cực trị vượt ngưỡng, các phép kiểm định “lệch nhóm” L-moments (discordancy), và kiểm tra dữ liệu thực (RDC) của các phân vị, cùng những phân tích khác. Ngoài ra còn có: phân tích xu thế của chuỗi cực đại năm, nghiên cứu tương quan chéo giữa các trạm, và kiểm tra các chuỗi có khoảng trống lớn—tất cả đều giúp gia tăng bảo đảm chất lượng. Một khía cạnh hữu ích của quy trình phân tích (kể cả nội suy không gian) là trong suốt quá trình luôn có kết quả trung gian và các chỉ số cho phép đánh giá bổ sung chất lượng dữ liệu. Ở mỗi bước, các chỉ số này cho biết dữ liệu có phù hợp với giả định thủ tục hay không; những dấu hiệu không phù hợp được dùng làm cờ cảnh báo chất lượng.
Phương pháp kiểm soát chất lượng và lắp ráp dữ liệu.
Kiểm soát chất lượng ban đầu gồm: kiểm tra các giá trị cực trị vượt ngưỡng, gộp những trạm lân cận phù hợp, và kiểm tra khoảng trống lớn trong chuỗi. Các quan trắc sai/không hợp lệ được loại khỏi các bộ dữ liệu ngày, giờ, và n-phút thông qua bước kiểm tra cực trị vượt ngưỡng. Các ngưỡng được thiết lập cho 1-giờ và 24-giờ dựa trên yếu tố khí hậu và các ước lượng tần suất mưa trước đây trong vùng. Những quan trắc vượt ngưỡng được đối chiếu với trạm lân cận, sổ gốc và các bản tin khí hậu khác.
Các trạm ngày trong khu vực dự án nằm trong phạm vi ≤5 dặm theo phương ngang và ≤300 ft chênh cao, có chuỗi không trùng thời gian, được cân nhắc gộp để tăng chiều dài chuỗi và giảm chồng lấn không gian. Chuỗi cực đại năm 24-giờ của các trạm ứng viên được kiểm định t (mức tin cậy 90%) nhằm bảo đảm các mẫu cùng một tổng thể, đủ điều kiện để gộp. Trong dự án này, các trạm giờ không đáp ứng các tiêu chí đó nên không được gộp.
Lệch nhóm (Discordancy).
Thước đo lệch nhóm theo L-moments (Hosking & Wallis, 1997) được dùng để kiểm soát chất lượng dữ liệu. Khi đánh giá các vùng, thước đo này cũng được dùng để xác định liệu một trạm có bị gán sai vùng hay không. Thước đo dựa trên hệ số biến thiên L (L-CV), độ lệch L (L-skewness) và độ nhọn L (L-kurtosis), tức là mỗi trạm được biểu diễn như một điểm trong không gian 3 chiều bởi ba đại lượng đó.
Lệch nhóm đo khoảng cách của từng điểm tới tâm cụm của tập các điểm (tất cả trạm trong một vùng). Tâm cụm được định nghĩa là trung bình không trọng số của ba L-moment của các trạm trong vùng đang kiểm tra. Những trạm có giá trị lệch nhóm ≥ 3.0 được xem xét kỹ để phát hiện dữ liệu đáng ngờ/bất thường, hoặc cân nhắc chuyển sang vùng khác hay xem như phân tích đơn trạm (at-site) (xem Mục 4.4). Một số trạm ghi nhận một sự kiện rất lớn đơn lẻ hoặc chuỗi dữ liệu ngắn có thể cho thấy lệch nhóm, nhưng vẫn được chấp nhận trong vùng đồng nhất nếu không có lý do khí hậu hay vật lý để loại bỏ.
Việc kiểm tra lệch nhóm được thực hiện cho các trạm ở các thời đoạn n-phút, 1-giờ, 24-giờ và một số thời đoạn dài hơn (thường là 10-ngày). Phụ lục A.7 (danh sách các trạm dùng trong dự án) cũng cung cấp các thống kê L và giá trị lệch nhóm cho dữ liệu 24-giờ hoặc 60-phút của từng trạm trong vùng tương ứng.
Sàng lọc chuỗi cực đại năm.
Dữ liệu chuỗi cực đại năm 1-ngày (AMS) được kiểm tra kỹ lưỡng. Ví dụ, các khoảng trống lớn (nhiều năm liên tiếp thiếu) trong chuỗi AMS của các trạm được rà soát vì không thể bảo đảm hai đoạn chuỗi đó thuộc cùng một tổng thể (cùng chế độ khí hậu, cùng loại đồng hồ mưa, cùng môi trường vật lý). Quy trình sàng lọc nhằm đảm bảo tính nhất quán của chuỗi trước khi sử dụng. Các trạm có khoảng trống lớn được gắn cờ và xem xét từng trường hợp; các trạm lân cận được kiểm tra để tìm các năm trùng thời gian nhằm bù khoảng trống nếu vượt qua phép thử thống kê về tính nhất quán. Nếu mỗi đoạn có ít nhất 10 năm dữ liệu, tiến hành kiểm định t (mức tin cậy 90%) để đánh giá tính toàn vẹn thống kê của chuỗi. Khi cần tạo các chuỗi hài hòa hơn cho phân tích, chiều dài chuỗi của trạm được điều chỉnh phù hợp.
Dữ liệu AMS 1-ngày cũng được kiểm tra xu thế tuyến tính của trung bình, xu thế tuyến tính của phương sai và sự dịch chuyển trung bình. Nhìn chung, dữ liệu không cho thấy xu thế hay dịch chuyển đáng kể về mặt thống kê. (Xem Phụ lục A.3 để biết thêm chi tiết.)
Cuối cùng, dữ liệu AMS 1-ngày được khảo sát tương quan chéo giữa các trạm để đánh giá mức phụ thuộc liên trạm, vì trong phân tích tần suất mưa thường giả định các sự kiện độc lập. Các trường hợp mà cực đại năm trùng nhau (±1 ngày) giữa các trạm cách ≤50 dặm và có >20 năm dữ liệu được phân tích bằng kiểm định t đối với hệ số tương quan có ý nghĩa ở mức tin cậy 90%. Kết quả cho thấy mức tương quan chéo rất thấp trong vùng dự án: chỉ 7% dữ liệu trên toàn vùng có tương quan mạnh (hệ số ≥ 0.7 ở mức tin cậy 90%). Ảnh hưởng của tương quan chéo lên các phân vị ngày là rất nhỏ. Sai số tương đối được tính tại 8 vùng nơi tỷ lệ trạm có tương quan chéo > 20%, bằng cách so sánh với kết quả phân tích chỉ dùng các trạm không có tương quan chéo. Sai số tương đối trung bình của ước lượng phân vị chỉ 1,6% (chu kỳ 100 năm) và 3,7% (chu kỳ 1.000 năm). Do phân vị cuối cùng hầu như không bị ảnh hưởng, kết luận là không cần áp dụng thêm biện pháp nào để xử lý cấu trúc phụ thuộc trong dữ liệu.
4.4. Phát triển và kiểm chứng các vùng đồng nhất
Giả định nền tảng của cách tiếp cận theo vùng là có thể nhóm các trạm thành các tập hay “vùng” mà trong đó các trạm có thống kê phân phối tần suất tương tự nhau, chỉ khác nhau bởi một hệ số tỉ lệ riêng theo vị trí. Những vùng thỏa giả định này được gọi là “đồng nhất”. Mấu chốt của cách tiếp cận theo vùng là xây dựng một tập các vùng đồng nhất cho toàn bộ khu vực dự án. Hosking và Wallis (1997) lập luận rằng các vùng đồng nhất nên được nhận diện dựa trên những yếu tố khác với các thống kê được dùng để kiểm định giả thiết đồng nhất.
Trong dự án này, các vùng trước hết được phân định (mang tính định tính/chủ quan) dựa trên: khí hậu, mùa (các mùa) có lượng mưa lớn nhất, loại hình mưa (ví dụ: mưa bão diện rộng, đối lưu, bão nhiệt đới/hurricane, hoặc kết hợp), địa hình, và mức độ đồng nhất của các đặc trưng nói trên trong một khu vực địa lý nhất định.
Các vùng sau đó được kiểm tra bằng các phép kiểm định đồng nhất thống kê và những kiểm tra khác. Theo gợi ý của Hosking & Wallis (1997), đã có các điều chỉnh vùng—như chuyển trạm sang vùng khác hoặc chia nhỏ vùng—nhằm giảm mức không đồng nhất. Thước đo không đồng nhất H1 kiểm tra mức biến thiên giữa các trạm của các L-moments mẫu so với mức kỳ vọng của một vùng đồng nhất, dựa trên hệ số biến thiên L (L-CV) (Hosking & Wallis, 1997). Các nghiên cứu trước (Hosking & Wallis, 1997; cũng như trao đổi với Hosking tại NWS, 2001) cho thấy ngưỡng H1 = 2 là thận trọng và hợp lý. Vì vậy, H1 > 2 được xem là không đồng nhất, còn H1 < 2 là đồng nhất.
Các vùng theo thời đoạn ngày (từ 24 giờ đến 60 ngày, Hình 4.4.1) được xây dựng dựa trên kết quả 24 giờ. Với các thời đoạn dài (48–60 ngày) nơi H1 > 2, đã kiểm tra kỹ chất lượng dữ liệu. Phần lớn các trường hợp, một hoặc vài trạm đẩy H1 lên cao do đặc điểm lấy mẫu. Khi loại bỏ trạm gây vấn đề, H1 giảm đáng kể và ước lượng tần suất mưa 100 năm cùng hệ số tăng trưởng vùng (RGF) thay đổi ≤ 5%. Sau khi xác định và kiểm tra, giá trị H1 cao ở các vùng này đôi khi vẫn được chấp nhận mà không chỉnh sửa vùng.
Các vùng theo thời đoạn giờ (Hình 4.4.2) được xây dựng dựa trên dữ liệu 60 phút. Với các thời đoạn ngắn khác (2–24 giờ) có H1 > 2, cũng kiểm tra kỹ chất lượng dữ liệu. Do mật độ trạm và bản chất mưa ở vùng bán khô hạn Tây Nam, đặc biệt khó áp dụng một cách cứng nhắc ngưỡng H1 = 2 (được đề xuất như một hướng dẫn thận trọng) cho dữ liệu giờ. Trong mỗi trường hợp H1 > 2, sau khi xác nhận chất lượng dữ liệu, đã thử loại 1–3 trạm: mỗi lần loại bỏ như vậy đều làm H1 giảm đáng kể, còn ước lượng tần suất 100 năm và RGF thay đổi ≤ 5%. Xét đến vị trí địa lý và tính hợp lệ của dữ liệu, các trạm bị nghi ngờ thường vẫn được giữ lại trong vùng, và vùng được chấp nhận như hiện trạng, dù H1 cao.
Về lý tưởng, chỉ dùng L-CV là đủ để đánh giá đồng nhất vùng. Tuy nhiên, trong thực tế, NWS nhận thấy chỉ dùng H1 không tối ưu cho việc xác định vùng đồng nhất. Ảnh hưởng của L-skewness lên việc hình thành một vùng đồng nhất cũng được xem xét, nhất là vì L-CV và L-skewness không nhất thiết tương quan, và cần tính đến tác động ở các chu kỳ lặp trung bình dài hơn (ARI). L-skewness và L-kurtosis được xét thông qua một quy trình gọi là “kiểm tra dữ liệu thực” (real-data-check, RDC). RDC sẽ gắn cờ khi cực đại quan trắc tại một trạm vượt ước lượng theo tần suất cho trước (trong ví dụ này là chu kỳ 100 năm). Các trạm như vậy được rà soát cẩn thận về chất lượng dữ liệu và tính phù hợp để quy vùng. Thuật ngữ “real-data-check” được dùng để chỉ việc đối chiếu giữa tần suất kinh nghiệm của từng trạm và ước lượng tần suất được tính từ phân phối ghép vùng (xem Mục 4.5).
Tổng thể. Trong quá trình chia nhỏ/điều chỉnh vùng, nhóm biên soạn đã cố gắng giảm các sai khác có thể do (1) sai số lấy mẫu vì kích thước mẫu nhỏ, hoặc (2) quy vùng không phản ánh đúng điều kiện địa phương. Mục tiêu của quy trình quy vùng là thu được các phân vị tối ưu phản ánh điều kiện địa phương và giảm sai số tương đối.
Các nhóm trạm cuối cùng trong khu vực dự án được minh họa ở Hình 4.4.1 (cho các vùng dữ liệu ngày) và Hình 4.4.2 (cho các vùng dữ liệu giờ). Phụ lục A.8 liệt kê giá trị H1 và các thống kê L-moments trung bình theo vùng cho mọi vùng ở hai thời đoạn 24-giờ và 60-phút. Các thước đo không đồng nhất (H1) cho từng vùng và mọi thời đoạn được cung cấp trong Phụ lục A.9.
(Thuật ngữ “kiểm tra dữ liệu thực – real-data-check” cũng được dùng trong phép kiểm định phân phối khớp tốt nhất; xem Mục 4.5.)


At-site stations – Các phân tích đơn trạm.
Ở một số trạm ngày, thay vì phân tích theo vùng, phân tích đơn trạm (at-site) tỏ ra phù hợp hơn để ước tính phân vị tần suất mưa. (Dự án không có trạm giờ nào được xử lý theo at-site.) Chọn at-site khi:
+ Phản ánh được chế độ mưa cực đoan quan trắc mà phương pháp theo vùng không giải quyết được;
+ Có >50 năm dữ liệu, đủ để ước lượng hợp lý không phụ thuộc vào vùng;
+ Quy trình nội suy không gian có thể chấp nhận các trạm này;
+ Giảm sai số ước lượng so với khi đưa vào một vùng.
Mặc dù đôi khi có lợi, at-site chỉ được xem là giải pháp cuối cùng, vì các ước lượng tần suất mưa của chúng đôi khi gây bất thường trong nội suy không gian. Trước khi phân tích at-site, luôn cố gắng xếp trạm vào một vùng. Thực tế, trạm at-site phải thỏa ít nhất 4 tiêu chí sau:
+ Dữ liệu trạm khác thường rõ rệt, không phù hợp với các vùng kề;
+ Nếu giữ trạm trong vùng “tự nhiên” của nó thì vùng đó trở nên không đồng nhất;
+ RMSE của L-moments cho vùng giảm khi loại trạm khỏi vùng;
+ Trạm bị gắn cờ trong kiểm tra lệch nhóm hoặc “kiểm tra dữ liệu thực” (RDC);
+ Trạm có ≥50 năm dữ liệu (đa số thực tế >80 năm);
+ Không có trạm at-site này trong vùng kề không ảnh hưởng lớn đến ước lượng tần suất mưa theo vùng cuối cùng;
+ Có lý do khí hậu/địa hình địa phương thuyết phục để ủng hộ phân tích at-site.
Đồ thị tần suất kinh nghiệm được dùng để đánh giá độ phù hợp của phân phối đã chọn tại từng trạm. Với at-site, chênh lệch giữa tần suất kinh nghiệm và ước lượng lý thuyết (tức RMSE – căn trung bình bình phương sai số) nhỏ hơn nhiều so với trường hợp đưa trạm vào một vùng. Ví dụ, Hình 4.4.3 minh họa phân phối kinh nghiệm cho Bosque Del Apache, NM như một at-site.
Vì trạm at-site thường là ngoại lệ thống kê và có thể ảnh hưởng đến mẫu hình không gian, nên chúng được khảo sát kỹ. Ảnh hưởng không gian (nếu có) được giảm nhẹ bằng làm trơn không gian, giúp pha trộn ước lượng tần suất mưa at-site với các ước lượng thu được từ phương pháp theo vùng.
Đối với NOAA Atlas 14 – Tập 1, có 5 trạm ngày và một cặp trạm được phân tích at-site (Bảng 4.4.1), ký hiệu A1 đến A6. A1 và A6 nằm ngoài miền lõi, nên không được trình bày chi tiết trong tài liệu này.
Bảng 4.4.1. Các trạm được phân tích theo phương pháp at-site
| At-site | Mã trạm (Station ID) | Tên trạm (Station Name) | Số năm dữ liệu |
|---|---|---|---|
| A1 | 05-6524 | Placerville, CO | 53 |
| A2 | 29-0818 | Beaverhead, NM | 56 |
| A3 | 29-1138 | Bosque del Apache, NM | 102 |
| A4 | 29-8535 | State University, NM | 109 |
| A5 | 42-5733 | Moab Radio, UT | 108 |
| A6 | 04-2504 & 04-2506 | Doyle & Doyle 4 SSE, CA | 74 & 44 |
Ghi chú: A6 là cặp trạm (hai mã trạm) nên có hai độ dài chuỗi dữ liệu.
Thảo luận ngắn về các trạm at-site trong miền lõi
- A2. Beaverhead, NM (29-0818):
Lượng mưa quan trắc tại 29-0818 không nhất quán với khu vực lân cận. H1 của Vùng 44 khi loại 29-0818 là −0.06, nhưng khi gồm trạm này thì tệ hơn (1.73). Ước lượng tần suất mưa của Vùng 44 hầu như không đổi dù có hay không có 29-0818. So sánh tần suất kinh nghiệm với ước lượng lý thuyết cho thấy phân tích at-site giảm RMSE. Mẫu hình không gian kết quả khi dùng at-site cũng phù hợp với khu vực xung quanh vị trí này. - A3. Bosque Del Apache, NM (29-1138):
Trạm at-site này được phân tích kỹ nhất trong dự án. Nhiều lần thử đưa vào các vùng lân cận (kể cả Vùng 59) đều không đạt. Bằng chứng khí hậu cho thấy khu vực quanh Bosque Del Apache dễ xảy ra cực đoan, và chính nơi đây là tâm điểm rủi ro. Để giảm hiện tượng “mắt bò” không gian do các ước lượng tần suất 24-giờ và dài hơn rất cao tại trạm này, Vùng 59 được lập từ các trạm xung quanh Bosque Del Apache. Cả at-site và Vùng 59 đều chịu ảnh hưởng của hai nguồn ẩm (phù hợp Hình 7 của NOAA Atlas 2 và phân tích bản đồ synoptic khi có cực đoan): dòng gió mùa từ phía nam và ẩm vịnh Mexico từ đông nam. Phần lớn Vùng 59 và Bosque Del Apache nằm trong Jornada Del Muerto (NM)—một bồn trũng phẳng, rộng giữa hai dãy núi hướng ĐB–TN. Địa hình hướng ẩm vào khu vực từ nam/đông nam, kèm nâng cưỡng bức địa hình, tạo mưa cực đoan rồi bị chắn bởi địa hình cao hơn về phía bắc. Dù nguồn ẩm nào, các cực đoan chủ yếu gắn với dông cục bộ. Khí hậu và địa hình đặc thù này biện minh cho Vùng 59 và xử lý at-site cho Bosque Del Apache. So sánh tần suất kinh nghiệm với ước lượng lý thuyết cho thấy at-site giảm RMSE. Hình 4.4.3 cho thấy phân phối kinh nghiệm tại Bosque Del Apache, NM. - A4. State University, NM (29-8535):
Với 109 năm dữ liệu và đặc trưng mưa khác biệt, trạm này được xử lý at-site. Ưu điểm là phản ánh mẫu hình cực đoan riêng khác với vùng xung quanh. Làm trơn không gian giúp pha trộn ước lượng tần suất mưa at-site với ước lượng theo vùng; nói cách khác, kết quả phù hợp với bối cảnh chung. - A5. Moab Radio, UT (42-5733):
Moab, UT nằm trong thung lũng cô lập ở cao độ khoảng 4000 ft; một số núi xung quanh ở phía đông/đông nam cao >12.000 ft. Vị trí được che chắn này có thể tạo cực đoan mưa riêng dưới một số mẫu hình synoptic khác với vùng lân cận. Gia nhiệt khác biệt sườn núi gây đối lưu mạnh cục bộ, các hiệu ứng địa hình khác, và dòng ẩm gió mùa vào thung lũng Moab đều có thể làm tăng xác suất mưa cực đoan. Thực tế, Moab đã ghi nhận ít nhất 3 đợt cực đoan cục bộ gây biến thiên lớn trong dữ liệu tại đây. Khí hậu và địa hình đặc thù biện minh việc tính tần suất mưa at-site cho trạm này.

Vì các trạm at-site phản ánh các chế độ mưa cực đoan cục bộ ở 24 giờ hoặc dài hơn, nên đôi khi ước lượng tần suất mưa của chúng không khớp với các ước lượng theo giờ nội suy không gian. Nói cách khác, các ước lượng theo giờ nội suy thấp hơn các ước lượng at-site (cao hơn), gây ra hiện tượng “nhảy bậc” từ 12 giờ lên 24 giờ. Để bảo đảm tính nhất quán theo thời đoạn, đã tạo dữ liệu giả theo giờ (hourly pseudo data) (xem Mục 4.8.3) cho Bosque Del Apache, NM; Moab Radio, UT; và Doyle 4 SSE, CA.
4.5. Lựa chọn phân phối tần suất
Giả định rằng các trạm trong cùng một vùng có cùng dạng (shape) nhưng khác thang (scale) của đường cong phân phối tần suất mưa. Không giả định rằng dạng phân phối hay chính phân phối là giống nhau giữa các vùng. Nói cách khác, mỗi vùng được chọn một phân phối xác suất và ước lượng tham số riêng. Trong giai đoạn thử nhạy, phân phối đã chọn và các tham số của chúng được kiểm tra để bảo đảm biến thiên hợp lý trên toàn miền dự án. Mục tiêu là chọn phân phối mô tả tốt nhất tần suất mưa nền; mục tiêu này không nhất thiết đồng nghĩa “khớp tốt nhất” với mẫu dữ liệu.
Vì các phân phối 3 tham số thường ổn định và linh hoạt, nên chúng được ưu tiên làm ứng viên: Generalized Logistic (GLO), Generalized Extreme Value (GEV), Generalized Normal (GNO), Generalized Pareto (GPA) và Pearson loại III (PE3). Phân phối Wakeby (5 tham số) chỉ được cân nhắc nếu tất cả các phân phối 3 tham số không phù hợp cho một vùng—điều này không xảy ra trong dự án. Ba thước đo mức độ khớp được dùng để chọn phân phối thích hợp nhất cho từng vùng: kiểm định mô phỏng Monte Carlo, kiểm tra “dữ liệu thực” (real-data-check), và RMSE của các L-moments mẫu.
Kiểm định mô phỏng Monte Carlo.
Tạo 1.000 bộ dữ liệu tổng hợp có cùng chiều dài chuỗi và cùng L-moments mẫu tại từng trạm trong vùng. Thử nghiệm cho thấy 1.000 lần mô phỏng là đủ (giá trị trung bình hội tụ). Với mỗi mô phỏng, tính trung bình theo vùng của L-skewness và L-kurtosis (có trọng số theo số năm dữ liệu của trạm). Sau đó, tính trung bình qua toàn bộ 1.000 mô phỏng và đặt điểm này trên đồ thị L-skewness vs L-kurtosis để so sánh với các phân phối lý thuyết ứng viên (Hình 4.5.1). Giả sử phân phối có L-skewness bằng L-skewness trung bình theo vùng, mức khớp được đánh giá bằng độ lệch giữa điểm trung bình mô phỏng và đường cong lý thuyết theo chiều L-skewness. Để xét biến thiên do lấy mẫu, chuẩn hóa độ lệch này (ký hiệu GZ) bằng cách giả định Z chuẩn hóa. Với mức tin cậy 90%, một phân phối được chấp nhận nếu |GZ| ≤ 1.64; trong số các phân phối được chấp nhận, phân phối có GZ nhỏ nhất được xem là phù hợp nhất (Hosking, 1991).

Kiểm tra “dữ liệu thực” (real-data-check).
Tương tự cách dùng real-data-check khi xây dựng vùng đồng nhất, ở đây nó được dùng như một thước đo mức độ khớp: so sánh mỗi phân phối lý thuyết với tần suất kinh nghiệm của chuỗi dữ liệu quan trắc tại tất cả các trạm trong một vùng, cho các chu kỳ lặp từ 2 năm đến 100 năm (Lin & Vogel, 1993). Sai số tương đối (hay độ chệch tương đối) của từng phân phối được tính bằng cách so các phân vị sinh ra từ phân phối khớp với tần suất kinh nghiệm tại mỗi trạm, rồi lấy trung bình qua mọi phân vị và mọi trạm trong vùng. Chỉ số này phản ánh mức độ nhất quán giữa tần suất kinh nghiệm và xác suất lý thuyết của vùng; sai số tương đối nhỏ hơn ⇒ phân phối khớp tốt hơn.
Lưu ý: sai số tương đối ở một vài trạm đơn lẻ kém ý nghĩa do sai số lấy mẫu; nhưng sai số tương đối đã trung bình theo vùng là có ý nghĩa thống kê và được dùng làm chỉ số chọn phân phối phù hợp nhất. Để xếp hạng các phân phối theo phép thử này, sai số tương đối được quy đổi thành một chỉ số sao cho chỉ số càng cao ⇒ sai số càng nhỏ.
RMSE của các L-moments mẫu.
Khác với phép thử mô phỏng Monte Carlo (nhấn mạnh tác động của trung bình theo vùng được mô phỏng), phép thử này dùng L-skewness và L-kurtosis của dữ liệu thực để đánh giá phân phối. Với mỗi trạm, tính độ lệch giữa điểm mẫu (L-skewness, L-kurtosis) và phân phối lý thuyết tương ứng trên thang L-kurtosis. Sau đó tính sai số căn phương bình phương trung bình (RMSE) trên toàn bộ tập độ lệch của tất cả các trạm. Thao tác này được thực hiện cho từng phân phối ứng viên; phân phối có RMSE nhỏ nhất được xem là phù hợp nhất theo phép thử này.
Lựa chọn phân phối phù hợp nhất.
Quyết định cuối cùng về phân phối phù hợp nhất cho mỗi vùng dựa chủ yếu trên tổng hợp kết quả của ba phép thử. Các phép thử mức độ phù hợp (goodness-of-fit) được thực hiện theo từng vùng. Bảng 4.5.1 trình bày kết quả ba phép thử cho dữ liệu 24-giờ ở 84 vùng “daily” và 2 trạm at-site; Bảng 4.5.2 trình bày kết quả cho dữ liệu 60-phút ở 26 vùng “hourly”. Ba phép thử này cung cấp cơ sở thống kê để chọn phân phối thích hợp.
Tuy nhiên, sau đó các kết quả mức độ phù hợp còn được cân nhắc cùng tính nhất quán khí hậu và địa lý. Để giảm các “mắt bò” (bull’s eyes – điểm nóng giá trị quá cao cục bộ) và/hoặc các gradien giữa các vùng trong ước lượng tần suất mưa, đôi khi phân phối do ba phép thử đề xuất được điều chỉnh sau khi rà soát ở quy mô vĩ mô. Nỗ lực được thực hiện để giữ nhất quán loại phân phối đã chọn giữa các vùng. Khi dùng một phân phối thay thế khác với phân phối do kiểm định thống kê gợi ý, nhóm đã kiểm tra độ nhạy để bảo đảm kết quả vẫn chấp nhận được (ví dụ: thay đổi phân vị 100 năm < 5%).
Ví dụ: Ở vùng daily 13, GEV không xếp hạng nhất về mặt thống kê; nhưng nếu dùng GLO (phân phối phù hợp tốt nhất theo thống kê) thì sẽ tạo ra “mắt bò” rất cao không hợp lý về khí hậu so với các vùng xung quanh, nơi GEV lại là phân phối phù hợp tốt nhất theo thống kê. Thử độ nhạy cho thấy ước lượng 24-giờ, chu kỳ 100 năm ở vùng 13 chỉ giảm 4,7% khi dùng GEV thay vì GLO. Vì vậy, GEV được chọn cho vùng này.
Dựa trên kết quả mức độ phù hợp, cân nhắc khí hậu và thử độ nhạy trên tất cả các vùng trong dự án, GEV được chọn là phân phối đại diện tốt nhất cho tất cả dữ liệu cực đại năm theo ngày và giờ. GEV cũng được chọn cho dữ liệu 5-, 10- và 15-phút; còn GNO được chọn cho dữ liệu cực đại 30-phút dùng trong tính tỷ số n-phút.
Các trạm at-site được kiểm tra kỹ để chọn phân phối phù hợp nhất cho mọi thời đoạn, vì chúng vốn không nhất quán với cách tiếp cận theo vùng và cần xử lý riêng. Kết quả cho thấy, với một trạm at-site trong miền lõi (A3), các thời đoạn khác nhau cần phân phối khác nhau:
+ GLO được chọn cho thời đoạn 24-giờ đến 30-ngày tại A3 (29-1138);
+ GEV được chọn cho 45-ngày và 60-ngày.
(nd: GEV, GLO, GNO)
Ba chữ viết tắt này là tên các phân phối xác suất 3 tham số thường dùng trong phân tích tần suất mưa bằng L-moments:
- GEV — Generalized Extreme Value (Phân bố cực trị tổng quát)
Dùng cho cực đại theo “khối” (như cực đại năm). Tham số: vị trí \(\xi\), thang \(\alpha>0\), dạng k. CDF (dạng Hosking & Wallis):
\(F(x)=\exp\{-\exp(-y)\}\) với \(y=-k^{-1}\ln[1-k(x-\xi)/\alpha]\).
k=0 → Gumbel; k>0 → kiểu Weibull (bị chặn phía trên); k<0 → kiểu Fréchet (đuôi nặng). (cran.r-project.org) - GLO — Generalized Logistic (Phân bố logistic tổng quát)
Linh hoạt về độ lệch và đuôi. CDF:
\(F(x)=1/\{1+\exp(-y)\}\) với \(y=-k^{-1}\ln[1-k(x-\xi)/\alpha]\); k=0 cho logistic chuẩn. (cran.r-project.org) - GNO — Generalized Normal (còn gọi là “lognormal tổng quát”)
Mở rộng của lognormal 3 tham số; khi k=−1 thu về lognormal chuẩn. CDF:
\(F(x)=\Phi(y)\) với \(y=-k^{-1}\ln[1-k(x-\xi)/\alpha]\) và \(\Phi\) là CDF chuẩn. (cran.r-project.org, rdocumentation.org)
Trong NOAA Atlas 14, các họ phân phối ứng viên gồm GEV, GLO, GNO (cùng GPA, PE3); sau khi kiểm định mức độ khớp, Atlas chọn GEV cho hầu hết thời đoạn cực đại năm và GNO cho 30-phút. (geodesy.noaa.gov)
Bảng 4.5.1. Kết quả phép thử mức độ phù hợp (goodness-of-fit) cho dữ liệu chuỗi cực đại năm 24-giờ tại từng vùng dữ liệu ngày, tính cho NOAA Atlas 14 – Tập 1.
| Vùng | Xếp hạng | Mô phỏng Monte Carlo | Kiểm tra dữ liệu thực (RDC) | Kiểm định RMSE | Phân phối được chọn | |||
|---|---|---|---|---|---|---|---|---|
| phân phối | test value | phân phối | test value | phân phối | RMSE | |||
| 1 | 1st | GEV | -0.42 | GLO | 22.5 | GEV | 0.12795 | GEV |
| 2nd | GNO | -0.92 | GEV | 18 | GNO | 0.13153 | ||
| 3rd | GLO | 1.72 | GNO | 16 | GLO | 0.13598 | ||
| 2 | 1st | GLO | 0.9 | GEV | 19 | GEV | 0.13807 | GEV |
| 2nd | GEV | -1.13 | GNO | 17 | GLO | 0.13956 | ||
| 3rd | GNO | -2.11 | GLO | 16 | GNO | 0.14005 | ||
| 3 | 1st | GEV | -0.33 | GEV | 21.5 | GNO | 0.10771 | GEV |
| 2nd | GNO | -1.09 | GNO | 20.5 | GEV | 0.10842 | ||
| 3rd | GLO | 2.41 | PE3 | 13 | PE3 | 0.11205 | ||
| 4 | 1st | GEV | -1.02 | GNO | 18.5 | GEV | 0.09502 | GEV |
| 2nd | GNO | -1.97 | GEV | 18.5 | GNO | 0.09689 | ||
| 3rd | PE3 | -3.93 | PE3 | 17 | GLO | 0.10194 | ||
| 5 | 1st | GEV | -0.85 | GEV | 21 | GEV | 0.11629 | GEV |
| 2nd | GNO | -1.67 | GNO | 20.5 | GNO | 0.11698 | ||
| 3rd | GLO | 2.46 | PE3 | 16 | PE3 | 0.12256 | ||
| 6 | 1st | GEV | -1.93 | GEV | 20.5 | GLO | 0.10816 | GEV |
| 2nd | GLO | 1.93 | GLO | 18.5 | GEV | 0.10836 | ||
| 3rd | GNO | -2.91 | GNO | 17.5 | GNO | 0.11044 | ||
| 7 | 1st | GNO | -0.21 | PE3 | 17.5 | GNO | 0.17183 | GEV |
| 2nd | GEV | 0.42 | GNO | 16.5 | GEV | 0.17281 | ||
| 3rd | PE3 | -1.41 | GEV | 14.5 | PE3 | 0.17348 | ||
| 8 | 1st | GEV | 0.09 | PE3 | 20 | GNO | 0.08923 | GEV |
| 2nd | GNO | -0.92 | GEV | 18.5 | GEV | 0.08975 | ||
| 3rd | PE3 | -3.29 | GNO | 17.5 | PE3 | 0.09234 | ||
| 9 | 1st | GEV | -0.22 | GEV | 20.5 | GNO | 0.12301 | GEV |
| 2nd | GNO | -0.98 | GNO | 18.5 | GEV | 0.1235 | ||
| 3rd | GLO | 2.07 | GLO | 17 | PE3 | 0.12672 | ||
| 10 | 1st | GEV | -1.54 | GEV | 20 | GEV | 0.08236 | GEV |
| 2nd | GLO | 1.73 | GNO | 19 | GNO | 0.08428 | ||
| 3rd | GNO | -2.33 | GLO | 16 | GLO | 0.08663 | ||
| 11 | 1st | GEV | -1.24 | GEV | 22 | GEV | 0.08419 | GEV |
| 2nd | GNO | -2.42 | GNO | 18 | GNO | 0.08519 | ||
| 3rd | GLO | 3.28 | GLO | 16 | PE3 | 0.09176 | ||
| 12 | 1st | GEV | -1.01 | PE3 | 18 | GEV | 0.14403 | GEV |
| 2nd | GNO | -1.47 | GEV | 17.5 | GNO | 0.14504 | ||
| 3rd | GLO | 1.96 | GNO | 16 | GLO | 0.14907 | ||
| 13 | 1st | GLO | 1.67 | GLO | 22.5 | GEV | 0.06946 | GEV |
| 2nd | GEV | -2.48 | GEV | 20 | GLO | 0.07001 | ||
| 3rd | GNO | -3 | GNO | 17 | GNO | 0.07188 | ||
| 14 | 1st | GEV | 0.08 | GNO | 19.5 | GEV | 0.08189 | GEV |
| 2nd | GNO | -0.64 | PE3 | 19 | GNO | 0.08267 | ||
| 3rd | PE3 | -2.32 | GEV | 15.5 | PE3 | 0.08631 | ||
| 15 | 1st | GEV | -1.27 | GEV | 21 | GEV | 0.06844 | GEV |
| 2nd | GNO | -2.63 | GNO | 20 | GNO | 0.07128 | ||
| 3rd | GLO | 2.64 | PE3 | 16 | GLO | 0.07612 | ||
| 16 | 1st | GEV | -2.52 | GEV | 24.5 | GEV | 0.06716 | GEV |
| 2nd | GLO | 3.17 | GNO | 18 | GNO | 0.07304 | ||
| 3rd | GNO | -3.62 | GLO | 15 | GLO | 0.07467 | ||
| 17 | 1st | GLO | 0.81 | GNO | 18.5 | GEV | 0.09861 | GEV |
| 2nd | GEV | -1.86 | GEV | 18.5 | GLO | 0.09909 | ||
| 3rd | GNO | -3.17 | GLO | 18 | GNO | 0.10213 | ||
| 18 | 1st | GNO | 0.02 | PE3 | 19.5 | GNO | 0.15977 | GEV |
| 2nd | GEV | 0.82 | GNO | 19.5 | PE3 | 0.16119 | ||
| 3rd | PE3 | -1.41 | GPA | 14.5 | GPA | 0.16197 | ||
| 19 | 1st | GEV | -1.51 | GLO | 19.5 | GEV | 0.08115 | GEV |
| 2nd | GNO | -1.6 | GNO | 16.5 | GNO | 0.08257 | ||
| 3rd | GLO | 1.65 | GEV | 16.5 | GLO | 0.08803 | ||
| 20 | 1st | GLO | 0.02 | GNO | 19.5 | GEV | 0.19198 | GEV |
| 2nd | GEV | -0.99 | GEV | 19.5 | GLO | 0.19285 | ||
| 3rd | GNO | -1.62 | PE3 | 14.5 | GNO | 0.19447 | ||
| 21 | 1st | GEV | -1.49 | GEV | 19.5 | GEV | 0.06105 | GEV |
| 2nd | GNO | -2.3 | GNO | 17.5 | GNO | 0.06697 | ||
| 3rd | GLO | 2.95 | GLO | 17.5 | GLO | 0.07256 | ||
| 22 | 1st | GLO | 1.77 | PE3 | 19 | GEV | 0.05648 | GEV |
| 2nd | GEV | -1.89 | GNO | 19 | GNO | 0.05958 | ||
| 3rd | GNO | -2.71 | GEV | 18 | GLO | 0.06004 | ||
| 23 | 1st | GEV | -0.08 | GEV | 20.5 | GEV | 0.12292 | GEV |
| 2nd | GNO | -0.78 | GNO | 18.5 | GNO | 0.12502 | ||
| 3rd | PE3 | -2.21 | GLO | 16 | GLO | 0.12971 | ||
| 24 | 1st | GEV | -0.8 | GEV | 20 | GEV | 0.15892 | GEV |
| 2nd | GLO | 1.23 | GLO | 17 | GNO | 0.16155 | ||
| 3rd | GNO | -1.5 | GNO | 16.5 | GLO | 0.16249 | ||
| 25 | 1st | GEV | 0.1 | GNO | 18 | GEV | 0.09318 | GEV |
| 2nd | GNO | -0.24 | PE3 | 17 | GNO | 0.09472 | ||
| 3rd | PE3 | -1.22 | GEV | 17 | PE3 | 0.10036 | ||
| 26 | 1st | GEV | -0.79 | GEV | 19.5 | GEV | 0.10688 | GEV |
| 2nd | GNO | -1.61 | GLO | 18 | GNO | 0.10735 | ||
| 3rd | GLO | 1.87 | GNO | 17 | PE3 | 0.11193 | ||
| 27 | 1st | PE3 | 0.36 | PE3 | 22 | PE3 | 0.11129 | GEV |
| 2nd | GNO | 1.54 | GNO | 18 | GNO | 0.11312 | ||
| 3rd | GEV | 1.92 | GEV | 17 | GEV | 0.11405 | ||
| 28 | 1st | GEV | -0.41 | GNO | 21 | GEV | 0.09215 | GEV |
| 2nd | GNO | -1.59 | GEV | 21 | GNO | 0.09349 | ||
| 3rd | GLO | 3.04 | PE3 | 14 | PE3 | 0.1013 | ||
| 29 | 1st | GLO | -0.06 | GEV | 19.5 | GEV | 0.17908 | GEV |
| 2nd | GEV | -1.4 | GNO | 18.5 | GLO | 0.18107 | ||
| 3rd | GNO | -2.02 | PE3 | 15 | GNO | 0.18131 | ||
| 30 | 1st | PE3 | -0.53 | PE3 | 22 | PE3 | 0.09627 | GEV |
| 2nd | GNO | 1.04 | GNO | 17 | GNO | 0.09635 | ||
| 3rd | GEV | 1.76 | GPA | 13 | GEV | 0.09733 | ||
| 31 | 1st | PE3 | 0.05 | PE3 | 18.5 | PE3 | 0.06318 | GEV |
| 2nd | GNO | 3.51 | GNO | 16.5 | GNO | 0.06446 | ||
| 3rd | GEV | 5 | GEV | 16 | GEV | 0.06612 | ||
| 32 | 1st | GNO | 0.09 | PE3 | 20.5 | GNO | 0.08061 | GEV |
| 2nd | GEV | 1.47 | GNO | 18.5 | GEV | 0.08254 | ||
| 3rd | PE3 | -2.49 | GEV | 15.5 | PE3 | 0.0837 | ||
| 33 | 1st | GLO | 0.59 | GEV | 20 | GLO | 0.1165 | GEV |
| 2nd | GEV | -1.65 | GLO | 19.5 | GEV | 0.11676 | ||
| 3rd | GNO | -2.73 | GNO | 16.5 | GNO | 0.11872 | ||
| 34 | 1st | GLO | 0.97 | GEV | 22 | GEV | 0.11298 | GEV |
| 2nd | GEV | -1.68 | GLO | 18 | GLO | 0.1138 | ||
| 3rd | GNO | -2.49 | GNO | 16.5 | GNO | 0.11702 | ||
| 35 | 1st | GEV | 0.01 | GNO | 18.5 | GNO | 0.21691 | GEV |
| 2nd | GNO | -0.53 | GEV | 18.5 | GEV | 0.21803 | ||
| 3rd | GLO | 1.18 | GLO | 17 | PE3 | 0.21869 | ||
| 36 | 1st | GEV | -0.32 | GEV | 20.5 | GEV | 0.09814 | GEV |
| 2nd | GNO | -1.22 | GLO | 18.5 | GNO | 0.10126 | ||
| 3rd | PE3 | -3.1 | GNO | 17.5 | GLO | 0.10746 | ||
| 37 | 1st | GEV | -0.63 | GLO | 18.5 | GEV | 0.09089 | GEV |
| 2nd | GNO | -1.84 | GEV | 18 | GNO | 0.09312 | ||
| 3rd | GLO | 3.61 | GNO | 16 | PE3 | 0.09986 | ||
| 38 | 1st | GEV | -0.78 | GEV | 20 | GEV | 0.1128 | GEV |
| 2nd | GNO | -1.3 | GLO | 17.5 | GNO | 0.11447 | ||
| 3rd | PE3 | -2.59 | GNO | 16.5 | GLO | 0.11937 | ||
| 39 | 1st | GEV | -0.33 | GNO | 19 | GEV | 0.07051 | GEV |
| 2nd | GNO | -1.66 | PE3 | 18 | GNO | 0.07422 | ||
| 3rd | PE3 | -4.36 | GEV | 17 | PE3 | 0.08397 | ||
| 40 | 1st | GEV | 0.04 | GEV | 19 | GEV | 0.14036 | GEV |
| 2nd | GNO | -0.73 | GNO | 18 | GNO | 0.14086 | ||
| 3rd | GLO | 1.63 | GLO | 15.5 | PE3 | 0.14594 | ||
| 41 | 1st | GLO | 0.47 | GLO | 22.5 | GEV | 0.16359 | GEV |
| 2nd | GEV | -1.21 | GEV | 18 | GLO | 0.16651 | ||
| 3rd | GNO | -1.61 | GNO | 14.5 | GNO | 0.16677 | ||
| 42 | 1st | GNO | -0.36 | GEV | 20.5 | GEV | 0.08687 | GEV |
| 2nd | GEV | 0.75 | GNO | 17.5 | GNO | 0.08715 | ||
| 3rd | PE3 | -2.63 | PE3 | 16 | PE3 | 0.09243 | ||
| 43 | 1st | GEV | -0.55 | GNO | 21 | GEV | 0.10722 | GEV |
| 2nd | GNO | -1.22 | GEV | 19 | GNO | 0.10763 | ||
| 3rd | GLO | 2.26 | PE3 | 17 | PE3 | 0.1114 | ||
| 44 | 1st | GEV | -1.03 | GEV | 23.5 | GEV | 0.0966 | GEV |
| 2nd | GNO | -1.61 | GNO | 18.5 | GNO | 0.09779 | ||
| 3rd | GEV | 2.57 | GLO | 15 | GLO | 0.10121 | ||
| 45 | 1st | GEV | -2.2 | GEV | 21.5 | GEV | 0.07639 | GEV |
| 2nd | GNO | -3.15 | GNO | 18.5 | GNO | 0.07899 | ||
| 3rd | GLO | 3.74 | GLO | 18 | GLO | 0.08315 | ||
| 46 | 1st | GEV | 0.01 | GLO | 19.5 | GEV | 0.23419 | GEV |
| 2nd | GNO | -0.66 | GNO | 16.5 | GNO | 0.23598 | ||
| 3rd | GLO | 0.86 | GEV | 16 | GLO | 0.237 | ||
| 47 | 1st | GEV | -1.17 | GEV | 23 | GEV | 0.08716 | GEV |
| 2nd | GLO | 2.15 | GNO | 19 | GNO | 0.08908 | ||
| 3rd | GNO | -2.24 | GLO | 15 | GLO | 0.09399 | ||
| 48 | 1st | GNO | 1 | GNO | 22.5 | GNO | 0.08534 | GEV |
| 2nd | PE3 | -1.54 | PE3 | 19 | GEV | 0.08638 | ||
| 3rd | GEV | 2.34 | GEV | 18.5 | PE3 | 0.08843 | ||
| 49 | 1st | GNO | -0.68 | GEV | 20.5 | GNO | 0.08092 | GEV |
| 2nd | GEV | 0.74 | GNO | 19.5 | GEV | 0.08095 | ||
| 3rd | PE3 | -3.38 | PE3 | 16.5 | PE3 | 0.08639 | ||
| 50 | 1st | GLO | 0.88 | GEV | 19 | GEV | 0.09805 | GEV |
| 2nd | GEV | -1.66 | GNO | 17 | GLO | 0.10052 | ||
| 3rd | GNO | -2.5 | GLO | 17 | GNO | 0.10112 | ||
| 51 | 1st | GLO | 0.66 | GLO | 18 | GEV | 0.1403 | GEV |
| 2nd | GEV | -1.62 | GEV | 18 | GLO | 0.1413 | ||
| 3rd | GNO | -2.18 | GNO | 16.5 | GNO | 0.14219 | ||
| 52 | 1st | GNO | 0.44 | GNO | 21.5 | GEV | 0.10154 | GEV |
| 2nd | PE3 | -1.04 | GEV | 20.5 | GNO | 0.10186 | ||
| 3rd | GEV | 1.06 | PE3 | 18 | PE3 | 0.10338 | ||
| 53 | 1st | GNO | 0.5 | PE3 | 24 | GNO | 0.08635 | GEV |
| 2nd | PE3 | -0.81 | GNO | 18.5 | GEV | 0.08681 | ||
| 3rd | GEV | 0.93 | GEV | 14.5 | PE3 | 0.087 | ||
| 54 | 1st | GNO | -0.36 | GLO | 19.5 | GNO | 0.20462 | GEV |
| 2nd | GEV | 0.43 | GEV | 18 | GEV | 0.20488 | ||
| 3rd | GLO | 1.69 | GNO | 16.5 | PE3 | 0.20908 | ||
| 55 | 1st | PE3 | -0.13 | PE3 | 21 | GEV | 0.11877 | GEV |
| 2nd | GNO | 1.09 | GNO | 20.5 | GNO | 0.11969 | ||
| 3rd | GEV | 1.47 | GEV | 14 | PE3 | 0.12137 | ||
| 56 | 1st | GLO | 0.37 | GEV | 19.5 | GEV | 0.10186 | GEV |
| 2nd | GEV | -1.82 | GLO | 18 | GLO | 0.10287 | ||
| 3rd | GNO | -2.8 | GNO | 16.5 | GNO | 0.10627 | ||
| 57 | 1st | GEV | -0.32 | GEV | 17 | GNO | 0.15977 | GEV |
| 2nd | GLO | 0.76 | GNO | 16.5 | GEV | 0.16049 | ||
| 3rd | GNO | -0.94 | PE3 | 15 | GLO | 0.16424 | ||
| 58 | 1st | GPA | -0.61 | GPA | 21 | GPA | 0.21246 | GEV |
| 2nd | PE3 | 1.16 | PE3 | 18 | PE3 | 0.21341 | ||
| 3rd | GNO | 2.14 | GNO | 14.5 | GNO | 0.21686 | ||
| 59 | 1st | GEV | -0.56 | PE3 | 17.5 | GEV | 0.14145 | GLO |
| 2nd | GNO | -0.88 | GLO | 16.5 | GNO | 0.14312 | ||
| 3rd | PE3 | -1.71 | GEV | 16.5 | GLO | 0.14701 | ||
| A1 | 1st | GEV | -0.09 | PE3 | 18.5 | GEV | 0.58763 | GEV |
| 2nd | GLO | 0.15 | GPA | 18.5 | GNO | 0.58811 | ||
| 3rd | GNO | -0.39 | GNO | 13.5 | GLO | 0.58817 | ||
| A2 | 1st | GNO | 0.08 | GNO | 18.5 | GNO | 0.36387 | GNO |
| 2nd | GEV | 0.47 | GEV | 18.5 | PE3 | 0.3643 | ||
| 3rd | PE3 | -0.6 | GLO | 13.5 | GEV | 0.36499 | ||
| A3 | 1st | GLO | -1 | GLO | 18 | GLO | 0.53849 | GLO |
| 2nd | GEV | -1.4 | GEV | 17 | GEV | 0.54077 | ||
| 3rd | GNO | -1.68 | GNO | 15 | GNO | 0.54337 | ||
| A4 | 1st | GLO | 0.19 | GNO | 19.5 | GEV | 0.55521 | GEV |
| 2nd | GEV | -0.22 | PE3 | 16 | GLO | 0.55544 | ||
| 3rd | GNO | -0.57 | GEV | 15.5 | GNO | 0.556 | ||
| A5 | 1st | GLO | -0.63 | GNO | 18.5 | GLO | 0.58584 | GEV |
| 2nd | GEV | -0.91 | GEV | 17.5 | GEV | 0.58701 | ||
| 3rd | GNO | -1.24 | GLO | 14 | GNO | 0.58958 | ||
| A6 | 1st | GNO | 0.25 | GPA | 19 | GNO | 0.39431 | GNO |
| 2nd | PE3 | -0.47 | PE3 | 18 | PE3 | 0.39445 | ||
| 3rd | GEV | 0.66 | GNO | 15.5 | GEV | 0.39518 | ||
Bảng 4.5.2. Kết quả phép thử độ mức phù hợp (goodness-of-fit) cho dữ liệu chuỗi cực đại năm 60 phút trong từng vùng 1-giờ, tính cho NOAA Atlas 14, Tập 1.
| Vùng | Xếp hạng | Mô phỏng Monte Carlo | Kiểm tra dữ liệu thực (RDC) | Kiểm định RMSE | Phân phối được chọn | |||
|---|---|---|---|---|---|---|---|---|
| phân phối | test value | phân phối | test value | phân phối | RMSE | |||
| 1 | 1st | GLO | -0.42 | GPA | 17.5 | GEV | 0.26435 | GEV |
| 2nd | GEV | -0.89 | PE3 | 15.5 | GLO | 0.26451 | ||
| 3rd | GNO | -1.51 | GNO | 15.5 | GNO | 0.26654 | ||
| 2 | 1st | GNO | 0.07 | PE3 | 22 | GNO | 0.14997 | GEV |
| 2nd | GEV | 1.13 | GPA | 22 | PE3 | 0.15201 | ||
| 3rd | PE3 | -1.75 | GNO | 14.5 | GEV | 0.15353 | ||
| 3 | 1st | GLO | 0.09 | GNO | 19 | GEV | 0.1329 | GEV |
| 2nd | GEV | -0.82 | GEV | 17 | GNO | 0.13398 | ||
| 3rd | GNO | -1.68 | PE3 | 13.5 | GLO | 0.13657 | ||
| 4 | 1st | GLO | 0.29 | GPA | 16.5 | GEV | 0.09848 | GEV |
| 2nd | GEV | -0.7 | PE3 | 15.5 | GNO | 0.10085 | ||
| 3rd | GNO | -1.6 | GNO | 15 | GLO | 0.10527 | ||
| 5 | 1st | GEV | -0.17 | GEV | 17 | GEV | 0.19905 | GEV |
| 2nd | GLO | 0.7 | GNO | 16.5 | GPA | 0.20164 | ||
| 3rd | GNO | -1 | GLO | 16.5 | GNO | 0.20212 | ||
| 6 | 1st | GEV | -0.12 | GEV | 19 | GEV | 0.12998 | GEV |
| 2nd | GLO | 0.73 | GLO | 18 | GNO | 0.13211 | ||
| 3rd | GNO | -0.92 | GNO | 16 | GPA | 0.13467 | ||
| 7 | 1st | GEV | 0.48 | PE3 | 18.5 | GNO | 0.17481 | GEV |
| 2nd | GNO | -0.51 | GEV | 18.5 | GEV | 0.17537 | ||
| 3rd | GLO | 1.85 | GNO | 17.5 | PE3 | 0.18091 | ||
| 8 | 1st | GEV | 0.42 | GNO | 19 | GEV | 0.10531 | GEV |
| 2nd | GNO | -0.49 | PE3 | 18 | GNO | 0.10642 | ||
| 3rd | PE3 | -2.16 | GEV | 14 | PE3 | 0.11274 | ||
| 9 | 1st | GEV | 0.1 | GEV | 17 | GNO | 0.15911 | GEV |
| 2nd | GNO | -0.58 | PE3 | 16.5 | GEV | 0.15918 | ||
| 3rd | GLO | 1.62 | GNO | 16 | PE3 | 0.16294 | ||
| 10E | 1st | PE3 | 0.89 | PE3 | 17.5 | GPA | 0.13788 | GEV |
| 2nd | GNO | 1.55 | GPA | 17 | PE3 | 0.14033 | ||
| 3rd | GEV | 1.77 | GNO | 14 | GNO | 0.14229 | ||
| 10W | 1st | GNO | -0.25 | GNO | 19 | GNO | 0.18046 | GEV |
| 2nd | GEV | 0.83 | GEV | 17.5 | PE3 | 0.18299 | ||
| 3rd | GLO | 1.98 | PE3 | 15 | GEV | 0.18374 | ||
| 11 | 1st | GEV | -0.18 | GLO | 22.5 | GEV | 0.11029 | GEV |
| 2nd | GNO | -0.75 | GEV | 18 | GNO | 0.11413 | ||
| 3rd | GLO | 1.79 | GNO | 16 | GLO | 0.12386 | ||
| 12 | 1st | GNO | 0.04 | GLO | 18.5 | GEV | 0.11718 | GEV |
| 2nd | GEV | 0.37 | GEV | 18 | GNO | 0.11769 | ||
| 3rd | PE3 | -0.81 | PE3 | 17.5 | PE3 | 0.12 | ||
| 13 | 1st | PE3 | 0.39 | PE3 | 18.5 | PE3 | 0.07046 | GEV |
| 2nd | GNO | 1.98 | GNO | 18 | GNO | 0.0711 | ||
| 3rd | GEV | 2.62 | GEV | 17 | GEV | 0.07178 | ||
| 14 | 1st | GEV | 0.33 | GEV | 23 | GNO | 0.10488 | GEV |
| 2nd | GNO | -0.38 | GNO | 20 | PE3 | 0.10526 | ||
| 3rd | PE3 | -2.04 | PE3 | 14 | GEV | 0.10668 | ||
| 15 | 1st | GLO | 1.31 | GEV | 20 | GEV | 0.09094 | GEV |
| 2nd | GEV | -2.6 | GNO | 18 | GNO | 0.09615 | ||
| 3rd | GNO | -4.11 | GLO | 16 | GLO | 0.09653 | ||
| 16 | 1st | GLO | -1.67 | GLO | 20 | GEV | 0.13951 | GEV |
| 2nd | GEV | -2.64 | GEV | 20 | GLO | 0.1412 | ||
| 3rd | GNO | -3.73 | GNO | 18 | GNO | 0.14662 | ||
| 17 | 1st | GLO | 0.09 | GNO | 18 | GLO | 0.18737 | GEV |
| 2nd | GEV | -0.48 | GEV | 18 | GEV | 0.1875 | ||
| 3rd | GNO | -1.49 | GPA | 15 | GNO | 0.18944 | ||
| 18 | 1st | PE3 | -0.08 | GNO | 17.5 | GPA | 0.34593 | GEV |
| 2nd | GPA | -0.68 | GEV | 17.5 | PE3 | 0.34705 | ||
| 3rd | GNO | 0.9 | PE3 | 15 | GNO | 0.35029 | ||
| 19 | 1st | GNO | -0.13 | PE3 | 17 | PE3 | 0.21012 | GEV |
| 2nd | GEV | 0.3 | GLO | 15.5 | GNO | 0.21183 | ||
| 3rd | PE3 | -0.89 | GEV | 15.5 | GEV | 0.21522 | ||
| 20 | 1st | GEV | -0.47 | GNO | 18 | GEV | 0.14207 | GEV |
| 2nd | GLO | 1.23 | GEV | 17.5 | GNO | 0.14653 | ||
| 3rd | GNO | -1.49 | PE3 | 15 | GLO | 0.14908 | ||
| 21 | 1st | GEV | 0.32 | GLO | 19.5 | GEV | 0.16714 | GEV |
| 2nd | GNO | -0.69 | GEV | 17 | GNO | 0.16908 | ||
| 3rd | GLO | 1.55 | GNO | 14.5 | GPA | 0.17343 | ||
| 22 | 1st | GEV | -0.38 | GNO | 17 | GNO | 0.12547 | GEV |
| 2nd | GNO | -1.04 | GEV | 16 | GEV | 0.12816 | ||
| 3rd | GLO | 1.58 | PE3 | 15.5 | PE3 | 0.12854 | ||
| 23 | 1st | GNO | -0.11 | GNO | 20.5 | GNO | 0.22287 | GEV |
| 2nd | GEV | 0.64 | GLO | 15 | GEV | 0.2249 | ||
| 3rd | GLO | 1.36 | GEV | 13.5 | GPA | 0.2255 | ||
| 24 | 1st | GLO | -0.38 | GEV | 19.5 | GEV | 0.20494 | GEV |
| 2nd | GEV | -1.27 | GLO | 18.5 | GNO | 0.20698 | ||
| 3rd | GNO | -2.06 | GNO | 17 | GLO | 0.20763 | ||
4.6. Ước lượng các phân vị
4.6.1. Hệ số tăng trưởng vùng
Trong cách tiếp cận phân tích vùng dựa trên index-flood, các hệ số tăng trưởng vùng (RGFs) được định nghĩa là các phân vị của một phân phối không thứ nguyên ở cấp vùng. RGFs thu được bằng cách khớp hàm phân phối không thứ nguyên đã chọn với các tỷ số L-moment trung bình có trọng số (hoặc các tham số) cho một vùng; các tỷ số/tham số này được tính từ dữ liệu đã được chuẩn hóa theo giá trị trung bình của chuỗi cực đại năm (Hosking và Wallis, 1997). Vì các tham số là hằng số trong mỗi vùng, nên mỗi vùng chỉ có một RGF và RGF này chỉ thay đổi theo tần suất và thời đoạn. Bảng RGFs cho mọi thời đoạn của từng vùng được cung cấp ở Phụ lục A.9. Sau đó, RGFs được nhân với hệ số tỷ lệ đặc thù vị trí (site-specific scaling factor) để tạo ra các phân vị tại mỗi tần suất và thời đoạn cho từng điểm. Hệ số tỷ lệ dùng trong dự án này là trung bình của chuỗi cực đại năm tại từng điểm. Hệ số này thường được gọi là “Index Flood” (lũ chỉ số) vì nguồn gốc của phương pháp thống kê là trong phân tích tần suất lũ.
Trong dự án này, các hệ số tỷ lệ cho từng thời đoạn trước hết được nội suy không gian lên các lưới có độ phân giải cao (Mục 4.8.1) để khai thác RGFs ở mỗi tần suất và thu được các lưới phân vị. Một quy trình nội suy không gian riêng (Mục 4.8.2) đã được phát triển để giữ gìn khác biệt giữa các vùng nhưng vẫn tạo ra các phân vị biến thiên trơn tru theo không gian qua các ranh giới vùng.
4.6.2. Tính cho 1 năm
Các ước lượng tần suất mưa theo khoảng lặp trung bình 1 năm (ARI) đã được tính cho dự án này. ARI là khoảng thời gian trung bình giữa các lần vượt quá (tại một vị trí và thời đoạn nhất định) và gắn với chuỗi partial duration (PDS). Xác suất vượt quá hàng năm (AEP) là xác suất một lượng mưa cụ thể sẽ bị vượt quá trong bất kỳ năm nào (tại một vị trí và thời đoạn nhất định) và được suy ra từ chuỗi cực đại năm (AMS). Một độ sâu AEP có thể xảy ra một lần hoặc nhiều hơn trong một năm (Mục 3.2 thảo luận thêm).
Ước lượng AEP 1 năm, gắn với AMS, ít ý nghĩa về mặt thống kê hay vật lý. Tuy nhiên, ARI 1 năm, gắn với PDS, lại có ý nghĩa và được dùng trong một số ứng dụng thực tế. Phương trình \(T_{PDS}=\left[\ln\!\left(\frac{T_{AMS}}{T_{AMS}-1}\right)\right]^{-1}\) (Chow và cs., 1988), vốn độc lập phân phối, cung cấp cơ sở toán học để đổi qua lại giữa các chu kỳ lặp đối với dữ liệu AMS và PDS. Ở đây, \(T_{AMS}\) và \(T_{PDS}\) lần lượt là chu kỳ lặp tương ứng với dữ liệu AMS và PDS. Phương trình có thể biến đổi thành:
$$T_{AMS}=\frac{1}{\,1-e^{-1/T_{PDS}}\,}.$$
Do đó, từ phương trình trên, \(T_{AMS}=1{,}58\) năm khi \(T_{PDS}=1\) năm. Điều này có nghĩa là một sự kiện PDS 1 năm tương đương với một sự kiện AMS 1,58 năm. Quan hệ này được dùng để tính ARI 1 năm từ dữ liệu AMS cho dự án. Phụ lục A.9 cung cấp các hệ số tăng trưởng vùng (RGF) được tính cho kết quả AMS 1,58 năm. Tuy nhiên, với mọi ARI khác 1 năm, kết quả được thu bằng cách phân tích riêng rẽ cả AMS và PDS, lấy trung bình tỷ số giữa các phân vị PDS và AMS rồi áp dụng tỷ số trung bình này lên kết quả AMS (xem Mục 4.6.4).
4.6.3. Điều chỉnh tính nhất quán thực hành
Trong thực tế, dữ liệu không phải lúc nào cũng hành xử “đẹp”. Tập dữ liệu cũng không luôn được thu thập hoàn hảo theo thời gian hoặc trên mạng lưới không gian dày đặc. Vì trong dự án này các phân vị cho mỗi thời đoạn và mỗi trạm được tính độc lập, nên các điều chỉnh thực hành dưới đây được áp dụng để cho ra các kết quả cuối cùng thực tế và nhất quán theo thời đoạn, theo tần suất và theo không gian.
Điều chỉnh tính nhất quán của cực đại năm.
Ở một số trạm ngày, xuất hiện các bất nhất trong chuỗi cực đại năm giữa hai thời đoạn liền kề. Cụ thể, quan trắc ở thời đoạn ngắn hơn trong một năm đôi khi lại lớn hơn quan trắc ở thời đoạn dài hơn kế tiếp. Hiện tượng này thường xảy ra vì có một lượng thiếu dữ liệu đáng kể quanh ca sự kiện đó; khi dữ liệu lân cận không có sẵn thì không thể cộng dồn để hình thành thời đoạn dài hơn. Nó cũng xảy ra khi áp dụng các hệ số quy đổi trung bình nhằm hiệu chỉnh khác biệt khoảng lấy mẫu (ví dụ đổi dữ liệu 1-day sang 24-hour; xem Mục 4.1.2). Nếu không điều chỉnh, các bất nhất này có thể gây thiên lệch âm cho ước lượng tần suất mưa ở thời đoạn dài so với thực tế. Vì vậy, những bất nhất lớn giữa cực đại năm của hai thời đoạn liền nhau trong cùng một năm được rà soát và bổ sung/sửa dữ liệu khi có thể. Nếu không thể tìm dữ liệu thiếu và/hoặc chênh lệch giữa hai thời đoạn là nhỏ (<10%), thì giá trị thời đoạn dài được gán bằng giá trị thời đoạn ngắn. Điều chỉnh này đảm bảo nhất quán từ thời đoạn này sang thời đoạn dài hơn tiếp theo cho mỗi năm tại một trạm.
Điều chỉnh giữa các trạm đo theo giờ và theo ngày đặt cùng vị trí (co-located).
Vì các thời đoạn theo giờ và theo ngày được tính tách biệt và từ các bộ dữ liệu khác nhau, cần phải bảo đảm rõ ràng tính nhất quán của ước lượng tần suất mưa qua các thời đoạn tại các trạm theo ngày và theo giờ cùng vị trí. Ở các trạm cùng vị trí, ước lượng 24-giờ từ dữ liệu theo ngày được giữ lại vì dựa trên nhiều trạm hơn, thường có chuỗi quan trắc dài hơn, và ít bị thiếu bắt mưa. Các phân vị tại các trạm cùng vị trí được điều chỉnh để bảo đảm nhất quán, đặc biệt đối với các thời đoạn 12-giờ và 24-giờ nơi có thể xuất hiện sai khác. Có nhiều nguyên nhân khả dĩ cho các sai khác này, như khác biệt về đồng hồ đo (gage) hoặc về giai đoạn ghi nhận. Việc điều chỉnh giữ nguyên các phân vị 24-giờ từ dữ liệu theo ngày và giữ phân bố theo giờ cho các phân vị từ 120 phút (2 giờ) đến 12 giờ tại trạm theo giờ đó. Các phân vị từ 24-giờ đến 2-giờ của các trạm theo giờ cùng vị trí được điều chỉnh bằng tỷ số đặc thù trạm giữa trung bình 24-giờ theo ngày và theo giờ của chính trạm đó, cùng với tỷ số giữa hệ số tăng trưởng vùng (RGF) 24-giờ theo ngày và theo giờ ở mọi tần suất (1,58 năm; 2 năm; 5 năm; …; 1.000 năm).
Những bài học rút ra ở NOAA Atlas 14, Tập 2 gợi ý cần cân nhắc thêm điều chỉnh phân vị 60 phút để dung hòa khác biệt giữa vùng theo giờ và vùng theo ngày, xét đến gần kề không gian của đa số trạm, hệ số chuyển đổi trung bình từ 1-giờ sang 60 phút, và việc áp dụng các tỷ số n-phút. Một quy trình đã được xây dựng nhằm tránh đứt gãy tại phân vị 60 phút so với các phân vị đã điều chỉnh từ 2-giờ đến 24-giờ và các phân vị n-phút, đồng thời giảm các “bull’s-eye” (vệt tròn đậm) trên các bản đồ cuối cùng.
Trong một số trường hợp, tỷ số đặc thù trạm giữa RGF vùng theo ngày và vùng theo giờ tại các trạm cùng vị trí nhỏ hơn 1,0. Điều này không phổ biến nhưng có xảy ra. Khi tỷ số RGF 24-giờ, 100-năm (theo ngày)/RGF 24-giờ, 100-năm (theo giờ) — được dùng như chỉ số — nhỏ hơn 1,0, thì áp dụng tỷ số điều chỉnh đặc thù trạm cho các thời đoạn từ 24-giờ đến 60 phút để duy trì nhất quán trên mọi thời đoạn theo giờ và tránh điều chỉnh quá mức. Ngược lại, khi tỷ số đặc thù trạm RGF 24-giờ, 100-năm lớn hơn 1,0, phân vị 60 phút được điều chỉnh bằng tỷ số RGF trung bình theo vùng và tỷ số trung bình 24-giờ tính từ tất cả các trạm cùng vị trí trong vùng theo giờ để đạt kết quả nhất quán theo không gian hơn.
Kết quả cuối cùng khi dùng điều chỉnh đặc thù trạm cho phân vị 60 phút có thể không trơn tru theo không gian bằng phương án lấy trung bình theo vùng. Tuy nhiên, điều chỉnh đặc thù trạm đại diện tốt hơn cho dữ liệu tại trạm và giảm rủi ro điều chỉnh quá mức.
Ngoài ra, việc điều chỉnh cho các trạm cùng vị trí được hiệu chỉnh nhẹ theo các bài học ở Volum 3 để xử lý những trường hợp đặc biệt. Đặc điểm dữ liệu riêng lẻ ở một vài trạm, kết hợp với khác biệt giữa các vùng theo ngày và theo giờ, đã tạo ra đứt gãy so với các trạm lân cận. Tại một số ít trạm này, tỷ số RGF từ ngày sang giờ ở mỗi tần suất thấp bất thường. Dữ liệu của từ hai thời đoạn theo giờ trở lên tại các trạm này cùng có cực đại năm hoặc có giá trị rất gần nhau, khiến độ dốc của đường phân vị từ 5 năm đến 1.000 năm rất phẳng. Để bảo đảm nhất quán của ước lượng tần suất mưa trong trường hợp như vậy, tỷ số RGF theo vùng và tỷ số trung bình đặc thù trạm được dùng để điều chỉnh thời đoạn 60 phút tại trạm khi đồng thời thỏa ba tiêu chí sau:
(1) Tỷ số đặc thù trạm RGF 100 năm (ngày/giờ) < 1,0;
(2) Độ chênh (range) của các tỷ số RGF 100 năm của tất cả trạm theo giờ trong vùng theo giờ > 0,2; và
(3) Range chia cho giá trị nhỏ nhất của tỷ số RGF 100 năm ≥ 0,4.
Các tiêu chí này được xác lập thực nghiệm và kiểm chứng trong Volume 3. Việc điều chỉnh tạo ra các ước lượng tần suất mưa tại trạm cùng vị trí như vậy hợp lý hơn, nhất quán (xuyên suốt các thời đoạn từ 24-giờ đến 2-giờ) và so sánh được với các trạm khác trong vùng theo giờ đó. Tuy nhiên, không ghi nhận trường hợp nào như vậy trong dữ liệu Volume 1.
Điều chỉnh tính nhất quán cho trạm chỉ-theo-giờ (hourly-only).
Để bảo đảm các trạm chỉ có dữ liệu theo giờ nhất quán với các trạm cùng vị trí (co-located) có cả dữ liệu giờ/ngày (dù thuộc các vùng khác nhau) và để giảm các “bull’s-eye” không gian thấy trong kết quả theo giờ, một phép điều chỉnh được áp dụng cho các trạm chỉ-theo-giờ. Cụ thể, các phân vị từ 48-giờ đến 60-phút của các trạm chỉ-theo-giờ được hiệu chỉnh bằng tỷ số trung bình theo vùng giữa trung bình 24-giờ theo ngày và trung bình 24-giờ theo giờ, cùng bộ tỷ số RGF trung bình theo vùng ở mọi tần suất (1,58 năm; 2 năm; 5 năm; …; 1.000 năm), tính từ tất cả các trạm cùng vị trí trong vùng theo giờ.
Điều chỉnh tính nhất quán nội bộ (internal consistency).
Vì phân vị của từng thời đoạn tại một trạm được tính độc lập, có thể xuất hiện bất nhất khi thời đoạn ngắn hơn lại có phân vị cao hơn thời đoạn kế tiếp dài hơn tại cùng một khoảng lặp trung bình. Ví dụ: tại một trạm, phân vị 2-giờ cho tần suất 100 năm có thể lớn hơn phân vị 3-giờ cho 100 năm. Dù thống kê có thể chấp nhận, điều này không hợp lý về mặt vật lý. Các kết quả như vậy thường xảy ra khi các thời đoạn có trung bình cực đại năm gần nhau nhưng thời đoạn ngắn hơn lại có tham số vùng (như độ biến thiên L – L-variation, độ lệch L – L-skewness) cao hơn, làm phân vị của nó vượt phân vị của thời đoạn dài hơn. Nguyên nhân gốc chủ yếu: đứt gãy trong việc chọn và tham số hóa hàm phân phối giữa các thời đoạn, dao động lấy mẫu, và việc áp dụng hệ số quy đổi trung bình để đổi dữ liệu 1-giờ → 60-phút và 1-ngày → 24-giờ.
Các bất nhất được nhận diện khi tỷ số (phân vị thời đoạn dài hơn / phân vị thời đoạn ngắn kế tiếp) < 1,0 tại một khoảng lặp cho trước.
- Nếu bất nhất xảy ra ở tần suất cao (khoảng lặp nhỏ), xử lý bằng cách phân bổ phần dư (tỷ số > 1,0) của tần suất liền trước cho các thời đoạn đó theo độ dốc không đổi đến các tỷ số ở tần suất bất nhất, rồi tiếp tục tăng dần đến 1.000 năm cho đến khi hội tụ về 1,0 tại 1.000 năm (Bảng 4.6.1).
- Nếu bất nhất xảy ra ở tần suất thấp (khoảng lặp lớn), xử lý bằng cách phân bổ phần dư (tỷ số > 1,0) của tần suất liền sau cho các thời đoạn đó theo độ dốc không đổi xuống các tỷ số ở tần suất bất nhất và các tần suất thấp hơn cho đến 1,58 năm, sao cho hội tụ về 1,0 trước 1,58 năm.
Các tỷ số sau điều chỉnh khi đó sẽ ≥ 1,0 như kỳ vọng. Bảng 4.6.1 cho ví dụ ở Ohio River basin và vùng lân cận đối với tỷ số 3-giờ/2-giờ cho các khoảng lặp từ 1,58 năm đến 1.000 năm tại một trạm, trước và sau khi điều chỉnh nội bộ. Hình 4.6.1 cho thấy các phân vị 3-giờ tương ứng, trước và sau điều chỉnh.
Trong đa số trường hợp, chỉ cần áp dụng điều chỉnh từ 1,58 năm đến 1.000 năm là đủ. Tuy nhiên, nếu bất nhất chỉ xuất hiện ở một vài tần suất (ví dụ giữa 50 năm và 500 năm), vẫn áp dụng điều chỉnh từ 1,58 năm đến 1.000 năm để bảo đảm nhất quán mà không làm thay đổi các phân vị vốn đã đáp ứng điều kiện.
Bảng 4.6.1. Ví dụ điều chỉnh tính nhất quán nội bộ của các phân vị, thể hiện tỷ số phân vị 3 giờ/2 giờ cho các khoảng lặp từ 1,58 năm đến 1.000 năm tại trạm 15-3709, Hazard, Kentucky.
| Tỷ số 3 giờ / 2 giờ | 1,58 năm | 2 năm | 5 năm | 10 năm | 25 năm | 50 năm | 100 năm | 200 năm | 500 năm | 1.000 năm |
|---|---|---|---|---|---|---|---|---|---|---|
| Trước điều chỉnh | 1.025 | 1.022 | 1.017 | 1.009 | 1.004 | 0.997 | 0.994 | 0.990 | 0.983 | 0.979 |
| Sau điều chỉnh | 1.025 | 1.022 | 1.017 | 1.009 | 1.004 | 1.003 | 1.003 | 1.002 | 1.002 | 1.001 |
Ghi chú: Sau điều chỉnh, các tỷ số ≳ 1.0 để bảo đảm tính đơn điệu (thời đoạn dài không nhỏ hơn thời đoạn ngắn).

4.6.4. Hệ số chuyển đổi từ AMS sang PDS
Dữ liệu chuỗi cực đại năm (AMS) gồm ca lớn nhất trong mỗi năm, bất kể ca lớn thứ hai trong năm đó có vượt các ca lớn nhất của các năm khác hay không. Trong dự án này, chuỗi partial duration (PDS) là một tập con của chuỗi dữ liệu đầy đủ, trong đó chọn N ca lớn nhất và N bằng số năm của chuỗi; loại chuỗi như vậy cũng được gọi là chuỗi vượt quá năm (AES) (Chow và cs., 1988). Trong Atlas này, việc dùng thuật ngữ PDS là theo nghĩa AES.
Dữ liệu AMS được dùng cho mọi thời đoạn từ 5 phút đến 60 ngày và cho các xác suất vượt quá hàng năm (AEP) từ 1/2 đến 1/1.000. Việc dùng dữ liệu AMS phù hợp với khái niệm phân tích tần suất và thao tác với xác suất vượt quá hàng năm, đồng thời phù hợp với nền tảng thống kê của dự án. Cách tiếp cận thống kê đối với dữ liệu PDS thì kém “chuẩn hóa” hơn. Tuy nhiên, để nhất quán với các nghiên cứu trước (ví dụ NOAA Atlas 2) và đáp ứng nhu cầu hiện nay ở chu kỳ lặp ngắn, NOAA Atlas 14 cũng trình bày kết quả theo PDS. Sự khác nhau về ý nghĩa giữa kết quả dựa trên AMS và PDS được thảo luận ở Mục 3.2.
Kết quả PDS được thu bằng cách phân tích AMS và PDS tách biệt, sau đó lấy trung bình các tỷ số giữa phân vị PDS và phân vị AMS, rồi áp tỷ số trung bình này vào kết quả AMS. Các tỷ số PDS/AMS được xây dựng bằng cách fit phân phối độc lập cho dữ liệu AMS và PDS riêng cho từng vùng, rồi mới lấy trung bình. Hình 4.6.2 trình bày kết quả trung bình của các tỷ số PDS/AMS cho dữ liệu 24 giờ trên 59 vùng đồng nhất trong phạm vi dự án. Để tính đến dao động do lấy mẫu và tạo đường cong trơn, nhất quán, đã áp dụng tiệm cận 1.004 cho các chu kỳ lặp từ 50 năm trở lên.

Các tỷ số trong Atlas này (Bảng 4.6.2) nhất quán với NOAA Atlas 2 và các tính toán lý thuyết. Ví dụ, Chow (1988) đề xuất một quan hệ toán học theo chu kỳ lặp (T) giữa PDS (hay AES) và AMS:
$$T_{AES}=\left[\ln\!\left(\frac{T_{AMS}}{T_{AMS}-1}\right)\right]^{-1}.$$
Theo quan hệ này, giá trị AMS 2 năm tương đương với giá trị AES 1,44 năm. Kết quả của dự án phù hợp với quan hệ đó. Các tỷ số này cũng phù hợp với kết quả của dự án tần suất mưa gần đây cho Ohio River Basin và các bang lân cận (Bonnin và cs., 2004). Sự nhất quán của các tỷ số PDS/AMS với các nguồn suy dẫn khác củng cố mạnh mẽ tính hợp lệ của kết quả dự án, vì các phân vị PDS và AMS được suy ra độc lập bằng các phân phối xác suất khác nhau.
Để suy ra tỷ số PDS/AMS, dữ liệu được dùng ở cấp vùng (loại trừ số liệu tại chính trạm). Generalized Pareto (GPA) được chọn là phân phối phù hợp nhất cho dữ liệu PDS ở tất cả các vùng trừ 9 vùng; với các vùng 9, 24, 29, 33, 35, 50, 55, 56 và 59, Generalized Normal (GNO) là phân phối phù hợp nhất.
Bảng 4.6.2. Tỷ số PDS/AMS cho mọi thời đoạn trong NOAA Atlas 14, Tập 1 (áp dụng tiệm cận 1,004 từ 50 năm trở lên).
| Chu kỳ lặp | 2 năm | 5 năm | 10 năm | 25 năm | 50 năm | 100 năm | 200 năm | 500 năm | 1.000 năm |
|---|---|---|---|---|---|---|---|---|---|
| Tỷ số PDS/AMS | 1.113 | 1.029 | 1.013 | 1.006 | 1.004 | 1.004 | 1.004 | 1.004 | 1.004 |
4.7. Ước lượng các giới hạn tin cậy (confidence limits)
Lần đầu tiên, National Weather Service cung cấp giới hạn tin cậy cho các ước lượng nhằm định lượng mức độ bất định. Việc này giúp người dùng hiểu rõ hơn về bất định và làm tăng tính hữu dụng của các ước lượng trong thực hành thiết kế kỹ thuật và môi trường. Bản thân các phân vị là những biến thống kê thay đổi trong một khoảng chưa biết theo một phân phối chưa biết. Để đánh giá định lượng bất định, kỹ thuật mô phỏng Monte Carlo được dùng để sinh 1.000 bộ dữ liệu tổng hợp có cùng các đặc trưng thống kê.
Các giới hạn tin cậy trên và dưới ở mức 90% được tính cho ước lượng tần suất mưa của từng trạm bằng mô phỏng Monte Carlo kết hợp với phương pháp L-moments cấp vùng, như Hosking & Wallis (1997) đề xuất. Các tham số mẫu tại mỗi trạm được dùng trong 1.000 lần mô phỏng để tạo 1.000 mẫu có độ dài chuỗi và tham số vùng trung bình giống dữ liệu thực. Với mỗi trạm, tính 1.000 giá trị phân vị; sau đó lấy 5% lớn nhất và 5% nhỏ nhất để xác định biên trên và biên dưới của giới hạn tin cậy. Đối với dữ liệu n-phút, các tỷ số n-phút (tức ước lượng trung bình tần suất mưa n-phút so với 60-phút) được áp dụng lên lưới 60-phút (biên trên/dưới) để suy ra biên trên/dưới cho các ước lượng n-phút.
Các giới hạn tin cậy được hiệu chỉnh để nhất quán với phân vị tương ứng bằng cách áp dụng tỷ số giữa phân vị trước điều chỉnh và sau điều chỉnh, theo cách tương tự các điều chỉnh tính nhất quán cho trạm cùng vị trí giờ/ngày và trạm chỉ-theo-giờ. Với trạm cùng vị trí hoặc chỉ-theo-ngày, giới hạn tin cậy 24-giờ được suy ra từ kết quả trạm trong phân tích vùng theo ngày.
Việc ước lượng giới hạn tin cậy cung cấp miền sai số cho chính các phân vị, giả định rằng dữ liệu đã được kiểm soát chất lượng tốt; ước lượng không bao gồm sai số liên quan đến đo mưa và quy trình nội suy không gian.
4.8. Nội suy không gian
4.8.1. Lưới giá trị cực đại trung bình năm (hay “Index Flood”)
Như đã giải thích ở Mục 4.6.1, giá trị cực đại trung bình năm tại từng trạm được dùng như hệ số tỷ lệ đặc thù vị trí để tạo các ước lượng tần suất mưa từ hệ số tăng trưởng vùng (RGFs). Các giá trị cực đại trung bình năm ở trạm được nội suy không gian để tạo thành các lưới cực đại trung bình năm (hay lưới “Index Flood”) bằng công nghệ do Spatial Climate Analysis Service (SCAS) của Oregon State University phát triển. SCAS đã phát triển PRISM (Parameter-elevation Regressions on Independent Slopes Model) — một cách tiếp cận lai giữa thống kê và địa–khí hậu để lập bản đồ dữ liệu khí hậu (Daly & Neilson, 1992; Daly et al., 1994; 1997; 2002). PRISM nội suy không gian các giá trị cực đại trung bình năm do HDSC tính toán bằng cách khai thác mối liên hệ tự nhiên rất mạnh với lượng mưa trung bình năm.
SCAS hiệu chỉnh PRISM để sử dụng các lưới lượng mưa trung bình năm sẵn có (USDA-NRCS, 1998), sau khi lấy căn bậc hai, làm lưới biến dự báo nhằm nội suy cực đại trung bình năm lên một lưới đều. Lượng mưa trung bình năm được chọn làm biến dự báo vì dựa trên bộ dữ liệu lớn, phản ánh biến thiên không gian của thông tin khí hậu và nhất quán với các dự án trước đây, kể cả NOAA Atlas 2. PRISM dùng một hàm hồi quy riêng cho mỗi ô lưới đích và có khả năng xét đến: hiểu biết của người dùng, khoảng cách từ trạm quan trắc đến ô đích, việc trạm có thuộc một cụm trạm, chênh lệch lượng mưa trung bình năm giữa trạm và ô đích, đặc trưng địa hình (facet) và mức độ gần bờ biển. Các tham số khác gồm bán kính ảnh hưởng, số trạm tối thiểu trên một facet và tổng số trạm tối thiểu cần cho hồi quy để ước lượng cực đại trung bình năm tại một ô lưới. Thống kê cross-validation của PRISM được tính bằng cách lần lượt loại bỏ từng trạm khỏi bộ dữ liệu và dự báo trong điều kiện thiếu trạm đó. Kết quả cho thấy thiên lệch tổng thể < 2% và sai số chuẩn trung bình ≈ 10% đối với Atlas này. Phụ lục A.4 cung cấp thêm chi tiết về công việc SCAS thực hiện cho HDSC.
Bảng 4.8.1 liệt kê các lưới cực đại trung bình năm (tức “Index Flood”) — mỗi thời đoạn một lưới — được nội suy bằng PRISM. Các lưới đầu ra độ phân giải cao (30-giây, xấp xỉ 0,5 mile × 0,5 mile) này sau đó được dùng làm nền tảng để suy ra các ước lượng tần suất mưa theo nhiều chu kỳ lặp khác nhau, thông qua một thủ tục nội suy không gian độc đáo do HDSC phát triển, gọi là CRAB (Cascade, Residual Add-Back), trình bày chi tiết ở Mục 4.8.2.
Có thể xuất hiện độ lệch giữa giá trị điểm quan trắc của cực đại trung bình năm trong cơ sở dữ liệu HDSC và giá trị ô lưới sau nội suy do các kỹ thuật nội suy và làm mượt của PRISM. “Cơ sở dữ liệu HDSC” gồm các ước lượng tần suất mưa, giá trị cực đại trung bình năm và siêu dữ liệu (kinh độ, vĩ độ, thời kỳ số liệu, v.v.) của từng trạm. Các độ lệch này xảy ra vì PRISM tạo ra các giá trị nội suy giúp giảm khác biệt giữa ước lượng tại điểm quan trắc và các trạm lân cận có khí hậu tương tự, lượng mưa trung bình năm, cao độ, hướng sườn, khoảng cách tới thủy vực lớn và ảnh hưởng bóng mưa. Xem thêm Phụ lục A.4.
Bảng 4.8.1. Lưới cực đại trung bình năm (Index Flood) nội suy bằng PRISM
| STT | Thời đoạn (Duration) |
|---|---|
| 1 | 60 phút (60-minute) |
| 2 | 120 phút (120-minute) |
| 3 | 3 giờ (3-hour) |
| 4 | 6 giờ (6-hour) |
| 5 | 12 giờ (12-hour) |
| 6 | 24 giờ (24-hour) |
| 7 | 48 giờ (48-hour) |
| 8 | 4 ngày (4-day) |
| 9 | 7 ngày (7-day) |
| 10 | 10 ngày (10-day) |
| 11 | 20 ngày (20-day) |
| 12 | 30 ngày (30-day) |
| 13 | 45 ngày (45-day) |
| 14 | 60 ngày (60-day) |
4.8.2. Suy dẫn (dẫn xuất) các lưới tần suất mưa
Quy trình lưới CRAB (Cascade, Residual Add-Back) là một kỹ thuật nội suy không gian độc đáo do HDSC phát triển để chuyển các lưới cực đại trung bình năm thành các lưới ước lượng tần suất mưa (xem Hình 4.8.1). “Triết lý CRAB” lần đầu được áp dụng khi xây dựng một số bản đồ trong Climate Atlas of the United States của NCDC (Plantico và cộng sự, 2000).
CRAB cho phép làm mượt và nội suy vượt qua ranh giới “vùng” để loại bỏ khả năng xuất hiện các đứt gãy do RGF khác nhau—kết quả của phân tích L-moments cấp vùng. Đúng như tên gọi “cascade”, CRAB dùng lưới vừa suy ra để suy ra lưới kế tiếp theo chiều tần suất, còn các phân vị của từng thời đoạn thì được nội suy tách biệt. Bởi vậy, mẫu hình không gian phụ thuộc thời đoạn sẽ phát triển độc lập giữa các thời đoạn.
CRAB khai thác mối quan hệ tuyến tính vốn rất mạnh giữa các tần suất khác nhau tại cùng một thời đoạn; về thực chất, mối quan hệ này chính là tỷ số các RGF (ví dụ, RGF 24-giờ 100 năm / RGF 24-giờ 50 năm) và cố định theo từng vùng. Bước đầu, CRAB khái quát hóa rằng mọi vùng có cùng tỷ số RGF, từ đó tạo ra ước lượng tần suất mưa dự báo tuyến tính: vùng này có thể bị dự báo cao, vùng khác bị dự báo thấp.
Để hiệu chỉnh khác biệt giữa các vùng, CRAB dùng phần dư — tức hiệu giữa ước lượng tần suất mưa dựa trên tỷ số RGF đã khái quát (toàn các vùng) và ước lượng tần suất mưa thực tế tại từng trạm. Nhờ cách khái quát đó, các phần dư theo từng trạm trong mỗi vùng thường cùng dấu (dương, âm, hoặc gần 0) do tự tương quan không gian mạnh và CRAB có khả năng nội suy phần dư tốt. Kết hợp với tính tuyến tính mạnh khi đi từ lưới này sang lưới kế tiếp, CRAB trở thành phương pháp hiệu quả để tạo ra các lưới tần suất mưa nhất quán theo không gian.
Như đã nêu, quy trình suy dẫn CRAB khai thác mối quan hệ tuyến tính rất mạnh giữa một thời đoạn và tần suất nhất định, các ước lượng “predictor”, và tần suất hiếm hơn kế tiếp của cùng thời đoạn. Hình 4.8.2 minh họa mối quan hệ giữa ước lượng tần suất mưa “predictor” (ví dụ: 24 giờ – 50 năm) và ước lượng tần suất mưa kế tiếp (24 giờ – 100 năm). Giá trị R² = 0,9986 ở đây rất gần 1,0, điều vốn phổ biến trong tất cả các hồi quy. Vì phép tính dùng mọi trạm trong vùng dự án, độ dốc của quan hệ này (1,1345) có thể xem như tỷ số RGF trung bình trên toàn miền. Các khác biệt theo vùng sau đó được hiệu chỉnh bằng phần dư (residuals).
Tóm lược toàn bộ thủ tục CRAB được minh họa trong Hình 4.8.1 và có thể gói gọn thành một chuỗi bước. Trong mô tả này, thuật ngữ “predictor” chỉ lưới trước đó làm cơ sở để suy ra lưới kế tiếp.

Bước 1: Xây dựng hồi quy
Chuỗi cascade bắt đầu với lưới cực đại trung bình năm do SCAS tạo bằng PRISM cho một thời đoạn cho trước, được dùng làm lưới dự báo (predictor) ban đầu (ví dụ: cực đại trung bình năm 24-giờ), và lưới kế tiếp là tần suất 2 năm của cùng thời đoạn (ví dụ: 24-giờ 2 năm). Tất cả ước lượng tần suất mưa trong cơ sở dữ liệu HDSC được hiệu chỉnh để phù hợp với làm mượt không gian của các lưới cực đại trung bình năm PRISM.
Một hệ số hiệu chỉnh được tính từ chênh lệch giữa giá trị ô lưới PRISM của cực đại trung bình năm và giá trị điểm cực đại trung bình năm tính từ số liệu quan trắc (theo CSDL HDSC). Hệ số này là giá trị riêng cho từng trạm, áp dụng lên các ước lượng tần suất mưa và không phụ thuộc tần suất.
Ví dụ: một trạm có cực đại trung bình năm 60-phút quan trắc được là 0.82 inch, trong khi ô lưới PRISM tại vị trí đó là 0.861 inch → hệ số hiệu chỉnh = 1.05. Hệ số này được nhân vào mọi ước lượng tần suất mưa 60-phút (từ 2 năm đến 1.000 năm) trước khi lập phương trình hồi quy. Các ước lượng tần suất mưa đã hiệu chỉnh này tương đương với ước lượng gốc. Trong đa số trường hợp, mức hiệu chỉnh là ±5% (xem Phụ lục A.4).
Ở đầu mỗi vòng lặp, một quan hệ toàn miền (all-region) cho mỗi cặp thời đoạn/tần suất được xây dựng dựa trên ước lượng tần suất tại trạm (đã hiệu chỉnh làm mượt) ở tất cả các trạm.
Để xây dựng quan hệ toàn miền, tạo một tệp dữ liệu x–y trong đó ban đầu x là cực đại trung bình năm của một thời đoạn, còn y là ước lượng tần suất 2 năm của cùng thời đoạn tại từng trạm. Tính hệ số góc và tung độ gốc của đường hồi quy tuyến tính bình phương tối thiểu dùng tất cả các trạm trong miền. Với mỗi vùng, hệ số góc của đường này tương đương RGF 2 năm ở lần chạy đầu, và tương đương tỷ số RGF ở các lần chạy tiếp theo.
Hình 4.8.1. Lưu đồ quy trình suy dẫn lưới CRAB (cascade residual add-back), bắt đầu từ lưới cực đại trung bình năm của thời đoạn x và minh họa cách suy ra lưới thời đoạn x – 2 năm.



- Lọc & lưu lưới dự báo kế tiếp
Áp dụng bộ lọc khối nhỏ (3×3 ô lưới), trọng tâm cho lưới gần-cuối (pre-final) để khử nhiễu và làm mượt đường đẳng trị. Lưới không gán mặt nạ (unmasked), không lọc (unfiltered), chưa điều chỉnh các vi phạm tính nhất quán nội bộ – IC này được lưu làm lưới predictor kế tiếp. - Kiểm tra IC theo thời đoạn (duration-based)
Khi x không phải là cực đại trung bình năm (lưu ý: cực đại trung bình năm chỉ dùng ở vòng lặp đầu), kiểm tra lưới gần-cuối đã lọc để bảo đảm y lớn hơn lưới cuối của thời đoạn ngắn hơn kế tiếp tại cùng tần suất (ví dụ: 5y24h > 5y12h). Ô nào vi phạm, thì điều chỉnh y bằng cách đặt giá trị ô = thời đoạn ngắn hơn kế tiếp + 1%. - Kiểm tra IC theo tần suất (frequency-based)
Cũng trong trường hợp x không phải là cực đại trung bình năm, kiểm tra lưới gần-cuối đã lọc để bảo đảm y lớn hơn x (tức lưới cuối ở tần suất cao hơn kế tiếp, ví dụ: 5y24h > 2y24h). Ô nào vi phạm, thì điều chỉnh y bằng cách đặt giá trị ô = tần suất cao hơn kế tiếp + 1%. Kết quả thu được là lưới cuối (final grid). - Kiểm tra IC bổ sung cho dải tin cậy
Nếu x & y là biên trên/dưới của ước lượng tần suất mưa, thì thực hiện các kiểm tra IC bổ sung (ví dụ: bảo đảm 5y24h_upper > 5y24h). - Suy ra lưới n-phút từ 60 phút
Nếu thời đoạn = 60 phút, tính các lưới n-phút (5, 10, 15, 30 phút) bằng cách áp dụng tỷ số 60-phút→n-phút trên toàn miền cho lưới cuối.
Bước 2: Xây dựng các lưới “ước đoán ban đầu” (first guess grids).
Quan hệ hồi quy tuyến tính toàn miền được áp dụng (trong GIS) lên lưới predictor (ví dụ: lưới cực đại trung bình năm 24-giờ) để tạo lưới ước đoán ban đầu (ví dụ: 24-giờ – 2 năm). Lưu ý lưới này không nhất thiết trùng với các ước lượng thực tế vốn dựa trên RGF riêng của từng vùng.
Bước 3: Xây dựng các lưới phần dư nội suy không gian.
Để xét đến khác biệt vùng, tính phần dư tại từng trạm (thực tế – dự báo), trong đó giá trị dự báo (ví dụ: 24-giờ – 2 năm) là giá trị lấy từ lưới first guess. Các phần dư được chuẩn hóa bằng cách chia cho cực đại trung bình năm để thuận tiện nội suy đến các vị trí không có trạm.
Các phần dư đã chuẩn hóa tại từng trạm sau đó được nội suy lên lưới bằng thuật toán IDW (trọng số theo khoảng cách nghịch đảo) trong GRASS GIS (bản hiệu chỉnh; GRASS, 2002) để tạo lưới phần dư đã chuẩn hóa. Để cho kết quả mượt, trước khi nội suy bằng IDW, độ phân giải không gian được giảm từ 30-giây xuống 1-phút; sau đó, kết quả được lấy mẫu lại về 30-giây cho các bước tiếp theo. Đã thực hiện các thử nghiệm nhạy cảm để chọn độ phân giải tối ưu, nhằm tránh làm mượt quá mức (có thể làm bản đồ lệch khỏi các phân vị thu được từ phân tích L-moments).
Phương pháp IDW giả định giá trị tại một điểm chưa lấy mẫu có thể ước tính như trung bình có trọng số của các điểm trong một phạm vi nhất định hoặc của m điểm gần nhất; trong CRAB dùng 12 điểm gần nhất (m = 12). Trọng số tỉ lệ nghịch với lũy thừa của khoảng cách (mét). Tại điểm chưa lấy mẫu r=(x,y)r=(x,y), công thức là:
$$F(r)=\frac{\displaystyle\sum_{j=1}^{m}\, \frac{z(r_j)}{|\,r-r_j\,|^{p}}} {\displaystyle\sum_{j=1}^{m}\, \frac{1}{|\,r-r_j\,|^{p}}}$$
(E.8, Neteler and Mitasova, 2002)
trong đó:
F(r) = lượng mưa nội suy tại ô lưới chưa lấy mẫu;
z = lượng mưa tại điểm mẫu;
m=12; p=2;
\(r_j\) = vị trí điểm mẫu thứ j; r = vị trí ô lưới chưa lấy mẫu.
IDW được thực hiện trong hệ chiếu địa lý (vĩ-kinh độ); khoảng cách giữa r và \(r_j\) được tính bằng mét. IDW được chọn vì về định nghĩa đây là bộ nội suy “chính xác”: giá trị nội suy tại vị trí trạm trùng với phần dư đã chuẩn hóa quan trắc; điều này quan trọng để khi chuyển ngược phần dư đã chuẩn hóa về phần dư thực, chúng khớp không gian với phần dư thực tại trạm. Do cực đại trung bình năm có tính nhất quán không gian cao, các phần dư chuẩn hóa cũng có xu thế nhất quán theo vùng; vì vậy, IDW là sơ đồ nội suy phù hợp (xem thêm chi tiết quy trình trong Hình 4.8.1).
Bản dịch:
Lưới phần dư đã chuẩn hóa được khử chuẩn hóa bằng cách nhân nó với lưới cực đại trung bình năm đã nội suy không gian ban đầu, để thu được lưới phần dư thực nội suy không gian cho toàn vùng dự án. Hình 4.8.3 cho thấy mối quan hệ giữa phần dư thực 24 giờ – 100 năm và ước lượng cực đại trung bình năm 24 giờ. Mỗi cụm tuyến tính trên biểu đồ phân tán này biểu diễn các trạm trong cùng một vùng nhưng có độ sâu mưa 24 giờ – 100 năm khác nhau.

Bước 4: Xây dựng các lưới “gần-cuối” (pre-final grids).
Lưới phần dư thực đã nội suy không gian được cộng vào lưới ước đoán ban đầu (first guess) để tạo lưới gần-cuối (ví dụ: 24 giờ – 2 năm). Để khử nhiễu thừa và làm mượt các đường đẳng trị, áp dụng bộ lọc trung bình khối 3×3 ô lưới. Nhằm tránh lan truyền sai số có thể phát sinh ở bước điều chỉnh tính nhất quán nội bộ (mô tả ở Bước 5), lưới gần-cuối được lưu trữ và dùng làm lưới dự báo (predictor) cho lần suy dẫn lưới tần suất mưa kế tiếp. Ví dụ, lưới gần-cuối 24 giờ – 2 năm được dùng làm predictor cho lưới 24 giờ – 5 năm, thay vì dùng lưới cuối 24 giờ – 2 năm, để trung thực với dữ liệu và cho phép các mẫu hình phát triển mà không bị ảnh hưởng bởi các điều chỉnh/lọc.
Bước 5: Kiểm tra tính nhất quán nội bộ (internal consistency).
Để bảo đảm tính nhất quán nội bộ của các giá trị ô trong lưới gần-cuối, tiến hành hai nhóm kiểm tra: theo tần suất và theo thời đoạn.
- Vi phạm theo tần suất (ví dụ: 100 năm < 50 năm) rất hiếm; nếu có thì mức vi phạm cũng nhỏ so với độ lớn các ước lượng tần suất mưa.
- Vi phạm theo thời đoạn (ví dụ: 24 giờ < 12 giờ) phổ biến hơn, đặc biệt giữa 120 phút và 3 giờ, nhưng cũng chỉ nhỏ so với độ lớn các ước lượng.
Cách khắc phục: giá trị ô của thời đoạn dài hơn hoặc tần suất hiếm hơn được điều chỉnh bằng cách nhân giá trị ô của thời đoạn ngắn hơn hoặc tần suất thường hơn với 1,01 để tạo chênh 1% giữa hai ô. Chọn 1% (thay vì một hằng số tuyệt đối) để mức chênh tỷ lệ theo độ lớn của các ô, vừa đủ nhỏ để hiệu chỉnh mà không làm thay đổi những dữ liệu vốn đã thỏa điều kiện. Trình tự thực hiện: kiểm tra/điều chỉnh theo thời đoạn trước, tạo ra lưới gần-cuối mới; tiếp đó kiểm tra/điều chỉnh theo tần suất. Lưới thu được cuối cùng trở thành lưới cuối (final grid) cho tần suất và thời đoạn đang xét (ví dụ: 24 giờ – 2 năm).
Phát triển các lưới n-phút.
Các thời đoạn ngắn hơn 60 phút (tức các ước lượng tần suất mưa n-phút) được tính bằng cách nhân hệ số tỷ lệ tuyến tính vào các lưới cuối của ước lượng tần suất mưa 60 phút đã nội suy không gian. Do số trạm n-phút rất ít trong khu vực dự án, các tỷ số toàn miền giữa n-phút/60-phút được tính bình quân trên toàn vùng nghiên cứu (Mục 4.1.1). Dùng các tỷ số này (liệt kê lại ở Bảng 4.8.2), ta nhân lưới 60 phút cuối với tỷ số tương ứng để thu được lưới n-phút. Các tỷ số này được áp dụng cho mọi tần suất, cũng như cho cả lưới biên trên và biên dưới của n-phút.
Bảng 4.8.2. Tỷ số n-phút trong NOAA Atlas 14 Tập 1: 5-, 10-, 15- và 30-phút so với 60-phút.
| Thời đoạn | 5 phút | 10 phút | 15 phút | 30 phút |
|---|---|---|---|---|
| Tỷ số (n/60) | 0.318 | 0.484 | 0.600 | 0.808 |
Thẩm định (Validation).
Các lưới cực đại trung bình năm bản nháp ban đầu (còn gọi là “Index Flood”) cho Atlas này, cùng với các lưới tần suất mưa 24 giờ–100 năm và 60 phút–100 năm suy dẫn bằng CRAB, đã được phản biện đồng cấp (Phụ lục A.6). Sau khi xem xét và xử lý toàn bộ ý kiến phản biện, các lưới cực đại trung bình năm cuối cùng được PRISM tạo lại và quy trình CRAB được chạy lại.
Ngoài ra, đối chứng chéo kiểu jackknife (jackknife cross-validation) cho phép đánh giá khách quan hơn độ tin cậy của các lưới tần suất mưa. Bài toán jackknife được thực hiện bằng cách chạy CRAB có một trạm trong bộ dữ liệu, lưu giá trị ô lưới đích (tại vị trí trạm), rồi chạy lại CRAB không có trạm đó và so sánh hai giá trị ô lưới đích. Do chi phí quá lớn, không thể tái tạo các lưới PRISM cực đại trung bình năm cho từng vòng đối chứng chéo; vì vậy, kết quả đối chứng chéo phản ánh độ chính xác của CRAB dựa trên cùng một bộ lưới cực đại trung bình năm. Việc so sánh được dùng để kiểm tra độ vững và độ chính xác của phép nội suy CRAB. Một phép thẩm định “hoàn hảo” sẽ cho hai giá trị bằng nhau — có và không có trạm. Kết quả 60 phút–100 năm (đòi hỏi nội suy nhiều nhất tới các vị trí không có trạm do số trạm theo giờ ít) cho thấy CRAB hoạt động tốt (Hình 4.8.4). Thông điệp chính của Hình 4.8.4 là nhìn chung CRAB tái tạo tốt các giá trị khi thiếu dữ liệu trạm. Hình cũng cho thấy CRAB hơi có xu hướng đánh giá thấp giá trị tần suất mưa tại một vị trí khi không có trạm.

Suy dẫn các lưới giới hạn trên/dưới của ước lượng tần suất mưa
Các lưới giới hạn trên và giới hạn dưới của ước lượng tần suất mưa cũng được suy dẫn bằng quy trình CRAB. Việc thử nghiệm cho thấy cách tốt nhất để suy ra các lưới giới hạn trên/dưới là dùng lưới giới hạn liền trước (trên hoặc dưới) làm lưới dự báo (predictor) đồng thời làm lưới chuẩn hóa cho lưới giới hạn đang suy ra, thay vì dùng lưới giá trị trung bình tương ứng.
Mặc dù các ước lượng giới hạn trên/dưới có độ ổn định hơi kém hơn so với các lưới trung bình, chúng vẫn biểu hiện quan hệ tuyến tính mạnh với lưới trước đó (predictor). Lưới cực đại trung bình năm cùng thời đoạn (lưới “Index Flood” do PRISM tạo) được dùng làm predictor ban đầu cho các lưới ước lượng tần suất mưa giới hạn trên và giới hạn dưới ở chu kỳ 2 năm. Hình 4.8.5 là biểu đồ phân tán giữa giá trị trung bình 24 giờ và giới hạn trên 24 giờ – 2 năm của ước lượng tần suất mưa.

Tương tự các lưới ước lượng tần suất mưa, các lưới giới hạn trên/dưới cũng được đánh giá và hiệu chỉnh để bảo đảm tính nhất quán nội bộ. Dù rất hiếm, các hiệu chỉnh theo thời đoạn được áp dụng để bảo đảm giá trị ô lưới của giới hạn trên (dưới) lớn hơn (nhỏ hơn) giá trị trung bình. Nếu xảy ra vi phạm (ví dụ: 60-phút 100 năm < giới hạn dưới 60-phút 100 năm), thì lưới giới hạn trên (dưới) được tăng (giảm) thêm 1% của lưới trung bình. Giống như với các lưới mưa, khi cần sẽ thực hiện các hiệu chỉnh theo tần suất hoặc theo thời đoạn. Để khắc phục mọi vi phạm nhất quán nội bộ, giá trị ô lưới của thời đoạn dài hơn hoặc tần suất hiếm hơn được hiệu chỉnh bằng cách nhân giá trị ô của thời đoạn ngắn hơn hoặc tần suất thường hơn với 1,01, tạo chênh lệch 1% giữa hai ô.
(nd: hệ số xác định – R2)
R2:
\(R^2\) (coefficient of determination – hệ số xác định) đo phần trăm phương sai của biến đáp ứng y được giải thích bởi mô hình tuyến tính với biến dự báo x.
Công thức chuẩn (hồi quy có hằng số):
\(R^2 \;=\; 1-\frac{\text{SSE}}{\text{SST}} \;=\; \frac{\text{SSR}}{\text{SST}}\)
trong đó
\(\text{SSE}=\sum (y_i-\hat y_i)^2\) (tổng sai số bình phương),
\(\text{SST}=\sum (y_i-\bar y)^2\) (tổng phương sai quan sát),
\(\text{SSR}=\sum (\hat y_i-\bar y)^2\) (phần mô hình giải thích).
+ Với hồi quy tuyến tính đơn: \(R^2 = r^2\)
trong đó r là hệ số tương quan Pearson giữa x và y.
Diễn giải đồ hình 4.8.5: \(R^2 \approx 0{,}9922\) nghĩa là ~99,22% biến thiên không gian của giới hạn trên 24 h–2 năm được giải thích bởi Index Flood 24 h qua quan hệ tuyến tính; còn lại ~0,78% là nhiễu/phần dư.
Lưu ý: \(R^2\) cao không đảm bảo mô hình không lệch (xem hệ số góc 1,0471 và tung độ gốc −0,0264), không hàm ý quan hệ nhân quả, và có thể giảm khi đánh giá out-of-sample; khi thêm nhiều biến nên xem thêm Adjusted \(R^2\).
Ý nghĩa \(R^2\):
\(R^2\) (hệ số xác định) cho biết tỷ lệ % biến thiên của y được giải thích bởi mô hình tuyến tính theo x.
\(R^2=1\) → điểm dữ liệu nằm sát đường hồi quy (giải thích trọn vẹn); \(R^2=0\) → mô hình tuyến tính không giải thích được biến thiên.
Trong hình 4.8.5: \(R^2=0{,}9922\) nghĩa là ≈99,22% khác biệt của giới hạn trên 24h–2 năm được giải thích bởi 24h “Index Flood” qua quan hệ tuyến tính; chỉ ≈0,78% còn lại là nhiễu/phần dư.
Ngắn gọn:
- R² không nói “đúng tuyệt đối”. Nó chỉ cho biết bao nhiêu % biến thiên của yy được đường hồi quy giải thích.
- “Lệch/bias” & “đúng tuyệt đối/accuracy” nằm ở:
- Hệ số góc & tung độ gốc:
- Nếu mục tiêu là quan hệ 1:1 thì slope ≠ 1 → lệch tỉ lệ; intercept ≠ 0 → lệch cộng.
- Ở hình: y=1.0471x-0.0264 → xu hướng tăng nhanh hơn ~4.7%/inch (lệch tỉ lệ nhẹ) và dịch −0.0264 inch (lệch cộng rất nhỏ).
- Phần dư (residuals) giữa giá trị quan sát và giá trị trên đường hồi quy: kích thước phần dư mới phản ánh độ chính xác tuyệt đối. Đo bằng các chỉ số:
- ME/MBE (bias): \(\frac{1}{n}\sum (y_i-\hat y_i)\)
- MAE: \(\frac{1}{n}\sum |y_i-\hat y_i|\)
- RMSE: \(\sqrt{\frac{1}{n}\sum (y_i-\hat y_i)^2}\)
- (Có thể dùng %bias, MAPE, v.v.)
- Đối chứng chéo (out-of-sample). Trong Atlas 14, jackknife (Hình 4.8.4) cho thấy có khuynh hướng under-predict nhẹ khi thiếu trạm — đó chính là dấu hiệu bias trong thực tế.
- Hệ số góc & tung độ gốc:
- Tóm lại: muốn biết “lệch hay đúng tuyệt đối”, hãy xem slope/intercept, thống kê phần dư (RMSE/MAE/MBE) và kết quả cross-validation — chứ không dựa vào \(R^2\).
4.8.3. Dữ liệu giả (pseudo data)
Vì mỗi thời đoạn được tính độc lập, nên có khả năng xuất hiện bất nhất giữa các thời đoạn tại một vị trí. Trong nội suy không gian, điều này đặc biệt đáng lưu ý ở các trạm chỉ-theo-giờ và chỉ-theo-ngày. Tuy vậy, các bất nhất như vậy hiếm.
Ở các trạm chỉ-theo-giờ, bất nhất có thể xảy ra vì các ước lượng 60 phút đến 48 giờ được dùng để neo phép nội suy, trong khi các ước lượng 4 ngày đến 60 ngày tại chính các vị trí đó lại được tính trong quá trình nội suy không gian dựa trên ước lượng ở các trạm theo ngày lân cận. Trong giai đoạn đánh giá các lưới, HDSC phát hiện 6 trường hợp có bất nhất giữa các ước lượng tần suất mưa từ 48 giờ đến 4 ngày. Mỗi trường hợp đều được xử lý sau khi rà soát số liệu quan trắc và hành vi của các trạm lân cận. Một số trường hợp cho thấy dữ liệu 48 giờ dẫn xuất từ quan trắc theo giờ kém tin cậy hơn so với dữ liệu dẫn xuất từ quan trắc theo ngày; khi đó, ước lượng điểm 48 giờ được loại bỏ và thay bằng ước lượng nội suy không gian. Với các trường hợp còn lại, mẫu hình không mâu thuẫn với khí hậu có thể có trong khu vực nên được giữ lại.
Tương tự, có 21 trường hợp phát sinh bất nhất ở các trạm chỉ-theo-ngày vì các ước lượng 24 giờ đến 60 ngày được dùng để neo phép nội suy, trong khi các ước lượng 60 phút đến 12 giờ tại chính các vị trí đó lại được tính trong quá trình nội suy dựa trên ước lượng ở các trạm theo giờ lân cận. Trong 21 trường hợp này, các ước lượng tần suất mưa ≤ 12 giờ (được nội suy) thấp đáng kể và không nhất quán với các ước lượng ≥ 24 giờ (được tính trực tiếp) ở khu vực xung quanh, dẫn đến biến đổi bất hợp lý giữa ước lượng 12 giờ và 24 giờ tại các vị trí đó.
Những trường hợp này được xác định khách quan bằng cách dùng các lưới biểu diễn hiệu giữa ước lượng 12 giờ–100 năm và 24 giờ–100 năm. Nhờ các lưới này, ta phân biệt được tạo tác không gian với các mẫu hình do khí hậu chi phối. Nói chung, nếu chênh lệch giữa 12 giờ–100 năm và 24 giờ–100 năm tại một ô lưới ≥ 1,40 inch, thì trạm chỉ-theo-ngày trong khu vực đó được rà soát kỹ. 21 vị trí có bất nhất như vậy đã được xác định và đối chiếu với số liệu trạm; các vị trí này chủ yếu nằm gần các vùng chuyển tiếp khí hậu, đặc biệt ở khu vực phía tây.
Bảng 4.8.3. Các trạm “giả” theo giờ dùng trong biên soạn NOAA Atlas 14 – Tập 1
| Mã trạm | Tên trạm | Tiểu bang |
|---|---|---|
| 02-2434 | DATELAND WHITEWING RCH | AZ |
| 02-4702 | KOFA MINE | AZ |
| 02-5627 | MOHAWK | AZ |
| 02-8396 | TACNA 3 NE | AZ |
| 02-9211 | WELLTON | AZ |
| 02-9652 | YUMA CITRUS STATION | AZ |
| 02-9654 | YUMA PROVING GROUND | AZ |
| 02-9656 | YUMA QUARTERMASTER DEPOT | AZ |
| 02-9657 | YUMA VALLEY | AZ |
| 02-9662 | YUMA WB CITY | AZ |
| 02-2319 | DEATH VALLEY | CA |
| 04-2504 | DOYLE | CA |
| 04-2506 | DOYLE 4 SSE | CA |
| 04-3489 | GOLD ROCK RANCH | CA |
| 04-3711 | HAIWEE | CA |
| 04-9761 | WILDROSE R S | CA |
| 26-0501 | AMARGOSA FARMS GAREY | NV |
| 26-6691 | RED ROCK CANYON ST PK | NV |
| 29-1183 | BOSQUE DEL APACHE | NM |
| 42-2607 | ESKDALE PSEUDO | UT |
| 42-5733 | MOAB RADIO | UT |
“Dữ liệu giả (pseudo data)” đã được dùng để giảm các bất nhất tại 21 vị trí này. Bảng 4.8.3 liệt kê các trạm giả theo giờ được tạo cho Atlas này. Việc tạo ước lượng tần suất mưa giả theo giờ thực hiện tương tự cách dùng để khắc phục bất nhất 12 giờ ↔ 24 giờ ở các trạm cùng vị trí (Mục 4.6.3). Cụ thể, các ước lượng giả được tạo bằng cách áp dụng tỷ số giữa ước lượng x-giờ và 24-giờ đã được nội suy không gian bằng thuật toán trọng số theo khoảng cách nghịch đảo (IDW) của GRASS (GRASS, 2002; xem Mục 4.8.2), dựa chỉ trên các trạm giờ/ngày cùng vị trí.
Tỷ số tại mỗi trạm cùng vị trí được tính bằng (ước lượng tần suất mưa 24-giờ của trạm) / (ước lượng tần suất mưa x-giờ của trạm). Tỷ số đã nội suy này sau đó được nhân với ước lượng tần suất mưa 24-giờ của các trạm chỉ-theo-ngày để tạo dữ liệu giả theo giờ tại vị trí trạm đó. Cách xử lý này giúp chuyển tiếp mượt hơn và hợp lý về khí tượng từ các ước lượng theo giờ sang theo ngày.
Các thử nghiệm cho thấy: với những trạm chỉ-theo-ngày không có chênh lệch lớn giữa 12 giờ và 24 giờ, việc bổ sung dữ liệu giả theo giờ hầu như không làm thay đổi các ước lượng tần suất mưa (trước và sau khi thêm dữ liệu giả gần như giống nhau). Dữ liệu giả không được thêm vào các trạm không cần hoặc vào vị trí không có trạm đo. Những nơi không chứng minh được rõ ràng có bất nhất giữa ước lượng 12 giờ và 24 giờ thì giữ nguyên (coi là phù hợp với khí hậu) và không áp dụng biện pháp can thiệp. Dữ liệu giả chỉ được dùng khi thật sự cần thiết để tạo ra kết quả nhất quán.
4.8.4. Suy dẫn các đường đẳng lượng mưa (isohyets) của ước lượng tần suất mưa
Các tệp GIS isohyetal (đường đẳng lượng mưa) được tạo từ các lưới ước lượng tần suất mưa dựa trên chuỗi partial duration để người dùng khai thác trong các hệ thống GIS. Các isohyet được xuất thành shapefile dạng đường theo chuẩn ESRI (2003). Isohyet được tạo bằng cách vẽ đường đẳng trị trên các lưới bằng lệnh r.contour của GRASS (GRASS, 2002). Tệp kết quả sau đó được xuất ra shapefile bằng lệnh v.out.shapefile (GRASS, 2002). Để giữ cho isohyet và lưới nhất quán, không thực hiện khái quát hóa hay làm mượt đường; độ chính xác và độ phân giải của lưới đã đủ cao để cho ra các đường đẳng trị trơn.
Việc chọn bước đẳng trị (contour interval) được quyết định bằng một thuật toán dùng giá trị lớn nhất, nhỏ nhất và miền biến thiên của các giá trị ô lưới. Số mức đẳng trị riêng lẻ bị ràng buộc trong khoảng 10–30; tuy nhiên, một số lưới n-phút không có đủ miền biến thiên để đạt ngưỡng tối thiểu 10 mức, nên có ít hơn 10 mức. Mọi khoảng đẳng trị đều là bội số của 0,10 inch—đây là bước nhỏ nhất. Script dùng để tính các khoảng đẳng trị phù hợp và tạo shapefile cũng sinh siêu dữ liệu tuân thủ FGDC và một tệp “fact file”. Tệp fact ở định dạng HTML cung cấp chi tiết về shapefile và kèm danh sách các mức đẳng trị.
Để đơn giản hóa việc tải các shapefile isohyet từ PFDS (Precipitation Frequency Data Server), toàn bộ thành phần của shapefile (*.shp, *.dbf, *.shx, *.prj), siêu dữ liệu và fact file được đóng gói và nén vào một tệp lưu trữ chứa nhiều tệp (đuôi *.tar). Thông tin về phép chiếu, độ phân giải và các chi tiết khác của shapefile, xin xem siêu dữ liệu và fact file.
Các shapefile isohyet được tạo nhằm trợ giúp trực quan và không khuyến nghị dùng để nội suy các ước lượng tần suất mưa cuối cùng tại điểm hoặc diện phục vụ tiêu chí thiết kế. Người dùng được khuyến khích sử dụng các lưới hoặc giao diện PFDS để truy cập các ước lượng cuối cùng.
4.8.5. Tạo bản đồ chuyên đề màu
Các shapefile isohyet được dùng để tạo bản đồ chuyên đề màu của các lưới ước lượng tần suất mưa dựa trên chuỗi partial duration. Bản đồ được dựng bằng phần mềm ArcGIS 8.3 (đặc biệt là ArcMap; ESRI, 2003). Dù về hình thức trông như gồm các đa giác khép kín từ các ô hai chiều, thực ra không phải: phần tô màu theo giá trị ô lưới kết hợp với shapefile đường tạo ra diện mạo “gọn gàng” như đa giác.
Các bản đồ chuyên đề được cung cấp dưới dạng PDF để dễ xem và in. Tỷ lệ bản đồ là 1:2.000.000 khi in ở kích thước gốc 15,5″ × 21,5″ (cùng cỡ với bản đồ của NOAA Atlas 2), tuy nhiên có thể in ở bất kỳ kích thước nào. Người dùng lưu ý rằng các bản đồ về sau và/hoặc dự án khác có thể có tỷ lệ hoặc khổ in khác.
Các bản đồ chuyên đề màu được tạo làm trợ giúp trực quan và, khác với NOAA Atlas 2, không khuyến nghị dùng để nội suy các ước lượng tần suất mưa điểm hoặc diện cuối cùng cho tiêu chí thiết kế. Người dùng nên khai thác giao diện PFDS (Precipitation Frequency Data Server) để truy cập các ước lượng cuối.
Hỗ trợ duy trì trang:
Tôi xây dựng trang này để chia sẻ các tài liệu kỹ thuật cốt lõi trong thiết kế hạ tầng giao thông.
Nếu bạn thấy nội dung hữu ích và muốn góp phần duy trì trang hoạt động bền vững, tôi rất trân trọng mọi sự ủng hộ.