Phân tích đa biến cung cấp các công cụ phân tích mở rộng để khám phá những mối quan hệ phụ thuộc giữa các biến, hữu ích cho việc phân tích nhiều bài toán kỹ thuật, bao gồm cả lũ tại các hợp lưu sông và lũ/ ngập tổ hợp (compound flooding). Phụ lục này giới thiệu ngắn gọn về phân tích đa biến, gồm phần mô tả tổng quát bài toán rồi đến hai công cụ đa biến: phân phối đa biến và copula.
B.1 Công thức hóa tổng quát của bài toán
Phân tích đa biến thường gồm hai phần: (1) xác lập phân phối biên của từng biến và (2) mô tả sự phụ thuộc giữa các biến. Phân phối biên của một biến ngẫu nhiên là phân phối xác suất của biến đó độc lập với mọi giá trị của các biến khác; tức là phân phối đơn biến. Như đã nêu, “phụ thuộc” nói đến việc một biến đóng góp như thế nào vào biến còn lại hoặc cả hai biến có thể cùng xuất phát từ một nguồn chung.
Salvadori và cộng sự (2007) đã bàn về nhiều trường hợp có thể phát sinh trong các ứng dụng thủy văn của thống kê đa biến và có thể mô tả bằng cùng một khuôn thức. Trước hết, xét biểu thức cho một sự kiện cực trị trên một trong các nhánh hợp lưu (sự kiện biên), trong đó “cực trị” nghĩa là vượt quá một giá trị ngưỡng:
$$E_{x,x}=\{X>x\} \tag{B.1}$$
trong đó:
\(E_{x,x}\) = Sự kiện mà đại lượng xảy ra X lớn hơn giá trị ngưỡng x
X = Cường độ (mức độ) của sự kiện
x = Giá trị ngưỡng để xác định một sự kiện
Tương tự, trên nhánh hợp lưu kia:
$$E_{y,y}=\{Y>y\} \tag{B.2}$$
trong đó:
\(E_{y,y}\) = Sự kiện mà đại lượng xảy ra Y lớn hơn giá trị ngưỡng y
Y = Cường độ (mức độ) của sự kiện
y = Giá trị ngưỡng để xác định một sự kiện
Các biểu thức này biểu diễn một sự kiện mà việc vượt quá một giá trị ngưỡng xảy ra trên từng nhánh riêng lẻ. Tùy theo mục tiêu phân tích, kỹ sư có thể quan tâm đến một sự kiện cực trị xảy ra đồng thời trên X và Y, hoặc một sự kiện cực trị xảy ra trên X hoặc trên Y. Các sự kiện cực trị đồng thời cho hai cách nối “và/hoặc” lần lượt là:
$$E^{n}_{xy}=\{X>x\}\cap\{Y>y\}\tag{B.3}$$
$$E^{u}_{xy}=\{X>x\}\cup\{Y>y\}\tag{B.4}$$
Xác suất của các sự kiện cực trị đồng thời trong (B.3) và (B.4) được viết:
$$P^{n}_{xy}=P(E^{n}_{xy})=P(X>x\cap Y>y)\tag{B.5}$$
$$P^{u}_{xy}=P(E^{u}_{xy})=P(X>x\cup Y>y)\tag{B.6}$$
Gọi H(x,y) là phân phối chung hai biến của hai biến ngẫu nhiên X và Y. Hàm phân phối xác suất chung là:
$$H(x,y)=P[X<x,\;Y<y]\tag{B.7}$$
Nếu các phân phối biên của X và Y lần lượt là \(F_X(x)\) và \(F_Y(y)\), khi đó:
$$P^{n}_{xy}=1-F_X(x)-F_Y(y)+H(x,y)\tag{B.8}$$
$$P^{u}_{xy}=1-H(x,y)\tag{B.9}$$
(Trong đó ký hiệu siêu chỉ n gợi “and” \(\cap\), và u gợi “or” \(\cup\).)
Phương trình B.8 biểu diễn xác suất vượt ngưỡng theo cách nối “và”, còn phương trình B.9 biểu diễn xác suất vượt ngưỡng theo cách “hoặc”. Từ các phương trình này có thể thấy hai cách diễn đạt liên hệ với nhau thông qua phân phối xác suất chung H(x,y). Salvadori et al. (2007) và Shiau et al. (2006) đã bàn về việc sử dụng các mệnh đề xác suất này cho các bộ dữ liệu theo bước thời gian nhỏ. Cách “và”, như trong (B.8), là cách được dùng cho các mục tiêu của chương này.
B.2 Phân phối đa biến
Phân phối hai biến (bivariate) là một tập con của các phân phối đa biến, liên quan đến hai biến ngẫu nhiên. Một phân phối hai biến được đặc trưng bởi hàm phân phối, là một hàm cho giá trị vô hướng của một biến ngẫu nhiên dạng vectơ (trong trường hợp này là hai biến). Khi xét giới hạn theo từng biến riêng rẽ, ta thu được phân phối đơn biến, gọi là phân phối biên. Vì vậy, với một hàm phân phối H(x,y) sẽ có hai phân phối biên F(x) và G(y).
Các phân phối hai biến có cùng dạng phân phối biên (tức cùng loại hàm phân phối), mặc dù các tham số có thể khác nhau. Ví dụ về phân phối hai biến gồm phân phối Normal hai biến và phân phối Gumbel hai biến; loại sau có thể được xây dựng theo vài dạng.
Ví dụ, Yue và cs. (1999) trình bày kết quả áp dụng phân phối Gumbel hai biến dạng mô hình hỗn hợp cho các bài toán thủy văn. Phân phối này có dạng:
$$H(x,y)=F(x)F(y)\,\exp\left\{-\theta\left[\frac{1}{\ln F(x)}+\frac{1}{\ln F(y)}\right]^{-1}\right\}\tag{B.10}$$
trong đó:
F(x) = Phân phối Gumbel biên theo x
F(y) = Phân phối Gumbel biên theo y
\(\theta\) = Tham số phụ thuộc (dependence parameter)
Tham số phụ thuộc được ước lượng bởi:
$$\theta=2\left[1-\cos\!\left(\pi\sqrt{\frac{\rho}{6}}\right)\right]\tag{B.11}$$
Tham số phụ thuộc \(\theta\) là một hàm của hệ số tương quan Pearson \((\rho)\) và đạt giá trị 1 khi \(\rho=2/3\), biểu thị phụ thuộc hoàn toàn trong mô hình Gumbel. Với \(\rho>2/3\), phân phối Gumbel hai biến dạng mô hình hỗn hợp không áp dụng được vì tham số phụ thuộc trở nên không xác định.
Phân phối đa biến có thể gồm hai (bivariate), ba (trivariate), hoặc nhiều biến hơn. Chúng được đặc trưng bằng cách fit mỗi biến với cùng dạng phân phối biên và liên kết các phân phối đó thông qua tham số phụ thuộc. Kilgore et al. (2013) cung cấp thêm chi tiết về các phân phối hai biến thường dùng trong thủy văn.
B.3 Copula
Copula là một cách tiếp cận tổng quát hơn cho các bài toán hai biến (hoặc đa biến). Thuật ngữ copula chỉ một hàm (còn gọi là hàm phụ thuộc) dùng để “nối” các phân phối đơn biến lại với nhau sao cho thể hiện được sự phụ thuộc hai biến (hoặc đa biến) giữa các biến ngẫu nhiên.
Ưu điểm của copula là độc lập với dạng của các phân phối biên đơn biến. Cụ thể, các phân phối biên của một copula luôn là phân phối đều trên khoảng (0,1). Vì vậy, có thể chọn các phân phối biên sao cho fit tốt nhất cho từng biến đơn, còn copula sẽ mô hình hóa hành vi phụ thuộc. Kỹ sư có thể áp dụng nhiều loại copula cho các biến ngẫu nhiên hai biến (và đa biến). Trong thủy văn, người làm thường quan tâm nhất tới họ Archimedean của copula.
Các họ Copula
Copula được nhóm theo các đặc tính chung.
Họ Archimedean gồm:
• Gumbel–Hougaard
• Clayton
• Ali–Mikhail–Haq
• Frank
Một họ khác hay dùng trong thủy văn là họ elliptic, gồm:
• Gaussian
• Student’s t
Copula hai biến liên kết hai biến ngẫu nhiên X và Y, với các hàm phân phối tích lũy lần lượt là \(F_X(x)\) và \(F_Y(y)\), bằng cách đặt \(U=F_X(X)\) và \(V=F_Y(Y)\). Khi đó U và V là các biến ngẫu nhiên phân phối đều trên (0,1); u và v là các giá trị cụ thể của U và V. Theo Zhang và Singh (2006), copula Archimedean một tham số có dạng:
$$C_\theta(u,v)=\varphi^{-1}\!\big(\varphi(u)+\varphi(v)\big), \qquad 0<u,v<1 \tag{B.12}$$
trong đó:
\(C_\theta(u,v)\) = Hàm copula, với \(\theta\) là tham số phụ thuộc
\(\varphi\) = Hàm sinh (copula generating function)
u, v = Giá trị cụ thể của các biến đều U và V
Hình B.1 minh họa bề mặt xác suất cho một copula hai biến. Các biến U và V được phân phối đều dọc theo các trục tọa độ trên mặt phẳng đáy. Copula C mô tả xác suất chung. Các đường đồng mức biểu diễn các đường đồng xác suất tăng dần cho tới giá trị 1, tức đỉnh của bề mặt. Hình dạng bề mặt thay đổi theo hàm sinh copula khác nhau và theo các kiểu copula thay thế.

Copula \(C_\theta(u,v)\) là tương tự với hàm phân phối H(x,y) đã nêu ở Mục B.2.
Genest và Favre (2007) dùng khái niệm biến đổi tích phân xác suất hai biến (BPIT) để đánh giá mức phù hợp của một copula cho một ứng dụng cụ thể:
$$K(t)=t-\frac{\varphi(t)}{\varphi'(t)} \tag{B.13}$$
trong đó \(\varphi’\) là đạo hàm của \(\varphi\).
Ví dụ về copula, hàm sinh cho copula Gumbel–Hougaard (Nelsen 2006) là:
$$\varphi(t)=\big[-\ln(t)\big]^{\theta} \tag{B.14}$$
Copula tương ứng:
$$C_\theta(u,v)=\exp\!\left\{-\left(\,[-\ln(u)]^{\theta}+[-\ln(v)]^{\theta}\right)^{1/\theta}\right\}, \qquad \theta\in[1,\infty) \tag{B.15}$$
trong đó:
\(\theta\) = tham số phụ thuộc.
Mối liên hệ giữa Kendall’s \(\tau\) và \(\theta\):
$$\tau = 1-\theta^{-1}. \tag{B.16}$$
Để xây dựng BPIT, đạo hàm của \(\varphi\) là:
$$\varphi'(t)=-\,\frac{\theta}{t}\,[-\ln(t)]^{\theta-1}. \tag{B.17}$$
Tương tự như các phân phối đa biến, copula đa biến có thể gồm hai (bivariate), ba (trivariate) hoặc nhiều biến hơn. Mỗi biến được fit với phân phối biên riêng, rồi các phân phối biên này được liên kết bằng tham số phụ thuộc. Kilgore et al. (2013) trình bày thêm chi tiết về các copula thường dùng trong thủy văn; Genest và Favre (2007) cung cấp tổng quan về việc ứng dụng copula trong nhiều bài toán thủy văn.
Hỗ trợ duy trì trang:
Tôi xây dựng trang này để chia sẻ các tài liệu kỹ thuật cốt lõi trong thiết kế hạ tầng giao thông.
Nếu bạn thấy nội dung hữu ích và muốn góp phần duy trì trang hoạt động bền vững, tôi rất trân trọng mọi sự ủng hộ.