ケンドールの順位相関係数の漸近正規性

最終更新日: 2020年12月1日

この記事は fMRILab Advent Calendar 2020 の 12/1 分の記事です。


ケンドールの順位相関係数

ケンドールの順位相関係数はノンパラメトリックな相関指標の1つです

対応のある確率変数の列 {(X1,Y1),,(Xn,Yn)}\{(X_1,Y_1), \dots, (X_n,Y_n)\} に対し、次の統計量 TnT_n から算出される τ\tauケンドールの順位相関係数ケンドールのタウ)で、ピアソンの相関係数のように 1-1 から 11 の値を取ります。ノンパラメトリックな相関指標は、非線形な相関や外れ値のある相関を考慮できるとされています。

τ=Tnn(n1)/2,Tn=i>j{sgn(XiXj)sgn(YiYj)}\tau = \frac{T_n}{n(n-1)/2}, \quad T_n = \sum_{i \gt j} \left\{ \text{sgn} (X_i - X_j) * \text{sgn} (Y_i - Y_j) \right\}

ただし、符号関数 sgn\text{sgn} は次のように定義します。

sgn(x)={1(x>0)0(x=0)1(x<0)\text{sgn}(x) = \begin{cases} 1 & (x \gt 0) \\ 0 & (x = 0) \\ -1 & (x \lt 0) \end{cases}

例1 ケンドールの順位相関係数の計算

対応のある確率変数の列の実現値を x=(1,2,1,4),\boldsymbol{x}=(1,2,1,4), y=(3,4,2,6)\boldsymbol{y}=(3,4,2,6) とするとき、統計量 TnT_n の実現値 tt

t=sgn(21)×sgn(43)+sgn(11)×sgn(23)+sgn(41)×sgn(63)+sgn(12)×sgn(24)+sgn(42)×sgn(64)+sgn(41)×sgn(62)=1+0+1+1+1+1=5\begin{aligned} t &= \text{sgn}(2-1) \times \text{sgn}(4-3) + \text{sgn}(1-1) \times \text{sgn}(2-3) \\ & \quad + \text{sgn}(4-1) \times \text{sgn}(6-3) + \text{sgn}(1-2) \times \text{sgn}(2-4) \\ & \quad + \text{sgn}(4-2) \times \text{sgn}(6-4) + \text{sgn}(4-1) \times \text{sgn}(6-2) \\ &= 1 + 0 + 1 + 1 + 1 + 1 =5 \end{aligned}

となって、相関係数は τ=5/60.83\tau = 5/6 \simeq 0.83 となります。

ケンドールの順位相関係数について、独立であるという帰無仮説 H0\text{H}_0 のもとで、統計量 TnT_n はある正規分布に分布収束することが知られています。したがって、τ/sτ\tau/{s_\tau} は標準正規分布 N(0,1)\mathcal{N}(0,1) に分布収束します。

τsτdN(0,1)\frac{\tau}{s_\tau} \to_d \mathcal{N}(0,1)

今回はこの証明について解説します。まずは、証明に必要となる定理について確認します

前提1: リヤプノフの中心極限定理

リヤプノフの中心極限定理は、リヤプノフ条件を仮定する中心極限定理です。

定理1 リヤプノフの中心極限定理

X1,X2,X_1,X_2,\dots を独立な確率変数の列とし、XiX_i の平均を μi\mu_i、分散を σi2\sigma_i^2 とする。このとき、

limni=1nE[Xiμi3]{i=1nσi2}3/2=0\lim_{n\to\infty} \frac{\sum_{i=1}^n\mathbb{E}[\|X_i-\mu_i\|^3]}{\{\sum_{i=1}^n\sigma_i^2\}^{3/2}} = 0

ならば、

i=1nXiE[i=1nXi]{i=1nσi2}1/2dN(0,1)\frac{\sum_{i=1}^nX_i - \mathbb{E}[\sum_{i=1}^nX_i]}{\{\sum_{i=1}^n\sigma_i^2\}^{1/2}} \to_d \mathcal{N}(0,1)

が成立する。ただし、"d\to_d" は分布収束を示す。

前提2: 分布のたたみこみ

確率変数の変数変換において、和の分布を導出するときにたたみこみが利用されます。

2つの確率変数が独立に分布し、XfX(x),X\sim f_X(x), YfY(y)Y\sim f_Y(y) とします。このとき、確率変数の和 Z=X+YZ=X+Y の確率密度関数 fZ(z)f_Z(z) は次のように与えられます。T=YT=Y という確率変数を用意したとき、変数変換 (X,Y)(Z,T)(X,Y) \to (Z,T) を考えると

fZ(z)=fZ,T(z,t)dt=fX(zt)fY(t)dt=fXfY(z)f_Z(z) = \int f_{Z,T}(z,t) dt = \int f_X(z-t) f_Y(t) dt = f_X * f_Y (z)

となって、確かに和の分布 fZ(z)f_Z(z) はたたみこみで表現されます

漸近正規性

さて、以上を前提として漸近正規性を証明します(Jirina, (1976) を参考にしました)

定理2 ケンドールの順位相関係数の漸近正規性

独立であるという帰無仮説 H0\text{H}_0 のもとで、統計量 TnT_n は正規分布に分布収束する。

証明:
ある整数 tt とある数 n2n \ge 2 について、pn(t)=Prob(Tn=tH0)p_n(t)=Prob(T_n=t|\text{H}_0) とするとき、次の確率漸化式

pn(t)=1n{pn1(t+n1)+pn1(t+n3)++pn1(tn+3)+pn1(tn+1)}=1nk=1npn1(t2k+n+1)(2)\begin{aligned} p_n(t) &= \frac{1}{n} \{ p_{n-1}(t+n-1) + p_{n-1}(t+n-3) \\ & \qquad \quad + \cdots + p_{n-1}(t-n+3) + p_{n-1}(t-n+1) \} \\ &= \frac{1}{n} \sum_{k=1}^n p_{n-1}(t-2k+n+1) \qquad (2) \end{aligned}

が任意の ttn3n \ge 3 に対して成立する1。ここで、ある整数 zz とある数 n2n \ge 2 について qn(z)q_n(z) を次のようにおく。

qn(z)={n1if  z=n+1,n+3,,n3,n10otherwiseq_n(z) = \begin{cases} n^{-1} & \text{if } \ z = -n+1, -n+3, \cdots, n-3, n-1\\ 0 & \text{otherwise} \end{cases}

たたみこみ演算子 * を使うと、漸化式 (2) は pn=qnpn1p_n = q_n * p_{n-1} と書ける。実際、

pn(t)=1nk=1npn1(t2k+n+1)=1n{pn1(t+n1)+pn1(t+n3)++pn1(tn+3)+pn1(tn+1)}=zMqn(z)pn1(tz)=qnpn1(t)\begin{aligned} p_n(t) &= \frac{1}{n} \sum_{k=1}^n p_{n-1}(t-2k+n+1) \\ &= \frac{1}{n} \{ p_{n-1}(t+n-1) + p_{n-1}(t+n-3) \\ & \qquad \quad + \cdots + p_{n-1}(t-n+3) + p_{n-1}(t-n+1) \} \\ &= \sum_{z \in \mathbb{M}} q_n(z) p_{n-1}(t-z) = q_n * p_{n-1} (t) \end{aligned}

となっている。

さらに、p2=q2p_2=q_2 なので pn=qnqn1q2p_n = q_n * q_{n-1} * \cdots * q_2 となる。したがって、帰無仮説 H0\text{H}_0 のもとでは、 それぞれ独立に qk(z)q_k(z) に従う Z2,,ZnZ_2, \dots, Z_n の和の分布 k=2nZk\sum_{k=2}^n Z_kTnT_n と同じ分布を持つ。

ここで、E[Zk]=0,\mathbb{E}[Z_k]=0, E[Zk2]=13(k21),\mathbb{E}[Z_k^2]=\frac{1}{3}(k^2-1), E[Zk3]k3\mathbb{E}[|Z_k|^3] \le k^3 であり2、はさみうちの定理を利用して

0k=2nE[Zk3]{k=2nE[Zk2]}3/2cn1/2,limnk=2nE[ZkE[Zk]3]{k=2nE[Zk2]}3/2=00 \le \frac{\sum_{k=2}^n \mathbb{E}[|Z_k|^3]}{\left\{\sum_{k=2}^n \mathbb{E}[Z_k^2]\right\}^{3/2}} \le cn^{-1/2}, \quad \lim_{n \to \infty} \frac{\sum_{k=2}^n \mathbb{E}[|Z_k-\mathbb{E}[Z_k]|^3]}{\left\{\sum_{k=2}^n \mathbb{E}[Z_k^2]\right\}^{3/2}} = 0

であるため、k=1nZk\sum_{k=1}^nZ_k の平均 E[k=1nZk]=0\mathbb{E}[\sum_{k=1}^nZ_k]=0 に注意すると、リヤプノフの中心極限定理より k=1nZk\sum_{k=1}^n Z_k は漸近的に正規分布に従う。

k=1nZkE[k=1nZk]k=2nE[Zk2]=k=1nZkk=2n(k21)/3dN(0,1)\frac{\sum_{k=1}^n Z_k - \mathbb{E}[\sum_{k=1}^n Z_k]}{\sqrt{\sum_{k=2}^n \mathbb{E}[Z_k^2]}} = \frac{\sum_{k=1}^n Z_k}{\sqrt{\sum_{k=2}^n (k^2-1)/3}}\to_d \mathcal{N}(0,1)

したがって、TnT_n も漸近的に正規分布に従う。

Tnk=2n(k21)/3dN(0,1)\frac{T_n}{\sqrt{\sum_{k=2}^n (k^2-1)/3}}\to_d \mathcal{N}(0,1)

\Box

この結果から、τ\tau については、

k=2n13(k21)=k=1n13(k21)( 13(121)=0)=13{16n(n+1)(2n+1)n}=118n(n1)(2n+5)\begin{aligned} \sum_{k=2}^n \frac{1}{3} (k^2-1) &= \sum_{k=1}^n \frac{1}{3} (k^2-1) \qquad \left(\therefore \ \frac{1}{3} (1^2-1)=0\right)\\ &= \frac{1}{3} \left\{ \frac{1}{6}n(n+1)(2n+1)-n\right\} \\ &= \frac{1}{18} n(n-1)(2n+5) \end{aligned}

であり、Tn=τ×12n(n1)T_n = \tau \times \frac{1}{2}n(n-1) であるから、

τ×12n(n1)118n(n1)(2n+5)=τ2(2n+5)9n(n1)=τsτdN(0,1)Asymptotic Normality\begin{aligned} \frac{\tau \times \frac{1}{2}n(n-1)}{\sqrt{\frac{1}{18} n(n-1)(2n+5)}} &= \frac{\tau }{\sqrt{\frac{2(2n+5)}{9n(n-1)}}} \\[0.5em] &= \underbrace{\frac{\tau}{s_\tau} \to_d \mathcal{N}(0,1)}_{\text{Asymptotic Normality}} \end{aligned}

となって漸近正規性をもつことがわかります。この sτ=132(2n+5)n(n1)s_\tau=\frac{1}{3}\sqrt{\frac{2(2n+5)}{n(n-1)}}標準誤差として知られています3


Reference


  1. Kendall, M. G. (1970). Rank Correlation Methods, 4th ed. Griffin, London. 5.8 を参考とのこと。

  2. 期待値の計算過程

    E[Zk]=zqk(z)dz=1kl=1k{k(2l1)}=0E[Zk2]=z2qk(z)dz=1kl=1k{k(2l1)}2=13(k+1)(k1)=13(k21)\begin{aligned} \mathbb{E}[Z_k] &= \int zq_k(z)dz \\ &= \frac{1}{k} \sum_{l=1}^k \{ k-(2l-1)\} = 0 \\ \mathbb{E}[Z_k^2] &= \int z^2q_k(z)dz \\ &= \frac{1}{k} \sum_{l=1}^k \{ k-(2l-1)\}^2 \\ &= \frac{1}{3}(k+1)(k-1) = \frac{1}{3}(k^2-1) \end{aligned}

  3. Kendall's Tau Normal Approximation | Real Statistics Using Excel を参照。