ケンドールの順位相関係数
ケンドールの順位相関係数はノンパラメトリックな相関指標の1つです。
対応のある確率変数の列 {(X1,Y1),…,(Xn,Yn)} に対し、次の統計量 Tn から算出される τ がケンドールの順位相関係数(ケンドールのタウ)で、ピアソンの相関係数のように −1 から 1 の値を取ります。ノンパラメトリックな相関指標は、非線形な相関や外れ値のある相関を考慮できるとされています。
τ=n(n−1)/2Tn,Tn=i>j∑{sgn(Xi−Xj)∗sgn(Yi−Yj)}
ただし、符号関数 sgn は次のように定義します。
sgn(x)=⎩⎨⎧10−1(x>0)(x=0)(x<0)
例1 ケンドールの順位相関係数の計算
対応のある確率変数の列の実現値を x=(1,2,1,4), y=(3,4,2,6) とするとき、統計量 Tn の実現値 t は
t=sgn(2−1)×sgn(4−3)+sgn(1−1)×sgn(2−3)+sgn(4−1)×sgn(6−3)+sgn(1−2)×sgn(2−4)+sgn(4−2)×sgn(6−4)+sgn(4−1)×sgn(6−2)=1+0+1+1+1+1=5
となって、相関係数は τ=5/6≃0.83 となります。
ケンドールの順位相関係数について、独立であるという帰無仮説 H0 のもとで、統計量 Tn はある正規分布に分布収束することが知られています。したがって、τ/sτ は標準正規分布 N(0,1) に分布収束します。
sττ→dN(0,1)
今回はこの証明について解説します。まずは、証明に必要となる定理について確認します。
前提1: リヤプノフの中心極限定理
リヤプノフの中心極限定理は、リヤプノフ条件を仮定する中心極限定理です。
定理1 リヤプノフの中心極限定理
X1,X2,… を独立な確率変数の列とし、Xi の平均を μi、分散を σi2 とする。このとき、
n→∞lim{∑i=1nσi2}3/2∑i=1nE[∥Xi−μi∥3]=0
ならば、
{∑i=1nσi2}1/2∑i=1nXi−E[∑i=1nXi]→dN(0,1)
が成立する。ただし、"→d" は分布収束を示す。
前提2: 分布のたたみこみ
確率変数の変数変換において、和の分布を導出するときにたたみこみが利用されます。
2つの確率変数が独立に分布し、X∼fX(x), Y∼fY(y) とします。このとき、確率変数の和 Z=X+Y の確率密度関数 fZ(z) は次のように与えられます。T=Y という確率変数を用意したとき、変数変換 (X,Y)→(Z,T) を考えると
fZ(z)=∫fZ,T(z,t)dt=∫fX(z−t)fY(t)dt=fX∗fY(z)
となって、確かに和の分布 fZ(z) はたたみこみで表現されます。
漸近正規性
さて、以上を前提として漸近正規性を証明します(Jirina, (1976) を参考にしました)。
定理2 ケンドールの順位相関係数の漸近正規性
独立であるという帰無仮説 H0 のもとで、統計量 Tn は正規分布に分布収束する。
証明:
ある整数 t とある数 n≥2 について、pn(t)=Prob(Tn=t∣H0) とするとき、次の確率漸化式
pn(t)=n1{pn−1(t+n−1)+pn−1(t+n−3)+⋯+pn−1(t−n+3)+pn−1(t−n+1)}=n1k=1∑npn−1(t−2k+n+1)(2)
が任意の t と n≥3 に対して成立する。ここで、ある整数 z とある数 n≥2 について qn(z) を次のようにおく。
qn(z)={n−10if z=−n+1,−n+3,⋯,n−3,n−1otherwise
たたみこみ演算子 ∗ を使うと、漸化式 (2) は pn=qn∗pn−1 と書ける。実際、
pn(t)=n1k=1∑npn−1(t−2k+n+1)=n1{pn−1(t+n−1)+pn−1(t+n−3)+⋯+pn−1(t−n+3)+pn−1(t−n+1)}=z∈M∑qn(z)pn−1(t−z)=qn∗pn−1(t)
となっている。
さらに、p2=q2 なので pn=qn∗qn−1∗⋯∗q2 となる。したがって、帰無仮説 H0 のもとでは、 それぞれ独立に qk(z) に従う Z2,…,Zn の和の分布 ∑k=2nZk は Tn と同じ分布を持つ。
ここで、E[Zk]=0, E[Zk2]=31(k2−1), E[∣Zk∣3]≤k3 であり、はさみうちの定理を利用して
0≤{∑k=2nE[Zk2]}3/2∑k=2nE[∣Zk∣3]≤cn−1/2,n→∞lim{∑k=2nE[Zk2]}3/2∑k=2nE[∣Zk−E[Zk]∣3]=0
であるため、∑k=1nZk の平均 E[∑k=1nZk]=0 に注意すると、リヤプノフの中心極限定理より ∑k=1nZk は漸近的に正規分布に従う。
∑k=2nE[Zk2]∑k=1nZk−E[∑k=1nZk]=∑k=2n(k2−1)/3∑k=1nZk→dN(0,1)
したがって、Tn も漸近的に正規分布に従う。
∑k=2n(k2−1)/3Tn→dN(0,1)
□
この結果から、τ については、
k=2∑n31(k2−1)=k=1∑n31(k2−1)(∴ 31(12−1)=0)=31{61n(n+1)(2n+1)−n}=181n(n−1)(2n+5)
であり、Tn=τ×21n(n−1) であるから、
181n(n−1)(2n+5)τ×21n(n−1)=9n(n−1)2(2n+5)τ=Asymptotic Normalitysττ→dN(0,1)
となって漸近正規性をもつことがわかります。この sτ=31n(n−1)2(2n+5) は標準誤差として知られています。
Reference