在 Lin & Tang 的系统中,把 correlation 定义成图 1.2.2 的样子。 拉丁符号有了数值属性,在拉丁空间里定义了距离、均值、方差、内积和相关系数。 在 Lin & Tang 的整个 OLHD-NOLH 理论系统中没有看到临界值与自由度的踪影。 这样导致了系统性错误和混乱。不能估计相关性置信概率,Near Orthogonal 不能关联临界值, 以致于除了 Orthogonal 就都是 Near Orthogonal。
既然在拉丁空间中定义了距离、内积和相关系数,near 具备了数字属性。应该有边界。 相关性不应该再与自由度和置信概率无关。
相关性临界值是置信概率和自由度(n-2)等两个参数的非线性函数,它是准确评估相关性的重要参数, 也是逐步回归过程中选取或删除因子的F检验的必备参数。只要做过一次试验设计和数据处理,不管是 ANOVA 还是回归分析,就应该知道临界值与自由度的意义。 Lin 的correlation 定义式是相关系数的估算公式而不是相关系数的定义公式,更不是 correlation 的定义。 Lin(2009)用常数 0.05 冒充 correlation 临界值。 r=0.05, 对小样本它表示低的相关性;对于大样本, P 值可能很大。 例如, n=10 时, P=0.1091,相关性比较弱;当 n=1000, P=0.8857;当 n=2000, P=0.9746,相关性很强。 不考虑临界值,构造 NOLH 阵列时用什么作依据来录取或删除列呢?例如, Lin(2009) 的 NOLH(7,4) 存在与其第四列具有 p=0.121 的弱相关列,该作者把它舍弃了。作者在瞎子摸鱼。
OLH(n,p) 的相关性决定了耦合结果的相关性, 表面看,这个值不发生变化。但耦合过后,矩阵规模扩大了 n 倍,自由度增加了 n 倍。相关性置信概率发生了巨大的变化, 在《耦合法理论一般化的若干问题》一节进行详细的讨论。