chi2.tex
上传用户:lengbin
上传日期:2010-03-31
资源大小:121k
文件大小:6k
开发平台:

C/C++

  1. documentclass[a4paper]{article}
  2. oddsidemargin 2.1mm
  3. textwidth     155mm
  4. topmargin     -12mm
  5. textheight    230mm
  6. deftabstrut{rule{0pt}{2.4ex}}
  7. defeq{!!!=!!!}
  8. begin{document}
  9. subsection*{The Normalized $chi^2$ Measure
  10.              for Association Rule Evaluation}
  11. Let $C$ and $A$ be two attributes with domains
  12. $mbox{dom}(A) = { a_1, ldots a_{n_A} }$ and
  13. $mbox{dom}(C) = { c_1, ldots c_{n_C} }$, respectively,
  14. and let $cal X$ be a dataset over $C$ and $A$.
  15. Let $N_{ij}$, $1 le i le n_C$, $1 le j le n_A$, be the number of
  16. sample cases in $cal X$, which contain both the attribute values~$c_i$
  17. and $a_j$. Furthermore, let
  18. [ N_{i.} = sum_{j=1}^{n_A} N_{ij}, qquad
  19.    N_{.j} = sum_{i=1}^{n_C} N_{ij}, qquadmbox{and}qquad
  20.    N_{..} = sum_{i=1}^{n_C} sum_{j=1}^{n_A} N_{ij} = |{cal X}|. ]
  21. Finally, let
  22. [ p_{i.} = frac{N_{i.}}{N_{..}}, qquad
  23.    p_{.j} = frac{N_{.j}}{N_{..}}, qquadmbox{and}qquad
  24.    p_{ij} = frac{N_{ij}}{N_{..}} ]
  25. be the probabilities of the attribute values and their combinations,
  26. as they can be estimated from these numbers. Then the well-known
  27. $chi^2$ measure is usually defined as
  28. begin{eqnarray*}
  29. chi^2(C,A)
  30. & = & sum_{i=1}^{n_C} sum_{j=1}^{n_A}
  31.       frac{(E_{ij} -N_{ij})^2}{E_{ij}}
  32.       qquadmbox{where}quad E_{ij} = frac{N_{i.}N_{.j}}{N_{..}} \
  33. & = & sum_{i=1}^{n_C} sum_{j=1}^{n_A}
  34.       frac{left(frac{N_{i.}N_{.j}}{N_{..}} -N_{ij}right)^2}
  35.            {frac{N_{i.}N_{.j}}{N_{..}}}
  36. ~~=~~ sum_{i=1}^{n_C} sum_{j=1}^{n_A}
  37.       frac{N_{..}^2 left(frac{N_{i.phantom{j}}}{N_{..}}
  38.                            frac{N_{.j}}{N_{..}}
  39.                          - frac{N_{ij}}{N_{..}}right)^2}
  40.            {N_{..};       frac{N_{i.phantom{j}}}{N_{..}}
  41.                            frac{N_{.j}}{N_{..}}} \
  42. & = & N_{..} sum_{i=1}^{n_C} sum_{j=1}^{n_A}
  43.       frac{(p_{i.};p_{.j} - p_{ij})^2}{p_{i.};p_{.j}}
  44. ~~=~~ N_{..} sum_{i=1}^{n_C} sum_{j=1}^{n_A}
  45.       frac{(N_{i.};N_{.j} - N_{..}N_{ij})^2}{N_{i.};N_{.j}}.
  46. end{eqnarray*}
  47. This measure is often normalized by dividing it by the
  48. size~$N_{..} = |{cal X}|$ of the dataset to remove the
  49. dependence on the number of sample cases.
  50. For association rule evaluation, $C$ refers the consequent and $A$ to
  51. the antecedent of the rule. Both have two values, which we denote by
  52. $c_0$, $c_1$ and $a_0$, $a_1$, respectively. $c_0$ means that the
  53. consequent of the rule is not satisfied, $c_1$ that it is satisfied;
  54. likewise for $A$. Then we have to compute the $chi^2$ measure from
  55. the $2 times 2$ contingency table
  56. begin{center}
  57. begin{tabular}{|l|c|c|l|} cline{2-3}
  58. multicolumn{1}{l|}{}
  59.       & $a_0$    & $a_1$    \ hline
  60. $c_0$ & $N_{00}$ & $N_{01}$ & $N_{0.}$tabstrut \ hline
  61. $c_1$ & $N_{10}$ & $N_{11}$ & $N_{1.}$tabstrut \ hline
  62. multicolumn{1}{l|}{}
  63.       & $N_{.0}$ & $N_{.1}$ & $N_{..}$tabstrut \ cline{2-4}
  64. end{tabular}
  65. end{center}
  66. or the estimated probability table
  67. begin{center}
  68. begin{tabular}{|l|c|c|l|} cline{2-3}
  69. multicolumn{1}{l|}{}
  70.       & $a_0$    & $a_1$    \ hline
  71. $c_0$ & $p_{00}$ & $p_{01}$ & $p_{0.}$tabstrut \ hline
  72. $c_1$ & $p_{10}$ & $p_{11}$ & $p_{1.}$tabstrut \ hline
  73. multicolumn{1}{l|}{}
  74.       & $p_{.0}$ & $p_{.1}$ & $1$tabstrut \ cline{2-4}
  75. end{tabular}
  76. end{center}
  77. That is, we have
  78. begin{eqnarray*}
  79. frac{chi^2(C,A)}{N_{..}}
  80. & = & sum_{i=0}^1 sum_{j=0}^1
  81.       frac{(p_{i.};p_{.j} - p_{ij})^2}{p_{i.};p_{.j}}. \
  82. & = & frac{(p_{0.};p_{.0} -p_{00})^2}{p_{0.};p_{.0}}
  83.   +   frac{(p_{0.};p_{.1} -p_{01})^2}{p_{0.};p_{.1}}
  84.   +   frac{(p_{1.};p_{.0} -p_{10})^2}{p_{1.};p_{.0}}
  85.   +   frac{(p_{1.};p_{.1} -p_{11})^2}{p_{1.};p_{.1}}
  86. end{eqnarray*}
  87. Now we can exploit
  88. [ p_{00} + p_{01} = p_{0.}, quad
  89.    p_{10} + p_{10} = p_{1.}, quad
  90.    p_{00} + p_{10} = p_{.0}, quad
  91.    p_{01} + p_{11} = p_{.1}, quad
  92.    p_{0.} + p_{1.} = 1, quad
  93.    p_{.0} + p_{.1} = 1, ]
  94. which leads to
  95. begin{eqnarray*}
  96. p_{0.};p_{.0} -p_{00}
  97. & = & (1 -p_{1.})(1 -p_{.1}) -(1 -p_{1.} -p_{.1} +p_{11})
  98. ~~=~~ p_{1.};p_{.1} -p_{11}, \
  99. p_{0.};p_{.1} -p_{01}
  100. & = & (1 -p_{1.})p_{.1} -(p_{.1} -p_{11})
  101. ~~=~~ p_{11} -p_{1.};p_{.1}, \
  102. p_{1.};p_{.0} -p_{10}
  103. & = & p_{1.}(1 -p_{.1}) -(p_{1.} -p_{11})
  104. ~~=~~ p_{11} -p_{1.};p_{.1}. \
  105. end{eqnarray*}
  106. Therefore it is
  107. begin{eqnarray*}
  108. frac{chi^2(C,A)}{N_{..}}
  109. & = & frac{(p_{1.};p_{.1} -p_{11})^2}{(1 -p_{1.})(1 -p_{.1})}
  110.   +   frac{(p_{1.};p_{.1} -p_{11})^2}{(1 -p_{1.});p_{.1}}
  111.   +   frac{(p_{1.};p_{.1} -p_{11})^2}{p_{1.}(1 -p_{.1})}
  112.   +   frac{(p_{1.};p_{.1} -p_{11})^2}{p_{1.};p_{.1}} \
  113. & = & frac{(p_{1.};p_{.1} -p_{11})^2
  114.             (p_{1.};p_{.1}
  115.             +p_{1.}(1 -p_{.1})
  116.             +(1 -p_{1.})p_{.1}
  117.             +(1 -p_{1.})(1 -p_{.1}))}
  118.            {p_{1.}(1 -p_{1.})p_{.1}(1 -p_{.1})} \
  119. & = & frac{(p_{1.};p_{.1} -p_{11})^2
  120.             (p_{1.};p_{.1}
  121.             +p_{1.} -p_{1.};p_{.1}
  122.             +p_{.1} -p_{1.};p_{.1}
  123.             +1 -p_{1.} -p_{.1} +p_{1.};p_{.1})}
  124.            {p_{1.}(1 -p_{1.})p_{.1}(1 -p_{.1})} \
  125. & = & frac{(p_{1.};p_{.1} -p_{11})^2}
  126.            {p_{1.}(1 -p_{1.})p_{.1}(1 -p_{.1})}.
  127. end{eqnarray*}
  128. In the program, $p_{1.}$ (argument {tt head}), $p_{.1}$
  129. (argument {tt body}) and $p_{1|1} = frac{p_{11}}{p_{.1}}$
  130. (argument {tt post}, rule confidence) are passed to the routine
  131. that computes the measure, so the actual computation is
  132. begin{eqnarray*}
  133. frac{chi^2(C,A)}{N_{..}}
  134. & = & frac{(p_{1.};p_{.1} -p_{1|1};p_{.1})^2}
  135.            {p_{1.}(1 -p_{1.})p_{.1}(1 -p_{.1})}.
  136. ~~=~~ frac{((p_{1.} -p_{1|1})p_{.1})^2}
  137.            {p_{1.}(1 -p_{1.})p_{.1}(1 -p_{.1})}.
  138. end{eqnarray*}
  139. In an analogous way the measure can also be computed from the absolute
  140. frequencies $N_{ij}$, $N_{i.}$, $N_{.j}$ and $N_{..}$, namely as
  141. begin{eqnarray*}
  142. frac{chi^2(C,A)}{N_{..}}
  143. & = & frac{(N_{1.}N_{.1} -N_{..}N_{11})^2}
  144.            {N_{1.}(N_{..} -N_{1.})N_{.1}(N_{..} -N_{.1})}.
  145. end{eqnarray*}
  146. end{document}
  147. %%% Local Variables: 
  148. %%% mode: latex
  149. %%% TeX-master: t
  150. %%% End: