istree.c
上传用户:lengbin
上传日期:2010-03-31
资源大小:121k
文件大小:69k
开发平台:

C/C++

  1. /*----------------------------------------------------------------------
  2.   File    : istree.c
  3.   Contents: item set tree management
  4.   Author  : Christian Borgelt
  5.   History : 22.01.1996 file created
  6.             07.02.1996 _child, _count, ist_addlvl, and ist_count
  7.             09.02.1996 ist_rule programmed and debugged
  8.             10.02.1996 empty rule bodies made optional
  9.             28.03.1996 support made relative to number of item sets
  10.             25.06.1996 function _count optimized
  11.             23.11.1996 rule extraction redesigned
  12.             24.11.1996 rule selection criteria added
  13.             18.08.1997 normalized chi^2 measure added
  14.                        parameter minlen added to function ist_init()
  15.             15.01.1998 confidence comparison changed to >=
  16.             23.01.1998 integer support computation changed (ceil)
  17.             26.01.1998 condition added to set extension in _child
  18.             10.02.1998 bug in computation of EM_INFO fixed
  19.             11.02.1998 parameter 'minval' added to function ist_init()
  20.             14.05.1998 item set tree navigation functions added
  21.             08.08.1998 item appearances considered for rule selection
  22.             20.08.1998 deferred child node vector allocation added
  23.             02.09.1998 several assertions added
  24.             05.09.1998 bug concerning node id fixed
  25.             07.09.1998 function ist_hedge added
  26.             22.09.1998 bug in rule extraction (item appearances) fixed
  27.             23.09.1998 computation of chi^2 measure simplified
  28.             05.02.1999 long int changed to int
  29.             25.08.1999 rule extraction simplified
  30.             05.11.1999 rule evaluation measure EM_AIMP added
  31.             08.11.1999 parameter 'aval' added to function ist_rule
  32.             11.11.1999 rule consequents moved to first field
  33.             01.12.1999 bug in node reallocation fixed
  34.             01.04.2001 functions ist_set and ist_getcntx added,
  35.                        functions _count and _getsupp improved
  36.             28.12.2001 sort function moved to module tract
  37.             07.02.2002 tree clearing removed, counting improved
  38.             08.02.2002 child creation improved (check of body support)
  39.             10.02.2002 IST_IGNORE bugs fixed (ist_set and ist_hedge)
  40.             11.02.2002 memory usage minimization option added
  41.             12.02.2002 ist_first and ist_last replaced by ist_next
  42.             19.02.2002 transaction tree functions added
  43.             09.10.2002 bug in function ist_hedge fixed (conf. comp.)
  44.             12.03.2003 parameter lift added to function ist_rule
  45.             17.07.2003 check of item usage added (function ist_check)
  46.             18.07.2003 maximally frequent item set filter added
  47.             11.08.2003 item set filtering generalized (ist_filter)
  48.             15.08.2003 renamed new to cur in ist_addlvl (C++ compat.)
  49.             14.11.2003 definition of F_HDONLY changed to INT_MIN
  50.             02.12.2003 skipping unnecessary subtrees added (_stskip)
  51.             03.12.2003 bug in ist_check for rule mining fixed
  52.             12.12.2003 padding for 64 bit architecture added
  53.             09.05.2004 additional selection measure for sets added
  54.             09.12.2004 bug in add. evaluation measure for sets fixed
  55. ----------------------------------------------------------------------*/
  56. #include <stdio.h>
  57. #include <stdlib.h>
  58. #include <string.h>
  59. #include <limits.h>
  60. #include <float.h>
  61. #include <math.h>
  62. #include <assert.h>
  63. #include "istree.h"
  64. #ifdef STORAGE
  65. #include "storage.h"
  66. #endif
  67. /*----------------------------------------------------------------------
  68.   Preprocessor Definitions
  69. ----------------------------------------------------------------------*/
  70. #define LN_2       0.69314718055994530942   /* ln(2) */
  71. #define EPSILON    1e-12        /* to cope with roundoff errors */
  72. #define BLKSIZE    32           /* block size for level vector */
  73. #define F_HDONLY   INT_MIN      /* flag for head only item in path */
  74. #define F_SKIP     INT_MIN      /* flag for subtree skipping */
  75. #define ID(n)      ((int)((n)->id & ~F_HDONLY))
  76. #define HDONLY(n)  ((int)((n)->id &  F_HDONLY))
  77. /*----------------------------------------------------------------------
  78.   Type Definitions
  79. ----------------------------------------------------------------------*/
  80. typedef double EVALFN (double head, double body, double post);
  81. /* function to compute an additional evaluation measure */
  82. /*----------------------------------------------------------------------
  83.   Auxiliary Functions
  84. ----------------------------------------------------------------------*/
  85. static int _bsearch (int *vec, int n, int id)
  86. {                               /* --- binary search for an item */
  87.   int i, k;                     /* left and middle index */
  88.   assert(vec && (n > 0));       /* check the function arguments */
  89.   for (i = 0; i < n; ) {        /* while the range is not empty */
  90.     k = (i + n) >> 1;           /* get index of middle element */
  91.     if      (vec[k] > id) n = k;
  92.     else if (vec[k] < id) i = k+1;
  93.     else return k;              /* adapt range boundaries or return */
  94.   }                             /* the index the id. was found at */
  95.   return -1;                    /* return 'not found' */
  96. }  /* _bsearch() */
  97. /*--------------------------------------------------------------------*/
  98. static void _count (ISNODE *node, int *set, int cnt, int min)
  99. {                               /* --- count transaction recursively */
  100.   int    i;                     /* vector index */
  101.   int    *map, n;               /* identifier map and its size */
  102.   ISNODE **vec;                 /* child node vector */
  103.   assert(node                   /* check the function arguments */
  104.       && (cnt >= 0) && (set || (cnt <= 0)));
  105.   if (node->offset >= 0) {      /* if a pure vector is used */
  106.     if (node->chcnt == 0) {     /* if this is a new node */
  107.       n = node->offset;         /* get the index offset */
  108.       while ((cnt > 0) && (*set < n)) {
  109.         cnt--; set++; }         /* skip items before first counter */
  110.       while (--cnt >= 0) {      /* traverse the transaction's items */
  111.         i = *set++ -n;          /* compute counter vector index */
  112.         if (i >= node->size) return;
  113.         node->cnts[i]++;        /* if the counter exists, */
  114.       } }                       /* count the transaction */
  115.     else if (node->chcnt > 0) { /* if there are child nodes */
  116.       vec = (ISNODE**)(node->cnts +node->size);
  117.       n   = ID(vec[0]);         /* get the child node vector */
  118.       min--;                    /* one item less to the deepest nodes */
  119.       while ((cnt > min) && (*set < n)) {
  120.         cnt--; set++; }         /* skip items before first child */
  121.       while (--cnt >= min) {    /* traverse the transaction's items */
  122.         i = *set++ -n;          /* compute child vector index */
  123.         if (i >= node->chcnt) return;
  124.         if (vec[i]) _count(vec[i], set, cnt, min);
  125.       }                         /* if the child exists, */
  126.     } }                         /* count the transaction recursively */
  127.   else {                        /* if an identifer map is used */
  128.     map = node->cnts +(n = node->size);
  129.     if (node->chcnt == 0) {     /* if this is a new node */
  130.       while (--cnt >= 0) {      /* traverse the transaction's items */
  131.         if (*set > map[n-1]) return;  /* if beyond last item, abort */
  132.         i = _bsearch(map, n, *set++);
  133.         if (i >= 0) node->cnts[i]++;
  134.       } }                       /* find index and count transaction */
  135.     else if (node->chcnt > 0) { /* if there are child nodes */
  136.       vec = (ISNODE**)(map +n); /* get id. map and child vector */
  137.       if (node->chcnt < n)      /* if a secondary id. map exists */
  138.         map = (int*)(vec +(n = node->chcnt));
  139.       min--;                    /* one item less to the deepest nodes */
  140.       while (--cnt >= min) {    /* traverse the transaction's items */
  141.         if (*set > map[n-1]) return;  /* if beyond last item, abort */
  142.         i = _bsearch(map, n, *set++);
  143.         if ((i >= 0) && vec[i]) _count(vec[i], set, cnt, min);
  144.       }                         /* search for the proper index */
  145.     }                           /* and if the child exists, */
  146.   }                             /* count the transaction recursively */
  147. }  /* _count() */
  148. /*--------------------------------------------------------------------*/
  149. static void _countx (ISNODE *node, TATREE *tat, int min)
  150. {                               /* --- count t.a. tree recursively */
  151.   int    i, k;                  /* vector index, loop variable */
  152.   int    *map, n;               /* identifier map and its size */
  153.   ISNODE **vec;                 /* child node vector */
  154.   assert(node && tat);          /* check the function arguments */
  155.   if (tat_max(tat) < min)       /* if the transactions are too short, */
  156.     return;                     /* abort the recursion */
  157.   k = tat_size(tat);            /* get the number of children */
  158.   if (k <= 0) {                 /* if there are no children */
  159.     if (k < 0) _count(node, tat_items(tat), -k, min);
  160.     return;                     /* count the normal transaction */
  161.   }                             /* and abort the function */
  162.   while (--k >= 0)              /* count the transactions recursively */
  163.     _countx(node, tat_child(tat, k), min);
  164.   if (node->offset >= 0) {      /* if a pure vector is used */
  165.     if (node->chcnt == 0) {     /* if this is a new node */
  166.       n = node->offset;         /* get the index offset */
  167.       for (k = tat_size(tat); --k >= 0; ) {
  168.         i = tat_item(tat,k) -n; /* traverse the items */
  169.         if (i < 0) return;      /* if before first item, abort */
  170.         if (i < node->size)     /* if inside the counter range */
  171.           node->cnts[i] += tat_cnt(tat_child(tat, k));
  172.       } }                       /* count the transaction */
  173.     else if (node->chcnt > 0) { /* if there are child nodes */
  174.       vec = (ISNODE**)(node->cnts +node->size);
  175.       n   = ID(vec[0]);         /* get the child node vector */
  176.       min--;                    /* one item less to the deepest nodes */
  177.       for (k = tat_size(tat); --k >= 0; ) {
  178.         i = tat_item(tat,k) -n; /* traverse the items */
  179.         if (i < 0) return;      /* if before first item, abort */
  180.         if ((i < node->chcnt) && vec[i])
  181.           _countx(vec[i], tat_child(tat, k), min);
  182.       }                         /* if the child exists, */
  183.     } }                         /* count the transaction recursively */
  184.   else {                        /* if an identifer map is used */
  185.     map = node->cnts +(n = node->size);
  186.     if (node->chcnt == 0) {     /* if this is a new node */
  187.       for (k = tat_size(tat); --k >= 0; ) {
  188.         i = tat_item(tat, k);   /* get the next item */
  189.         if (i < map[0]) return; /* if before first item, abort */
  190.         i = _bsearch(map, n, i);
  191.         if (i >= 0) node->cnts[i] += tat_cnt(tat_child(tat, k));
  192.       } }                       /* find index and count transaction */
  193.     else if (node->chcnt > 0) { /* if there are child nodes */
  194.       vec = (ISNODE**)(map +n); /* get id. map and child vector */
  195.       if (node->chcnt < n)      /* if a secondary id. map exists */
  196.         map = (int*)(vec +(n = node->chcnt));
  197.       min--;                    /* one item less to the deepest nodes */
  198.       for (k = tat_size(tat); --k >= 0; ) {
  199.         i = tat_item(tat, k);   /* get the next item */
  200.         if (i < map[0]) return; /* if before first item, abort */
  201.         i = _bsearch(map, n, i);
  202.         if ((i >= 0) && vec[i]) _countx(vec[i], tat_child(tat, k), min);
  203.       }                         /* search for the proper index */
  204.     }                           /* and if the child exists, */
  205.   }                             /* count the transaction recursively */
  206. }  /* _countx() */
  207. /*--------------------------------------------------------------------*/
  208. static int _stskip (ISNODE *node)
  209. {                               /* --- set subtree skip flags */
  210.   int    i, r;                  /* vector index, result */
  211.   ISNODE **vec;                 /* child node vector */
  212.   assert(node);                 /* check the function argument */
  213.   if (node->chcnt  == 0) return  0;  /* do not skip new leaves */
  214.   if (node->chcnt  <  0) return -1;  /* skip marked subtrees */
  215.   if (node->offset >= 0)        /* if a pure vector is used */
  216.     vec = (ISNODE**)(node->cnts +node->size);
  217.   else                          /* if an identifer map is used */
  218.     vec = (ISNODE**)(node->cnts +node->size +node->size);
  219.   for (r = -1, i = node->chcnt; --i >= 0; )
  220.     if (vec[i]) r &= _stskip(vec[i]);
  221.   if (!r) return 0;             /* recursively check all children */
  222.   node->chcnt |= F_SKIP;        /* set the skip flag if possible */
  223.   return -1;                    /* return 'skip subtree' */
  224. }  /* _stskip() */
  225. /*--------------------------------------------------------------------*/
  226. static int _check (ISNODE *node, char *marks, int supp)
  227. {                               /* --- recursively check item usage */
  228.   int    i, r = 0;              /* vector index, result of check */
  229.   int    *map, n;               /* identifier map and its size */
  230.   ISNODE **vec;                 /* child node vector */
  231.   assert(node && marks);        /* check the function arguments */
  232.   if (node->offset >= 0) {      /* if a pure vector is used */
  233.     if (node->chcnt == 0) {     /* if this is a new node */
  234.       n = node->offset;         /* get the index offset */
  235.       for (i = node->size; --i >= 0; ) {
  236.         if (node->cnts[i] >= supp)
  237.           marks[n+i] = r = 1;   /* mark items in set that satisfies */
  238.       } }                       /* the minimum support criterion */
  239.     else if (node->chcnt > 0) { /* if there are child nodes */
  240.       vec = (ISNODE**)(node->cnts +node->size);
  241.       for (i = node->chcnt; --i >= 0; )
  242.         if (vec[i]) r |= _check(vec[i], marks, supp);
  243.     } }                         /* recursively process all children */
  244.   else {                        /* if an identifer map is used */
  245.     map = node->cnts +node->size;
  246.     if (node->chcnt == 0) {     /* if this is a new node */
  247.       for (i = node->size; --i >= 0; ) {
  248.         if (node->cnts[i] >= supp)
  249.           marks[map[i]] = r = 1;/* mark items in set that satisfies */
  250.       } }                       /* the minimum support criterion */
  251.     else if (node->chcnt > 0) { /* if there are child nodes */
  252.       vec = (ISNODE**)(map +node->size);
  253.       for (i = node->chcnt; --i >= 0; )
  254.         if (vec[i]) r |= _check(vec[i], marks, supp);
  255.     }                           /* get the child vector and */
  256.   }                             /* recursively process all children */
  257.   if ((r != 0) && node->parent) /* if the check succeeded, mark */
  258.     marks[ID(node)] = 1;        /* the item associated with the node */
  259.   return r;                     /* return the check result */
  260. }  /* _check() */
  261. /*--------------------------------------------------------------------*/
  262. static int _getsupp (ISNODE *node, int *set, int cnt)
  263. {                               /* --- get support of an item set */
  264.   int    i, n, c;               /* vector index, buffers */
  265.   int    *map;                  /* identifier map */
  266.   ISNODE **vec;                 /* vector of child nodes */
  267.   assert(node && set && (cnt >= 0)); /* check the function arguments */
  268.   while (--cnt > 0) {           /* follow the set/path from the node */
  269.     c = node->chcnt & ~F_SKIP;  /* if there are no children, */
  270.     if (c <= 0) return -1;      /* the support is less than minsupp */
  271.     if (node->offset >= 0) {    /* if a pure vector is used */
  272.       vec = (ISNODE**)(node->cnts +node->size);
  273.       i   = *set++ -ID(vec[0]); /* compute the child vector index and */
  274.       if (i >= c) return -1; }  /* abort if the child does not exist */
  275.     else {                      /* if an identifier map is used */
  276.       map = node->cnts +(n = node->size);
  277.       vec = (ISNODE**)(map +n); /* get id. map and child vector */
  278.       if (c < n)                /* if a secondary id. map exists, */
  279.         map = (int*)(vec +(n = c));    /* get this identifier map */
  280.       i = _bsearch(map, n, *set++);
  281.     }                           /* search for the proper index */
  282.     if (i < 0) return -1;       /* abort if index is out of range */
  283.     node = vec[i];              /* go to the corresponding child */
  284.     if (!node) return -1;       /* if the child does not exists, */
  285.   }                             /* the support is less than minsupp */
  286.   if (node->offset >= 0) {      /* if a pure vector is used, */
  287.     i = *set -node->offset;     /* compute the counter index */
  288.     if (i >= node->size) return -1; }
  289.   else {                        /* if an identifier map is used */
  290.     map = node->cnts +(n = node->size);
  291.     i   = _bsearch(map, n, *set);
  292.   }                             /* search for the proper index */
  293.   if (i < 0) return -1;         /* abort if index is out of range */
  294.   return node->cnts[i];         /* return the item set support */
  295. }  /* _getsupp() */
  296. /*--------------------------------------------------------------------*/
  297. static void _clrsupp (ISNODE *node, int *set, int cnt, int supp)
  298. {                               /* --- clear support of an item set */
  299.   int    i, n, c;               /* vector index, buffers */
  300.   int    *map;                  /* identifier map */
  301.   ISNODE **vec;                 /* vector of child nodes */
  302.   assert(node && set && (cnt >= 0)); /* check the function arguments */
  303.   while (--cnt > 0) {           /* follow the set/path from the node */
  304.     if (node->offset >= 0) {    /* if a pure vector is used */
  305.       vec = (ISNODE**)(node->cnts +node->size);
  306.       i   = *set++ -ID(vec[0]);}/* compute the child vector index */
  307.     else {                      /* if an identifier map is used */
  308.       map = node->cnts +(n = node->size);
  309.       vec = (ISNODE**)(map +n); /* get id. map, child vector and */
  310.       c   = node->chcnt & ~F_SKIP;     /* the number of children */
  311.       if (c < n)                /* if a secondary id. map exists, */
  312.         map = (int*)(vec +(n = c));    /* get this identifier map */
  313.       i = _bsearch(map, n, *set++);
  314.     }                           /* search for the proper index */
  315.     node = vec[i];              /* go to the corresponding child */
  316.   }
  317.   if (node->offset >= 0)        /* if a pure vector is used, */
  318.     i = *set -node->offset;     /* compute the counter index */
  319.   else {                        /* if an identifier map is used */
  320.     map = node->cnts +(n = node->size);
  321.     i   = _bsearch(map, n, *set);
  322.   }                             /* search for the proper index */
  323.   if ((supp < 0)                /* if to clear unconditionally */
  324.   ||  (node->cnts[i] == supp))  /* or the support is the same */
  325.     node->cnts[i] = -(node->cnts[i] & ~F_SKIP);
  326. }  /* _clrsupp() */             /* clear the item set support */
  327. /*--------------------------------------------------------------------*/
  328. static ISNODE* _child (ISTREE *ist, ISNODE *node, int index,
  329.                        int s_min, int s_sub)
  330. {                               /* --- create child node (extend set) */
  331.   int    i, k, n;               /* loop variables, counters */
  332.   ISNODE *curr;                 /* to traverse the path to the root */
  333.   int    item, cnt;             /* item identifier, number of items */
  334.   int    *set;                  /* next (partial) item set to check */
  335.   int    body;                  /* enough support for a rule body */
  336.   int    hdonly;                /* whether head only item on path */
  337.   int    app;                   /* appearance flags of an item */
  338.   int    s_set;                 /* support of an item set */
  339.   assert(ist && node            /* check the function arguments */
  340.      && (index >= 0) && (index < node->size));
  341.   if (node->offset >= 0) item = node->offset +index;
  342.   else                   item = node->cnts[node->size +index];
  343.   app = ist->apps[item];        /* get item id. and appearance flag */
  344.   if ((app == IST_IGNORE)       /* do not extend an item to ignore */
  345.   ||  ((HDONLY(node) && (app == IST_HEAD))))
  346.     return NULL;                /* nor a set with two head only items */
  347.   hdonly = HDONLY(node) || (app == IST_HEAD);
  348.   /* --- initialize --- */
  349.   s_set = node->cnts[index];    /* get support of item set to extend */
  350.   if (s_set < s_min)            /* if set support is insufficient, */
  351.     return NULL;                /* no child is needed, so abort */
  352.   body = (s_set >= s_sub)       /* if the set has enough support for */
  353.        ? 1 : 0;                 /* a rule body, set the body flag */
  354.   ist->buf[ist->lvlvsz -2] = item;   /* init. set for support checks */
  355.   /* --- check candidates --- */
  356.   for (n = 0, i = index; ++i < node->size; ) {
  357.     if (node->offset >= 0) k = node->offset +i;
  358.     else                   k = node->cnts[node->size +i];
  359.     app = ist->apps[k];         /* traverse the candidate items */
  360.     if ((app == IST_IGNORE) || (hdonly && (app == IST_HEAD)))
  361.       continue;                 /* skip sets with two head only items */
  362.     s_set = node->cnts[i];      /* traverse the candidate items */
  363.     if (s_set <  s_min)         /* if set support is insufficient, */
  364.       continue;                 /* ignore the corresponding candidate */
  365.     body &= 1;                  /* restrict body flags to the set S */
  366.     if (s_set >= s_sub)         /* if set support is sufficient for */
  367.       body |= 2;                /* a rule body, set the body flag */ 
  368.     set    = ist->buf +ist->lvlvsz -(cnt = 2);
  369.     set[1] = k;                 /* add the candidate item to the set */
  370.     for (curr = node; curr->parent; curr = curr->parent) {
  371.       s_set = _getsupp(curr->parent, set, cnt);
  372.       if (s_set <  s_min)       /* get the item set support and */
  373.         break;                  /* if it is too low, abort the loop */
  374.       if (s_set >= s_sub)       /* if some subset has enough support */
  375.         body |= 4;              /* for a rule body, set the body flag */
  376.       *--set = ID(curr); cnt++; /* add id of current node to the set */
  377.     }                           /* and adapt the number of items */
  378.     if (!curr->parent && body)  /* if subset support is high enough */
  379.       ist->map[n++] = k;        /* for a full rule and a rule body, */
  380.   }                             /* note the item identifier */
  381.   if (n <= 0) return NULL;      /* if no child is needed, abort */
  382.   #ifdef BENCH                  /* if benchmark version: */
  383.   ist->nec += n;                /* sum the necessary counters */
  384.   #endif
  385.   /* --- decide on node structure --- */
  386.   k = ist->map[n-1] -ist->map[0] +1;
  387.   if    (!ist->memopt) n = k;   /* check the size of a pure vector */
  388.   else if (3*n >= 2*k) n = k;   /* use a pure vector if it is small */
  389.   else                 k = n+n; /* enough, otherwise use an id. map */
  390.   #ifdef ARCH64                 /* if 64 bit architecture */
  391.   if ((n == k) && (k & 1)) n = ++k;
  392.   #endif                        /* pad to even number of counters */
  393.   #ifdef BENCH                  /* if benchmark version */
  394.   ist->cnt   += n;              /* sum the number of counters */
  395.   ist->bytes += sizeof(ISNODE) +(k-1) *sizeof(int) +8;
  396.   #endif                        /* determine the memory usage */
  397.   /* --- create child --- */
  398.   curr = (ISNODE*)malloc(sizeof(ISNODE) +(k-1) *sizeof(int));
  399.   if (!curr) return (void*)-1;  /* create a child node */
  400.   curr->parent = node;          /* set pointer to parent node */
  401.   curr->succ   = NULL;          /* and clear successor pointer */
  402.   curr->id     = item;          /* initialize the item id. and */
  403.   if (hdonly) curr->id |= F_HDONLY;  /* set the head only flag */
  404.   curr->chcnt  = 0;             /* there are no children yet */
  405.   curr->size   = n;             /* set size of counter vector */
  406.   if (n == k)                   /* if to use a pure vector, */
  407.     curr->offset = ist->map[0]; /* note the first item as an offset */
  408.   else {                        /* if to use an identifier map, */
  409.     curr->offset = -1;          /* use the offset as an indicator */
  410.     for (set = curr->cnts +n +(i = n); --i >= 0; )
  411.       *--set = ist->map[i];     /* copy the identifier map */
  412.   }                             /* from the buffer to the node */
  413.   for (set = curr->cnts +(i = n); --i >= 0; )
  414.     *--set = 0;                 /* clear all counters of the node */
  415.   return curr;                  /* return pointer to created child */
  416. }  /* _child() */
  417. /*----------------------------------------------------------------------
  418.   In the above function the set S represented by the index-th vector
  419. element of the current node is extended only by combining it with the
  420. sets represented by the fields that follow it in the node vector,
  421. i.e. by the sets represented by vec[index+1] to vec[size-1]. The sets
  422. that can be formed by combining the set S and the sets represented by
  423. vec[0] to vec[index-1] are processed in the branches for these sets.
  424.   In the 'check candidates' loop it is checked for each set represented
  425. by vec[index+1] to vec[size-1] whether this set and all other subsets
  426. of the same size, which can be formed from the union of this set and
  427. the set S, have enough support, so that a child node is necessary.
  428.   Note that i +offset is the identifier of the item that has to be
  429. added to set S to form the union of the set S and the set T represented
  430. by vec[i], since S and T have the same path with the exception of the
  431. index in the current node. Hence we can speak of candidate items that
  432. are added to S.
  433.   Checking the support of the other subsets of the union of S and T
  434. that have the same size as S and T is done with the aid of a path
  435. variable. The items in this variable combined with the items on the
  436. path to the current node always represent the subset currently tested.
  437. That is, the path variable holds the path to be followed from the
  438. current node to arrive at the support counter for the subset. The path
  439. variable is initialized to [0]: <item>, [1]: <offset+i>, since the
  440. support counters for S and T can be inspected directly. Then this
  441. path is followed from the parent node of the current node, which is
  442. equivalent to checking the subset that can be obtained by removing
  443. from the union of S and T the item that corresponds to the parent node
  444. (in the path to S or T, resp.).
  445.   Iteratively making the parent node the current node, adding its
  446. corresponding item to the path and checking the support counter at the
  447. end of the path variable when starting from its (the new current node's)
  448. parent node tests all other subsets.
  449.   Another criterion is that the extended set must not contain two items
  450. which may appear only in the head of a rule. If two such items are
  451. contained in a set, neither can a rule be formed from its items nor can
  452. it be the antecedent of a rule. Whether a set contains two head only
  453. items is determined from the nodes 'hdonly' flag and the appearance
  454. flags of the items.
  455. ----------------------------------------------------------------------*/
  456. static void _cleanup (ISTREE *ist)
  457. {                               /* --- clean up on error */
  458.   ISNODE *node, *t;             /* to traverse the nodes */
  459.   assert(ist);                  /* check the function argument */
  460.   for (node = ist->levels[ist->lvlcnt]; node; ) {
  461.     t = node; node = node->succ; free(t); }
  462.   ist->levels[ist->lvlcnt] = NULL; /* delete all created nodes */
  463.   for (node = ist->levels[ist->lvlcnt -1]; node; node = node->succ)
  464.     node->chcnt = 0;            /* clear the child node counters */
  465. }  /* _cleanup() */             /* of the deepest nodes in the tree */
  466. /*----------------------------------------------------------------------
  467.   Additional Evaluation Measure Functions
  468. ----------------------------------------------------------------------*/
  469. static double _none (double head, double body, double post)
  470. { return 1; }                   /* --- no add. evaluation measure */
  471. /*--------------------------------------------------------------------*/
  472. static double _diff (double head, double body, double post)
  473. { return fabs(post -head); }    /* --- absolute confidence difference */
  474. /*--------------------------------------------------------------------*/
  475. static double _quot (double head, double body, double post)
  476. {                               /* --- diff. of conf. quotient to 1 */
  477.   if (post > head) return 1 -head/post;
  478.   return (head <= 0) ? 0 : (1 -post/head);
  479. }  /* _quot() */
  480. /*--------------------------------------------------------------------*/
  481. static double _aimp (double head, double body, double post)
  482. {                               /* --- abs. diff. of improvement to 1 */
  483.   return (head <= 0) ? 0 : fabs(1 -post/head);
  484. }  /* _aimp() */
  485. /*--------------------------------------------------------------------*/
  486. static double _info (double head, double body, double post)
  487. {                               /* --- information diff. to prior */
  488.   double res, t;                /* result, temporary buffer */
  489.   if ((head < EPSILON) || (1-head < EPSILON)
  490.   ||  (body < EPSILON) || (1-body < EPSILON))
  491.     return 0;                   /* check for strict positivity */
  492.   post *= body; res = 0;        /* support of     head and     body */
  493.   if (post > 0) res += post *log(post /(   head  *   body));
  494.   t = body -post;               /* support of not head and     body */
  495.   if (t    > 0) res += t    *log(t    /((1-head) *   body));
  496.   t = head -post;               /* support of     head and not body */
  497.   if (t    > 0) res += t    *log(t    /(   head  *(1-body)));
  498.   t = 1-head -body +post;       /* support of not head and not body */
  499.   if (t    > 0) res += t    *log(t    /((1-head) *(1-body)));
  500.   return res/LN_2;              /* return information gain in bits */
  501. }  /* _info() */
  502. /*--------------------------------------------------------------------*/
  503. static double _chi2 (double head, double body, double post)
  504. {                               /* --- normalized chi^2 measure */
  505.   double t;                     /* temporary buffer */
  506.   if ((head < EPSILON) || (1-head < EPSILON)
  507.   ||  (body < EPSILON) || (1-body < EPSILON))
  508.     return 0;                   /* check for strict positivity */
  509.   t = (head -post) *body;       /* compute and return chi^2 measure */
  510.   return (t*t) / (head *(1-head) *body *(1-body));
  511. }  /* _chi2() */
  512. /*--------------------------------------------------------------------*/
  513. static EVALFN *_evalfns[EM_UNKNOWN] = {
  514.   /* EM_NONE  0 */  _none,      /* no additional evaluation measure */
  515.   /* EM_DIFF  1 */  _diff,      /* absolute confidence difference */
  516.   /* EM_QUOT  2 */  _quot,      /* difference of conf. quotient to 1 */
  517.   /* EM_AIMP  3 */  _aimp,      /* abs. diff. of improvement to 1 */
  518.   /* EM_INFO  4 */  _info,      /* information difference to prior */
  519.   /* EM_CHI2  5 */  _chi2,      /* normalized chi^2 measure */
  520. };                              /* table of evaluation functions */
  521. /*----------------------------------------------------------------------
  522.   Main Functions
  523. ----------------------------------------------------------------------*/
  524. ISTREE* ist_create (int itemcnt, double supp, double conf,
  525.                     int rsdef, const char *apps, int memopt)
  526. {                               /* --- create an item set tree */
  527.   ISTREE *ist;                  /* created item set tree */
  528.   ISNODE **lvl;                 /* vector of tree levels */
  529.   ISNODE *root;                 /* root node of the tree */
  530.   int    *buf, *map;            /* buffer vector, identifier map */
  531.   char   *a;                    /* to traverse appearances vector */
  532.   int    n;                     /* temporary buffer */
  533.   assert((itemcnt >= 0)         /* check the function arguments */
  534.       && (supp >= 0) && (supp <= 1) && (conf >= 0) && (conf <= 1));
  535.   /* --- allocate memory --- */ 
  536.   ist = (ISTREE*)malloc(sizeof(ISTREE) +(itemcnt-1) *sizeof(char));
  537.   if (!ist) return NULL;        /* allocate the tree body */
  538.   ist->levels = lvl = (ISNODE**)malloc(BLKSIZE *sizeof(ISNODE*));
  539.   if (!lvl) { free(ist); return NULL; }
  540.   ist->buf    = buf = (int*)    malloc(BLKSIZE *sizeof(int));
  541.   if (!buf) { free(lvl); free(ist); return NULL; }
  542.   ist->map    = map = (int*)    malloc(itemcnt *sizeof(int));
  543.   if (!map) { free(buf); free(lvl); free(ist); return NULL; }
  544.   #ifdef ARCH64                 /* if 64 bit architecture */
  545.   n = (itemcnt & 1) ? itemcnt+1 : itemcnt;
  546.   #else                         /* pad counters to even number */
  547.   n = itemcnt;                  /* on 32 bit systems, however, */
  548.   #endif                        /* use the number of items directly */
  549.   lvl[0] = ist->curr = root =   /* allocate a root node */
  550.     (ISNODE*)calloc(1, sizeof(ISNODE) +(n-1) *sizeof(int));
  551.   if (!root){ free(map); free(buf); free(lvl); free(ist); return NULL; }
  552.   /* --- initialize structures --- */
  553.   ist->lvlvsz  = BLKSIZE;       /* copy parameters to the structure */
  554.   ist->lvlcnt  = 1;    ist->tacnt = 0;
  555.   ist->supp    = supp; ist->conf  = conf;
  556.   ist->rsdef   = rsdef & IST_BOTH;
  557.   ist->memopt  = memopt;
  558.   #ifdef BENCH                  /* if benchmark version */
  559.   ist->cnt     = ist->nec   = itemcnt;
  560.   ist->chcnt   = ist->chnec = 0;
  561.   ist->bytes   = sizeof(ISTREE) +itemcnt *sizeof(char) +8
  562.                + BLKSIZE *sizeof(ISNODE*) +8
  563.                + BLKSIZE *sizeof(int) +8
  564.                + itemcnt *sizeof(int) +8;
  565.   #endif                        /* initialize the benchmark variables */
  566.   ist_init(ist, 1, EM_NONE, 1); /* initialize rule extraction */
  567.   root->parent = root->succ = NULL;
  568.   root->offset = root->id   = 0;
  569.   root->chcnt  = 0;             /* initialize the root node */
  570.   root->size   = n;
  571.   a = ist->apps;                /* copy item appearances */
  572.   if (apps) { while (--itemcnt >= 0) *a++ = *apps++ & IST_BOTH; }
  573.   else      { while (--itemcnt >= 0) *a++ = IST_BOTH;           }
  574.   return ist;                   /* return created item set tree */
  575. }  /* ist_create() */
  576. /*--------------------------------------------------------------------*/
  577. void ist_delete (ISTREE *ist)
  578. {                               /* --- delete an item set tree */
  579.   int    i;                     /* loop variables */
  580.   ISNODE *node, *t;             /* to traverse the nodes */
  581.   assert(ist);                  /* check the function argument */
  582.   for (i = ist->lvlcnt; --i >= 0; ) {
  583.     for (node = ist->levels[i]; node; ) {
  584.       t = node; node = node->succ; free(t); }
  585.   }                             /* delete all nodes, */
  586.   free(ist->levels);            /* the level vector, */
  587.   free(ist->map);               /* the identifier map, */
  588.   free(ist->buf);               /* the path buffer, */
  589.   free(ist);                    /* and the tree body */
  590. }  /* ist_delete() */
  591. /*--------------------------------------------------------------------*/
  592. void ist_count (ISTREE *ist, int *set, int cnt)
  593. {                               /* --- count transaction in tree */
  594.   assert(ist                    /* check the function arguments */
  595.      && (cnt >= 0) && (set || (cnt <= 0)));
  596.   if (cnt >= ist->lvlcnt)       /* recursively count transaction */
  597.     _count(ist->levels[0], set, cnt, ist->lvlcnt);
  598.   ist->tacnt++;                 /* increment the transaction counter */
  599. }  /* ist_count() */
  600. /*--------------------------------------------------------------------*/
  601. void ist_countx (ISTREE *ist, TATREE *tat)
  602. {                               /* --- count transaction in tree */
  603.   assert(ist && tat);           /* check the function arguments */
  604.   _countx(ist->levels[0], tat, ist->lvlcnt);
  605.   ist->tacnt = tat_cnt(tat);    /* recursively count the tree and */
  606. }  /* ist_countx() */           /* set the transaction counter */
  607. /*--------------------------------------------------------------------*/
  608. int ist_check (ISTREE *ist, char *marks)
  609. {                               /* --- check item usage */
  610.   int i, n;                     /* loop variable, number of items */
  611.   assert(ist);                  /* check the function argument */
  612.   for (i = ist->levels[0]->size; --i >= 0; )
  613.     marks[i] = 0;               /* clear the marker vector */
  614.   n = (ist->rsdef == IST_BOTH)  /* get the minimum support */
  615.     ? (int)ceil(ist->tacnt *ist->supp)
  616.     : (int)ceil(ist->tacnt *ist->supp *ist->conf);
  617.   _check(ist->levels[0], marks, n);  /* check the item usage */
  618.   for (n = 0, i = ist->levels[0]->size; --i >= 0; )
  619.     if (marks[i]) n++;          /* count used items */
  620.   return n;                     /* and return this number */
  621. }  /* ist_check() */
  622. /*--------------------------------------------------------------------*/
  623. int ist_addlvl (ISTREE *ist)
  624. {                               /* --- add a level to item set tree */
  625.   int    i, n, c;               /* loop variable, counter, buffer */
  626.   ISNODE **ndp;                 /* to traverse the nodes */
  627.   ISNODE *node;                 /* new (reallocated) node */
  628.   ISNODE **end;                 /* end of new level node list */
  629.   ISNODE *cur;                  /* current node in new level */
  630.   ISNODE *frst;                 /* first child of current node */
  631.   ISNODE *last;                 /* last  child of current node */
  632.   ISNODE **vec;                 /* child node vector */
  633.   int    *map;                  /* identifier map */
  634.   int    s_min;                 /* minimal support of a set */
  635.   int    s_sub;                 /* minimal support of a subset */
  636.   void   *p;                    /* temporary buffer */
  637.   assert(ist);                  /* check the function arguments */
  638.   /* --- enlarge level vector --- */
  639.   if (ist->lvlcnt >= ist->lvlvsz) { /* if the level vector is full */
  640.     n = ist->lvlvsz +BLKSIZE;   /* compute new vector size */
  641.     p = realloc(ist->levels, n *sizeof(ISNODE*));
  642.     if (!p) return -1;          /* enlarge the level vector */
  643.     ist->levels = (ISNODE**)p;  /* and set the new vector */
  644.     p = realloc(ist->buf,    n *sizeof(int));
  645.     if (!p) return -1;          /* enlarge the buffer vector */
  646.     ist->buf    = (int*)p;      /* and set the new vector */
  647.     ist->lvlvsz = n;            /* set the new vector size */
  648.   }                             /* (applies to buf and levels) */
  649.   end  = ist->levels +ist->lvlcnt;
  650.   *end = NULL;                  /* start a new tree level */
  651.   /* --- add tree level --- */
  652.   s_sub = (int)ceil(ist->tacnt *ist->supp); /* minimal subset support */
  653.   s_min = (ist->rsdef == IST_BOTH) ? s_sub  /* minimal rule   support */
  654.         : (int)ceil(ist->tacnt *ist->supp *ist->conf);
  655.   for (ndp = ist->levels +ist->lvlcnt -1; *ndp; ndp = &(*ndp)->succ) {
  656.     frst = last = NULL;         /* traverse the deepest nodes */
  657.     for (i = n = 0; i < (*ndp)->size; i++) {
  658.       cur = _child(ist, *ndp, i, s_min, s_sub);
  659.       if (!cur) continue;       /* create a child if necessary */
  660.       if (cur == (void*)-1) { _cleanup(ist); return -1; }
  661.       if (!frst) frst = cur;    /* note first and last child node */
  662.       *end = last = cur;        /* add node at the end of the list */
  663.       end  = &cur->succ; n++;   /* that contains the new level */
  664.     }                           /* and advance end pointer */
  665.     if (n <= 0) {               /* if no child node was created, */
  666.       (*ndp)->chcnt = F_SKIP; continue; }       /* skip the node */
  667.     #ifdef BENCH                /* if benchmark version */
  668.     ist->chnec += n;            /* sum the number of necessary */
  669.     #endif                      /* child pointers */
  670.     node = *ndp;                /* decide on the node structure: */
  671.     if (node->offset >= 0) {    /* if a pure counter vector is used, */
  672.       n = ID(last)-ID(frst)+1;  /* always add a pure child vector */
  673.       i = (node->size -1) *sizeof(int) +n *sizeof(ISNODE*); }
  674.     else if (2*n > node->size){ /* if a single id. map is best, */
  675.       n = node->size;           /* only add a child vector */
  676.       i = (n+n-1) *sizeof(int) +n *sizeof(ISNODE*); }
  677.     else {                      /* if two identifier maps are best, */
  678.       i = node->size;           /* add a child vector and a map */
  679.       i = (i+i-1) *sizeof(int) +n *(sizeof(ISNODE*) +sizeof(int));
  680.     }                           /* get size of additional vectors */
  681.     node = (ISNODE*)realloc(node, sizeof(ISNODE) +i);
  682.     if (!node) { _cleanup(ist); return -1; }
  683.     node->chcnt = n;            /* add a child vector to the node */
  684.     #ifdef BENCH                /* if benchmark version */
  685.     ist->chcnt += n;            /* sum the number of child pointers */
  686.     if ((node->offset >= 0) || (node->size == n))
  687.          ist->bytes += n * sizeof(ISNODE*);
  688.     else ist->bytes += n *(sizeof(ISNODE*) +sizeof(int));
  689.     #endif                      /* determine the memory usage */
  690.     if ((node != *ndp) && node->parent) {
  691.       last = node->parent;      /* adapt the ref. from the parent */
  692.       if (last->offset >= 0) {  /* if a pure vector is used */
  693.         vec = (ISNODE**)(last->cnts +last->size);
  694.         vec[(vec[0] != *ndp) ? ID(node) -ID(vec[0]) : 0] = node; }
  695.       else {                    /* if an identifier map is used */
  696.         map = last->cnts +(i = last->size);
  697.         vec = (ISNODE**)(map+i);/* get identifier map, child vector, */
  698.         c   = last->chcnt & ~F_SKIP;   /* and the number of children */
  699.         if (c < i)              /* if a secondary id. map exists, */
  700.           map = (int*)(vec +(i = c));  /* get this identifier map */
  701.         vec[_bsearch(map, i, node->id)] = node;
  702.       }                         /* find the proper index and */
  703.     }                           /* set the new child pointer */
  704.     *ndp = node;                /* set new (reallocated) node */
  705.     if (node->offset >= 0) {    /* if to use pure vectors */
  706.       vec = (ISNODE**)(node->cnts +node->size);
  707.       while (--n >= 0) vec[n] = NULL;
  708.       i = ID(frst);             /* get item identifier of first child */
  709.       for (cur = frst; cur; cur = cur->succ) {
  710.         vec[ID(cur)-i] = cur;   /* set the child node pointer */
  711.         cur->parent    = node;  /* and the parent pointer */
  712.       } }                       /* in the new node */
  713.     else if (n < node->size) {  /* if two identifier maps are used */
  714.       vec = (ISNODE**)(node->cnts +node->size +node->size);
  715.       map = (int*)(vec +n);     /* get the secondary identifier map */
  716.       for (i = 0, cur = frst; cur; cur = cur->succ) {
  717.         vec[i]      = cur;      /* set the child node pointer, */
  718.         map[i++]    = cur->id;  /* the identifier map entry, */
  719.         cur->parent = node;     /* and the parent pointer */
  720.       } }                       /* in the new node */
  721.     else {                      /* if one identifier map is used */
  722.       map = node->cnts +(i = node->size);
  723.       vec = (ISNODE**)(map +i); /* get id. map and child vector */
  724.       while (--n >= 0) vec[n] = NULL;
  725.       for (cur = frst; cur; cur = cur->succ) {
  726.         vec[_bsearch(map, i, cur->id)] = cur;
  727.         cur->parent = node;     /* set the child node pointer */
  728.       }                         /* and the parent pointer */
  729.     }                           /* in the new node */
  730.   }
  731.   if (!ist->levels[ist->lvlcnt])/* if no child has been added, */
  732.     return 1;                   /* abort the function, otherwise */
  733.   ist->lvlcnt++;                /* increment the level counter */
  734.   ist->tacnt = 0;               /* clear the transaction counter and */
  735.   ist->node  = NULL;            /* the item set node for rule extr. */
  736.   _stskip(ist->levels[0]);      /* mark subtrees to be skipped */
  737.   return 0;                     /* return 'ok' */
  738. }  /* ist_addlvl() */
  739. /*--------------------------------------------------------------------*/
  740. void ist_up (ISTREE *ist, int root)
  741. {                               /* --- go up in item set tree */
  742.   assert(ist && ist->curr);     /* check the function argument */
  743.   if      (root)                /* if root flag set, */
  744.     ist->curr = ist->levels[0]; /* go to the root node */
  745.   else if (ist->curr->parent)   /* if it exists, go to the parent */
  746.     ist->curr = ist->curr->parent;
  747. }  /* ist_up() */
  748. /*--------------------------------------------------------------------*/
  749. int ist_down (ISTREE *ist, int item)
  750. {                               /* --- go down in item set tree */
  751.   ISNODE *node;                 /* the current node */
  752.   ISNODE **vec;                 /* child node vector of current node */
  753.   int    *map, n;               /* identifier map and its size */
  754.   int    c;                     /* number of children */
  755.   assert(ist && ist->curr);     /* check the function argument */
  756.   node = ist->curr;             /* get the current node */
  757.   c = node->chcnt & ~F_SKIP;    /* if there are no child nodes, */
  758.   if (c <= 0) return -1;        /* abort the function */
  759.   if (node->offset >= 0) {      /* if a pure vector is used */
  760.     vec = (ISNODE**)(node->cnts +node->size);
  761.     item -= ID(vec[0]);         /* compute index in child node vector */
  762.     if (item >= c) return -1; } /* and abort if there is no child */
  763.   else {                        /* if an identifier map is used */
  764.     map = node->cnts +(n = node->size);
  765.     vec = (ISNODE**)(map +n);   /* get id. map and child vector */
  766.     if (c < n)                  /* if a secondary id. map exists, */
  767.       map = (int*)(vec +(n = c));      /* get this identifier map */
  768.     item = _bsearch(map, n, item);
  769.   }                             /* search for the proper index */
  770.   if ((item < 0) || !vec[item]) /* if the index is out of range */
  771.     return -1;                  /* or the child does not exist, abort */
  772.   ist->curr = vec[item];        /* otherwise go to the child node */
  773.   return 0;                     /* return 'ok' */
  774. }  /* ist_down() */
  775. /*--------------------------------------------------------------------*/
  776. int ist_next (ISTREE *ist, int item)
  777. {                               /* --- get next item with a counter */
  778.   int    i;                     /* vector index */
  779.   ISNODE *node;                 /* the current node */
  780.   int    *map, n;               /* identifier map and its size */
  781.   assert(ist && ist->curr);     /* check the function argument */
  782.   node = ist->curr;             /* get the current node */
  783.   if (node->offset >= 0) {      /* if a pure vector is used, */
  784.     if (item <  node->offset) return node->offset;
  785.     if (item >= node->offset +node->size) return -1;
  786.     return item +1; }           /* return the next item identifier */
  787.   else {                        /* if an identifier map is used */
  788.     map = node->cnts +(n = node->size);
  789.     if (item <  map[0])   return map[0];
  790.     if (item >= map[n-1]) return -1;
  791.     i = _bsearch(map, n, item); /* try to find the item directly */
  792.     if (i >= 0) return map[i+1];/* and return the following one */
  793.     while ((--n >= 0) && (*map > item)) map++;
  794.     return (n >= 0) ? *map :-1; /* search iteratively for the next */
  795.   }                             /* item identifier and return it */
  796. }  /* ist_next() */
  797. /*--------------------------------------------------------------------*/
  798. void ist_setcnt (ISTREE *ist, int item, int cnt)
  799. {                               /* --- set counter for an item */
  800.   ISNODE *node;                 /* the current node */
  801.   ISNODE **vec;                 /* child node vector of current node */
  802.   int    *map, n;               /* identifier map and its size */
  803.   int    c;                     /* number of children */
  804.   assert(ist && ist->curr);     /* check the function argument */
  805.   node = ist->curr;             /* get the current node */
  806.   if (node->offset >= 0) {      /* if a pure vector is used, */
  807.     item -= node->offset;       /* get index in counter vector */
  808.     if (item >= node->size) return; }
  809.   else {                        /* if an identifier map is used */
  810.     map = node->cnts +(n = node->size);
  811.     vec = (ISNODE**)(map +n);   /* get id. map and child vector */
  812.     c = node->chcnt & ~F_SKIP;  /* and the number of children */
  813.     if (c < n)                  /* if a secondary id. map exists, */
  814.       map = (int*)(vec +(n = c));      /* get this identifier map */
  815.     item = _bsearch(map, n, item);
  816.   }                             /* search for the proper index */
  817.   if (item >= 0) node->cnts[item] = cnt;
  818. }  /* ist_setcnt() */           /* set the frequency counter */
  819. /*--------------------------------------------------------------------*/
  820. int ist_getcnt (ISTREE *ist, int item)
  821. {                               /* --- get counter for an item */
  822.   ISNODE *node;                 /* the current node */
  823.   ISNODE **vec;                 /* child node vector of current node */
  824.   int    *map, n;               /* identifier map and its size */
  825.   int    c;                     /* number of children */
  826.   assert(ist && ist->curr);     /* check the function argument */
  827.   node = ist->curr;             /* get the current node */
  828.   if (node->offset >= 0) {      /* if pure vectors are used, */
  829.     item -= node->offset;       /* get index in counter vector */
  830.     if (item >= node->size) return -1; }
  831.   else {                        /* if an identifier map is used */
  832.     map = node->cnts +(n = node->size);
  833.     vec = (ISNODE**)(map +n);   /* get id. map and child vector */
  834.     c = node->chcnt & ~F_SKIP;  /* and the number of children */
  835.     if (c < n)                  /* if a secondary id. map exists, */
  836.       map = (int*)(vec +(n = c));      /* get this identifier map */
  837.     item = _bsearch(map, n, item);
  838.   }                             /* search for the proper index */
  839.   if (item < 0) return -1;      /* abort if index is out of range */
  840.   return node->cnts[item];      /* return the value of the counter */
  841. }  /* ist_getcnt() */
  842. /*--------------------------------------------------------------------*/
  843. int ist_getcntx (ISTREE *ist, int *set, int cnt)
  844. {                               /* --- get counter for an item set */
  845.   assert(ist                    /* check the function arguments */
  846.      && (cnt >= 0) && (set || (cnt <= 0)));
  847.   if (cnt <= 0)                 /* if the item set is empty, */
  848.     return ist->tacnt;          /* return the transaction count */
  849.   return _getsupp(ist->levels[0], set, cnt);
  850. }  /* ist_getcntx() */          /* return the item set support */
  851. /*--------------------------------------------------------------------*/
  852. void ist_filter (ISTREE *ist, int mode)
  853. {                               /* --- filter max. freq. item sets */
  854.   int    i, k, n;               /* loop variables */
  855.   ISNODE *node, *curr;          /* to traverse the nodes */
  856.   int    s_min, supp;           /* (minimum) support of an item set */
  857.   int    *set;                  /* next (partial) item set to process */
  858.   assert(ist);                  /* check the function argument */
  859.   s_min = (int)ceil(ist->tacnt *ist->supp);
  860.   if (s_min <= 0) s_min = 1;    /* get minimal support */
  861.   for (n = 1; n < ist->lvlcnt; n++) {
  862.     for (node = ist->levels[n]; node; node = node->succ) {
  863.       for (i = 0; i < node->size; i++) {
  864.         if (node->cnts[i] < s_min)
  865.           continue;             /* skip infrequent item sets */
  866.         supp = (mode == IST_CLOSED) ? node->cnts[i] : -1;
  867.         if (node->offset >= 0) k = node->offset +i;
  868.         else                   k = node->cnts[node->size +i];
  869.         set    = ist->buf +ist->lvlvsz;
  870.         *--set = k;        _clrsupp(node->parent, set, 1, supp);
  871.         *--set = ID(node); _clrsupp(node->parent, set, 1, supp);
  872.         k = 2;                  /* clear counters in parent node */
  873.         for (curr = node->parent; curr->parent; curr = curr->parent) {
  874.           _clrsupp(curr->parent, set, k, supp);
  875.           *--set = ID(curr); k++;
  876.         }                       /* climb up the tree and use the */
  877.       }                         /* constructed (partial) item sets */
  878.     }                           /* as paths to find the counters */
  879.   }                             /* that have to be cleared */
  880. }  /* ist_filter() */
  881. /*--------------------------------------------------------------------*/
  882. void ist_init (ISTREE *ist, int minlen, int arem, double minval)
  883. {                               /* --- initialize (rule) extraction */
  884.   assert(ist                    /* check the function arguments */
  885.       && (minlen > 0) && (minval >= 0.0) && (minval <= 1.0));
  886.   ist->index = ist->item = -1;
  887.   ist->node  = ist->head = NULL;
  888.   ist->size  = minlen;          /* initialize rule extraction */
  889.   if ((arem < EM_NONE) || (arem >= EM_UNKNOWN))
  890.     arem = EM_NONE;             /* check, adapt, and note */
  891.   ist->arem   = arem;           /* additional evaluation measure */
  892.   ist->minval = minval;         /* and its minimal value */
  893. }  /* ist_init() */
  894. /*--------------------------------------------------------------------*/
  895. int ist_set (ISTREE *ist, int *set, double *supp, double *aval)
  896. {                               /* --- extract next frequent item set */
  897.   int    i;                     /* loop variable */
  898.   int    item;                  /* an item identifier */
  899.   ISNODE *node, *tmp;           /* current item set node, buffer */
  900.   int    *cnts;                 /* to access the item frequencies */
  901.   int    s_min;                 /* minimal support of a set */
  902.   int    s_set;                 /* support of the current set */
  903.   double dev;                   /* deviation from indep. occurrence */
  904.   double nrm;                   /* freq. normalization factor */
  905.   assert(ist && set && supp);   /* check the function arguments */
  906.   /* --- initialize --- */
  907.   if (ist->size > ist->lvlcnt)  /* if the tree is not high enough */
  908.     return -1;                  /* for the item set size, abort */
  909.   s_min = (int)ceil(ist->tacnt *ist->supp); /* get minimal support */
  910.   if (!ist->node)               /* on first item set, initialize */
  911.     ist->node = ist->levels[ist->size-1];    /* the current node */
  912.   node = ist->node;             /* get the current item set node */
  913.   nrm  = (ist->tacnt > 0)       /* compute the normalization factor */
  914.        ? 1.0/ist->tacnt : 1.0;  /* for the item set support and */
  915.   cnts = ist->levels[0]->cnts;  /* get the item frequency vector */
  916.   /* --- find frequent item set --- */
  917.   while (1) {                   /* search for a frequent item set */
  918.     if (++ist->index >= node->size) { /* if all subsets have been */
  919.       node = node->succ;        /* processed, go to the successor */
  920.       if (!node) {              /* if at the end of a level, go down */
  921.         if (++ist->size > ist->lvlcnt)
  922.           return -1;            /* if beyond the deepest level, abort */
  923.         node = ist->levels[ist->size -1];
  924.       }                         /* get the 1st node of the new level */
  925.       ist->node  = node;        /* note the new item set node */
  926.       ist->index = 0;           /* start with the first item set */
  927.     }                           /* of the new item set node */
  928.     if (node->offset >= 0) item = node->offset +ist->index;
  929.     else                   item = node->cnts[node->size +ist->index];
  930.     if (ist->apps[item] == IST_IGNORE)
  931.       continue;                 /* skip items to ignore */
  932.     s_set = node->cnts[ist->index];
  933.     if (s_set < s_min)          /* if the support is not sufficient, */
  934.       continue;                 /* go to the next item set */
  935.     if      (ist->arem == EM_LOGQ){ /* if logarithm of supp. quotient */
  936.       dev = log(abs(cnts[item]) /(double)ist->tacnt);
  937.       for (tmp = node; tmp->parent; tmp = tmp->parent)
  938.         dev += log(abs(cnts[ID(tmp)]) /(double)ist->tacnt);
  939.       dev = (log(s_set /(double)ist->tacnt) -dev) /(100*LN_2); }
  940.     else if (ist->arem == EM_QUOT) { /* if measure is the quotient */
  941.       dev = abs(cnts[item]);    /* compute the expected support */
  942.       for (tmp = node; tmp->parent; tmp = tmp->parent)
  943.         dev *= abs(cnts[ID(tmp)]) *nrm;
  944.       dev = s_set /dev -1.0;  } /* compute the support quotient -1 */
  945.     else {                      /* if no add. evaluation measure, */
  946.       dev = 0; break; }         /* abort the search loop */
  947.     if (dev >= ist->minval)     /* if the value of the additional */
  948.       break;                    /* evaluation measure is high enough, */
  949.   }                             /* abort the search loop */
  950.   *supp = s_set *nrm;           /* compute the item set support */
  951.   /* --- build frequent item set --- */
  952.   i        = ist->size;         /* get the current item set size */
  953.   set[--i] = item;              /* and store the first item */
  954.   while (node->parent) {        /* while not at the root node */
  955.     set[--i] = ID(node);        /* add item to the item set */
  956.     node = node->parent;        /* and go to the parent node */
  957.   }
  958.   if (aval) *aval = dev;        /* set the add. evaluation measure */
  959.   return ist->size;             /* return the item set size */
  960. }  /* ist_set() */
  961. /*--------------------------------------------------------------------*/
  962. int ist_rule (ISTREE *ist, int *rule,
  963.               double *supp, double *conf, double *lift, double *aval)
  964. {                               /* --- extract next rule */
  965.   int    i;                     /* loop variable */
  966.   int    item;                  /* an item identifier */
  967.   ISNODE *node;                 /* current item set node */
  968.   ISNODE *parent;               /* parent of the item set node */
  969.   ISNODE **vec;                 /* child node vector */
  970.   int    *map, n;               /* identifier map and its size */
  971.   int    s_rule;                /* minimal support of a rule */
  972.   int    s_min;                 /* minimal support of a set */
  973.   int    s_set;                 /* support of set    (body & head) */
  974.   int    s_sub;                 /* support of subset (body) */
  975.   double p_body, p_head;        /* prior confidences/probabilities */
  976.   double c, v;                  /* confidence and measure value */
  977.   int    app;                   /* appearance flag of head item */
  978.   assert(ist && rule && supp && conf);  /* check function arguments */
  979.   /* --- initialize --- */
  980.   if (ist->size > ist->lvlcnt)  /* if the tree is not high enough */
  981.     return -1;                  /* for the rule length, abort */
  982.   s_rule = (int)ceil(ist->tacnt *ist->supp);  /* minimal rule support */
  983.   s_min  = (ist->rsdef == IST_BOTH) ? s_rule  /* minimal set  support */
  984.          : (int)ceil(ist->tacnt *ist->supp *ist->conf);
  985.   if (ist->node)                /* if this is not the first rule, */
  986.     node = ist->node;           /* get the buffered item set node */
  987.   else {                        /* if this is the first rule */
  988.     node = ist->node = ist->levels[ist->size -1];
  989.     ist->index = ist->item = -1;/* initialize the */
  990.   }                             /* rule extraction variables */
  991.   /* --- find rule --- */
  992.   while (1) {                   /* search for a rule */
  993.     if (ist->item >= 0) {       /* --- select next item subset */
  994.       *--ist->path = ist->item; /* add previous head to the path */
  995.       ist->plen++;              /* and get the next head item */
  996.       ist->item = ID(ist->head);
  997.       ist->head = ist->head->parent;
  998.       if (!ist->head)           /* if all subsets have been processed */
  999.         ist->item = -1;         /* clear the head item to trigger the */
  1000.     }                           /* selection of a new item set */
  1001.     if (ist->item < 0) {        /* --- select next item set */
  1002.       if (++ist->index >= node->size){/* if all subsets have been */
  1003.         node = node->succ;      /* processed, go to the successor */
  1004.         if (!node) {            /* if at the end of a level, go down */
  1005.           if (++ist->size > ist->lvlcnt)
  1006.             return -1;          /* if beyond the deepest level, abort */
  1007.           node = ist->levels[ist->size -1];
  1008.         }                       /* get the 1st node of the new level */
  1009.         ist->node = node;       /* note the new item set node and */
  1010.         ist->index  = 0;        /* start with the first item set */
  1011.       }                         /* of the new item set node */
  1012.       if (node->offset >= 0) item = node->offset +ist->index;
  1013.       else                   item = node->cnts[node->size +ist->index];
  1014.       if ((ist->apps[item] == IST_IGNORE)
  1015.       ||  (HDONLY(node) && (ist->apps[item] == IST_HEAD)))
  1016.         continue;               /* skip sets with two head only items */
  1017.       ist->item   = item;       /* set the head item identifier */
  1018.       ist->hdonly = HDONLY(node) || (ist->apps[item] == IST_HEAD);
  1019.       ist->head   = node;       /* set the new head item node */
  1020.       ist->path   = ist->buf +ist->lvlvsz;
  1021.       ist->plen   = 0;          /* clear the path */
  1022.     }
  1023.     app = ist->apps[ist->item]; /* get head item appearance */
  1024.     if (!(app & IST_HEAD) || (ist->hdonly && (app != IST_HEAD)))
  1025.       continue;                 /* if rule is not allowed, skip it */
  1026.     s_set = node->cnts[ist->index]; /* get the item set support */
  1027.     if (s_set < s_min) {        /* if the set support is too low, */
  1028.       ist->item = -1; continue; }   /* skip this item set */
  1029.     parent = node->parent;      /* get the parent node */
  1030.     if (ist->plen > 0)          /* if there is a path, use it */
  1031.       s_sub = _getsupp(ist->head, ist->path, ist->plen);
  1032.     else if (!parent)           /* if there is no parent (root node), */
  1033.       s_sub = ist->tacnt;       /* get the number of transactions */
  1034.     else if (parent->offset >= 0)   /* if a pure vector is used */
  1035.       s_sub = parent->cnts[ID(node) -parent->offset];
  1036.     else {                      /* if an identifier map is used */
  1037.       map = parent->cnts +(n = parent->size);
  1038.       vec = (ISNODE**)(map +n); /* get id. map and child vector */
  1039.       s_sub = parent->cnts[_bsearch(map, n, ID(node))];
  1040.     }                           /* find vector index and get support */
  1041.     if (s_sub < s_rule)         /* if the subset support is too low, */
  1042.       continue;                 /* get the next subset/next set */
  1043.     c = (s_sub > 0)             /* compute the rule confidence */
  1044.       ? (double)s_set/s_sub : 1;
  1045.     if (c < ist->conf -EPSILON) /* if the confidence is too low, */
  1046.       continue;                 /* get the next item subset/item set */
  1047.     if (ist->arem == EM_NONE) { /* if no add. eval. measure given, */
  1048.       v = 0; break; }           /* abort the loop (select the rule) */
  1049.     if (ist->size < 2) {        /* if rule has an empty antecedent, */
  1050.       v = 0; break; }           /* abort the loop (select the rule) */
  1051.     if (ist->tacnt <= 0)        /* if there are no transactions, */
  1052.       p_body = p_head = 1;      /* all probabilities are 1 */
  1053.     else {                      /* if there are transactions */
  1054.       p_body = (double)s_sub                           /ist->tacnt;
  1055.       p_head = (double)ist->levels[0]->cnts[ist->item] /ist->tacnt;
  1056.     }                           /* estimate prior probabilities */
  1057.     v = _evalfns[ist->arem](p_head, p_body, c);
  1058.     if (v >= ist->minval)       /* if rule value exceeds the minimal */
  1059.       break;                    /* of the add. rule eval. measure, */
  1060.   }  /* while (1) */            /* abort the loop (select rule) */
  1061.   *supp = (ist->tacnt <= 0) ? 1 /* compute the rule support */
  1062.         : ((ist->rsdef == IST_BODY) ? s_sub : s_set)
  1063.         / (double)ist->tacnt;   /* (respect the rule support def.) */
  1064.   if (lift)                     /* compute and store the lift value */
  1065.     *lift = (c *ist->tacnt)/(double)ist->levels[0]->cnts[ist->item];
  1066.   /* --- build rule --- */
  1067.   if (node->offset >= 0) item = node->offset +ist->index;
  1068.   else                   item = node->cnts[node->size +ist->index];
  1069.   i = ist->size;                /* get the current item and */
  1070.   if (item != ist->item)        /* if this item is not the head, */
  1071.     rule[--i] = item;           /* add it to the rule body */
  1072.   while (node->parent) {        /* traverse the path to the root */
  1073.     if (ID(node) != ist->item)  /* and add all items on this */
  1074.       rule[--i] = ID(node);     /* path to the rule body */
  1075.     node = node->parent;        /* (except the head of the rule) */
  1076.   }
  1077.   rule[0] = ist->item;          /* set the head of the rule, */
  1078.   *conf   = c;                  /* the rule confidence, and */
  1079.   if (aval) *aval = v;          /* the value of the add. measure */
  1080.   return ist->size;             /* return the rule size */
  1081. }  /* ist_rule() */
  1082. /*--------------------------------------------------------------------*/
  1083. int ist_hedge (ISTREE *ist, int *hedge, double *supp, double *conf)
  1084. {                               /* --- extract next hyperedge */
  1085.   int    i;                     /* loop variable */
  1086.   int    item;                  /* an item identifier */
  1087.   ISNODE *node;                 /* current item set node */
  1088.   ISNODE *head;                 /* node containing the rule head */
  1089.   ISNODE **vec;                 /* child node vector of head node */
  1090.   int    *map, n;               /* identifier map and its size */
  1091.   int    *path, plen;           /* path in tree and its length */
  1092.   int    s_min;                 /* minimal support of a hyperedge */
  1093.   int    s_set;                 /* support of set    (body & head) */
  1094.   int    s_sub;                 /* support of subset (body) */
  1095.   assert(ist && hedge && supp && conf);  /* check function arguments */
  1096.   /* --- initialize --- */
  1097.   if (ist->size > ist->lvlcnt)  /* if the tree is not high enough */
  1098.     return -1;                  /* for the hyperedge size, abort */
  1099.   s_min = (int)ceil(ist->tacnt *ist->supp); /* get minimal support */
  1100.   if (!ist->node)               /* on first hyperedge, initialize */
  1101.     ist->node = ist->levels[ist->size -1];    /* the current node */
  1102.   node = ist->node;             /* get the current item set node */
  1103.   /* --- find hyperedge --- */
  1104.   while (1) {                   /* search for a hyperedge */
  1105.     if (++ist->index >= node->size) { /* if all subsets have been */
  1106.       node = node->succ;        /* processed, go to the successor */
  1107.       if (!node) {              /* if at the end of a level, go down */
  1108.         if (++ist->size > ist->lvlcnt)
  1109.           return -1;            /* if beyond the deepest level, abort */
  1110.         node = ist->levels[ist->size -1];
  1111.       }                         /* get the 1st node of the new level */
  1112.       ist->node  = node;        /* note the new item set node and */
  1113.       ist->index = 0;           /* start with the first item set */
  1114.     }                           /* of the new item set node */
  1115.     if (node->offset >= 0) item = node->offset +ist->index;
  1116.     else                   item = node->cnts[node->size +ist->index];
  1117.     if (ist->apps[item] == IST_IGNORE)
  1118.       continue;                 /* skip items to ignore */
  1119.     s_set = node->cnts[ist->index];
  1120.     if (s_set < s_min)          /* if the set support is too low, */
  1121.       continue;                 /* skip this item set */
  1122.     head = node->parent;        /* get subset support from parent */
  1123.     if (!head)                  /* if there is no parent (root node), */
  1124.       s_sub = ist->tacnt;       /* get the total number of sets */
  1125.     else if (head->offset >= 0) /* if pure vectors are used */
  1126.       s_sub = head->cnts[ID(node) -head->offset];
  1127.     else {                      /* if an identifier map is used */
  1128.       map = head->cnts +(n = head->size);
  1129.       vec = (ISNODE**)(map +n); /* get id. map and child vector */
  1130.       s_sub = head->cnts[_bsearch(map, n, ID(node))];
  1131.     }                           /* find index and get the support */
  1132.     *conf   = (s_sub > 0)       /* compute confidence of first rule */
  1133.             ? (double)s_set/s_sub : 1;
  1134.     path    = ist->buf +ist->lvlvsz;
  1135.     *--path = ist->index +node->offset;
  1136.     plen    = 1;                /* initialize the path, */
  1137.     item    = ID(node);         /* note the next head item, and */
  1138.     while (head) {              /* traverse the path up to root */
  1139.       s_sub = _getsupp(head, path, plen);
  1140.       *conf += (s_sub > 0)      /* sum the rule confidences */
  1141.              ? (double)s_set/s_sub : 1;
  1142.       *--path = item; plen++;   /* store the previous head item */
  1143.       item = ID(head);          /* in the path (extend path) */
  1144.       head = head->parent;      /* and go to the parent node */
  1145.     }                           /* (get the next rule head) */
  1146.     *conf /= ist->size;         /* average the rule confidences */
  1147.     if (*conf >= ist->minval) break;
  1148.   }  /* while(1) */             /* if confidence suffices, abort loop */
  1149.   *supp = (ist->tacnt > 0)      /* compute the hyperedge support */
  1150.         ? (double)s_set/ist->tacnt : 1;
  1151.   /* --- build hyperedge --- */
  1152.   i = ist->size -1;             /* store the first item */
  1153.   if (node->offset >= 0) hedge[i] = ist->index +node->offset;
  1154.   else                   hedge[i] = node->cnts[node->size +ist->index];
  1155.   while (node->parent) {        /* while not at the root node */
  1156.     hedge[--i] = ID(node);      /* add item to the hyperedge */
  1157.     node = node->parent;        /* and go to the parent node */
  1158.   }
  1159.   return ist->size;             /* return the hyperedge size */
  1160. }  /* ist_hedge() */
  1161. /*--------------------------------------------------------------------*/
  1162. #ifndef NDEBUG
  1163. static void _showtree (ISNODE *node, int level)
  1164. {                               /* --- show subtree */
  1165.   int    i, k;                  /* loop variables, buffer */
  1166.   int    *map, n;               /* identifier map and its size */
  1167.   int    c;                     /* number of children */
  1168.   ISNODE **vec;                 /* vector of child nodes */
  1169.   assert(node && (level >= 0)); /* check the function arguments */
  1170.   c = node->chcnt & ~F_SKIP;    /* get the number of children */
  1171.   if      (c <= 0)              /* if there are no children, */
  1172.     vec = NULL;                 /* clear the child vector variable */
  1173.   else if (node->offset >= 0)   /* if a pure vector is used */
  1174.     vec = (ISNODE**)(node->cnts +node->size);
  1175.   else {                        /* if an identifier map is used */
  1176.     map = node->cnts +(n = node->size);
  1177.     vec = (ISNODE**)(map +n);   /* get id. map and child vector */
  1178.     if (c < n)                  /* if a secondary id. map exists, */
  1179.       map = (int*)(vec +(n = c));      /* get this identifier map */
  1180.   }                             /* get child access variables */
  1181.   for (i = 0; i < node->size; i++) {
  1182.     for (k = level; --k >= 0; ) /* indent and print */
  1183.       printf("   ");            /* item identifier and counter */
  1184.     if (node->offset >= 0) k = node->offset +i;
  1185.     else                   k = node->cnts[node->size +i];
  1186.     printf("%d: %dn", k, node->cnts[i]);
  1187.     if (!vec) continue;         /* check whether there are children */
  1188.     if (node->offset >= 0) k -= ID(vec[0]);
  1189.     else                   k = _bsearch(map, n, k);
  1190.     if ((k >= 0) && (k < c) && vec[k])
  1191.       _showtree(vec[k], level +1);
  1192.   }                             /* show subtree recursively */
  1193. }  /* _showtree() */
  1194. /*--------------------------------------------------------------------*/
  1195. void ist_show (ISTREE *ist)
  1196. {                               /* --- show an item set tree */
  1197.   assert(ist);                  /* check the function argument */
  1198.   _showtree(ist->levels[0], 0); /* show nodes recursively */
  1199.   printf("total: %dn", ist->tacnt);
  1200. }  /* ist_show() */             /* print number of transactions */
  1201. #endif