ftdefs.h
上传用户:romrleung
上传日期:2022-05-23
资源大小:18897k
文件大小:6k
源码类别:

MySQL数据库

开发平台:

Visual C++

  1. /* Copyright (C) 2000 MySQL AB & MySQL Finland AB & TCX DataKonsult AB
  2.    This program is free software; you can redistribute it and/or modify
  3.    it under the terms of the GNU General Public License as published by
  4.    the Free Software Foundation; either version 2 of the License, or
  5.    (at your option) any later version.
  6.    This program is distributed in the hope that it will be useful,
  7.    but WITHOUT ANY WARRANTY; without even the implied warranty of
  8.    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  9.    GNU General Public License for more details.
  10.    You should have received a copy of the GNU General Public License
  11.    along with this program; if not, write to the Free Software
  12.    Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA */
  13. /* Written by Sergei A. Golubchik, who has a shared copyright to this code */
  14. /* some definitions for full-text indices */
  15. #include "fulltext.h"
  16. #include <m_ctype.h>
  17. #include <my_tree.h>
  18. #include <queues.h>
  19. #define true_word_char(s,X) (my_isalnum(s,X) || (X)=='_')
  20. #define misc_word_char(X) ((X)==''')
  21. #define word_char(s,X) (true_word_char(s,X) || misc_word_char(X))
  22. #define FT_MAX_WORD_LEN_FOR_SORT 31
  23. #define COMPILE_STOPWORDS_IN
  24. /* Interested readers may consult SMART
  25.    (ftp://ftp.cs.cornell.edu/pub/smart/smart.11.0.tar.Z)
  26.    for an excellent implementation of vector space model we use.
  27.    It also demonstrate the usage of different weghting techniques.
  28.    This code, though, is completely original and is not based on the
  29.    SMART code but was in some cases inspired by it.
  30.    NORM_PIVOT was taken from the article
  31.    A.Singhal, C.Buckley, M.Mitra, "Pivoted Document Length Normalization",
  32.    ACM SIGIR'96, 21-29, 1996
  33.  */
  34. #define LWS_FOR_QUERY   LWS_TF
  35. #define LWS_IN_USE  LWS_LOG
  36. #define PRENORM_IN_USE      PRENORM_AVG
  37. #define NORM_IN_USE       NORM_PIVOT
  38. #define GWS_IN_USE GWS_PROB
  39. /*==============================================================*/
  40. #define LWS_TF   (count)
  41. #define LWS_BINARY (count>0)
  42. #define LWS_SQUARE     (count*count)
  43. #define LWS_LOG  (count?(log( (double) count)+1):0)
  44. /*--------------------------------------------------------------*/
  45. #define PRENORM_NONE       (p->weight)
  46. #define PRENORM_MAX   (p->weight/docstat.max)
  47. #define PRENORM_AUG   (0.4+0.6*p->weight/docstat.max)
  48. #define PRENORM_AVG      (p->weight/docstat.sum*docstat.uniq)
  49. #define PRENORM_AVGLOG ((1+log(p->weight))/(1+log(docstat.sum/docstat.uniq)))
  50. /*--------------------------------------------------------------*/
  51. #define NORM_NONE       (1)
  52. #define NORM_SUM    (docstat.nsum)
  53. #define NORM_COS     (sqrt(docstat.nsum2))
  54. #define PIVOT_VAL (0.0115)
  55. #define NORM_PIVOT  (1+PIVOT_VAL*docstat.uniq)
  56. /*---------------------------------------------------------------*/
  57. #define GWS_NORM      (1/sqrt(sum2))
  58. #define GWS_GFIDF       (sum/doc_cnt)
  59. /* Mysterious, but w/o (double) GWS_IDF performs better :-o */
  60. #define GWS_IDF    log(aio->info->state->records/doc_cnt)
  61. #define GWS_IDF1    log((double)aio->info->state->records/doc_cnt)
  62. #define GWS_PROB ((aio->info->state->records > doc_cnt) ? log(((double)(aio->info->state->records-doc_cnt))/doc_cnt) : 0 )
  63. #define GWS_FREQ (1.0/doc_cnt)
  64. #define GWS_SQUARED pow(log((double)aio->info->state->records/doc_cnt),2)
  65. #define GWS_CUBIC   pow(log((double)aio->info->state->records/doc_cnt),3)
  66. #define GWS_ENTROPY (1-(suml/sum-log(sum))/log(aio->info->state->records))
  67. /*=================================================================*/
  68. /* Boolean search operators */
  69. #define FTB_YES   (ft_boolean_syntax[0])
  70. #define FTB_EGAL  (ft_boolean_syntax[1])
  71. #define FTB_NO    (ft_boolean_syntax[2])
  72. #define FTB_INC   (ft_boolean_syntax[3])
  73. #define FTB_DEC   (ft_boolean_syntax[4])
  74. #define FTB_LBR   (ft_boolean_syntax[5])
  75. #define FTB_RBR   (ft_boolean_syntax[6])
  76. #define FTB_NEG   (ft_boolean_syntax[7])
  77. #define FTB_TRUNC (ft_boolean_syntax[8])
  78. #define FTB_LQUOT (ft_boolean_syntax[10])
  79. #define FTB_RQUOT (ft_boolean_syntax[11])
  80. typedef struct st_ft_word {
  81.   byte * pos;
  82.   uint  len;
  83.   double weight;
  84. } FT_WORD;
  85. typedef struct st_ftb_param {
  86.   byte prev;
  87.   int  yesno;
  88.   int  plusminus;
  89.   bool pmsign;
  90.   bool trunc;
  91.   byte *quot;
  92. } FTB_PARAM;
  93. int is_stopword(char *word, uint len);
  94. uint _ft_make_key(MI_INFO *, uint , byte *, FT_WORD *, my_off_t);
  95. byte ft_get_word(CHARSET_INFO *, byte **, byte *, FT_WORD *, FTB_PARAM *);
  96. byte ft_simple_get_word(CHARSET_INFO *, byte **, byte *, FT_WORD *);
  97. typedef struct _st_ft_seg_iterator {
  98.   uint        num, len;
  99.   HA_KEYSEG  *seg;
  100.   const byte *rec, *pos;
  101. } FT_SEG_ITERATOR;
  102. void _mi_ft_segiterator_init(MI_INFO *, uint, const byte *, FT_SEG_ITERATOR *);
  103. void _mi_ft_segiterator_dummy_init(const byte *, uint, FT_SEG_ITERATOR *);
  104. uint _mi_ft_segiterator(FT_SEG_ITERATOR *);
  105. void ft_parse_init(TREE *, CHARSET_INFO *);
  106. int ft_parse(TREE *, byte *, int, my_bool);
  107. FT_WORD * ft_linearize(TREE *);
  108. FT_WORD * _mi_ft_parserecord(MI_INFO *, uint, const byte *);
  109. uint _mi_ft_parse(TREE *, MI_INFO *, uint, const byte *, my_bool);
  110. FT_INFO *ft_init_nlq_search(MI_INFO *, uint, byte *, uint, uint, byte *);
  111. FT_INFO *ft_init_boolean_search(MI_INFO *, uint, byte *, uint, CHARSET_INFO *);
  112. extern const struct _ft_vft _ft_vft_nlq;
  113. int ft_nlq_read_next(FT_INFO *, char *);
  114. float ft_nlq_find_relevance(FT_INFO *, byte *, uint);
  115. void ft_nlq_close_search(FT_INFO *);
  116. float ft_nlq_get_relevance(FT_INFO *);
  117. my_off_t ft_nlq_get_docid(FT_INFO *);
  118. void ft_nlq_reinit_search(FT_INFO *);
  119. extern const struct _ft_vft _ft_vft_boolean;
  120. int ft_boolean_read_next(FT_INFO *, char *);
  121. float ft_boolean_find_relevance(FT_INFO *, byte *, uint);
  122. void ft_boolean_close_search(FT_INFO *);
  123. float ft_boolean_get_relevance(FT_INFO *);
  124. my_off_t ft_boolean_get_docid(FT_INFO *);
  125. void ft_boolean_reinit_search(FT_INFO *);