fti.c
上传用户:blenddy
上传日期:2007-01-07
资源大小:6495k
文件大小:10k
源码类别:

数据库系统

开发平台:

Unix_Linux

  1. #include "postgres.h"
  2. #include "executor/spi.h"
  3. #include "commands/trigger.h"
  4. #include <ctype.h> /* tolower */
  5. #include <stdio.h> /* debugging */
  6. /*
  7.  * Trigger function takes 2 arguments:
  8. 1. relation in which to store the substrings
  9. 2. field to extract substrings from
  10.    The relation in which to insert *must* have the following layout:
  11. string varchar(#)
  12. id oid
  13. Example:
  14. create function fti() returns opaque as
  15. '/home/boekhold/src/postgresql-6.2/contrib/fti/fti.so' language 'c';
  16. create table title_fti (string varchar(25), id oid);
  17. create index title_fti_idx on title_fti (string);
  18. create trigger title_fti_trigger after update or insert or delete on product
  19. for each row execute procedure fti(title_fti, title);
  20.    ^^^^^^^^^
  21.    where to store index in
  22.   ^^^^^
  23.   which column to index
  24. ofcourse don't forget to create an index on title_idx, column string, else
  25. you won't notice much speedup :)
  26. After populating 'product', try something like:
  27. select p.* from product p, title_fti f1, title_fti f2 where
  28. f1.string='slippery' and f2.string='wet' and f1.id=f2.id and p.oid=f1.id;
  29. */
  30. /*
  31. march 4 1998 Changed breakup() to return less substrings. Only breakup
  32.  in word parts which are in turn shortened from the start
  33.  of the word (ie. word, ord, rd)
  34.  Did allocation of substring buffer outside of breakup()
  35. oct. 5 1997, fixed a bug in string breakup (where there are more nonalpha
  36.  characters between words then 1).
  37. oct 4-5 1997 implemented the thing, at least the basic functionallity
  38.  of it all....
  39. */
  40. /* IMPROVEMENTS:
  41.    save a plan for deletes
  42.    create a function that will make the index *after* we have populated
  43.    the main table (probably first delete all contents to be sure there's
  44.    nothing in it, then re-populate the fti-table)
  45.    can we do something with operator overloading or a seperate function
  46.    that can build the final query automatigally?
  47.    */
  48. HeapTuple fti(void);
  49. char    *breakup(char *, char *);
  50. bool is_stopword(char *);
  51. bool new_tuple = false;
  52. /* THIS LIST MUST BE IN SORTED ORDER, A BINARY SEARCH IS USED!!!! */
  53. char    *StopWords[] = { /* list of words to skip in indexing */
  54. #ifdef SAMPLE_STOP_WORDS
  55. "no"
  56. "the",
  57. "yes",
  58. #endif
  59. };
  60. /* stuff for caching query-plans, stolen from contrib/spi/*.c */
  61. typedef struct
  62. {
  63. char    *ident;
  64. int nplans;
  65. void   **splan;
  66. } EPlan;
  67. static EPlan *InsertPlans = NULL;
  68. static EPlan *DeletePlans = NULL;
  69. static int nInsertPlans = 0;
  70. static int nDeletePlans = 0;
  71. static EPlan *find_plan(char *ident, EPlan ** eplan, int *nplans);
  72. /***********************************************************************/
  73. HeapTuple
  74. fti()
  75. {
  76. Trigger    *trigger; /* to get trigger name */
  77. int nargs; /* # of arguments */
  78. char   **args; /* arguments */
  79. char    *relname; /* triggered relation name */
  80. Relation rel; /* triggered relation */
  81. char    *indexname; /* name of table for substrings */
  82. HeapTuple rettuple = NULL;
  83. TupleDesc tupdesc; /* tuple description */
  84. bool isinsert = false;
  85. bool isdelete = false;
  86. int ret;
  87. char query[8192];
  88. Oid oid;
  89. /*
  90.  * FILE  *debug;
  91.  */
  92. /*
  93.  * debug = fopen("/dev/xconsole", "w"); fprintf(debug, "FTI: entered
  94.  * functionn"); fflush(debug);
  95.  */
  96. if (!CurrentTriggerData)
  97. elog(ERROR, "Full Text Indexing: triggers are not initialized");
  98. if (TRIGGER_FIRED_FOR_STATEMENT(CurrentTriggerData->tg_event))
  99. elog(ERROR, "Full Text Indexing: can't process STATEMENT events");
  100. if (TRIGGER_FIRED_BEFORE(CurrentTriggerData->tg_event))
  101. elog(ERROR, "Full Text Indexing: must be fired AFTER event");
  102. if (TRIGGER_FIRED_BY_INSERT(CurrentTriggerData->tg_event))
  103. isinsert = true;
  104. if (TRIGGER_FIRED_BY_UPDATE(CurrentTriggerData->tg_event))
  105. {
  106. isdelete = true;
  107. isinsert = true;
  108. }
  109. if (TRIGGER_FIRED_BY_DELETE(CurrentTriggerData->tg_event))
  110. isdelete = true;
  111. trigger = CurrentTriggerData->tg_trigger;
  112. rel = CurrentTriggerData->tg_relation;
  113. relname = SPI_getrelname(rel);
  114. rettuple = CurrentTriggerData->tg_trigtuple;
  115. if (isdelete && isinsert) /* is an UPDATE */
  116. rettuple = CurrentTriggerData->tg_newtuple;
  117. CurrentTriggerData = NULL; /* invalidate 'normal' calls to this
  118.  * function */
  119. if ((ret = SPI_connect()) < 0)
  120. elog(ERROR, "Full Text Indexing: SPI_connect failed, returned %dn", ret);
  121. nargs = trigger->tgnargs;
  122. if (nargs != 2)
  123. elog(ERROR, "Full Text Indexing: trigger can only have 2 arguments");
  124. args = trigger->tgargs;
  125. indexname = args[0];
  126. tupdesc = rel->rd_att; /* what the tuple looks like (?) */
  127. /* get oid of current tuple, needed by all, so place here */
  128. oid = rettuple->t_data->t_oid;
  129. if (!OidIsValid(oid))
  130. elog(ERROR, "Full Text Indexing: oid of current tuple is NULL");
  131. if (isdelete)
  132. {
  133. void    *pplan;
  134. Oid    *argtypes;
  135. Datum values[1];
  136. EPlan    *plan;
  137. sprintf(query, "D%s$%s", args[0], args[1]);
  138. plan = find_plan(query, &DeletePlans, &nDeletePlans);
  139. if (plan->nplans <= 0)
  140. {
  141. argtypes = (Oid *) palloc(sizeof(Oid));
  142. argtypes[0] = OIDOID;
  143. sprintf(query, "DELETE FROM %s WHERE id = $1", indexname);
  144. pplan = SPI_prepare(query, 1, argtypes);
  145. if (!pplan)
  146. elog(ERROR, "Full Text Indexing: SPI_prepare returned NULL "
  147.  "in delete");
  148. pplan = SPI_saveplan(pplan);
  149. if (pplan == NULL)
  150. elog(ERROR, "Full Text Indexing: SPI_saveplan returned NULL "
  151.  "in delete");
  152. plan->splan = (void **) malloc(sizeof(void *));
  153. *(plan->splan) = pplan;
  154. plan->nplans = 1;
  155. }
  156. values[0] = oid;
  157. ret = SPI_execp(*(plan->splan), values, NULL, 0);
  158. if (ret != SPI_OK_DELETE)
  159. elog(ERROR, "Full Text Indexing: error executing plan in delete");
  160. }
  161. if (isinsert)
  162. {
  163. char    *substring,
  164.    *column;
  165. void    *pplan;
  166. Oid    *argtypes;
  167. Datum values[2];
  168. int colnum;
  169. struct varlena *data;
  170. EPlan    *plan;
  171. sprintf(query, "I%s$%s", args[0], args[1]);
  172. plan = find_plan(query, &InsertPlans, &nInsertPlans);
  173. /* no plan yet, so allocate mem for argtypes */
  174. if (plan->nplans <= 0)
  175. {
  176. argtypes = (Oid *) palloc(2 * sizeof(Oid));
  177. argtypes[0] = VARCHAROID; /* create table t_name (string
  178.  * varchar, */
  179. argtypes[1] = OIDOID; /* id   oid);    */
  180. /* prepare plan to gain speed */
  181. sprintf(query, "INSERT INTO %s (string, id) VALUES ($1, $2)",
  182. indexname);
  183. pplan = SPI_prepare(query, 2, argtypes);
  184. if (!pplan)
  185. elog(ERROR, "Full Text Indexing: SPI_prepare returned NULL "
  186.  "in insert");
  187. pplan = SPI_saveplan(pplan);
  188. if (pplan == NULL)
  189. elog(ERROR, "Full Text Indexing: SPI_saveplan returned NULL"
  190.  " in insert");
  191. plan->splan = (void **) malloc(sizeof(void *));
  192. *(plan->splan) = pplan;
  193. plan->nplans = 1;
  194. }
  195. /* prepare plan for query */
  196. colnum = SPI_fnumber(tupdesc, args[1]);
  197. if (colnum == SPI_ERROR_NOATTRIBUTE)
  198. elog(ERROR, "Full Text Indexing: column '%s' of '%s' not found",
  199.  args[1], args[0]);
  200. /* Get the char* representation of the column with name args[1] */
  201. column = SPI_getvalue(rettuple, tupdesc, colnum);
  202. if (column)
  203. { /* make sure we don't try to index NULL's */
  204. char    *buff;
  205. char    *string = column;
  206. while (*string != '')
  207. { /* placed 'really' inline. */
  208. *string = tolower(*string); /* some compilers will
  209.  * choke */
  210. string++; /* on 'inline' keyword */
  211. }
  212. data = (struct varlena *) palloc(sizeof(int32) + strlen(column) +1);
  213. buff = palloc(strlen(column) + 1);
  214. /* saves lots of calls in while-loop and in breakup() */
  215. new_tuple = true;
  216. while ((substring = breakup(column, buff)))
  217. {
  218. int l;
  219. l = strlen(substring);
  220. data->vl_len = l + sizeof(int32);
  221. memcpy(VARDATA(data), substring, l);
  222. values[0] = PointerGetDatum(data);
  223. values[1] = oid;
  224. ret = SPI_execp(*(plan->splan), values, NULL, 0);
  225. if (ret != SPI_OK_INSERT)
  226. elog(ERROR, "Full Text Indexing: error executing plan "
  227.  "in insert");
  228. }
  229. pfree(buff);
  230. pfree(data);
  231. }
  232. }
  233. SPI_finish();
  234. return (rettuple);
  235. }
  236. char *
  237. breakup(char *string, char *substring)
  238. {
  239. static char *last_start;
  240. static char *cur_pos;
  241. if (new_tuple)
  242. {
  243. cur_pos = last_start = &string[strlen(string) - 1];
  244. new_tuple = false; /* don't initialize this next time */
  245. }
  246. while (cur_pos > string) /* don't read before start of 'string' */
  247. {
  248. /*
  249.  * skip pieces at the end of a string that are not alfa-numeric
  250.  * (ie. 'string$%^&', last_start first points to '&', and after
  251.  * this to 'g'
  252.  */
  253. if (!isalnum((int) *last_start))
  254. {
  255. while (!isalnum((int) *last_start) &&
  256.    last_start > string)
  257. last_start--;
  258. cur_pos = last_start;
  259. }
  260. cur_pos--; /* substrings are at minimum 2 characters
  261.  * long */
  262. if (isalnum((int) *cur_pos))
  263. {
  264. /* Houston, we have a substring! :) */
  265. memcpy(substring, cur_pos, last_start - cur_pos + 1);
  266. substring[last_start - cur_pos + 1] = '';
  267. if (!is_stopword(substring))
  268. return substring;
  269. }
  270. else
  271. {
  272. last_start = cur_pos - 1;
  273. cur_pos = last_start;
  274. }
  275. }
  276. return NULL; /* we've processed all of 'string' */
  277. }
  278. /* copied from src/backend/parser/keywords.c and adjusted for our situation*/
  279. bool
  280. is_stopword(char *text)
  281. {
  282. char   **StopLow; /* for list of stop-words */
  283. char   **StopHigh;
  284. char   **StopMiddle;
  285. unsigned int difference;
  286. StopLow = &StopWords[0]; /* initialize stuff for binary search */
  287. StopHigh = endof(StopWords);
  288. if (lengthof(StopWords) == 0)
  289. return false;
  290. while (StopLow <= StopHigh)
  291. {
  292. StopMiddle = StopLow + (StopHigh - StopLow) / 2;
  293. difference = strcmp(*StopMiddle, text);
  294. if (difference == 0)
  295. return (true);
  296. else if (difference < 0)
  297. StopLow = StopMiddle + 1;
  298. else
  299. StopHigh = StopMiddle - 1;
  300. }
  301. return (false);
  302. }
  303. /* for caching of query plans, stolen from contrib/spi/*.c */
  304. static EPlan *
  305. find_plan(char *ident, EPlan ** eplan, int *nplans)
  306. {
  307. EPlan    *newp;
  308. int i;
  309. if (*nplans > 0)
  310. {
  311. for (i = 0; i < *nplans; i++)
  312. {
  313. if (strcmp((*eplan)[i].ident, ident) == 0)
  314. break;
  315. }
  316. if (i != *nplans)
  317. return (*eplan + i);
  318. *eplan = (EPlan *) realloc(*eplan, (i + 1) * sizeof(EPlan));
  319. newp = *eplan + i;
  320. }
  321. else
  322. {
  323. newp = *eplan = (EPlan *) malloc(sizeof(EPlan));
  324. (*nplans) = i = 0;
  325. }
  326. newp->ident = (char *) malloc(strlen(ident) + 1);
  327. strcpy(newp->ident, ident);
  328. newp->nplans = 0;
  329. newp->splan = NULL;
  330. (*nplans)++;
  331. return (newp);
  332. }