regexec.c
上传用户:rrhhcc
上传日期:2015-12-11
资源大小:54129k
文件大小:28k
源码类别:

通讯编程

开发平台:

Visual C++

  1. /*
  2.  * re_*exec and friends - match REs
  3.  *
  4.  * Copyright (c) 1998, 1999 Henry Spencer.  All rights reserved.
  5.  * 
  6.  * Development of this software was funded, in part, by Cray Research Inc.,
  7.  * UUNET Communications Services Inc., Sun Microsystems Inc., and Scriptics
  8.  * Corporation, none of whom are responsible for the results.  The author
  9.  * thanks all of them. 
  10.  * 
  11.  * Redistribution and use in source and binary forms -- with or without
  12.  * modification -- are permitted for any purpose, provided that
  13.  * redistributions in source form retain this entire copyright notice and
  14.  * indicate the origin and nature of any modifications.
  15.  * 
  16.  * I'd appreciate being given credit for this package in the documentation
  17.  * of software which uses it, but that is not a requirement.
  18.  * 
  19.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES,
  20.  * INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY
  21.  * AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL
  22.  * HENRY SPENCER BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
  23.  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
  24.  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
  25.  * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY,
  26.  * WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR
  27.  * OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
  28.  * ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  29.  *
  30.  */
  31. #include "regguts.h"
  32. /* lazy-DFA representation */
  33. struct arcp { /* "pointer" to an outarc */
  34. struct sset *ss;
  35. color co;
  36. };
  37. struct sset { /* state set */
  38. unsigned *states; /* pointer to bitvector */
  39. unsigned hash; /* hash of bitvector */
  40. # define HASH(bv, nw) (((nw) == 1) ? *(bv) : hash(bv, nw))
  41. # define HIT(h,bv,ss,nw) ((ss)->hash == (h) && ((nw) == 1 || 
  42. memcmp(VS(bv), VS((ss)->states), (nw)*sizeof(unsigned)) == 0))
  43. int flags;
  44. # define STARTER 01 /* the initial state set */
  45. # define POSTSTATE 02 /* includes the goal state */
  46. # define LOCKED 04 /* locked in cache */
  47. # define NOPROGRESS 010 /* zero-progress state set */
  48. struct arcp ins; /* chain of inarcs pointing here */
  49. chr *lastseen; /* last entered on arrival here */
  50. struct sset **outs; /* outarc vector indexed by color */
  51. struct arcp *inchain; /* chain-pointer vector for outarcs */
  52. };
  53. struct dfa {
  54. int nssets; /* size of cache */
  55. int nssused; /* how many entries occupied yet */
  56. int nstates; /* number of states */
  57. int ncolors; /* length of outarc and inchain vectors */
  58. int wordsper; /* length of state-set bitvectors */
  59. struct sset *ssets; /* state-set cache */
  60. unsigned *statesarea; /* bitvector storage */
  61. unsigned *work; /* pointer to work area within statesarea */
  62. struct sset **outsarea; /* outarc-vector storage */
  63. struct arcp *incarea; /* inchain storage */
  64. struct cnfa *cnfa;
  65. struct colormap *cm;
  66. chr *lastpost; /* location of last cache-flushed success */
  67. chr *lastnopr; /* location of last cache-flushed NOPROGRESS */
  68. struct sset *search; /* replacement-search-pointer memory */
  69. int cptsmalloced; /* were the areas individually malloced? */
  70. char *mallocarea; /* self, or master malloced area, or NULL */
  71. };
  72. #define WORK 1 /* number of work bitvectors needed */
  73. /* setup for non-malloc allocation for small cases */
  74. #define FEWSTATES 20 /* must be less than UBITS */
  75. #define FEWCOLORS 15
  76. struct smalldfa {
  77. struct dfa dfa;
  78. struct sset ssets[FEWSTATES*2];
  79. unsigned statesarea[FEWSTATES*2 + WORK];
  80. struct sset *outsarea[FEWSTATES*2 * FEWCOLORS];
  81. struct arcp incarea[FEWSTATES*2 * FEWCOLORS];
  82. };
  83. #define DOMALLOC ((struct smalldfa *)NULL) /* force malloc */
  84. /* internal variables, bundled for easy passing around */
  85. struct vars {
  86. regex_t *re;
  87. struct guts *g;
  88. int eflags; /* copies of arguments */
  89. size_t nmatch;
  90. regmatch_t *pmatch;
  91. rm_detail_t *details;
  92. chr *start; /* start of string */
  93. chr *stop; /* just past end of string */
  94. int err; /* error code if any (0 none) */
  95. regoff_t *mem; /* memory vector for backtracking */
  96. struct smalldfa dfa1;
  97. struct smalldfa dfa2;
  98. };
  99. #define VISERR(vv) ((vv)->err != 0) /* have we seen an error yet? */
  100. #define ISERR() VISERR(v)
  101. #define VERR(vv,e) (((vv)->err) ? (vv)->err : ((vv)->err = (e)))
  102. #define ERR(e) VERR(v, e) /* record an error */
  103. #define NOERR() {if (ISERR()) return v->err;} /* if error seen, return it */
  104. #define OFF(p) ((p) - v->start)
  105. #define LOFF(p) ((long)OFF(p))
  106. /*
  107.  * forward declarations
  108.  */
  109. /* =====^!^===== begin forwards =====^!^===== */
  110. /* automatically gathered by fwd; do not hand-edit */
  111. /* === regexec.c === */
  112. int exec _ANSI_ARGS_((regex_t *, CONST chr *, size_t, rm_detail_t *, size_t, regmatch_t [], int));
  113. static int find _ANSI_ARGS_((struct vars *, struct cnfa *, struct colormap *));
  114. static int cfind _ANSI_ARGS_((struct vars *, struct cnfa *, struct colormap *));
  115. static int cfindloop _ANSI_ARGS_((struct vars *, struct cnfa *, struct colormap *, struct dfa *, struct dfa *, chr **));
  116. static VOID zapsubs _ANSI_ARGS_((regmatch_t *, size_t));
  117. static VOID zapmem _ANSI_ARGS_((struct vars *, struct subre *));
  118. static VOID subset _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  119. static int dissect _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  120. static int condissect _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  121. static int altdissect _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  122. static int cdissect _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  123. static int ccondissect _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  124. static int crevdissect _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  125. static int cbrdissect _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  126. static int caltdissect _ANSI_ARGS_((struct vars *, struct subre *, chr *, chr *));
  127. /* === rege_dfa.c === */
  128. static chr *longest _ANSI_ARGS_((struct vars *, struct dfa *, chr *, chr *, int *));
  129. static chr *shortest _ANSI_ARGS_((struct vars *, struct dfa *, chr *, chr *, chr *, chr **, int *));
  130. static chr *lastcold _ANSI_ARGS_((struct vars *, struct dfa *));
  131. static struct dfa *newdfa _ANSI_ARGS_((struct vars *, struct cnfa *, struct colormap *, struct smalldfa *));
  132. static VOID freedfa _ANSI_ARGS_((struct dfa *));
  133. static unsigned hash _ANSI_ARGS_((unsigned *, int));
  134. static struct sset *initialize _ANSI_ARGS_((struct vars *, struct dfa *, chr *));
  135. static struct sset *miss _ANSI_ARGS_((struct vars *, struct dfa *, struct sset *, pcolor, chr *, chr *));
  136. static int lacon _ANSI_ARGS_((struct vars *, struct cnfa *, chr *, pcolor));
  137. static struct sset *getvacant _ANSI_ARGS_((struct vars *, struct dfa *, chr *, chr *));
  138. static struct sset *pickss _ANSI_ARGS_((struct vars *, struct dfa *, chr *, chr *));
  139. /* automatically gathered by fwd; do not hand-edit */
  140. /* =====^!^===== end forwards =====^!^===== */
  141. /*
  142.  - exec - match regular expression
  143.  ^ int exec(regex_t *, CONST chr *, size_t, rm_detail_t *,
  144.  ^ size_t, regmatch_t [], int);
  145.  */
  146. int
  147. exec(re, string, len, details, nmatch, pmatch, flags)
  148. regex_t *re;
  149. CONST chr *string;
  150. size_t len;
  151. rm_detail_t *details;
  152. size_t nmatch;
  153. regmatch_t pmatch[];
  154. int flags;
  155. {
  156. struct vars var;
  157. register struct vars *v = &var;
  158. int st;
  159. size_t n;
  160. int backref;
  161. # define LOCALMAT 20
  162. regmatch_t mat[LOCALMAT];
  163. # define LOCALMEM 40
  164. regoff_t mem[LOCALMEM];
  165. /* sanity checks */
  166. if (re == NULL || string == NULL || re->re_magic != REMAGIC)
  167. return REG_INVARG;
  168. if (re->re_csize != sizeof(chr))
  169. return REG_MIXED;
  170. /* setup */
  171. v->re = re;
  172. v->g = (struct guts *)re->re_guts;
  173. if ((v->g->cflags&REG_EXPECT) && details == NULL)
  174. return REG_INVARG;
  175. if (v->g->info&REG_UIMPOSSIBLE)
  176. return REG_NOMATCH;
  177. backref = (v->g->info&REG_UBACKREF) ? 1 : 0;
  178. v->eflags = flags;
  179. if (v->g->cflags&REG_NOSUB)
  180. nmatch = 0; /* override client */
  181. v->nmatch = nmatch;
  182. if (backref) {
  183. /* need work area */
  184. if (v->g->nsub + 1 <= LOCALMAT)
  185. v->pmatch = mat;
  186. else
  187. v->pmatch = (regmatch_t *)MALLOC((v->g->nsub + 1) *
  188. sizeof(regmatch_t));
  189. if (v->pmatch == NULL)
  190. return REG_ESPACE;
  191. v->nmatch = v->g->nsub + 1;
  192. } else
  193. v->pmatch = pmatch;
  194. v->details = details;
  195. v->start = (chr *)string;
  196. v->stop = (chr *)string + len;
  197. v->err = 0;
  198. if (backref) {
  199. /* need retry memory */
  200. assert(v->g->ntree >= 0);
  201. n = (size_t)v->g->ntree;
  202. if (n <= LOCALMEM)
  203. v->mem = mem;
  204. else
  205. v->mem = (regoff_t *)MALLOC(n*sizeof(regoff_t));
  206. if (v->mem == NULL) {
  207. if (v->pmatch != pmatch && v->pmatch != mat)
  208. FREE(v->pmatch);
  209. return REG_ESPACE;
  210. }
  211. } else
  212. v->mem = NULL;
  213. /* do it */
  214. assert(v->g->tree != NULL);
  215. if (backref)
  216. st = cfind(v, &v->g->tree->cnfa, &v->g->cmap);
  217. else
  218. st = find(v, &v->g->tree->cnfa, &v->g->cmap);
  219. /* copy (portion of) match vector over if necessary */
  220. if (st == REG_OKAY && v->pmatch != pmatch && nmatch > 0) {
  221. zapsubs(pmatch, nmatch);
  222. n = (nmatch < v->nmatch) ? nmatch : v->nmatch;
  223. memcpy(VS(pmatch), VS(v->pmatch), n*sizeof(regmatch_t));
  224. }
  225. /* clean up */
  226. if (v->pmatch != pmatch && v->pmatch != mat)
  227. FREE(v->pmatch);
  228. if (v->mem != NULL && v->mem != mem)
  229. FREE(v->mem);
  230. return st;
  231. }
  232. /*
  233.  - find - find a match for the main NFA (no-complications case)
  234.  ^ static int find(struct vars *, struct cnfa *, struct colormap *);
  235.  */
  236. static int
  237. find(v, cnfa, cm)
  238. struct vars *v;
  239. struct cnfa *cnfa;
  240. struct colormap *cm;
  241. {
  242. struct dfa *s;
  243. struct dfa *d;
  244. chr *begin;
  245. chr *end = NULL;
  246. chr *cold;
  247. chr *open; /* open and close of range of possible starts */
  248. chr *close;
  249. int hitend;
  250. int shorter = (v->g->tree->flags&SHORTER) ? 1 : 0;
  251. /* first, a shot with the search RE */
  252. s = newdfa(v, &v->g->search, cm, &v->dfa1);
  253. assert(!(ISERR() && s != NULL));
  254. NOERR();
  255. MDEBUG(("nsearch at %ldn", LOFF(v->start)));
  256. cold = NULL;
  257. close = shortest(v, s, v->start, v->start, v->stop, &cold, (int *)NULL);
  258. freedfa(s);
  259. NOERR();
  260. if (v->g->cflags&REG_EXPECT) {
  261. assert(v->details != NULL);
  262. if (cold != NULL)
  263. v->details->rm_extend.rm_so = OFF(cold);
  264. else
  265. v->details->rm_extend.rm_so = OFF(v->stop);
  266. v->details->rm_extend.rm_eo = OFF(v->stop); /* unknown */
  267. }
  268. if (close == NULL) /* not found */
  269. return REG_NOMATCH;
  270. if (v->nmatch == 0) /* found, don't need exact location */
  271. return REG_OKAY;
  272. /* find starting point and match */
  273. assert(cold != NULL);
  274. open = cold;
  275. cold = NULL;
  276. MDEBUG(("between %ld and %ldn", LOFF(open), LOFF(close)));
  277. d = newdfa(v, cnfa, cm, &v->dfa1);
  278. assert(!(ISERR() && d != NULL));
  279. NOERR();
  280. for (begin = open; begin <= close; begin++) {
  281. MDEBUG(("nfind trying at %ldn", LOFF(begin)));
  282. if (shorter)
  283. end = shortest(v, d, begin, begin, v->stop,
  284. (chr **)NULL, &hitend);
  285. else
  286. end = longest(v, d, begin, v->stop, &hitend);
  287. NOERR();
  288. if (hitend && cold == NULL)
  289. cold = begin;
  290. if (end != NULL)
  291. break; /* NOTE BREAK OUT */
  292. }
  293. assert(end != NULL); /* search RE succeeded so loop should */
  294. freedfa(d);
  295. /* and pin down details */
  296. assert(v->nmatch > 0);
  297. v->pmatch[0].rm_so = OFF(begin);
  298. v->pmatch[0].rm_eo = OFF(end);
  299. if (v->g->cflags&REG_EXPECT) {
  300. if (cold != NULL)
  301. v->details->rm_extend.rm_so = OFF(cold);
  302. else
  303. v->details->rm_extend.rm_so = OFF(v->stop);
  304. v->details->rm_extend.rm_eo = OFF(v->stop); /* unknown */
  305. }
  306. if (v->nmatch == 1) /* no need for submatches */
  307. return REG_OKAY;
  308. /* submatches */
  309. zapsubs(v->pmatch, v->nmatch);
  310. return dissect(v, v->g->tree, begin, end);
  311. }
  312. /*
  313.  - cfind - find a match for the main NFA (with complications)
  314.  ^ static int cfind(struct vars *, struct cnfa *, struct colormap *);
  315.  */
  316. static int
  317. cfind(v, cnfa, cm)
  318. struct vars *v;
  319. struct cnfa *cnfa;
  320. struct colormap *cm;
  321. {
  322. struct dfa *s;
  323. struct dfa *d;
  324. chr *cold = NULL; /* silence gcc 4 warning */
  325. int ret;
  326. s = newdfa(v, &v->g->search, cm, &v->dfa1);
  327. NOERR();
  328. d = newdfa(v, cnfa, cm, &v->dfa2);
  329. if (ISERR()) {
  330. assert(d == NULL);
  331. freedfa(s);
  332. return v->err;
  333. }
  334. ret = cfindloop(v, cnfa, cm, d, s, &cold);
  335. freedfa(d);
  336. freedfa(s);
  337. NOERR();
  338. if (v->g->cflags&REG_EXPECT) {
  339. assert(v->details != NULL);
  340. if (cold != NULL)
  341. v->details->rm_extend.rm_so = OFF(cold);
  342. else
  343. v->details->rm_extend.rm_so = OFF(v->stop);
  344. v->details->rm_extend.rm_eo = OFF(v->stop); /* unknown */
  345. }
  346. return ret;
  347. }
  348. /*
  349.  - cfindloop - the heart of cfind
  350.  ^ static int cfindloop(struct vars *, struct cnfa *, struct colormap *,
  351.  ^ struct dfa *, struct dfa *, chr **);
  352.  */
  353. static int
  354. cfindloop(v, cnfa, cm, d, s, coldp)
  355. struct vars *v;
  356. struct cnfa *cnfa;
  357. struct colormap *cm;
  358. struct dfa *d;
  359. struct dfa *s;
  360. chr **coldp; /* where to put coldstart pointer */
  361. {
  362. chr *begin;
  363. chr *end;
  364. chr *cold;
  365. chr *open; /* open and close of range of possible starts */
  366. chr *close;
  367. chr *estart;
  368. chr *estop;
  369. int er;
  370. int shorter = v->g->tree->flags&SHORTER;
  371. int hitend;
  372. assert(d != NULL && s != NULL);
  373. cold = NULL;
  374. close = v->start;
  375. do {
  376. MDEBUG(("ncsearch at %ldn", LOFF(close)));
  377. close = shortest(v, s, close, close, v->stop, &cold, (int *)NULL);
  378. if (close == NULL)
  379. break; /* NOTE BREAK */
  380. assert(cold != NULL);
  381. open = cold;
  382. cold = NULL;
  383. MDEBUG(("cbetween %ld and %ldn", LOFF(open), LOFF(close)));
  384. for (begin = open; begin <= close; begin++) {
  385. MDEBUG(("ncfind trying at %ldn", LOFF(begin)));
  386. estart = begin;
  387. estop = v->stop;
  388. for (;;) {
  389. if (shorter)
  390. end = shortest(v, d, begin, estart,
  391. estop, (chr **)NULL, &hitend);
  392. else
  393. end = longest(v, d, begin, estop,
  394. &hitend);
  395. if (hitend && cold == NULL)
  396. cold = begin;
  397. if (end == NULL)
  398. break; /* NOTE BREAK OUT */
  399. MDEBUG(("tentative end %ldn", LOFF(end)));
  400. zapsubs(v->pmatch, v->nmatch);
  401. zapmem(v, v->g->tree);
  402. er = cdissect(v, v->g->tree, begin, end);
  403. if (er == REG_OKAY) {
  404. if (v->nmatch > 0) {
  405. v->pmatch[0].rm_so = OFF(begin);
  406. v->pmatch[0].rm_eo = OFF(end);
  407. }
  408. *coldp = cold;
  409. return REG_OKAY;
  410. }
  411. if (er != REG_NOMATCH) {
  412. ERR(er);
  413. return er;
  414. }
  415. if ((shorter) ? end == estop : end == begin) {
  416. /* no point in trying again */
  417. *coldp = cold;
  418. return REG_NOMATCH;
  419. }
  420. /* go around and try again */
  421. if (shorter)
  422. estart = end + 1;
  423. else
  424. estop = end - 1;
  425. }
  426. }
  427. } while (close < v->stop);
  428. *coldp = cold;
  429. return REG_NOMATCH;
  430. }
  431. /*
  432.  - zapsubs - initialize the subexpression matches to "no match"
  433.  ^ static VOID zapsubs(regmatch_t *, size_t);
  434.  */
  435. static VOID
  436. zapsubs(p, n)
  437. regmatch_t *p;
  438. size_t n;
  439. {
  440. size_t i;
  441. for (i = n-1; i > 0; i--) {
  442. p[i].rm_so = -1;
  443. p[i].rm_eo = -1;
  444. }
  445. }
  446. /*
  447.  - zapmem - initialize the retry memory of a subtree to zeros
  448.  ^ static VOID zapmem(struct vars *, struct subre *);
  449.  */
  450. static VOID
  451. zapmem(v, t)
  452. struct vars *v;
  453. struct subre *t;
  454. {
  455. if (t == NULL)
  456. return;
  457. assert(v->mem != NULL);
  458. v->mem[t->retry] = 0;
  459. if (t->op == '(') {
  460. assert(t->subno > 0);
  461. v->pmatch[t->subno].rm_so = -1;
  462. v->pmatch[t->subno].rm_eo = -1;
  463. }
  464. if (t->left != NULL)
  465. zapmem(v, t->left);
  466. if (t->right != NULL)
  467. zapmem(v, t->right);
  468. }
  469. /*
  470.  - subset - set any subexpression relevant to a successful subre
  471.  ^ static VOID subset(struct vars *, struct subre *, chr *, chr *);
  472.  */
  473. static VOID
  474. subset(v, sub, begin, end)
  475. struct vars *v;
  476. struct subre *sub;
  477. chr *begin;
  478. chr *end;
  479. {
  480. int n = sub->subno;
  481. assert(n > 0);
  482. if ((size_t)n >= v->nmatch)
  483. return;
  484. MDEBUG(("setting %dn", n));
  485. v->pmatch[n].rm_so = OFF(begin);
  486. v->pmatch[n].rm_eo = OFF(end);
  487. }
  488. /*
  489.  - dissect - determine subexpression matches (uncomplicated case)
  490.  ^ static int dissect(struct vars *, struct subre *, chr *, chr *);
  491.  */
  492. static int /* regexec return code */
  493. dissect(v, t, begin, end)
  494. struct vars *v;
  495. struct subre *t;
  496. chr *begin; /* beginning of relevant substring */
  497. chr *end; /* end of same */
  498. {
  499. assert(t != NULL);
  500. MDEBUG(("dissect %ld-%ldn", LOFF(begin), LOFF(end)));
  501. switch (t->op) {
  502. case '=': /* terminal node */
  503. assert(t->left == NULL && t->right == NULL);
  504. return REG_OKAY; /* no action, parent did the work */
  505. break;
  506. case '|': /* alternation */
  507. assert(t->left != NULL);
  508. return altdissect(v, t, begin, end);
  509. break;
  510. case 'b': /* back ref -- shouldn't be calling us! */
  511. return REG_ASSERT;
  512. break;
  513. case '.': /* concatenation */
  514. assert(t->left != NULL && t->right != NULL);
  515. return condissect(v, t, begin, end);
  516. break;
  517. case '(': /* capturing */
  518. assert(t->left != NULL && t->right == NULL);
  519. assert(t->subno > 0);
  520. subset(v, t, begin, end);
  521. return dissect(v, t->left, begin, end);
  522. break;
  523. default:
  524. return REG_ASSERT;
  525. break;
  526. }
  527. }
  528. /*
  529.  - condissect - determine concatenation subexpression matches (uncomplicated)
  530.  ^ static int condissect(struct vars *, struct subre *, chr *, chr *);
  531.  */
  532. static int /* regexec return code */
  533. condissect(v, t, begin, end)
  534. struct vars *v;
  535. struct subre *t;
  536. chr *begin; /* beginning of relevant substring */
  537. chr *end; /* end of same */
  538. {
  539. struct dfa *d;
  540. struct dfa *d2;
  541. chr *mid;
  542. int i;
  543. int shorter = (t->left->flags&SHORTER) ? 1 : 0;
  544. chr *stop = (shorter) ? end : begin;
  545. assert(t->op == '.');
  546. assert(t->left != NULL && t->left->cnfa.nstates > 0);
  547. assert(t->right != NULL && t->right->cnfa.nstates > 0);
  548. d = newdfa(v, &t->left->cnfa, &v->g->cmap, &v->dfa1);
  549. NOERR();
  550. d2 = newdfa(v, &t->right->cnfa, &v->g->cmap, &v->dfa2);
  551. if (ISERR()) {
  552. assert(d2 == NULL);
  553. freedfa(d);
  554. return v->err;
  555. }
  556. /* pick a tentative midpoint */
  557. if (shorter)
  558. mid = shortest(v, d, begin, begin, end, (chr **)NULL,
  559. (int *)NULL);
  560. else
  561. mid = longest(v, d, begin, end, (int *)NULL);
  562. if (mid == NULL) {
  563. freedfa(d);
  564. freedfa(d2);
  565. return REG_ASSERT;
  566. }
  567. MDEBUG(("tentative midpoint %ldn", LOFF(mid)));
  568. /* iterate until satisfaction or failure */
  569. while (longest(v, d2, mid, end, (int *)NULL) != end) {
  570. /* that midpoint didn't work, find a new one */
  571. if (mid == stop) {
  572. /* all possibilities exhausted! */
  573. MDEBUG(("no midpoint!n"));
  574. freedfa(d);
  575. freedfa(d2);
  576. return REG_ASSERT;
  577. }
  578. if (shorter)
  579. mid = shortest(v, d, begin, mid+1, end, (chr **)NULL,
  580. (int *)NULL);
  581. else
  582. mid = longest(v, d, begin, mid-1, (int *)NULL);
  583. if (mid == NULL) {
  584. /* failed to find a new one! */
  585. MDEBUG(("failed midpoint!n"));
  586. freedfa(d);
  587. freedfa(d2);
  588. return REG_ASSERT;
  589. }
  590. MDEBUG(("new midpoint %ldn", LOFF(mid)));
  591. }
  592. /* satisfaction */
  593. MDEBUG(("successfuln"));
  594. freedfa(d);
  595. freedfa(d2);
  596. i = dissect(v, t->left, begin, mid);
  597. if (i != REG_OKAY)
  598. return i;
  599. return dissect(v, t->right, mid, end);
  600. }
  601. /*
  602.  - altdissect - determine alternative subexpression matches (uncomplicated)
  603.  ^ static int altdissect(struct vars *, struct subre *, chr *, chr *);
  604.  */
  605. static int /* regexec return code */
  606. altdissect(v, t, begin, end)
  607. struct vars *v;
  608. struct subre *t;
  609. chr *begin; /* beginning of relevant substring */
  610. chr *end; /* end of same */
  611. {
  612. struct dfa *d;
  613. int i;
  614. assert(t != NULL);
  615. assert(t->op == '|');
  616. for (i = 0; t != NULL; t = t->right, i++) {
  617. MDEBUG(("trying %dthn", i));
  618. assert(t->left != NULL && t->left->cnfa.nstates > 0);
  619. d = newdfa(v, &t->left->cnfa, &v->g->cmap, &v->dfa1);
  620. if (ISERR())
  621. return v->err;
  622. if (longest(v, d, begin, end, (int *)NULL) == end) {
  623. MDEBUG(("successn"));
  624. freedfa(d);
  625. return dissect(v, t->left, begin, end);
  626. }
  627. freedfa(d);
  628. }
  629. return REG_ASSERT; /* none of them matched?!? */
  630. }
  631. /*
  632.  - cdissect - determine subexpression matches (with complications)
  633.  * The retry memory stores the offset of the trial midpoint from begin, 
  634.  * plus 1 so that 0 uniquely means "clean slate".
  635.  ^ static int cdissect(struct vars *, struct subre *, chr *, chr *);
  636.  */
  637. static int /* regexec return code */
  638. cdissect(v, t, begin, end)
  639. struct vars *v;
  640. struct subre *t;
  641. chr *begin; /* beginning of relevant substring */
  642. chr *end; /* end of same */
  643. {
  644. int er;
  645. assert(t != NULL);
  646. MDEBUG(("cdissect %ld-%ld %cn", LOFF(begin), LOFF(end), t->op));
  647. switch (t->op) {
  648. case '=': /* terminal node */
  649. assert(t->left == NULL && t->right == NULL);
  650. return REG_OKAY; /* no action, parent did the work */
  651. break;
  652. case '|': /* alternation */
  653. assert(t->left != NULL);
  654. return caltdissect(v, t, begin, end);
  655. break;
  656. case 'b': /* back ref -- shouldn't be calling us! */
  657. assert(t->left == NULL && t->right == NULL);
  658. return cbrdissect(v, t, begin, end);
  659. break;
  660. case '.': /* concatenation */
  661. assert(t->left != NULL && t->right != NULL);
  662. return ccondissect(v, t, begin, end);
  663. break;
  664. case '(': /* capturing */
  665. assert(t->left != NULL && t->right == NULL);
  666. assert(t->subno > 0);
  667. er = cdissect(v, t->left, begin, end);
  668. if (er == REG_OKAY)
  669. subset(v, t, begin, end);
  670. return er;
  671. break;
  672. default:
  673. return REG_ASSERT;
  674. break;
  675. }
  676. }
  677. /*
  678.  - ccondissect - concatenation subexpression matches (with complications)
  679.  * The retry memory stores the offset of the trial midpoint from begin, 
  680.  * plus 1 so that 0 uniquely means "clean slate".
  681.  ^ static int ccondissect(struct vars *, struct subre *, chr *, chr *);
  682.  */
  683. static int /* regexec return code */
  684. ccondissect(v, t, begin, end)
  685. struct vars *v;
  686. struct subre *t;
  687. chr *begin; /* beginning of relevant substring */
  688. chr *end; /* end of same */
  689. {
  690. struct dfa *d;
  691. struct dfa *d2;
  692. chr *mid;
  693. int er;
  694. assert(t->op == '.');
  695. assert(t->left != NULL && t->left->cnfa.nstates > 0);
  696. assert(t->right != NULL && t->right->cnfa.nstates > 0);
  697. if (t->left->flags&SHORTER) /* reverse scan */
  698. return crevdissect(v, t, begin, end);
  699. d = newdfa(v, &t->left->cnfa, &v->g->cmap, DOMALLOC);
  700. if (ISERR())
  701. return v->err;
  702. d2 = newdfa(v, &t->right->cnfa, &v->g->cmap, DOMALLOC);
  703. if (ISERR()) {
  704. freedfa(d);
  705. return v->err;
  706. }
  707. MDEBUG(("cconcat %dn", t->retry));
  708. /* pick a tentative midpoint */
  709. if (v->mem[t->retry] == 0) {
  710. mid = longest(v, d, begin, end, (int *)NULL);
  711. if (mid == NULL) {
  712. freedfa(d);
  713. freedfa(d2);
  714. return REG_NOMATCH;
  715. }
  716. MDEBUG(("tentative midpoint %ldn", LOFF(mid)));
  717. v->mem[t->retry] = (mid - begin) + 1;
  718. } else {
  719. mid = begin + (v->mem[t->retry] - 1);
  720. MDEBUG(("working midpoint %ldn", LOFF(mid)));
  721. }
  722. /* iterate until satisfaction or failure */
  723. for (;;) {
  724. /* try this midpoint on for size */
  725. er = cdissect(v, t->left, begin, mid);
  726. if (er == REG_OKAY &&
  727. longest(v, d2, mid, end, (int *)NULL) == end &&
  728. (er = cdissect(v, t->right, mid, end)) == 
  729. REG_OKAY)
  730. break; /* NOTE BREAK OUT */
  731. if (er != REG_OKAY && er != REG_NOMATCH) {
  732. freedfa(d);
  733. freedfa(d2);
  734. return er;
  735. }
  736. /* that midpoint didn't work, find a new one */
  737. if (mid == begin) {
  738. /* all possibilities exhausted */
  739. MDEBUG(("%d no midpointn", t->retry));
  740. freedfa(d);
  741. freedfa(d2);
  742. return REG_NOMATCH;
  743. }
  744. mid = longest(v, d, begin, mid-1, (int *)NULL);
  745. if (mid == NULL) {
  746. /* failed to find a new one */
  747. MDEBUG(("%d failed midpointn", t->retry));
  748. freedfa(d);
  749. freedfa(d2);
  750. return REG_NOMATCH;
  751. }
  752. MDEBUG(("%d: new midpoint %ldn", t->retry, LOFF(mid)));
  753. v->mem[t->retry] = (mid - begin) + 1;
  754. zapmem(v, t->left);
  755. zapmem(v, t->right);
  756. }
  757. /* satisfaction */
  758. MDEBUG(("successfuln"));
  759. freedfa(d);
  760. freedfa(d2);
  761. return REG_OKAY;
  762. }
  763. /*
  764.  - crevdissect - determine backref shortest-first subexpression matches
  765.  * The retry memory stores the offset of the trial midpoint from begin, 
  766.  * plus 1 so that 0 uniquely means "clean slate".
  767.  ^ static int crevdissect(struct vars *, struct subre *, chr *, chr *);
  768.  */
  769. static int /* regexec return code */
  770. crevdissect(v, t, begin, end)
  771. struct vars *v;
  772. struct subre *t;
  773. chr *begin; /* beginning of relevant substring */
  774. chr *end; /* end of same */
  775. {
  776. struct dfa *d;
  777. struct dfa *d2;
  778. chr *mid;
  779. int er;
  780. assert(t->op == '.');
  781. assert(t->left != NULL && t->left->cnfa.nstates > 0);
  782. assert(t->right != NULL && t->right->cnfa.nstates > 0);
  783. assert(t->left->flags&SHORTER);
  784. /* concatenation -- need to split the substring between parts */
  785. d = newdfa(v, &t->left->cnfa, &v->g->cmap, DOMALLOC);
  786. if (ISERR())
  787. return v->err;
  788. d2 = newdfa(v, &t->right->cnfa, &v->g->cmap, DOMALLOC);
  789. if (ISERR()) {
  790. freedfa(d);
  791. return v->err;
  792. }
  793. MDEBUG(("crev %dn", t->retry));
  794. /* pick a tentative midpoint */
  795. if (v->mem[t->retry] == 0) {
  796. mid = shortest(v, d, begin, begin, end, (chr **)NULL, (int *)NULL);
  797. if (mid == NULL) {
  798. freedfa(d);
  799. freedfa(d2);
  800. return REG_NOMATCH;
  801. }
  802. MDEBUG(("tentative midpoint %ldn", LOFF(mid)));
  803. v->mem[t->retry] = (mid - begin) + 1;
  804. } else {
  805. mid = begin + (v->mem[t->retry] - 1);
  806. MDEBUG(("working midpoint %ldn", LOFF(mid)));
  807. }
  808. /* iterate until satisfaction or failure */
  809. for (;;) {
  810. /* try this midpoint on for size */
  811. er = cdissect(v, t->left, begin, mid);
  812. if (er == REG_OKAY &&
  813. longest(v, d2, mid, end, (int *)NULL) == end &&
  814. (er = cdissect(v, t->right, mid, end)) == 
  815. REG_OKAY)
  816. break; /* NOTE BREAK OUT */
  817. if (er != REG_OKAY && er != REG_NOMATCH) {
  818. freedfa(d);
  819. freedfa(d2);
  820. return er;
  821. }
  822. /* that midpoint didn't work, find a new one */
  823. if (mid == end) {
  824. /* all possibilities exhausted */
  825. MDEBUG(("%d no midpointn", t->retry));
  826. freedfa(d);
  827. freedfa(d2);
  828. return REG_NOMATCH;
  829. }
  830. mid = shortest(v, d, begin, mid+1, end, (chr **)NULL, (int *)NULL);
  831. if (mid == NULL) {
  832. /* failed to find a new one */
  833. MDEBUG(("%d failed midpointn", t->retry));
  834. freedfa(d);
  835. freedfa(d2);
  836. return REG_NOMATCH;
  837. }
  838. MDEBUG(("%d: new midpoint %ldn", t->retry, LOFF(mid)));
  839. v->mem[t->retry] = (mid - begin) + 1;
  840. zapmem(v, t->left);
  841. zapmem(v, t->right);
  842. }
  843. /* satisfaction */
  844. MDEBUG(("successfuln"));
  845. freedfa(d);
  846. freedfa(d2);
  847. return REG_OKAY;
  848. }
  849. /*
  850.  - cbrdissect - determine backref subexpression matches
  851.  ^ static int cbrdissect(struct vars *, struct subre *, chr *, chr *);
  852.  */
  853. static int /* regexec return code */
  854. cbrdissect(v, t, begin, end)
  855. struct vars *v;
  856. struct subre *t;
  857. chr *begin; /* beginning of relevant substring */
  858. chr *end; /* end of same */
  859. {
  860. int i;
  861. int n = t->subno;
  862. size_t len;
  863. chr *paren;
  864. chr *p;
  865. chr *stop;
  866. int min = t->min;
  867. int max = t->max;
  868. assert(t != NULL);
  869. assert(t->op == 'b');
  870. assert(n >= 0);
  871. assert((size_t)n < v->nmatch);
  872. MDEBUG(("cbackref n%d %d{%d-%d}n", t->retry, n, min, max));
  873. if (v->pmatch[n].rm_so == -1)
  874. return REG_NOMATCH;
  875. paren = v->start + v->pmatch[n].rm_so;
  876. len = v->pmatch[n].rm_eo - v->pmatch[n].rm_so;
  877. /* no room to maneuver -- retries are pointless */
  878. if (v->mem[t->retry])
  879. return REG_NOMATCH;
  880. v->mem[t->retry] = 1;
  881. /* special-case zero-length string */
  882. if (len == 0) {
  883. if (begin == end)
  884. return REG_OKAY;
  885. return REG_NOMATCH;
  886. }
  887. /* and too-short string */
  888. assert(end >= begin);
  889. if ((size_t)(end - begin) < len)
  890. return REG_NOMATCH;
  891. stop = end - len;
  892. /* count occurrences */
  893. i = 0;
  894. for (p = begin; p <= stop && (i < max || max == INFINITY); p += len) {
  895. if ((*v->g->compare)(paren, p, len) != 0)
  896. break;
  897. i++;
  898. }
  899. MDEBUG(("cbackref found %dn", i));
  900. /* and sort it out */
  901. if (p != end) /* didn't consume all of it */
  902. return REG_NOMATCH;
  903. if (min <= i && (i <= max || max == INFINITY))
  904. return REG_OKAY;
  905. return REG_NOMATCH; /* out of range */
  906. }
  907. /*
  908.  - caltdissect - determine alternative subexpression matches (w. complications)
  909.  ^ static int caltdissect(struct vars *, struct subre *, chr *, chr *);
  910.  */
  911. static int /* regexec return code */
  912. caltdissect(v, t, begin, end)
  913. struct vars *v;
  914. struct subre *t;
  915. chr *begin; /* beginning of relevant substring */
  916. chr *end; /* end of same */
  917. {
  918. struct dfa *d;
  919. int er;
  920. # define UNTRIED 0 /* not yet tried at all */
  921. # define TRYING 1 /* top matched, trying submatches */
  922. # define TRIED 2 /* top didn't match or submatches exhausted */
  923. if (t == NULL)
  924. return REG_NOMATCH;
  925. assert(t->op == '|');
  926. if (v->mem[t->retry] == TRIED)
  927. return caltdissect(v, t->right, begin, end);
  928. MDEBUG(("calt n%dn", t->retry));
  929. assert(t->left != NULL);
  930. if (v->mem[t->retry] == UNTRIED) {
  931. d = newdfa(v, &t->left->cnfa, &v->g->cmap, DOMALLOC);
  932. if (ISERR())
  933. return v->err;
  934. if (longest(v, d, begin, end, (int *)NULL) != end) {
  935. freedfa(d);
  936. v->mem[t->retry] = TRIED;
  937. return caltdissect(v, t->right, begin, end);
  938. }
  939. freedfa(d);
  940. MDEBUG(("calt matchedn"));
  941. v->mem[t->retry] = TRYING;
  942. }
  943. er = cdissect(v, t->left, begin, end);
  944. if (er != REG_NOMATCH)
  945. return er;
  946. v->mem[t->retry] = TRIED;
  947. return caltdissect(v, t->right, begin, end);
  948. }
  949. #include "rege_dfa.c"