wordtest.w
上传用户:rrhhcc
上传日期:2015-12-11
资源大小:54129k
文件大小:20k
源码类别:

通讯编程

开发平台:

Visual C++

  1. datethis
  2. @* Introduction. This program is a simple filter that sorts and outputs all
  3. lines of input that do not appear in a given set of sorted files. It is called
  4. {tt wordtest} because each line of input is considered to be a `word' and
  5. each of the sorted files is considered to be a 'dictionary'. Words are
  6. output when they don't appear in any given dictionary.
  7. The character set and alphabetic order are flexible. Every 8-bit
  8. character is mapped into an integer called its {it ord}. A character
  9. is called a {it null/} if its ord is zero; such characters are
  10. discarded from the input. A character is called a {it break/} if
  11. its ord is negative; such characters break the input into so-called words.
  12. Otherwise a character's ord is positive, and the character is called a
  13. {it letter}. One letter precedes another in alphabetic order if and only
  14. if it has a smaller ord. Two letters are considered identical, for
  15. purposes of sorting, if their ords are the same.
  16. The null character |'n'| must have ord~0; thus, it must remain null.
  17. Otherwise the ord mapping is arbitrary. If the user doesn't specify
  18. any special mapping, the default ord table simply maps every 8-bit
  19. character code into itself, considering characters to be unsigned char
  20. values in the range 0--255, except that ASCII codes {tt a-z} are
  21. mapped into the corresponding codes for {tt A-Z}, and newline is a
  22. break character. Optional command-line arguments, described below, can
  23. change this default mapping to any other desired scheme.
  24. A word is any nonempty sequence of letters that is immediately preceded
  25. and followed by break characters, when nulls are ignored. Technically
  26. speaking, we pretend that a break character is present at the beginning of a
  27. file but not at the end; thus, all letters following the final break character
  28. of a file are ignored, if any such letters are present. Two words are
  29. {it equivalent/} to each other if their letters have the same sequence
  30. of ord values. If two or more words of the input are equivalent, only
  31. the first will be output, and it will be output only if it is not
  32. equivalent to any word in the given dictionary files. Words in each
  33. dictionary are assumed to be in lexicographic order and to contain no
  34. nulls. Words in the output file will satisfy these conditions; therefore
  35. {tt wordtest} can be used to generate and update the dictionaries it needs.
  36. Notice that if no dictionaries are given, {tt wordtest} will act as a
  37. sorting routine that simply discards nulls and duplicate lines.
  38. @ The UNIX/ command line `{tt wordtest} {tt [options]} {tt [dictionaries]}'
  39. is interpreted by executing option commands from left to right and then by
  40. regarding any remaining arguments as the names of dictionary files.
  41. Most of the option commands are designed to specify the |ord| table.
  42. Initially |ord[c]=c| for each unsigned char code~|c|. The command
  43. $$line{hskip5emtt-bit stringhfil}$$
  44. makes every character in the string a break character. If the string is
  45. empty, {tt-b} makes every nonnull character a break (i.e., it sets
  46. |ord[c]=-1| for |1<=c<=255|). The command
  47. $$line{hskip5emtt-nit stringhfil}$$
  48. makes every character in the string a null character. If the string is
  49. empty, {tt-n} makes every character null. The command
  50. $$line{hskip5emtt-ait stringhfil}$$
  51. sets the ord of the $k$th element of the string equal to $delta+k$,
  52. where $delta$ is an offset value (normally zero). The command
  53. $$line{hskip5emtt-dit offsethfil}$$
  54. sets the value of $delta$; the offset should be a decimal integer between
  55. 0 and 255.
  56. There is also an option that has no effect on the |ord| table:
  57. $$line{hskip5emtt-mit lengthhfil}$$
  58. defines the length of the longest word. If any word of a file has
  59. more than this many characters, a break is artificially inserted
  60. so that a word of this maximum length is obtained. The default value is 50.
  61. The maximum legal value is 1000.
  62. If the given options do not specify at least one break character,
  63. {tt wordtest} applies the option commands
  64. $$vbox{line{hskip5em.{-b"\}hfil}
  65. line{.{" -d64 -a"abcdefghijklmnopqrstuvwxyz"}hfil}}$$
  66. which generate the default mapping mentioned above (unless other ords were
  67. changed).
  68. The program is designed to run fastest when there are at most two
  69. dictionary files (usually one large system dictionary and another
  70. personalized one), although it places no limit on the actual number of
  71. dictionaries that can be mentioned on the command line. Users who want
  72. to specify a multitude of dictionaries should ask themselves why they
  73. wouldn't prefer to merge their dictionaries together first (using
  74. {tt wordtest}).
  75. @d MAX_LENGTH_DEFAULT 50
  76. @d MAX_LENGTH_LIMIT 1000
  77. @ The general organization of {tt wordtest} is typical of applications
  78. written in CEE/, and its approach is quite simple. If any errors are
  79. detected, an indication of the error is sent to the |stderr| file and
  80. a nonzero value is returned.
  81. @p
  82. #include <stdio.h>
  83. @#
  84. @<Typedefs@>@;
  85. int main(argc,argv)
  86.   int argc; /* the number of command-line arguments */
  87.   char *argv[]; /* the arguments themselves */
  88. {
  89.   @<Local variables@>;
  90.   @<Scan the command line arguments@>;
  91.   @<Sort the input into memory@>;
  92.   @<Output all input words that aren't in dictionaries@>;
  93.   return 0;
  94. }
  95. @ @<Typedefs@>=
  96. typedef unsigned char byte; /* our bytes will range from 0 to 255 */
  97. @ @<Local variables@>=
  98. int targc; /* temporary modifications to |argc| */
  99. byte **targv; /* pointer to the current argument of interest */
  100. unsigned delta; /* the offset used in the .{-a} and .{-d} options */
  101. unsigned max_length=MAX_LENGTH_DEFAULT; /* longest allowable word */
  102. byte breakchar; /* break character to use in the output */
  103. int ord[256]; /* table of ord values */
  104. register int c; /* an all-purpose index */
  105. register byte *u,*v; /* pointer to current string characters */
  106. @ We try to use newline as the output break character, if possible.
  107. @<Scan the command line arguments@>=
  108. for (c=0;c<256;c++) ord[c]=c;
  109. delta=0;
  110. targc=argc-1;@+targv=(byte**)argv+1;
  111. while (targc && **targv=='-') {
  112.   @<Execute the option command |targv|@>;
  113.   targc--;@+targv++;
  114. }
  115. if (ord['n']<0) breakchar='n';
  116. else {
  117.   breakchar='';
  118.   for (c=255;c;c--) if (ord[c]<0) breakchar=c;
  119.   if (!breakchar) @<Set up the default ords@>;
  120. }
  121. @<Allocate data structures for a total of |targc| files@>;
  122. for (;targc;targc--,targv++) @<Open the dictionary file named |*targv|@>;
  123. @ @<Execute the option...@>=
  124. switch((*targv)[1]) {
  125. case 'a': for (c=delta,u=*targv+2;*u;u++) ord[*u]=++c;@+break;
  126. case 'b': if ((*targv)[2]) for (u=*targv+2;*u;u++) ord[*u]=-1;
  127.   else for (c=1;c<256;c++) ord[c]=-1;
  128.   break;
  129. case 'n': if ((*targv)[2]) for (u=*targv+2;*u;u++) ord[*u]=0;
  130.   else for (c=1;c<256;c++) ord[c]=0;
  131.   break;
  132. case 'd': if (sscanf((char*)*targv+2,"%u",&delta)==1 && delta<256) break;
  133.   goto print_usage;
  134. case 'm': if (sscanf((char*)*targv+2,"%u",&max_length)==1 &
  135.     max_length<=MAX_LENGTH_LIMIT) break;
  136.   goto print_usage;
  137. default: print_usage: fprintf(stderr,
  138.   "Usage: %s {-{{a|b|n}string|{d|m}number}}* dictionaryname*n",*argv);
  139.   return-1;
  140. }
  141. @ @<Set up the default ords@>=
  142. {
  143.   ord['n']=-1; /* newline is break character */
  144.   breakchar='n';
  145.   for (c=1;c<=26;c++) ord['a'-1+c]='A'-1+c;
  146. }
  147. @*Treaps. The most interesting part of this program is its sorting algorithm,
  148. which is based on the ``treap'' data structure of Aragon and Seidel
  149. [{sl 30th IEEE Symposium on Foundations of Computer Science/} (1989),
  150. 540--546].
  151. @^Aragon, Cecilia Rodriguez@>@^Seidel, Raimund@>
  152. A treap is a binary tree whose nodes have two key fields. The primary
  153. key, which in our application is a word from the input, obeys
  154. tree-search order: All descendants of the left child of node~$p$ have
  155. a primary key that is less than the primary key of~$p$, and all descendants
  156. of its right child have a primary key that is greater. The secondary key,
  157. which in our application is a unique pseudorandom integer attached to
  158. each input word, obeys heap order: The secondary key of~$p$'s children
  159. is greater than $p$'s own secondary key.
  160. A given set of nodes with distinct primary keys and distinct secondary
  161. keys can be made into a treap in exactly one way. This unique treap
  162. can be obtained, for example, by using ordinary tree insertion with
  163. respect to primary keys while inserting nodes in order of their
  164. secondary keys. It follows that, if the secondary keys are random,
  165. the binary tree will almost always be quite well balanced.
  166. We will compute secondary keys as unsigned long integers, assigning
  167. the key $(cn)bmod 2^{32}$ to the $n$th node, where $c$ is an odd
  168. number. This will guarantee that the secondary keys are distinct.
  169. By choosing $c$ close to $2^{32}/phi$, where $phi$ is the golden
  170. ratio $(1+sqrt5,)/2$, we also spread the values out in a fashion that
  171. is unlikely to match any existing order in the data.
  172. @d PHICLONE 2654435769 /* $approx 2^{32}/phi$ */
  173. @<Typedefs@>=
  174. typedef struct node_struct {
  175.   struct node_struct *left,*right; /* children */
  176.   byte *keyword; /* primary key */
  177.   unsigned long rank; /* secondary key */
  178. } node; /* node of a treap */
  179. @ We want to be able to compare two strings rapidly with respect to
  180. lexicographic order, as defined by the |ord| table. This can be done
  181. if one string is delimited by |''| as usual, while the other is
  182. delimited by a break character. Then we are sure to have an unequal
  183. comparison, and the inner loop is fast.
  184. Here is a routine that checks to see if a word is already present in the
  185. treap.  The word is assumed to be in |buffer|, terminated by |breakchar|.
  186. The words in the treap are terminated by nulls. The
  187. treap is accessed by means of |root|, a pointer to its root node.
  188. @<Search for |buffer| in the treap; |goto found| if it's there@>=
  189. {@+register node *p=root;
  190.   while (p) {
  191.     for (u=buffer,v=p->keyword;ord[*u]==ord[*v];u++,v++) ;
  192.     if (*v=='' && *u==breakchar) goto found;
  193.     if (ord[*u]<ord[*v]) p=p->left;
  194.     else p=p->right;
  195.   }
  196. }
  197. @ We don't need to insert nodes into the treap as often as we need to
  198. look words up, so we don't mind repeating the comparisons already made
  199. when we discover that insertion is necessary. (Actually a more comprehensive
  200. study of this tradeoff ought to be done. But not today; I am trying
  201. here to keep the program short and sweet.)
  202. The insertion algorithm proceeds just as the lookup algorithm until
  203. we come to a node whose rank is larger than the rank of the node
  204. to be inserted. We insert the new node in its place, then split the
  205. old node and its descendants into two subtrees that will become the
  206. left and right subtrees of the new node.
  207. @<Insert the |buffer| word into the treap@>=
  208. {@+register node *p,**q,**qq,*r;
  209.   current_rank += PHICLONE; /* unsigned addition mod $2^{32}$ */
  210.   p=root;@+q=&root;
  211.   while (p) {
  212.     if (p->rank>current_rank) break; /* end of the first phase */
  213.     for (u=buffer,v=p->keyword;ord[*u]==ord[*v];u++,v++) ;
  214.     if (ord[*u]<ord[*v]) q=&(p->left), p=*q;
  215.     else q=&(p->right), p=*q;
  216.   }
  217.   @<Set |r| to the address of a new node, and move |buffer| into it@>;
  218.   r->rank=current_rank;
  219.   *q=r; /* link the new node into the tree */
  220.   @<Split subtree |p| and attach it below node |r|@>;
  221. }
  222. @ @<Local...@>=
  223. unsigned long current_rank=0; /* pseudorandom number */
  224. @ At this point |p| may already be empty. If not, we can hook its
  225. parts together easily.  (A formal proof is a bit tricky, but the computer
  226. doesn't slow down like people do when they get to a conceptually harder
  227. part of an algorithm.)
  228. @<Split subtree |p| and attach it below node |r|@>=
  229. q=&(r->left);@+qq=&(r->right); /* slots to fill in as we split the subtree */
  230. while (p) {
  231.   for (u=buffer,v=p->keyword;ord[*u]==ord[*v];u++,v++) ;
  232.   if (ord[*u]<ord[*v]) {
  233.     *qq=p;
  234.     qq=&(p->left);
  235.     p=*qq;
  236.   } else {
  237.     *q=p;
  238.     q=&(p->right);
  239.     p=*q;
  240.   }
  241. }
  242. *q=*qq=NULL;
  243. @ We allocate node memory dynamically, in blocks of 100 nodes at a time.
  244. We also allocate string memory dynamically, 1000 characters at once
  245. (in addition to space for the current string).
  246. The variable |l| will be set to the length of the word in |buffer|.
  247. @d NODES_PER_BLOCK 100
  248. @d CHARS_PER_BLOCK 1000
  249. @d out_of_mem(x) {@+fprintf(stderr,"%s: Memory exhausted!n",*argv);
  250.                     return x;@+}
  251. @<Set |r| to the address of a new node, and move |buffer| into it@>=
  252. if (next_node==bad_node) {
  253.   next_node=(node*)calloc(NODES_PER_BLOCK,sizeof(node));
  254.   if (next_node==NULL) out_of_mem(-2);
  255.   bad_node=next_node+NODES_PER_BLOCK;
  256. }
  257. r=next_node++;
  258. @<Move |buffer| to a new place in the string memory, and make
  259.   |r->keyword| point to it@>;
  260. @ @<Move |buffer| to a new place...@>=
  261. if (next_string+l+1>=bad_string) {@+int block_size=CHARS_PER_BLOCK+l+1;
  262.   next_string=(byte*)malloc(block_size);
  263.   if (next_string==NULL) out_of_mem(-3);
  264.   bad_string=next_string+block_size;
  265. }
  266. r->keyword=next_string;
  267. for (u=buffer,v=next_string;ord[*u]>0;u++,v++) *v=*u;
  268. *v='';
  269. next_string=v+1;
  270. @ We had better define the variables we've been assuming in these
  271. storage allocation routines.
  272. @<Local variables@>=
  273. node *next_node=NULL, *bad_node=NULL;
  274. byte *next_string=NULL, *bad_string=NULL;
  275. node *root=NULL;
  276. byte *buffer;
  277. int l; /* length of current string in |buffer| */
  278. @ The mechanisms for sorting the input words are now all in place.
  279. We merely need to invoke them at the right times.
  280. @<Sort the input into memory@>=
  281. buffer=(byte*)malloc(max_length+1);
  282. if (buffer==NULL) out_of_mem(-5);
  283. while (1) {
  284.   @<Set |buffer| to the next word from |stdin|; |goto done| if file ends@>;
  285.   if (l) {
  286.    @<Search for |buffer| in the treap; |goto found| if it's there@>;
  287.    @<Insert the |buffer| word into the treap@>;
  288.  found:;    
  289.   }
  290. }
  291. done:;
  292. @ @<Set |buffer| to the next word from |stdin|...@>=
  293. u=buffer;@+l=0;
  294. while (l<max_length) {
  295.   c=getchar();
  296.   if (c==EOF) {
  297.     if (ferror(stdin)) {
  298.       fprintf(stderr,"%s: File read error on standard input!n",*argv);
  299.       return -6;
  300.     }
  301.     goto done; /* end of file; the current word, if any, is discarded */
  302.   }
  303.   if (ord[c]<=0) {
  304.     if (ord[c]<0) break;
  305.   } else {
  306.     *u++=(byte)c;
  307.     l++;
  308.   }
  309. }
  310. *u=breakchar;
  311. @ At the end we want to traverse the treap in symmetric order, so that
  312. we see its words in alphabetic order. We might as well destroy the
  313. treap structure as we do this. During this phase, |root| will point
  314. to a stack of nodes that remain to be visited (followed by traversal
  315. of their right subtrees).
  316. @<Output all input words that aren't in dictionaries@>=
  317. if (root!=NULL) {@+register node *p,*q;
  318.   p=root;
  319.   root=NULL;
  320.   while (1) {
  321.     while (p->left!=NULL) {
  322.       q=p->left;
  323.       p->left=root; /* |left| links are now used for the stack */
  324.       root=p;
  325.       p=q;
  326.     }
  327. visit: @<Output |p->keyword|, if it's not in the dictionaries@>;
  328.     if (p->right==NULL) {
  329.       if (root==NULL) break; /* the stack is empty, we're done */
  330.       p=root;
  331.       root=root->left; /* pop the stack */
  332.       goto visit;
  333.     } else p=p->right;
  334.   }
  335. }
  336. @* The dictionaries. So now all we have to do is provide a mechanism
  337. for reading the words in the dictionaries. The dictionaries are sorted,
  338. and by now the input words have been sorted too.
  339. So we need only scan through the
  340. dictionaries once; we'll try to zoom through as quickly as possible.
  341. First we need data structures. There will be an array of pointers to filenodes,
  342. for all dictionary files currently open. Each filenode will contain
  343. a buffer of size |BUFSIZ+1| for raw input bytes not yet scanned,
  344. as well as a buffer of size |MAX_LENGTH_LIMIT+1| for the current word
  345. being considered.
  346. @<Typedefs@>=
  347. typedef struct filenode_struct {
  348.   struct filenode_struct *link; /* pointer to next open file */
  349.   FILE *dfile; /* dictionary file */
  350.   byte buf[BUFSIZ+1], curword[MAX_LENGTH_LIMIT+1];
  351.   byte *pos; /* current position in |buf| */
  352.   byte *limit; /* end of input bytes in |buf| */
  353.   byte *endword; /* the first break character in |curword| */
  354. } filenode;
  355. @ @<Allocate data structures...@>=
  356. if (targc) {
  357.   curfile=(filenode*)calloc(targc,sizeof(filenode));
  358.   if (curfile==NULL) out_of_mem(-7);
  359.   for (f=curfile;f<curfile+targc-1;f++) f->link=f+1;
  360.   f->link=curfile; /* circular linking */
  361. } else curfile=NULL;
  362. @ @<Local...@>=
  363. filenode *curfile; /* current filenode of interest */
  364. filenode *f; /* temporary register for filenode list processing */
  365. @ @<Open the dictionary file named |*targv|@>=
  366. {
  367.   curfile->dfile=fopen((char*)*targv,"r");
  368.   if (curfile->dfile==NULL) {
  369.     fprintf(stderr,"%s: Can't open dictionary file %s!n",*argv,(char*)*targv);
  370.     return -8;
  371.   }
  372.   curfile->pos=curfile->limit=curfile->buf; /* |buf| is empty */
  373.   curfile->buf[0]='';
  374.   curfile->endword=curfile->curword; /* |curword| is empty too */
  375.   curfile->curword[0]=breakchar;
  376.   curfile=curfile->link; /* move to next filenode */
  377. }
  378. @ We will implicitly merge the dictionaries together by using a brute force
  379. scheme that works fine when there are only a few of them. Namely,
  380. |curfile| will point to a file having the currently smallest
  381. current word. To get to the next word of the merge, we advance to the
  382. next word in that file, comparing it with the current words of the
  383. other files to see if |curfile| should switch to one of them.
  384. When we get to the end of a file, its filenode simply leaves the circular
  385. list. Eventually the list will be empty, and we will set |curfile| to
  386. |NULL|; we will then have seen all the dictionary words in order.
  387. @ @<Output |p->keyword|, if it's not in the dictionaries@>=
  388. while (curfile!=NULL) {
  389.   for (u=p->keyword,v=curfile->curword;ord[*u]==ord[*v];u++,v++) ;
  390.   if (*u=='' && *v==breakchar) goto word_done;
  391.     /* we found it in the dictionary */
  392.   if (ord[*u]<ord[*v]) break; /* we didn't find it */
  393.   @<Advance to the next dictionary word@>;
  394. }
  395. @<Print |p->keyword| and |breakchar| on |stdout|@>@;
  396. word_done:;
  397. @ @<Print |p->keyword| and |breakchar| on |stdout|@>=
  398. for (u=p->keyword;*u;u++) putchar(*u);
  399. putchar(breakchar);
  400. @ @<Advance...@>=
  401. @<Read a new word into |curfile->curword|, as fast as you can@>;
  402. @<Adjust |curfile|, if necessary, to point to a file with minimal
  403.   |curword|@>;
  404. @ The dictionaries are supposed to be in order, and they shouldn't
  405. contain nulls. But if they fail to meet these criteria, we don't want
  406. {tt wordtest} to crash; it should just run more slowly and/or more
  407. peculiarly.
  408. The logic of the code here removes null characters, at the cost of speed.
  409. If the dictionary contains words out of order, say $alpha>beta$ where
  410. $alpha$ precedes $beta$ in the file, the effect will be as if $beta$
  411. were not present. (In particular, if the dictionary would happen to have a null
  412. word because of a break character inserted by our |max_length| logic,
  413. that null word would cause no harm, because a null word is always less than
  414. any nonnull word.)
  415. A null character always appears in |curfile->limit|.
  416. @<Read a new word into |curfile->curword|...@>=
  417. v=curfile->curword;
  418. l=max_length; /* here |l| represents max characters to put in |curword| */
  419. while (1) {@+register byte *w=curfile->limit;
  420.   u=curfile->pos;
  421.   if (u+l>=w)
  422.     while (ord[*u]>0) *v++=*u++; /* this is the inner loop */
  423.   else {
  424.     w=u+l;
  425.     c=*w;
  426.     *w=''; /* temporarily store a null to avoid overlong string */
  427.     while (ord[*u]>0) *v++=*u++; /* this too is the inner loop */
  428.     *w=c; /* restore the damaged byte */
  429.   }
  430.   if (ord[*u]<0) {
  431.     curfile->pos=u+1; /* good, we found the next break character */
  432.     break;
  433.   }
  434.   l-=u-curfile->pos;
  435.   if (l==0) { /* |max_length| reached */
  436.     curfile->pos=u;
  437.     break;
  438.   }
  439.   if (u==w) { /* we're at |curfile->limit| */
  440.     @<Refill |curfile->buf|; or remove the current file from the
  441.       circular list and |goto update_done|, if it has ended@>;
  442.   } else curfile->pos=u+1; /* bypass a null character in the dictionary */
  443. }
  444. curfile->endword=v;
  445. *v=breakchar;
  446. update_done:;
  447. @ @<Refill |curfile->buf|...@>=
  448. if (ferror(curfile->dfile)) {
  449.   fprintf(stderr,"%s: File read error on dictionary file!n",*argv);
  450.   return -9;
  451. }
  452. if (feof(curfile->dfile)) {
  453.   f=curfile->link;
  454.   if (f==curfile) curfile=NULL; /* the last dictionary file has ended */
  455.   else {
  456.     while (f->link!=curfile) f=f->link;
  457.     f->link=curfile->link; /* remove a filenode from the circular list */
  458.     curfile=f; /* and point to one of the remaining filenodes */
  459.   }
  460.   goto update_done;
  461. }
  462. curfile->limit=curfile->buf+fread(curfile->buf,1,BUFSIZ,curfile->dfile);
  463. *curfile->limit='';
  464. curfile->pos=curfile->buf;
  465. @ @<Adjust |curfile|, if necessary...@>=
  466. if (curfile!=NULL) {@+filenode *sentinel=curfile;
  467.   for (f=curfile->link;f!=sentinel;f=f->link)
  468.     @<Change |curfile| to |f| if |f->curword<curfile->curword|@>;    
  469. }
  470. @ @<Change |curfile| to |f| if |f->curword<curfile->curword|@>=
  471. {
  472.   *f->endword='';
  473.   for (u=f->curword,v=curfile->curword;ord[*u]==ord[*v];u++,v++) ;
  474.   if (ord[*u]<ord[*v]) curfile=f;
  475.   *f->endword=breakchar;
  476. }
  477. @* Index. Here is a list of the identifiers used by {tt wordtest},
  478. showing the sections in which they appear, underlined at points
  479. of definition.