word.c
上传用户:ykyjsl
上传日期:2022-01-30
资源大小:145k
文件大小:10k
源码类别:

压缩解压

开发平台:

C/C++

  1. /******************************************************************************
  2. File:  word.c
  3. Authors:  John Carpinelli   (johnfc@ecr.mu.oz.au)
  4.   Wayne Salamonsen  (wbs@mundil.cs.mu.oz.au)
  5. Lang Stuiver      (langs@cs.mu.oz.au)
  6. Purpose: Data compression with a word-based model using
  7. arithmetic coding.
  8. Copyright 1995 John Carpinelli and Wayne Salamonsen, All Rights Reserved.
  9. Copyright 1996 Lang Stuiver.  All Rights Reserved.
  10. These programs are supplied free of charge for research purposes only,
  11. and may not sold or incorporated into any commercial product.  There is
  12. ABSOLUTELY NO WARRANTY of any sort, nor any undertaking that they are
  13. fit for ANY PURPOSE WHATSOEVER.  Use them at your own risk.  If you do
  14. happen to find a bug, or have modifications to suggest, please report
  15. the same to Alistair Moffat, alistair@cs.mu.oz.au.  The copyright
  16. notice above and this statement of conditions must remain an integral
  17. part of each and every copy made of these files.
  18. ******************************************************************************/
  19. #include <stdio.h>
  20. #include <stdlib.h>
  21. #include <string.h>
  22. #include "bitio.h"
  23. #include "arith.h"
  24. #include "stats.h"
  25. #include "main.h"
  26. #include "hashtable.h"
  27. #define WORD 0 /* flag to process a word */
  28. #define NON_WORD 1 /* flag to process a non-word */
  29. #define INIT_CONTEXT 1023 /* initial size of word contexts */
  30. #define CHAR_CONTEXT 256 /* length of character contexts */
  31. #define BUFFER_SIZE 512 /* size of file input buffer */
  32. #define END_OF_MESSAGE  0               /* end of message symbol */
  33. /* Macro to specify what a word is */
  34. #define ISWORD(c) (((c >= 'A') && (c <= 'Z')) || 
  35.    ((c >= 'a') && (c <= 'z')) || 
  36.    ((c >= '0') && (c <= '9')))
  37. /* function prototypes */
  38. static void install_symbol_safe(context *pContext, int symbol);
  39. static void init_word_model(hash_table *tables[], context *words[]);
  40. static void purge_word_model(hash_table *tables[], context *words[]);
  41. static void init_char_model(context *characters[], context *lengths[]);
  42. static void read_word(char buffer[], int *buffer_length, int *curr_pos, 
  43.        string *pWord, int type);
  44. /* global variables */
  45. static int base_memory;         /* memory used by character model */
  46. static unsigned int nWords[2];  /* counts number of words */
  47. static unsigned int nDistinctWords[2]; /* counts number of distinct words */
  48. #ifdef RCSID
  49. static char
  50.    rcsid[] = "$Id: word.c,v 1.1 1996/08/07 01:34:11 langs Exp $";
  51. #endif
  52. /*
  53.  *
  54.  * print the results of compressing/decompressing a file
  55.  *
  56.  */
  57. void print_results_word(int operation)
  58. {
  59. fprintf(stderr, "n" 
  60. "                              words           non-wordsn");
  61. fprintf(stderr, "Words read             : %10u          %10un", 
  62. nWords[0], nWords[1]);
  63. fprintf(stderr, "Distinct words         : %10u          %10un",
  64. nDistinctWords[0], nDistinctWords[1]);
  65. }
  66. /*
  67.  * Installs a symbol, if it can't, it halts the program with an error
  68.  * message.  Makes sure initial symbols are always added.
  69.  */
  70. static void install_symbol_safe(context *pContext, int symbol)
  71. {
  72.   if (install_symbol(pContext, symbol) == TOO_MANY_SYMBOLS)
  73. {
  74.   fprintf(stderr,"TOO_MANY_SYMBOLS error installing initial symbolsn");
  75.   fprintf(stderr,"(Perhaps F_bits is too small?)n");
  76.   exit(1);
  77. }
  78. }
  79. /*
  80.  *
  81.  * initialize the word/non-word context and hash tables
  82.  *
  83.  */
  84. static void init_word_model(hash_table *tables[], context *words[])
  85. {
  86.     tables[WORD] = create_table();
  87.     tables[NON_WORD] = create_table();
  88.     words[WORD] = create_context(INIT_CONTEXT, DYNAMIC);
  89.     words[NON_WORD] = create_context(INIT_CONTEXT, DYNAMIC);
  90.     if (tables[WORD]==NULL || tables[NON_WORD]==NULL)
  91. { fprintf(stderr,"init_word_model(): Unable to create word tables!n");
  92.   exit(1);
  93.   }
  94.     
  95.     /* add end of message symbol to word contexts */
  96.     install_symbol_safe(words[WORD], END_OF_MESSAGE);
  97.     install_symbol_safe(words[NON_WORD], END_OF_MESSAGE);
  98.     get_memory(2 * MEM_PER_SYMBOL); /* record memory used */
  99. }
  100. /*
  101.  *
  102.  * free all memory associated with the word and non-word models
  103.  * then create empty models.
  104.  *
  105.  */
  106. static void purge_word_model(hash_table *tables[], context *words[])
  107. {
  108.     /* free the memory used by the word models */
  109.     purge_context(words[WORD]);
  110.     purge_context(words[NON_WORD]);
  111.     purge_table(tables[WORD]);
  112.     purge_table(tables[NON_WORD]);
  113.     /* rebuild the hash tables with no entries */
  114.     purge_memory(); /* set memory count back to zero */
  115.     get_memory(base_memory);
  116.     tables[WORD] = create_table();
  117.     tables[NON_WORD] = create_table();
  118.     if (tables[WORD]==NULL || tables[NON_WORD]==NULL)
  119. { fprintf(stderr,
  120.   "purge_word_model(): Unable to recreate word tables!n");
  121.   exit(1);
  122.   }
  123.     /* add end of message symbol to word contexts */
  124.     install_symbol_safe(words[WORD], END_OF_MESSAGE);
  125.     install_symbol_safe(words[NON_WORD], END_OF_MESSAGE);
  126. }
  127. /*
  128.  *
  129.  * initialize the character and length contexts
  130.  *
  131.  */
  132. static void init_char_model(context *characters[], context *lengths[])
  133. {
  134.     int i;
  135.     /* initialize the character and length contexts */
  136.     characters[WORD] = create_context(CHAR_CONTEXT, STATIC);
  137.     characters[NON_WORD] = create_context(CHAR_CONTEXT, STATIC);
  138.     lengths[WORD] = create_context(MAX_WORD_LEN+1, STATIC);
  139.     lengths[NON_WORD] = create_context(MAX_WORD_LEN+1, STATIC);
  140.     /* initialise char contexts with all chars having a frequency of 1 */ 
  141.     for (i = 0; i < CHAR_CONTEXT; i++)
  142.     {
  143. if (ISWORD(i)) 
  144.     install_symbol_safe(characters[WORD], i);
  145. else
  146.     install_symbol_safe(characters[NON_WORD], i);
  147.     }
  148.     for (i = 0; i <= MAX_WORD_LEN; i++)
  149.     {
  150. install_symbol_safe(lengths[WORD], i);
  151. install_symbol_safe(lengths[NON_WORD], i);
  152.     }
  153.     /* record memory used by character and length contexts */
  154.     get_memory(2 * MAX_WORD_LEN * MEM_PER_SYMBOL);
  155.     get_memory(2 * CHAR_CONTEXT * MEM_PER_SYMBOL);
  156. }
  157. /*
  158.  *
  159.  * compress with word based model using i/o in bitio.c
  160.  *
  161.  */
  162. void encode_word(void)
  163. {
  164.     char buffer[BUFFER_SIZE];
  165.     int buffer_len, buffer_pos = 0, word_no, i, type;
  166.     string curr_word;
  167.     context *words[2], *characters[2], *lengths[2];
  168.     hash_table *tables[2];
  169.     /* set up the character and length contexts */
  170.     init_char_model(characters, lengths);
  171.     /* initialize the word and non-word contexts and hash tables */
  172.     init_word_model(tables, words);
  173.     base_memory = get_memory(0); /* record base memory level */
  174.     buffer_len = 0;
  175.     startoutputtingbits();
  176.     start_encode();
  177.     
  178.     /* start processing with a word */
  179.     type = WORD;
  180.     for (;;)
  181.     {
  182. read_word(buffer, &buffer_len, &buffer_pos, &curr_word, type);
  183. if ((buffer_len == 0) && (curr_word.length == 0))
  184.     break;
  185. nWords[type]++;
  186. word_no = lookup_word(&curr_word, tables[type]);
  187. if (encode(words[type], word_no) == NOT_KNOWN)
  188. {
  189.     /* spell out new word before adding to list of words */
  190.     encode(lengths[type], curr_word.length);
  191.     
  192.     for (i = 0; i<curr_word.length; i++)
  193. encode(characters[type], curr_word.text[i]);
  194.     
  195.     /* add word to hash table, and install new symbol */
  196.     if ((word_no = add_word(&curr_word, tables[type])) == NOMEMLEFT ||
  197. (install_symbol(words[type], word_no) != 0))
  198. /* purge word model if memory or symbol limit is exceeded */
  199. {
  200.     if (verbose)
  201. fprintf(stderr, "Reached %s limit "
  202. "adding new word...purgingn",
  203. word_no == NOMEMLEFT ? "memory" : "symbol");
  204.     purge_word_model(tables, words);
  205. }
  206.     nDistinctWords[type]++;
  207. }
  208.   type = !type; /* toggle WORD/NON_WORD type */
  209.     } 
  210.     encode(words[type], END_OF_MESSAGE); /* encode end of message */
  211.     finish_encode();
  212.     doneoutputtingbits();
  213. }
  214. /*
  215.  *
  216.  * uncompress with a word based model using bitio.c for i/o
  217.  *
  218.  */
  219. void decode_word(void)
  220. {
  221.     int i, symbol, type, length;
  222.     hash_table *tables[2];
  223.     context *words[2], *characters[2], *lengths[2];
  224.     string word;
  225.     unsigned char *pWord;
  226.     
  227.     /* set up the character and length contexts */
  228.     init_char_model(characters, lengths);
  229.     /* initialize word/non-word contexts and hash tables */
  230.     init_word_model(tables, words);
  231.     base_memory = get_memory(0); /* record base memory level */
  232.     startinputtingbits();
  233.     start_decode();
  234.     type = WORD; /* first symbol is a WORD */
  235.     for (;;)
  236.     {
  237. symbol = decode(words[type]);
  238. if (symbol == END_OF_MESSAGE)
  239.     break;
  240. nWords[type]++;
  241. if (symbol == NOT_KNOWN)
  242. {      
  243.     /* read in the length, then the spelling of a new word */
  244.     word.length = decode(lengths[type]);
  245.     for (i = 0; i<word.length; i++)
  246. word.text[i] = decode(characters[type]);
  247.     pWord = word.text;
  248.     length = word.length;
  249.     nDistinctWords[type]++;
  250.     /* add new word to hash table, and install new symbol */
  251.     if (((symbol = add_word(&word, tables[type])) == NOMEMLEFT) || 
  252. (install_symbol(words[type], symbol) != 0))
  253. {
  254.     /* purge word model if memory limit exceeded */
  255.     if (verbose)
  256. fprintf(stderr, "Reached %s limit "
  257. "adding new word...purgingn",
  258. symbol == NOMEMLEFT ? "memory" : "symbol");
  259.     purge_word_model(tables, words);
  260. }
  261. }
  262. else
  263.     get_word(tables[type], symbol, &pWord, &length);
  264. /* output the word to standard out */
  265. BITIO_FWRITE(pWord, length, 1);
  266. type = !type; /* toggle between WORD/NON_WORD */
  267.     } 
  268.     finish_decode();
  269.     doneinputtingbits();
  270. }
  271. /*
  272.  *
  273.  * read word or non-word from stdin and update the buffer_length 
  274.  * and buffer_position variables
  275.  *
  276.  */
  277. static void
  278. read_word(char buffer[], int *buffer_length, int *curr_pos, string *pWord,
  279.   int type)
  280. {
  281.     pWord->length = 0;
  282.     while (pWord->length < MAX_WORD_LEN)
  283.     {
  284. if (*buffer_length == 0)
  285. {
  286.     /* 
  287.      * if buffer is empty then fill it, using fread. If file to be
  288.              * encoded is empty then return current word
  289.      */ 
  290.     if ((*buffer_length = BITIO_FREAD(buffer, 1, BUFFER_SIZE)) == 0)
  291. return;
  292.     *curr_pos = 0;
  293. }
  294. /* 
  295.  * terminate on non-word character if type = WORD (0)
  296.  * or word character if type = NON_WORD (1)
  297.  */
  298. if ((!ISWORD(buffer[*curr_pos])) ^ type)
  299.     return;
  300. else
  301. {
  302.     pWord->text[pWord->length] = buffer[*curr_pos];
  303.     pWord->length += 1;
  304.     *curr_pos += 1;
  305.     *buffer_length -= 1;
  306. }
  307.     }
  308. }