UnicodeRangeFactory.cpp
上传用户:zhuqijet
上传日期:2013-06-25
资源大小:10074k
文件大小:12k
源码类别:

词法分析

开发平台:

Visual C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  *
  4.  * Copyright (c) 2001-2002 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  *
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  *
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer.
  13.  *
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  *
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  *
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written
  29.  *    permission, please contact apache@apache.org.
  30.  *
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  *
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  *
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 2001, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. /*
  57.  * $Log: UnicodeRangeFactory.cpp,v $
  58.  * Revision 1.3  2002/11/04 15:17:01  tng
  59.  * C++ Namespace Support.
  60.  *
  61.  * Revision 1.2  2002/02/05 13:20:06  tng
  62.  * [Bug 5716] Can't parse with Validation more than one file.
  63.  *
  64.  * Revision 1.1.1.1  2002/02/01 22:22:34  peiyongz
  65.  * sane_include
  66.  *
  67.  * Revision 1.4  2001/10/15 18:30:40  knoaman
  68.  * Add support for 'Pi' and 'Pf'.
  69.  *
  70.  * Revision 1.3  2001/05/11 13:26:51  tng
  71.  * Copyright update.
  72.  *
  73.  * Revision 1.2  2001/05/03 18:17:56  knoaman
  74.  * Some design changes:
  75.  * o Changed the TokenFactory from a single static instance, to a
  76.  *    normal class. Each RegularExpression object will have its own
  77.  *    instance of TokenFactory, and that instance will be passed to
  78.  *    other classes that need to use a TokenFactory to create Token
  79.  *    objects (with the exception of RangeTokenMap).
  80.  * o Added a new class RangeTokenMap to map a the different ranges
  81.  *    in a given category to a specific RangeFactory object. In the old
  82.  *    design RangeFactory had dual functionality (act as a Map, and as
  83.  *    a factory for creating RangeToken(s)). The RangeTokenMap will
  84.  *    have its own copy of the TokenFactory. There will be only one
  85.  *    instance of the RangeTokenMap class, and that instance will be
  86.  *    lazily deleted when XPlatformUtils::Terminate is called.
  87.  *
  88.  * Revision 1.1  2001/03/02 19:26:48  knoaman
  89.  * Schema: Regular expression handling part II
  90.  *
  91.  */
  92. // ---------------------------------------------------------------------------
  93. //  Includes
  94. // ---------------------------------------------------------------------------
  95. #include <xercesc/util/regx/UnicodeRangeFactory.hpp>
  96. #include <xercesc/util/regx/TokenFactory.hpp>
  97. #include <xercesc/util/regx/RangeToken.hpp>
  98. #include <xercesc/util/regx/RangeTokenMap.hpp>
  99. #include <xercesc/util/regx/RegxDefs.hpp>
  100. #include <xercesc/util/regx/XMLUniCharacter.hpp>
  101. XERCES_CPP_NAMESPACE_BEGIN
  102. // ---------------------------------------------------------------------------
  103. //  Local data
  104. // ---------------------------------------------------------------------------
  105. const int            UNICATEGSIZE     = 37;
  106. const unsigned short CHAR_LETTER      = 30;
  107. const unsigned short CHAR_MARK        = 31;
  108. const unsigned short CHAR_NUMBER      = 32;
  109. const unsigned short CHAR_SEPARATOR   = 33;
  110. const unsigned short CHAR_OTHER       = 34;
  111. const unsigned short CHAR_PUNCTUATION = 35;
  112. const unsigned short CHAR_SYMBOL      = 36;
  113. const XMLCh uniCategNames[][UNICATEGSIZE] =
  114. {
  115.     {chLatin_C, chLatin_n, chNull},
  116.     {chLatin_L, chLatin_u, chNull},
  117.     {chLatin_L, chLatin_l, chNull},
  118.     {chLatin_L, chLatin_t, chNull},
  119.     {chLatin_L, chLatin_m, chNull},
  120.     {chLatin_L, chLatin_o, chNull},
  121.     {chLatin_M, chLatin_n, chNull},
  122.     {chLatin_M, chLatin_e, chNull},
  123.     {chLatin_M, chLatin_c, chNull},
  124.     {chLatin_N, chLatin_d, chNull},
  125.     {chLatin_N, chLatin_l, chNull},
  126.     {chLatin_N, chLatin_o, chNull},
  127.     {chLatin_Z, chLatin_s, chNull},
  128.     {chLatin_Z, chLatin_l, chNull},
  129.     {chLatin_Z, chLatin_p, chNull},
  130.     {chLatin_C, chLatin_c, chNull},
  131.     {chLatin_C, chLatin_f, chNull},
  132.     {chLatin_C, chLatin_o, chNull},
  133.     {chLatin_C, chLatin_s, chNull},
  134.     {chLatin_P, chLatin_d, chNull},
  135.     {chLatin_P, chLatin_s, chNull},
  136.     {chLatin_P, chLatin_e, chNull},
  137.     {chLatin_P, chLatin_c, chNull},
  138.     {chLatin_P, chLatin_o, chNull},
  139.     {chLatin_S, chLatin_m, chNull},
  140.     {chLatin_S, chLatin_c, chNull},
  141.     {chLatin_S, chLatin_k, chNull},
  142.     {chLatin_S, chLatin_o, chNull},
  143.     {chLatin_P, chLatin_i, chNull},
  144.     {chLatin_P, chLatin_f, chNull},
  145.     {chLatin_L, chNull},
  146.     {chLatin_M, chNull},
  147.     {chLatin_N, chNull},
  148.     {chLatin_Z, chNull},
  149.     {chLatin_C, chNull},
  150.     {chLatin_P, chNull},
  151.     {chLatin_S, chNull},
  152. };
  153. // ---------------------------------------------------------------------------
  154. //  UnicodeRangeFactory: Constructors and Destructor
  155. // ---------------------------------------------------------------------------
  156. UnicodeRangeFactory::UnicodeRangeFactory() :
  157.    fRangesCreated(false)
  158.  , fKeywordsInitialized(false)
  159. {
  160. }
  161. UnicodeRangeFactory::~UnicodeRangeFactory() {
  162. }
  163. // ---------------------------------------------------------------------------
  164. //  UnicodeRangeFactory: Range creation methods
  165. // ---------------------------------------------------------------------------
  166. void UnicodeRangeFactory::buildRanges() {
  167.     if (fRangesCreated)
  168.         return;
  169.     if (!fKeywordsInitialized) {
  170.         initializeKeywordMap();
  171.     }
  172.     RangeTokenMap* rangeTokMap = RangeTokenMap::instance();
  173.     TokenFactory* tokFactory = rangeTokMap->getTokenFactory();
  174. RangeToken* ranges[UNICATEGSIZE];
  175.     for (int i=0; i < UNICATEGSIZE; i++) {
  176.         ranges[i] = tokFactory->createRange();
  177.     }
  178.     for (int j=0; j < 0x10000; j++) {
  179.         unsigned short charType = XMLUniCharacter::getType(j);
  180. ranges[charType]->addRange(j, j);
  181. charType = getUniCategory(charType);
  182. ranges[charType]->addRange(j, j);
  183.     }
  184. ranges[XMLUniCharacter::UNASSIGNED]->addRange(0x10000, Token::UTF16_MAX);
  185. for (int k=0; k < UNICATEGSIZE; k++) {
  186.         rangeTokMap->setRangeToken(uniCategNames[k], ranges[k]);
  187.     }
  188.     // Create all range
  189. RangeToken* tok = tokFactory->createRange();
  190. tok->addRange(0, Token::UTF16_MAX);
  191. rangeTokMap->setRangeToken(fgUniAll, tok);
  192.     // Create alpha range
  193.     tok = tokFactory->createRange();
  194.     tok->mergeRanges(ranges[XMLUniCharacter::UPPERCASE_LETTER]);
  195.     tok->mergeRanges(ranges[XMLUniCharacter::LOWERCASE_LETTER]);
  196.     tok->mergeRanges(ranges[XMLUniCharacter::OTHER_LETTER]);
  197.     rangeTokMap->setRangeToken(fgUniIsAlpha, tok);
  198.     // Create alpha-num range
  199.     RangeToken* alnumTok = tokFactory->createRange();
  200.     alnumTok->mergeRanges(tok);
  201.     alnumTok->mergeRanges(ranges[XMLUniCharacter::DECIMAL_DIGIT_NUMBER]);
  202.     rangeTokMap->setRangeToken(fgUniIsAlnum, alnumTok);
  203.     // Create word range
  204.     tok = tokFactory->createRange();
  205.     tok->mergeRanges(alnumTok);
  206.     tok->addRange(chUnderscore, chUnderscore);
  207.     rangeTokMap->setRangeToken(fgUniIsWord, tok);
  208.     // Create assigned range
  209.     tok = ranges[XMLUniCharacter::UNASSIGNED];
  210.     rangeTokMap->setRangeToken(fgUniAssigned,(RangeToken*)RangeToken::complementRanges(tok,
  211.           tokFactory));
  212.     fRangesCreated = true;
  213. }
  214. // ---------------------------------------------------------------------------
  215. //  UnicodeRangeFactory: Initialization methods
  216. // ---------------------------------------------------------------------------
  217. void UnicodeRangeFactory::initializeKeywordMap() {
  218.     if (fKeywordsInitialized)
  219.         return;
  220.     RangeTokenMap* rangeTokMap = RangeTokenMap::instance();
  221. for (int k=0; k < UNICATEGSIZE; k++) {
  222.         rangeTokMap->addKeywordMap(uniCategNames[k], fgUnicodeCategory);
  223.     }
  224. rangeTokMap->addKeywordMap(fgUniAll, fgUnicodeCategory);
  225.     rangeTokMap->addKeywordMap(fgUniIsAlpha, fgUnicodeCategory);
  226.     rangeTokMap->addKeywordMap(fgUniIsAlnum, fgUnicodeCategory);
  227.     rangeTokMap->addKeywordMap(fgUniIsWord, fgUnicodeCategory);
  228.     rangeTokMap->addKeywordMap(fgUniAssigned, fgUnicodeCategory);
  229.     fKeywordsInitialized = true;
  230. }
  231. // ---------------------------------------------------------------------------
  232. //  UnicodeRangeFactory: Helper methods
  233. // ---------------------------------------------------------------------------
  234. unsigned short UnicodeRangeFactory::getUniCategory(const unsigned short type)
  235. {
  236.     switch(type) {
  237.     case XMLUniCharacter::UPPERCASE_LETTER:
  238.     case XMLUniCharacter::LOWERCASE_LETTER:
  239.     case XMLUniCharacter::TITLECASE_LETTER:
  240.     case XMLUniCharacter::MODIFIER_LETTER:
  241.     case XMLUniCharacter::OTHER_LETTER:
  242.         return CHAR_LETTER;
  243.     case XMLUniCharacter::NON_SPACING_MARK:
  244.     case XMLUniCharacter::COMBINING_SPACING_MARK:
  245.     case XMLUniCharacter::ENCLOSING_MARK:
  246.         return CHAR_MARK;
  247.     case XMLUniCharacter::DECIMAL_DIGIT_NUMBER:
  248.     case XMLUniCharacter::LETTER_NUMBER:
  249.     case XMLUniCharacter::OTHER_NUMBER:
  250. return CHAR_NUMBER;
  251.     case XMLUniCharacter::SPACE_SEPARATOR:
  252.     case XMLUniCharacter::LINE_SEPARATOR:
  253.     case XMLUniCharacter::PARAGRAPH_SEPARATOR:
  254. return CHAR_SEPARATOR;
  255.     case XMLUniCharacter::CONTROL:
  256.     case XMLUniCharacter::FORMAT:
  257.     case XMLUniCharacter::SURROGATE:
  258.     case XMLUniCharacter::PRIVATE_USE:
  259.     case XMLUniCharacter::UNASSIGNED:
  260. return CHAR_OTHER;
  261.     case XMLUniCharacter::CONNECTOR_PUNCTUATION:
  262.     case XMLUniCharacter::DASH_PUNCTUATION:
  263.     case XMLUniCharacter::START_PUNCTUATION:
  264.     case XMLUniCharacter::END_PUNCTUATION:
  265.     case XMLUniCharacter::OTHER_PUNCTUATION:
  266.     case XMLUniCharacter::INITIAL_PUNCTUATION:
  267.     case XMLUniCharacter::FINAL_PUNCTUATION:
  268. return CHAR_PUNCTUATION;
  269.     case XMLUniCharacter::MATH_SYMBOL:
  270.     case XMLUniCharacter::CURRENCY_SYMBOL:
  271.     case XMLUniCharacter::MODIFIER_SYMBOL:
  272.     case XMLUniCharacter::OTHER_SYMBOL:
  273. return CHAR_SYMBOL;
  274.     }
  275.     return 0;
  276. }
  277. XERCES_CPP_NAMESPACE_END
  278. /**
  279.   * End of file UnicodeRangeFactory.cpp
  280.   */