XMLRecognizer.cpp
上传用户:zhuqijet
上传日期:2013-06-25
资源大小:10074k
文件大小:12k
源码类别:

词法分析

开发平台:

Visual C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  *
  4.  * Copyright (c) 1999-2003 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  *
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  *
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer.
  13.  *
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  *
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  *
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written
  29.  *    permission, please contact apache@apache.org.
  30.  *
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  *
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  *
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 1999, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. /**
  57.  *  $Id: XMLRecognizer.cpp,v 1.8 2003/05/15 18:26:07 knoaman Exp $
  58.  */
  59. // ---------------------------------------------------------------------------
  60. //  Includes
  61. // ---------------------------------------------------------------------------
  62. #include <xercesc/framework/XMLRecognizer.hpp>
  63. #include <xercesc/util/RuntimeException.hpp>
  64. #include <xercesc/util/XMLString.hpp>
  65. XERCES_CPP_NAMESPACE_BEGIN
  66. // ---------------------------------------------------------------------------
  67. //  Local data
  68. //
  69. //  gEncodingNameMap
  70. //      This array maps the Encodings enum values to their canonical names.
  71. //      Be sure to keep this in sync with that enum!
  72. // ---------------------------------------------------------------------------
  73. static const XMLCh* gEncodingNameMap[XMLRecognizer::Encodings_Count] =
  74. {
  75.     XMLUni::fgEBCDICEncodingString
  76.     , XMLUni::fgUCS4BEncodingString
  77.     , XMLUni::fgUCS4LEncodingString
  78.     , XMLUni::fgUSASCIIEncodingString
  79.     , XMLUni::fgUTF8EncodingString
  80.     , XMLUni::fgUTF16BEncodingString
  81.     , XMLUni::fgUTF16LEncodingString
  82.     , XMLUni::fgXMLChEncodingString
  83. };
  84. // ---------------------------------------------------------------------------
  85. //  XMLRecognizer: Public, const static data
  86. //
  87. //  gXXXPre
  88. //  gXXXPreLen
  89. //      The byte sequence prefixes for all of the encodings that we can
  90. //      auto sense. Also included is the length of each sequence.
  91. // ---------------------------------------------------------------------------
  92. const char           XMLRecognizer::fgASCIIPre[]  = { 0x3C, 0x3F, 0x78, 0x6D, 0x6C, 0x20 };
  93. const unsigned int   XMLRecognizer::fgASCIIPreLen = 6;
  94. const XMLByte        XMLRecognizer::fgEBCDICPre[] = { 0x4C, 0x6F, 0xA7, 0x94, 0x93, 0x40 };
  95. const unsigned int   XMLRecognizer::fgEBCDICPreLen = 6;
  96. const XMLByte        XMLRecognizer::fgUTF16BPre[] = { 0x00, 0x3C, 0x00, 0x3F, 0x00, 0x78, 0x00, 0x6D, 0x00, 0x6C, 0x00, 0x20 };
  97. const XMLByte        XMLRecognizer::fgUTF16LPre[] = { 0x3C, 0x00, 0x3F, 0x00, 0x78, 0x00, 0x6D, 0x00, 0x6C, 0x00, 0x20, 0x00 };
  98. const unsigned int   XMLRecognizer::fgUTF16PreLen = 12;
  99. const XMLByte        XMLRecognizer::fgUCS4BPre[]  =
  100. {
  101.         0x00, 0x00, 0x00, 0x3C, 0x00, 0x00, 0x00, 0x3F
  102.     ,   0x00, 0x00, 0x00, 0x78, 0x00, 0x00, 0x00, 0x6D
  103.     ,   0x00, 0x00, 0x00, 0x6C, 0x00, 0x00, 0x00, 0x20
  104. };
  105. const XMLByte        XMLRecognizer::fgUCS4LPre[]  =
  106. {
  107.         0x3C, 0x00, 0x00, 0x00, 0x3F, 0x00, 0x00, 0x00
  108.     ,   0x78, 0x00, 0x00, 0x00, 0x6D, 0x00, 0x00, 0x00
  109.     ,   0x6C, 0x00, 0x00, 0x00, 0x20, 0x00, 0x00, 0x00
  110. };
  111. const unsigned int   XMLRecognizer::fgUCS4PreLen = 24;
  112. const char           XMLRecognizer::fgUTF8BOM[] = {(char)0xEF, (char)0xBB, (char)0xBF};
  113. const unsigned int   XMLRecognizer::fgUTF8BOMLen = 3;
  114. // ---------------------------------------------------------------------------
  115. //  XMLRecognizer: Encoding recognition methods
  116. // ---------------------------------------------------------------------------
  117. XMLRecognizer::Encodings
  118. XMLRecognizer::basicEncodingProbe(  const   XMLByte* const  rawBuffer
  119.                                     , const unsigned int    rawByteCount)
  120. {
  121.     //
  122.     //  As an optimization to check the 90% case, check first for the ASCII
  123.     //  sequence '<?xml', which means its either US-ASCII, UTF-8, or some
  124.     //  other encoding that we don't do manually but which happens to share
  125.     //  the US-ASCII code points for these characters. So just return UTF-8
  126.     //  to get us through the first line.
  127.     //
  128.     if (rawByteCount >= fgASCIIPreLen)
  129.     {
  130.         if (!memcmp(rawBuffer, fgASCIIPre, fgASCIIPreLen))
  131.             return UTF_8;
  132.     }
  133.     //
  134.     //  If the count of raw bytes is less than 2, it cannot be anything
  135.     //  we understand, so return UTF-8 as a fallback.
  136.     //
  137.     if (rawByteCount < 2)
  138.         return UTF_8;
  139.          
  140.     //  
  141.     //  We have two to four bytes, so lets check for a UTF-16 BOM. That
  142.     //  is quick to check and enough to identify two major encodings.   
  143.     // 
  144.     if (rawByteCount < 4)
  145.     {
  146.         if ((rawBuffer[0] == 0xFE) && (rawBuffer[1] == 0xFF))
  147.             return UTF_16B;
  148.         else if ((rawBuffer[0] == 0xFF) && (rawBuffer[1] == 0xFE))
  149.             return UTF_16L;
  150.         else 
  151.             return UTF_8;
  152.     }
  153.     /***
  154.      *    F.1 Detection Without External Encoding Information
  155.      *
  156.      *    Because each XML entity not accompanied by external encoding information and 
  157.      *    not in UTF-8 or UTF-16 encoding must begin with an XML encoding declaration, 
  158.      *    in which the first characters must be '<?xml', any conforming processor can detect, 
  159.      *    after two to four octets of input, which of the following cases apply. 
  160.      *
  161.      *    In reading this list, it may help to know that in UCS-4, '<' is "#x0000003C" and 
  162.      *    '?' is "#x0000003F", and the Byte Order Mark required of UTF-16 data streams is 
  163.      *    "#xFEFF". The notation ## is used to denote any byte value except that two consecutive 
  164.      *    ##s cannot be both 00.
  165.      *
  166.      *    With a Byte Order Mark:
  167.      *
  168.      *    00 00 FE FF           UCS-4,    big-endian machine    (1234 order) 
  169.      *    FF FE 00 00           UCS-4,    little-endian machine (4321 order) 
  170.      *    00 00 FF FE           UCS-4,    unusual octet order   (2143) 
  171.      *    FE FF 00 00           UCS-4,    unusual octet order   (3412) 
  172.      *    FE FF ## ##           UTF-16,   big-endian 
  173.      *    FF FE ## ##           UTF-16,   little-endian 
  174.      *    EF BB BF              UTF-8 
  175.      *
  176.      ***/
  177.     //
  178.     //  We have at least four bytes, so we can check all BOM
  179.     //  for UCS-4BE, UCS-4LE, UTF-16BE and UTF-16LE as well.
  180.     //
  181.     if ((rawBuffer[0] == 0x00) && (rawBuffer[1] == 0x00) && (rawBuffer[2] == 0xFE) && (rawBuffer[3] == 0xFF))
  182.         return UCS_4B;
  183.     else if ((rawBuffer[0] == 0xFF) && (rawBuffer[1] == 0xFE) && (rawBuffer[2] == 0x00) && (rawBuffer[3] == 0x00))
  184.         return UCS_4L;
  185.     else if ((rawBuffer[0] == 0xFE) && (rawBuffer[1] == 0xFF))
  186.         return UTF_16B;
  187.     else if ((rawBuffer[0] == 0xFF) && (rawBuffer[1] == 0xFE))
  188.         return UTF_16L;
  189.     //
  190.     //  We have at least 4 bytes. So lets check the 4 byte sequences that
  191.     //  indicate other UTF-16 and UCS encodings.
  192.     //
  193.     if ((rawBuffer[0] == 0x00) || (rawBuffer[0] == 0x3C))
  194.     {
  195.         if (rawByteCount >= fgUCS4PreLen && !memcmp(rawBuffer, fgUCS4BPre, fgUCS4PreLen))
  196.             return UCS_4B;
  197.         else if (rawByteCount >= fgUCS4PreLen && !memcmp(rawBuffer, fgUCS4LPre, fgUCS4PreLen))
  198.             return UCS_4L;
  199.         else if (rawByteCount >= fgUTF16PreLen && !memcmp(rawBuffer, fgUTF16BPre, fgUTF16PreLen))
  200.             return UTF_16B;
  201.         else if (rawByteCount >= fgUTF16PreLen && !memcmp(rawBuffer, fgUTF16LPre, fgUTF16PreLen))
  202.             return UTF_16L;
  203.     }
  204.     //
  205.     //  See if we have enough bytes to possibly match the EBCDIC prefix.
  206.     //  If so, try it.
  207.     //
  208.     if (rawByteCount > fgEBCDICPreLen)
  209.     {
  210.         if (!memcmp(rawBuffer, fgEBCDICPre, fgEBCDICPreLen))
  211.             return EBCDIC;
  212.     }
  213.     //
  214.     //  Does not seem to be anything we know, so go with UTF-8 to get at
  215.     //  least through the first line and see what it really is.
  216.     //
  217.     return UTF_8;
  218. }
  219. XMLRecognizer::Encodings
  220. XMLRecognizer::encodingForName(const XMLCh* const encName)
  221. {
  222.     //
  223.     //  Compare the passed string, assume input string is already uppercased,
  224.     //  to the variations that we recognize.
  225.     //
  226.     //  !!NOTE: Note that we don't handle EBCDIC here because we don't handle
  227.     //  that one ourselves. It is allowed to fall into 'other'.
  228.     //
  229.    if (encName == XMLUni::fgXMLChEncodingString ||
  230.         !XMLString::compareString(encName, XMLUni::fgXMLChEncodingString))
  231.    {
  232.         return XMLRecognizer::XERCES_XMLCH;
  233.    }
  234.    else if (!XMLString::compareString(encName, XMLUni::fgUTF8EncodingString)
  235.     ||  !XMLString::compareString(encName, XMLUni::fgUTF8EncodingString2))
  236.     {
  237.         return XMLRecognizer::UTF_8;
  238.     }
  239.      else if (!XMLString::compareString(encName, XMLUni::fgUSASCIIEncodingString)
  240.           ||  !XMLString::compareString(encName, XMLUni::fgUSASCIIEncodingString2)
  241.           ||  !XMLString::compareString(encName, XMLUni::fgUSASCIIEncodingString3)
  242.           ||  !XMLString::compareString(encName, XMLUni::fgUSASCIIEncodingString4))
  243.     {
  244.         return XMLRecognizer::US_ASCII;
  245.     }
  246.      else if (!XMLString::compareString(encName, XMLUni::fgUTF16LEncodingString)
  247.           ||  !XMLString::compareString(encName, XMLUni::fgUTF16LEncodingString2))
  248.     {
  249.         return XMLRecognizer::UTF_16L;
  250.     }
  251.      else if (!XMLString::compareString(encName, XMLUni::fgUTF16BEncodingString)
  252.           ||  !XMLString::compareString(encName, XMLUni::fgUTF16BEncodingString2))
  253.     {
  254.         return XMLRecognizer::UTF_16B;
  255.     }
  256.      else if (!XMLString::compareString(encName, XMLUni::fgUCS4LEncodingString)
  257.           ||  !XMLString::compareString(encName, XMLUni::fgUCS4LEncodingString2))
  258.     {
  259.         return XMLRecognizer::UCS_4L;
  260.     }
  261.      else if (!XMLString::compareString(encName, XMLUni::fgUCS4BEncodingString)
  262.           ||  !XMLString::compareString(encName, XMLUni::fgUCS4BEncodingString2))
  263.     {
  264.         return XMLRecognizer::UCS_4B;
  265.     }
  266.     // Return 'other' since we don't recognizer it
  267.     return XMLRecognizer::OtherEncoding;
  268. }
  269. const XMLCh*
  270. XMLRecognizer::nameForEncoding(const XMLRecognizer::Encodings theEncoding)
  271. {
  272.     if (theEncoding > Encodings_Count)
  273.         ThrowXML(RuntimeException, XMLExcepts::XMLRec_UnknownEncoding);
  274.     return gEncodingNameMap[theEncoding];
  275. }
  276. XERCES_CPP_NAMESPACE_END