XMLRecognizer.hpp
上传用户:zhuqijet
上传日期:2013-06-25
资源大小:10074k
文件大小:7k
源码类别:

词法分析

开发平台:

Visual C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  *
  4.  * Copyright (c) 1999-2000 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  *
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  *
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer.
  13.  *
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  *
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  *
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written
  29.  *    permission, please contact apache@apache.org.
  30.  *
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  *
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  *
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 1999, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. /*
  57.  *  $Id: XMLRecognizer.hpp,v 1.4 2003/03/07 18:08:10 tng Exp $
  58.  */
  59. #if !defined(XMLRECOGNIZER_HPP)
  60. #define XMLRECOGNIZER_HPP
  61. #include <xercesc/util/XercesDefs.hpp>
  62. XERCES_CPP_NAMESPACE_BEGIN
  63. /**
  64.  *  This class provides some simple code to recognize the encodings of
  65.  *  XML files. This recognition only does very basic sensing of the encoding
  66.  *  in a broad sense. Basically its just enough to let us get started and
  67.  *  read the XMLDecl line. The scanner, once it reads the XMLDecl, will
  68.  *  tell the reader any actual encoding string it found and the reader can
  69.  *  update itself to be more specific at that point.
  70.  */
  71. class XMLPARSER_EXPORT XMLRecognizer
  72. {
  73. public :
  74.     // -----------------------------------------------------------------------
  75.     //  Class types
  76.     //
  77.     //  This enum represents the various encoding families that we have to
  78.     //  deal with individually at the scanner level. This does not indicate
  79.     //  the exact encoding, just the rough family that would let us scan
  80.     //  the XML/TextDecl to find the encoding string.
  81.     //
  82.     //  The 'L's and 'B's stand for little or big endian. We conditionally
  83.     //  create versions that will automatically map to the local UTF-16 and
  84.     //  UCS-4 endian modes.
  85.     //
  86.     //  OtherEncoding means that its some transcoder based encoding, i.e. not
  87.     //  one of the ones that we do internally. Its a special case and should
  88.     //  never be used directly outside of the reader.
  89.     //
  90.     //  NOTE: Keep this in sync with the name map array in the Cpp file!!
  91.     // -----------------------------------------------------------------------
  92.     enum Encodings
  93.     {
  94.         EBCDIC          = 0
  95.         , UCS_4B        = 1
  96.         , UCS_4L        = 2
  97.         , US_ASCII      = 3
  98.         , UTF_8         = 4
  99.         , UTF_16B       = 5
  100.         , UTF_16L       = 6
  101.         , XERCES_XMLCH  = 7
  102.         , Encodings_Count
  103.         , Encodings_Min = EBCDIC
  104.         , Encodings_Max = XERCES_XMLCH
  105.         , OtherEncoding = 999
  106.         #if defined(ENDIANMODE_BIG)
  107.         , Def_UTF16     = UTF_16B
  108.         , Def_UCS4      = UCS_4B
  109.         #else
  110.         , Def_UTF16     = UTF_16L
  111.         , Def_UCS4      = UCS_4L
  112.         #endif
  113.     };
  114.     // -----------------------------------------------------------------------
  115.     //  Public, const static data
  116.     //
  117.     //  These are the byte sequences for each of the encodings that we can
  118.     //  auto sense, and their lengths.
  119.     // -----------------------------------------------------------------------
  120.     static const char           fgASCIIPre[];
  121.     static const unsigned int   fgASCIIPreLen;
  122.     static const XMLByte        fgEBCDICPre[];
  123.     static const unsigned int   fgEBCDICPreLen;
  124.     static const XMLByte        fgUTF16BPre[];
  125.     static const XMLByte        fgUTF16LPre[];
  126.     static const unsigned int   fgUTF16PreLen;
  127.     static const XMLByte        fgUCS4BPre[];
  128.     static const XMLByte        fgUCS4LPre[];
  129.     static const unsigned int   fgUCS4PreLen;
  130.     static const char           fgUTF8BOM[];
  131.     static const unsigned int   fgUTF8BOMLen;
  132.     // -----------------------------------------------------------------------
  133.     //  Encoding recognition methods
  134.     // -----------------------------------------------------------------------
  135.     static Encodings basicEncodingProbe
  136.     (
  137.         const   XMLByte* const      rawBuffer
  138.         , const unsigned int        rawByteCount
  139.     );
  140.     static Encodings encodingForName
  141.     (
  142.         const   XMLCh* const    theEncName
  143.     );
  144.     static const XMLCh* nameForEncoding(const Encodings theEncoding);
  145. protected :
  146.     // -----------------------------------------------------------------------
  147.     //  Unimplemented constructors, operators, and destructor
  148.     //
  149.     //  This class is effectively being used as a namespace for some static
  150.     //  methods.
  151.     //
  152.     //   (these functions are protected rather than private only to get rid of
  153.     //    some annoying compiler warnings.)
  154.     //
  155.     // -----------------------------------------------------------------------
  156.     XMLRecognizer();
  157.     ~XMLRecognizer();
  158.     XMLRecognizer& operator=(const XMLRecognizer&);
  159. };
  160. XERCES_CPP_NAMESPACE_END
  161. #endif