XMLUCSTranscoder.cpp
上传用户:zhuqijet
上传日期:2013-06-25
资源大小:10074k
文件大小:10k
源码类别:

词法分析

开发平台:

Visual C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  *
  4.  * Copyright (c) 1999-2001 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  *
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  *
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer.
  13.  *
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  *
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  *
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written
  29.  *    permission, please contact apache@apache.org.
  30.  *
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  *
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  *
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 1999, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. // ---------------------------------------------------------------------------
  57. //  Includes
  58. // ---------------------------------------------------------------------------
  59. #include <xercesc/util/BitOps.hpp>
  60. #include <xercesc/util/XMLUCS4Transcoder.hpp>
  61. #include <xercesc/util/TranscodingException.hpp>
  62. #include <string.h>
  63. XERCES_CPP_NAMESPACE_BEGIN
  64. // ---------------------------------------------------------------------------
  65. //  XMLUCS4Transcoder: Constructors and Destructor
  66. // ---------------------------------------------------------------------------
  67. XMLUCS4Transcoder::XMLUCS4Transcoder(const  XMLCh* const    encodingName
  68.                                     , const unsigned int    blockSize
  69.                                     , const bool            swapped) :
  70.     XMLTranscoder(encodingName, blockSize)
  71.     , fSwapped(swapped)
  72. {
  73. }
  74. XMLUCS4Transcoder::~XMLUCS4Transcoder()
  75. {
  76. }
  77. // ---------------------------------------------------------------------------
  78. //  XMLUCS4Transcoder: Implementation of the transcoder API
  79. // ---------------------------------------------------------------------------
  80. unsigned int
  81. XMLUCS4Transcoder::transcodeFrom(const  XMLByte* const          srcData
  82.                                 , const unsigned int            srcCount
  83.                                 ,       XMLCh* const            toFill
  84.                                 , const unsigned int            maxChars
  85.                                 ,       unsigned int&           bytesEaten
  86.                                 ,       unsigned char* const    charSizes)
  87. {
  88.     // If debugging, make sure that the block size is legal
  89.     #if defined(XERCES_DEBUG)
  90.     checkBlockSize(maxChars);
  91.     #endif
  92.     //
  93.     //  Get pointers to the start and end of the source buffer in terms of
  94.     //  UCS-4 characters.
  95.     //
  96.     const UCS4Ch*   srcPtr = (const UCS4Ch*)srcData;
  97.     const UCS4Ch*   srcEnd = srcPtr + (srcCount / sizeof(UCS4Ch));
  98.     //
  99.     //  Get pointers to the start and end of the target buffer, which is
  100.     //  in terms of the XMLCh chars we output.
  101.     //
  102.     XMLCh*  outPtr = toFill;
  103.     XMLCh*  outEnd = toFill + maxChars;
  104.     //
  105.     //  And get a pointer into the char sizes buffer. We will run this
  106.     //  up as we put chars into the output buffer.
  107.     //
  108.     unsigned char* sizePtr = charSizes;
  109.     //
  110.     //  Now process chars until we either use up all our source or all of
  111.     //  our output space.
  112.     //
  113.     while ((outPtr < outEnd) && (srcPtr < srcEnd))
  114.     {
  115.         //
  116.         //  Get the next UCS char out of the buffer. Don't bump the ptr
  117.         //  yet since we might not have enough storage for it in the target
  118.         //  (if its causes a surrogate pair to be created.
  119.         //
  120.         UCS4Ch nextVal = *srcPtr;
  121.         // If it needs to be swapped, then do it
  122.         if (fSwapped)
  123.             nextVal = BitOps::swapBytes(nextVal);
  124.         // Handle a surrogate pair if needed
  125.         if (nextVal & 0xFFFF0000)
  126.         {
  127.             //
  128.             //  If we don't have room for both of the chars, then we
  129.             //  bail out now.
  130.             //
  131.             if (outPtr + 1 == outEnd)
  132.                 break;
  133.             const XMLCh ch1 = XMLCh(((nextVal - 0x10000) >> 10) + 0xD800);
  134.             const XMLCh ch2 = XMLCh(((nextVal - 0x10000) & 0x3FF) + 0xDC00);
  135.             //
  136.             //  We have room so store them both. But note that the
  137.             //  second one took up no source bytes!
  138.             //
  139.             *sizePtr++ = sizeof(UCS4Ch);
  140.             *outPtr++ = ch1;
  141.             *sizePtr++ = 0;
  142.             *outPtr++ = ch2;
  143.         }
  144.          else
  145.         {
  146.             //
  147.             //  No surrogate, so just store it and bump the count of chars
  148.             //  read. Update the char sizes buffer for this char's entry.
  149.             //
  150.             *sizePtr++ = sizeof(UCS4Ch);
  151.             *outPtr++ = XMLCh(nextVal);
  152.         }
  153.         // Indicate that we ate another UCS char's worth of bytes
  154.         srcPtr++;
  155.     }
  156.     // Set the bytes eaten parameter
  157.     bytesEaten = ((const XMLByte*)srcPtr) - srcData;
  158.     // And return the chars written into the output buffer
  159.     return outPtr - toFill;
  160. }
  161. unsigned int
  162. XMLUCS4Transcoder::transcodeTo( const   XMLCh* const    srcData
  163.                                 , const unsigned int    srcCount
  164.                                 ,       XMLByte* const  toFill
  165.                                 , const unsigned int    maxBytes
  166.                                 ,       unsigned int&   charsEaten
  167.                                 , const UnRepOpts       options)
  168. {
  169.     // If debugging, make sure that the block size is legal
  170.     #if defined(XERCES_DEBUG)
  171.     checkBlockSize(maxBytes);
  172.     #endif
  173.     //
  174.     //  Get pointers to the start and end of the source buffer, which
  175.     //  is in terms of XMLCh chars.
  176.     //
  177.     const XMLCh*  srcPtr = srcData;
  178.     const XMLCh*  srcEnd = srcData + srcCount;
  179.     //
  180.     //  Get pointers to the start and end of the target buffer, in terms
  181.     //  of UCS-4 chars.
  182.     //
  183.     UCS4Ch*   outPtr = (UCS4Ch*)toFill;
  184.     UCS4Ch*   outEnd = outPtr + (maxBytes / sizeof(UCS4Ch));
  185.     //
  186.     //  Now loop until we either run out of source characters or we
  187.     //  fill up our output buffer.
  188.     //
  189.     XMLCh trailCh;
  190.     while ((outPtr < outEnd) && (srcPtr < srcEnd))
  191.     {
  192.         //
  193.         //  Get out an XMLCh char from the source. Don't bump up the
  194.         //  pointer yet, since it might be a leading for which we don't
  195.         //  have the trailing.
  196.         //
  197.         const XMLCh curCh = *srcPtr;
  198.         //
  199.         //  If its a leading char of a surrogate pair handle it one way,
  200.         //  else just cast it over into the target.
  201.         //
  202.         if ((curCh >= 0xD800) && (curCh <= 0xDBFF))
  203.         {
  204.             //
  205.             //  Ok, we have to have another source char available or we
  206.             //  just give up without eating the leading char.
  207.             //
  208.             if (srcPtr + 1 == srcEnd)
  209.                 break;
  210.             //
  211.             //  We have the trailing char, so eat the first char and the
  212.             //  trailing char from the source.
  213.             //
  214.             srcPtr++;
  215.             trailCh = *srcPtr++;
  216.             //
  217.             //  Then make sure its a legal trailing char. If not, throw
  218.             //  an exception.
  219.             //
  220.             if ( !( (trailCh >= 0xDC00) && (trailCh <= 0xDFFF) ) )
  221.             ThrowXML(TranscodingException, XMLExcepts::Trans_BadTrailingSurrogate);
  222.             // And now combine the two into a single output char
  223.             *outPtr++ = ((curCh - 0xD800) << 10)
  224.                         + (trailCh - 0xDC00) + 0x10000;
  225.         }
  226.          else
  227.         {
  228.             //
  229.             //  Its just a char, so we can take it as is. If we need to
  230.             //  swap it, then swap it. Because of flakey compilers, use
  231.             //  a temp first.
  232.             //
  233.             const UCS4Ch tmpCh = UCS4Ch(curCh);
  234.             if (fSwapped)
  235.                 *outPtr++ = BitOps::swapBytes(tmpCh);
  236.             else
  237.                 *outPtr++ = tmpCh;
  238.             // Bump the source pointer
  239.             srcPtr++;
  240.         }
  241.     }
  242.     // Set the chars we ate from the source
  243.     charsEaten = srcPtr - srcData;
  244.     // Return the bytes we wrote to the output
  245.     return ((XMLByte*)outPtr) - toFill;
  246. }
  247. bool XMLUCS4Transcoder::canTranscodeTo(const unsigned int toCheck) const
  248. {
  249.     // We can handle anything
  250.     return true;
  251. }
  252. XERCES_CPP_NAMESPACE_END