xmlencod.cpp
上传用户:dangjiwu
上传日期:2013-07-19
资源大小:42019k
文件大小:10k
源码类别:

Symbian

开发平台:

Visual C++

  1. /* ***** BEGIN LICENSE BLOCK *****
  2.  * Source last modified: $Id: xmlencod.cpp,v 1.5.32.3 2004/07/09 01:44:10 hubbe Exp $
  3.  * 
  4.  * Portions Copyright (c) 1995-2004 RealNetworks, Inc. All Rights Reserved.
  5.  * 
  6.  * The contents of this file, and the files included with this file,
  7.  * are subject to the current version of the RealNetworks Public
  8.  * Source License (the "RPSL") available at
  9.  * http://www.helixcommunity.org/content/rpsl unless you have licensed
  10.  * the file under the current version of the RealNetworks Community
  11.  * Source License (the "RCSL") available at
  12.  * http://www.helixcommunity.org/content/rcsl, in which case the RCSL
  13.  * will apply. You may also obtain the license terms directly from
  14.  * RealNetworks.  You may not use this file except in compliance with
  15.  * the RPSL or, if you have a valid RCSL with RealNetworks applicable
  16.  * to this file, the RCSL.  Please see the applicable RPSL or RCSL for
  17.  * the rights, obligations and limitations governing use of the
  18.  * contents of the file.
  19.  * 
  20.  * Alternatively, the contents of this file may be used under the
  21.  * terms of the GNU General Public License Version 2 or later (the
  22.  * "GPL") in which case the provisions of the GPL are applicable
  23.  * instead of those above. If you wish to allow use of your version of
  24.  * this file only under the terms of the GPL, and not to allow others
  25.  * to use your version of this file under the terms of either the RPSL
  26.  * or RCSL, indicate your decision by deleting the provisions above
  27.  * and replace them with the notice and other provisions required by
  28.  * the GPL. If you do not delete the provisions above, a recipient may
  29.  * use your version of this file under the terms of any one of the
  30.  * RPSL, the RCSL or the GPL.
  31.  * 
  32.  * This file is part of the Helix DNA Technology. RealNetworks is the
  33.  * developer of the Original Code and owns the copyrights in the
  34.  * portions it created.
  35.  * 
  36.  * This file, and the files included with this file, is distributed
  37.  * and made available on an 'AS IS' basis, WITHOUT WARRANTY OF ANY
  38.  * KIND, EITHER EXPRESS OR IMPLIED, AND REALNETWORKS HEREBY DISCLAIMS
  39.  * ALL SUCH WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES
  40.  * OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE, QUIET
  41.  * ENJOYMENT OR NON-INFRINGEMENT.
  42.  * 
  43.  * Technology Compatibility Kit Test Suite(s) Location:
  44.  *    http://www.helixcommunity.org/content/tck
  45.  * 
  46.  * Contributor(s):
  47.  * 
  48.  * ***** END LICENSE BLOCK ***** */
  49. #include "hxresult.h"
  50. #include "hxassert.h"
  51. #include "hxheap.h"
  52. #include "hxstrutl.h"
  53. #include "xmlencod.h"
  54. #include "xmlvalid.h"
  55. #ifdef _DEBUG
  56. #undef HX_THIS_FILE
  57. static const char HX_THIS_FILE[] = __FILE__;
  58. #endif
  59. struct xmlEncodingInfo
  60. {
  61.     char*   m_pIANAName; // name of charset, case-insensitive
  62.     BOOL    m_bDoubleByte; // true if DBCS charset
  63.     BYTE    m_szLeadingByteRange[12]; // up to 5 zero-terminated
  64. // pairs of lead byte ranges
  65. } ;
  66. // Removed static here because it exercises a bug in gcc.  pgodman, 3/2/2000
  67. const xmlEncodingInfo XMLEncodingInfo[] =
  68. {
  69.     { "Default", TRUE,     // assume DBCS; any non-ASCII char is a lead byte
  70. 0x81, 0xFF, 0x00, 0x00, 0x00, 0x00,
  71. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
  72.     { "US-ASCII", FALSE, 
  73. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
  74. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
  75.     { "Shift-JIS", TRUE, 
  76. 0x81, 0x9F, 0xE0, 0xFC, 0x00, 0x00, 
  77. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
  78.     { "Big5", TRUE,
  79. 0x81, 0xFE, 0x00, 0x00, 0x00, 0x00,
  80. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
  81.     { "GB2312", TRUE,
  82. 0xA1, 0xFE, 0x00, 0x00, 0x00, 0x00,
  83. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
  84.     { "EUC-KR", TRUE,
  85. 0x84, 0xD3, 0xD8, 0xD8, 0xD9, 0xDE,
  86. 0xE0, 0xF9, 0x00, 0x00, 0x00, 0x00 },
  87.     { "ISO-2022-KR", TRUE,
  88. 0x81, 0xFE, 0x00, 0x00, 0x00, 0x00,
  89. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
  90.     { "ISO-8859-1", FALSE,
  91. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
  92. 0x00, 0x00, 0x00, 0x00, 0x00, 0x00 },
  93. };
  94. CHXXMLEncode::CHXXMLEncode(const char* pEncoding,
  95.    BYTE* pBuffer,
  96.    UINT32 ulLength):
  97.     m_ulBufferLength(ulLength),
  98.     m_pBuffer(pBuffer),
  99.     m_pCurrent(pBuffer)
  100. {
  101.     m_lEncodingIndex = GetEncodingIndex(pEncoding);
  102. }
  103. CHXXMLEncode::CHXXMLEncode(const char* pEncoding,
  104.    BYTE* pStr):
  105.     m_pBuffer(pStr),
  106.     m_pCurrent(pStr)
  107. {
  108.     m_ulBufferLength = strlen((char*)pStr) + 1;
  109.     m_lEncodingIndex = GetEncodingIndex(pEncoding);
  110. }
  111. CHXXMLEncode::CHXXMLEncode(const CHXXMLEncode& lhs)
  112. {
  113.     m_ulBufferLength = lhs.m_ulBufferLength;
  114.     m_pBuffer = lhs.m_pBuffer;
  115.     m_pCurrent = m_pBuffer;
  116.     m_lEncodingIndex = lhs.m_lEncodingIndex;
  117. }
  118. CHXXMLEncode::~CHXXMLEncode()
  119. {
  120. }
  121. const CHXXMLEncode&
  122. CHXXMLEncode::operator=(const CHXXMLEncode& lhs)
  123. {
  124.     m_ulBufferLength = lhs.m_ulBufferLength;
  125.     m_pBuffer = lhs.m_pBuffer;
  126.     m_pCurrent = m_pBuffer; // start at 0
  127.     m_lEncodingIndex = lhs.m_lEncodingIndex;
  128.     return *this;
  129. }
  130. CHXXMLEncode::operator const BYTE*() const
  131. {
  132.     return (const BYTE*)m_pBuffer;
  133. }
  134. BYTE*
  135. CHXXMLEncode::operator+(int offset)
  136. {
  137.     BYTE* pCh = m_pCurrent;
  138.     for(int nCount = 0; nCount < offset; ++nCount)
  139.     {
  140. UINT16 uLen = 0;
  141. GetNextChar(uLen);
  142.     }
  143.     BYTE* pOffset = m_pCurrent;
  144.     m_pCurrent = pCh;
  145.     return pOffset;
  146. }
  147. BYTE*
  148. CHXXMLEncode::operator+=(int offset)
  149. {
  150.     BYTE* pCh = m_pCurrent;
  151.     for(int nCount = 0; nCount < offset; ++nCount)
  152.     {
  153. UINT16 uLen = 0;
  154. pCh = GetNextChar(uLen);
  155.     }
  156.     return pCh;
  157. }
  158. BYTE*
  159. CHXXMLEncode::operator++(int)
  160. {
  161.     UINT16 uLen = 0;
  162.     return GetNextChar(uLen);
  163. }
  164. BYTE*
  165. CHXXMLEncode::operator--(int)
  166. {
  167.     UINT16 uLen = 0;
  168.     return GetPrevChar(uLen);
  169. }
  170. BOOL
  171. CHXXMLEncode::IsLeadByte(BYTE ch)
  172. {
  173.     int bRange = 0;
  174.     const xmlEncodingInfo* pEncInfo = &(XMLEncodingInfo[m_lEncodingIndex]);
  175.     if(pEncInfo->m_bDoubleByte)
  176.     {
  177. while((bRange < 12) &&
  178.       (pEncInfo->m_szLeadingByteRange[bRange] != 0))
  179. {
  180.     if(ch >= pEncInfo->m_szLeadingByteRange[bRange] &&
  181.        ch <= pEncInfo->m_szLeadingByteRange[bRange + 1])
  182.     {
  183. return TRUE;
  184.     }
  185.     bRange += 2;
  186. }
  187.     }
  188.     return FALSE;
  189. }
  190. BYTE*
  191. CHXXMLEncode::GetNextChar(UINT16& uLen)
  192. {
  193.     BYTE* pCh = m_pCurrent;
  194.     if(IsLeadByte(*m_pCurrent))
  195.     {
  196. m_pCurrent += 2;    // skip 2 bytes
  197. uLen = 2;
  198. return pCh;
  199.     }
  200.     m_pCurrent++;   // skip 1 byte
  201.     uLen = 1;
  202.     return pCh;
  203. }
  204. BYTE*
  205. CHXXMLEncode::GetPrevChar(UINT16& uLen)
  206. {
  207.     BYTE* pCh = m_pCurrent;
  208.     // assumes the m_pCurrent is on a boundary, i.e. it doesn't
  209.     // point to the middle of a DBCS character
  210.     // if current is at beginning or the previous byte is
  211.     // at the beginning, return current
  212.     if(m_pCurrent - 1 <= m_pBuffer)
  213.     {
  214. return pCh;
  215.     }
  216.     // point to the previous byte
  217.     BYTE* pTemp = m_pCurrent - 1;
  218.     // if pTemp points to a lead byte, then it must be a trail byte;
  219.     // decrement current 2 bytes to lead byte
  220.     if(IsLeadByte(*pTemp))
  221.     {
  222. m_pCurrent -= 2;
  223. pCh = m_pCurrent;
  224. uLen = 2;
  225. return pCh;
  226.     }
  227.     // otherwise, step back unil a non-lead byte is found
  228.     while(m_pCurrent <= --pTemp && IsLeadByte(*pTemp))
  229.     {
  230. ;
  231.     }
  232.     // now pTemp + 1 must point to the beginning of a character,
  233.     // so figure out whether we went back to an even or an odd
  234.     // number of bytes and go back 1 or 2 bytes, respectively.
  235.     m_pCurrent = m_pCurrent - 1 - ((m_pCurrent - pTemp) & 1);
  236.     pCh = m_pCurrent;
  237.     if(IsLeadByte(*pCh))
  238.     {
  239. uLen = 2;
  240.     }
  241.     else
  242.     {
  243. uLen = 1;
  244.     }
  245.     return pCh;
  246. }
  247. BYTE*
  248. CHXXMLEncode::SetCurrent(BYTE* pCh)
  249. {
  250.     // no checking other than boundary;
  251.     // if it is set on the trail byte
  252.     // of a DBCS character, bad things
  253.     // will happen...
  254.     HX_ASSERT(pCh >= m_pBuffer &&
  255.       pCh <= m_pBuffer + m_ulBufferLength);
  256.     m_pCurrent = pCh;
  257.     return m_pCurrent;
  258. }
  259. UINT32
  260. CHXXMLEncode::CharCount()
  261. {
  262.     UINT32 ulLength = 0;
  263.     BYTE* pCh = m_pBuffer;
  264.     if(XMLEncodingInfo[m_lEncodingIndex].m_bDoubleByte)
  265.     {
  266. UINT16 uLen = 0;
  267. for(; *pCh; pCh = GetNextChar(uLen))
  268. {
  269.     ++ulLength;
  270. }
  271.     }
  272.     else
  273.     {
  274. for(; *pCh; pCh++)
  275. {
  276.     ++ulLength;
  277. }
  278.     }
  279.     return ulLength;
  280. }
  281. INT32
  282. CHXXMLEncode::GetEncodingIndex(const char* pEncoding)
  283. {
  284.     INT32 lIndex = 0; // default
  285.     for(INT32 lCount = 0; 
  286. lCount < sizeof(XMLEncodingInfo) / sizeof(XMLEncodingInfo[0]);
  287. ++lCount)
  288.     {
  289. if(strcasecmp(pEncoding, XMLEncodingInfo[lCount].m_pIANAName) == 0)
  290. {
  291.     lIndex = lCount;
  292.     break;
  293. }
  294.     }
  295.     return lIndex;
  296. }
  297. BOOL
  298. CHXXMLEncode::IsRefValid(const BYTE* p, UINT32 len)
  299. {
  300.     if (!XMLEncodingInfo[m_lEncodingIndex].m_bDoubleByte)
  301.     {
  302. return ISO8859Valid::IsRefValid(p, len);
  303.     }
  304.     else
  305.     {
  306. // TODO: Double byte Validation
  307. return TRUE;
  308.     }
  309. }
  310. BOOL
  311. CHXXMLEncode::IsNameValid(const BYTE* p, UINT32 len)
  312. {
  313.     if (!XMLEncodingInfo[m_lEncodingIndex].m_bDoubleByte)
  314.     {
  315. return ISO8859Valid::IsNameValid(p, len);
  316.     }
  317.     else
  318.     {
  319. // TODO: Double byte Validation.
  320. return TRUE;
  321.     }
  322. }
  323. BOOL
  324. CHXXMLEncode::IsNmtokenValid(const BYTE*p, UINT32 len)
  325. {
  326.     if (!XMLEncodingInfo[m_lEncodingIndex].m_bDoubleByte)
  327.     {
  328. return ISO8859Valid::IsNmtokenValid(p, len);
  329.     }
  330.     else
  331.     {
  332. // TODO: Double byte Validation.
  333. return TRUE;
  334.     }
  335. }
  336. BOOL
  337. CHXXMLEncode::IsEntityValueValid(const BYTE* p, UINT32 len)
  338. {
  339.     if (!XMLEncodingInfo[m_lEncodingIndex].m_bDoubleByte)
  340.     {
  341. return ISO8859Valid::IsEntityValueValid(p, len);
  342.     }
  343.     else
  344.     {
  345. return TRUE;
  346.     }
  347. }
  348. BOOL 
  349. CHXXMLEncode::IsAttValueValid(const BYTE* p, UINT32 len)
  350. {
  351.     if (!XMLEncodingInfo[m_lEncodingIndex].m_bDoubleByte)
  352.     {
  353. return ISO8859Valid::IsAttValueValid(p, len);
  354.     }
  355.     else
  356.     {
  357. // TODO: Double byte Validation.
  358. return TRUE;
  359.     }
  360. }
  361. BOOL 
  362. CHXXMLEncode::IsSystemLiteralValid(const BYTE* p, UINT32 len)
  363. {
  364.     if (!XMLEncodingInfo[m_lEncodingIndex].m_bDoubleByte)
  365.     {
  366. return ISO8859Valid::IsSystemLiteralValid(p, len);
  367.     }
  368.     else
  369.     {
  370. // TODO: Double byte Validation.
  371. return TRUE;
  372.     }
  373. }
  374. BOOL
  375. CHXXMLEncode::IsPubidLiteralValid(const BYTE* p, UINT32 len)
  376. {
  377.     if (!XMLEncodingInfo[m_lEncodingIndex].m_bDoubleByte)
  378.     {
  379. return ISO8859Valid::IsPubidLiteralValid(p, len);
  380.     }
  381.     else
  382.     {
  383. // TODO: Double byte Validation.
  384. return TRUE;
  385.     }
  386. }