IANACharset.cpp
上传用户:zhuqijet
上传日期:2013-06-25
资源大小:10074k
文件大小:13k
源码类别:

词法分析

开发平台:

Visual C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  *
  4.  * Copyright (c) 2002 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  *
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  *
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer.
  13.  *
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  *
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  *
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written
  29.  *    permission, please contact apache@apache.org.
  30.  *
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  *
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  *
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 1999, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. /*
  57.  * $Log: IANACharset.cpp,v $
  58.  * Revision 1.3  2003/01/29 15:00:01  knoaman
  59.  * [Bug 15787] Reduce array size to reduce memory footprint.
  60.  *
  61.  * Revision 1.2  2002/11/04 15:24:50  tng
  62.  * C++ Namespace Support.
  63.  *
  64.  * Revision 1.1  2002/07/18 20:15:32  knoaman
  65.  * Initial checkin: feature to control strict IANA encoding name.
  66.  *
  67.  */
  68. // ---------------------------------------------------------------------------
  69. //  This program is designed to parse an XML file containing the valid IANA
  70. //  encodings. It will build a DOM tree from that source file and and spit out
  71. //  a C++ code fragment that represents the table required by the TransService
  72. //  class to check for valid IANA encodings before creating the corresponding
  73. //  transcoder
  74. //
  75. //  The file format is pretty simple and this program is not intended to be
  76. //  industrial strength by any means. Its use by anyone but the author is
  77. //  at the user's own risk.
  78. //
  79. // ---------------------------------------------------------------------------
  80. // ---------------------------------------------------------------------------
  81. //  Includes
  82. // ---------------------------------------------------------------------------
  83. #include <stdio.h>
  84. #include <xercesc/util/PlatformUtils.hpp>
  85. #include <xercesc/sax/SAXParseException.hpp>
  86. #include <xercesc/parsers/XercesDOMParser.hpp>
  87. #include <xercesc/dom/DOM.hpp>
  88. #include "IANACharset_ErrHandler.hpp"
  89. // ---------------------------------------------------------------------------
  90. //  Const data
  91. // ---------------------------------------------------------------------------
  92. enum ErrReturns
  93. {
  94.     ErrReturn_Success               = 0
  95.     , ErrReturn_BadParameters       = 1
  96.     , ErrReturn_OutFileOpenFailed   = 4
  97.     , ErrReturn_ParserInit          = 5
  98.     , ErrReturn_ParseErr            = 6
  99.     , ErrReturn_SrcFmtError         = 7
  100. };
  101. // ---------------------------------------------------------------------------
  102. //  Local data
  103. //
  104. //  gOutPath
  105. //      This is the path to the output path, which is given on the command
  106. //      line as /OutPath=. Its just the path, not a name.
  107. //
  108. //  gSrcFile
  109. //      This the IANA encodings input file.
  110. //
  111. // ---------------------------------------------------------------------------
  112. const XMLCh*    gOutPath = 0;
  113. const XMLCh*    gSrcFile = 0;
  114. static FILE*    gOutFile;
  115. static bool     gFirst = false;
  116. // ---------------------------------------------------------------------------
  117. //  Local functions
  118. // ---------------------------------------------------------------------------
  119. //
  120. //  This method is called to parse the parameters. They must be in this
  121. //  order and format, for simplicity:
  122. //
  123. //  /SrcFile=xxx /OutPath=xxx
  124. //
  125. static bool parseParms(const int argC, XMLCh** argV)
  126. {
  127.     if (argC < 3)
  128.         return false;
  129.     unsigned int curParm = 1;
  130.     if (XMLString::startsWith(argV[curParm], L"/SrcFile="))
  131.     {
  132.         gSrcFile = &argV[curParm][9];
  133.     }
  134.     else
  135.     {
  136.         return false;
  137.     }
  138.     curParm++;
  139.     if (XMLString::startsWith(argV[curParm], L"/OutPath="))
  140.     {
  141.         gOutPath = &argV[curParm][9];
  142.     }
  143.     else
  144.     {
  145.         return false;
  146.     }
  147.     return true;
  148. }
  149. static void parseError(const XMLException& toCatch)
  150. {
  151.     wprintf
  152.     (
  153.         L"Exceptionn   (Line.File):%d.%sn   ERROR: %snn"
  154.         , toCatch.getSrcLine()
  155.         , toCatch.getSrcFile()
  156.         , toCatch.getMessage()
  157.     );
  158.     throw ErrReturn_ParseErr;
  159. }
  160. static void parseError(const SAXParseException& toCatch)
  161. {
  162.     wprintf
  163.     (
  164.         L"SAX Parse Error:n   (Line.Col.SysId): %d.%d.%sn   ERROR: %snn"
  165.         , toCatch.getLineNumber()
  166.         , toCatch.getColumnNumber()
  167.         , toCatch.getSystemId()
  168.         , toCatch.getMessage()
  169.     );
  170.     throw ErrReturn_ParseErr;
  171. }
  172. static void startOutput(const XMLCh* const outPath)
  173. {
  174.     //
  175.     //  Ok, lets try to open the the output file.
  176.     //
  177.     const unsigned int bufSize = 4095;
  178.     XMLCh tmpBuf[bufSize + 1];
  179.     swprintf(tmpBuf, L"%s/%s.hpp", outPath, L"IANAEncodings");
  180.     gOutFile = _wfopen(tmpBuf, L"wt");
  181.     if (!gOutFile)
  182.     {
  183.         wprintf(L"Could not open the output file: %snn", tmpBuf);
  184.         throw ErrReturn_OutFileOpenFailed;
  185.     }
  186.     //
  187.     //  Ok, lets output the grunt data at the start of the file. We put out a
  188.     //  comment that indicates its a generated file, and the title string.
  189.     //
  190.     fwprintf
  191.     (
  192.         gOutFile
  193.         , L"// ----------------------------------------------------------------n"
  194.           L"//  This file was generated from the IANA charset source.n"
  195.           L"//  so do not edit this file directly!!n"
  196.           L"// ----------------------------------------------------------------nn"
  197.           L"#if !defined(IANAENCODINGS_HPP)n"
  198.           L"#define IANAENCODINGS_HPPnn"
  199.           L"#include <xercesc/util/XercesDefs.hpp>nn"
  200.           L"XERCES_CPP_NAMESPACE_BEGINnn"
  201.     );
  202.     //
  203.     //  Output the leading part of the array declaration. Its just an
  204.     //  array of pointers to Unicode chars.
  205.     //
  206.     fwprintf(gOutFile, L"const XMLCh gEncodingArray[][46] = n{n");
  207.     //
  208.     // Reset first element trigger
  209.     gFirst = true;
  210. }
  211. static void nextEncoding(const XMLCh* const encodingName)
  212. {
  213.     // Store the straight Unicode format as numeric character
  214.     // values.
  215.     if (gFirst)
  216.     {
  217.         fwprintf(gOutFile, L"    { ");
  218.         gFirst = false;
  219.     }
  220.      else
  221.     {
  222.         fwprintf(gOutFile, L"  , { ");
  223.     }
  224.     const XMLCh* rawData = encodingName;
  225.     while (*rawData)
  226.         fwprintf(gOutFile, L"0x%04lX,", *rawData++);
  227.     fwprintf(gOutFile, L"0x00 }n");
  228. }
  229. static void endOutput(const unsigned int encCount)
  230. {
  231.     // And close out the array declaration
  232.     fwprintf(gOutFile, L"n};n");
  233.     // Output the const size value
  234.     fwprintf(gOutFile, L"const unsigned int gEncodingArraySize = %d;nn", encCount);
  235.     fwprintf
  236.     (
  237.         gOutFile
  238.         , L"XERCES_CPP_NAMESPACE_ENDnn"
  239.           L"#endifnn"
  240.     );
  241.     // Close the output file
  242.     fclose(gOutFile);
  243. }
  244. static void usage()
  245. {
  246.     wprintf(L"Usage:n  IANACharset /SrcFile=xx /OutPath=xxnn");
  247. }
  248. // ---------------------------------------------------------------------------
  249. //  Program entry point
  250. // ---------------------------------------------------------------------------
  251. extern "C" int wmain(int argC, XMLCh** argV)
  252. {
  253.     try
  254.     {
  255.         XMLPlatformUtils::Initialize();
  256.     }
  257.     catch(const XMLException& toCatch)
  258.     {
  259.         wprintf(L"Parser init error.n  ERROR: %snn", toCatch.getMessage());
  260.         return ErrReturn_ParserInit;
  261.     }
  262.     //
  263.     //  Lets check the parameters and save them away in globals for use by
  264.     //  the processing code.
  265.     //
  266.     if (!parseParms(argC, argV))
  267.     {
  268.         usage();
  269.         XMLPlatformUtils::Terminate();
  270.         return ErrReturn_BadParameters;
  271.     }
  272.     DOMDocument* srcDoc = 0;
  273.     const unsigned int bufSize = 4095;
  274.     XMLCh tmpFileBuf[bufSize + 1];
  275.     try
  276.     {
  277.         try
  278.         {
  279.             // Build the input file name
  280.             swprintf
  281.             (
  282.                 tmpFileBuf
  283.                 , L"%s"
  284.                 , gSrcFile
  285.             );
  286.             //
  287.             //  Ok, lets invoke the DOM parser on the input file and build
  288.             //  a DOM tree. Turn on validation when we do this.
  289.             //
  290.             XercesDOMParser parser;
  291.             parser.setDoValidation(true);
  292.             IANACharsetErrHandler errHandler;
  293.             parser.setErrorHandler(&errHandler);
  294.             parser.parse(tmpFileBuf);
  295.             srcDoc = parser.adoptDocument();
  296.         }
  297.         catch(const XMLException& toCatch)
  298.         {
  299.             parseError(toCatch);
  300.         }
  301.         //
  302.         //  Get the root element.
  303.         //
  304.         DOMElement* rootElem = srcDoc->getDocumentElement();
  305.         //
  306.         //  Ok, its good enough to get started. So lets call the start output
  307.         //  method.
  308.         //
  309.         startOutput(gOutPath);
  310.         //
  311.         //  Loop through the children of this node, which should take us
  312.         //  through the optional Warning, Error, and Validity subsections.
  313.         //
  314.         DOMNode* encNode = rootElem->getFirstChild();
  315.         unsigned int count = 0;
  316.         while (encNode)
  317.         {
  318.             // Skip over text nodes or comment nodes ect...
  319.             if (encNode->getNodeType() != DOMNode::ELEMENT_NODE)
  320.             {
  321.                 encNode = encNode->getNextSibling();
  322.                 continue;
  323.             }
  324.             // Convert it to an element node
  325.             const DOMElement* encElem = (const DOMElement*)encNode;
  326.             // Now get its tag name
  327.             const XMLCh* tagName = encElem->getTagName();
  328.             if (XMLString::compareString(tagName, L"Encoding"))
  329.             {
  330.                 wprintf(L"Expected an Encoding nodenn");
  331.                 throw ErrReturn_SrcFmtError;
  332.             }
  333.             //
  334.             //  Ok, lets pull out the encoding name and output it to the file
  335.             //
  336.             const XMLCh* encName = encElem->getAttribute(L"name");
  337.             nextEncoding(encName);
  338.             count++;
  339.             // Move to the next child of the source element
  340.             encNode = encNode->getNextSibling();
  341.         }
  342.         endOutput(count);
  343.     }
  344.     catch(const ErrReturns retVal)
  345.     {
  346.         // And call the termination method
  347.         delete srcDoc;
  348.         XMLPlatformUtils::Terminate();
  349.         return retVal;
  350.     }
  351.     delete srcDoc;
  352.     // And call the termination method
  353.     XMLPlatformUtils::Terminate();
  354.     // Went ok, so return success
  355.     return ErrReturn_Success;
  356. }
  357. // -----------------------------------------------------------------------
  358. //  IANACharsetErrHandler: Implementation of the error handler interface
  359. // -----------------------------------------------------------------------
  360. void IANACharsetErrHandler::warning(const SAXParseException& toCatch)
  361. {
  362.     parseError(toCatch);
  363. }
  364. void IANACharsetErrHandler::error(const SAXParseException& toCatch)
  365. {
  366.     parseError(toCatch);
  367. }
  368. void IANACharsetErrHandler::fatalError(const SAXParseException& toCatch)
  369. {
  370.     parseError(toCatch);
  371. }
  372. void IANACharsetErrHandler::resetErrors()
  373. {
  374. }