DFAContentModel.hpp
上传用户:zhuqijet
上传日期:2013-06-25
资源大小:10074k
文件大小:14k
源码类别:

词法分析

开发平台:

Visual C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  *
  4.  * Copyright (c) 1999-2001 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  *
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  *
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer.
  13.  *
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  *
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  *
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written
  29.  *    permission, please contact apache@apache.org.
  30.  *
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  *
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  *
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 1999, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. /*
  57.  * $Log: DFAContentModel.hpp,v $
  58.  * Revision 1.5  2003/05/16 21:43:20  knoaman
  59.  * Memory manager implementation: Modify constructors to pass in the memory manager.
  60.  *
  61.  * Revision 1.4  2003/05/15 18:48:27  knoaman
  62.  * Partial implementation of the configurable memory manager.
  63.  *
  64.  * Revision 1.3  2003/03/07 18:16:57  tng
  65.  * Return a reference instead of void for operator=
  66.  *
  67.  * Revision 1.2  2002/11/04 14:54:58  tng
  68.  * C++ Namespace Support.
  69.  *
  70.  * Revision 1.1.1.1  2002/02/01 22:22:38  peiyongz
  71.  * sane_include
  72.  *
  73.  * Revision 1.13  2001/11/21 14:30:13  knoaman
  74.  * Fix for UPA checking.
  75.  *
  76.  * Revision 1.12  2001/08/24 12:48:48  tng
  77.  * Schema: AllContentModel
  78.  *
  79.  * Revision 1.11  2001/08/21 16:06:11  tng
  80.  * Schema: Unique Particle Attribution Constraint Checking.
  81.  *
  82.  * Revision 1.10  2001/08/13 15:06:39  knoaman
  83.  * update <any> validation.
  84.  *
  85.  * Revision 1.9  2001/06/13 20:50:55  peiyongz
  86.  * fIsMixed: to handle mixed Content Model
  87.  *
  88.  * Revision 1.8  2001/05/11 13:27:18  tng
  89.  * Copyright update.
  90.  *
  91.  * Revision 1.7  2001/05/03 21:02:30  tng
  92.  * Schema: Add SubstitutionGroupComparator and update exception messages.  By Pei Yong Zhang.
  93.  *
  94.  * Revision 1.6  2001/04/19 18:17:30  tng
  95.  * Schema: SchemaValidator update, and use QName in Content Model
  96.  *
  97.  * Revision 1.5  2001/03/21 21:56:27  tng
  98.  * Schema: Add Schema Grammar, Schema Validator, and split the DTDValidator into DTDValidator, DTDScanner, and DTDGrammar.
  99.  *
  100.  * Revision 1.4  2001/03/21 19:29:55  tng
  101.  * Schema: Content Model Updates, by Pei Yong Zhang.
  102.  *
  103.  * Revision 1.3  2001/02/27 18:32:32  tng
  104.  * Schema: Use XMLElementDecl instead of DTDElementDecl in Content Model.
  105.  *
  106.  * Revision 1.2  2001/02/27 14:48:52  tng
  107.  * Schema: Add CMAny and ContentLeafNameTypeVector, by Pei Yong Zhang
  108.  *
  109.  * Revision 1.1  2001/02/16 14:17:29  tng
  110.  * Schema: Move the common Content Model files that are shared by DTD
  111.  * and schema from 'DTD' folder to 'common' folder.  By Pei Yong Zhang.
  112.  *
  113.  * Revision 1.4  2000/03/02 19:55:38  roddey
  114.  * This checkin includes many changes done while waiting for the
  115.  * 1.1.0 code to be finished. I can't list them all here, but a list is
  116.  * available elsewhere.
  117.  *
  118.  * Revision 1.3  2000/02/24 20:16:48  abagchi
  119.  * Swat for removing Log from API docs
  120.  *
  121.  * Revision 1.2  2000/02/09 21:42:37  abagchi
  122.  * Copyright swat
  123.  *
  124.  * Revision 1.1.1.1  1999/11/09 01:03:19  twl
  125.  * Initial checkin
  126.  *
  127.  * Revision 1.2  1999/11/08 20:45:38  rahul
  128.  * Swat for adding in Product name and CVS comment log variable.
  129.  *
  130.  */
  131. #if !defined(DFACONTENTMODEL_HPP)
  132. #define DFACONTENTMODEL_HPP
  133. #include <xercesc/util/XercesDefs.hpp>
  134. #include <xercesc/util/ArrayIndexOutOfBoundsException.hpp>
  135. #include <xercesc/framework/XMLContentModel.hpp>
  136. #include <xercesc/validators/common/ContentLeafNameTypeVector.hpp>
  137. XERCES_CPP_NAMESPACE_BEGIN
  138. class ContentSpecNode;
  139. class CMLeaf;
  140. class CMNode;
  141. class CMStateSet;
  142. //
  143. //  DFAContentModel is the heavy weight derivative of ContentModel that does
  144. //  all of the non-trivial element content validation. This guy does the full
  145. //  bore regular expression to DFA conversion to create a DFA that it then
  146. //  uses in its validation algorithm.
  147. //
  148. //  NOTE:   Upstream work insures that this guy will never see a content model
  149. //          with PCDATA in it. Any model with PCDATA is 'mixed' and is handled
  150. //          via the MixedContentModel class, since mixed models are very
  151. //          constrained in form and easily handled via a special case. This
  152. //          also makes our life much easier here.
  153. //
  154. class DFAContentModel : public XMLContentModel
  155. {
  156. public:
  157.     // -----------------------------------------------------------------------
  158.     //  Constructors and Destructor
  159.     // -----------------------------------------------------------------------
  160.     DFAContentModel
  161.     ( 
  162.           const bool             dtd
  163.         , ContentSpecNode* const elemContentSpec
  164.         , MemoryManager* const   manager = XMLPlatformUtils::fgMemoryManager
  165.     );
  166.     DFAContentModel
  167.     (
  168.           const bool             dtd
  169.         , ContentSpecNode* const elemContentSpec
  170.         , const bool             isMixed
  171.         , MemoryManager* const   manager
  172.     );
  173.     virtual ~DFAContentModel();
  174.     // -----------------------------------------------------------------------
  175.     //  Implementation of the virtual content model interface
  176.     // -----------------------------------------------------------------------
  177.     virtual int validateContent
  178.     (
  179.         QName** const         children
  180.       , const unsigned int    childCount
  181.       , const unsigned int    emptyNamespaceId
  182.     ) const;
  183.     virtual int validateContentSpecial
  184.     (
  185.         QName** const           children
  186.       , const unsigned int      childCount
  187.       , const unsigned int      emptyNamespaceId
  188.       , GrammarResolver*  const pGrammarResolver
  189.       , XMLStringPool*    const pStringPool
  190.     ) const;
  191.     virtual void checkUniqueParticleAttribution
  192.     (
  193.         SchemaGrammar*    const pGrammar
  194.       , GrammarResolver*  const pGrammarResolver
  195.       , XMLStringPool*    const pStringPool
  196.       , XMLValidator*     const pValidator
  197.       , unsigned int*     const pContentSpecOrgURI
  198.     ) ;
  199.     virtual ContentLeafNameTypeVector* getContentLeafNameTypeVector() const ;
  200.     virtual unsigned int getNextState(const unsigned int currentState,
  201.                                       const unsigned int elementIndex) const;
  202. private :
  203.     // -----------------------------------------------------------------------
  204.     //  Unimplemented constructors and operators
  205.     // -----------------------------------------------------------------------
  206.     DFAContentModel();
  207.     DFAContentModel(const DFAContentModel&);
  208.     DFAContentModel& operator=(const DFAContentModel&);
  209.     // -----------------------------------------------------------------------
  210.     //  Private helper methods
  211.     // -----------------------------------------------------------------------
  212.     void buildDFA(ContentSpecNode* const curNode);
  213.     CMNode* buildSyntaxTree(ContentSpecNode* const curNode);
  214.     void calcFollowList(CMNode* const curNode);
  215.     unsigned int* makeDefStateList() const;
  216.     int postTreeBuildInit
  217.     (
  218.                 CMNode* const   nodeCur
  219.         , const unsigned int    curIndex
  220.     );
  221.     // -----------------------------------------------------------------------
  222.     //  Private data members
  223.     //
  224.     //  fElemMap
  225.     //  fElemMapSize
  226.     //      This is the map of unique input symbol elements to indices into
  227.     //      each state's per-input symbol transition table entry. This is part
  228.     //      of the built DFA information that must be kept around to do the
  229.     //      actual validation.
  230.     //
  231.     //  fElemMapType
  232.     //      This is a map of whether the element map contains information
  233.     //      related to ANY models.
  234.     //
  235.     //  fEmptyOk
  236.     //      This is an optimization. While building the transition table we
  237.     //      can see whether this content model would approve of an empty
  238.     //      content (which could happen if everything was optional.) So we
  239.     //      set this flag and short circuit that check, which would otherwise
  240.     //      be ugly and time consuming if we tried to determine it at each
  241.     //      validation call.
  242.     //
  243.     //  fEOCPos
  244.     //      The NFA position of the special EOC (end of content) node. This
  245.     //      is saved away since its used during the DFA build.
  246.     //
  247.     //  fFinalStateFlags
  248.     //      This is an array of booleans, one per state (there are
  249.     //      fTransTableSize states in the DFA) that indicates whether that
  250.     //      state is a final state.
  251.     //
  252.     //  fFollowList
  253.     //      The list of follow positions for each NFA position (i.e. for each
  254.     //      non-epsilon leaf node.) This is only used during the building of
  255.     //      the DFA, and is let go afterwards.
  256.     //
  257.     //  fHeadNode
  258.     //      This is the head node of our intermediate representation. It is
  259.     //      only non-null during the building of the DFA (just so that it
  260.     //      does not have to be passed all around.) Once the DFA is built,
  261.     //      this is no longer required so its deleted.
  262.     //
  263.     //  fLeafCount
  264.     //      The count of leaf nodes. This is an important number that set some
  265.     //      limits on the sizes of data structures in the DFA process.
  266.     //
  267.     //  fLeafList
  268.     //      An array of non-epsilon leaf nodes, which is used during the DFA
  269.     //      build operation, then dropped. These are just references to nodes
  270.     //      pointed to by fHeadNode, so we don't have to clean them up, just
  271.     //      the actually leaf list array itself needs cleanup.
  272.     //
  273.     //  fLeafListType
  274.     //      Array mapping ANY types to the leaf list.
  275.     //
  276.     //  fTransTable
  277.     //  fTransTableSize
  278.     //      This is the transition table that is the main by product of all
  279.     //      of the effort here. It is an array of arrays of ints. The first
  280.     //      dimension is the number of states we end up with in the DFA. The
  281.     //      second dimensions is the number of unique elements in the content
  282.     //      model (fElemMapSize). Each entry in the second dimension indicates
  283.     //      the new state given that input for the first dimension's start
  284.     //      state.
  285.     //
  286.     //      The fElemMap array handles mapping from element indexes to
  287.     //      positions in the second dimension of the transition table.
  288.     //
  289.     //      fTransTableSize is the number of valid entries in the transition
  290.     //      table, and in the other related tables such as fFinalStateFlags.
  291.     //
  292.     //  fDTD
  293.     //      Boolean to allow DTDs to validate even with namespace support.
  294.     //
  295.     //  fIsMixed
  296.     //      DFA ContentModel with mixed PCDATA.
  297.     // -----------------------------------------------------------------------
  298.     QName**                 fElemMap;
  299.     ContentSpecNode::NodeTypes  *fElemMapType;
  300.     unsigned int            fElemMapSize;
  301.     bool                    fEmptyOk;
  302.     unsigned int            fEOCPos;
  303.     bool*                   fFinalStateFlags;
  304.     CMStateSet**            fFollowList;
  305.     CMNode*                 fHeadNode;
  306.     unsigned int            fLeafCount;
  307.     CMLeaf**                fLeafList;
  308.     ContentSpecNode::NodeTypes  *fLeafListType;
  309.     unsigned int**          fTransTable;
  310.     unsigned int            fTransTableSize;
  311.     bool                    fDTD;
  312.     bool                    fIsMixed;
  313.     ContentLeafNameTypeVector *fLeafNameTypeVector;
  314.     MemoryManager*             fMemoryManager;
  315. };
  316. inline unsigned int
  317. DFAContentModel::getNextState(const unsigned int currentState,
  318.                               const unsigned int elementIndex) const {
  319.     if (currentState == XMLContentModel::gInvalidTrans) {
  320.         return XMLContentModel::gInvalidTrans;
  321.     }
  322.     if (currentState >= fTransTableSize || elementIndex >= fElemMapSize) {
  323.         ThrowXML(ArrayIndexOutOfBoundsException, XMLExcepts::Array_BadIndex);
  324.     }
  325.     return fTransTable[currentState][elementIndex];
  326. }
  327. XERCES_CPP_NAMESPACE_END
  328. #endif