BinURLInputStream.cpp
上传用户:zhuqijet
上传日期:2013-06-25
资源大小:10074k
文件大小:13k
源码类别:

词法分析

开发平台:

Visual C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  *
  4.  * Copyright (c) 1999-2000 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  *
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  *
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer.
  13.  *
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  *
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  *
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written
  29.  *    permission, please contact apache@apache.org.
  30.  *
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  *
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  *
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 1999, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. /**
  57.  * $Log: BinURLInputStream.cpp,v $
  58.  * Revision 1.4  2003/05/17 05:54:18  knoaman
  59.  * Update NetAccessors to use the memory manager.
  60.  *
  61.  * Revision 1.3  2002/12/06 16:42:13  tng
  62.  * Fix the error messages thrown from net accessor module.
  63.  *
  64.  * Revision 1.2  2002/11/04 15:11:39  tng
  65.  * C++ Namespace Support.
  66.  *
  67.  * Revision 1.1.1.1  2002/02/01 22:22:22  peiyongz
  68.  * sane_include
  69.  *
  70.  * Revision 1.6  2001/11/28 19:14:59  knoaman
  71.  * Bug 2238: fix by Artur Klauser
  72.  * Some broken proxy servers (e.g. the one behind which I happen to reside,
  73.  * which apparently is Server: Microsoft-IIS/5.0)
  74.  * implement wrong boundary conditions for range requests. In particular,
  75.  * (1) request ranges straddling the content length of the document
  76.  *     give bogus header information
  77.  *       Content-Range: bytes X-Y/Z
  78.  *     where Y > Z, and give 0 bytes of actual message content.
  79.  * (2) request ranges beyond the content length of the document do not
  80.  *     give an error response as asked for in RFC2616 (http/1.1)
  81.  *
  82.  * Since the NetAccessor code was just trying to fall off the end of the
  83.  * document with the last range request (ie. hitting case 1 above), it
  84.  * never gets the last chunk of data from this proxy server.
  85.  *
  86.  * Revision 1.5  2001/11/28 19:11:33  knoaman
  87.  * Bug 2237: fix by Artur Klauser
  88.  *
  89.  * Revision 1.4  2001/03/02 14:39:21  tng
  90.  * Enabling libWWW NetAccessor support under UNIX. Tested with latest tarball of libWWW
  91.  * (w3c-libwww-5.3.2) under RedHat Linux 6.1.  Added by Martin Kalen.
  92.  *
  93.  * There is one MAJOR problem with the use of libwww and the patches
  94.  * below, which someone with knowledge of libwww filters etc. might want
  95.  * to look into. Default behavior for content-type text/xml is to consume
  96.  * all xml data before it reaches the simple HTML presenter. Hence, only
  97.  * files with content-type text/html will actually reach the xerces-c
  98.  * library. If you have a *.xml file on the webbserver, processing of the
  99.  * file will throw an exception stating "The main XML document cannot be
  100.  * empty" (correct in a xerces point of view since if you enable debug
  101.  * build you will see that libwww "eats" all text/xml).
  102.  *
  103.  * See "Diffs for enabling libWWW NetAccessor support under UNIX" posted in March 1, 2001
  104.  * in the xerces-c-dev mailing list for further information.
  105.  *
  106.  * Revision 1.3  2000/05/15 22:31:31  andyh
  107.  * Replace #include<memory.h> with <string.h> everywhere.
  108.  *
  109.  * Revision 1.2  2000/02/26 07:56:36  rahulj
  110.  * Fixed the license header as pointed out by Bill Schindler <developer@bitranch.com>
  111.  *
  112.  * Revision 1.1  2000/02/17 22:06:19  rahulj
  113.  * Moved the four LibWWW files to its own sub-directory in the
  114.  * NetAccessor directory.
  115.  *
  116.  *
  117.  * Revision 1.1  2000/01/15 01:08:04  rahulj
  118.  * Added support for HTTP to the parser.
  119.  * Error handling is not very good. Also cannot guarantee that
  120.  * there are no memory leaks.
  121.  * Only tested under NT 4.0 SP 5 using libWWW 5.2.8.
  122.  *
  123.  */
  124. #include <xercesc/util/XMLNetAccessor.hpp>
  125. #include <xercesc/util/NetAccessors/libWWW/BinURLInputStream.hpp>
  126. #include <xercesc/util/XMLString.hpp>
  127. #include <xercesc/util/XMLExceptMsgs.hpp>
  128. #include <strings.h>
  129. #include <WWWInit.h>
  130. XERCES_CPP_NAMESPACE_BEGIN
  131. //
  132. // This define specifies the size of the buffer used to read chunks
  133. // out of the URL input stream.
  134. //
  135. #define URLISBUFMAXSIZE        8192
  136. //
  137. // We assume here that the URL is essentially composed of just ASCII characters
  138. // and hence converting it to a 'char *' requires just to drop the leading zero
  139. // byte. The reason, we can get away with this is that libWWW currently provides
  140. // no wide character API's.
  141. //
  142. // The input Unicode string is assumed to be 0 terminated.
  143. // The caller is responsible to free the memory allocated to store the resultant
  144. // 'char *' string.
  145. //
  146. static char* localTranscode(const XMLCh* latinStrInUnicode)
  147. {
  148.     unsigned int   lent = XMLString::stringLen(latinStrInUnicode);
  149.     char*  retval = (char*) XMLPlatformUtils::fgMemoryManager->allocate
  150.     (
  151.         (lent + 1) * sizeof(char)
  152.     );//new char[lent + 1];
  153.     unsigned int  i = 0;
  154.     for (i = 0; i < lent; i++)
  155.         retval[i] = (char) latinStrInUnicode[i]; // drop the leading byte.
  156.     retval[lent] = 0;
  157.     return retval;
  158. }
  159. BinURLInputStream::BinURLInputStream(const XMLURL& urlSource)
  160.       : fBuffer(0)
  161.       , fBufferSize(0)
  162.       , fBufferIndex(0)
  163.       , fRemoteFileSize(0)
  164.       , fAnchor(0)
  165.       , fBytesProcessed(0)
  166.       , fMemoryManager(urlSource.getMemoryManager())
  167. {
  168.     fBuffer = (XMLByte*) fMemoryManager->allocate
  169.     (
  170.         URLISBUFMAXSIZE * sizeof(XMLByte)
  171.     );//new XMLByte[URLISBUFMAXSIZE];
  172.     const XMLCh*  uri = urlSource.getURLText();
  173.     char*   uriAsCharStar = localTranscode(uri);
  174.     //
  175.     // First find the size of the remote resource being asked for.
  176.     // We use the ContentCounter stream provided by libWWW.
  177.     //
  178.     fAnchor = HTAnchor_findAddress(uriAsCharStar);
  179.     HTRequest*   request = HTRequest_new();
  180.     HTRequest_setOutputFormat(request, WWW_SOURCE);
  181.     HTStream*    counterStrm = HTContentCounter(HTBlackHole(), request, 0xFFFF);
  182.     BOOL  status = HTLoadToStream(uriAsCharStar, counterStrm, request);
  183.     if (status == YES)
  184.     {
  185.         // Patch by Artur Klauser
  186.         // When a redirection is processed in libWWW, it seems that
  187.         // HTAnchor_length(anchor) == -1 on the original anchor, whereas
  188.         // HTResponse_length(response) gives the correct content length of
  189.         // the redirection target. This has confusedfRemoteFileSize and it was
  190.         // not checked for a -1 response at all.
  191.         HTResponse * response = HTRequest_response (request);
  192.         fRemoteFileSize = HTResponse_length(response);
  193.         if (fRemoteFileSize < 0) {
  194.             ThrowXML(NetAccessorException, XMLExcepts::NetAcc_LengthError);
  195.         }
  196.     }
  197.     // Cleanup, before you throw any errors.
  198.     delete [] uriAsCharStar;
  199.     HTRequest_delete(request);
  200.     // Don't know whether I am supposed to delete counterStrm.
  201.     if (status == NO)
  202.     {
  203.         ThrowXML(NetAccessorException, XMLExcepts::NetAcc_LengthError);
  204.     }
  205. }
  206. BinURLInputStream::~BinURLInputStream()
  207. {
  208.     fMemoryManager->deallocate(fBuffer);//delete [] fBuffer;
  209.     fBuffer = 0;
  210.     // Do not delete the fAnchor. Its deleted when the destructor of
  211.     // libWWWNetAccessor is called.
  212. }
  213. void BinURLInputStream::reset()
  214. {
  215.     fBufferSize = 0;
  216.     fBytesProcessed = 0;
  217.     fBufferIndex = 0;
  218.     memset((void*) fBuffer, 0x00, sizeof(XMLByte) * URLISBUFMAXSIZE);
  219. }
  220. unsigned int BinURLInputStream::curPos() const
  221. {
  222.     return fBytesProcessed;
  223. }
  224. unsigned int BinURLInputStream::bytesAvail() const
  225. {
  226.     unsigned int  retval = fBufferSize - fBufferIndex;
  227.     return retval;
  228. }
  229. unsigned int BinURLInputStream::readBytes(XMLByte* const  toFill
  230.                                   , const unsigned int    maxToRead)
  231. {
  232.     unsigned int  retval = 0;
  233.     unsigned int  bytesAsked = maxToRead;
  234.     unsigned int  bytesForCopy = 0;
  235.     // Wipe out the old stuff from the destination buffer to fill.
  236.     memset((void*)toFill, 0x00, sizeof(XMLByte) * maxToRead);
  237.     // You can only read till the end of the remote resource file.
  238.     // So, adjust the count of bytes you want to read now.
  239.     if (fBytesProcessed + bytesAsked >= fRemoteFileSize)
  240.     {
  241.         bytesAsked = fRemoteFileSize - fBytesProcessed;
  242.     }
  243.     if (fBufferSize > 0)
  244.         bytesForCopy = fBufferSize - fBufferIndex;
  245.     if (bytesAsked <= bytesForCopy)
  246.     {
  247.         // ...then you can satisfy this request completely from fBuffer.
  248.         // Simply copy over the bytes to the destination array.
  249.         memcpy((void*) toFill, (void*) (fBuffer + fBufferIndex), bytesAsked);
  250.         fBufferIndex += bytesAsked;
  251.         if (fBufferIndex >= fBufferSize)
  252.         {
  253.             fBufferSize = 0;
  254.             fBufferIndex = 0;
  255.         }
  256.         fBytesProcessed += bytesAsked;
  257.         retval = bytesAsked;
  258.     }
  259.     else
  260.     {
  261.         // ...will need to read some more bytes out of the stream.
  262.         unsigned int    bufToFillIndex = 0;
  263.         HTRequest*      request = HTRequest_new();
  264.         HTChunk*        result = NULL;
  265.         char            ranges[64];
  266.         // First copy over what is left in fBuffer, before reading another
  267.         // chunk out of the stream.
  268.         if (bytesForCopy != 0)
  269.         {
  270.             memcpy((void*) toFill, (void*) (fBuffer + fBufferSize), bytesForCopy);
  271.             fBufferSize = 0;
  272.             fBufferIndex = 0;
  273.             fBytesProcessed += bytesForCopy;
  274.             bufToFillIndex = bytesForCopy;
  275.             retval = bytesForCopy;
  276.         }
  277.         unsigned int    bytesRemainingForCopy = bytesAsked - bytesForCopy;
  278.         // Now read a new chunk from the stream. HTTP lets you specify the
  279.         // range of bytes that you would like.
  280.         sprintf(ranges, "%ld-%ld", fBytesProcessed,
  281.                 MIN(fBytesProcessed + URLISBUFMAXSIZE - 1,  fRemoteFileSize - 1));
  282.         HTRequest_addRange(request, "bytes", ranges);
  283.         HTRequest_setOutputFormat(request, WWW_SOURCE);
  284.         result = HTLoadAnchorToChunk(fAnchor, request);
  285.         fBufferSize = HTChunk_size(result);
  286.         if (fBufferSize > 0)
  287.         {
  288.             // Store the read chunk in fBuffer.
  289.             memset((void*) fBuffer, 0x00, URLISBUFMAXSIZE);
  290.             memcpy((void*) fBuffer, (void*) HTChunk_data(result), fBufferSize);
  291.             fBufferIndex = 0;
  292.         }
  293.         HTRequest_delete(request);
  294.         HTChunk_delete(result);
  295.         // Now fill the destination buffer with the new data just read.
  296.         bytesForCopy = fBufferSize;
  297.         if (bytesRemainingForCopy > fBufferSize)
  298.         {
  299.             bytesRemainingForCopy = fBufferSize;
  300.         }
  301.         memcpy((void*) (toFill + bufToFillIndex),
  302.                (void*) fBuffer,
  303.                bytesRemainingForCopy);
  304.         // Update counters.
  305.         retval += bytesRemainingForCopy;
  306.         fBufferIndex += bytesRemainingForCopy;
  307.         fBytesProcessed += bytesRemainingForCopy;
  308.     }
  309.     return retval;
  310. }
  311. XERCES_CPP_NAMESPACE_END