BinURLInputStream.cpp
上传用户:huihehuasu
上传日期:2007-01-10
资源大小:6948k
文件大小:12k
源码类别:

xml/soap/webservice

开发平台:

C/C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  * 
  4.  * Copyright (c) 1999-2000 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  * 
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  * 
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer. 
  13.  * 
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  * 
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:  
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  * 
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written 
  29.  *    permission, please contact apache@apache.org.
  30.  * 
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  * 
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  * 
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 1999, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. /**
  57.  * $Log: BinURLInputStream.cpp,v $
  58.  * Revision 1.6  2001/11/28 19:14:59  knoaman
  59.  * Bug 2238: fix by Artur Klauser
  60.  * Some broken proxy servers (e.g. the one behind which I happen to reside,
  61.  * which apparently is Server: Microsoft-IIS/5.0)
  62.  * implement wrong boundary conditions for range requests. In particular,
  63.  * (1) request ranges straddling the content length of the document
  64.  *     give bogus header information
  65.  *       Content-Range: bytes X-Y/Z
  66.  *     where Y > Z, and give 0 bytes of actual message content.
  67.  * (2) request ranges beyond the content length of the document do not
  68.  *     give an error response as asked for in RFC2616 (http/1.1)
  69.  *
  70.  * Since the NetAccessor code was just trying to fall off the end of the
  71.  * document with the last range request (ie. hitting case 1 above), it
  72.  * never gets the last chunk of data from this proxy server.
  73.  *
  74.  * Revision 1.5  2001/11/28 19:11:33  knoaman
  75.  * Bug 2237: fix by Artur Klauser
  76.  *
  77.  * Revision 1.4  2001/03/02 14:39:21  tng
  78.  * Enabling libWWW NetAccessor support under UNIX. Tested with latest tarball of libWWW
  79.  * (w3c-libwww-5.3.2) under RedHat Linux 6.1.  Added by Martin Kalen.
  80.  *
  81.  * There is one MAJOR problem with the use of libwww and the patches
  82.  * below, which someone with knowledge of libwww filters etc. might want
  83.  * to look into. Default behavior for content-type text/xml is to consume
  84.  * all xml data before it reaches the simple HTML presenter. Hence, only
  85.  * files with content-type text/html will actually reach the xerces-c
  86.  * library. If you have a *.xml file on the webbserver, processing of the
  87.  * file will throw an exception stating "The main XML document cannot be
  88.  * empty" (correct in a xerces point of view since if you enable debug
  89.  * build you will see that libwww "eats" all text/xml).
  90.  *
  91.  * See "Diffs for enabling libWWW NetAccessor support under UNIX" posted in March 1, 2001
  92.  * in the xerces-c-dev mailing list for further information.
  93.  *
  94.  * Revision 1.3  2000/05/15 22:31:31  andyh
  95.  * Replace #include<memory.h> with <string.h> everywhere.
  96.  *
  97.  * Revision 1.2  2000/02/26 07:56:36  rahulj
  98.  * Fixed the license header as pointed out by Bill Schindler <developer@bitranch.com>
  99.  *
  100.  * Revision 1.1  2000/02/17 22:06:19  rahulj
  101.  * Moved the four LibWWW files to its own sub-directory in the
  102.  * NetAccessor directory.
  103.  *
  104.  *
  105.  * Revision 1.1  2000/01/15 01:08:04  rahulj
  106.  * Added support for HTTP to the parser.
  107.  * Error handling is not very good. Also cannot guarantee that
  108.  * there are no memory leaks.
  109.  * Only tested under NT 4.0 SP 5 using libWWW 5.2.8.
  110.  *
  111.  */
  112. #include <util/XMLNetAccessor.hpp>
  113. #include <util/NetAccessors/libWWW/BinURLInputStream.hpp>
  114. #include <util/XMLString.hpp>
  115. #include <util/XMLExceptMsgs.hpp>
  116. #include <strings.h>
  117. #include <WWWInit.h>
  118. //
  119. // This define specifies the size of the buffer used to read chunks
  120. // out of the URL input stream.
  121. //
  122. #define URLISBUFMAXSIZE        8192
  123. //
  124. // We assume here that the URL is essentially composed of just ASCII characters
  125. // and hence converting it to a 'char *' requires just to drop the leading zero
  126. // byte. The reason, we can get away with this is that libWWW currently provides
  127. // no wide character API's.
  128. //
  129. // The input Unicode string is assumed to be 0 terminated.
  130. // The caller is responsible to free the memory allocated to store the resultant
  131. // 'char *' string.
  132. //
  133. static char* localTranscode(const XMLCh* latinStrInUnicode)
  134. {
  135.     unsigned int   lent = XMLString::stringLen(latinStrInUnicode);
  136.     char*  retval = new char[lent + 1];
  137.     unsigned int  i = 0;
  138.     for (i = 0; i < lent; i++)
  139.         retval[i] = (char) latinStrInUnicode[i]; // drop the leading byte.
  140.     retval[lent] = 0;
  141.     return retval;
  142. }
  143. BinURLInputStream::BinURLInputStream(const XMLURL& urlSource)
  144.       : fBuffer(0)
  145.       , fBufferSize(0)
  146.       , fBufferIndex(0)
  147.       , fRemoteFileSize(0)
  148.       , fAnchor(0)
  149.       , fBytesProcessed(0)
  150. {
  151.     fBuffer = new XMLByte[URLISBUFMAXSIZE];
  152.     const XMLCh*  uri = urlSource.getURLText();
  153.     char*   uriAsCharStar = localTranscode(uri);
  154.     //
  155.     // First find the size of the remote resource being asked for.
  156.     // We use the ContentCounter stream provided by libWWW.
  157.     //
  158.     fAnchor = HTAnchor_findAddress(uriAsCharStar);
  159.     HTRequest*   request = HTRequest_new();
  160.     HTRequest_setOutputFormat(request, WWW_SOURCE);
  161.     HTStream*    counterStrm = HTContentCounter(HTBlackHole(), request, 0xFFFF);
  162.     BOOL  status = HTLoadToStream(uriAsCharStar, counterStrm, request);
  163.     if (status == YES)
  164.     {
  165.         // Patch by Artur Klauser
  166.         // When a redirection is processed in libWWW, it seems that
  167.         // HTAnchor_length(anchor) == -1 on the original anchor, whereas
  168.         // HTResponse_length(response) gives the correct content length of
  169.         // the redirection target. This has confusedfRemoteFileSize and it was
  170.         // not checked for a -1 response at all.
  171.         HTResponse * response = HTRequest_response (request);
  172.         fRemoteFileSize = HTResponse_length(response);
  173.         if (fRemoteFileSize < 0) {
  174.             ThrowXML1(NetAccessorException, XMLExcepts::NetAcc_InternalError,
  175.                 "Cannot determine length of remote file.");
  176.         }
  177.     }
  178.     // Cleanup, before you throw any errors.
  179.     delete [] uriAsCharStar;
  180.     HTRequest_delete(request);
  181.     // Don't know whether I am supposed to delete counterStrm.
  182.     
  183.     if (status == NO)
  184.     {
  185.         ThrowXML1(NetAccessorException, XMLExcepts::NetAcc_InternalError,
  186.             "Cannot determine length of remote file.");
  187.     }
  188. }
  189. BinURLInputStream::~BinURLInputStream()
  190. {
  191.     delete [] fBuffer;
  192.     fBuffer = 0;
  193.     // Do not delete the fAnchor. Its deleted when the destructor of
  194.     // libWWWNetAccessor is called.
  195. }
  196. void BinURLInputStream::reset()
  197. {
  198.     fBufferSize = 0;
  199.     fBytesProcessed = 0;
  200.     fBufferIndex = 0;
  201.     memset((void*) fBuffer, 0x00, sizeof(XMLByte) * URLISBUFMAXSIZE);
  202. }
  203. unsigned int BinURLInputStream::curPos() const
  204. {
  205.     return fBytesProcessed;
  206. }
  207. unsigned int BinURLInputStream::bytesAvail() const
  208. {
  209.     unsigned int  retval = fBufferSize - fBufferIndex;
  210.     return retval;
  211. }
  212. unsigned int BinURLInputStream::readBytes(XMLByte* const  toFill
  213.                                   , const unsigned int    maxToRead)
  214. {
  215.     unsigned int  retval = 0;
  216.     unsigned int  bytesAsked = maxToRead;
  217.     unsigned int  bytesForCopy = 0;
  218.     // Wipe out the old stuff from the destination buffer to fill.
  219.     memset((void*)toFill, 0x00, sizeof(XMLByte) * maxToRead);
  220.     
  221.     // You can only read till the end of the remote resource file.
  222.     // So, adjust the count of bytes you want to read now.
  223.     if (fBytesProcessed + bytesAsked >= fRemoteFileSize)
  224.     {
  225.         bytesAsked = fRemoteFileSize - fBytesProcessed;
  226.     }
  227.     if (fBufferSize > 0)
  228.         bytesForCopy = fBufferSize - fBufferIndex;
  229.     if (bytesAsked <= bytesForCopy)
  230.     {
  231.         // ...then you can satisfy this request completely from fBuffer.
  232.         // Simply copy over the bytes to the destination array.
  233.         memcpy((void*) toFill, (void*) (fBuffer + fBufferIndex), bytesAsked);
  234.         fBufferIndex += bytesAsked;
  235.         if (fBufferIndex >= fBufferSize)
  236.         {
  237.             fBufferSize = 0;
  238.             fBufferIndex = 0;
  239.         }
  240.         fBytesProcessed += bytesAsked;
  241.         retval = bytesAsked;
  242.     }
  243.     else
  244.     {
  245.         // ...will need to read some more bytes out of the stream.
  246.         unsigned int    bufToFillIndex = 0;
  247.         HTRequest*      request = HTRequest_new();
  248.         HTChunk*        result = NULL;
  249.         char            ranges[64];
  250.         // First copy over what is left in fBuffer, before reading another
  251.         // chunk out of the stream.
  252.         if (bytesForCopy != 0)
  253.         {
  254.             memcpy((void*) toFill, (void*) (fBuffer + fBufferSize), bytesForCopy);
  255.             fBufferSize = 0;
  256.             fBufferIndex = 0;
  257.             fBytesProcessed += bytesForCopy;
  258.             bufToFillIndex = bytesForCopy;
  259.             retval = bytesForCopy;
  260.         }
  261.         unsigned int    bytesRemainingForCopy = bytesAsked - bytesForCopy;
  262.         // Now read a new chunk from the stream. HTTP lets you specify the
  263.         // range of bytes that you would like.
  264.         sprintf(ranges, "%ld-%ld", fBytesProcessed,
  265.                 MIN(fBytesProcessed + URLISBUFMAXSIZE - 1,  fRemoteFileSize - 1));
  266.         HTRequest_addRange(request, "bytes", ranges);
  267.         HTRequest_setOutputFormat(request, WWW_SOURCE);
  268.         result = HTLoadAnchorToChunk(fAnchor, request);
  269.         fBufferSize = HTChunk_size(result);
  270.         if (fBufferSize > 0)
  271.         {
  272.             // Store the read chunk in fBuffer.
  273.             memset((void*) fBuffer, 0x00, URLISBUFMAXSIZE);
  274.             memcpy((void*) fBuffer, (void*) HTChunk_data(result), fBufferSize);
  275.             fBufferIndex = 0;
  276.         }
  277.         HTRequest_delete(request);
  278.         HTChunk_delete(result);
  279.         // Now fill the destination buffer with the new data just read.
  280.         bytesForCopy = fBufferSize;
  281.         if (bytesRemainingForCopy > fBufferSize)
  282.         {
  283.             bytesRemainingForCopy = fBufferSize;
  284.         }
  285.         memcpy((void*) (toFill + bufToFillIndex),
  286.                (void*) fBuffer,
  287.                bytesRemainingForCopy);
  288.         // Update counters.
  289.         retval += bytesRemainingForCopy;
  290.         fBufferIndex += bytesRemainingForCopy;
  291.         fBytesProcessed += bytesRemainingForCopy;
  292.     }
  293.     return retval;
  294. }