UnixHTTPURLInputStream.cpp
上传用户:zhuqijet
上传日期:2013-06-25
资源大小:10074k
文件大小:15k
源码类别:

词法分析

开发平台:

Visual C++

  1. /*
  2.  * The Apache Software License, Version 1.1
  3.  *
  4.  * Copyright (c) 1999-2001 The Apache Software Foundation.  All rights
  5.  * reserved.
  6.  *
  7.  * Redistribution and use in source and binary forms, with or without
  8.  * modification, are permitted provided that the following conditions
  9.  * are met:
  10.  *
  11.  * 1. Redistributions of source code must retain the above copyright
  12.  *    notice, this list of conditions and the following disclaimer.
  13.  *
  14.  * 2. Redistributions in binary form must reproduce the above copyright
  15.  *    notice, this list of conditions and the following disclaimer in
  16.  *    the documentation and/or other materials provided with the
  17.  *    distribution.
  18.  *
  19.  * 3. The end-user documentation included with the redistribution,
  20.  *    if any, must include the following acknowledgment:
  21.  *       "This product includes software developed by the
  22.  *        Apache Software Foundation (http://www.apache.org/)."
  23.  *    Alternately, this acknowledgment may appear in the software itself,
  24.  *    if and wherever such third-party acknowledgments normally appear.
  25.  *
  26.  * 4. The names "Xerces" and "Apache Software Foundation" must
  27.  *    not be used to endorse or promote products derived from this
  28.  *    software without prior written permission. For written
  29.  *    permission, please contact apache@apache.org.
  30.  *
  31.  * 5. Products derived from this software may not be called "Apache",
  32.  *    nor may "Apache" appear in their name, without prior written
  33.  *    permission of the Apache Software Foundation.
  34.  *
  35.  * THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESSED OR IMPLIED
  36.  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
  37.  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  38.  * DISCLAIMED.  IN NO EVENT SHALL THE APACHE SOFTWARE FOUNDATION OR
  39.  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
  40.  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
  41.  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
  42.  * USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  43.  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  44.  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
  45.  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  46.  * SUCH DAMAGE.
  47.  * ====================================================================
  48.  *
  49.  * This software consists of voluntary contributions made by many
  50.  * individuals on behalf of the Apache Software Foundation, and was
  51.  * originally based on software copyright (c) 1999, International
  52.  * Business Machines, Inc., http://www.ibm.com .  For more information
  53.  * on the Apache Software Foundation, please see
  54.  * <http://www.apache.org/>.
  55.  */
  56. /*
  57.  * $Log: UnixHTTPURLInputStream.cpp,v $
  58.  * Revision 1.12  2003/05/17 05:54:18  knoaman
  59.  * Update NetAccessors to use the memory manager.
  60.  *
  61.  * Revision 1.11  2003/05/16 14:03:28  knoaman
  62.  * Pass memory manager to makeNewTranscoder.
  63.  *
  64.  * Revision 1.10  2003/02/25 21:22:36  tng
  65.  * Modify UnixHTTPURLInputStream for it to work on ebcdic platform.  Patch from Steve Dulin
  66.  *
  67.  * Revision 1.9  2002/12/09 13:12:12  tng
  68.  * Fix compilation error.
  69.  *
  70.  * Revision 1.8  2002/12/09 09:57:27  gareth
  71.  * Fixed compile error by adding private member. Not very efficient. Should be looked at again.
  72.  *
  73.  * Revision 1.7  2002/12/06 16:43:33  tng
  74.  * Fix the error messages thrown from net accessor module.
  75.  *
  76.  * Revision 1.6  2002/12/02 20:41:17  tng
  77.  * [Bug 12490] Patches required to build Xerces-C++ on BeOS R5.  Patch from Andrew Bachmann.
  78.  *
  79.  * Revision 1.5  2002/11/04 15:11:38  tng
  80.  * C++ Namespace Support.
  81.  *
  82.  * Revision 1.4  2002/05/29 14:30:50  peiyongz
  83.  * Bug9489: Malformed HTTP GET Requests in UnixHTTPUrlInputStream ,
  84.  *                 patch from Gereon Steffens (gereon.steffens@web.de)
  85.  *
  86.  * Revision 1.3  2002/05/07 14:36:44  tng
  87.  * [Bug 8852] UnixHTTPURLInputStream.cpp includes unneeded file.
  88.  *
  89.  * Revision 1.2  2002/03/11 21:08:23  peiyongz
  90.  * Bug#7000: fix to corrupted URL, patch from kent@iastate.edu (Kent)
  91.  *
  92.  * Revision 1.1.1.1  2002/02/01 22:22:23  peiyongz
  93.  * sane_include
  94.  *
  95.  * Revision 1.7  2001/09/04 17:53:09  peiyongz
  96.  * Bugzilla# 3170: patch from Kevin Philips to handle Query in XMLURL.
  97.  *
  98.  * Revision 1.6  2001/06/25 16:27:04  tng
  99.  * AS400 changes by Linda Swan.
  100.  *
  101.  * Revision 1.5  2000/07/21 03:31:41  andyh
  102.  * Improved (but still weak) http access by the parser.
  103.  *
  104.  * Revision 1.4  2000/05/15 22:31:28  andyh
  105.  * Replace #include<memory.h> with <string.h> everywhere.
  106.  *
  107.  * Revision 1.3  2000/03/24 01:30:32  rahulj
  108.  * Connect to the port specified in the URL, rather than the default
  109.  * one.
  110.  *
  111.  * Revision 1.2  2000/03/22 00:58:11  rahulj
  112.  * Now we throw exceptions when errors occur.
  113.  * Simplified code based on assumption that calling
  114.  * function will allocate enough storage to store the
  115.  * incoming data.
  116.  *
  117.  * Revision 1.1  2000/03/20 23:48:51  rahulj
  118.  * Added Socket based NetAccessor. This will enable one to
  119.  * use HTTP URL's for system id's. Default build options do
  120.  * not use this NetAccessor. Specify the '-n socket' option
  121.  * to 'runConfigure' to configure Xerces-C to use this new
  122.  * feature. The code works under Solaris 2.6, Linux, AIX
  123.  * and HPUX 11 with aCC.
  124.  * Todo's: enable proper error handling.
  125.  *
  126.  */
  127. #include <stdio.h>
  128. #include <stdlib.h>
  129. #include <string.h>
  130. #include <unistd.h>
  131. #include <sys/types.h>
  132. #include <sys/socket.h>
  133. #if !defined(XML_BEOS)
  134.   #include <netinet/in.h>
  135.   #include <arpa/inet.h>
  136. #endif
  137. #include <netdb.h>
  138. #include <errno.h>
  139. #include <xercesc/util/XMLNetAccessor.hpp>
  140. #include <xercesc/util/NetAccessors/Socket/UnixHTTPURLInputStream.hpp>
  141. #include <xercesc/util/XMLString.hpp>
  142. #include <xercesc/util/XMLExceptMsgs.hpp>
  143. #include <xercesc/util/Janitor.hpp>
  144. #include <xercesc/util/XMLUniDefs.hpp>
  145. #include <xercesc/util/TransService.hpp>
  146. #include <xercesc/util/TranscodingException.hpp>
  147. #include <xercesc/util/PlatformUtils.hpp>
  148. XERCES_CPP_NAMESPACE_BEGIN
  149. UnixHTTPURLInputStream::UnixHTTPURLInputStream(const XMLURL& urlSource)
  150.       : fSocket(0)
  151.       , fBytesProcessed(0)
  152. {
  153.     //
  154.     //  Constants in ASCII to send/check in the HTTP request/response
  155.     //
  156.     const char GET[] =
  157.     {
  158.         chLatin_G, chLatin_E, chLatin_T, chSpace, chNull
  159.     };
  160.     const char HTTP[] =
  161.     {
  162.         chLatin_H, chLatin_T, chLatin_T, chLatin_P, chNull
  163.     };
  164.     const char HTTP10[] =
  165.     {
  166.         chSpace, chLatin_H, chLatin_T, chLatin_T, chLatin_P, chForwardSlash, chDigit_1, chPeriod, chDigit_0, chCR, chLF, chNull
  167.     };
  168.     const char CRLF2X[] =
  169.     {
  170.         chCR, chLF, chCR, chLF, chNull
  171.     };
  172.     const char LF2X[] =
  173.     {
  174.         chLF, chLF, chNull
  175.     };
  176.     const char HOST[] =
  177.     {
  178.         chLatin_H, chLatin_o, chLatin_s, chLatin_t, chColon, chSpace, chNull
  179.     };
  180.     const char COLON[] =
  181.     {
  182.         chColon, chNull
  183.     };
  184.     const char resp200 [] =
  185.     {
  186.         chSpace, chDigit_2, chDigit_0, chDigit_0, chSpace, chNull
  187.     };
  188.     unsigned int charsEaten;
  189.     unsigned int transSize;
  190.     XMLTransService::Codes failReason;
  191.     const unsigned int blockSize = 2048;
  192.     const unsigned int bufSize = 5;
  193.     static XMLCh portBuffer[bufSize+1];
  194.     //
  195.     // Pull all of the parts of the URL out of the urlSource object
  196.     //
  197.     const XMLCh*        hostName = urlSource.getHost();
  198.     const XMLCh*        path = urlSource.getPath();
  199.     const XMLCh*        fragment = urlSource.getFragment();
  200.     const XMLCh*        query = urlSource.getQuery();
  201.     MemoryManager*      manager = urlSource.getMemoryManager();
  202.     //
  203.     //  Convert the hostName to the platform's code page for gethostbyname and
  204.     //  inet_addr functions.
  205.     //
  206.     char*               hostNameAsCharStar = XMLString::transcode(hostName, manager);
  207.     ArrayJanitor<char>  janBuf1(hostNameAsCharStar, manager);
  208.     //
  209.     //  Convert all the parts of the urlSource object to ASCII so they can be
  210.     //  sent to the remote host in that format
  211.     //
  212.     transSize = XMLString::stringLen(hostName)+1;
  213.     char*               hostNameAsASCII = (char*) manager->allocate
  214.     (
  215.         (transSize+1) * sizeof(char)
  216.     );//new char[transSize+1];
  217.     ArrayJanitor<char>  janBuf2(hostNameAsASCII, manager);
  218.     XMLTranscoder* trans = XMLPlatformUtils::fgTransService->makeNewTranscoderFor("ISO8859-1", failReason, blockSize, manager);
  219.     trans->transcodeTo(hostName, transSize, (unsigned char *) hostNameAsASCII, transSize, charsEaten, XMLTranscoder::UnRep_Throw);
  220.     transSize = XMLString::stringLen(path)+1;
  221.     char*               pathAsASCII = (char*) manager->allocate
  222.     (
  223.         (transSize+1) * sizeof(char)
  224.     );//new char[transSize+1];
  225.     ArrayJanitor<char>     janBuf3(pathAsASCII, manager);
  226.     trans->transcodeTo(path, transSize, (unsigned char *) pathAsASCII, transSize, charsEaten, XMLTranscoder::UnRep_Throw);
  227.     char*               fragmentAsASCII = 0;
  228.     if (fragment)
  229.     {
  230.         transSize = XMLString::stringLen(fragment)+1;
  231.         fragmentAsASCII = (char*) manager->allocate
  232.         (
  233.             (transSize+1) * sizeof(char)
  234.         );//new char[transSize+1];
  235.         ArrayJanitor<char>  janBuf4(fragmentAsASCII, manager);
  236.         trans->transcodeTo(fragment, transSize, (unsigned char *) fragmentAsASCII, transSize, charsEaten, XMLTranscoder::UnRep_Throw);
  237.     }
  238.     char*               queryAsASCII = 0;
  239.     ArrayJanitor<char>  janBuf5(queryAsASCII, manager);
  240.     if (query)
  241.     {
  242.         transSize = XMLString::stringLen(query)+1;
  243.         queryAsASCII = (char*) manager->allocate
  244.         (
  245.             (transSize+1) * sizeof(char)
  246.         );//new char[transSize+1];
  247.         trans->transcodeTo(query, transSize, (unsigned char *) queryAsASCII, transSize, charsEaten, XMLTranscoder::UnRep_Throw);
  248.     }
  249.     unsigned short      portNumber = (unsigned short) urlSource.getPortNum();
  250.     //
  251.     //  Convert port number integer to unicode so we can transcode it to ASCII
  252.     //
  253.     XMLString::binToText((unsigned int) portNumber, portBuffer, bufSize, 10);
  254.     transSize = XMLString::stringLen(portBuffer)+1;
  255.     char*               portAsASCII = (char*) manager->allocate
  256.     (
  257.         (transSize+1) * sizeof(char)
  258.     );//new char[transSize+1];
  259.     trans->transcodeTo(portBuffer, transSize, (unsigned char *) portAsASCII, transSize, charsEaten, XMLTranscoder::UnRep_Throw);
  260.     delete trans;
  261.     //
  262.     // Set up a socket.
  263.     //
  264.     struct hostent*     hostEntPtr = 0;
  265.     struct sockaddr_in  sa;
  266.     // Use the hostName in the local code page ....
  267.     if ((hostEntPtr = gethostbyname(hostNameAsCharStar)) == NULL)
  268.     {
  269.         unsigned long  numAddress = inet_addr(hostNameAsCharStar);
  270.         if (numAddress < 0)
  271.         {
  272.             ThrowXML1(NetAccessorException,
  273.                      XMLExcepts::NetAcc_TargetResolution, hostName);
  274.         }
  275.         if ((hostEntPtr =
  276.                 gethostbyaddr((char *) &numAddress,
  277.                               sizeof(unsigned long), AF_INET)) == NULL)
  278.         {
  279.             ThrowXML1(NetAccessorException,
  280.                      XMLExcepts::NetAcc_TargetResolution, hostName);
  281.         }
  282.     }
  283.     memset(&sa, '', sizeof(sockaddr_in));  // iSeries fix ??
  284.     memcpy((void *) &sa.sin_addr,
  285.            (const void *) hostEntPtr->h_addr, hostEntPtr->h_length);
  286.     sa.sin_family = hostEntPtr->h_addrtype;
  287.     sa.sin_port = htons(portNumber);
  288.     int s = socket(hostEntPtr->h_addrtype, SOCK_STREAM, 0);
  289.     if (s < 0)
  290.     {
  291.         ThrowXML1(NetAccessorException,
  292.                  XMLExcepts::NetAcc_CreateSocket, urlSource.getURLText());
  293.     }
  294.     if (connect(s, (struct sockaddr *) &sa, sizeof(sa)) < 0)
  295.     {
  296.         ThrowXML1(NetAccessorException,
  297.                  XMLExcepts::NetAcc_ConnSocket, urlSource.getURLText());
  298.     }
  299.     // The port is open and ready to go.
  300.     // Build up the http GET command to send to the server.
  301.     // To do:  We should really support http 1.1.  This implementation
  302.     //         is weak.
  303.     strcpy(fBuffer, GET);
  304.     strcat(fBuffer, pathAsASCII);
  305.     if (queryAsASCII != 0)
  306.     {
  307.         size_t n = strlen(fBuffer);
  308.         fBuffer[n] = chQuestion;
  309.         fBuffer[n+1] = chNull;
  310.         strcat(fBuffer, queryAsASCII);
  311.     }
  312.     if (fragmentAsASCII != 0)
  313.     {
  314.         strcat(fBuffer, fragmentAsASCII);
  315.     }
  316.     strcat(fBuffer, HTTP10);
  317.     strcat(fBuffer, HOST);
  318.     strcat(fBuffer, hostNameAsASCII);
  319.     if (portNumber != 80)
  320.     {
  321.         strcat(fBuffer,COLON);
  322.         strcat(fBuffer,portAsASCII);
  323.     }
  324.     strcat(fBuffer, CRLF2X);
  325.     // Send the http request
  326.     int lent = strlen(fBuffer);
  327.     int  aLent = 0;
  328.     if ((aLent = write(s, (void *) fBuffer, lent)) != lent)
  329.     {
  330.         ThrowXML1(NetAccessorException,
  331.                  XMLExcepts::NetAcc_WriteSocket, urlSource.getURLText());
  332.     }
  333.     //
  334.     // get the response, check the http header for errors from the server.
  335.     //
  336.     aLent = read(s, (void *)fBuffer, sizeof(fBuffer)-1);
  337.     if (aLent <= 0)
  338.     {
  339.         ThrowXML1(NetAccessorException, XMLExcepts::NetAcc_ReadSocket, urlSource.getURLText());
  340.     }
  341.     fBufferEnd = fBuffer+aLent;
  342.     *fBufferEnd = 0;
  343.     // Find the break between the returned http header and any data.
  344.     //  (Delimited by a blank line)
  345.     // Hang on to any data for use by the first read from this BinHTTPURLInputStream.
  346.     //
  347.     fBufferPos = strstr(fBuffer, CRLF2X);
  348.     if (fBufferPos != 0)
  349.     {
  350.         fBufferPos += 4;
  351.         *(fBufferPos-2) = 0;
  352.     }
  353.     else
  354.     {
  355.         fBufferPos = strstr(fBuffer, LF2X);
  356.         if (fBufferPos != 0)
  357.         {
  358.             fBufferPos += 2;
  359.             *(fBufferPos-1) = 0;
  360.         }
  361.         else
  362.             fBufferPos = fBufferEnd;
  363.     }
  364.     // Make sure the header includes an HTTP 200 OK response.
  365.     //
  366.     char *p = strstr(fBuffer, HTTP);
  367.     if (p == 0)
  368.     {
  369.         ThrowXML1(NetAccessorException, XMLExcepts::NetAcc_ReadSocket, urlSource.getURLText());
  370.     }
  371.     p = strchr(p, chSpace);
  372.     if (p == 0)
  373.     {
  374.         ThrowXML1(NetAccessorException, XMLExcepts::NetAcc_ReadSocket, urlSource.getURLText());
  375.     }
  376.   
  377.     if (memcmp(p, resp200, strlen(resp200)))
  378.     {
  379.         // Most likely a 404 Not Found error.
  380.         //   Should recognize and handle the forwarding responses.
  381.         //
  382.         ThrowXML1(NetAccessorException, XMLExcepts::File_CouldNotOpenFile, urlSource.getURLText());
  383.     }
  384.     fSocket = s;
  385. }
  386. UnixHTTPURLInputStream::~UnixHTTPURLInputStream()
  387. {
  388.     shutdown(fSocket, 2);
  389.     close(fSocket);
  390. }
  391. unsigned int UnixHTTPURLInputStream::readBytes(XMLByte* const    toFill
  392.                                       , const unsigned int    maxToRead)
  393. {
  394.     unsigned int len = fBufferEnd - fBufferPos;
  395.     if (len > 0)
  396.     {
  397.         // If there's any data left over in the buffer into which we first
  398.         //   read from the server (to get the http header), return that.
  399.         if (len > maxToRead)
  400.             len = maxToRead;
  401.         memcpy(toFill, fBufferPos, len);
  402.         fBufferPos += len;
  403.     }
  404.     else
  405.     {
  406.         // There was no data in the local buffer.
  407.         // Read some from the socket, straight into our caller's buffer.
  408.         //
  409.         len = read(fSocket, (void *) toFill, maxToRead);
  410.         if (len == -1)
  411.         {
  412.             ThrowXML(NetAccessorException, XMLExcepts::NetAcc_ReadSocket);
  413.         }
  414.     }
  415.     fBytesProcessed += len;
  416.     return len;
  417. }
  418. XERCES_CPP_NAMESPACE_END