gbloader.hpp
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:14k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: gbloader.hpp,v $
  4.  * PRODUCTION Revision 1000.0  2004/04/12 17:37:42  gouriano
  5.  * PRODUCTION PRODUCTION: IMPORTED [CATCHUP_003] Dev-tree R1.48
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. #ifndef GBLOADER__HPP_INCLUDED
  10. #define GBLOADER__HPP_INCLUDED
  11. /*  $Id: gbloader.hpp,v 1000.0 2004/04/12 17:37:42 gouriano Exp $
  12. * ===========================================================================
  13. *
  14. *                            PUBLIC DOMAIN NOTICE
  15. *               National Center for Biotechnology Information
  16. *
  17. *  This software/database is a "United States Government Work" under the
  18. *  terms of the United States Copyright Act.  It was written as part of
  19. *  the author's official duties as a United States Government employee and
  20. *  thus cannot be copyrighted.  This software/database is freely available
  21. *  to the public for use. The National Library of Medicine and the U.S.
  22. *  Government have not placed any restriction on its use or reproduction.
  23. *
  24. *  Although all reasonable efforts have been taken to ensure the accuracy
  25. *  and reliability of the software and data, the NLM and the U.S.
  26. *  Government do not and cannot warrant the performance or results that
  27. *  may be obtained by using this software or data. The NLM and the U.S.
  28. *  Government disclaim all warranties, express or implied, including
  29. *  warranties of performance, merchantability or fitness for any particular
  30. *  purpose.
  31. *
  32. *  Please cite the author in any work or product based on this material.
  33. *
  34. *  ===========================================================================
  35. *
  36. *  Author: Aleksey Grichenko, Michael Kimelman, Eugene Vasilchenko,
  37. *          Anton Butanayev
  38. *
  39. *  File Description:
  40. *   Data loader base class for object manager
  41. *
  42. * ===========================================================================
  43. */
  44. #include <corelib/ncbistd.hpp>
  45. #include <corelib/ncbimtx.hpp>
  46. #include <corelib/plugin_manager.hpp>
  47. #if !defined(NDEBUG) && defined(DEBUG_SYNC)
  48. // for GBLOG_POST()
  49. # include <corelib/ncbithr.hpp>
  50. #endif
  51. #include <map>
  52. #include <bitset>
  53. #include <time.h>
  54. #if defined(NCBI_OS_MAC)
  55. #   include <types.h>
  56. #else
  57. #   include <sys/types.h>
  58. #endif
  59. #include <objmgr/data_loader.hpp>
  60. #include <objtools/data_loaders/genbank/seqref.hpp>
  61. #include <objtools/data_loaders/genbank/gbload_util.hpp>
  62. BEGIN_NCBI_SCOPE
  63. BEGIN_SCOPE(objects)
  64. class CReader;
  65. class CSeqref;
  66. class CHandleRange;
  67. class CSeq_entry;
  68. #if !defined(NDEBUG) && defined(DEBUG_SYNC)
  69. #  if defined(NCBI_THREADS)
  70. #    define GBLOG_POST(x) LOG_POST(setw(3) << CThread::GetSelf() << ":: " << x)
  71. #  else
  72. #    define GBLOG_POST(x) LOG_POST("0:: " << x)
  73. #  endif 
  74. #else
  75. #  ifdef DEBUG_SYNC
  76. #    undef DEBUG_SYNC
  77. #  endif
  78. #  define GBLOG_POST(x)
  79. #endif
  80.   
  81. /////////////////////////////////////////////////////////////////////////////////
  82. //
  83. // GBDataLoader
  84. //
  85. //========================================================================
  86. class CRefresher
  87. {
  88. public:
  89.     CRefresher(void)
  90.         : m_RefreshTime(0)
  91.         {
  92.         }
  93.     void Reset(CTimer &timer)
  94.         {
  95.             m_RefreshTime = timer.RetryTime();
  96.         }
  97.     void Reset(void)
  98.         {
  99.             m_RefreshTime = 0;
  100.         }
  101.     bool NeedRefresh(CTimer &timer) const
  102.         {
  103.             return timer.Time() > m_RefreshTime;
  104.         }
  105. private:
  106.     time_t m_RefreshTime;
  107. };
  108. struct NCBI_XLOADER_GENBANK_EXPORT SSeqrefs : public CObject
  109. {
  110.     typedef vector< CRef<CSeqref> > TSeqrefs;
  111.     SSeqrefs(const CSeq_id_Handle& h);
  112.     ~SSeqrefs(void);
  113.     CSeq_id_Handle  m_Handle;
  114.     TSeqrefs        m_Sr;
  115.     CRefresher      m_Timer;
  116. private:
  117.     SSeqrefs(const SSeqrefs&);
  118.     SSeqrefs operator=(const SSeqrefs&);
  119. };
  120. class NCBI_XLOADER_GENBANK_EXPORT CGBDataLoader : public CDataLoader
  121. {
  122. public:
  123.     // typedefs from CReader
  124.     typedef unsigned TConn;
  125.     typedef vector< CRef<CSeqref> > TSeqrefs;
  126.     typedef pair<int, int> TKeyByTSE;
  127.     typedef int TMask;
  128.     typedef CPluginManager<CReader>   TReader_PluginManager;
  129.     CGBDataLoader(const string& loader_name="GENBANK",
  130.                   CReader *driver=0,
  131.                   int gc_threshold=100);
  132.     CGBDataLoader(const string& loader_name/* ="GENBANK"*/,
  133.                   TReader_PluginManager *plugin_manager /*=0*/,
  134.                   EOwnership  take_plugin_manager /*= eNoOwnership */,
  135.                   int gc_threshold);
  136.     virtual ~CGBDataLoader(void);
  137.   
  138.     virtual void DropTSE(const CTSE_Info& tse_info);
  139.     virtual void GetRecords(const CSeq_id_Handle& idh, EChoice choice);
  140.     virtual void GetChunk(CTSE_Chunk_Info& chunk_info);
  141.     virtual CConstRef<CSeqref> GetSatSatkey(const CSeq_id_Handle& idh);
  142.     CConstRef<CSeqref> GetSatSatkey(const CSeq_id& id);
  143.   
  144.     virtual CConstRef<CTSE_Info> ResolveConflict(const CSeq_id_Handle& handle,
  145.                                                  const TTSE_LockSet& tse_set);
  146.   
  147.     virtual void GC(void);
  148.     virtual void DebugDump(CDebugDumpContext ddc, unsigned int depth) const;
  149.     const CSeqref& GetSeqref(const CTSE_Info& tse_info);
  150.   
  151. private:
  152.     struct STSEinfo : public CObject
  153.     {
  154.         typedef set<CSeq_id_Handle>  TSeqids;
  155.         enum { eDead, eConfidential, eLast };
  156.   
  157.         STSEinfo*         next;
  158.         STSEinfo*         prev;
  159.         bitset<eLast>     mode;
  160.         CRef<CSeqref>     seqref;
  161.         TKeyByTSE         key;
  162.         int               locked;
  163.         CTSE_Info        *tseinfop;
  164.   
  165.         TSeqids           m_SeqIds;
  166.         enum ELoadState {
  167.             eLoadStateNone,
  168.             eLoadStateDone,
  169.             eLoadStatePartial
  170.         };
  171.         ELoadState        m_LoadState;
  172.         STSEinfo();
  173.         STSEinfo(const STSEinfo&);
  174.         ~STSEinfo();
  175.     };
  176.     typedef map<TKeyByTSE, CRef<STSEinfo> >    TSr2TSEinfo;
  177.     typedef map<CSeq_id_Handle, CRef<SSeqrefs> >        TSeqId2Seqrefs;
  178.   
  179.     CRef<CReader>           m_Driver;
  180.     TReader_PluginManager*  m_ReaderPluginManager;
  181.     EOwnership              m_OwnReaderPluginManager;
  182.     TSr2TSEinfo     m_Sr2TseInfo;
  183.   
  184.     TSeqId2Seqrefs  m_Bs2Sr;
  185.   
  186.     CTimer          m_Timer;
  187.   
  188.     CGBLGuard::SLeveledMutex m_Locks;
  189.   
  190.     STSEinfo*       m_UseListHead;
  191.     STSEinfo*       m_UseListTail;
  192.     unsigned        m_TseCount;
  193.     unsigned        m_TseGC_Threshhold;
  194.     bool            m_InvokeGC;
  195.     void            x_DropTSEinfo(STSEinfo* tse);
  196.     void            x_UpdateDropList(STSEinfo* p);
  197.     void            x_ExcludeFromDropList(STSEinfo* p);
  198.     void            x_AppendToDropList(STSEinfo* p);
  199.   
  200.     //
  201.     // private code
  202.     //
  203.     void            x_GetRecords(const char* type_name,
  204.                                  const CSeq_id_Handle& idh,
  205.                                  TMask sr_mask);
  206.     void            x_GetRecords(const CSeq_id_Handle& key,
  207.                                  TMask sr_mask);
  208.     CRef<SSeqrefs>  x_ResolveHandle(const CSeq_id_Handle& h);
  209.     bool            x_NeedMoreData(const STSEinfo& tse);
  210.     void            x_GetData(CRef<STSEinfo> tse, TConn conn);
  211.     void            x_GetChunk(CRef<STSEinfo> tse, TConn conn,
  212.                                CTSE_Chunk_Info& chunk_info);
  213.     void            x_GetChunk(CRef<STSEinfo> tse,
  214.                                CTSE_Chunk_Info& chunk_info);
  215.     void            x_Check(const STSEinfo* me = 0);
  216.     void            x_CreateReaderPluginManager(void);
  217.     CReader*        x_CreateReader(const string& env);
  218.     void            x_CreateDriver(void);
  219.     CRef<STSEinfo> GetTSEinfo(const CTSE_Info& tse_info);
  220.     CGBDataLoader(const CGBDataLoader&);
  221.     CGBDataLoader& operator=(const CGBDataLoader&);
  222. };
  223. END_SCOPE(objects)
  224. END_NCBI_SCOPE
  225. #endif
  226. /* ---------------------------------------------------------------------------
  227.  *
  228.  * $Log: gbloader.hpp,v $
  229.  * Revision 1000.0  2004/04/12 17:37:42  gouriano
  230.  * PRODUCTION: IMPORTED [CATCHUP_003] Dev-tree R1.48
  231.  *
  232.  * Revision 1.48  2004/01/13 21:58:42  vasilche
  233.  * Requrrected new version
  234.  *
  235.  * Revision 1.5  2004/01/13 16:55:52  vasilche
  236.  * CReader, CSeqref and some more classes moved from xobjmgr to separate lib.
  237.  * Headers moved from include/objmgr to include/objtools/data_loaders/genbank.
  238.  *
  239.  * Revision 1.4  2003/12/30 22:14:39  vasilche
  240.  * Updated genbank loader and readers plugins.
  241.  *
  242.  * Revision 1.46  2003/12/30 19:51:24  vasilche
  243.  * Implemented CGBDataLoader::GetSatSatkey() method.
  244.  *
  245.  * Revision 1.45  2003/12/03 15:13:38  kuznets
  246.  * CReader management re-written to use plugin manager
  247.  *
  248.  * Revision 1.44  2003/11/26 20:56:21  vasilche
  249.  * Added declaration of private constructors for MSVC DLL.
  250.  *
  251.  * Revision 1.43  2003/11/26 17:55:53  vasilche
  252.  * Implemented ID2 split in ID1 cache.
  253.  * Fixed loading of splitted annotations.
  254.  *
  255.  * Revision 1.42  2003/10/27 15:05:41  vasilche
  256.  * Added correct recovery of cached ID1 loader if gi->sat/satkey cache is invalid.
  257.  * Added recognition of ID1 error codes: private, etc.
  258.  * Some formatting of old code.
  259.  *
  260.  * Revision 1.41  2003/10/07 13:43:22  vasilche
  261.  * Added proper handling of named Seq-annots.
  262.  * Added feature search from named Seq-annots.
  263.  * Added configurable adaptive annotation search (default: gene, cds, mrna).
  264.  * Fixed selection of blobs for loading from GenBank.
  265.  * Added debug checks to CSeq_id_Mapper for easier finding lost CSeq_id_Handles.
  266.  * Fixed leaked split chunks annotation stubs.
  267.  * Moved some classes definitions in separate *.cpp files.
  268.  *
  269.  * Revision 1.40  2003/09/30 16:21:59  vasilche
  270.  * Updated internal object manager classes to be able to load ID2 data.
  271.  * SNP blobs are loaded as ID2 split blobs - readers convert them automatically.
  272.  * Scope caches results of requests for data to data loaders.
  273.  * Optimized CSeq_id_Handle for gis.
  274.  * Optimized bioseq lookup in scope.
  275.  * Reduced object allocations in annotation iterators.
  276.  * CScope is allowed to be destroyed before other objects using this scope are
  277.  * deleted (feature iterators, bioseq handles etc).
  278.  * Optimized lookup for matching Seq-ids in CSeq_id_Mapper.
  279.  * Added 'adaptive' option to objmgr_demo application.
  280.  *
  281.  * Revision 1.39  2003/08/27 14:24:43  vasilche
  282.  * Simplified CCmpTSE class.
  283.  *
  284.  * Revision 1.38  2003/06/02 16:01:36  dicuccio
  285.  * Rearranged include/objects/ subtree.  This includes the following shifts:
  286.  *     - include/objects/alnmgr --> include/objtools/alnmgr
  287.  *     - include/objects/cddalignview --> include/objtools/cddalignview
  288.  *     - include/objects/flat --> include/objtools/flat
  289.  *     - include/objects/objmgr/ --> include/objmgr/
  290.  *     - include/objects/util/ --> include/objmgr/util/
  291.  *     - include/objects/validator --> include/objtools/validator
  292.  *
  293.  * Revision 1.37  2003/05/20 19:53:49  vasilche
  294.  * Added private assignment operator to make it compilable on MSVC with DLL.
  295.  *
  296.  * Revision 1.36  2003/05/20 16:18:42  vasilche
  297.  * Fixed compilation errors on GCC.
  298.  *
  299.  * Revision 1.35  2003/05/20 15:44:37  vasilche
  300.  * Fixed interaction of CDataSource and CDataLoader in multithreaded app.
  301.  * Fixed some warnings on WorkShop.
  302.  * Added workaround for memory leak on WorkShop.
  303.  *
  304.  * Revision 1.34  2003/05/13 20:14:40  vasilche
  305.  * Catching exceptions and reconnection were moved from readers to genbank loader.
  306.  *
  307.  * Revision 1.33  2003/05/13 18:32:10  vasilche
  308.  * Fixed GBLOG_POST() macro.
  309.  *
  310.  * Revision 1.32  2003/04/29 19:51:12  vasilche
  311.  * Fixed interaction of Data Loader garbage collector and TSE locking mechanism.
  312.  * Made some typedefs more consistent.
  313.  *
  314.  * Revision 1.31  2003/04/24 16:12:37  vasilche
  315.  * Object manager internal structures are splitted more straightforward.
  316.  * Removed excessive header dependencies.
  317.  *
  318.  * Revision 1.30  2003/04/15 14:24:07  vasilche
  319.  * Changed CReader interface to not to use fake streams.
  320.  *
  321.  * Revision 1.29  2003/03/03 20:34:51  vasilche
  322.  * Added NCBI_THREADS macro - it's opposite to NCBI_NO_THREADS.
  323.  * Avoid using _REENTRANT macro - use NCBI_THREADS instead.
  324.  *
  325.  * Revision 1.28  2003/03/01 22:26:07  kimelman
  326.  * performance fixes
  327.  *
  328.  * Revision 1.27  2002/12/26 20:51:35  dicuccio
  329.  * Added Win32 export specifier
  330.  *
  331.  * Revision 1.26  2002/07/23 15:31:18  kimelman
  332.  * fill statistics for MutexPool
  333.  *
  334.  * Revision 1.25  2002/07/22 22:53:20  kimelman
  335.  * exception handling fixed: 2level mutexing moved to Guard class + added
  336.  * handling of confidential data.
  337.  *
  338.  * Revision 1.24  2002/07/19 18:36:14  lebedev
  339.  * NCBI_OS_MAC: include path changed for types.h
  340.  *
  341.  * Revision 1.23  2002/07/08 20:50:56  grichenk
  342.  * Moved log to the end of file
  343.  * Replaced static mutex (in CScope, CDataSource) with the mutex
  344.  * pool. Redesigned CDataSource data locking.
  345.  *
  346.  * Revision 1.22  2002/06/04 17:18:32  kimelman
  347.  * memory cleanup :  new/delete/Cref rearrangements
  348.  *
  349.  * Revision 1.21  2002/05/14 20:06:23  grichenk
  350.  * Improved CTSE_Info locking by CDataSource and CDataLoader
  351.  *
  352.  * Revision 1.20  2002/05/09 21:41:01  kimelman
  353.  * MT tuning
  354.  *
  355.  * Revision 1.19  2002/05/06 03:30:35  vakatov
  356.  * OM/OM1 renaming
  357.  *
  358.  * Revision 1.18  2002/05/03 21:28:01  ucko
  359.  * Introduce T(Signed)SeqPos.
  360.  *
  361.  * Revision 1.17  2002/04/11 02:09:52  vakatov
  362.  * Get rid of a warning
  363.  *
  364.  * Revision 1.16  2002/04/09 19:04:21  kimelman
  365.  * make gcc happy
  366.  *
  367.  * Revision 1.15  2002/04/09 18:48:14  kimelman
  368.  * portability bugfixes: to compile on IRIX, sparc gcc
  369.  *
  370.  * Revision 1.14  2002/04/09 15:53:42  kimelman
  371.  * turn off debug messages
  372.  *
  373.  * Revision 1.13  2002/04/08 23:09:23  vakatov
  374.  * CMutexPool::Select()  -- fixed for 64-bit compilation
  375.  *
  376.  * Revision 1.12  2002/04/05 23:47:17  kimelman
  377.  * playing around tests
  378.  *
  379.  * Revision 1.11  2002/04/04 01:35:33  kimelman
  380.  * more MT tests
  381.  *
  382.  * Revision 1.10  2002/04/02 16:02:28  kimelman
  383.  * MT testing
  384.  *
  385.  * Revision 1.9  2002/03/30 19:37:05  kimelman
  386.  * gbloader MT test
  387.  *
  388.  * Revision 1.8  2002/03/29 02:47:01  kimelman
  389.  * gbloader: MT scalability fixes
  390.  *
  391.  * Revision 1.7  2002/03/27 20:22:31  butanaev
  392.  * Added connection pool.
  393.  *
  394.  * Revision 1.6  2002/03/26 15:39:24  kimelman
  395.  * GC fixes
  396.  *
  397.  * Revision 1.5  2002/03/21 01:34:49  kimelman
  398.  * gbloader related bugfixes
  399.  *
  400.  * Revision 1.4  2002/03/20 21:26:23  gouriano
  401.  * *** empty log message ***
  402.  *
  403.  * Revision 1.3  2002/03/20 19:06:29  kimelman
  404.  * bugfixes
  405.  *
  406.  * Revision 1.2  2002/03/20 17:04:25  gouriano
  407.  * minor changes to make it compilable on MS Windows
  408.  *
  409.  * Revision 1.1  2002/03/20 04:50:35  kimelman
  410.  * GB loader added
  411.  *
  412.  */