reader.cpp
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:14k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: reader.cpp,v $
  4.  * PRODUCTION Revision 1000.1  2004/06/01 19:41:40  gouriano
  5.  * PRODUCTION PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.33
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. /*  $Id: reader.cpp,v 1000.1 2004/06/01 19:41:40 gouriano Exp $
  10.  * ===========================================================================
  11.  *                            PUBLIC DOMAIN NOTICE
  12.  *               National Center for Biotechnology Information
  13.  *
  14.  *  This software/database is a "United States Government Work" under the
  15.  *  terms of the United States Copyright Act.  It was written as part of
  16.  *  the author's official duties as a United States Government employee and
  17.  *  thus cannot be copyrighted.  This software/database is freely available
  18.  *  to the public for use. The National Library of Medicine and the U.S.
  19.  *  Government have not placed any restriction on its use or reproduction.
  20.  *
  21.  *  Although all reasonable efforts have been taken to ensure the accuracy
  22.  *  and reliability of the software and data, the NLM and the U.S.
  23.  *  Government do not and cannot warrant the performance or results that
  24.  *  may be obtained by using this software or data. The NLM and the U.S.
  25.  *  Government disclaim all warranties, express or implied, including
  26.  *  warranties of performance, merchantability or fitness for any particular
  27.  *  purpose.
  28.  *
  29.  *  Please cite the author in any work or product based on this material.
  30.  * ===========================================================================
  31.  *
  32.  *  Author:  Anton Butanaev, Eugene Vasilchenko
  33.  *
  34.  *  File Description: Base data reader interface
  35.  *
  36.  */
  37. #include <ncbi_pch.hpp>
  38. #include <objtools/data_loaders/genbank/reader.hpp>
  39. #include <serial/pack_string.hpp>
  40. #include <objmgr/annot_selector.hpp>
  41. #include <objmgr/objmgr_exception.hpp>
  42. #include <objmgr/impl/snp_annot_info.hpp>
  43. #include <objmgr/impl/tse_info.hpp>
  44. #include <objmgr/impl/tse_chunk_info.hpp>
  45. #include <objmgr/impl/seq_annot_info.hpp>
  46. #include <objmgr/impl/handle_range_map.hpp>
  47. #include <objects/general/Object_id.hpp>
  48. #include <objects/general/Dbtag.hpp>
  49. #include <objects/seqfeat/Seq_feat.hpp>
  50. #include <objects/seqfeat/Gb_qual.hpp>
  51. #include <objects/seqfeat/Imp_feat.hpp>
  52. #include <objects/seqset/Seq_entry.hpp>
  53. #include <objects/seqset/Bioseq_set.hpp>
  54. #include <serial/serial.hpp>
  55. #include <serial/objistr.hpp>
  56. #include <serial/objectinfo.hpp>
  57. #include <serial/objectiter.hpp>
  58. BEGIN_NCBI_SCOPE
  59. BEGIN_SCOPE(objects)
  60. static const char* const STRING_PACK_ENV = "GENBANK_SNP_PACK_STRINGS";
  61. static const char* const SNP_SPLIT_ENV = "GENBANK_SNP_SPLIT";
  62. static const char* const SNP_TABLE_ENV = "GENBANK_SNP_TABLE";
  63. static const char* const ENV_YES = "YES";
  64. CReader::CReader(void)
  65. {
  66. }
  67. CReader::~CReader(void)
  68. {
  69. }
  70. int CReader::GetConst(const string& ) const
  71. {
  72.     return 0;
  73. }
  74. bool CReader::s_GetEnvFlag(const char* env, bool def_val)
  75. {
  76.     const char* val = ::getenv(env);
  77.     if ( !val ) {
  78.         return def_val;
  79.     }
  80.     string s(val);
  81.     return s == "1" || NStr::CompareNocase(s, ENV_YES) == 0;
  82. }
  83. bool CReader::TrySNPSplit(void)
  84. {
  85.     static bool snp_split = s_GetEnvFlag(SNP_SPLIT_ENV, true);
  86.     return snp_split;
  87. }
  88. bool CReader::TrySNPTable(void)
  89. {
  90.     static bool snp_table = s_GetEnvFlag(SNP_TABLE_ENV, true);
  91.     return snp_table;
  92. }
  93. bool CReader::TryStringPack(void)
  94. {
  95.     static bool use_string_pack =
  96.         CPackString::TryStringPack() && s_GetEnvFlag(STRING_PACK_ENV, true);
  97.     return use_string_pack;
  98. }
  99. void CReader::SetSNPReadHooks(CObjectIStream& in)
  100. {
  101.     if ( !TryStringPack() ) {
  102.         return;
  103.     }
  104.     CObjectTypeInfo type;
  105.     type = CType<CGb_qual>();
  106.     type.FindMember("qual").SetLocalReadHook(in, new CPackStringClassHook);
  107.     type.FindMember("val").SetLocalReadHook(in,
  108.                                             new CPackStringClassHook(4, 128));
  109.     type = CObjectTypeInfo(CType<CImp_feat>());
  110.     type.FindMember("key").SetLocalReadHook(in,
  111.                                             new CPackStringClassHook(32, 128));
  112.     type = CObjectTypeInfo(CType<CObject_id>());
  113.     type.FindVariant("str").SetLocalReadHook(in, new CPackStringChoiceHook);
  114.     type = CObjectTypeInfo(CType<CDbtag>());
  115.     type.FindMember("db").SetLocalReadHook(in, new CPackStringClassHook);
  116.     type = CObjectTypeInfo(CType<CSeq_feat>());
  117.     type.FindMember("comment").SetLocalReadHook(in, new CPackStringClassHook);
  118. }
  119. void CReader::SetSeqEntryReadHooks(CObjectIStream& in)
  120. {
  121.     if ( !TryStringPack() ) {
  122.         return;
  123.     }
  124.     CObjectTypeInfo type;
  125.     type = CObjectTypeInfo(CType<CObject_id>());
  126.     type.FindVariant("str").SetLocalReadHook(in, new CPackStringChoiceHook);
  127.     type = CObjectTypeInfo(CType<CImp_feat>());
  128.     type.FindMember("key").SetLocalReadHook(in,
  129.                                             new CPackStringClassHook(32, 128));
  130.     type = CObjectTypeInfo(CType<CDbtag>());
  131.     type.FindMember("db").SetLocalReadHook(in, new CPackStringClassHook);
  132.     type = CType<CGb_qual>();
  133.     type.FindMember("qual").SetLocalReadHook(in, new CPackStringClassHook);
  134. }
  135. bool CReader::IsSNPSeqref(const CSeqref& seqref)
  136. {
  137.     return seqref.GetSat() == eSatellite_SNP;
  138. }
  139. void CReader::AddSNPSeqref(TSeqrefs& srs, int gi, CSeqref::TFlags flags)
  140. {
  141.     flags |= CSeqref::fHasExternal;
  142.     CRef<CSeqref> sr(new CSeqref(gi, eSatellite_SNP, gi));
  143.     sr->SetFlags(flags);
  144.     srs.push_back(sr);
  145. }
  146. void CReader::ResolveSeq_id(TSeqrefs& srs, const CSeq_id& id, TConn conn)
  147. {
  148.     int gi;
  149.     if ( id.IsGi() ) {
  150.         gi = id.GetGi();
  151.     }
  152.     else {
  153.         gi = ResolveSeq_id_to_gi(id, conn);
  154.     }
  155.     if ( gi ) {
  156.         RetrieveSeqrefs(srs, gi, conn);
  157.     }
  158. }
  159. void CReader::PurgeSeq_id_to_gi(const CSeq_id& /*id*/)
  160. {
  161. }
  162. void CReader::PurgeSeqrefs(const TSeqrefs& /*srs*/,
  163.                            const CSeq_id& /*id*/)
  164. {
  165. }
  166. CRef<CTSE_Info> CReader::GetBlob(const CSeqref& seqref,
  167.                                  TConn conn,
  168.                                  CTSE_Chunk_Info* chunk_info)
  169. {
  170.     CRef<CTSE_Info> ret;
  171.     if ( chunk_info ) {
  172.         if ( IsSNPSeqref(seqref) && chunk_info->GetChunkId()==kSNP_ChunkId ) {
  173.             GetSNPChunk(seqref, *chunk_info, conn);
  174.         }
  175.         else {
  176.             GetTSEChunk(seqref, *chunk_info, conn);
  177.         }
  178.     }
  179.     else {
  180.         if ( IsSNPSeqref(seqref) ) {
  181.             ret = GetSNPBlob(seqref, conn);
  182.         }
  183.         else {
  184.             ret = GetTSEBlob(seqref, conn);
  185.         }
  186.     }
  187.     return ret;
  188. }
  189. CRef<CTSE_Info> CReader::GetSNPBlob(const CSeqref& seqref, TConn /*conn*/)
  190. {
  191.     _ASSERT(IsSNPSeqref(seqref));
  192.     CRef<CSeq_entry> seq_entry(new CSeq_entry);
  193.     seq_entry->SetSet().SetSeq_set();
  194.     seq_entry->SetSet().SetId().SetId(kSNP_EntryId);
  195.     // create CTSE_Info
  196.     CRef<CTSE_Info> ret(new CTSE_Info(*seq_entry));
  197.     ret->SetName("SNP");
  198.     CRef<CTSE_Chunk_Info> info(new CTSE_Chunk_Info(kSNP_ChunkId));
  199.     info->x_AddAnnotPlace(CTSE_Chunk_Info::eBioseq_set, kSNP_EntryId);
  200.     info->x_AddAnnotType(CAnnotName("SNP"),
  201.                          SAnnotTypeSelector(CSeqFeatData::eSubtype_variation),
  202.                          seqref.GetGi(),
  203.                          CTSE_Chunk_Info::TLocationRange::GetWhole());
  204.     info->x_TSEAttach(*ret);
  205.     return ret;
  206. }
  207. void CReader::GetTSEChunk(const CSeqref& /*seqref*/,
  208.                           CTSE_Chunk_Info& /*chunk_info*/,
  209.                           TConn /*conn*/)
  210. {
  211.     NCBI_THROW(CLoaderException, eNoData,
  212.                "Chunks are not implemented");
  213. }
  214. void CReader::GetSNPChunk(const CSeqref& seqref,
  215.                           CTSE_Chunk_Info& chunk,
  216.                           TConn conn)
  217. {
  218.     _ASSERT(IsSNPSeqref(seqref));
  219.     _ASSERT(chunk.GetChunkId() == kSNP_ChunkId);
  220.     CRef<CSeq_annot_SNP_Info> snp_annot = GetSNPAnnot(seqref, conn);
  221.     CRef<CSeq_annot_Info> annot_info(new CSeq_annot_Info(*snp_annot));
  222.     CTSE_Chunk_Info::TPlace place(CTSE_Chunk_Info::eBioseq_set, kSNP_EntryId);
  223.     chunk.x_LoadAnnot(place, annot_info);
  224. }
  225. END_SCOPE(objects)
  226. END_NCBI_SCOPE
  227. /*
  228.  * $Log: reader.cpp,v $
  229.  * Revision 1000.1  2004/06/01 19:41:40  gouriano
  230.  * PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.33
  231.  *
  232.  * Revision 1.33  2004/05/21 21:42:52  gorelenk
  233.  * Added PCH ncbi_pch.hpp
  234.  *
  235.  * Revision 1.32  2004/03/16 15:47:29  vasilche
  236.  * Added CBioseq_set_Handle and set of EditHandles
  237.  *
  238.  * Revision 1.31  2004/02/18 14:01:25  dicuccio
  239.  * Added new satellites for TRACE_ASSM, TR_ASSM_CH.  Added support for overloading
  240.  * the ID1 named service
  241.  *
  242.  * Revision 1.30  2004/02/17 21:18:53  vasilche
  243.  * Fixed 'unused argument' warnings.
  244.  *
  245.  * Revision 1.29  2004/01/22 20:10:35  vasilche
  246.  * 1. Splitted ID2 specs to two parts.
  247.  * ID2 now specifies only protocol.
  248.  * Specification of ID2 split data is moved to seqsplit ASN module.
  249.  * For now they are still reside in one resulting library as before - libid2.
  250.  * As the result split specific headers are now in objects/seqsplit.
  251.  * 2. Moved ID2 and ID1 specific code out of object manager.
  252.  * Protocol is processed by corresponding readers.
  253.  * ID2 split parsing is processed by ncbi_xreader library - used by all readers.
  254.  * 3. Updated OBJMGR_LIBS correspondingly.
  255.  *
  256.  * Revision 1.28  2004/01/13 16:55:55  vasilche
  257.  * CReader, CSeqref and some more classes moved from xobjmgr to separate lib.
  258.  * Headers moved from include/objmgr to include/objtools/data_loaders/genbank.
  259.  *
  260.  * Revision 1.27  2003/11/28 17:53:15  vasilche
  261.  * Avoid calling CStreamUtils::Pushback() when constructing objects from text ASN.
  262.  *
  263.  * Revision 1.26  2003/11/26 17:55:58  vasilche
  264.  * Implemented ID2 split in ID1 cache.
  265.  * Fixed loading of splitted annotations.
  266.  *
  267.  * Revision 1.25  2003/10/27 15:05:41  vasilche
  268.  * Added correct recovery of cached ID1 loader if gi->sat/satkey cache is invalid.
  269.  * Added recognition of ID1 error codes: private, etc.
  270.  * Some formatting of old code.
  271.  *
  272.  * Revision 1.24  2003/10/08 14:16:13  vasilche
  273.  * Added version of blobs loaded from ID1.
  274.  *
  275.  * Revision 1.23  2003/10/07 13:43:23  vasilche
  276.  * Added proper handling of named Seq-annots.
  277.  * Added feature search from named Seq-annots.
  278.  * Added configurable adaptive annotation search (default: gene, cds, mrna).
  279.  * Fixed selection of blobs for loading from GenBank.
  280.  * Added debug checks to CSeq_id_Mapper for easier finding lost CSeq_id_Handles.
  281.  * Fixed leaked split chunks annotation stubs.
  282.  * Moved some classes definitions in separate *.cpp files.
  283.  *
  284.  * Revision 1.22  2003/09/30 16:22:02  vasilche
  285.  * Updated internal object manager classes to be able to load ID2 data.
  286.  * SNP blobs are loaded as ID2 split blobs - readers convert them automatically.
  287.  * Scope caches results of requests for data to data loaders.
  288.  * Optimized CSeq_id_Handle for gis.
  289.  * Optimized bioseq lookup in scope.
  290.  * Reduced object allocations in annotation iterators.
  291.  * CScope is allowed to be destroyed before other objects using this scope are
  292.  * deleted (feature iterators, bioseq handles etc).
  293.  * Optimized lookup for matching Seq-ids in CSeq_id_Mapper.
  294.  * Added 'adaptive' option to objmgr_demo application.
  295.  *
  296.  * Revision 1.21  2003/08/27 14:25:22  vasilche
  297.  * Simplified CCmpTSE class.
  298.  *
  299.  * Revision 1.20  2003/08/19 18:35:21  vasilche
  300.  * CPackString classes were moved to SERIAL library.
  301.  *
  302.  * Revision 1.19  2003/08/14 20:05:19  vasilche
  303.  * Simple SNP features are stored as table internally.
  304.  * They are recreated when needed using CFeat_CI.
  305.  *
  306.  * Revision 1.18  2003/07/24 19:28:09  vasilche
  307.  * Implemented SNP split for ID1 loader.
  308.  *
  309.  * Revision 1.17  2003/07/17 20:07:56  vasilche
  310.  * Reduced memory usage by feature indexes.
  311.  * SNP data is loaded separately through PUBSEQ_OS.
  312.  * String compression for SNP data.
  313.  *
  314.  * Revision 1.16  2003/06/02 16:06:38  dicuccio
  315.  * Rearranged src/objects/ subtree.  This includes the following shifts:
  316.  *     - src/objects/asn2asn --> arc/app/asn2asn
  317.  *     - src/objects/testmedline --> src/objects/ncbimime/test
  318.  *     - src/objects/objmgr --> src/objmgr
  319.  *     - src/objects/util --> src/objmgr/util
  320.  *     - src/objects/alnmgr --> src/objtools/alnmgr
  321.  *     - src/objects/flat --> src/objtools/flat
  322.  *     - src/objects/validator --> src/objtools/validator
  323.  *     - src/objects/cddalignview --> src/objtools/cddalignview
  324.  * In addition, libseq now includes six of the objects/seq... libs, and libmmdb
  325.  * replaces the three libmmdb? libs.
  326.  *
  327.  * Revision 1.15  2003/04/24 16:12:38  vasilche
  328.  * Object manager internal structures are splitted more straightforward.
  329.  * Removed excessive header dependencies.
  330.  *
  331.  * Revision 1.14  2003/04/15 16:25:39  vasilche
  332.  * Added initialization of int members.
  333.  *
  334.  * Revision 1.13  2003/04/15 14:24:08  vasilche
  335.  * Changed CReader interface to not to use fake streams.
  336.  *
  337.  * Revision 1.12  2003/03/28 03:27:24  lavr
  338.  * CIStream::Eof() conditional compilation removed; code reformatted
  339.  *
  340.  * Revision 1.11  2003/03/26 22:12:11  lavr
  341.  * Revert CIStream::Eof() to destructive test
  342.  *
  343.  * Revision 1.10  2003/03/26 20:42:50  lavr
  344.  * CIStream::Eof() made (temporarily) non-destructive w/o get()
  345.  *
  346.  * Revision 1.9  2003/02/26 18:02:39  vasilche
  347.  * Added istream error check.
  348.  * Avoid use of string::c_str() method.
  349.  *
  350.  * Revision 1.8  2003/02/25 22:03:44  vasilche
  351.  * Fixed identation.
  352.  *
  353.  * Revision 1.7  2002/11/27 21:09:43  lavr
  354.  * Take advantage of CStreamUtils::Readsome() in CIStream::Read()
  355.  * CIStream::Eof() modified to use get() instead of operator>>()
  356.  *
  357.  * Revision 1.6  2002/05/06 03:28:47  vakatov
  358.  * OM/OM1 renaming
  359.  *
  360.  * Revision 1.5  2002/03/27 20:23:50  butanaev
  361.  * Added connection pool.
  362.  *
  363.  * Revision 1.4  2002/03/27 18:06:08  kimelman
  364.  * stream.read/write instead of << >>
  365.  *
  366.  * Revision 1.3  2002/03/21 19:14:54  kimelman
  367.  * GB related bugfixes
  368.  *
  369.  * Revision 1.2  2002/03/20 04:50:13  kimelman
  370.  * GB loader added
  371.  *
  372.  * Revision 1.1  2002/01/11 19:06:21  gouriano
  373.  * restructured objmgr
  374.  *
  375.  * Revision 1.6  2001/12/13 00:19:25  kimelman
  376.  * bugfixes:
  377.  *
  378.  * Revision 1.5  2001/12/12 21:46:40  kimelman
  379.  * Compare interface fix
  380.  *
  381.  * Revision 1.4  2001/12/10 20:08:01  butanaev
  382.  * Code cleanup.
  383.  *
  384.  * Revision 1.3  2001/12/07 21:24:59  butanaev
  385.  * Interface development, code beautyfication.
  386.  *
  387.  * Revision 1.2  2001/12/07 16:43:58  butanaev
  388.  * Fixed includes.
  389.  *
  390.  * Revision 1.1  2001/12/07 16:10:22  butanaev
  391.  * Switching to new reader interfaces.
  392.  *
  393.  * Revision 1.2  2001/12/06 18:06:22  butanaev
  394.  * Ported to linux.
  395.  *
  396.  * Revision 1.1  2001/12/06 14:35:22  butanaev
  397.  * New streamable interfaces designed, ID1 reimplemented.
  398.  *
  399.  */