bdbloader.cpp
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:7k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: bdbloader.cpp,v $
  4.  * PRODUCTION Revision 1000.1  2004/06/01 19:41:28  gouriano
  5.  * PRODUCTION PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.4
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. /*  $Id: bdbloader.cpp,v 1000.1 2004/06/01 19:41:28 gouriano Exp $
  10. * ===========================================================================
  11. *
  12. *                            PUBLIC DOMAIN NOTICE
  13. *               National Center for Biotechnology Information
  14. *
  15. *  This software/database is a "United States Government Work" under the
  16. *  terms of the United States Copyright Act.  It was written as part of
  17. *  the author's official duties as a United States Government employee and
  18. *  thus cannot be copyrighted.  This software/database is freely available
  19. *  to the public for use. The National Library of Medicine and the U.S.
  20. *  Government have not placed any restriction on its use or reproduction.
  21. *
  22. *  Although all reasonable efforts have been taken to ensure the accuracy
  23. *  and reliability of the software and data, the NLM and the U.S.
  24. *  Government do not and cannot warrant the performance or results that
  25. *  may be obtained by using this software or data. The NLM and the U.S.
  26. *  Government disclaim all warranties, express or implied, including
  27. *  warranties of performance, merchantability or fitness for any particular
  28. *  purpose.
  29. *
  30. *  Please cite the author in any work or product based on this material.
  31. *
  32. * ===========================================================================
  33. *
  34. *  Author: Christiam Camacho
  35. *
  36. *  File Description:
  37. *   Data loader implementation that uses the blast databases
  38. *
  39. * ===========================================================================
  40. */
  41. #include <ncbi_pch.hpp>
  42. #include <objtools/data_loaders/blastdb/bdbloader.hpp>
  43. #include <objmgr/impl/handle_range_map.hpp>
  44. #include <ctools/asn_converter.hpp>
  45. #include <objmgr/seq_id_handle.hpp>
  46. #include <objmgr/impl/data_source.hpp>
  47. #include <objects/seq/Bioseq.hpp>
  48. #include <objects/seqloc/Seq_id.hpp>
  49. #include <objects/seqset/Seq_entry.hpp>
  50. #include <objmgr/util/sequence.hpp>
  51. //=======================================================================
  52. // BlastDbDataLoader Public interface 
  53. // 
  54. BEGIN_NCBI_SCOPE
  55. BEGIN_SCOPE(objects)
  56. CBlastDbDataLoader::CBlastDbDataLoader(const string& loader_name, 
  57.         const string& dbname, const EDbType dbtype)
  58.     : CDataLoader(loader_name), m_dbname(dbname), m_dbtype(dbtype), m_rdfp(0)
  59. {
  60.     m_mutex = new CFastMutex();
  61. }
  62. CBlastDbDataLoader::~CBlastDbDataLoader(void)
  63. {
  64.     if (m_rdfp) {
  65.         CFastMutexGuard mtx(*m_mutex);
  66.         if (m_rdfp)
  67.             m_rdfp = readdb_destruct(m_rdfp);
  68.     }
  69.     delete m_mutex;
  70. }
  71. // TODO Note that the ranges are ignored for right now
  72. // How to handle other choices?
  73. void
  74. CBlastDbDataLoader::GetRecords(const CSeq_id_Handle& idh, 
  75.         const EChoice choice)
  76. {
  77.     //LOG_POST("***CBlastDbDataLoader::GetRecords***");
  78.     // only eBioseq and eBioseqCore are supported
  79.     switch (choice) {
  80.         case eBlob:
  81.         case eCore:
  82.         case eSequence:
  83.         case eFeatures:
  84.         case eGraph:
  85.         case eAll:
  86.         default:
  87.             LOG_POST("Invalid choice: " + NStr::IntToString(choice));
  88.             return;
  89.         case eBioseq:
  90.         case eBioseqCore:
  91.             break;
  92.     }
  93.     // Open the blast database if it hasn't been accessed yet
  94.     if (!m_rdfp) {
  95.         CFastMutexGuard mtx(*m_mutex);
  96.         if (!m_rdfp) {
  97.             char* tmp = strdup(m_dbname.c_str());
  98.             m_rdfp = readdb_new_ex2(tmp, (int)m_dbtype, READDB_NEW_INDEX |
  99.                     READDB_NEW_DO_TAXDB, NULL, NULL);
  100.             free(tmp);
  101.         }
  102.     }
  103.     // for each seqid in hrmap, look them up in db and add them to the data
  104.     // source
  105.     {{
  106.         DECLARE_ASN_CONVERTER(CSeq_id, SeqId, sic);
  107.         DECLARE_ASN_CONVERTER(CBioseq, Bioseq, bc);
  108.         SeqIdPtr sip = NULL, sip_tmp = NULL, sip_itr = NULL, all_seqids = NULL;
  109.         BioseqPtr bsp = NULL;
  110.         int oid = -1;
  111.         unsigned int index = 0;
  112.         TOid2Bioseq::iterator found;
  113.         CConstRef<CSeq_id> seq_id = idh.GetSeqId();
  114.         if ( !(sip = sic.ToC(*seq_id)) )
  115.             return;
  116.         if ( (oid = SeqId2OrdinalId(m_rdfp, sip)) < 0)
  117.             return;
  118.         // If we've already retrieved this particular ordinal id, ignore it
  119.         if ( (found = m_cache.find(oid)) != m_cache.end())
  120.             return;
  121.         {{  // protect access to the blast database
  122.             CFastMutexGuard mtx(*m_mutex);
  123.             bsp = readdb_get_bioseq(m_rdfp, oid);
  124.             // Retrieve multiple seqids if there are any
  125.             while (readdb_get_header(m_rdfp, oid, &index, &sip_tmp, NULL)) {
  126.                 if (!all_seqids) {
  127.                     all_seqids = sip_tmp;
  128.                 } else {
  129.                     sip_itr = all_seqids;
  130.                     while (sip_itr->next)
  131.                         sip_itr = sip_itr->next;
  132.                     sip_itr->next = sip_tmp;
  133.                 }
  134.             }
  135.         }}
  136.         if (all_seqids) {
  137.             SeqIdSetFree(bsp->id);
  138.             bsp->id = all_seqids;
  139.         }
  140.         CRef<CBioseq> bsr(bc.FromC(bsp));
  141.         CRef<CSeq_entry> ser(new CSeq_entry());
  142.         ser->Select(CSeq_entry::e_Seq);
  143.         ser->SetSeq(*bsr);
  144.         GetDataSource()->AddTSE(*ser);
  145.         m_cache[oid] = bsr;
  146.         bsp = BioseqFree(bsp);
  147.         sip = SeqIdFree(sip);
  148.     }}
  149. }
  150. void
  151. CBlastDbDataLoader::DebugDump(CDebugDumpContext ddc, unsigned int depth) const
  152. {
  153.     //LOG_POST("CBlastDbDataLoader::DebugDumpn");
  154.     ddc.SetFrame("CGBLoader");
  155.     // CObject::DebugDump( ddc, depth);
  156.     DebugDumpValue(ddc,"m_dbname", m_dbname);
  157.     DebugDumpValue(ddc,"m_dbtype", m_dbtype);
  158.     DebugDumpValue(ddc,"m_rdfp", m_rdfp);
  159. }
  160. END_SCOPE(objects)
  161. END_NCBI_SCOPE
  162. /* ========================================================================== 
  163.  *
  164.  * $Log: bdbloader.cpp,v $
  165.  * Revision 1000.1  2004/06/01 19:41:28  gouriano
  166.  * PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.4
  167.  *
  168.  * Revision 1.4  2004/05/21 21:42:51  gorelenk
  169.  * Added PCH ncbi_pch.hpp
  170.  *
  171.  * Revision 1.3  2003/09/30 17:22:06  vasilche
  172.  * Fixed for new CDataLoader interface.
  173.  *
  174.  * Revision 1.2  2003/09/30 16:36:36  vasilche
  175.  * Updated CDataLoader interface.
  176.  *
  177.  * Revision 1.1  2003/08/06 16:15:18  jianye
  178.  * Add BLAST DB loader.
  179.  *
  180.  * Revision 1.7  2003/05/19 21:11:46  camacho
  181.  * Added caching
  182.  *
  183.  * Revision 1.6  2003/05/16 14:27:48  camacho
  184.  * Proper use of namespaces
  185.  *
  186.  * Revision 1.5  2003/05/15 15:58:28  camacho
  187.  * Minor changes
  188.  *
  189.  * Revision 1.4  2003/05/08 15:11:43  camacho
  190.  * Changed prototype for GetRecords in base class
  191.  *
  192.  * Revision 1.3  2003/03/21 17:42:54  camacho
  193.  * Added loading of taxonomy info
  194.  *
  195.  * Revision 1.2  2003/03/18 21:19:26  camacho
  196.  * Retrieve all seqids if available
  197.  *
  198.  * Revision 1.1  2003/03/14 22:37:26  camacho
  199.  * Initial revision
  200.  *
  201.  *
  202.  * ========================================================================== */