fasta.hpp
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:5k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: fasta.hpp,v $
  4.  * PRODUCTION Revision 1000.1  2004/04/12 17:35:07  gouriano
  5.  * PRODUCTION PRODUCTION: UPGRADED [CATCHUP_003] Dev-tree R1.5
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. #ifndef OBJTOOLS_READERS___FASTA__HPP
  10. #define OBJTOOLS_READERS___FASTA__HPP
  11. /*  $Id: fasta.hpp,v 1000.1 2004/04/12 17:35:07 gouriano Exp $
  12. * ===========================================================================
  13. *
  14. *                            PUBLIC DOMAIN NOTICE
  15. *               National Center for Biotechnology Information
  16. *
  17. *  This software/database is a "United States Government Work" under the
  18. *  terms of the United States Copyright Act.  It was written as part of
  19. *  the author's official duties as a United States Government employee and
  20. *  thus cannot be copyrighted.  This software/database is freely available
  21. *  to the public for use. The National Library of Medicine and the U.S.
  22. *  Government have not placed any restriction on its use or reproduction.
  23. *
  24. *  Although all reasonable efforts have been taken to ensure the accuracy
  25. *  and reliability of the software and data, the NLM and the U.S.
  26. *  Government do not and cannot warrant the performance or results that
  27. *  may be obtained by using this software or data. The NLM and the U.S.
  28. *  Government disclaim all warranties, express or implied, including
  29. *  warranties of performance, merchantability or fitness for any particular
  30. *  purpose.
  31. *
  32. *  Please cite the author in any work or product based on this material.
  33. *
  34. * ===========================================================================
  35. *
  36. * Authors:  Aaron Ucko, NCBI;  Anatoliy Kuznetsov, NCBI.
  37. *
  38. * File Description:
  39. *   Reader for FASTA-format sequences.  (The writer is CFastaOStream, in
  40. *   <objmgr/util/sequence.hpp>.)
  41. *
  42. */
  43. #include <objects/seqset/Seq_entry.hpp>
  44. BEGIN_NCBI_SCOPE
  45. BEGIN_SCOPE(objects)
  46. enum EReadFastaFlags {
  47.     fReadFasta_AssumeNuc  = 0x1,  // type to use if no revealing accn found
  48.     fReadFasta_AssumeProt = 0x2,
  49.     fReadFasta_ForceType  = 0x4,  // force type regardless of accession
  50.     fReadFasta_NoParseID  = 0x8,  // treat name as local ID regardless of |s
  51.     fReadFasta_ParseGaps  = 0x10, // make a delta sequence if gaps found
  52.     fReadFasta_OneSeq     = 0x20, // just read the first sequence found
  53.     fReadFasta_AllSeqIds  = 0x40, // read Seq-ids past the first ^A (see note)
  54.     fReadFasta_NoSeqData  = 0x80  // parse the deflines but skip the data
  55. };
  56. typedef int TReadFastaFlags; // binary OR of EReadFastaFlags
  57. // Note on fReadFasta_AllSeqIds: some databases (notably nr) have
  58. // merged identical sequences, stringing their deflines together with
  59. // control-As.  Normally, the reader stops at the first control-A;
  60. // however, this flag makes it parse all the IDs.
  61. // keeps going until EOF or parse error (-> CParseException) unless
  62. // fReadFasta_OneSeq is set
  63. // see also CFastaOstream in <objmgr/util/sequence.hpp> (-lxobjutil)
  64. NCBI_XOBJREAD_EXPORT
  65. CRef<CSeq_entry> ReadFasta(CNcbiIstream& in, TReadFastaFlags flags = 0,
  66.                            int* counter = 0,
  67.                            vector<CConstRef<CSeq_loc> >* lcv = 0);
  68. //////////////////////////////////////////////////////////////////
  69. //
  70. // Class - description of multi-entry FASTA file,
  71. // to keep list of offsets on all molecules in the file.
  72. //
  73. struct SFastaFileMap
  74. {
  75.     struct SFastaEntry
  76.     {
  77.         string  seq_id;        // Sequence Id
  78.         string  description;   // Molecule description
  79.         size_t  stream_offset; // Molecule offset in file
  80.     };
  81.     typedef vector<SFastaEntry>  TMapVector;
  82.     TMapVector   file_map; // vector keeps list of all molecule entries
  83. };
  84. // Function reads input stream (assumed that it is FASTA format) one
  85. // molecule entry after another filling the map structure describing and
  86. // pointing on molecule entries. Fasta map can be used later for quick
  87. // CSeq_entry retrival
  88. void NCBI_XOBJREAD_EXPORT ReadFastaFileMap(SFastaFileMap* fasta_map, 
  89.                                            CNcbiIfstream& input);
  90. END_SCOPE(objects)
  91. END_NCBI_SCOPE
  92. /*
  93. * ===========================================================================
  94. *
  95. * $Log: fasta.hpp,v $
  96. * Revision 1000.1  2004/04/12 17:35:07  gouriano
  97. * PRODUCTION: UPGRADED [CATCHUP_003] Dev-tree R1.5
  98. *
  99. * Revision 1.5  2004/01/20 16:27:53  ucko
  100. * Fix a stray reference to sequence.hpp's old location.
  101. *
  102. * Revision 1.4  2003/08/08 21:31:37  dondosha
  103. * Changed type of lcase_mask in ReadFasta to vector of CConstRefs
  104. *
  105. * Revision 1.3  2003/08/07 21:12:56  ucko
  106. * Support a counter for assigning local IDs to sequences with no ID given.
  107. *
  108. * Revision 1.2  2003/08/06 19:08:28  ucko
  109. * Slight interface tweak to ReadFasta: report lowercase locations in a
  110. * vector with one entry per Bioseq rather than a consolidated Seq_loc_mix.
  111. *
  112. * Revision 1.1  2003/06/04 17:26:08  ucko
  113. * Split out from Seq_entry.hpp.
  114. *
  115. *
  116. * ===========================================================================
  117. */
  118. #endif  /* OBJTOOLS_READERS___FASTA__HPP */