orf.hpp
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:6k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: orf.hpp,v $
  4.  * PRODUCTION Revision 1000.1  2004/04/12 17:47:59  gouriano
  5.  * PRODUCTION PRODUCTION: UPGRADED [CATCHUP_003] Dev-tree R1.16
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. /*  $Id: orf.hpp,v 1000.1 2004/04/12 17:47:59 gouriano Exp $
  10.  * ===========================================================================
  11.  *
  12.  *                            PUBLIC DOMAIN NOTICE
  13.  *               National Center for Biotechnology Information
  14.  *
  15.  *  This software/database is a "United States Government Work" under the
  16.  *  terms of the United States Copyright Act.  It was written as part of
  17.  *  the author's official duties as a United States Government employee and
  18.  *  thus cannot be copyrighted.  This software/database is freely available
  19.  *  to the public for use. The National Library of Medicine and the U.S.
  20.  *  Government have not placed any restriction on its use or reproduction.
  21.  *
  22.  *  Although all reasonable efforts have been taken to ensure the accuracy
  23.  *  and reliability of the software and data, the NLM and the U.S.
  24.  *  Government do not and cannot warrant the performance or results that
  25.  *  may be obtained by using this software or data. The NLM and the U.S.
  26.  *  Government disclaim all warranties, express or implied, including
  27.  *  warranties of performance, merchantability or fitness for any particular
  28.  *  purpose.
  29.  *
  30.  *  Please cite the author in any work or product based on this material.
  31.  *
  32.  * ===========================================================================
  33.  *
  34.  * Authors:  Josh Cherry
  35.  *
  36.  * File Description:  code for finding and representing ORFs
  37.  *
  38.  */
  39. #include <corelib/ncbistd.hpp>
  40. #include <objects/seqloc/Seq_loc.hpp>
  41. #include <objmgr/seq_vector.hpp>
  42. #include <objects/seqloc/Seq_id.hpp>
  43. #include <vector>
  44. BEGIN_NCBI_SCOPE
  45. //
  46. // class COrf implements a simple open reading frame search.
  47. //
  48. // This class reports, as a series of seq-locs, all the possible open
  49. // reading frames in a given sequence.  The sequence can be represented
  50. // as either 
  51. /// This class provides functions for finding all the ORFs
  52. /// of a specified minimum length in a DNA sequence.
  53. class NCBI_XALGOSEQ_EXPORT COrf
  54. {
  55. public:
  56.     typedef CRange<TSeqPos> TRange;
  57.     typedef vector<TRange>  TRangeVec;
  58.     typedef vector< CRef<objects::CSeq_loc> > TLocVec;
  59.     /// Find all ORFs in both orientations that
  60.     /// are at least min_length_bp long.
  61.     /// Report results as Seq-locs.
  62.     /// seq must be in iupac.
  63.     static void FindOrfs(const string& seq,
  64.                          TLocVec& results,
  65.                          unsigned int min_length_bp = 3,
  66.                          int genetic_code = 1);
  67.     static void FindOrfs(const vector<char>& seq,
  68.                          TLocVec& results,
  69.                          unsigned int min_length_bp = 3,
  70.                          int genetic_code = 1);
  71.     static void FindOrfs(const objects::CSeqVector& seq,
  72.                          TLocVec& results,
  73.                          unsigned int min_length_bp = 3,
  74.                          int genetic_code = 1);
  75.     /**
  76.     /// This version returns an annot full of CDS features.
  77.     /// Optionally takes a CSeq_id (by CRef) for use in
  78.     /// the feature table; otherwise ids are left unset.
  79.     template<class Seq>
  80.     static CRef<objects::CSeq_annot>
  81.     FindOrfs(const Seq& seq,
  82.              unsigned int min_length_bp = 3,
  83.              int genetic_code = 1,
  84.              CRef<objects::CSeq_id> id = CRef<objects::CSeq_id>())
  85.     {
  86.         // place to store orfs
  87.         TLocVec orfs;
  88.         FindOrfs(seq, orfs, min_length_bp, genetic_code);
  89.         return MakeCDSAnnot(orfs, genetic_code, id);
  90.     }
  91.     **/
  92.     /// Build an annot full of CDS features from CSeq_loc's.
  93.     /// Optionally takes a CSeq_id (by CRef) for use in
  94.     /// the feature table; otherwise ids are left unset.
  95.     static CRef<objects::CSeq_annot>
  96.     MakeCDSAnnot(const TLocVec& orfs, int genetic_code = 1,
  97.                  objects::CSeq_id* id = NULL);
  98. };
  99. END_NCBI_SCOPE
  100. /*
  101.  * ===========================================================================
  102.  * $Log: orf.hpp,v $
  103.  * Revision 1000.1  2004/04/12 17:47:59  gouriano
  104.  * PRODUCTION: UPGRADED [CATCHUP_003] Dev-tree R1.16
  105.  *
  106.  * Revision 1.16  2004/03/03 15:41:27  dicuccio
  107.  * COmmented template definition of FindOrfs() - it is giving MSVC fits
  108.  *
  109.  * Revision 1.15  2003/10/15 20:26:28  dicuccio
  110.  * Changed API of MakeCDSAnnot() to take a seq-id pointer rather than a CRef<>
  111.  *
  112.  * Revision 1.14  2003/09/04 19:27:53  jcherry
  113.  * Made an ORF include the stop codon, and marked certain ORFs as
  114.  * partial.  Put ability to construct a feature table into COrf.
  115.  *
  116.  * Revision 1.13  2003/08/21 12:13:10  dicuccio
  117.  * Moved templated implementation into a private file.  Changed API to provide entry points for common sequence containers
  118.  *
  119.  * Revision 1.12  2003/08/20 14:26:43  ucko
  120.  * Restore changes from revision 1.9, which seem to have been lost:
  121.  * include Seq_interval.hpp
  122.  *
  123.  * Revision 1.11  2003/08/19 18:56:39  jcherry
  124.  * Added a comment
  125.  *
  126.  * Revision 1.10  2003/08/19 18:36:23  jcherry
  127.  * Reimplemented stop codon finding using CTrans_table finite state machine
  128.  *
  129.  * Revision 1.9   2003/08/19 17:40:02  rsmith
  130.  * include Seq_interval.hpp
  131.  *
  132.  * Revision 1.8  2003/08/19 10:21:24  dicuccio
  133.  * Compilation fixes - use objects:: namespace where appropriate
  134.  *
  135.  * Revision 1.7  2003/08/18 20:07:04  dicuccio
  136.  * Corrected export specifiers
  137.  *
  138.  * Revision 1.6  2003/08/18 19:22:13  jcherry
  139.  * Moved orf and seq_match to algo/sequence
  140.  *
  141.  * Revision 1.5  2003/08/18 18:01:58  jcherry
  142.  * Changed COrf::FindOrfs to produce a vector of CRef<CSeq_loc>.
  143.  * Added version of FindOrfs that takes a CSeqVector.
  144.  *
  145.  * Revision 1.4  2003/08/17 19:25:30  jcherry
  146.  * Changed member variable names to follow convention
  147.  *
  148.  * Revision 1.3  2003/08/15 12:17:38  dicuccio
  149.  * COmpilation fixes for MSVC
  150.  *
  151.  * Revision 1.2  2003/08/14 21:18:20  ucko
  152.  * Don't repeat default argument specifications in definitions.
  153.  *
  154.  * Revision 1.1  2003/08/14 17:59:22  jcherry
  155.  * Initial version
  156.  *
  157.  * ===========================================================================
  158.  */