antigenic.cpp
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:6k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: antigenic.cpp,v $
  4.  * PRODUCTION Revision 1000.1  2004/06/01 18:10:22  gouriano
  5.  * PRODUCTION PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.4
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. /*  $Id: antigenic.cpp,v 1000.1 2004/06/01 18:10:22 gouriano Exp $
  10.  * ===========================================================================
  11.  *
  12.  *                            PUBLIC DOMAIN NOTICE
  13.  *               National Center for Biotechnology Information
  14.  *
  15.  *  This software/database is a "United States Government Work" under the
  16.  *  terms of the United States Copyright Act.  It was written as part of
  17.  *  the author's official duties as a United States Government employee and
  18.  *  thus cannot be copyrighted.  This software/database is freely available
  19.  *  to the public for use. The National Library of Medicine and the U.S.
  20.  *  Government have not placed any restriction on its use or reproduction.
  21.  *
  22.  *  Although all reasonable efforts have been taken to ensure the accuracy
  23.  *  and reliability of the software and data, the NLM and the U.S.
  24.  *  Government do not and cannot warrant the performance or results that
  25.  *  may be obtained by using this software or data. The NLM and the U.S.
  26.  *  Government disclaim all warranties, express or implied, including
  27.  *  warranties of performance, merchantability or fitness for any particular
  28.  *  purpose.
  29.  *
  30.  *  Please cite the author in any work or product based on this material.
  31.  *
  32.  * ===========================================================================
  33.  *
  34.  * Authors:  Josh Cherry
  35.  *
  36.  * File Description:  Predict antigenic determinants as described by
  37.  *                    Kolaskar and Tongaonkar, 1990
  38.  *
  39.  */
  40. #include <ncbi_pch.hpp>
  41. #include <corelib/ncbistd.hpp>
  42. #include <objects/seqloc/Seq_interval.hpp>
  43. #include <algo/sequence/antigenic.hpp>
  44. BEGIN_NCBI_SCOPE
  45. USING_SCOPE(objects);
  46. // Antigenic propensities by NCBIstdaa:
  47. const double CAntigenic::sm_Pa_table[26] =
  48.     {
  49.         0,
  50.         1.06383,  // A
  51.         0.77624,  // B (min of D and N)
  52.         1.41226,  // C
  53.         0.86646,  // D
  54.         0.85083,  // E
  55.         1.09132,  // F
  56.         0.87413,  // G
  57.         1.10505,  // H
  58.         1.15173,  // I
  59.         0.93026,  // K
  60.         1.25039,  // L
  61.         0.82567,  // M
  62.         0.77624,  // N
  63.         1.06383,  // P
  64.         1.01542,  // Q
  65.         0.87254,  // R
  66.         1.01219,  // S
  67.         0.90884,  // T
  68.         1.38428,  // V
  69.         0.89290,  // W
  70.         0.77624,  // X (min of standard 20)
  71.         1.16148,  // Y
  72.         0.85083,  // Z (min of E and Q)
  73.         0,        // U (not known)
  74.         0         // * (what's appropriate?)
  75.     };
  76. template<class Seq>
  77. void x_PredictAGSites(const Seq& seq, CAntigenic::TLocVec& results,
  78.                       int min_len)
  79. {
  80.     // First build vector giving local average of Pa (over 7 residues).
  81.     // Along the way, calculate the average for the whole protein.
  82.     
  83.     vector<double> Pa(seq.size());
  84.     double local_sum = 0, global_sum = 0;
  85.     for (int i = 0;  i < 7;  i++) {
  86.         local_sum += CAntigenic::sm_Pa_table[seq[i]];
  87.         global_sum += CAntigenic::sm_Pa_table[seq[i]];
  88.     }
  89.     Pa[3] = local_sum / 7;
  90.     
  91.     for (unsigned int i = 4;  i < seq.size() - 3;  i++) {
  92.         local_sum -= CAntigenic::sm_Pa_table[seq[i-4]];
  93.         local_sum += CAntigenic::sm_Pa_table[seq[i+3]];
  94.         global_sum += CAntigenic::sm_Pa_table[seq[i+3]];
  95.         Pa[i] = local_sum / 7;
  96.     }
  97.     double global_mean = global_sum / seq.size();
  98.     double thresh = min(global_mean, 1.0);
  99.     // now look for runs of Pa >= thresh of length >= min_len
  100.     int count = 0;
  101.     int begin;
  102.     // NOTE: we go one extra residue, in the knowledge that
  103.     // its Pa entry will be zero, so it will end any run
  104.     for (unsigned int i = 3;  i < seq.size() - 2;  i++) {
  105.         if (Pa[i] >= thresh) {
  106.             if (count == 0) {
  107.                 begin = i;  // the beginning of a run
  108.             }
  109.             count++;
  110.         } else {
  111.             // the end of a (possibly empty) run
  112.             if (count >= min_len) {
  113.                 // an antigenic site
  114.                 int end = i - 1;
  115.                 
  116.                 CRef<objects::CSeq_loc> loc(new objects::CSeq_loc());
  117.                 loc->SetInt().SetFrom(begin);
  118.                 loc->SetInt().SetTo(end);
  119.                 results.push_back(loc);
  120.             }
  121.             count = 0;
  122.         }
  123.     }
  124. }
  125. void CAntigenic::PredictSites(const string& seq,
  126.                               TLocVec& results,
  127.                               unsigned int min_len)
  128. {
  129.     x_PredictAGSites(seq, results, min_len);
  130. }
  131. void CAntigenic::PredictSites(const vector<char>& seq,
  132.                               TLocVec& results,
  133.                               unsigned int min_len)
  134. {
  135.     x_PredictAGSites(seq, results, min_len);
  136. }
  137. void CAntigenic::PredictSites(const objects::CSeqVector& seq,
  138.                               TLocVec& results,
  139.                               unsigned int min_len)
  140. {
  141.     string seq_ncbistdaa;
  142.     CSeqVector vec(seq);
  143.     vec.SetNcbiCoding();
  144.     vec.GetSeqData(0, vec.size(), seq_ncbistdaa);
  145.     x_PredictAGSites(seq_ncbistdaa, results, min_len);
  146. }
  147. END_NCBI_SCOPE
  148. /*
  149.  * ===========================================================================
  150.  * $Log: antigenic.cpp,v $
  151.  * Revision 1000.1  2004/06/01 18:10:22  gouriano
  152.  * PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.4
  153.  *
  154.  * Revision 1.4  2004/05/21 21:41:04  gorelenk
  155.  * Added PCH ncbi_pch.hpp
  156.  *
  157.  * Revision 1.3  2003/09/10 16:20:40  ucko
  158.  * Tweak to avoid undefined symbols with WorkShop.
  159.  *
  160.  * Revision 1.2  2003/09/09 16:09:38  dicuccio
  161.  * Moved lookup table to implementation file
  162.  *
  163.  * Revision 1.1  2003/09/02 14:53:11  jcherry
  164.  * Initial version
  165.  *
  166.  * ===========================================================================
  167.  */