alignment_file.cpp
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:6k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: alignment_file.cpp,v $
  4.  * PRODUCTION Revision 1000.1  2004/06/01 19:41:12  gouriano
  5.  * PRODUCTION PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.6
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. /*  $Id: alignment_file.cpp,v 1000.1 2004/06/01 19:41:12 gouriano Exp $
  10.  * ===========================================================================
  11.  *
  12.  *                            PUBLIC DOMAIN NOTICE
  13.  *               National Center for Biotechnology Information
  14.  *
  15.  *  This software/database is a "United States Government Work" under the
  16.  *  terms of the United States Copyright Act.  It was written as part of
  17.  *  the author's official duties as a United States Government employee and
  18.  *  thus cannot be copyrighted.  This software/database is freely available
  19.  *  to the public for use. The National Library of Medicine and the U.S.
  20.  *  Government have not placed any restriction on its use or reproduction.
  21.  *
  22.  *  Although all reasonable efforts have been taken to ensure the accuracy
  23.  *  and reliability of the software and data, the NLM and the U.S.
  24.  *  Government do not and cannot warrant the performance or results that
  25.  *  may be obtained by using this software or data. The NLM and the U.S.
  26.  *  Government disclaim all warranties, express or implied, including
  27.  *  warranties of performance, merchantability or fitness for any particular
  28.  *  purpose.
  29.  *
  30.  *  Please cite the author in any work or product based on this material.
  31.  *
  32.  * ===========================================================================
  33.  *
  34.  * Authors:  Josh Cherry
  35.  *
  36.  * File Description:  C++ wrappers for alignment file reading
  37.  *
  38.  */
  39. #include <ncbi_pch.hpp>
  40. #include <util/creaders/alnread.h>
  41. #include <util/creaders/alignment_file.hpp>
  42. BEGIN_NCBI_SCOPE
  43. static char * ALIGNMENT_CALLBACK s_ReadLine(void *user_data)
  44. {
  45.     CNcbiIstream *is = static_cast<CNcbiIstream *>(user_data);
  46.     if (!*is) {
  47.         return 0;
  48.     }
  49.     string s;
  50.     getline(*is, s);
  51.     return strdup(s.c_str());
  52. }
  53. static void ALIGNMENT_CALLBACK s_ReportError (TErrorInfoPtr err_ptr,
  54.                            void *user_data)
  55. {
  56.     if (err_ptr->category != eAlnErr_Fatal) {
  57.         // ignore non-fatal errors
  58.         return;
  59.     }
  60.     string msg = "Error reading alignment file";
  61.     if (err_ptr->line_num > -1) {
  62.         msg += " at line " + NStr::IntToString(err_ptr->line_num);
  63.     }
  64.     if (err_ptr->message) {
  65.         msg += ":  ";
  66.         msg += err_ptr->message;
  67.     }
  68.     throw runtime_error(msg);
  69. }
  70. void CAlignmentFile::Read(CNcbiIstream& is, const CSequenceInfo& info,
  71.                           CAlignment& result)
  72. {
  73.     // make a SSequenceInfo corresponding to our CSequenceInfo argument
  74.     SSequenceInfo sinfo;
  75.     sinfo.alphabet = const_cast<char *>(info.GetAlphabet().c_str());
  76.     sinfo.beginning_gap = const_cast<char *>(info.GetBeginningGap().c_str());;
  77.     sinfo.end_gap = const_cast<char *>(info.GetEndGap().c_str());;
  78.     sinfo.middle_gap = const_cast<char *>(info.GetMiddleGap().c_str());
  79.     sinfo.missing = const_cast<char *>(info.GetMissing().c_str());
  80.     sinfo.match = const_cast<char *>(info.GetMatch().c_str());
  81.     // read the alignment stream
  82.     TAlignmentFilePtr afp;
  83.     afp = ReadAlignmentFile(s_ReadLine, (void *) &is,
  84.                             s_ReportError, 0, &sinfo);
  85.     if (!afp) {
  86.         throw runtime_error("Error reading alignment");
  87.     }
  88.     // build the CAlignment
  89.     result.SetSeqs().resize(afp->num_sequences);
  90.     result.SetIds().resize(afp->num_sequences);
  91.     for (int i = 0;  i < afp->num_sequences;  ++i) {
  92.         result.SetSeqs()[i] = NStr::ToUpper(afp->sequences[i]);
  93.         result.SetIds()[i] = afp->ids[i];
  94.     }
  95.     result.SetOrganisms().resize(afp->num_organisms);
  96.     for (int i = 0;  i < afp->num_organisms;  ++i) {
  97.         if (afp->organisms[i]) {
  98.             result.SetOrganisms()[i] = afp->organisms[i];
  99.         } else {
  100.             result.SetOrganisms()[i].erase();
  101.         }
  102.     }
  103.     result.SetDeflines().resize(afp->num_deflines);
  104.     for (int i = 0;  i < afp->num_deflines;  ++i) {
  105.         if (afp->deflines[i]) {
  106.             result.SetDeflines()[i] = afp->deflines[i];
  107.         } else {
  108.             result.SetDeflines()[i].erase();
  109.         }
  110.     }
  111.     AlignmentFileFree(afp);
  112. }
  113. void CAlignmentFile::ReadClustalProtein(CNcbiIstream& is,
  114.                                         CAlignment& result)
  115. {
  116.     // IUPAC alphabet
  117.     string prot_alphabet = "ABCDEFGHIKLMNPQRSTUVWXYZabcdefghiklmnpqrstuvwxyz";
  118.     CSequenceInfo info;
  119.     info.SetAlphabet(prot_alphabet);
  120.     info.SetAllGap("-");
  121.     CAlignmentFile::Read(is, info, result);
  122. }
  123. void CAlignmentFile::ReadClustalNuc(CNcbiIstream& is,
  124.                                     CAlignment& result)
  125. {
  126.     // Nucleotide alphabet: IUPAC plus 'x'
  127.     string nuc_alphabet = "ABCDGHKMNRSTUVWXYabcdghkmnrstuvwxy";
  128.     CSequenceInfo info;
  129.     info.SetAlphabet(nuc_alphabet);
  130.     info.SetAllGap("-");
  131.     CAlignmentFile::Read(is, info, result);
  132. }
  133. END_NCBI_SCOPE
  134. /*
  135.  * ===========================================================================
  136.  * $Log: alignment_file.cpp,v $
  137.  * Revision 1000.1  2004/06/01 19:41:12  gouriano
  138.  * PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.6
  139.  *
  140.  * Revision 1.6  2004/05/17 21:07:45  gorelenk
  141.  * Added include of PCH ncbi_pch.hpp
  142.  *
  143.  * Revision 1.5  2004/02/19 12:48:40  dicuccio
  144.  * Roll back to version 1.3
  145.  *
  146.  * Revision 1.3  2004/02/11 17:58:12  gorelenk
  147.  * Added missed modificator ALIGNMENT_CALLBACK to definitions of s_ReadLine
  148.  * and ALIGNMENT_CALLBACK.
  149.  *
  150.  * Revision 1.2  2004/02/10 02:58:09  ucko
  151.  * erase() strings rather than clear()ing them for compatibility with G++ 2.95.
  152.  *
  153.  * Revision 1.1  2004/02/09 16:02:34  jcherry
  154.  * Initial versionnnn
  155.  *
  156.  * ===========================================================================
  157.  */