nmer_repeats.cpp
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:10k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: nmer_repeats.cpp,v $
  4.  * PRODUCTION Revision 1000.1  2004/06/01 20:55:10  gouriano
  5.  * PRODUCTION PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.6
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. /*  $Id: nmer_repeats.cpp,v 1000.1 2004/06/01 20:55:10 gouriano Exp $
  10.  * ===========================================================================
  11.  *
  12.  *                            PUBLIC DOMAIN NOTICE
  13.  *               National Center for Biotechnology Information
  14.  *
  15.  *  This software/database is a "United States Government Work" under the
  16.  *  terms of the United States Copyright Act.  It was written as part of
  17.  *  the author's official duties as a United States Government employee and
  18.  *  thus cannot be copyrighted.  This software/database is freely available
  19.  *  to the public for use. The National Library of Medicine and the U.S.
  20.  *  Government have not placed any restriction on its use or reproduction.
  21.  *
  22.  *  Although all reasonable efforts have been taken to ensure the accuracy
  23.  *  and reliability of the software and data, the NLM and the U.S.
  24.  *  Government do not and cannot warrant the performance or results that
  25.  *  may be obtained by using this software or data. The NLM and the U.S.
  26.  *  Government disclaim all warranties, express or implied, including
  27.  *  warranties of performance, merchantability or fitness for any particular
  28.  *  purpose.
  29.  *
  30.  *  Please cite the author in any work or product based on this material.
  31.  *
  32.  * ===========================================================================
  33.  *
  34.  * Authors:  Josh Cherry
  35.  *
  36.  * File Description:  gbench plugin for finding nmer repeats
  37.  *
  38.  */
  39. #include <ncbi_pch.hpp>
  40. #include "nmer_repeats.hpp"
  41. #include <algo/sequence/find_pattern.hpp>
  42. #include <gui/core/plugin_utils.hpp>
  43. #include <gui/core/version.hpp>
  44. #include <gui/dialogs/col/multi_col_dlg.hpp>
  45. #include <gui/plugin/PluginCommandSet.hpp>
  46. #include <gui/plugin/PluginInfo.hpp>
  47. #include <gui/plugin/PluginReply.hpp>
  48. #include <gui/plugin/PluginRequest.hpp>
  49. #include <gui/plugin/PluginValueConstraint.hpp>
  50. #include <gui/objutils/utils.hpp>
  51. #include <objects/seqloc/Seq_interval.hpp>
  52. #include <objmgr/seq_vector.hpp>
  53. #include <objmgr/util/sequence.hpp>
  54. BEGIN_NCBI_SCOPE
  55. USING_SCOPE(objects);
  56. CAlgoPlugin_NmerRepeats::~CAlgoPlugin_NmerRepeats()
  57. {
  58. }
  59. // standard plugin announce bopilerplate
  60. void CAlgoPlugin_NmerRepeats::GetInfo(CPluginInfo& info)
  61. {
  62.     info.Reset();
  63.     
  64.     // version info macro
  65.     info.SetInfo(CPluginVersion::eMajor, CPluginVersion::eMinor, 0,
  66.                  string(__DATE__) + " " + string(__TIME__),
  67.                  "CAlgoPlugin_NmerRepeats", "Search/Find n-mer repeats",
  68.                  "Find di-, tri-, and tetra-nucleotide repeats",
  69.                  "");
  70.     // command info
  71.     CPluginCommandSet& cmds = info.SetCommands();
  72.     CPluginCommand&    args = cmds.AddAlgoCommand(eAlgoCommand_run);
  73.     args.AddArgument("locs", "Locations to evaluate",
  74.                      CSeq_loc::GetTypeInfo(),
  75.                      CPluginArg::TData::e_Array);
  76.     args.SetConstraint("locs",
  77.                        (*CPluginValueConstraint::CreateSeqMol(),
  78.                         CSeq_inst::eMol_na,
  79.                         CSeq_inst::eMol_dna,
  80.                         CSeq_inst::eMol_rna));
  81.     args.AddDefaultArgument("dinuc_min",
  82.                             "Minimum number of dinuclotide units",
  83.                             CPluginArg::eInteger, "5");
  84.     args.AddDefaultArgument("trinuc_min",
  85.                             "Minimum number of trinuclotide units",
  86.                             CPluginArg::eInteger, "5");
  87.     args.AddDefaultArgument("tetranuc_min",
  88.                             "Minimum number of tetranuclotide units",
  89.                             CPluginArg::eInteger, "5");
  90. }
  91. void CAlgoPlugin_NmerRepeats::RunCommand(CPluginMessage& msg)
  92. {
  93.     const CPluginCommand& args = msg.GetRequest().GetCommand();
  94.     CPluginReply& reply = msg.SetReply();
  95.     _TRACE("CAlgoPlugin_NmerRepeats::Run()");
  96.     vector<int> minima(5);
  97.     minima[2] = args["dinuc_min"].AsInteger();
  98.     minima[3] = args["trinuc_min"].AsInteger();
  99.     minima[4] = args["tetranuc_min"].AsInteger();
  100.     if ( !m_Dialog.get() ) {
  101.         m_Dialog.reset(new CMultiColDlg());
  102.         m_Dialog->SetWindowSize(600, 350);
  103.         m_Dialog->SetTitle("n-mer Nucleotide Repeats");
  104.         m_Dialog->SetLabel("Search results:");
  105.         m_Dialog->SetColumn(0, "Sequence");
  106.         m_Dialog->SetColumn(1, "Location");
  107.         m_Dialog->SetColumn(2, "Position", FL_ALIGN_CENTER, 2.0);
  108.         m_Dialog->SetColumn(3, "Repeat", FL_ALIGN_LEFT);
  109.     }
  110.     // clear any previous contents
  111.     m_Dialog->SetRows(0);
  112.     vector<TSeqPos> starts;
  113.     vector<TSeqPos> ends;
  114.     int row = 0;
  115.     plugin_args::TLocList locs;
  116.     GetArgValue(args["locs"], locs);
  117.     ITERATE (plugin_args::TLocList, iter, locs) {
  118.         const CSeq_loc&  loc = *iter->second;
  119.         const IDocument& doc = *iter->first;
  120.         // find the best ID for this bioseq
  121.         try {
  122.             CBioseq_Handle handle = doc.GetScope().GetBioseqHandle(loc);
  123.             CSeqVector vec =
  124.                 handle.GetSequenceView(loc,
  125.                                        CBioseq_Handle::eViewConstructed,
  126.                                        CBioseq_Handle::eCoding_Iupac);
  127.             string seq;
  128.             vec.GetSeqData( (TSeqPos) 0, vec.size(), seq );
  129.             string& id_str  = m_Dialog->SetCell(row, 0);
  130.             string& loc_str = m_Dialog->SetCell(row, 1);
  131.             const CSeq_id& best_id =
  132.                 sequence::GetId(handle, sequence::eGetId_Best);
  133.             id_str.erase();
  134.             best_id.GetLabel(&id_str);
  135.             loc_str = CPluginUtils::GetLabel(loc, &doc.GetScope());
  136.             CRef<CSeq_annot> annot(new CSeq_annot());
  137.             string rep_unit;
  138.             int rep_num;
  139.             string rep_summary;
  140.             for (unsigned int n = 2;  n <= 4;  ++n) {
  141.                 starts.clear();
  142.                 ends.clear();
  143.                 CFindPattern::FindNucNmerRepeats(seq, n, minima[n],
  144.                                                  starts, ends);
  145.                 // preallocate rows in dialog for speed
  146.                 m_Dialog->SetRows(row + starts.size());
  147.                 for(unsigned int k = 0;  k < starts.size();  k++) {
  148.                     rep_unit = seq.substr(starts[k], n);
  149.                     
  150.                     if (rep_unit.find_first_not_of(rep_unit.substr(0, 1), 1)
  151.                         == string::npos) {
  152.                         // skip it if it's a monomer repeat
  153.                         continue;
  154.                     }
  155.                     
  156.                     if (n == 4) {
  157.                         // check whether it's a dimer repeat too
  158.                         if (rep_unit[2] == rep_unit[0] &&
  159.                             rep_unit[3] == rep_unit[1]) {
  160.                             // if so, skip it
  161.                             continue;
  162.                         }
  163.                     }
  164.                     rep_num = (ends[k] - starts[k] + 1) / n;
  165.                     rep_summary = "(" + rep_unit + ")" +
  166.                         NStr::IntToString(rep_num);
  167.                     string& pos_str = m_Dialog->SetCell(row, 2);
  168.                     // 1-based indexing for dialog
  169.                     pos_str = NStr::IntToString(starts[k] + 1) + " - "
  170.                         + NStr::IntToString(ends[k] + 1);
  171.                     m_Dialog->SetCell(row, 3) = rep_summary;
  172.                         
  173.                     ++row;
  174.                     // create feature
  175.                     CRef<CSeq_feat> feat(new CSeq_feat());
  176.                     // set correct location
  177.                     {{
  178.                         CSeq_loc& floc = feat->SetLocation();
  179.                         floc.SetInt().SetId().Assign(sequence::GetId(loc));
  180.                         floc.SetInt().SetFrom(starts[k]);
  181.                         floc.SetInt().SetTo(ends[k]);
  182.                         floc.SetInt().SetStrand(eNa_strand_plus);
  183.                         CRef<CSeq_loc> new_loc =
  184.                             CSeqUtils::RemapChildToParent(loc, floc);
  185.                         feat->SetLocation(*new_loc);
  186.                     }}
  187.                     // set feature data
  188.                     feat->SetData().SetRegion() = "Repeat: " + rep_summary;
  189.     
  190.                     // save in annot
  191.                     annot->SetData().SetFtable().push_back(feat);
  192.                 }
  193.             }
  194.             // add description to annot
  195.             annot->AddName("n-mer Repeats");
  196.             reply.AddObject(doc, *annot);
  197.         }
  198.         catch (CException& e) {
  199.             string str = CPluginUtils::GetLabel(loc, &doc.GetScope());
  200.             LOG_POST(Error << "Error processing location " << str
  201.                      << ": " << e.what());
  202.         }
  203. #ifndef _DEBUG
  204.         catch (...) {
  205.             string str = CPluginUtils::GetLabel(loc, &doc.GetScope());
  206.             LOG_POST(Error << "Error processing location " << str);
  207.         }
  208. #endif
  209.     }
  210.     //
  211.     // prepare our dialog box
  212.     //
  213.     m_Dialog->SetRows(row);
  214.     m_Dialog->Show();
  215.     reply.AddAction(CPluginReplyAction::e_Add_to_document);
  216.     reply.SetStatus(eMessageStatus_success);
  217. }
  218. END_NCBI_SCOPE
  219. /*
  220.  * ===========================================================================
  221.  * $Log: nmer_repeats.cpp,v $
  222.  * Revision 1000.1  2004/06/01 20:55:10  gouriano
  223.  * PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.6
  224.  *
  225.  * Revision 1.6  2004/05/21 22:27:46  gorelenk
  226.  * Added PCH ncbi_pch.hpp
  227.  *
  228.  * Revision 1.5  2004/05/03 13:05:42  dicuccio
  229.  * gui/utils --> gui/objutils where needed
  230.  *
  231.  * Revision 1.4  2004/03/05 17:35:37  dicuccio
  232.  * Use sequence::GetId() instead of CSeq_id::GetStringDescr()
  233.  *
  234.  * Revision 1.3  2004/01/27 18:37:47  dicuccio
  235.  * Code clean-up.  Use standard names for plugins.  Removed unnecessary #includes
  236.  *
  237.  * Revision 1.2  2004/01/07 15:50:37  dicuccio
  238.  * Adjusted for API change in CPluginUtils::GetLabel().  Standardized exception
  239.  * reporting in algorithms.
  240.  *
  241.  * Revision 1.1  2003/12/17 17:35:09  jcherry
  242.  * Initial version
  243.  *
  244.  * ===========================================================================
  245.  */