scoremat.asn
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:8k
源码类别:

生物技术

开发平台:

C/C++

  1. --$Id: scoremat.asn,v 1000.1 2004/04/12 17:26:09 gouriano Exp $
  2. -- ===========================================================================
  3. --
  4. --                            PUBLIC DOMAIN NOTICE
  5. --               National Center for Biotechnology Information
  6. --
  7. --  This software/database is a "United States Government Work" under the
  8. --  terms of the United States Copyright Act.  It was written as part of
  9. --  the author's official duties as a United States Government employee and
  10. --  thus cannot be copyrighted.  This software/database is freely available
  11. --  to the public for use. The National Library of Medicine and the U.S.
  12. --  Government have not placed any restriction on its use or reproduction.
  13. --
  14. --  Although all reasonable efforts have been taken to ensure the accuracy
  15. --  and reliability of the software and data, the NLM and the U.S.
  16. --  Government do not and cannot warrant the performance or results that
  17. --  may be obtained by using this software or data. The NLM and the U.S.
  18. --  Government disclaim all warranties, express or implied, including
  19. --  warranties of performance, merchantability or fitness for any particular
  20. --  purpose.
  21. --
  22. --  Please cite the author in any work or product based on this material.
  23. --
  24. -- ===========================================================================
  25. --
  26. -- Author:  Christiam Camacho
  27. --
  28. -- File Description:
  29. --      ASN.1 definitions for scoring matrix
  30. --
  31. -- ===========================================================================
  32. -- $Log: scoremat.asn,v $
  33. -- Revision 1000.1  2004/04/12 17:26:09  gouriano
  34. -- PRODUCTION: UPGRADED [CATCHUP_003] Dev-tree R1.7
  35. --
  36. -- Revision 1.7  2004/02/23 15:42:24  camacho
  37. -- 1. Gave default value to Score-matrix::byrow field
  38. -- 2. Updated documentation
  39. --
  40. -- Revision 1.6  2003/08/25 19:03:28  bauer
  41. -- added raw frequencies and weights as optional score-matrix components
  42. --
  43. -- Revision 1.5  2003/06/16 12:19:56  madden
  44. -- Do not use Blast4-ka-block, other changes worked out with structure group
  45. --
  46. -- Revision 1.2  2002/12/03 14:01:45  camacho
  47. -- Data type changes
  48. --
  49. -- Revision 1.1  2002/12/02 22:15:27  camacho
  50. -- Initial revision
  51. --
  52. -- ===========================================================================
  53. NCBI-ScoreMat DEFINITIONS ::= BEGIN
  54. EXPORTS    Score-matrix, Score-matrix-parameters;
  55.     
  56. IMPORTS    Object-id   FROM NCBI-General
  57.            Seq-entry   FROM NCBI-Seqset;
  58. -- a rudimentary block/core-model, to be used with block-based alignment routines 
  59. -- and threading
  60. BlockProperty ::= SEQUENCE {
  61.   type     INTEGER { unassigned  (0),
  62.                      threshold   (1),       -- score threshold for heuristics
  63.      minscore    (2),       -- observed minimum score in CD
  64.      maxscore    (3),       -- observed maximum score in CD
  65.      meanscore   (4),       -- observed mean score in CD
  66.      variance    (5),       -- observed score variance
  67.      name       (10),       -- just name the block
  68.      is-optional(20),       -- block may not have to be used    
  69.                      other     (255) },
  70.   intvalue  INTEGER OPTIONAL,
  71.   textvalue VisibleString OPTIONAL
  72. }
  73. CoreBlock ::= SEQUENCE {
  74.   start          INTEGER,                   -- begin of block on query
  75.   stop           INTEGER,                   -- end of block on query
  76.   minstart       INTEGER OPTIONAL,          -- optional N-terminal extension
  77.   maxstop        INTEGER OPTIONAL,          -- optional C-terminal extension
  78.   property       SEQUENCE OF BlockProperty OPTIONAL
  79. }
  80. LoopConstraint ::= SEQUENCE {
  81.   minlength      INTEGER DEFAULT 0,         -- minimum length of unaligned region
  82.   maxlength      INTEGER DEFAULT 100000     -- maximum length of unaligned region
  83. }
  84. CoreDef ::= SEQUENCE {
  85.   nblocks        INTEGER,                   -- number of core elements/blocks
  86.   blocks         SEQUENCE OF CoreBlock,     -- nblocks locations
  87.   loops          SEQUENCE OF LoopConstraint -- (nblocks+1) constraints 
  88. }
  89. -- Scoring matrix that allows to store symmetric and non-symmetric matrices
  90. -- (PSSMs).
  91. --
  92. -- Column indices on the PSSM refer to the positions corresponding to the
  93. -- query/master sequence, i.e. the number of columns (N) is the same
  94. -- as the length of the query/master sequence. 
  95. -- Row indices refer to individual amino acid types, i.e. the number of 
  96. -- rows (M) is the same as the number of different residues in the 
  97. -- alphabet we use. Consequently, row labels are amino acid identifiers.
  98. --
  99. -- PSSMs are stored as linear arrays of integers. By default, we store
  100. -- them column-by-column, M values for the first column followed by M
  101. -- values for the second column, and so on. In order to provide
  102. -- flexibility for external applications, the boolean field "byrow" is 
  103. -- provided to specify the storage order.
  104. Score-matrix ::= SEQUENCE {
  105.     is-protein   BOOLEAN, -- Is the matrix for proteins
  106.     identifier   Object-id, -- name of matrix (e.g., "blosum62") or number
  107.     comments     SEQUENCE OF VisibleString OPTIONAL, -- comments on matrix.
  108.     -- The dimensions of the matrix are returned so the client can
  109.     -- verify that all data was received.  Both dimensions are returned for
  110.     -- non-symmetric matrices (psi-blast uses these).
  111.     nrows        INTEGER, -- number of rows
  112.     ncolumns     INTEGER, -- number of columns
  113.     -- row-labels is given to note the order of residue types so that it can
  114.     -- be cross-checked between applications.
  115.     -- If this field is not given, the matrix values are presented in 
  116.     -- order of the alphabet ncbistdaa is used for protein, ncbi4na for nucl.
  117.     -- for proteins the values returned correspond to 
  118.     -- (-,-), (-,A), (-,B), (-,C) ... (A,-), (A,A), (A,B), (A,C) ...
  119.     row-labels   SEQUENCE OF VisibleString OPTIONAL,
  120.     -- values of scoring matrix. Non-symmetric matrices are stored as described
  121.     -- by the byrow field
  122.     scores       SEQUENCE OF INTEGER OPTIONAL, 
  123.     -- are matrices stored row by row?
  124.     byrow        BOOLEAN DEFAULT FALSE, 
  125.     -- pseudocount constant used for PSSM
  126.     pseudocounts INTEGER OPTIONAL,             
  127.     -- PSSM representative sequence (master) 
  128.     query        Seq-entry OPTIONAL,           
  129.     -- frequencies observed in alignment
  130.     rawFreqs     SEQUENCE OF INTEGER OPTIONAL, 
  131.     -- residue frequencies
  132.     posFreqs     SEQUENCE OF INTEGER OPTIONAL, 
  133.     -- sequence weights for individual cells
  134.     weights      SEQUENCE OF INTEGER OPTIONAL, 
  135.     -- frequencies used in pseudocount method
  136.     freq-Ratios  INTEGER { unassigned  (0),
  137.                            blosum62    (1),
  138.                            blosum45    (2),
  139.                            blosum80    (3),
  140.                            blosum50    (4),
  141.                            blosum90    (5),
  142.                            pam30       (6),
  143.                            pam70       (7),
  144.                            pam250      (8),
  145.                            other     (255)
  146.                          } OPTIONAL,           
  147.     -- scaling factor for the scores
  148.     score-scale-factor INTEGER OPTIONAL,       
  149.     -- scaling factor for the frequencies
  150.     posFreqs-scale-factor INTEGER OPTIONAL,    
  151.     -- scaling factor for frequencies
  152.     rawFreqs-scale-factor INTEGER OPTIONAL,    
  153.     -- and their scaling factor
  154.     weights-scale-factor INTEGER OPTIONAL,     
  155.     -- scaled by score-scale-factor (above)
  156.     gapOpen      INTEGER OPTIONAL,             
  157.     -- scaled by score-scale-factor (above)
  158.     gapExtend    INTEGER OPTIONAL
  159. }
  160. -- Envelope containing matrix or pssm, Karlin-Altschul parameters, and block constraints.
  161. Score-matrix-parameters ::= SEQUENCE {
  162. matrix Score-matrix,
  163.         lambda          REAL OPTIONAL,
  164. kappa           REAL OPTIONAL,
  165. h               REAL OPTIONAL,
  166. constraints CoreDef OPTIONAL
  167. }
  168. END