pattern.h
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:6k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: pattern.h,v $
  4.  * PRODUCTION Revision 1000.2  2004/06/01 18:04:23  gouriano
  5.  * PRODUCTION PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.4
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. /* $Id: pattern.h,v 1000.2 2004/06/01 18:04:23 gouriano Exp $
  10.  * ===========================================================================
  11.  *
  12.  *                            PUBLIC DOMAIN NOTICE
  13.  *               National Center for Biotechnology Information
  14.  *
  15.  *  This software/database is a "United States Government Work" under the
  16.  *  terms of the United States Copyright Act.  It was written as part of
  17.  *  the author's offical duties as a United States Government employee and
  18.  *  thus cannot be copyrighted.  This software/database is freely available
  19.  *  to the public for use. The National Library of Medicine and the U.S.
  20.  *  Government have not placed any restriction on its use or reproduction.
  21.  *
  22.  *  Although all reasonable efforts have been taken to ensure the accuracy
  23.  *  and reliability of the software and data, the NLM and the U.S.
  24.  *  Government do not and cannot warrant the performance or results that
  25.  *  may be obtained by using this software or data. The NLM and the U.S.
  26.  *  Government disclaim all warranties, express or implied, including
  27.  *  warranties of performance, merchantability or fitness for any particular
  28.  *  purpose.
  29.  *
  30.  *  Please cite the author in any work or product based on this material.
  31.  *
  32.  * ===========================================================================
  33.  *
  34.  * Author: Ilya Dondoshansky
  35.  *
  36.  */
  37. /** @file pattern.h
  38.  * Functions for finding pattern matches in sequence (PHI-BLAST).
  39.  */
  40. #include <algo/blast/core/blast_def.h>
  41. #include <algo/blast/core/blast_options.h>
  42. #ifndef PATTERN__H
  43. #define PATTERN__H
  44. #ifdef __cplusplus
  45. extern "C" {
  46. #endif
  47. /** @todo: FIXME comment #defines */
  48. #define BUF_SIZE 100
  49. #define ASCII_SIZE 256
  50. #define BITS_PACKED_PER_WORD 30
  51. #define MaxW   11
  52. #define MaxP   (BITS_PACKED_PER_WORD * MaxW) /*threshold pattern length*/
  53. #define MAX_WORDS_IN_PATTERN 100
  54. #define MAX_HIT 20000
  55. #define OVERFLOW1  (1 << BITS_PACKED_PER_WORD)
  56. #define ONE_WORD_PATTERN  0
  57. #define MULTI_WORD_PATTERN 1
  58. #define ALPHABET_SIZE 25
  59. #define PATTERN_SPACE_SIZE 1000
  60. typedef struct patternSearchItems {
  61.    Int4 numWords;  /**< Number of words need to hold bit representation
  62.                         of pattern*/
  63.    Int4 match_mask;/**< Bit mask representation of input pattern
  64.                         for patterns that fit in a word*/
  65.    Int4 match_maskL[BUF_SIZE]; /**< Bit mask representation of input pattern
  66.                                     for long patterns*/
  67.    Int4 bitPatternByLetter[ASCII_SIZE][MaxW]; /**< Which positions can a 
  68.                                        character occur in for long patterns*/
  69.    Int4 *whichPositionPtr; /**< Used to pass a piece a row of the arrays*/
  70.    Uint4 *DNAwhichPrefixPosPtr; /**< Prefix position array for DNA patterns */
  71.    Uint4 *DNAwhichSuffixPosPtr; /* Suffix position array for DNA patterns*/
  72.    Int4 whichPositionsByCharacter[ASCII_SIZE]; /**< Which positions can a 
  73.                                       character occur in for short patterns*/
  74.    Uint4 DNAwhichPrefixPositions[ASCII_SIZE]; /**< For DNA sequence: where
  75.                                       prefix of DNA 4-mer matches pattern*/
  76.    Uint4 DNAwhichSuffixPositions[ASCII_SIZE]; /**< Similar to above for 
  77.                                                  suffixes*/
  78.     /*for each letter in the alphabet and each word in the masked
  79.       pattern representation, holds a bit pattern saying for which
  80.       positions the letter will match*/
  81.    Int4   SLL[MAX_WORDS_IN_PATTERN][ASCII_SIZE]; /**< Similar to
  82.                   whichPositionsByCharacter for many-word patterns*/
  83.    Uint4   DNAprefixSLL[MAX_WORDS_IN_PATTERN][ASCII_SIZE];
  84.   /*similar to DNAwhichPrefixPositions for many word patterns*/
  85.    Uint4   DNAsuffixSLL[MAX_WORDS_IN_PATTERN][ASCII_SIZE];
  86.   /*similar to DNAwhichSuffixPositions for many word patterns*/
  87.    Char   flagPatternLength; /**< Indicates if pattern fits in 1 word,
  88.                                 some words, or is too long*/
  89.    double  patternProbability;  /**< Probability of this letter
  90.                                         combination*/
  91.    Int4   whichMostSpecific; /**< Which word in an extra long pattern
  92.                                 has the lowest probability of a match*/
  93.    Int4   numPlacesInWord[MAX_WORDS_IN_PATTERN]; /**< When pattern has more 
  94.              than 7 words, keep track of how many places of pattern in each 
  95.              word of the  representation; was called lening */
  96.    Int4   spacing[MAX_WORDS_IN_PATTERN]; /**< Spaces until next word due to
  97.                                             wildcard*/
  98.    Int4   inputPatternMasked[MaxP];
  99.    Int4   highestPlace; /**< Number of places in pattern representation
  100.                            as computed in input_pattern; was called num*/
  101.   Int4   minPatternMatchLength; /**< Minimum length of string to match this 
  102.                                    pattern*/
  103.   Int4   wildcardProduct; /**< Product of wildcard lengths*/
  104. } patternSearchItems;
  105. /** Find the places where the pattern matches seq;
  106.  * 3 different methods are used depending on the length of the pattern.
  107.  * @param hitArray Stores the results as pairs of positions in consecutive
  108.  *                 entries [out]
  109.  * @param seq Sequence [in]
  110.  * @param len Length of the sequence [in]
  111.  * @param is_dna Indicates whether seq is made of DNA or protein letters [in]
  112.  * @param patternSearch Pattern information [in]
  113.  * @return Twice the number of hits (length of hitArray filled in)
  114. */
  115. Int4 FindPatternHits(Int4 *hitArray, const Uint1* seq, Int4 len, 
  116.                Boolean is_dna, patternSearchItems * patternSearch);
  117. #ifdef __cplusplus
  118. }
  119. #endif
  120. #endif /* PATTERN__H */