gbseq.asn
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:7k
源码类别:

生物技术

开发平台:

C/C++

  1. --$Revision: 1000.1 $
  2. --*********************************************************
  3. --
  4. -- ASN.1 and XML for the components of a GenBank format sequence
  5. -- J.Ostell 2002
  6. --
  7. --*********************************************************
  8. NCBI-GBSeq DEFINITIONS ::=
  9. BEGIN
  10. --********
  11. --  GBSeq represents the elements in a GenBank style report
  12. --    of a sequence with some small additions to structure and support
  13. --    for protein (GenPept) versions of GenBank format as seen in
  14. --    Entrez. While this represents the simplification, reduction of
  15. --    detail, and flattening to a single sequence perspective of GenBank
  16. --    format (compared with the full ASN.1 or XML from which GenBank and
  17. --    this format is derived at NCBI), it is presented in ASN.1 or XML for
  18. --    automated parsing and processing. It is hoped that this compromise
  19. --    will be useful for those bulk processing at the GenBank format level
  20. --    of detail today. Since it is a compromise, a number of pragmatic
  21. --    decisions have been made.
  22. --
  23. --  In pursuit of simplicity and familiarity a number of
  24. --    fields do not have full substructure defined here where there is
  25. --    already a standard GenBank format string. For example:
  26. --
  27. --    Date  DD-Mon-YYYY
  28. --    Authors   LastName, Intials (with periods)
  29. --   Journal   JounalName Volume (issue), page-range (year)
  30. --   FeatureLocations as per GenBank feature table, but FeatureIntervals
  31. --    may also be provided as a convenience
  32. --   FeatureQualifiers  as per GenBank feature table
  33. --   Primary has a string that represents a table to construct
  34. --    a third party (TPA) sequence.
  35. --   other-seqids can have strings with the "vertical bar format" sequence
  36. --    identifiers used in BLAST for example, when they are non-genbank types.
  37. --    Currently in GenBank format you only see GI, but there are others, like
  38. --    patents, submitter clone names, etc which will appear here, as they
  39. --    always have in the ASN.1 format, and full XML format.
  40. --   source-db is a formatted text block for peptides in GenPept format that
  41. --    carries information from the source protein database.
  42. --
  43. --  There are also a number of elements that could have been
  44. --   more exactly specified, but in the interest of simplicity
  45. --   have been simply left as options. For example..
  46. --
  47. --  accession and accession.version will always appear in a GenBank record
  48. --   they are optional because this format can also be used for non-GenBank
  49. --   sequences, and in that case will have only "other-seqids".
  50. --
  51. --  sequences will normally all have "sequence" filled in. But contig records
  52. --    will have a "join" statement in the "contig" slot, and no "sequence".
  53. --    We also may consider a retrieval option with no sequence of any kind
  54. --     and no feature table to quickly check minimal values.
  55. --
  56. --  a reference may have an author list, or be from a consortium, or both.
  57. --
  58. --  some fields, such as taxonomy, do appear as separate elements in GenBank
  59. --    format but without a specific linetype (in GenBank format this comes
  60. --    under ORGANISM). Another example is the separation of primary accession
  61. --    from the list of secondary accessions. In GenBank format primary
  62. --    accession is just the first one on the list that includes all secondaries
  63. --    after it.
  64. --
  65. --  create-date deserves special comment. The date you see on the right hand
  66. --    side of the LOCUS line in GenBank format is actually the last date the
  67. --    the record was modified (or the update-date). The date the record was
  68. --    first submitted to GenBank appears in the first submission citation in
  69. --    the reference section. Internally in the databases and ASN.1 NCBI keeps
  70. --    the first date the record was released into the sequence database at
  71. --    NCBI as create-date. For records from EMBL, which supports create-date,
  72. --    it is the date provided by EMBL. For DDBJ records, which do not supply
  73. --    a create-date (same as GenBank format) the create-date is the first date
  74. --    NCBI saw the record from DDBJ. For older GenBank records, before NCBI
  75. --    took responsibility for GenBank, it is just the first date NCBI saw the
  76. --    record. Create-date can be very useful, so we expose it here, but users
  77. --    must understand it is only an approximation and comes from many sources,
  78. --    and with many exceptions and caveats. It does NOT tell you the first
  79. --    date the public might have seen this record and thus is NOT an accurate
  80. --    measure for legal issues of precedence.
  81. --
  82. --********
  83. GBSeq ::= SEQUENCE {
  84. locus VisibleString ,
  85. length INTEGER ,
  86. strandedness INTEGER {
  87. not-set (0) ,
  88. single-stranded (1) ,
  89. double-stranded (2) ,
  90. mixed-stranded (3) } DEFAULT not-set ,
  91. moltype INTEGER {
  92. nucleic-acid (0) ,
  93. dna (1) ,
  94. rna (2) ,
  95. trna (3) ,
  96. rrna (4) ,
  97. mrna (5) ,
  98. urna (6) ,
  99. snrna (7) ,
  100. snorna (8) ,
  101. peptide (9) } DEFAULT nucleic-acid ,
  102. topology INTEGER {
  103. linear (1) ,
  104. circular (2) } DEFAULT linear ,
  105. division VisibleString ,
  106. update-date VisibleString ,
  107. create-date VisibleString ,
  108. update-release VisibleString OPTIONAL ,
  109. create-release VisibleString OPTIONAL ,
  110. definition VisibleString ,
  111. primary-accession VisibleString OPTIONAL ,
  112. entry-version VisibleString OPTIONAL ,
  113. accession-version VisibleString OPTIONAL ,
  114. other-seqids SEQUENCE OF GBSeqid OPTIONAL ,
  115. secondary-accessions SEQUENCE OF GBSecondary-accn OPTIONAL,
  116. keywords SEQUENCE OF GBKeyword OPTIONAL ,
  117. segment VisibleString OPTIONAL ,
  118. source VisibleString ,
  119. organism VisibleString ,
  120. taxonomy VisibleString ,
  121. references SEQUENCE OF GBReference ,
  122. comment VisibleString OPTIONAL ,
  123. primary VisibleString OPTIONAL ,
  124. source-db VisibleString OPTIONAL ,
  125. database-reference VisibleString OPTIONAL ,
  126. feature-table SEQUENCE OF GBFeature OPTIONAL ,
  127. sequence VisibleString OPTIONAL ,  -- Optional for other dump forms
  128. contig VisibleString OPTIONAL }
  129. GBSecondary-accn ::= VisibleString
  130. GBSeqid ::= VisibleString
  131. GBKeyword ::= VisibleString
  132. GBReference ::= SEQUENCE {
  133. reference VisibleString ,
  134. authors SEQUENCE OF GBAuthor OPTIONAL ,
  135. consortium VisibleString OPTIONAL ,
  136. title VisibleString OPTIONAL ,
  137. journal VisibleString ,
  138. medline INTEGER OPTIONAL ,
  139. pubmed INTEGER OPTIONAL ,
  140. remark VisibleString OPTIONAL }
  141. GBAuthor ::= VisibleString
  142. GBFeature ::= SEQUENCE {
  143. key VisibleString ,
  144. location VisibleString ,
  145. intervals SEQUENCE OF GBInterval OPTIONAL ,
  146. quals SEQUENCE OF GBQualifier OPTIONAL }
  147. GBInterval ::= SEQUENCE {
  148. from INTEGER OPTIONAL ,
  149. to INTEGER OPTIONAL ,
  150. point INTEGER OPTIONAL ,
  151. accession VisibleString }
  152. GBQualifier ::= SEQUENCE {
  153. name VisibleString ,
  154. value VisibleString OPTIONAL }
  155. GBSet ::= SEQUENCE OF GBSeq
  156. END