docsum.asn
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:32k
源码类别:

生物技术

开发平台:

C/C++

  1. -- $Id: docsum.asn,v 1000.1 2004/06/01 19:31:58 gouriano Exp $
  2. NSE DEFINITIONS ::=
  3. BEGIN
  4. EXPORTS NSE-BaseURLSet, NSE-SubmitterList, NSE-AssayList, NSE-PopList, NSE-ExchangeSet;
  5. NSE-BaseURLSet ::= SEQUENCE {
  6. version VisibleString, -- version number of docsum.asn/docsum.dtd specification
  7. dbSNP-build-number INTEGER, -- build number of database for this export
  8. generated NSE-Date OPTIONAL , -- Date set-list generated
  9. query VisibleString OPTIONAL , -- Query terms or search constraints
  10. set-type INTEGER {
  11.         full-dump (1), -- Complete set of records in dbSNP
  12.          from-query (2), -- Set that satisfies query
  13.          single     (3) } , -- A single record
  14. url-set SET OF NSE-BaseURL     -- Set of URLs for resource integration
  15. }
  16. NSE-BaseURL ::= SEQUENCE { -- list of base URLs for queries to other integrated resources
  17. resource-id INTEGER, -- integer pointer to base URL  BaseURLList.url_id
  18. resource VisibleString OPTIONAL, -- name of the resource  BaseURLList.resource
  19. field-id VisibleString OPTIONAL, -- name of the data object used to link  BaseURLList.resource_id
  20. base-url VisibleString OPTIONAL  -- Base URL to which identifier is appended to form full URL  BaseURLList.base_url
  21. }
  22. NSE-SubmitterList ::= SEQUENCE { -- set of contact information for all handles defined in dbSNP
  23. version VisibleString, -- version number of docsum.asn/docsum.dtd specification
  24. dbSNP-build-number INTEGER, -- build number of database for this export
  25. generated NSE-Date OPTIONAL , -- Date set-list generated
  26. query VisibleString OPTIONAL , -- Query terms or search constraints
  27. set-type INTEGER {
  28.         full-dump (1), -- Complete set of records in dbSNP
  29.          from-query (2), -- Set that satisfies query
  30.          single     (3) } , -- A single record
  31. submitter-list SET OF NSE-Submitter 
  32. }
  33. NSE-Submitter ::= SEQUENCE {
  34. handle VisibleString, -- Short name, or handle as supplied by NCBI
  35. name VisibleString, -- Name of Principal Investigator for lab or submitting group
  36. fax VisibleString OPTIONAL, -- FAX number for submitter
  37. tel VisibleString OPTIONAL, -- telephone number for submitter
  38. email VisibleString OPTIONAL, -- email for submitter
  39. lab VisibleString OPTIONAL, -- Laboratory providing SNP
  40. inst VisibleString OPTIONAL, -- Institution Name
  41. addr SEQUENCE OF VisibleString OPTIONAL -- Address strings
  42. }
  43. NSE-AssayList ::= SEQUENCE { -- Table of batch characteristics for all SNP batches in dbSNP
  44. version VisibleString, -- version number of docsum.asn/docsum.dtd specification
  45. dbSNP-build-number INTEGER, -- build number of database for this export
  46. generated NSE-Date OPTIONAL , -- Date set-list generated
  47. query VisibleString OPTIONAL , -- Query terms or search constraints
  48. set-type INTEGER {
  49.         full-dump (1), -- Complete set of records in dbSNP
  50.          from-query (2), -- Set that satisfies query
  51.          single     (3) } , -- A single record
  52. assay-list SET OF NSE-Assay 
  53. }
  54. NSE-Assay ::= SEQUENCE {
  55. handle VisibleString,
  56. batch VisibleString, -- Submitter (local) batch id
  57. batch-id INTEGER, -- dbSNP batch_id. Use to join assay to subsnp and validation data (NSE-ss, NSE-ss, below).
  58. batch-type ENUMERATED { -- distinguishes submission batches from follow-up confirmation of refSNPs. 
  59. -- Join to appropriate object by batch-id.
  60. snpassay (1), -- detailed assay conditions for NSE-ss.
  61. validation (2), -- refSNPs confirmed by subsequent experimental data. Data for NSE-rs.validated-in-other-pop
  62. doublehit (3) }, -- refSNPs with both alleles seen twice. Data for NSE-rs.validated-by-2hit-2allele
  63. moltype ENUMERATED {
  64. genomic (1),
  65. cDNA (2),
  66. mito (3),
  67. chloro (4)
  68. },
  69. method VisibleString, -- local method id
  70. method-ex SEQUENCE OF VisibleString OPTIONAL, -- description of deviation from/addition to given method
  71. samplesize INTEGER OPTIONAL, -- number of chromosomes examined during ascertainment
  72. organism VisibleString OPTIONAL, -- Scientific Name
  73. taxid INTEGER OPTIONAL, -- taxonomy ID for organism from NCBI taxonomy database
  74. population VisibleString OPTIONAL, -- Population surveyed for variation
  75. strains SEQUENCE OF VisibleString OPTIONAL, -- Strains used in survey for variation
  76. citation SEQUENCE OF VisibleString OPTIONAL,
  77. linkout-url VisibleString OPTIONAL,
  78. comment SEQUENCE OF VisibleString OPTIONAL
  79. }
  80. NSE-PopList ::= SEQUENCE { -- Table of batch characteristics for all allele frequency batches in dbSNP
  81. version VisibleString, -- version number of docsum.asn/docsum.dtd specification
  82. dbSNP-build-number INTEGER, -- build number of database for this export
  83. generated NSE-Date OPTIONAL , -- Date set-list generated
  84. query VisibleString OPTIONAL , -- Query terms or search constraints
  85. set-type INTEGER {
  86.         full-dump (1), -- Complete set of records in dbSNP
  87.          from-query (2), -- Set that satisfies query
  88.          single     (3) } , -- A single record
  89. pop-list SET OF NSE-Pop
  90. }
  91. NSE-Pop ::= SEQUENCE {
  92. handle VisibleString,
  93. batch VisibleString, -- Submitter (local) batch id
  94. batch-id INTEGER, -- dbSNP batch_id. Use to join population allele data to subsnp data
  95. method VisibleString, -- local method id
  96. method-ex SEQUENCE OF VisibleString OPTIONAL, -- description of deviation from/addition to given method
  97. citation SEQUENCE OF VisibleString OPTIONAL,
  98. comment SEQUENCE OF VisibleString OPTIONAL
  99. }
  100. NSE-ExchangeSet ::= SEQUENCE {
  101. copyright SEQUENCE OF VisibleString OPTIONAL,
  102. version VisibleString, -- version number of docsum.asn/docsum.dtd specification
  103. dbSNP-build-number INTEGER, -- build number of database for this export
  104. generated NSE-Date OPTIONAL , -- Date set-list generated
  105. query VisibleString OPTIONAL , -- Query terms or search constraints
  106. source-dbs SET OF VisibleString OPTIONAL , -- List of source databases
  107. set-type INTEGER {
  108.         full-dump (1), -- Complete set of records in dbSNP
  109.          from-query (2), -- Set that satisfies query
  110.          single     (3) } , -- A single record
  111. set-depth INTEGER {
  112. brief-set (1), -- only summary information included in NSE-rs objects
  113. full-set (2) } , -- all information included in NSE-rs objects (data on subsnps in rs group)
  114. rs-set SET OF NSE-rs,   -- Set of Reference SNP docsums and grouped subSNP members
  115. num-refsnp-ids INTEGER OPTIONAL , -- Total number of refsnp-ids
  116. total-seq-length INTEGER OPTIONAL , -- Total length of exemplar flanking sequences
  117. num-contig-locs INTEGER OPTIONAL , -- Total number of contig locations from SNPContigLoc
  118. num-locus-ids INTEGER OPTIONAL , -- Total number of locus ids from SNPContigLocusId
  119. num-gi-hits INTEGER OPTIONAL , -- Total number of gi hits from MapLink
  120. num-3d-structs INTEGER OPTIONAL , -- Total number of 3D structures from SNP3D
  121. num-allele-freqs INTEGER OPTIONAL , -- Total number of allele frequences from SubPopAllele
  122. num-sts-hits INTEGER OPTIONAL , -- Total number of STS hits from SnpInSts
  123. num-unigene-cids INTEGER OPTIONAL  -- Total number of unigene cluster ids from UnigeneSnp
  124. }
  125. NSE-rs ::= SEQUENCE { -- defines the docsum structure for refSNP clusters, where a refSNP cluster (rs) is
  126. -- a grouping of individual dbSNP submissions that all refer to the same variation.
  127. -- The refsnp provides a single unified record for annotation of NCBI resources such
  128. -- as reference genome sequence.
  129. -- #######################################################
  130. -- ######
  131. -- ######   Data defined for both brief-sets and full-sets   
  132. -- ######
  133. -- #######################################################
  134. refsnp-id INTEGER, -- refSNP (rs) number
  135. taxid INTEGER, -- NCBI Taxonomy Database ID. 9606 for Homo sapiens
  136. organism VisibleString OPTIONAL, -- species abbreviation
  137. snp-class ENUMERATED {
  138. snp         (1), -- single nucleotide variation: alleles of length=1 and from set of {A,T,C,G}
  139. in-del      (2), -- insertion / deletion variation: alleles of different length or include '-' character
  140. het         (3), -- heterozygous (undetermined) variation: allele contains string '(heterozygous)'
  141. microsat    (4), -- microsatellite variation: allele string contains numbers and '(motif)' pattern
  142. named       (5), -- insertion/deletion of named object (length unknown)
  143. no-variation (6), -- novariation asserted for sequence
  144. mixed       (7),                -- mixed class
  145. mnp         (8)},               -- Multiple Nucleotide Polymorphism. All alleles of same length > 1
  146. snp-type ENUMERATED {
  147. notwithdrawn (1), -- variation is OK, default case
  148. artifact     (2), -- variation determined to be experimental artifact
  149. gene-dup      (3), -- variation artifact of duplicated gene region
  150. duplicatesub  (4), -- variation was duplicate submission
  151. notspecified  (5), -- no reason specified for withdrawal
  152. ambiguousloc  (6), -- variation has excessive number of potional locations in genome
  153. lowmapquality (7) -- evidence for calling variation deemed insufficient
  154. },
  155. moltype ENUMERATED { -- moltype from exemplar ss
  156. genomic (1),
  157. cDNA (2),
  158. mito (3),
  159. chloro (4)
  160. },
  161. create-date NSE-Date,       -- date the refsnp cluster was instantiated
  162. update-date NSE-Date OPTIONAL, -- most recent date the cluster was updated (member added or deleted)
  163. create-build INTEGER, -- build number when the cluster was created
  164. update-build INTEGER, -- latest build number when the cluster was updated
  165. observed VisibleString, -- list of all alleles observed in ss-list members, correcting for reverse
  166. -- complementation of memebers reported in reverse orientation
  167. seq-5 SEQUENCE OF VisibleString OPTIONAL, -- 5' sequence that flanks the variation
  168. seq-3 SEQUENCE OF VisibleString OPTIONAL, -- 3' sequence that flanks the variation
  169. -- all sequences are in forward orientation, complete sequence
  170. -- lower case letters indicate repetetitive or low-complexity sequence by RepeatMasker
  171. -- flanking sequence is reported in strings of 255 b.p. and multiple strings
  172. -- should be concatenated in order to reconstruct the complete flanking sequence.
  173. -- Sequence should be assembled as seq-5 + observed + seq-3
  174. seq-ss-exemplar INTEGER, -- dbSNP ss# selected as source of refSNP flanking sequence, ss# part of ss-list below 
  175. ncbi-build-id INTEGER OPTIONAL, -- NCBI build number for data on genome mapping to synchronize with NCBI MapViewer
  176. ncbi-num-chr-hits INTEGER OPTIONAL, -- total number of distinct chromosomes in contig-mapset
  177. ncbi-num-ctg-hits INTEGER OPTIONAL, -- total number of distinct contig-ids in contig-mapset
  178. ncbi-num-seq-loc INTEGER OPTIONAL, -- total number of distinct seq-loc's in contig-mapset
  179. ncbi-mapweight INTEGER OPTIONAL, -- location quality score for NCBI map display
  180. het REAL OPTIONAL, -- average heterozygosity 
  181. het-SE REAL OPTIONAL, -- standard error of heterozygosity 
  182. valid-prob-min INTEGER OPTIONAL, -- minimum reported success rate of all submissions in cluster
  183. valid-prob-max INTEGER OPTIONAL, -- maximum reported success rate of all submissions in cluster
  184. validated-other-pop BOOLEAN OPTIONAL, -- at least one ss in cluster was validated by independent assay
  185. val-other-pop-batches SET OF INTEGER OPTIONAL, -- dbSNP batch-id's for independent assay validation data. Use batch-ids to get methods etc.
  186. validated-by-frequency BOOLEAN OPTIONAL, -- at least one subsnp in cluster has frequency data submitted
  187. validated-by-cluster   BOOLEAN OPTIONAL, -- cluster has 2+ submissions, with 1+ submissions assayed with a non-computational method
  188. validated-by-2hit-2allele BOOLEAN OPTIONAL, --all alleles have been observed in 2+ chromosomes
  189. val-2hit-2allele SET OF INTEGER OPTIONAL, -- dbSNP batch-id's for double-hit snp validation data. Use batch-id to get methods, etc.
  190. validated-by-hapmap BOOLEAN OPTIONAL, -- validated by HapMap project
  191. genotype BOOLEAN OPTIONAL, -- at least one genotype reported for this refSNP
  192. linkout BOOLEAN OPTIONAL, -- YES if linkout to at least one submitter website
  193. last-action NSE-Date OPTIONAL, -- Date of update or create
  194. link-data SET OF NSE-rslink OPTIONAL,  -- link data for external resources
  195. ss-list SET OF NSE-ss, -- set of all subsnp id's in the refSNP cluster
  196. contig-mapset SET OF NSE-rsContigHit OPTIONAL, -- list of hits to genome in NT_ contig coordinates and functional relationships
  197. -- between variations and genes as annotated on contig sequence
  198. -- data from SNPContigLoc & ContigInfo tables
  199. sequence-mapset SET OF  NSE-rsSeqHit OPTIONAL, -- list of hits to genome in sequence component coordinates from MapLink and MapLinkArchive
  200. gene-info SET OF NSE-rsLocusID OPTIONAL, -- set of gene information inferred by blast similarity of variation and GenBank sequences.
  201. -- analysis is independent of annotation of genome sequence (contig-mapset, above) and
  202. -- includes variations mapped to mRNAs or genomic sequences that do not yet have a reference contig.
  203. sts-info SET OF INTEGER OPTIONAL, -- set of STS ids from SnpInSts
  204. unigene-info SET OF NSE-rsUnigene OPTIONAL, -- Unigene info from UnigeneSnp
  205.   structure-data SET OF NSE-rsStruct OPTIONAL -- set of snp to protein structure data based on map coordinates 
  206.                                                 -- and protein structure neighbors
  207. }
  208. NSE-rslink ::= SEQUENCE { -- link data for anther resource
  209. resource-id INTEGER, -- BaseURLList.url_id
  210. link-value VisibleString  -- value to append to NSE-ResourceURL.base-url for complete link
  211. }
  212. NSE-ss ::= SEQUENCE { -- data for an individual submission to dbSNP. All submssions (subsnps, ss#) are
  213. -- grouped into reference SNP clusters (rs) above.
  214. -- #######################################################
  215. -- ######
  216. -- ######   Data defined in both NSE-rs.brief-sets and full-sets   
  217. -- ######
  218. -- #######################################################
  219. handle VisibleString, -- Tag for the submitting laboratory
  220. batch-id INTEGER, -- dbSNP number for batch submission
  221. subsnp-id INTEGER, -- dbSNP accession number for submission (ss#)
  222. loc-snp-id VisibleString OPTIONAL, -- submitter (local) subsnp ID
  223. subsnp-class ENUMERATED { -- SubSNP classification by type of variation SubSNP.subsnp_class
  224. snp         (1), --   true single nucleotide polymorphism
  225. in-del      (2), --   insertion deletion polymorophism, deletions represented by '-' in allele string
  226. het         (3), --   variation has unknown sequence composition, but is observed to be heterozygous
  227. microsat    (4), --   microsatellite / simple sequence repeat
  228. named       (5), --   allele sequences defined by name tag instead of raw sequence, e.g. (Alu)/- 
  229. no-variation (6),  --   submission reports invariant region in surveyed sequence
  230. mnp         (8)}, --   multiple nucleotide polymorphism (all alleles same length where length>1)
  231. orient ENUMERATED { -- orientation of refsnp cluster members to refsnp cluster sequence
  232. forward     (1), -- ss flanking sequence is in same orientation as seq-ss-exemplar (above) 
  233. reversed    (2) }, -- flanking sequence and alleles are reverse complement of refSNP as defined
  234. -- by seq-ss-exemplar. 
  235. strand ENUMERATED { -- strand is defined as TOP/BOTTOM by nature of flanking nucleotide sequence itself
  236. top (1), -- 
  237. bottom (2) } OPTIONAL,
  238. moltype ENUMERATED { -- moltype from Batch table
  239. genomic (1),
  240. cDNA (2),
  241. mito (3),
  242. chloro (4)
  243. },
  244. build-id INTEGER, -- dbSNP build number when ss# was added to a refSNP (rs#) cluster
  245. method-class ENUMERATED { -- class of method used to assay for the variation
  246. dhplc        (1), -- Denaturing High Pressure Liquid Chromatography used to detect SNP
  247. hybridize    (2), -- a hybridization method (e.g. chip) was used to assay for variation
  248. computed     (3), -- variation was mined from sequence alignment with software
  249. sscp         (5), -- single stranded conformational polymorphism used to detect variation
  250. other    (6),  -- other method used to detect variation
  251. unknown  (7),  -- unknown method used to detect variation (not reported)
  252. rflp  (8), -- variation in enzyme restriction site used to detect variation
  253. sequence  (9)} OPTIONAL, -- samples were sequenced and resulting alignment used to define variation
  254.     validated ENUMERATED {
  255.         by-submitter (1),       -- subsnp has been experimentally validated by submitter
  256.         by-frequency (2),       -- subsnp has frequency data submitted
  257.         by-cluster   (3),       -- has 2+ submissions, with 1+ submission assayed with a non-computational method.
  258.         no-info      (4)        -- subsnp is not validated
  259.                 } OPTIONAL,
  260. linkout-url VisibleString OPTIONAL, -- append loc-snp-id to this base URL to construct a pointer to submitter data.
  261. -- #######################################################
  262. -- ######
  263. -- ######   Additional data supplied in full-set
  264. -- ######
  265. -- #######################################################
  266. snp-link VisibleString OPTIONAL, -- submission includes reference to another ss# (snp-link value) in dbSNP
  267. accession SEQUENCE OF VisibleString OPTIONAL, -- GenBank or dbSTS sequence accessions used to define local sequence context
  268. comment SEQUENCE OF VisibleString OPTIONAL, -- submitter notes on discovery protocol or measure of evidence for the submission
  269. meth-failure SEQUENCE OF VisibleString OPTIONAL,-- notes if submitter reports failure to detect or confirm snp with specific methods
  270. genename VisibleString OPTIONAL, -- gene snp was associated with by submitter
  271. locus-id VisibleString OPTIONAL, -- NCBI LocusLink ID for gene
  272. flank-5 SEQUENCE OF VisibleString OPTIONAL, -- flanking sequence not surveyed, but appended for minimum length requirements
  273. assay-5 SEQUENCE OF VisibleString OPTIONAL, -- flanking sequence surveyedd in [NSE-Assay.samplesize] chromosomes
  274. observed VisibleString OPTIONAL, -- /-delimited string of alleles observed by submitter
  275. assay-3 SEQUENCE OF VisibleString OPTIONAL, -- flanking sequence surveyed in [NSE-Assay.samplesize] chromosomes
  276. flank-3 SEQUENCE OF VisibleString OPTIONAL, -- flanking sequence not surveyed, but appended for minimum length requirements
  277. -- n.b. the complete 5' flanking sequence for a submission is constructed as
  278. --             flank-5 strings in order + assay-5 strings in order 
  279. --      the complete 3' flanking sequence is constructed as
  280. --             assay-3 strings in order + flank-3 strings in order
  281. pop-info SET OF NSE-ss-popinfo OPTIONAL 
  282. }
  283. NSE-rsContigHit ::= SEQUENCE { -- data from SNPContigLoc, ContigInfo tables, & SNPContigLocusId tables
  284. contig-id VisibleString, -- Id of contig when naming files for refSNPs x contig
  285. locations SET OF NSE-rsMaploc, -- set of all valid locations for variation on contig
  286. accession VisibleString OPTIONAL, -- Accession number of the contig
  287. version INTEGER OPTIONAL, -- version number of the contig
  288. chromosome VisibleString OPTIONAL -- Chromosome number
  289. }
  290. NSE-rsMaploc ::= SEQUENCE { -- Position of a single hit of a variation on a contig
  291. asn-from INTEGER, -- beginning of variation as feature on contig SNPContigLoc.asn_from
  292. asn-to INTEGER, -- end of variation as feature on contig SNPContigLoc.asn_to
  293. loc-type ENUMERATED { -- defines the seq-loc symbol if asn_from != asn_to SNPContigLoc.loc_type
  294. range (1), -- asn-from < asn-to  write as "asn-from..asn-to"
  295. exact (2), -- asn-from = asn-to write as "asn-from"
  296. between (3) }, -- asn-to = asn-from+1 write as "asn-from^asn-to"
  297. hit-quality ENUMERATED {
  298. high (1), -- if SNPContigLoc.proc_status = 0 (high quality hit)
  299. loose (2),  -- if SNPContigLoc.proc_status = 1 (lower quality hit admits dirty flanks)
  300. dense (3) } OPTIONAL,  -- if SNPContigLoc.proc_status = 8 (region of high SNP density like HLA)
  301. orient ENUMERATED { -- orientation of refSNP sequence to contig sequence
  302. forward (1), -- if SNPContigLoc.orientation = 0
  303. reverse (2) } OPTIONAL, -- if SNPContigLoc.orientation = 1
  304. physmap-str  VisibleString OPTIONAL, -- chromosome position of var as seq-loc in # of bases  SNPContigLoc.phys_pos
  305. physmap-int INTEGER OPTIONAL, -- chromosome position as integer for sorting SNPContigLoc.phys_pos_from
  306. fxn-set SET OF NSE-FxnSet OPTIONAL -- functional relationship of SNP (and possibly alleles) to genes at contig location
  307. -- fxn-set analysis is only available for NCBI contig-set
  308. }
  309. NSE-FxnSet ::= SEQUENCE {
  310. locusid INTEGER, -- locus-id of gene as aligned to contig SNPContigLocusId.locus_id
  311. symbol VisibleString OPTIONAL, -- symbol (official if present in LocusLink) of gene SNPContigLocusId.locus_symbol
  312. mrna-acc VisibleString OPTIONAL, -- mRNA accession if variation in transcript SNPContigLocusId.mrna_acc
  313. prot-acc VisibleString OPTIONAL, -- protein accession if variation in coding region interval SNPContigLocusId.protein_acc
  314. fxn-class-contig ENUMERATED {
  315. locus-region (1), -- variation in region of gene, but not in transcript SNPContigLocusId.fxn_class
  316. coding (2), -- variation in coding region of gene, assigned if allele-specific class unknown 
  317. coding-synon (3), -- no change in peptide for allele with respect to contig seq  **allele-specific class**
  318. coding-nonsynon (4), -- change in peptide with respect to contig sequence  **allele-specific class**
  319. mrna-utr (5), -- variation in transcript, but not in coding region interval
  320. intron (6), -- variation in intron, but not in first 2 or last 2 bases of intron
  321. splice-site (7),  -- variation in first 2 or last to bases of intron
  322. reference (8),  -- allele observed in reference contig sequence  **allele-specific class**
  323. exception (9) -- variation in coding region with exception raised on
  324. -- alignment. This occurs when protein with gap in sequence
  325. -- is aligned back to contig sequence. variations 3' of
  326. -- the gap have undefined functional inference.
  327. } ,
  328. reading-frame INTEGER OPTIONAL, -- position of variation in reading frame of transcript SNPContigLocusId.reading_Frame
  329. allele VisibleString OPTIONAL, -- allele, * denotes allele observed in contig sequence SNPContigLocusId.allele
  330. residue VisibleString OPTIONAL, -- translated amino acid residue for allele SNPContigLocusId.residue
  331. aa-position INTEGER OPTIONAL -- position of the variant residue in peptide sequence SNPContigLocusId.aa_position
  332. }
  333. NSE-rsSeqHit ::= SEQUENCE { -- Properties of individual mapping result from finished & draft sequences
  334. accession VisibleString, -- Accession of the sequence 
  335. version INTEGER OPTIONAL, -- version number of the sequence (reports most recent ver.) 
  336. loc SET OF NSE-SeqLoc -- set of all valid locations on accession
  337. }
  338. NSE-SeqLoc ::= SEQUENCE {
  339. asn-from INTEGER, -- beginning position of variation on sequence
  340. asn-to INTEGER OPTIONAL, -- end position of variation on sequence
  341. loc-type ENUMERATED {
  342. range  (1), -- asn-from < asn-to: write as "asn-from..asn-to"
  343. exact (2), -- asn-from = asn-to: write as "asn-from"
  344. between (3)  -- asn-from = asn-to - 1: write as "asn-from^asn-to"
  345. } OPTIONAL,
  346. source-db ENUMERATED {
  347. ref-mrna (1), -- NCBI RefSeq mRNA
  348. gb-sts (2), -- GenBank STS division
  349. gb-mrna (4), -- Genbank mrna
  350. ref-genome(5), -- NCBI RefSeq genomic
  351. gb-small (6), -- Genbank genomic < 30kb in length
  352. hgs-finish (10), -- genome sequence, finished
  353. hgs-draft (11), -- genome sequence, draft
  354. bes (12)  -- BAC-end sequence
  355. } OPTIONAL,
  356.         orient ENUMERATED {
  357.                 forward (1),                    -- if MapLink.orientation = 0
  358.                 reverse (2) } OPTIONAL          -- if MapLink.orientation = 1
  359. }
  360. NSE-rsLocusID ::= SEQUENCE {
  361. locus-id INTEGER,
  362. url-id INTEGER DEFAULT 3,
  363. symbol VisibleString OPTIONAL,
  364. fxn-class-mrna ENUMERATED { -- these values are the same encoding as Fxn-Set.fxn-class (above)
  365. locus-region (1),
  366. coding (2),
  367. coding-synon (3),
  368. coding-nonsynon (4),
  369. mrna-UTR (5),
  370. intron (6),
  371. splice-site (7),
  372. reference (8),
  373. exception       (9) 
  374. } OPTIONAL
  375. }
  376. NSE-rsStruct ::= SEQUENCE {
  377. prot-acc VisibleString,             -- accession of the protein with variation (SNP3D.protein_acc)
  378. prot-gi INTEGER,                    -- GI of the protein with variation (SNP3D.master_gi)
  379.      prot-loc INTEGER,                   -- position of the residue for the protein GI (SNP3D.aa_position)
  380.      prot-res VisibleString,             -- residue specified for protein at prot-loc location (SNP3D.contig_res)
  381.      rs-res VisibleString,               -- alternative residue specified by variation sequence (SNP3D.var_res)
  382. struct-gi INTEGER,                  -- GI of the structure neighbor (SNP3D.neighbor_gi)
  383. struct-loc INTEGER,                 -- position of the residue for the structure GI (SNP3D.neighbor_pos)
  384. struct-res VisibleString            -- residue specified for protein at struct-loc location (SNP3D.neighbor_res)
  385. }
  386.    
  387. NSE-rsUnigene ::= SEQUENCE {
  388. cluster-id INTEGER,    -- unigene_cid from UnigeneSnp
  389. gi-set SET OF INTEGER    -- list of gi's per unigene cluster
  390. NSE-ss-popinfo ::= SEQUENCE {
  391.   type VisibleString,  -- batch type (HET, ALLE) SubPop.type
  392. handle VisibleString,               -- submitter抯 handle
  393. batch-id INTEGER,
  394. pop-name VisibleString, -- submitter population ID SubPop.loc_pop_id
  395. pop-id INTEGER, -- dbSNP population ID SubPop.pop_id
  396. pop-class VisibleString OPTIONAL,  --dbSNP population class
  397. samplesize INTEGER OPTIONAL, -- sample size SubPop.samplesize                    
  398.   sub-het REAL OPTIONAL, -- submitted heterozygosity SubPop.sub_heterozygosity
  399. est-het REAL OPTIONAL, -- estimated heterogygosity SubPop.est_heterozygosity
  400.   est-het-se-sq REAL OPTIONAL, -- est het std. error
  401. sub-het-se-sq REAL OPTIONAL, -- submitted het std. error
  402. allele-info SET OF NSE-alleleinfo OPTIONAL  -- allele frequency data, genotype frequency data 
  403.                                                      -- available in Genotype Report
  404. }
  405. NSE-alleleinfo ::= SEQUENCE {
  406. snp-allele  VisibleString OPTIONAL, -- allele if ACTG                        
  407. other-allele VisibleString OPTIONAL, -- all other cases
  408.   freq REAL OPTIONAL, -- frequency as percentage
  409. count REAL OPTIONAL -- frequency as count
  410. }
  411. NSE-Date ::= CHOICE {
  412.     str VisibleString ,         -- for those unparsed dates
  413.     std NSE-Date-std }              -- use this if you can
  414. NSE-Date-std ::= SEQUENCE {         -- NOTE: this is NOT a unix tm struct
  415.     year INTEGER ,              -- full year (including 1900)
  416.     month INTEGER OPTIONAL ,    -- month (1-12)
  417.     day INTEGER OPTIONAL ,      -- day of month (1-31)
  418.     season VisibleString OPTIONAL }   -- for "spring", "may-june", etc
  419. END
  420. -- $Log: docsum.asn,v $
  421. -- Revision 1000.1  2004/06/01 19:31:58  gouriano
  422. -- PRODUCTION: UPGRADED [GCC34_MSVC7] Dev-tree R1.42
  423. --
  424. -- Revision 1.42  2004/05/27 18:15:35  kholodov
  425. -- Modified: allele info moved to popinfo structure
  426. --
  427. -- Revision 1.41  2004/05/24 18:38:34  kholodov
  428. -- Changed val-hapmap to validated-by-hapmap
  429. --
  430. -- Revision 1.40  2004/05/24 14:07:44  kholodov
  431. -- Added: val-hapmap field
  432. --
  433. -- Revision 1.39  2003/10/15 14:24:33  kholodov
  434. -- Modified: sequences now optional for NSE-rs
  435. --
  436. -- Revision 1.38  2003/09/22 20:14:58  kholodov
  437. -- Added: copyright notice
  438. --
  439. -- Revision 1.37  2003/07/09 19:36:33  kholodov
  440. -- Syntax error fixed
  441. --
  442. -- Revision 1.36  2003/07/09 18:10:39  sherry
  443. -- *** empty log message ***
  444. --
  445. -- Revision 1.35  2002/12/03 20:18:51  kholodov
  446. -- Modified: validation status is represented by 4 boolean values
  447. --
  448. -- Revision 1.34  2002/09/03 20:09:59  kholodov
  449. -- Added moltype for rs and ss, create-build, update-build for rs
  450. --
  451. -- Revision 1.33  2002/06/12 14:02:54  kholodov
  452. -- sts-info and unigene-info added
  453. --
  454. -- Revision 1.32  2002/04/12 13:53:14  kholodov
  455. -- Fixed wrong type name NSE-date to NSE-Date
  456. --
  457. -- Revision 1.31  2002/04/11 20:40:41  sherry
  458. -- added NSE-ss linkout-url, validation status; NSE-rs create-date, update-date; NSE-popinfo pop-class, and new section NSE-rsStruct with 3D structure data
  459. --
  460. -- Revision 1.30  2002/03/15 16:39:58  sherry
  461. -- added subsnp method-class and dbSNP-build-id
  462. --
  463. -- Revision 1.29  2002/01/22 16:27:16  kholodov
  464. -- Fixed syntax bug
  465. --
  466. -- Revision 1.27  2002/01/18 19:20:29  sherry
  467. -- added dense option to hit-quality for SNPs mapped to dense regions like HLA
  468. --
  469. -- Revision 1.26  2001/11/28 21:41:42  sherry
  470. -- correction to golden path (UCSC) contig hits
  471. --
  472. -- Revision 1.25  2001/11/28 20:58:42  sherry
  473. -- added UCSC mapping coordinates, and added amino-acid position to function-set
  474. --
  475. -- Revision 1.24  2001/08/21 14:52:56  sherry
  476. -- added subsnp-class (8) = mnp for multiple nucleotide polymorphisms with alleles of common length > 1 bp
  477. --
  478. -- Revision 1.23  2001/08/20 20:27:57  sherry
  479. -- added source-db (5) for RefSeq-genomic and ncbi-build-id for build number of genome mapping data
  480. --
  481. -- Revision 1.22  2001/08/20 20:19:45  sherry
  482. -- source-db (2) defined for GenBank STS division
  483. --
  484. -- Revision 1.21  2001/08/03 14:29:11  sherry
  485. -- added snp-class 'mnp' for variants with allele length > 1
  486. --
  487. -- Revision 1.20  2001/07/11 13:08:05  sherry
  488. -- typo correction and clarification of fxn-class names to fxn-class-contig and fxn-class-mrna
  489. --
  490. -- Revision 1.19  2001/06/08 14:18:59  sherry
  491. --  added exception value (9) to fxn-set
  492. --
  493. -- Revision 1.18  2001/05/02 15:11:19  kholodov
  494. -- Fixed: NSE-ss::orient: refersed -> reversed.
  495. --
  496. -- Revision 1.17  2001/05/01 14:23:44  sherry
  497. -- added seq-ss-exemplar and NSE-ss.orient to report orientation of cluster members to NSE-rs and its exemplar sequence, NSE-rs.seq-ss-exemplar.
  498. --
  499. -- Revision 1.16  2001/04/30 15:21:21  sherry
  500. -- added reference fxn-class if SNP allele is observed on reference contig sequence
  501. --
  502. -- Revision 1.15  2001/04/09 14:21:31  sherry
  503. -- additional documentation regarding refSNP flanking sequence: lowercase for repetititve regions and segmentation of long flanking sequences
  504. --
  505. -- Revision 1.14  2001/03/23 16:17:44  sherry
  506. -- removed unnecessary samplesize from NSE-Pop.. data in NSE-ss-popinfo
  507. --
  508. -- Revision 1.13  2001/03/23 14:10:22  sherry
  509. -- added samplesize to NSE-Pop
  510. --
  511. -- Revision 1.12  2001/03/22 14:04:54  sherry
  512. -- strain added to NSE-Assay
  513. --
  514. -- Revision 1.11  2001/02/01 17:53:01  sherry
  515. -- added MapLinkArchive to Table Source for sequence-mapset
  516. --
  517. -- Revision 1.10  2001/02/01 14:30:45  sherry
  518. -- added orientation to NSE-SeqLoc
  519. --
  520. -- Revision 1.9  2000/12/19 22:32:11  sherry
  521. -- added orientation/hit quality to contig hits, added source database to genbank hits
  522. --
  523. -- Revision 1.8  2000/12/19 22:19:48  sherry
  524. -- added subsnp frequency data and refsnp function via contig annotation
  525. --
  526. -- Revision 1.7  2000/12/05 19:19:57  kholodov
  527. -- Minor errors fixed
  528. --
  529. -- Revision 1.6  2000/12/05 17:06:35  sherry
  530. -- merged docsum.asn and export.asn in this version for a single data structure that can be populated as a brief-set (to emulate docsum.asn) or as a full-set for data exchange (to emulate exchange.asn)
  531. --
  532. --
  533. -- ###
  534. -- ### Revisions to earlier versions of exchange.asn
  535. -- ###
  536. --
  537. -- Revision exchange.asn 1.10  2000/11/03 15:26:41  sherry
  538. -- added subsnp-id to export.asn and made loc-snp-id optional in both export.asn and docsum.asn
  539. --
  540. -- Revision exchange.asn 1.9  2000/11/02 20:58:14  kholodov
  541. -- fixed incorrect field name
  542. --
  543. -- Revision exchange.asn 1.8  2000/10/18 22:07:11  sherry
  544. -- added XML version number and dbSNP_build number to ExchangeSet
  545. --
  546. -- Revision exchange.asn 1.7  2000/10/13 16:08:20  kholodov
  547. -- added commented CVS log
  548. --
  549. -- ###
  550. -- ### Revisions to earlier versions of docsum.asn
  551. -- ###
  552. --
  553. -- Revision docsum.asn 1.5  2000/11/03 15:26:41  sherry
  554. -- added subsnp-id to export.asn and made loc-snp-id optional in both export.asn and docsum.asn
  555. --
  556. -- Revision docsum.asn 1.4  2000/10/20 19:21:41  sherry
  557. -- added ambiguousloc and lowmapquality to legal withdrawn reasons
  558. --
  559. -- Revision docsum.asn 1.3  2000/08/24 14:47:53  sherry
  560. -- added subsnp-class and mixed snp-class type
  561. --
  562. --08/23/00: changed source of NCBI-RefSNPDocsum.taxid to new taxid column in SNP table
  563. -- added NCBI-RefSNPDocsum.snp-class type (7) for cases of mixed subsnp-class in single refSNP (none currently in database)
  564. -- added NCBI-subsnp-id.subsnp-class to define allele class for subSNP as well as SNP
  565. --06/20/00: Added 'duplicatesub' and 'NotSpecified' as WITHDRAWN reason for snp-type
  566. --05/22/00: Added splice to fxn-class, 
  567. -- added map coordinates in contig component coordinates (RefSNPSeqHit),
  568. -- changed RefSNPMaphit to RefSNPContigHit
  569. --04/18/00: Added subsnp set membership, flanking sequence
  570. --03/22/00: Added changes to fxn-class and validated
  571. --03/01/00: Added het-SE for standard error of mean heterozygosity
  572. --02/09/00:     Added unigene/UID/loc_cnt
  573. --02/08/00: Added mapping, fixed taxid, mapstring definitions
  574. --02/03/00:  Added RefSNP Docsum definitions
  575. -- Short version of ASN1 for development of genome annotation code