user.config
上传用户:qin5330
上传日期:2007-01-05
资源大小:114k
文件大小:7k
源码类别:

搜索引擎

开发平台:

Perl

  1. # DIRECTIVES COMMON to  HTTP and FILESYSTEM METHODS
  2. ###################################################
  3. # WINDOWS USERS NOTE:
  4. # Specify ALL files and directory paths in the
  5. # the config file using the forward slash, as
  6. # in /thisdirectory.
  7. #
  8. ###################################################
  9. IndexDir http://www.lib.berkeley.edu/~ghill/spider.html
  10. # For the FileSystem Method:
  11. # This is a space-separated list of files and
  12. # directories you want indexed. You can specify
  13. # more than one of these directives.
  14. #
  15. # For the HTTP Method:
  16. # Use the URL's from which you want the spidering
  17. # to begin.
  18. # NOTE: use  hmtl files rather than  directories
  19. # for this method.
  20. IndexFile /home/ghill/swishRon/dir1/myindex1
  21. # This is what the generated index file will be.
  22. IndexName "Improvement index"
  23. IndexDescription "This is an index to test bug fixes in swish." 
  24. IndexPointer "http://sunsite/~ghill/swish/index.html"
  25. IndexAdmin "Giulia Hill, (ghill@library.berkeley.edu)"
  26. # Extra information you can include in the index file.
  27. MetaNames first author
  28. # List of all the meta names used in the file to index, must be on one line.
  29. # If no metanames DO NOT deleted the line.
  30. IndexReport 3
  31. # This is how detailed you want reporting. You can specify numbers
  32. # 0 to 3 - 0 is totally silent, 3 is the most verbose.
  33. FollowSymLinks yes
  34. # Put "yes" to follow symbolic links in indexing, else "no".
  35. #UseStemming no
  36. # Put yes to apply word stemming algorithm during indexing,
  37. # else no. See the manual for info about stemming. Default is 
  38. # no.
  39. #PropertyNames author
  40. # List of meta tags names that can be retrieved with the -p option.
  41. # Index size increases as by the formula in the manual.
  42. # Comment out if no PropertyNames. Case insensitive
  43. IgnoreTotalWordCountWhenRanking yes
  44. # Put yes to ignore the total number of words in the file
  45. # when calculating ranking. Often better with merges and
  46. # small files. Default is no.
  47. #ReplaceRules remove "ghill/"
  48. #ReplaceRules replace "[a-z_0-9]*_m.*.html" "index.html"
  49. #ReplaceRules replace "/ghill" "moreghillmore"
  50. # ReplaceRules allow you to make changes to file pathnames
  51. # before they're indexed. This directive uses C library
  52. # regex.h regular expressions.
  53. # NOTE: do not use replace <string> "" to remove a string,
  54. # use remove <string> instead - you might get a core dump otherwise.
  55. #MinWordLimit 5
  56. # Set the minimum length of an indexable word. Every shorter word
  57. # will not be indexed.
  58. # Commenting out the line will give the defaults
  59. #MaxWordLimit 5
  60. # Set the maximum length of an indexable word. Every longer word
  61. # will not be indexed.
  62. # Commenting out the line will give the defaults
  63. #WordCharacters abcdefghijklmnopqrstuvwxyz&#;0123456789.@|,-'"[](~!@$%^{}_+?
  64. # WORDCHARS is a string of characters which SWISH permits to
  65. # be in words. Any strings which do not include these characters
  66. # will not be indexed. You can choose from any character in
  67. # the following string:
  68. #
  69. # abcdefghijklmnopqrstuvwxyz0123456789_|/-+=?!@$%^'"`~,.[]{}()
  70. #
  71. # Note that if you omit "0123456789&#;" you will not be able to
  72. # index HTML entities. DO NOT use the asterisk (*), lesser than
  73. # and greater than signs (<), (>), or colon (:).
  74. #
  75. # Including any of these four characters may cause funny things to happen.
  76. # NOTE: Do not escape  nor " and they cannot be the first letter in the string
  77. # Commenting out the line will give the defaults
  78. #BeginCharacters m"
  79. # Of the characters that you decide can go into words, this is
  80. # a list of characters that words can begin with. It should be
  81. # a subset of (or equal to) WordCharacters
  82. # Same rule of syntax as for WordCharacters
  83. #EndCharacters "
  84. # Of the characters that you decide can go into words, this is
  85. # a list of characters that words can begin with. It should be
  86. # a subset of (or equal to) WordCharacters
  87. # Same rule of syntax as for WordCharacters
  88. IgnoreLastChar 
  89. # Array that contains the char that, if considered valid in the middle of 
  90. # a word need to be disreguarded when at the end. It is important to also
  91. # set the given char's in the ENDCHARS array, otherwise the word will not
  92. # be indexed because considered invalid.
  93. # Commenting out the line will give the defaults
  94. # NOTE: if " is the first char in the string it needs to be escaped with 
  95. # Do not escape otherwise
  96. IgnoreFirstChar 
  97. # Array that contains the char that, if considered valid in the middle of
  98. # a word need to be disreguarded when at the beginning. This was to solve
  99. # the problem of parenthesis when there is no space between ( and the
  100. # beginning of the word.
  101. # Remember to add the char's to the BEGINCHARS list also.
  102. # Commenting out the line will give the defaults
  103. # NOTE: if " is the first char in the string it needs to be escaped with 
  104. # Do not escape otherwise
  105. IgnoreLimit 50 1000
  106. # This automatically omits words that appear too often in the files
  107. # (these words are called stopwords). Specify a whole percentage
  108. # and a number, such as "80 256". This omits words that occur in
  109. # over 80% of the files and appear in over 256 files. Comment out
  110. # to turn of auto-stopwording.
  111. #IgnoreWords SwishDefault
  112. # The IgnoreWords option allows you to specify words to ignore.
  113. # Comment out for no stopwords; the word "SwishDefault" will
  114. # include a list of default stopwords. Words should be separated by spaces
  115. # and may span multiple directives.
  116. IndexComments 0
  117. # This option allows the user decide if to index the comments in the files
  118. # default is 1. Set to 0 if comment indexing is not required.
  119. ##################################
  120. # DIRECTIVES for FILESYSTEMS ONLY 
  121. # Comment out if using HTTP
  122. ###################################
  123. #IndexOnly .html .q
  124. # Only files with these suffixes will be indexed.
  125. #NoContents .gif .xbm .au .mov .mpg .pdf .ps
  126. # Files with these suffixes will not have their contents indexed -
  127. # only their file names will be indexed.
  128. #FileRules pathname contains .*dir1
  129. #FileRules filename contains # % ~ .bak .orig .old old.
  130. #FileRules title contains construction example pointers
  131. #FileRules directory contains .htaccess
  132. #FileRules filename is index
  133. # Files matching the above criteria will *not* be indexed.
  134. # The patter matching uses the C library regex.h 
  135. ################################
  136. # DIRECTIVES for HTTP METHOD ONLY
  137. # Comment out if using FILESYSTEM
  138. ##################################
  139. MaxDepth 5
  140. #(default 5)  This defines how many links the spider should
  141. #follow before stopping.  A value of 0 configures the spider to
  142. #traverse all links
  143. Delay 60
  144. #(default 60)  The number of seconds to wait between issuing
  145. #requests to a server.
  146. TmpDir /home/ghill/swishRon/
  147. #(default /var/tmp)  The location of a writeable temp directory
  148. #on your system.  The HTTP access method tells the Perl helper to place
  149. #its files there.
  150. SpiderDirectory /home/ghill/swishRon/src/
  151. #(default ./)  The location of the Perl helper
  152. #script.  Remember, if you use a relative directory, it is relative to
  153. #your directory when you run SWISH-E, not to the directory that SWISH-E
  154. #is in.
  155. EquivalentServer http://library.berkeley.edu http://www.lib.berkeley.edu
  156. EquivalentServer http://sunsite.berkeley.edu:2000 http://sunsite.berkeley.edu
  157. #(default nothing)  This allows you to deal with
  158. #servers that use respond to multiple DNS names.  Each line should have
  159. #a list of all the method/names that should be considered equivalent. 
  160. #If you have multiple directives, each one defines its own set of equivalent
  161. #servers.