DisjunctionMaxQuery.cs
上传用户:zhangkuixh
上传日期:2013-09-30
资源大小:5473k
文件大小:11k
源码类别:

搜索引擎

开发平台:

C#

  1. /*
  2.  * Copyright 2005 The Apache Software Foundation
  3.  * 
  4.  * Licensed under the Apache License, Version 2.0 (the "License");
  5.  * you may not use this file except in compliance with the License.
  6.  * You may obtain a copy of the License at
  7.  * 
  8.  * http://www.apache.org/licenses/LICENSE-2.0
  9.  * 
  10.  * Unless required by applicable law or agreed to in writing, software
  11.  * distributed under the License is distributed on an "AS IS" BASIS,
  12.  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  13.  * See the License for the specific language governing permissions and
  14.  * limitations under the License.
  15.  */
  16. using System;
  17. using IndexReader = Lucene.Net.Index.IndexReader;
  18. namespace Lucene.Net.Search
  19. {
  20. /// <summary> A query that generates the union of the documents produced by its subqueries, and that scores each document as the maximum
  21. /// score for that document produced by any subquery plus a tie breaking increment for any additional matching subqueries.
  22. /// This is useful to search for a word in multiple fields with different boost factors (so that the fields cannot be
  23. /// combined equivalently into a single search field).  We want the primary score to be the one associated with the highest boost,
  24. /// not the sum of the field scores (as BooleanQuery would give).
  25. /// If the query is "albino elephant" this ensures that "albino" matching one field and "elephant" matching
  26. /// another gets a higher score than "albino" matching both fields.
  27. /// To get this result, use both BooleanQuery and DisjunctionMaxQuery:  for each term a DisjunctionMaxQuery searches for it in
  28. /// each field, while the set of these DisjunctionMaxQuery's is combined into a BooleanQuery.
  29. /// The tie breaker capability allows results that include the same term in multiple fields to be judged better than results that
  30. /// include this term in only the best of those multiple fields, without confusing this with the better case of two different terms
  31. /// in the multiple fields.
  32. /// </summary>
  33. /// <author>  Chuck Williams
  34. /// </author>
  35. [Serializable]
  36. public class DisjunctionMaxQuery : Query, System.ICloneable
  37. {
  38. /* The subqueries */
  39. private System.Collections.ArrayList disjuncts = new System.Collections.ArrayList();
  40. /* Multiple of the non-max disjunct scores added into our final score.  Non-zero values support tie-breaking. */
  41. private float tieBreakerMultiplier = 0.0f;
  42. /// <summary>Creates a new empty DisjunctionMaxQuery.  Use add() to add the subqueries.</summary>
  43. /// <param name="tieBreakerMultiplier">this score of each non-maximum disjunct for a document is multiplied by this weight
  44. /// and added into the final score.  If non-zero, the value should be small, on the order of 0.1, which says that
  45. /// 10 occurrences of word in a lower-scored field that is also in a higher scored field is just as good as a unique
  46. /// word in the lower scored field (i.e., one that is not in any higher scored field.
  47. /// </param>
  48. public DisjunctionMaxQuery(float tieBreakerMultiplier)
  49. {
  50. this.tieBreakerMultiplier = tieBreakerMultiplier;
  51. }
  52. /// <summary> Creates a new DisjunctionMaxQuery</summary>
  53. /// <param name="disjuncts">a Collection<Query> of all the disjuncts to add
  54. /// </param>
  55. /// <param name="tieBreakerMultiplier">  the weight to give to each matching non-maximum disjunct
  56. /// </param>
  57. public DisjunctionMaxQuery(System.Collections.ICollection disjuncts, float tieBreakerMultiplier)
  58. {
  59. this.tieBreakerMultiplier = tieBreakerMultiplier;
  60. Add(disjuncts);
  61. }
  62. /// <summary>Add a subquery to this disjunction</summary>
  63. /// <param name="query">the disjunct added
  64. /// </param>
  65. public virtual void  Add(Query query)
  66. {
  67. disjuncts.Add(query);
  68. }
  69. /// <summary>Add a collection of disjuncts to this disjunction
  70. /// via Iterable<Query>
  71. /// </summary>
  72. public virtual void  Add(System.Collections.ICollection disjuncts)
  73. {
  74. this.disjuncts.AddRange(disjuncts);
  75. }
  76. /// <summary>An Iterator<Query> over the disjuncts </summary>
  77. public virtual System.Collections.IEnumerator Iterator()
  78. {
  79. return disjuncts.GetEnumerator();
  80. }
  81. /* The Weight for DisjunctionMaxQuery's, used to normalize, score and explain these queries */
  82. [Serializable]
  83. private class DisjunctionMaxWeight : Weight
  84. {
  85. private void  InitBlock(DisjunctionMaxQuery enclosingInstance)
  86. {
  87. this.enclosingInstance = enclosingInstance;
  88. }
  89. private DisjunctionMaxQuery enclosingInstance;
  90. public DisjunctionMaxQuery Enclosing_Instance
  91. {
  92. get
  93. {
  94. return enclosingInstance;
  95. }
  96. }
  97. private Searcher searcher; // The searcher with which we are associated.
  98. private System.Collections.ArrayList weights = new System.Collections.ArrayList(); // The Weight's for our subqueries, in 1-1 correspondence with disjuncts
  99. /* Construct the Weight for this Query searched by searcher.  Recursively construct subquery weights. */
  100. public DisjunctionMaxWeight(DisjunctionMaxQuery enclosingInstance, Searcher searcher)
  101. {
  102. InitBlock(enclosingInstance);
  103. this.searcher = searcher;
  104. for (int i = 0; i < Enclosing_Instance.disjuncts.Count; i++)
  105. weights.Add(((Query) Enclosing_Instance.disjuncts[i]).CreateWeight(searcher));
  106. }
  107. /* Return our associated DisjunctionMaxQuery */
  108. public virtual Query GetQuery()
  109. {
  110. return Enclosing_Instance;
  111. }
  112. /* Return our boost */
  113. public virtual float GetValue()
  114. {
  115. return Enclosing_Instance.GetBoost();
  116. }
  117. /* Compute the sub of squared weights of us applied to our subqueries.  Used for normalization. */
  118. public virtual float SumOfSquaredWeights()
  119. {
  120. float max = 0.0f, sum = 0.0f;
  121. for (int i = 0; i < weights.Count; i++)
  122. {
  123. float sub = ((Weight) weights[i]).SumOfSquaredWeights();
  124. sum += sub;
  125. max = System.Math.Max(max, sub);
  126. }
  127. return (((sum - max) * Enclosing_Instance.tieBreakerMultiplier * Enclosing_Instance.tieBreakerMultiplier) + max) * Enclosing_Instance.GetBoost() * Enclosing_Instance.GetBoost();
  128. }
  129. /* Apply the computed normalization factor to our subqueries */
  130. public virtual void  Normalize(float norm)
  131. {
  132. norm *= Enclosing_Instance.GetBoost(); // Incorporate our boost
  133. for (int i = 0; i < weights.Count; i++)
  134. ((Weight) weights[i]).Normalize(norm);
  135. }
  136. /* Create the scorer used to score our associated DisjunctionMaxQuery */
  137. public virtual Scorer Scorer(IndexReader reader)
  138. {
  139. DisjunctionMaxScorer result = new DisjunctionMaxScorer(Enclosing_Instance.tieBreakerMultiplier, Enclosing_Instance.GetSimilarity(searcher));
  140. for (int i = 0; i < weights.Count; i++)
  141. {
  142. Weight w = (Weight) weights[i];
  143. Scorer subScorer = w.Scorer(reader);
  144. if (subScorer == null)
  145. return null;
  146. result.Add(subScorer);
  147. }
  148. return result;
  149. }
  150. /* Explain the score we computed for doc */
  151. public virtual Explanation Explain(IndexReader reader, int doc)
  152. {
  153. if (Enclosing_Instance.disjuncts.Count == 1)
  154. return ((Weight) weights[0]).Explain(reader, doc);
  155. Explanation result = new Explanation();
  156. float max = 0.0f, sum = 0.0f;
  157. result.SetDescription(Enclosing_Instance.tieBreakerMultiplier == 0.0f ? "max of:" : "max plus " + Enclosing_Instance.tieBreakerMultiplier + " times others of:");
  158. for (int i = 0; i < weights.Count; i++)
  159. {
  160. Explanation e = ((Weight) weights[i]).Explain(reader, doc);
  161. if (e.GetValue() > 0)
  162. {
  163. result.AddDetail(e);
  164. sum += e.GetValue();
  165. max = System.Math.Max(max, e.GetValue());
  166. }
  167. }
  168. result.SetValue(max + (sum - max) * Enclosing_Instance.tieBreakerMultiplier);
  169. return result;
  170. }
  171. } // end of DisjunctionMaxWeight inner class
  172. /* Create the Weight used to score us */
  173. protected internal override Weight CreateWeight(Searcher searcher)
  174. {
  175. return new DisjunctionMaxWeight(this, searcher);
  176. }
  177. /// <summary>Optimize our representation and our subqueries representations</summary>
  178. /// <param name="reader">the IndexReader we query
  179. /// </param>
  180. /// <returns> an optimized copy of us (which may not be a copy if there is nothing to optimize) 
  181. /// </returns>
  182. public override Query Rewrite(IndexReader reader)
  183. {
  184. if (disjuncts.Count == 1)
  185. {
  186. Query singleton = (Query) disjuncts[0];
  187. Query result = singleton.Rewrite(reader);
  188. if (GetBoost() != 1.0f)
  189. {
  190. if (result == singleton)
  191. result = (Query) result.Clone();
  192. result.SetBoost(GetBoost() * result.GetBoost());
  193. }
  194. return result;
  195. }
  196. DisjunctionMaxQuery clone = null;
  197. for (int i = 0; i < disjuncts.Count; i++)
  198. {
  199. Query clause = (Query) disjuncts[i];
  200. Query rewrite = clause.Rewrite(reader);
  201. if (rewrite != clause)
  202. {
  203. if (clone == null)
  204. clone = (DisjunctionMaxQuery) this.Clone();
  205. clone.disjuncts[i] = rewrite;
  206. }
  207. }
  208. if (clone != null)
  209. return clone;
  210. else
  211. return this;
  212. }
  213. /// <summary>Create a shallow copy of us -- used in rewriting if necessary</summary>
  214. /// <returns> a copy of us (but reuse, don't copy, our subqueries) 
  215. /// </returns>
  216. public override System.Object Clone()
  217. {
  218. DisjunctionMaxQuery clone = (DisjunctionMaxQuery) base.Clone();
  219. clone.disjuncts = (System.Collections.ArrayList) this.disjuncts.Clone();
  220. return clone;
  221. }
  222. /// <summary>Prettyprint us.</summary>
  223. /// <param name="field">the field to which we are applied
  224. /// </param>
  225. /// <returns> a string that shows what we do, of the form "(disjunct1 | disjunct2 | ... | disjunctn)^boost"
  226. /// </returns>
  227. public override System.String ToString(System.String field)
  228. {
  229. System.Text.StringBuilder buffer = new System.Text.StringBuilder();
  230. buffer.Append("(");
  231. for (int i = 0; i < disjuncts.Count; i++)
  232. {
  233. Query subquery = (Query) disjuncts[i];
  234. if (subquery is BooleanQuery)
  235. {
  236. // wrap sub-bools in parens
  237. buffer.Append("(");
  238. buffer.Append(subquery.ToString(field));
  239. buffer.Append(")");
  240. }
  241. else
  242. buffer.Append(subquery.ToString(field));
  243. if (i != disjuncts.Count - 1)
  244. buffer.Append(" | ");
  245. }
  246. buffer.Append(")");
  247. if (tieBreakerMultiplier != 0.0f)
  248. {
  249. buffer.Append("~");
  250. buffer.Append(tieBreakerMultiplier);
  251. }
  252. if (GetBoost() != 1.0)
  253. {
  254. buffer.Append("^");
  255. buffer.Append(GetBoost());
  256. }
  257. return buffer.ToString();
  258. }
  259. /// <summary>Return true iff we represent the same query as o</summary>
  260. /// <param name="o">another object
  261. /// </param>
  262. /// <returns> true iff o is a DisjunctionMaxQuery with the same boost and the same subqueries, in the same order, as us
  263. /// </returns>
  264. public  override bool Equals(System.Object o)
  265. {
  266. if (!(o is DisjunctionMaxQuery))
  267. return false;
  268. DisjunctionMaxQuery other = (DisjunctionMaxQuery) o;
  269. return this.GetBoost() == other.GetBoost() && 
  270.                 this.tieBreakerMultiplier == other.tieBreakerMultiplier && 
  271.                 this.disjuncts.Equals(other.disjuncts);
  272. }
  273. /// <summary>Compute a hash code for hashing us</summary>
  274. /// <returns> the hash code
  275. /// </returns>
  276. public override int GetHashCode()
  277. {
  278. return BitConverter.ToInt32(BitConverter.GetBytes(GetBoost()), 0) + BitConverter.ToInt32(BitConverter.GetBytes(tieBreakerMultiplier), 0) + disjuncts.GetHashCode();
  279. }
  280. }
  281. }