bt_rsearch.c
上传用户:romrleung
上传日期:2022-05-23
资源大小:18897k
文件大小:11k
源码类别:

MySQL数据库

开发平台:

Visual C++

  1. /*-
  2.  * See the file LICENSE for redistribution information.
  3.  *
  4.  * Copyright (c) 1996-2002
  5.  * Sleepycat Software.  All rights reserved.
  6.  */
  7. /*
  8.  * Copyright (c) 1990, 1993, 1994, 1995, 1996
  9.  * Keith Bostic.  All rights reserved.
  10.  */
  11. /*
  12.  * Copyright (c) 1990, 1993
  13.  * The Regents of the University of California.  All rights reserved.
  14.  *
  15.  * Redistribution and use in source and binary forms, with or without
  16.  * modification, are permitted provided that the following conditions
  17.  * are met:
  18.  * 1. Redistributions of source code must retain the above copyright
  19.  *    notice, this list of conditions and the following disclaimer.
  20.  * 2. Redistributions in binary form must reproduce the above copyright
  21.  *    notice, this list of conditions and the following disclaimer in the
  22.  *    documentation and/or other materials provided with the distribution.
  23.  * 3. Neither the name of the University nor the names of its contributors
  24.  *    may be used to endorse or promote products derived from this software
  25.  *    without specific prior written permission.
  26.  *
  27.  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  28.  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  29.  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  30.  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  31.  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  32.  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  33.  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  34.  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  35.  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  36.  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  37.  * SUCH DAMAGE.
  38.  */
  39. #include "db_config.h"
  40. #ifndef lint
  41. static const char revid[] = "$Id: bt_rsearch.c,v 11.34 2002/07/03 19:03:50 bostic Exp $";
  42. #endif /* not lint */
  43. #ifndef NO_SYSTEM_INCLUDES
  44. #include <sys/types.h>
  45. #endif
  46. #include "db_int.h"
  47. #include "dbinc/db_page.h"
  48. #include "dbinc/btree.h"
  49. #include "dbinc/db_shash.h"
  50. #include "dbinc/lock.h"
  51. /*
  52.  * __bam_rsearch --
  53.  * Search a btree for a record number.
  54.  *
  55.  * PUBLIC: int __bam_rsearch __P((DBC *, db_recno_t *, u_int32_t, int, int *));
  56.  */
  57. int
  58. __bam_rsearch(dbc, recnop, flags, stop, exactp)
  59. DBC *dbc;
  60. db_recno_t *recnop;
  61. u_int32_t flags;
  62. int stop, *exactp;
  63. {
  64. BINTERNAL *bi;
  65. BTREE_CURSOR *cp;
  66. DB *dbp;
  67. DB_LOCK lock;
  68. DB_MPOOLFILE *mpf;
  69. PAGE *h;
  70. RINTERNAL *ri;
  71. db_indx_t adjust, deloffset, indx, top;
  72. db_lockmode_t lock_mode;
  73. db_pgno_t pg;
  74. db_recno_t recno, t_recno, total;
  75. int ret, stack;
  76. dbp = dbc->dbp;
  77. mpf = dbp->mpf;
  78. cp = (BTREE_CURSOR *)dbc->internal;
  79. BT_STK_CLR(cp);
  80. /*
  81.  * There are several ways we search a btree tree.  The flags argument
  82.  * specifies if we're acquiring read or write locks and if we are
  83.  * locking pairs of pages.  In addition, if we're adding or deleting
  84.  * an item, we have to lock the entire tree, regardless.  See btree.h
  85.  * for more details.
  86.  *
  87.  * If write-locking pages, we need to know whether or not to acquire a
  88.  * write lock on a page before getting it.  This depends on how deep it
  89.  * is in tree, which we don't know until we acquire the root page.  So,
  90.  * if we need to lock the root page we may have to upgrade it later,
  91.  * because we won't get the correct lock initially.
  92.  *
  93.  * Retrieve the root page.
  94.  */
  95. pg = cp->root;
  96. stack = LF_ISSET(S_STACK) ? 1 : 0;
  97. lock_mode = stack ? DB_LOCK_WRITE : DB_LOCK_READ;
  98. if ((ret = __db_lget(dbc, 0, pg, lock_mode, 0, &lock)) != 0)
  99. return (ret);
  100. if ((ret = mpf->get(mpf, &pg, 0, &h)) != 0) {
  101. /* Did not read it, so we can release the lock */
  102. (void)__LPUT(dbc, lock);
  103. return (ret);
  104. }
  105. /*
  106.  * Decide if we need to save this page; if we do, write lock it.
  107.  * We deliberately don't lock-couple on this call.  If the tree
  108.  * is tiny, i.e., one page, and two threads are busily updating
  109.  * the root page, we're almost guaranteed deadlocks galore, as
  110.  * each one gets a read lock and then blocks the other's attempt
  111.  * for a write lock.
  112.  */
  113. if (!stack &&
  114.     ((LF_ISSET(S_PARENT) && (u_int8_t)(stop + 1) >= h->level) ||
  115.     (LF_ISSET(S_WRITE) && h->level == LEAFLEVEL))) {
  116. (void)mpf->put(mpf, h, 0);
  117. (void)__LPUT(dbc, lock);
  118. lock_mode = DB_LOCK_WRITE;
  119. if ((ret = __db_lget(dbc, 0, pg, lock_mode, 0, &lock)) != 0)
  120. return (ret);
  121. if ((ret = mpf->get(mpf, &pg, 0, &h)) != 0) {
  122. /* Did not read it, so we can release the lock */
  123. (void)__LPUT(dbc, lock);
  124. return (ret);
  125. }
  126. stack = 1;
  127. }
  128. /*
  129.  * If appending to the tree, set the record number now -- we have the
  130.  * root page locked.
  131.  *
  132.  * Delete only deletes exact matches, read only returns exact matches.
  133.  * Note, this is different from __bam_search(), which returns non-exact
  134.  * matches for read.
  135.  *
  136.  * The record may not exist.  We can only return the correct location
  137.  * for the record immediately after the last record in the tree, so do
  138.  * a fast check now.
  139.  */
  140. total = RE_NREC(h);
  141. if (LF_ISSET(S_APPEND)) {
  142. *exactp = 0;
  143. *recnop = recno = total + 1;
  144. } else {
  145. recno = *recnop;
  146. if (recno <= total)
  147. *exactp = 1;
  148. else {
  149. *exactp = 0;
  150. if (!LF_ISSET(S_PAST_EOF) || recno > total + 1) {
  151. /*
  152.  * Keep the page locked for serializability.
  153.  *
  154.  * XXX
  155.  * This leaves the root page locked, which will
  156.  * eliminate any concurrency.  A possible fix
  157.  * would be to lock the last leaf page instead.
  158.  */
  159. (void)mpf->put(mpf, h, 0);
  160. (void)__TLPUT(dbc, lock);
  161. return (DB_NOTFOUND);
  162. }
  163. }
  164. }
  165. /*
  166.  * !!!
  167.  * Record numbers in the tree are 0-based, but the recno is
  168.  * 1-based.  All of the calculations below have to take this
  169.  * into account.
  170.  */
  171. for (total = 0;;) {
  172. switch (TYPE(h)) {
  173. case P_LBTREE:
  174. case P_LDUP:
  175. recno -= total;
  176. /*
  177.  * There may be logically deleted records on the page.
  178.  * If there are enough, the record may not exist.
  179.  */
  180. if (TYPE(h) == P_LBTREE) {
  181. adjust = P_INDX;
  182. deloffset = O_INDX;
  183. } else {
  184. adjust = O_INDX;
  185. deloffset = 0;
  186. }
  187. for (t_recno = 0, indx = 0;; indx += adjust) {
  188. if (indx >= NUM_ENT(h)) {
  189. *exactp = 0;
  190. if (!LF_ISSET(S_PAST_EOF) ||
  191.     recno > t_recno + 1) {
  192. ret = DB_NOTFOUND;
  193. goto err;
  194. }
  195. }
  196. if (!B_DISSET(GET_BKEYDATA(dbp, h,
  197.     indx + deloffset)->type) &&
  198.     ++t_recno == recno)
  199. break;
  200. }
  201. /* Correct from 1-based to 0-based for a page offset. */
  202. BT_STK_ENTER(dbp->dbenv,
  203.     cp, h, indx, lock, lock_mode, ret);
  204. if (ret != 0)
  205. goto err;
  206. return (0);
  207. case P_IBTREE:
  208. for (indx = 0, top = NUM_ENT(h);;) {
  209. bi = GET_BINTERNAL(dbp, h, indx);
  210. if (++indx == top || total + bi->nrecs >= recno)
  211. break;
  212. total += bi->nrecs;
  213. }
  214. pg = bi->pgno;
  215. break;
  216. case P_LRECNO:
  217. recno -= total;
  218. /* Correct from 1-based to 0-based for a page offset. */
  219. --recno;
  220. BT_STK_ENTER(dbp->dbenv,
  221.     cp, h, recno, lock, lock_mode, ret);
  222. if (ret != 0)
  223. goto err;
  224. return (0);
  225. case P_IRECNO:
  226. for (indx = 0, top = NUM_ENT(h);;) {
  227. ri = GET_RINTERNAL(dbp, h, indx);
  228. if (++indx == top || total + ri->nrecs >= recno)
  229. break;
  230. total += ri->nrecs;
  231. }
  232. pg = ri->pgno;
  233. break;
  234. default:
  235. return (__db_pgfmt(dbp->dbenv, h->pgno));
  236. }
  237. --indx;
  238. if (stack) {
  239. /* Return if this is the lowest page wanted. */
  240. if (LF_ISSET(S_PARENT) && stop == h->level) {
  241. BT_STK_ENTER(dbp->dbenv,
  242.     cp, h, indx, lock, lock_mode, ret);
  243. if (ret != 0)
  244. goto err;
  245. return (0);
  246. }
  247. BT_STK_PUSH(dbp->dbenv,
  248.     cp, h, indx, lock, lock_mode, ret);
  249. if (ret != 0)
  250. goto err;
  251. lock_mode = DB_LOCK_WRITE;
  252. if ((ret =
  253.     __db_lget(dbc, 0, pg, lock_mode, 0, &lock)) != 0)
  254. goto err;
  255. } else {
  256. /*
  257.  * Decide if we want to return a pointer to the next
  258.  * page in the stack.  If we do, write lock it and
  259.  * never unlock it.
  260.  */
  261. if ((LF_ISSET(S_PARENT) &&
  262.     (u_int8_t)(stop + 1) >= (u_int8_t)(h->level - 1)) ||
  263.     (h->level - 1) == LEAFLEVEL)
  264. stack = 1;
  265. (void)mpf->put(mpf, h, 0);
  266. lock_mode = stack &&
  267.     LF_ISSET(S_WRITE) ? DB_LOCK_WRITE : DB_LOCK_READ;
  268. if ((ret = __db_lget(dbc,
  269.     LCK_COUPLE_ALWAYS, pg, lock_mode, 0, &lock)) != 0) {
  270. /*
  271.  * If we fail, discard the lock we held.  This
  272.  * is OK because this only happens when we are
  273.  * descending the tree holding read-locks.
  274.  */
  275. __LPUT(dbc, lock);
  276. goto err;
  277. }
  278. }
  279. if ((ret = mpf->get(mpf, &pg, 0, &h)) != 0)
  280. goto err;
  281. }
  282. /* NOTREACHED */
  283. err: BT_STK_POP(cp);
  284. __bam_stkrel(dbc, 0);
  285. return (ret);
  286. }
  287. /*
  288.  * __bam_adjust --
  289.  * Adjust the tree after adding or deleting a record.
  290.  *
  291.  * PUBLIC: int __bam_adjust __P((DBC *, int32_t));
  292.  */
  293. int
  294. __bam_adjust(dbc, adjust)
  295. DBC *dbc;
  296. int32_t adjust;
  297. {
  298. BTREE_CURSOR *cp;
  299. DB *dbp;
  300. DB_MPOOLFILE *mpf;
  301. EPG *epg;
  302. PAGE *h;
  303. db_pgno_t root_pgno;
  304. int ret;
  305. dbp = dbc->dbp;
  306. mpf = dbp->mpf;
  307. cp = (BTREE_CURSOR *)dbc->internal;
  308. root_pgno = cp->root;
  309. /* Update the record counts for the tree. */
  310. for (epg = cp->sp; epg <= cp->csp; ++epg) {
  311. h = epg->page;
  312. if (TYPE(h) == P_IBTREE || TYPE(h) == P_IRECNO) {
  313. if (DBC_LOGGING(dbc)) {
  314. if ((ret = __bam_cadjust_log(dbp, dbc->txn,
  315.     &LSN(h), 0, PGNO(h), &LSN(h),
  316.     (u_int32_t)epg->indx, adjust,
  317.     PGNO(h) == root_pgno ?
  318.     CAD_UPDATEROOT : 0)) != 0)
  319. return (ret);
  320. } else
  321. LSN_NOT_LOGGED(LSN(h));
  322. if (TYPE(h) == P_IBTREE)
  323. GET_BINTERNAL(dbp, h, epg->indx)->nrecs +=
  324.     adjust;
  325. else
  326. GET_RINTERNAL(dbp, h, epg->indx)->nrecs +=
  327.     adjust;
  328. if (PGNO(h) == root_pgno)
  329. RE_NREC_ADJ(h, adjust);
  330. if ((ret = mpf->set(mpf, h, DB_MPOOL_DIRTY)) != 0)
  331. return (ret);
  332. }
  333. }
  334. return (0);
  335. }
  336. /*
  337.  * __bam_nrecs --
  338.  * Return the number of records in the tree.
  339.  *
  340.  * PUBLIC: int __bam_nrecs __P((DBC *, db_recno_t *));
  341.  */
  342. int
  343. __bam_nrecs(dbc, rep)
  344. DBC *dbc;
  345. db_recno_t *rep;
  346. {
  347. DB *dbp;
  348. DB_LOCK lock;
  349. DB_MPOOLFILE *mpf;
  350. PAGE *h;
  351. db_pgno_t pgno;
  352. int ret;
  353. dbp = dbc->dbp;
  354. mpf = dbp->mpf;
  355. pgno = dbc->internal->root;
  356. if ((ret = __db_lget(dbc, 0, pgno, DB_LOCK_READ, 0, &lock)) != 0)
  357. return (ret);
  358. if ((ret = mpf->get(mpf, &pgno, 0, &h)) != 0)
  359. return (ret);
  360. *rep = RE_NREC(h);
  361. (void)mpf->put(mpf, h, 0);
  362. (void)__TLPUT(dbc, lock);
  363. return (0);
  364. }
  365. /*
  366.  * __bam_total --
  367.  * Return the number of records below a page.
  368.  *
  369.  * PUBLIC: db_recno_t __bam_total __P((DB *, PAGE *));
  370.  */
  371. db_recno_t
  372. __bam_total(dbp, h)
  373. DB *dbp;
  374. PAGE *h;
  375. {
  376. db_recno_t nrecs;
  377. db_indx_t indx, top;
  378. nrecs = 0;
  379. top = NUM_ENT(h);
  380. switch (TYPE(h)) {
  381. case P_LBTREE:
  382. /* Check for logically deleted records. */
  383. for (indx = 0; indx < top; indx += P_INDX)
  384. if (!B_DISSET(
  385.     GET_BKEYDATA(dbp, h, indx + O_INDX)->type))
  386. ++nrecs;
  387. break;
  388. case P_LDUP:
  389. /* Check for logically deleted records. */
  390. for (indx = 0; indx < top; indx += O_INDX)
  391. if (!B_DISSET(GET_BKEYDATA(dbp, h, indx)->type))
  392. ++nrecs;
  393. break;
  394. case P_IBTREE:
  395. for (indx = 0; indx < top; indx += O_INDX)
  396. nrecs += GET_BINTERNAL(dbp, h, indx)->nrecs;
  397. break;
  398. case P_LRECNO:
  399. nrecs = NUM_ENT(h);
  400. break;
  401. case P_IRECNO:
  402. for (indx = 0; indx < top; indx += O_INDX)
  403. nrecs += GET_RINTERNAL(dbp, h, indx)->nrecs;
  404. break;
  405. }
  406. return (nrecs);
  407. }