hash_page.c
上传用户:tsgydb
上传日期:2007-04-14
资源大小:10674k
文件大小:42k
源码类别:

MySQL数据库

开发平台:

Visual C++

  1. /*-
  2.  * See the file LICENSE for redistribution information.
  3.  *
  4.  * Copyright (c) 1996, 1997, 1998, 1999, 2000
  5.  * Sleepycat Software.  All rights reserved.
  6.  */
  7. /*
  8.  * Copyright (c) 1990, 1993, 1994
  9.  * Margo Seltzer.  All rights reserved.
  10.  */
  11. /*
  12.  * Copyright (c) 1990, 1993, 1994
  13.  * The Regents of the University of California.  All rights reserved.
  14.  *
  15.  * This code is derived from software contributed to Berkeley by
  16.  * Margo Seltzer.
  17.  *
  18.  * Redistribution and use in source and binary forms, with or without
  19.  * modification, are permitted provided that the following conditions
  20.  * are met:
  21.  * 1. Redistributions of source code must retain the above copyright
  22.  *    notice, this list of conditions and the following disclaimer.
  23.  * 2. Redistributions in binary form must reproduce the above copyright
  24.  *    notice, this list of conditions and the following disclaimer in the
  25.  *    documentation and/or other materials provided with the distribution.
  26.  * 3. Neither the name of the University nor the names of its contributors
  27.  *    may be used to endorse or promote products derived from this software
  28.  *    without specific prior written permission.
  29.  *
  30.  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  31.  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  32.  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  33.  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  34.  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  35.  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  36.  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  37.  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  38.  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  39.  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  40.  * SUCH DAMAGE.
  41.  */
  42. #include "db_config.h"
  43. #ifndef lint
  44. static const char revid[] = "$Id: hash_page.c,v 11.46 2001/01/11 18:19:51 bostic Exp $";
  45. #endif /* not lint */
  46. /*
  47.  * PACKAGE:  hashing
  48.  *
  49.  * DESCRIPTION:
  50.  *      Page manipulation for hashing package.
  51.  *
  52.  * ROUTINES:
  53.  *
  54.  * External
  55.  *      __get_page
  56.  *      __add_ovflpage
  57.  *      __overflow_page
  58.  * Internal
  59.  *      open_temp
  60.  */
  61. #ifndef NO_SYSTEM_INCLUDES
  62. #include <sys/types.h>
  63. #include <string.h>
  64. #endif
  65. #include "db_int.h"
  66. #include "db_page.h"
  67. #include "db_shash.h"
  68. #include "hash.h"
  69. #include "lock.h"
  70. #include "txn.h"
  71. /*
  72.  * PUBLIC: int __ham_item __P((DBC *, db_lockmode_t, db_pgno_t *));
  73.  */
  74. int
  75. __ham_item(dbc, mode, pgnop)
  76. DBC *dbc;
  77. db_lockmode_t mode;
  78. db_pgno_t *pgnop;
  79. {
  80. DB *dbp;
  81. HASH_CURSOR *hcp;
  82. db_pgno_t next_pgno;
  83. int ret;
  84. dbp = dbc->dbp;
  85. hcp = (HASH_CURSOR *)dbc->internal;
  86. if (F_ISSET(hcp, H_DELETED)) {
  87. __db_err(dbp->dbenv, "Attempt to return a deleted item");
  88. return (EINVAL);
  89. }
  90. F_CLR(hcp, H_OK | H_NOMORE);
  91. /* Check if we need to get a page for this cursor. */
  92. if ((ret = __ham_get_cpage(dbc, mode)) != 0)
  93. return (ret);
  94. recheck:
  95. /* Check if we are looking for space in which to insert an item. */
  96. if (hcp->seek_size && hcp->seek_found_page == PGNO_INVALID
  97.     && hcp->seek_size < P_FREESPACE(hcp->page))
  98. hcp->seek_found_page = hcp->pgno;
  99. /* Check for off-page duplicates. */
  100. if (hcp->indx < NUM_ENT(hcp->page) &&
  101.     HPAGE_TYPE(hcp->page, H_DATAINDEX(hcp->indx)) == H_OFFDUP) {
  102. memcpy(pgnop,
  103.     HOFFDUP_PGNO(H_PAIRDATA(hcp->page, hcp->indx)),
  104.     sizeof(db_pgno_t));
  105. F_SET(hcp, H_OK);
  106. return (0);
  107. }
  108. /* Check if we need to go on to the next page. */
  109. if (F_ISSET(hcp, H_ISDUP))
  110. /*
  111.  * ISDUP is set, and offset is at the beginning of the datum.
  112.  * We need to grab the length of the datum, then set the datum
  113.  * pointer to be the beginning of the datum.
  114.  */
  115. memcpy(&hcp->dup_len,
  116.     HKEYDATA_DATA(H_PAIRDATA(hcp->page, hcp->indx)) +
  117.     hcp->dup_off, sizeof(db_indx_t));
  118. if (hcp->indx >= (db_indx_t)NUM_ENT(hcp->page)) {
  119. /* Fetch next page. */
  120. if (NEXT_PGNO(hcp->page) == PGNO_INVALID) {
  121. F_SET(hcp, H_NOMORE);
  122. return (DB_NOTFOUND);
  123. }
  124. next_pgno = NEXT_PGNO(hcp->page);
  125. hcp->indx = 0;
  126. if ((ret = __ham_next_cpage(dbc, next_pgno, 0)) != 0)
  127. return (ret);
  128. goto recheck;
  129. }
  130. F_SET(hcp, H_OK);
  131. return (0);
  132. }
  133. /*
  134.  * PUBLIC: int __ham_item_reset __P((DBC *));
  135.  */
  136. int
  137. __ham_item_reset(dbc)
  138. DBC *dbc;
  139. {
  140. HASH_CURSOR *hcp;
  141. DB *dbp;
  142. int ret;
  143. ret = 0;
  144. dbp = dbc->dbp;
  145. hcp = (HASH_CURSOR *)dbc->internal;
  146. if (hcp->page != NULL)
  147. ret = memp_fput(dbp->mpf, hcp->page, 0);
  148. __ham_item_init(dbc);
  149. return (ret);
  150. }
  151. /*
  152.  * PUBLIC: void __ham_item_init __P((DBC *));
  153.  */
  154. void
  155. __ham_item_init(dbc)
  156. DBC *dbc;
  157. {
  158. HASH_CURSOR *hcp;
  159. hcp = (HASH_CURSOR *)dbc->internal;
  160. /*
  161.  * If this cursor still holds any locks, we must
  162.  * release them if we are not running with transactions.
  163.  */
  164. if (hcp->lock.off != LOCK_INVALID && dbc->txn == NULL)
  165.     (void)lock_put(dbc->dbp->dbenv, &hcp->lock);
  166. /*
  167.  * The following fields must *not* be initialized here
  168.  * because they may have meaning across inits.
  169.  * hlock, hdr, split_buf, stats
  170.  */
  171. hcp->bucket = BUCKET_INVALID;
  172. hcp->lbucket = BUCKET_INVALID;
  173. hcp->lock.off = LOCK_INVALID;
  174. hcp->lock_mode = DB_LOCK_NG;
  175. hcp->dup_off = 0;
  176. hcp->dup_len = 0;
  177. hcp->dup_tlen = 0;
  178. hcp->seek_size = 0;
  179. hcp->seek_found_page = PGNO_INVALID;
  180. hcp->flags = 0;
  181. hcp->pgno = PGNO_INVALID;
  182. hcp->indx = NDX_INVALID;
  183. hcp->page = NULL;
  184. }
  185. /*
  186.  * Returns the last item in a bucket.
  187.  *
  188.  * PUBLIC: int __ham_item_last __P((DBC *, db_lockmode_t, db_pgno_t *));
  189.  */
  190. int
  191. __ham_item_last(dbc, mode, pgnop)
  192. DBC *dbc;
  193. db_lockmode_t mode;
  194. db_pgno_t *pgnop;
  195. {
  196. HASH_CURSOR *hcp;
  197. int ret;
  198. hcp = (HASH_CURSOR *)dbc->internal;
  199. if ((ret = __ham_item_reset(dbc)) != 0)
  200. return (ret);
  201. hcp->bucket = hcp->hdr->max_bucket;
  202. hcp->pgno = BUCKET_TO_PAGE(hcp, hcp->bucket);
  203. F_SET(hcp, H_OK);
  204. return (__ham_item_prev(dbc, mode, pgnop));
  205. }
  206. /*
  207.  * PUBLIC: int __ham_item_first __P((DBC *, db_lockmode_t, db_pgno_t *));
  208.  */
  209. int
  210. __ham_item_first(dbc, mode, pgnop)
  211. DBC *dbc;
  212. db_lockmode_t mode;
  213. db_pgno_t *pgnop;
  214. {
  215. HASH_CURSOR *hcp;
  216. int ret;
  217. hcp = (HASH_CURSOR *)dbc->internal;
  218. if ((ret = __ham_item_reset(dbc)) != 0)
  219. return (ret);
  220. F_SET(hcp, H_OK);
  221. hcp->bucket = 0;
  222. hcp->pgno = BUCKET_TO_PAGE(hcp, hcp->bucket);
  223. return (__ham_item_next(dbc, mode, pgnop));
  224. }
  225. /*
  226.  * __ham_item_prev --
  227.  * Returns a pointer to key/data pair on a page.  In the case of
  228.  * bigkeys, just returns the page number and index of the bigkey
  229.  * pointer pair.
  230.  *
  231.  * PUBLIC: int __ham_item_prev __P((DBC *, db_lockmode_t, db_pgno_t *));
  232.  */
  233. int
  234. __ham_item_prev(dbc, mode, pgnop)
  235. DBC *dbc;
  236. db_lockmode_t mode;
  237. db_pgno_t *pgnop;
  238. {
  239. DB *dbp;
  240. HASH_CURSOR *hcp;
  241. db_pgno_t next_pgno;
  242. int ret;
  243. dbp = dbc->dbp;
  244. hcp = (HASH_CURSOR *)dbc->internal;
  245. /*
  246.  * There are 5 cases for backing up in a hash file.
  247.  * Case 1: In the middle of a page, no duplicates, just dec the index.
  248.  * Case 2: In the middle of a duplicate set, back up one.
  249.  * Case 3: At the beginning of a duplicate set, get out of set and
  250.  * back up to next key.
  251.  * Case 4: At the beginning of a page; go to previous page.
  252.  * Case 5: At the beginning of a bucket; go to prev bucket.
  253.  */
  254. F_CLR(hcp, H_OK | H_NOMORE | H_DELETED);
  255. if ((ret = __ham_get_cpage(dbc, mode)) != 0)
  256. return (ret);
  257. /*
  258.  * First handle the duplicates.  Either you'll get the key here
  259.  * or you'll exit the duplicate set and drop into the code below
  260.  * to handle backing up through keys.
  261.  */
  262. if (!F_ISSET(hcp, H_NEXT_NODUP) && F_ISSET(hcp, H_ISDUP)) {
  263. if (HPAGE_TYPE(hcp->page, H_DATAINDEX(hcp->indx)) == H_OFFDUP) {
  264. memcpy(pgnop,
  265.     HOFFDUP_PGNO(H_PAIRDATA(hcp->page, hcp->indx)),
  266.     sizeof(db_pgno_t));
  267. F_SET(hcp, H_OK);
  268. return (0);
  269. }
  270. /* Duplicates are on-page. */
  271. if (hcp->dup_off != 0) {
  272. memcpy(&hcp->dup_len, HKEYDATA_DATA(
  273.     H_PAIRDATA(hcp->page, hcp->indx))
  274.     + hcp->dup_off - sizeof(db_indx_t),
  275.     sizeof(db_indx_t));
  276. hcp->dup_off -=
  277.     DUP_SIZE(hcp->dup_len);
  278. return (__ham_item(dbc, mode, pgnop));
  279. }
  280. }
  281. /*
  282.  * If we get here, we are not in a duplicate set, and just need
  283.  * to back up the cursor.  There are still three cases:
  284.  * midpage, beginning of page, beginning of bucket.
  285.  */
  286. if (F_ISSET(hcp, H_DUPONLY)) {
  287. F_CLR(hcp, H_OK);
  288. F_SET(hcp, H_NOMORE);
  289. return (0);
  290. } else
  291. /*
  292.  * We are no longer in a dup set;  flag this so the dup code
  293.  * will reinitialize should we stumble upon another one.
  294.  */
  295. F_CLR(hcp, H_ISDUP);
  296. if (hcp->indx == 0) { /* Beginning of page. */
  297. hcp->pgno = PREV_PGNO(hcp->page);
  298. if (hcp->pgno == PGNO_INVALID) {
  299. /* Beginning of bucket. */
  300. F_SET(hcp, H_NOMORE);
  301. return (DB_NOTFOUND);
  302. } else if ((ret =
  303.     __ham_next_cpage(dbc, hcp->pgno, 0)) != 0)
  304. return (ret);
  305. else
  306. hcp->indx = NUM_ENT(hcp->page);
  307. }
  308. /*
  309.  * Either we've got the cursor set up to be decremented, or we
  310.  * have to find the end of a bucket.
  311.  */
  312. if (hcp->indx == NDX_INVALID) {
  313. DB_ASSERT(hcp->page != NULL);
  314. hcp->indx = NUM_ENT(hcp->page);
  315. for (next_pgno = NEXT_PGNO(hcp->page);
  316.     next_pgno != PGNO_INVALID;
  317.     next_pgno = NEXT_PGNO(hcp->page)) {
  318. if ((ret = __ham_next_cpage(dbc, next_pgno, 0)) != 0)
  319. return (ret);
  320. hcp->indx = NUM_ENT(hcp->page);
  321. }
  322. if (hcp->indx == 0) {
  323. /* Bucket was empty. */
  324. F_SET(hcp, H_NOMORE);
  325. return (DB_NOTFOUND);
  326. }
  327. }
  328. hcp->indx -= 2;
  329. return (__ham_item(dbc, mode, pgnop));
  330. }
  331. /*
  332.  * Sets the cursor to the next key/data pair on a page.
  333.  *
  334.  * PUBLIC: int __ham_item_next __P((DBC *, db_lockmode_t, db_pgno_t *));
  335.  */
  336. int
  337. __ham_item_next(dbc, mode, pgnop)
  338. DBC *dbc;
  339. db_lockmode_t mode;
  340. db_pgno_t *pgnop;
  341. {
  342. HASH_CURSOR *hcp;
  343. int ret;
  344. hcp = (HASH_CURSOR *)dbc->internal;
  345. if ((ret = __ham_get_cpage(dbc, mode)) != 0)
  346. return (ret);
  347. /*
  348.  * Deleted on-page duplicates are a weird case. If we delete the last
  349.  * one, then our cursor is at the very end of a duplicate set and
  350.  * we actually need to go on to the next key.
  351.  */
  352. if (F_ISSET(hcp, H_DELETED)) {
  353. if (hcp->indx != NDX_INVALID &&
  354.     F_ISSET(hcp, H_ISDUP) &&
  355.     HPAGE_TYPE(hcp->page, H_DATAINDEX(hcp->indx))
  356. == H_DUPLICATE && hcp->dup_tlen == hcp->dup_off) {
  357. if (F_ISSET(hcp, H_DUPONLY)) {
  358. F_CLR(hcp, H_OK);
  359. F_SET(hcp, H_NOMORE);
  360. return (0);
  361. } else {
  362. F_CLR(hcp, H_ISDUP);
  363. hcp->indx += 2;
  364. }
  365. } else if (!F_ISSET(hcp, H_ISDUP) && F_ISSET(hcp, H_DUPONLY)) {
  366. F_CLR(hcp, H_OK);
  367. F_SET(hcp, H_NOMORE);
  368. return (0);
  369. } else if (F_ISSET(hcp, H_ISDUP) &&
  370.     F_ISSET(hcp, H_NEXT_NODUP)) {
  371. F_CLR(hcp, H_ISDUP);
  372. hcp->indx += 2;
  373. }
  374. F_CLR(hcp, H_DELETED);
  375. } else if (hcp->indx == NDX_INVALID) {
  376. hcp->indx = 0;
  377. F_CLR(hcp, H_ISDUP);
  378. } else if (F_ISSET(hcp, H_NEXT_NODUP)) {
  379. hcp->indx += 2;
  380. F_CLR(hcp, H_ISDUP);
  381. } else if (F_ISSET(hcp, H_ISDUP) && hcp->dup_tlen != 0) {
  382. if (hcp->dup_off + DUP_SIZE(hcp->dup_len) >=
  383.     hcp->dup_tlen && F_ISSET(hcp, H_DUPONLY)) {
  384. F_CLR(hcp, H_OK);
  385. F_SET(hcp, H_NOMORE);
  386. return (0);
  387. }
  388. hcp->dup_off += DUP_SIZE(hcp->dup_len);
  389. if (hcp->dup_off >= hcp->dup_tlen) {
  390. F_CLR(hcp, H_ISDUP);
  391. hcp->indx += 2;
  392. }
  393. } else if (F_ISSET(hcp, H_DUPONLY)) {
  394. F_CLR(hcp, H_OK);
  395. F_SET(hcp, H_NOMORE);
  396. return (0);
  397. } else {
  398. hcp->indx += 2;
  399. F_CLR(hcp, H_ISDUP);
  400. }
  401. return (__ham_item(dbc, mode, pgnop));
  402. }
  403. /*
  404.  * PUBLIC: void __ham_putitem __P((PAGE *p, const DBT *, int));
  405.  *
  406.  * This is a little bit sleazy in that we're overloading the meaning
  407.  * of the H_OFFPAGE type here.  When we recover deletes, we have the
  408.  * entire entry instead of having only the DBT, so we'll pass type
  409.  * H_OFFPAGE to mean, "copy the whole entry" as opposed to constructing
  410.  * an H_KEYDATA around it.
  411.  */
  412. void
  413. __ham_putitem(p, dbt, type)
  414. PAGE *p;
  415. const DBT *dbt;
  416. int type;
  417. {
  418. u_int16_t n, off;
  419. n = NUM_ENT(p);
  420. /* Put the item element on the page. */
  421. if (type == H_OFFPAGE) {
  422. off = HOFFSET(p) - dbt->size;
  423. HOFFSET(p) = p->inp[n] = off;
  424. memcpy(P_ENTRY(p, n), dbt->data, dbt->size);
  425. } else {
  426. off = HOFFSET(p) - HKEYDATA_SIZE(dbt->size);
  427. HOFFSET(p) = p->inp[n] = off;
  428. PUT_HKEYDATA(P_ENTRY(p, n), dbt->data, dbt->size, type);
  429. }
  430. /* Adjust page info. */
  431. NUM_ENT(p) += 1;
  432. }
  433. /*
  434.  * PUBLIC: void __ham_reputpair
  435.  * PUBLIC:    __P((PAGE *p, u_int32_t, u_int32_t, const DBT *, const DBT *));
  436.  *
  437.  * This is a special case to restore a key/data pair to its original
  438.  * location during recovery.  We are guaranteed that the pair fits
  439.  * on the page and is not the last pair on the page (because if it's
  440.  * the last pair, the normal insert works).
  441.  */
  442. void
  443. __ham_reputpair(p, psize, ndx, key, data)
  444. PAGE *p;
  445. u_int32_t psize, ndx;
  446. const DBT *key, *data;
  447. {
  448. db_indx_t i, movebytes, newbytes;
  449. u_int8_t *from;
  450. /* First shuffle the existing items up on the page.  */
  451. movebytes =
  452.     (ndx == 0 ? psize : p->inp[H_DATAINDEX(ndx - 2)]) - HOFFSET(p);
  453. newbytes = key->size + data->size;
  454. from = (u_int8_t *)p + HOFFSET(p);
  455. memmove(from - newbytes, from, movebytes);
  456. /*
  457.  * Adjust the indices and move them up 2 spaces. Note that we
  458.  * have to check the exit condition inside the loop just in case
  459.  * we are dealing with index 0 (db_indx_t's are unsigned).
  460.  */
  461. for (i = NUM_ENT(p) - 1; ; i-- ) {
  462. p->inp[i + 2] = p->inp[i] - newbytes;
  463. if (i == H_KEYINDEX(ndx))
  464. break;
  465. }
  466. /* Put the key and data on the page. */
  467. p->inp[H_KEYINDEX(ndx)] =
  468.     (ndx == 0 ? psize : p->inp[H_DATAINDEX(ndx - 2)]) - key->size;
  469. p->inp[H_DATAINDEX(ndx)] = p->inp[H_KEYINDEX(ndx)] - data->size;
  470. memcpy(P_ENTRY(p, H_KEYINDEX(ndx)), key->data, key->size);
  471. memcpy(P_ENTRY(p, H_DATAINDEX(ndx)), data->data, data->size);
  472. /* Adjust page info. */
  473. HOFFSET(p) -= newbytes;
  474. NUM_ENT(p) += 2;
  475. }
  476. /*
  477.  * PUBLIC: int __ham_del_pair __P((DBC *, int));
  478.  */
  479. int
  480. __ham_del_pair(dbc, reclaim_page)
  481. DBC *dbc;
  482. int reclaim_page;
  483. {
  484. DB *dbp;
  485. HASH_CURSOR *hcp;
  486. DBT data_dbt, key_dbt;
  487. DB_ENV *dbenv;
  488. DB_LSN new_lsn, *n_lsn, tmp_lsn;
  489. PAGE *n_pagep, *nn_pagep, *p, *p_pagep;
  490. db_indx_t ndx;
  491. db_pgno_t chg_pgno, pgno, tmp_pgno;
  492. int ret, t_ret;
  493. dbp = dbc->dbp;
  494. hcp = (HASH_CURSOR *)dbc->internal;
  495. dbenv = dbp->dbenv;
  496. ndx = hcp->indx;
  497. n_pagep = p_pagep = nn_pagep = NULL;
  498. if (hcp->page == NULL && (ret = memp_fget(dbp->mpf,
  499.     &hcp->pgno, DB_MPOOL_CREATE, &hcp->page)) != 0)
  500. return (ret);
  501. p = hcp->page;
  502. /*
  503.  * We optimize for the normal case which is when neither the key nor
  504.  * the data are large.  In this case, we write a single log record
  505.  * and do the delete.  If either is large, we'll call __big_delete
  506.  * to remove the big item and then update the page to remove the
  507.  * entry referring to the big item.
  508.  */
  509. ret = 0;
  510. if (HPAGE_PTYPE(H_PAIRKEY(p, ndx)) == H_OFFPAGE) {
  511. memcpy(&pgno, HOFFPAGE_PGNO(P_ENTRY(p, H_KEYINDEX(ndx))),
  512.     sizeof(db_pgno_t));
  513. ret = __db_doff(dbc, pgno);
  514. }
  515. if (ret == 0)
  516. switch (HPAGE_PTYPE(H_PAIRDATA(p, ndx))) {
  517. case H_OFFPAGE:
  518. memcpy(&pgno,
  519.     HOFFPAGE_PGNO(P_ENTRY(p, H_DATAINDEX(ndx))),
  520.     sizeof(db_pgno_t));
  521. ret = __db_doff(dbc, pgno);
  522. break;
  523. case H_OFFDUP:
  524. case H_DUPLICATE:
  525. /*
  526.  * If we delete a pair that is/was a duplicate, then
  527.  * we had better clear the flag so that we update the
  528.  * cursor appropriately.
  529.  */
  530. F_CLR(hcp, H_ISDUP);
  531. break;
  532. }
  533. if (ret)
  534. return (ret);
  535. /* Now log the delete off this page. */
  536. if (DB_LOGGING(dbc)) {
  537. key_dbt.data = P_ENTRY(p, H_KEYINDEX(ndx));
  538. key_dbt.size = LEN_HITEM(p, dbp->pgsize, H_KEYINDEX(ndx));
  539. data_dbt.data = P_ENTRY(p, H_DATAINDEX(ndx));
  540. data_dbt.size = LEN_HITEM(p, dbp->pgsize, H_DATAINDEX(ndx));
  541. if ((ret = __ham_insdel_log(dbenv,
  542.     dbc->txn, &new_lsn, 0, DELPAIR,
  543.     dbp->log_fileid, PGNO(p), (u_int32_t)ndx,
  544.     &LSN(p), &key_dbt, &data_dbt)) != 0)
  545. return (ret);
  546. /* Move lsn onto page. */
  547. LSN(p) = new_lsn;
  548. }
  549. /* Do the delete. */
  550. __ham_dpair(dbp, p, ndx);
  551. /*
  552.  * Mark item deleted so that we don't try to return it, and
  553.  * so that we update the cursor correctly on the next call
  554.  * to next.
  555.  */
  556. F_SET(hcp, H_DELETED);
  557. F_CLR(hcp, H_OK);
  558. /*
  559.  * Update cursors that are on the page where the delete happend.
  560.  */
  561. if ((ret = __ham_c_update(dbc, 0, 0, 0)) != 0)
  562. return (ret);
  563. /*
  564.  * If we are locking, we will not maintain this, because it is
  565.  * a hot spot.
  566.  *
  567.  * XXX
  568.  * Perhaps we can retain incremental numbers and apply them later.
  569.  */
  570. if (!STD_LOCKING(dbc))
  571. --hcp->hdr->nelem;
  572. /*
  573.  * If we need to reclaim the page, then check if the page is empty.
  574.  * There are two cases.  If it's empty and it's not the first page
  575.  * in the bucket (i.e., the bucket page) then we can simply remove
  576.  * it. If it is the first chain in the bucket, then we need to copy
  577.  * the second page into it and remove the second page.
  578.  * If its the only page in the bucket we leave it alone.
  579.  */
  580. if (!reclaim_page ||
  581.     NUM_ENT(p) != 0 ||
  582.     (PREV_PGNO(p) == PGNO_INVALID && NEXT_PGNO(p) == PGNO_INVALID))
  583. return (memp_fset(dbp->mpf, p, DB_MPOOL_DIRTY));
  584. if (PREV_PGNO(p) == PGNO_INVALID) {
  585. /*
  586.  * First page in chain is empty and we know that there
  587.  * are more pages in the chain.
  588.  */
  589. if ((ret =
  590.     memp_fget(dbp->mpf, &NEXT_PGNO(p), 0, &n_pagep)) != 0)
  591. return (ret);
  592. if (NEXT_PGNO(n_pagep) != PGNO_INVALID &&
  593.     (ret = memp_fget(dbp->mpf, &NEXT_PGNO(n_pagep), 0,
  594.     &nn_pagep)) != 0)
  595. goto err;
  596. if (DB_LOGGING(dbc)) {
  597. key_dbt.data = n_pagep;
  598. key_dbt.size = dbp->pgsize;
  599. if ((ret = __ham_copypage_log(dbenv,
  600.     dbc->txn, &new_lsn, 0, dbp->log_fileid, PGNO(p),
  601.     &LSN(p), PGNO(n_pagep), &LSN(n_pagep),
  602.     NEXT_PGNO(n_pagep),
  603.     nn_pagep == NULL ? NULL : &LSN(nn_pagep),
  604.     &key_dbt)) != 0)
  605. goto err;
  606. /* Move lsn onto page. */
  607. LSN(p) = new_lsn; /* Structure assignment. */
  608. LSN(n_pagep) = new_lsn;
  609. if (NEXT_PGNO(n_pagep) != PGNO_INVALID)
  610. LSN(nn_pagep) = new_lsn;
  611. }
  612. if (nn_pagep != NULL) {
  613. PREV_PGNO(nn_pagep) = PGNO(p);
  614. if ((ret = memp_fput(dbp->mpf,
  615.     nn_pagep, DB_MPOOL_DIRTY)) != 0) {
  616. nn_pagep = NULL;
  617. goto err;
  618. }
  619. }
  620. tmp_pgno = PGNO(p);
  621. tmp_lsn = LSN(p);
  622. memcpy(p, n_pagep, dbp->pgsize);
  623. PGNO(p) = tmp_pgno;
  624. LSN(p) = tmp_lsn;
  625. PREV_PGNO(p) = PGNO_INVALID;
  626. /*
  627.  * Update cursors to reflect the fact that records
  628.  * on the second page have moved to the first page.
  629.  */
  630. if ((ret = __ham_c_chgpg(dbc,
  631.     PGNO(n_pagep), NDX_INVALID, PGNO(p), NDX_INVALID)) != 0)
  632. return (ret);
  633. /*
  634.  * Update the cursor to reflect its new position.
  635.  */
  636. hcp->indx = 0;
  637. hcp->pgno = PGNO(p);
  638. if ((ret = memp_fset(dbp->mpf, p, DB_MPOOL_DIRTY)) != 0 ||
  639.     (ret = __db_free(dbc, n_pagep)) != 0)
  640. return (ret);
  641. } else {
  642. if ((ret =
  643.     memp_fget(dbp->mpf, &PREV_PGNO(p), 0, &p_pagep)) != 0)
  644. goto err;
  645. if (NEXT_PGNO(p) != PGNO_INVALID) {
  646. if ((ret = memp_fget(dbp->mpf,
  647.     &NEXT_PGNO(p), 0, &n_pagep)) != 0)
  648. goto err;
  649. n_lsn = &LSN(n_pagep);
  650. } else {
  651. n_pagep = NULL;
  652. n_lsn = NULL;
  653. }
  654. NEXT_PGNO(p_pagep) = NEXT_PGNO(p);
  655. if (n_pagep != NULL)
  656. PREV_PGNO(n_pagep) = PGNO(p_pagep);
  657. if (DB_LOGGING(dbc)) {
  658. if ((ret = __ham_newpage_log(dbenv,
  659.     dbc->txn, &new_lsn, 0, DELOVFL,
  660.     dbp->log_fileid, PREV_PGNO(p), &LSN(p_pagep),
  661.     PGNO(p), &LSN(p), NEXT_PGNO(p), n_lsn)) != 0)
  662. goto err;
  663. /* Move lsn onto page. */
  664. LSN(p_pagep) = new_lsn; /* Structure assignment. */
  665. if (n_pagep)
  666. LSN(n_pagep) = new_lsn;
  667. LSN(p) = new_lsn;
  668. }
  669. if (NEXT_PGNO(p) == PGNO_INVALID) {
  670. /*
  671.  * There is no next page; put the cursor on the
  672.  * previous page as if we'd deleted the last item
  673.  * on that page; index greater than number of
  674.  * valid entries and H_DELETED set.
  675.  */
  676. hcp->pgno = PGNO(p_pagep);
  677. hcp->indx = NUM_ENT(p_pagep);
  678. F_SET(hcp, H_DELETED);
  679. } else {
  680. hcp->pgno = NEXT_PGNO(p);
  681. hcp->indx = 0;
  682. }
  683. /*
  684.  * Since we are about to delete the cursor page and we have
  685.  * just moved the cursor, we need to make sure that the
  686.  * old page pointer isn't left hanging around in the cursor.
  687.  */
  688. hcp->page = NULL;
  689. chg_pgno = PGNO(p);
  690. ret = __db_free(dbc, p);
  691. if ((t_ret = memp_fput(dbp->mpf, p_pagep, DB_MPOOL_DIRTY)) != 0
  692.     && ret == 0)
  693. ret = t_ret;
  694. if (n_pagep != NULL && (t_ret = memp_fput(dbp->mpf,
  695.     n_pagep, DB_MPOOL_DIRTY)) != 0 && ret == 0)
  696. ret = t_ret;
  697. if (ret != 0)
  698. return (ret);
  699. ret = __ham_c_chgpg(dbc,
  700.     chg_pgno, 0, hcp->pgno, hcp->indx);
  701. }
  702. return (ret);
  703. err: /* Clean up any pages. */
  704. if (n_pagep != NULL)
  705. (void)memp_fput(dbp->mpf, n_pagep, 0);
  706. if (nn_pagep != NULL)
  707. (void)memp_fput(dbp->mpf, nn_pagep, 0);
  708. if (p_pagep != NULL)
  709. (void)memp_fput(dbp->mpf, p_pagep, 0);
  710. return (ret);
  711. }
  712. /*
  713.  * __ham_replpair --
  714.  * Given the key data indicated by the cursor, replace part/all of it
  715.  * according to the fields in the dbt.
  716.  *
  717.  * PUBLIC: int __ham_replpair __P((DBC *, DBT *, u_int32_t));
  718.  */
  719. int
  720. __ham_replpair(dbc, dbt, make_dup)
  721. DBC *dbc;
  722. DBT *dbt;
  723. u_int32_t make_dup;
  724. {
  725. DB *dbp;
  726. HASH_CURSOR *hcp;
  727. DBT old_dbt, tdata, tmp;
  728. DB_LSN new_lsn;
  729. int32_t change; /* XXX: Possible overflow. */
  730. u_int32_t dup, len, memsize;
  731. int is_big, ret, type;
  732. u_int8_t *beg, *dest, *end, *hk, *src;
  733. void *memp;
  734. /*
  735.  * Big item replacements are handled in generic code.
  736.  * Items that fit on the current page fall into 4 classes.
  737.  * 1. On-page element, same size
  738.  * 2. On-page element, new is bigger (fits)
  739.  * 3. On-page element, new is bigger (does not fit)
  740.  * 4. On-page element, old is bigger
  741.  * Numbers 1, 2, and 4 are essentially the same (and should
  742.  * be the common case).  We handle case 3 as a delete and
  743.  * add.
  744.  */
  745. dbp = dbc->dbp;
  746. hcp = (HASH_CURSOR *)dbc->internal;
  747. /*
  748.  * We need to compute the number of bytes that we are adding or
  749.  * removing from the entry.  Normally, we can simply substract
  750.  * the number of bytes we are replacing (dbt->dlen) from the
  751.  * number of bytes we are inserting (dbt->size).  However, if
  752.  * we are doing a partial put off the end of a record, then this
  753.  * formula doesn't work, because we are essentially adding
  754.  * new bytes.
  755.  */
  756. change = dbt->size - dbt->dlen;
  757. hk = H_PAIRDATA(hcp->page, hcp->indx);
  758. is_big = HPAGE_PTYPE(hk) == H_OFFPAGE;
  759. if (is_big)
  760. memcpy(&len, HOFFPAGE_TLEN(hk), sizeof(u_int32_t));
  761. else
  762. len = LEN_HKEYDATA(hcp->page,
  763.     dbp->pgsize, H_DATAINDEX(hcp->indx));
  764. if (dbt->doff + dbt->dlen > len)
  765. change += dbt->doff + dbt->dlen - len;
  766. if (change > (int32_t)P_FREESPACE(hcp->page) || is_big) {
  767. /*
  768.  * Case 3 -- two subcases.
  769.  * A. This is not really a partial operation, but an overwrite.
  770.  *    Simple del and add works.
  771.  * B. This is a partial and we need to construct the data that
  772.  *    we are really inserting (yuck).
  773.  * In both cases, we need to grab the key off the page (in
  774.  * some cases we could do this outside of this routine; for
  775.  * cleanliness we do it here.  If you happen to be on a big
  776.  * key, this could be a performance hit).
  777.  */
  778. memset(&tmp, 0, sizeof(tmp));
  779. if ((ret =
  780.     __db_ret(dbp, hcp->page, H_KEYINDEX(hcp->indx),
  781.     &tmp, &dbc->rkey.data, &dbc->rkey.ulen)) != 0)
  782. return (ret);
  783. /* Preserve duplicate info. */
  784. dup = F_ISSET(hcp, H_ISDUP);
  785. if (dbt->doff == 0 && dbt->dlen == len) {
  786. ret = __ham_del_pair(dbc, 0);
  787. if (ret == 0)
  788.     ret = __ham_add_el(dbc,
  789. &tmp, dbt, dup ? H_DUPLICATE : H_KEYDATA);
  790. } else { /* Case B */
  791. type = HPAGE_PTYPE(hk) != H_OFFPAGE ?
  792.     HPAGE_PTYPE(hk) : H_KEYDATA;
  793. memset(&tdata, 0, sizeof(tdata));
  794. memp = NULL;
  795. memsize = 0;
  796. if ((ret = __db_ret(dbp, hcp->page,
  797.     H_DATAINDEX(hcp->indx), &tdata, &memp, &memsize))
  798.     != 0)
  799. goto err;
  800. /* Now we can delete the item. */
  801. if ((ret = __ham_del_pair(dbc, 0)) != 0) {
  802. __os_free(memp, memsize);
  803. goto err;
  804. }
  805. /* Now shift old data around to make room for new. */
  806. if (change > 0) {
  807.  if ((ret = __os_realloc(dbp->dbenv,
  808.      tdata.size + change,
  809.      NULL, &tdata.data)) != 0)
  810. return (ret);
  811. memp = tdata.data;
  812. memsize = tdata.size + change;
  813. memset((u_int8_t *)tdata.data + tdata.size,
  814.     0, change);
  815. }
  816. end = (u_int8_t *)tdata.data + tdata.size;
  817. src = (u_int8_t *)tdata.data + dbt->doff + dbt->dlen;
  818. if (src < end && tdata.size > dbt->doff + dbt->dlen) {
  819. len = tdata.size - dbt->doff - dbt->dlen;
  820. dest = src + change;
  821. memmove(dest, src, len);
  822. }
  823. memcpy((u_int8_t *)tdata.data + dbt->doff,
  824.     dbt->data, dbt->size);
  825. tdata.size += change;
  826. /* Now add the pair. */
  827. ret = __ham_add_el(dbc, &tmp, &tdata, type);
  828. __os_free(memp, memsize);
  829. }
  830. F_SET(hcp, dup);
  831. err: return (ret);
  832. }
  833. /*
  834.  * Set up pointer into existing data. Do it before the log
  835.  * message so we can use it inside of the log setup.
  836.  */
  837. beg = HKEYDATA_DATA(H_PAIRDATA(hcp->page, hcp->indx));
  838. beg += dbt->doff;
  839. /*
  840.  * If we are going to have to move bytes at all, figure out
  841.  * all the parameters here.  Then log the call before moving
  842.  * anything around.
  843.  */
  844. if (DB_LOGGING(dbc)) {
  845. old_dbt.data = beg;
  846. old_dbt.size = dbt->dlen;
  847. if ((ret = __ham_replace_log(dbp->dbenv,
  848.     dbc->txn, &new_lsn, 0, dbp->log_fileid, PGNO(hcp->page),
  849.     (u_int32_t)H_DATAINDEX(hcp->indx), &LSN(hcp->page),
  850.     (u_int32_t)dbt->doff, &old_dbt, dbt, make_dup)) != 0)
  851. return (ret);
  852. LSN(hcp->page) = new_lsn; /* Structure assignment. */
  853. }
  854. __ham_onpage_replace(hcp->page, dbp->pgsize,
  855.     (u_int32_t)H_DATAINDEX(hcp->indx), (int32_t)dbt->doff, change, dbt);
  856. return (0);
  857. }
  858. /*
  859.  * Replace data on a page with new data, possibly growing or shrinking what's
  860.  * there.  This is called on two different occasions. On one (from replpair)
  861.  * we are interested in changing only the data.  On the other (from recovery)
  862.  * we are replacing the entire data (header and all) with a new element.  In
  863.  * the latter case, the off argument is negative.
  864.  * pagep: the page that we're changing
  865.  * ndx: page index of the element that is growing/shrinking.
  866.  * off: Offset at which we are beginning the replacement.
  867.  * change: the number of bytes (+ or -) that the element is growing/shrinking.
  868.  * dbt: the new data that gets written at beg.
  869.  * PUBLIC: void __ham_onpage_replace __P((PAGE *, size_t, u_int32_t, int32_t,
  870.  * PUBLIC:     int32_t,  DBT *));
  871.  */
  872. void
  873. __ham_onpage_replace(pagep, pgsize, ndx, off, change, dbt)
  874. PAGE *pagep;
  875. size_t pgsize;
  876. u_int32_t ndx;
  877. int32_t off;
  878. int32_t change;
  879. DBT *dbt;
  880. {
  881. db_indx_t i;
  882. int32_t len;
  883. u_int8_t *src, *dest;
  884. int zero_me;
  885. if (change != 0) {
  886. zero_me = 0;
  887. src = (u_int8_t *)(pagep) + HOFFSET(pagep);
  888. if (off < 0)
  889. len = pagep->inp[ndx] - HOFFSET(pagep);
  890. else if ((u_int32_t)off >= LEN_HKEYDATA(pagep, pgsize, ndx)) {
  891. len = HKEYDATA_DATA(P_ENTRY(pagep, ndx)) +
  892.     LEN_HKEYDATA(pagep, pgsize, ndx) - src;
  893. zero_me = 1;
  894. } else
  895. len = (HKEYDATA_DATA(P_ENTRY(pagep, ndx)) + off) - src;
  896. dest = src - change;
  897. memmove(dest, src, len);
  898. if (zero_me)
  899. memset(dest + len, 0, change);
  900. /* Now update the indices. */
  901. for (i = ndx; i < NUM_ENT(pagep); i++)
  902. pagep->inp[i] -= change;
  903. HOFFSET(pagep) -= change;
  904. }
  905. if (off >= 0)
  906. memcpy(HKEYDATA_DATA(P_ENTRY(pagep, ndx)) + off,
  907.     dbt->data, dbt->size);
  908. else
  909. memcpy(P_ENTRY(pagep, ndx), dbt->data, dbt->size);
  910. }
  911. /*
  912.  * PUBLIC: int __ham_split_page __P((DBC *, u_int32_t, u_int32_t));
  913.  */
  914. int
  915. __ham_split_page(dbc, obucket, nbucket)
  916. DBC *dbc;
  917. u_int32_t obucket, nbucket;
  918. {
  919. DB *dbp;
  920. DBC **carray;
  921. HASH_CURSOR *hcp, *cp;
  922. DBT key, page_dbt;
  923. DB_ENV *dbenv;
  924. DB_LSN new_lsn;
  925. PAGE **pp, *old_pagep, *temp_pagep, *new_pagep;
  926. db_indx_t n;
  927. db_pgno_t bucket_pgno, npgno, next_pgno;
  928. u_int32_t big_len, len;
  929. int found, i, ret, t_ret;
  930. void *big_buf;
  931. dbp = dbc->dbp;
  932. hcp = (HASH_CURSOR *)dbc->internal;
  933. dbenv = dbp->dbenv;
  934. temp_pagep = old_pagep = new_pagep = NULL;
  935. if ((ret = __ham_get_clist(dbp, obucket, NDX_INVALID, &carray)) != 0)
  936. return (ret);
  937. bucket_pgno = BUCKET_TO_PAGE(hcp, obucket);
  938. if ((ret = memp_fget(dbp->mpf,
  939.     &bucket_pgno, DB_MPOOL_CREATE, &old_pagep)) != 0)
  940. goto err;
  941. /* Properly initialize the new bucket page. */
  942. npgno = BUCKET_TO_PAGE(hcp, nbucket);
  943. if ((ret = memp_fget(dbp->mpf,
  944.     &npgno, DB_MPOOL_CREATE, &new_pagep)) != 0)
  945. goto err;
  946. P_INIT(new_pagep,
  947.     dbp->pgsize, npgno, PGNO_INVALID, PGNO_INVALID, 0, P_HASH);
  948. temp_pagep = hcp->split_buf;
  949. memcpy(temp_pagep, old_pagep, dbp->pgsize);
  950. if (DB_LOGGING(dbc)) {
  951. page_dbt.size = dbp->pgsize;
  952. page_dbt.data = old_pagep;
  953. if ((ret = __ham_splitdata_log(dbenv,
  954.     dbc->txn, &new_lsn, 0, dbp->log_fileid, SPLITOLD,
  955.     PGNO(old_pagep), &page_dbt, &LSN(old_pagep))) != 0)
  956. goto err;
  957. }
  958. P_INIT(old_pagep, dbp->pgsize, PGNO(old_pagep), PGNO_INVALID,
  959.     PGNO_INVALID, 0, P_HASH);
  960. if (DB_LOGGING(dbc))
  961. LSN(old_pagep) = new_lsn; /* Structure assignment. */
  962. big_len = 0;
  963. big_buf = NULL;
  964. key.flags = 0;
  965. while (temp_pagep != NULL) {
  966. for (n = 0; n < (db_indx_t)NUM_ENT(temp_pagep); n += 2) {
  967. if ((ret =
  968.     __db_ret(dbp, temp_pagep, H_KEYINDEX(n),
  969.     &key, &big_buf, &big_len)) != 0)
  970. goto err;
  971. if (__ham_call_hash(dbc, key.data, key.size)
  972.     == obucket)
  973. pp = &old_pagep;
  974. else
  975. pp = &new_pagep;
  976. /*
  977.  * Figure out how many bytes we need on the new
  978.  * page to store the key/data pair.
  979.  */
  980. len = LEN_HITEM(temp_pagep, dbp->pgsize,
  981.     H_DATAINDEX(n)) +
  982.     LEN_HITEM(temp_pagep, dbp->pgsize,
  983.     H_KEYINDEX(n)) +
  984.     2 * sizeof(db_indx_t);
  985. if (P_FREESPACE(*pp) < len) {
  986. if (DB_LOGGING(dbc)) {
  987. page_dbt.size = dbp->pgsize;
  988. page_dbt.data = *pp;
  989. if ((ret = __ham_splitdata_log(
  990.     dbenv, dbc->txn,
  991.     &new_lsn, 0, dbp->log_fileid,
  992.     SPLITNEW, PGNO(*pp), &page_dbt,
  993.     &LSN(*pp))) != 0)
  994. goto err;
  995. LSN(*pp) = new_lsn;
  996. }
  997. if ((ret =
  998.     __ham_add_ovflpage(dbc, *pp, 1, pp)) != 0)
  999. goto err;
  1000. }
  1001. /* Check if we need to update a cursor. */
  1002. if (carray != NULL) {
  1003. found = 0;
  1004. for (i = 0; carray[i] != NULL; i++) {
  1005. cp =
  1006.     (HASH_CURSOR *)carray[i]->internal;
  1007. if (cp->pgno == PGNO(temp_pagep)
  1008.     && cp->indx == n) {
  1009. cp->pgno = PGNO(*pp);
  1010. cp->indx = NUM_ENT(*pp);
  1011. found = 1;
  1012. }
  1013. }
  1014. if (found && DB_LOGGING(dbc)
  1015.     && IS_SUBTRANSACTION(dbc->txn)) {
  1016. if ((ret =
  1017.     __ham_chgpg_log(dbp->dbenv,
  1018.     dbc->txn, &new_lsn, 0,
  1019.     dbp->log_fileid,
  1020.     DB_HAM_SPLIT, PGNO(temp_pagep),
  1021.     PGNO(*pp), n, NUM_ENT(*pp))) != 0)
  1022. goto err;
  1023. }
  1024. }
  1025. __ham_copy_item(dbp->pgsize,
  1026.     temp_pagep, H_KEYINDEX(n), *pp);
  1027. __ham_copy_item(dbp->pgsize,
  1028.     temp_pagep, H_DATAINDEX(n), *pp);
  1029. }
  1030. next_pgno = NEXT_PGNO(temp_pagep);
  1031. /* Clear temp_page; if it's a link overflow page, free it. */
  1032. if (PGNO(temp_pagep) != bucket_pgno && (ret =
  1033.     __db_free(dbc, temp_pagep)) != 0) {
  1034. temp_pagep = NULL;
  1035. goto err;
  1036. }
  1037. if (next_pgno == PGNO_INVALID)
  1038. temp_pagep = NULL;
  1039. else if ((ret = memp_fget(dbp->mpf,
  1040.     &next_pgno, DB_MPOOL_CREATE, &temp_pagep)) != 0)
  1041. goto err;
  1042. if (temp_pagep != NULL && DB_LOGGING(dbc)) {
  1043. page_dbt.size = dbp->pgsize;
  1044. page_dbt.data = temp_pagep;
  1045. if ((ret = __ham_splitdata_log(dbenv,
  1046.     dbc->txn, &new_lsn, 0, dbp->log_fileid,
  1047.     SPLITOLD, PGNO(temp_pagep),
  1048.     &page_dbt, &LSN(temp_pagep))) != 0)
  1049. goto err;
  1050. LSN(temp_pagep) = new_lsn;
  1051. }
  1052. }
  1053. if (big_buf != NULL)
  1054. __os_free(big_buf, big_len);
  1055. /*
  1056.  * If the original bucket spanned multiple pages, then we've got
  1057.  * a pointer to a page that used to be on the bucket chain.  It
  1058.  * should be deleted.
  1059.  */
  1060. if (temp_pagep != NULL && PGNO(temp_pagep) != bucket_pgno &&
  1061.     (ret = __db_free(dbc, temp_pagep)) != 0) {
  1062. temp_pagep = NULL;
  1063. goto err;
  1064. }
  1065. /*
  1066.  * Write new buckets out.
  1067.  */
  1068. if (DB_LOGGING(dbc)) {
  1069. page_dbt.size = dbp->pgsize;
  1070. page_dbt.data = old_pagep;
  1071. if ((ret = __ham_splitdata_log(dbenv, dbc->txn, &new_lsn, 0,
  1072.     dbp->log_fileid, SPLITNEW, PGNO(old_pagep), &page_dbt,
  1073.     &LSN(old_pagep))) != 0)
  1074. goto err;
  1075. LSN(old_pagep) = new_lsn;
  1076. page_dbt.data = new_pagep;
  1077. if ((ret = __ham_splitdata_log(dbenv, dbc->txn, &new_lsn, 0,
  1078.     dbp->log_fileid, SPLITNEW, PGNO(new_pagep), &page_dbt,
  1079.     &LSN(new_pagep))) != 0)
  1080. goto err;
  1081. LSN(new_pagep) = new_lsn;
  1082. }
  1083. ret = memp_fput(dbp->mpf, old_pagep, DB_MPOOL_DIRTY);
  1084. if ((t_ret = memp_fput(dbp->mpf, new_pagep, DB_MPOOL_DIRTY)) != 0
  1085.     && ret == 0)
  1086. ret = t_ret;
  1087. if (0) {
  1088. err: if (old_pagep != NULL)
  1089. (void)memp_fput(dbp->mpf, old_pagep, DB_MPOOL_DIRTY);
  1090. if (new_pagep != NULL)
  1091. (void)memp_fput(dbp->mpf, new_pagep, DB_MPOOL_DIRTY);
  1092. if (temp_pagep != NULL && PGNO(temp_pagep) != bucket_pgno)
  1093. (void)memp_fput(dbp->mpf, temp_pagep, DB_MPOOL_DIRTY);
  1094. }
  1095. if (carray != NULL) /* We never knew its size. */
  1096. __os_free(carray, 0);
  1097. return (ret);
  1098. }
  1099. /*
  1100.  * Add the given pair to the page.  The page in question may already be
  1101.  * held (i.e. it was already gotten).  If it is, then the page is passed
  1102.  * in via the pagep parameter.  On return, pagep will contain the page
  1103.  * to which we just added something.  This allows us to link overflow
  1104.  * pages and return the new page having correctly put the last page.
  1105.  *
  1106.  * PUBLIC: int __ham_add_el __P((DBC *, const DBT *, const DBT *, int));
  1107.  */
  1108. int
  1109. __ham_add_el(dbc, key, val, type)
  1110. DBC *dbc;
  1111. const DBT *key, *val;
  1112. int type;
  1113. {
  1114. DB *dbp;
  1115. HASH_CURSOR *hcp;
  1116. const DBT *pkey, *pdata;
  1117. DBT key_dbt, data_dbt;
  1118. DB_LSN new_lsn;
  1119. HOFFPAGE doff, koff;
  1120. db_pgno_t next_pgno, pgno;
  1121. u_int32_t data_size, key_size, pairsize, rectype;
  1122. int do_expand, is_keybig, is_databig, ret;
  1123. int key_type, data_type;
  1124. dbp = dbc->dbp;
  1125. hcp = (HASH_CURSOR *)dbc->internal;
  1126. do_expand = 0;
  1127. pgno = hcp->seek_found_page != PGNO_INVALID ?  hcp->seek_found_page :
  1128.     hcp->pgno;
  1129. if (hcp->page == NULL && (ret = memp_fget(dbp->mpf, &pgno,
  1130.     DB_MPOOL_CREATE, &hcp->page)) != 0)
  1131. return (ret);
  1132. key_size = HKEYDATA_PSIZE(key->size);
  1133. data_size = HKEYDATA_PSIZE(val->size);
  1134. is_keybig = ISBIG(hcp, key->size);
  1135. is_databig = ISBIG(hcp, val->size);
  1136. if (is_keybig)
  1137. key_size = HOFFPAGE_PSIZE;
  1138. if (is_databig)
  1139. data_size = HOFFPAGE_PSIZE;
  1140. pairsize = key_size + data_size;
  1141. /* Advance to first page in chain with room for item. */
  1142. while (H_NUMPAIRS(hcp->page) && NEXT_PGNO(hcp->page) != PGNO_INVALID) {
  1143. /*
  1144.  * This may not be the end of the chain, but the pair may fit
  1145.  * anyway.  Check if it's a bigpair that fits or a regular
  1146.  * pair that fits.
  1147.  */
  1148. if (P_FREESPACE(hcp->page) >= pairsize)
  1149. break;
  1150. next_pgno = NEXT_PGNO(hcp->page);
  1151. if ((ret =
  1152.     __ham_next_cpage(dbc, next_pgno, 0)) != 0)
  1153. return (ret);
  1154. }
  1155. /*
  1156.  * Check if we need to allocate a new page.
  1157.  */
  1158. if (P_FREESPACE(hcp->page) < pairsize) {
  1159. do_expand = 1;
  1160. if ((ret = __ham_add_ovflpage(dbc,
  1161.     (PAGE *)hcp->page, 1, (PAGE **)&hcp->page)) !=  0)
  1162. return (ret);
  1163. hcp->pgno = PGNO(hcp->page);
  1164. }
  1165. /*
  1166.  * Update cursor.
  1167.  */
  1168. hcp->indx = NUM_ENT(hcp->page);
  1169. F_CLR(hcp, H_DELETED);
  1170. if (is_keybig) {
  1171. koff.type = H_OFFPAGE;
  1172. UMRW_SET(koff.unused[0]);
  1173. UMRW_SET(koff.unused[1]);
  1174. UMRW_SET(koff.unused[2]);
  1175. if ((ret = __db_poff(dbc, key, &koff.pgno)) != 0)
  1176. return (ret);
  1177. koff.tlen = key->size;
  1178. key_dbt.data = &koff;
  1179. key_dbt.size = sizeof(koff);
  1180. pkey = &key_dbt;
  1181. key_type = H_OFFPAGE;
  1182. } else {
  1183. pkey = key;
  1184. key_type = H_KEYDATA;
  1185. }
  1186. if (is_databig) {
  1187. doff.type = H_OFFPAGE;
  1188. UMRW_SET(doff.unused[0]);
  1189. UMRW_SET(doff.unused[1]);
  1190. UMRW_SET(doff.unused[2]);
  1191. if ((ret = __db_poff(dbc, val, &doff.pgno)) != 0)
  1192. return (ret);
  1193. doff.tlen = val->size;
  1194. data_dbt.data = &doff;
  1195. data_dbt.size = sizeof(doff);
  1196. pdata = &data_dbt;
  1197. data_type = H_OFFPAGE;
  1198. } else {
  1199. pdata = val;
  1200. data_type = type;
  1201. }
  1202. if (DB_LOGGING(dbc)) {
  1203. rectype = PUTPAIR;
  1204. if (is_databig)
  1205. rectype |= PAIR_DATAMASK;
  1206. if (is_keybig)
  1207. rectype |= PAIR_KEYMASK;
  1208. if (type == H_DUPLICATE)
  1209. rectype |= PAIR_DUPMASK;
  1210. if ((ret = __ham_insdel_log(dbp->dbenv, dbc->txn, &new_lsn, 0,
  1211.     rectype, dbp->log_fileid, PGNO(hcp->page),
  1212.     (u_int32_t)NUM_ENT(hcp->page), &LSN(hcp->page), pkey,
  1213.     pdata)) != 0)
  1214. return (ret);
  1215. /* Move lsn onto page. */
  1216. LSN(hcp->page) = new_lsn; /* Structure assignment. */
  1217. }
  1218. __ham_putitem(hcp->page, pkey, key_type);
  1219. __ham_putitem(hcp->page, pdata, data_type);
  1220. /*
  1221.  * For splits, we are going to update item_info's page number
  1222.  * field, so that we can easily return to the same page the
  1223.  * next time we come in here.  For other operations, this shouldn't
  1224.  * matter, since odds are this is the last thing that happens before
  1225.  * we return to the user program.
  1226.  */
  1227. hcp->pgno = PGNO(hcp->page);
  1228. /*
  1229.  * XXX
  1230.  * Maybe keep incremental numbers here.
  1231.  */
  1232. if (!STD_LOCKING(dbc))
  1233. hcp->hdr->nelem++;
  1234. if (do_expand || (hcp->hdr->ffactor != 0 &&
  1235.     (u_int32_t)H_NUMPAIRS(hcp->page) > hcp->hdr->ffactor))
  1236. F_SET(hcp, H_EXPAND);
  1237. return (0);
  1238. }
  1239. /*
  1240.  * Special __putitem call used in splitting -- copies one entry to
  1241.  * another.  Works for all types of hash entries (H_OFFPAGE, H_KEYDATA,
  1242.  * H_DUPLICATE, H_OFFDUP).  Since we log splits at a high level, we
  1243.  * do not need to do any logging here.
  1244.  *
  1245.  * PUBLIC: void __ham_copy_item __P((size_t, PAGE *, u_int32_t, PAGE *));
  1246.  */
  1247. void
  1248. __ham_copy_item(pgsize, src_page, src_ndx, dest_page)
  1249. size_t pgsize;
  1250. PAGE *src_page;
  1251. u_int32_t src_ndx;
  1252. PAGE *dest_page;
  1253. {
  1254. u_int32_t len;
  1255. void *src, *dest;
  1256. /*
  1257.  * Copy the key and data entries onto this new page.
  1258.  */
  1259. src = P_ENTRY(src_page, src_ndx);
  1260. /* Set up space on dest. */
  1261. len = LEN_HITEM(src_page, pgsize, src_ndx);
  1262. HOFFSET(dest_page) -= len;
  1263. dest_page->inp[NUM_ENT(dest_page)] = HOFFSET(dest_page);
  1264. dest = P_ENTRY(dest_page, NUM_ENT(dest_page));
  1265. NUM_ENT(dest_page)++;
  1266. memcpy(dest, src, len);
  1267. }
  1268. /*
  1269.  *
  1270.  * Returns:
  1271.  *      pointer on success
  1272.  *      NULL on error
  1273.  *
  1274.  * PUBLIC: int __ham_add_ovflpage __P((DBC *, PAGE *, int, PAGE **));
  1275.  */
  1276. int
  1277. __ham_add_ovflpage(dbc, pagep, release, pp)
  1278. DBC *dbc;
  1279. PAGE *pagep;
  1280. int release;
  1281. PAGE **pp;
  1282. {
  1283. DB *dbp;
  1284. HASH_CURSOR *hcp;
  1285. DB_LSN new_lsn;
  1286. PAGE *new_pagep;
  1287. int ret;
  1288. dbp = dbc->dbp;
  1289. hcp = (HASH_CURSOR *)dbc->internal;
  1290. if ((ret = __db_new(dbc, P_HASH, &new_pagep)) != 0)
  1291. return (ret);
  1292. if (DB_LOGGING(dbc)) {
  1293. if ((ret = __ham_newpage_log(dbp->dbenv, dbc->txn, &new_lsn, 0,
  1294.     PUTOVFL, dbp->log_fileid, PGNO(pagep), &LSN(pagep),
  1295.     PGNO(new_pagep), &LSN(new_pagep), PGNO_INVALID, NULL)) != 0)
  1296. return (ret);
  1297. /* Move lsn onto page. */
  1298. LSN(pagep) = LSN(new_pagep) = new_lsn;
  1299. }
  1300. NEXT_PGNO(pagep) = PGNO(new_pagep);
  1301. PREV_PGNO(new_pagep) = PGNO(pagep);
  1302. if (release)
  1303. ret = memp_fput(dbp->mpf, pagep, DB_MPOOL_DIRTY);
  1304. *pp = new_pagep;
  1305. return (ret);
  1306. }
  1307. /*
  1308.  * PUBLIC: int __ham_get_cpage __P((DBC *, db_lockmode_t));
  1309.  */
  1310. int
  1311. __ham_get_cpage(dbc, mode)
  1312. DBC *dbc;
  1313. db_lockmode_t mode;
  1314. {
  1315. DB *dbp;
  1316. DB_LOCK tmp_lock;
  1317. HASH_CURSOR *hcp;
  1318. int ret;
  1319. dbp = dbc->dbp;
  1320. hcp = (HASH_CURSOR *)dbc->internal;
  1321. ret = 0;
  1322. /*
  1323.  * There are four cases with respect to buckets and locks.
  1324.  * 1. If there is no lock held, then if we are locking, we should
  1325.  *    get the lock.
  1326.  * 2. If there is a lock held, it's for the current bucket, and it's
  1327.  *    for the right mode, we don't need to do anything.
  1328.  * 3. If there is a lock held for the current bucket but it's not
  1329.  *    strong enough, we need to upgrade.
  1330.  * 4. If there is a lock, but it's for a different bucket, then we need
  1331.  *    to release the existing lock and get a new lock.
  1332.  */
  1333. tmp_lock.off = LOCK_INVALID;
  1334. if (STD_LOCKING(dbc)) {
  1335. if (hcp->lock.off != LOCK_INVALID &&
  1336.     hcp->lbucket != hcp->bucket) { /* Case 4 */
  1337. if (dbc->txn == NULL &&
  1338.     (ret = lock_put(dbp->dbenv, &hcp->lock)) != 0)
  1339. return (ret);
  1340. hcp->lock.off = LOCK_INVALID;
  1341. }
  1342. if ((hcp->lock.off != LOCK_INVALID &&
  1343.     (hcp->lock_mode == DB_LOCK_READ &&
  1344.     mode == DB_LOCK_WRITE))) {
  1345. /* Case 3. */
  1346. tmp_lock = hcp->lock;
  1347. hcp->lock.off = LOCK_INVALID;
  1348. }
  1349. /* Acquire the lock. */
  1350. if (hcp->lock.off == LOCK_INVALID)
  1351. /* Cases 1, 3, and 4. */
  1352. if ((ret = __ham_lock_bucket(dbc, mode)) != 0)
  1353. return (ret);
  1354. if (ret == 0) {
  1355. hcp->lock_mode = mode;
  1356. hcp->lbucket = hcp->bucket;
  1357. if (tmp_lock.off != LOCK_INVALID)
  1358. /* Case 3: release the original lock. */
  1359. ret = lock_put(dbp->dbenv, &tmp_lock);
  1360. } else if (tmp_lock.off != LOCK_INVALID)
  1361. hcp->lock = tmp_lock;
  1362. }
  1363. if (ret == 0 && hcp->page == NULL) {
  1364. if (hcp->pgno == PGNO_INVALID)
  1365. hcp->pgno = BUCKET_TO_PAGE(hcp, hcp->bucket);
  1366. if ((ret = memp_fget(dbp->mpf,
  1367.     &hcp->pgno, DB_MPOOL_CREATE, &hcp->page)) != 0)
  1368. return (ret);
  1369. }
  1370. return (0);
  1371. }
  1372. /*
  1373.  * Get a new page at the cursor, putting the last page if necessary.
  1374.  * If the flag is set to H_ISDUP, then we are talking about the
  1375.  * duplicate page, not the main page.
  1376.  *
  1377.  * PUBLIC: int __ham_next_cpage __P((DBC *, db_pgno_t, int));
  1378.  */
  1379. int
  1380. __ham_next_cpage(dbc, pgno, dirty)
  1381. DBC *dbc;
  1382. db_pgno_t pgno;
  1383. int dirty;
  1384. {
  1385. DB *dbp;
  1386. HASH_CURSOR *hcp;
  1387. PAGE *p;
  1388. int ret;
  1389. dbp = dbc->dbp;
  1390. hcp = (HASH_CURSOR *)dbc->internal;
  1391. if (hcp->page != NULL && (ret = memp_fput(dbp->mpf,
  1392.     hcp->page, dirty ? DB_MPOOL_DIRTY : 0)) != 0)
  1393. return (ret);
  1394. if ((ret = memp_fget(dbp->mpf, &pgno, DB_MPOOL_CREATE, &p)) != 0)
  1395. return (ret);
  1396. hcp->page = p;
  1397. hcp->pgno = pgno;
  1398. hcp->indx = 0;
  1399. return (0);
  1400. }
  1401. /*
  1402.  * __ham_lock_bucket --
  1403.  * Get the lock on a particular bucket.
  1404.  *
  1405.  * PUBLIC: int __ham_lock_bucket __P((DBC *, db_lockmode_t));
  1406.  */
  1407. int
  1408. __ham_lock_bucket(dbc, mode)
  1409. DBC *dbc;
  1410. db_lockmode_t mode;
  1411. {
  1412. HASH_CURSOR *hcp;
  1413. u_int32_t flags;
  1414. int gotmeta, ret;
  1415. hcp = (HASH_CURSOR *)dbc->internal;
  1416. gotmeta = hcp->hdr == NULL ? 1 : 0;
  1417. if (gotmeta)
  1418. if ((ret = __ham_get_meta(dbc)) != 0)
  1419. return (ret);
  1420. dbc->lock.pgno = BUCKET_TO_PAGE(hcp, hcp->bucket);
  1421. if (gotmeta)
  1422. if ((ret = __ham_release_meta(dbc)) != 0)
  1423. return (ret);
  1424. flags = 0;
  1425. if (DB_NONBLOCK(dbc))
  1426. LF_SET(DB_LOCK_NOWAIT);
  1427. ret = lock_get(dbc->dbp->dbenv,
  1428.     dbc->locker, flags, &dbc->lock_dbt, mode, &hcp->lock);
  1429. hcp->lock_mode = mode;
  1430. return (ret);
  1431. }
  1432. /*
  1433.  * __ham_dpair --
  1434.  * Delete a pair on a page, paying no attention to what the pair
  1435.  * represents.  The caller is responsible for freeing up duplicates
  1436.  * or offpage entries that might be referenced by this pair.
  1437.  *
  1438.  * PUBLIC: void __ham_dpair __P((DB *, PAGE *, u_int32_t));
  1439.  */
  1440. void
  1441. __ham_dpair(dbp, p, indx)
  1442. DB *dbp;
  1443. PAGE *p;
  1444. u_int32_t indx;
  1445. {
  1446. db_indx_t delta, n;
  1447. u_int8_t *dest, *src;
  1448. /*
  1449.  * Compute "delta", the amount we have to shift all of the
  1450.  * offsets.  To find the delta, we just need to calculate
  1451.  * the size of the pair of elements we are removing.
  1452.  */
  1453. delta = H_PAIRSIZE(p, dbp->pgsize, indx);
  1454. /*
  1455.  * The hard case: we want to remove something other than
  1456.  * the last item on the page.  We need to shift data and
  1457.  * offsets down.
  1458.  */
  1459. if ((db_indx_t)indx != NUM_ENT(p) - 2) {
  1460. /*
  1461.  * Move the data: src is the first occupied byte on
  1462.  * the page. (Length is delta.)
  1463.  */
  1464. src = (u_int8_t *)p + HOFFSET(p);
  1465. /*
  1466.  * Destination is delta bytes beyond src.  This might
  1467.  * be an overlapping copy, so we have to use memmove.
  1468.  */
  1469. dest = src + delta;
  1470. memmove(dest, src, p->inp[H_DATAINDEX(indx)] - HOFFSET(p));
  1471. }
  1472. /* Adjust page metadata. */
  1473. HOFFSET(p) = HOFFSET(p) + delta;
  1474. NUM_ENT(p) = NUM_ENT(p) - 2;
  1475. /* Adjust the offsets. */
  1476. for (n = (db_indx_t)indx; n < (db_indx_t)(NUM_ENT(p)); n++)
  1477. p->inp[n] = p->inp[n + 2] + delta;
  1478. }