db.c
上传用户:tsgydb
上传日期:2007-04-14
资源大小:10674k
文件大小:61k
源码类别:

MySQL数据库

开发平台:

Visual C++

  1. /*-
  2.  * See the file LICENSE for redistribution information.
  3.  *
  4.  * Copyright (c) 1996, 1997, 1998, 1999, 2000
  5.  * Sleepycat Software.  All rights reserved.
  6.  */
  7. /*
  8.  * Copyright (c) 1990, 1993, 1994, 1995, 1996
  9.  * Keith Bostic.  All rights reserved.
  10.  */
  11. /*
  12.  * Copyright (c) 1990, 1993, 1994, 1995
  13.  * The Regents of the University of California.  All rights reserved.
  14.  *
  15.  * Redistribution and use in source and binary forms, with or without
  16.  * modification, are permitted provided that the following conditions
  17.  * are met:
  18.  * 1. Redistributions of source code must retain the above copyright
  19.  *    notice, this list of conditions and the following disclaimer.
  20.  * 2. Redistributions in binary form must reproduce the above copyright
  21.  *    notice, this list of conditions and the following disclaimer in the
  22.  *    documentation and/or other materials provided with the distribution.
  23.  * 3. Neither the name of the University nor the names of its contributors
  24.  *    may be used to endorse or promote products derived from this software
  25.  *    without specific prior written permission.
  26.  *
  27.  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  28.  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  29.  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  30.  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  31.  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  32.  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  33.  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  34.  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  35.  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  36.  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  37.  * SUCH DAMAGE.
  38.  */
  39. #include "db_config.h"
  40. #ifndef lint
  41. static const char revid[] = "$Id: db.c,v 11.117 2001/01/11 18:19:50 bostic Exp $";
  42. #endif /* not lint */
  43. #ifndef NO_SYSTEM_INCLUDES
  44. #include <sys/types.h>
  45. #include <stddef.h>
  46. #include <stdlib.h>
  47. #include <string.h>
  48. #endif
  49. #include "db_int.h"
  50. #include "db_page.h"
  51. #include "db_shash.h"
  52. #include "db_swap.h"
  53. #include "btree.h"
  54. #include "db_am.h"
  55. #include "hash.h"
  56. #include "lock.h"
  57. #include "log.h"
  58. #include "mp.h"
  59. #include "qam.h"
  60. #include "common_ext.h"
  61. /* Actions that __db_master_update can take. */
  62. typedef enum { MU_REMOVE, MU_RENAME, MU_OPEN } mu_action;
  63. /* Flag values that __db_file_setup can return. */
  64. #define DB_FILE_SETUP_CREATE 0x01
  65. #define DB_FILE_SETUP_ZERO 0x02
  66. static int __db_file_setup __P((DB *,
  67.        const char *, u_int32_t, int, db_pgno_t, int *));
  68. static int __db_master_update __P((DB *,
  69.        const char *, u_int32_t,
  70.        db_pgno_t *, mu_action, const char *, u_int32_t));
  71. static int __db_refresh __P((DB *));
  72. static int __db_remove_callback __P((DB *, void *));
  73. static int __db_set_pgsize __P((DB *, DB_FH *, char *));
  74. static int __db_subdb_remove __P((DB *, const char *, const char *));
  75. static int __db_subdb_rename __P(( DB *,
  76. const char *, const char *, const char *));
  77. #if     CONFIG_TEST
  78. static void __db_makecopy __P((const char *, const char *));
  79. static int __db_testdocopy __P((DB *, const char *));
  80. static int __qam_testdocopy __P((DB *, const char *));
  81. #endif
  82. /*
  83.  * __db_open --
  84.  * Main library interface to the DB access methods.
  85.  *
  86.  * PUBLIC: int __db_open __P((DB *,
  87.  * PUBLIC:     const char *, const char *, DBTYPE, u_int32_t, int));
  88.  */
  89. int
  90. __db_open(dbp, name, subdb, type, flags, mode)
  91. DB *dbp;
  92. const char *name, *subdb;
  93. DBTYPE type;
  94. u_int32_t flags;
  95. int mode;
  96. {
  97. DB_ENV *dbenv;
  98. DB_LOCK open_lock;
  99. DB *mdbp;
  100. db_pgno_t meta_pgno;
  101. u_int32_t ok_flags;
  102. int ret, t_ret;
  103. dbenv = dbp->dbenv;
  104. mdbp = NULL;
  105. /* Validate arguments. */
  106. #define OKFLAGS
  107.     (DB_CREATE | DB_EXCL | DB_FCNTL_LOCKING |
  108.     DB_NOMMAP | DB_RDONLY | DB_RDWRMASTER | DB_THREAD | DB_TRUNCATE)
  109. if ((ret = __db_fchk(dbenv, "DB->open", flags, OKFLAGS)) != 0)
  110. return (ret);
  111. if (LF_ISSET(DB_EXCL) && !LF_ISSET(DB_CREATE))
  112. return (__db_ferr(dbenv, "DB->open", 1));
  113. if (LF_ISSET(DB_RDONLY) && LF_ISSET(DB_CREATE))
  114. return (__db_ferr(dbenv, "DB->open", 1));
  115. #ifdef HAVE_VXWORKS
  116. if (LF_ISSET(DB_TRUNCATE)) {
  117. __db_err(dbenv, "DB_TRUNCATE unsupported in VxWorks");
  118. return (__db_eopnotsup(dbenv));
  119. }
  120. #endif
  121. switch (type) {
  122. case DB_UNKNOWN:
  123. if (LF_ISSET(DB_CREATE|DB_TRUNCATE)) {
  124. __db_err(dbenv,
  125.     "%s: DB_UNKNOWN type specified with DB_CREATE or DB_TRUNCATE",
  126.     name);
  127. return (EINVAL);
  128. }
  129. ok_flags = 0;
  130. break;
  131. case DB_BTREE:
  132. ok_flags = DB_OK_BTREE;
  133. break;
  134. case DB_HASH:
  135. ok_flags = DB_OK_HASH;
  136. break;
  137. case DB_QUEUE:
  138. ok_flags = DB_OK_QUEUE;
  139. break;
  140. case DB_RECNO:
  141. ok_flags = DB_OK_RECNO;
  142. break;
  143. default:
  144. __db_err(dbenv, "unknown type: %lu", (u_long)type);
  145. return (EINVAL);
  146. }
  147. if (ok_flags)
  148. DB_ILLEGAL_METHOD(dbp, ok_flags);
  149. /* The environment may have been created, but never opened. */
  150. if (!F_ISSET(dbenv, DB_ENV_DBLOCAL | DB_ENV_OPEN_CALLED)) {
  151. __db_err(dbenv, "environment not yet opened");
  152. return (EINVAL);
  153. }
  154. /*
  155.  * Historically, you could pass in an environment that didn't have a
  156.  * mpool, and DB would create a private one behind the scenes.  This
  157.  * no longer works.
  158.  */
  159. if (!F_ISSET(dbenv, DB_ENV_DBLOCAL) && !MPOOL_ON(dbenv)) {
  160. __db_err(dbenv, "environment did not include a memory pool.");
  161. return (EINVAL);
  162. }
  163. /*
  164.  * You can't specify threads during DB->open if subsystems in the
  165.  * environment weren't configured with them.
  166.  */
  167. if (LF_ISSET(DB_THREAD) &&
  168.     !F_ISSET(dbenv, DB_ENV_DBLOCAL | DB_ENV_THREAD)) {
  169. __db_err(dbenv, "environment not created using DB_THREAD");
  170. return (EINVAL);
  171. }
  172. /*
  173.  * If the environment was configured with threads, the DB handle
  174.  * must also be free-threaded, so we force the DB_THREAD flag on.
  175.  * (See SR #2033 for why this is a requirement--recovery needs
  176.  * to be able to grab a dbp using __db_fileid_to_dbp, and it has
  177.  * no way of knowing which dbp goes with which thread, so whichever
  178.  * one it finds has to be usable in any of them.)
  179.  */
  180. if (F_ISSET(dbenv, DB_ENV_THREAD))
  181. LF_SET(DB_THREAD);
  182. /* DB_TRUNCATE is not transaction recoverable. */
  183. if (LF_ISSET(DB_TRUNCATE) && TXN_ON(dbenv)) {
  184. __db_err(dbenv,
  185.     "DB_TRUNCATE illegal in a transaction protected environment");
  186. return (EINVAL);
  187. }
  188. /* Subdatabase checks. */
  189. if (subdb != NULL) {
  190. /* Subdatabases must be created in named files. */
  191. if (name == NULL) {
  192. __db_err(dbenv,
  193.     "multiple databases cannot be created in temporary files");
  194. return (EINVAL);
  195. }
  196. /* QAM can't be done as a subdatabase. */
  197. if (type == DB_QUEUE) {
  198. __db_err(dbenv, "Queue databases must be one-per-file");
  199. return (EINVAL);
  200. }
  201. }
  202. /* Convert any DB->open flags. */
  203. if (LF_ISSET(DB_RDONLY))
  204. F_SET(dbp, DB_AM_RDONLY);
  205. /* Fill in the type. */
  206. dbp->type = type;
  207. /*
  208.  * If we're potentially creating a database, wrap the open inside of
  209.  * a transaction.
  210.  */
  211. if (TXN_ON(dbenv) && LF_ISSET(DB_CREATE))
  212. if ((ret = __db_metabegin(dbp, &open_lock)) != 0)
  213. return (ret);
  214. /*
  215.  * If we're opening a subdatabase, we have to open (and potentially
  216.  * create) the main database, and then get (and potentially store)
  217.  * our base page number in that database.  Then, we can finally open
  218.  * the subdatabase.
  219.  */
  220. if (subdb == NULL)
  221. meta_pgno = PGNO_BASE_MD;
  222. else {
  223. /*
  224.  * Open the master database, optionally creating or updating
  225.  * it, and retrieve the metadata page number.
  226.  */
  227. if ((ret =
  228.     __db_master_open(dbp, name, flags, mode, &mdbp)) != 0)
  229. goto err;
  230. /* Copy the page size and file id from the master. */
  231. dbp->pgsize = mdbp->pgsize;
  232. F_SET(dbp, DB_AM_SUBDB);
  233. memcpy(dbp->fileid, mdbp->fileid, DB_FILE_ID_LEN);
  234. if ((ret = __db_master_update(mdbp,
  235.     subdb, type, &meta_pgno, MU_OPEN, NULL, flags)) != 0)
  236. goto err;
  237. /*
  238.  * Clear the exclusive open and truncation flags, they only
  239.  * apply to the open of the master database.
  240.  */
  241. LF_CLR(DB_EXCL | DB_TRUNCATE);
  242. }
  243. ret = __db_dbopen(dbp, name, flags, mode, meta_pgno);
  244. /*
  245.  * You can open the database that describes the subdatabases in the
  246.  * rest of the file read-only.  The content of each key's data is
  247.  * unspecified and applications should never be adding new records
  248.  * or updating existing records.  However, during recovery, we need
  249.  * to open these databases R/W so we can redo/undo changes in them.
  250.  * Likewise, we need to open master databases read/write during
  251.  * rename and remove so we can be sure they're fully sync'ed, so
  252.  * we provide an override flag for the purpose.
  253.  */
  254. if (subdb == NULL && !IS_RECOVERING(dbenv) && !LF_ISSET(DB_RDONLY) &&
  255.     !LF_ISSET(DB_RDWRMASTER) && F_ISSET(dbp, DB_AM_SUBDB)) {
  256. __db_err(dbenv,
  257.     "files containing multiple databases may only be opened read-only");
  258. ret = EINVAL;
  259. goto err;
  260. }
  261. err: /*
  262.  * End any transaction, committing if we were successful, aborting
  263.  * otherwise.
  264.  */
  265. if (TXN_ON(dbenv) && LF_ISSET(DB_CREATE))
  266. if ((t_ret = __db_metaend(dbp,
  267.     &open_lock, ret == 0, NULL, NULL)) != 0 && ret == 0)
  268. ret = t_ret;
  269. /* If we were successful, don't discard the file on close. */
  270. if (ret == 0)
  271. F_CLR(dbp, DB_AM_DISCARD);
  272. /* If we were unsuccessful, destroy the DB handle. */
  273. if (ret != 0) {
  274. /* In recovery we set log_fileid early. */
  275. if (IS_RECOVERING(dbenv))
  276. dbp->log_fileid = DB_LOGFILEID_INVALID;
  277. __db_refresh(dbp);
  278. }
  279. if (mdbp != NULL) {
  280. /* If we were successful, don't discard the file on close. */
  281. if (ret == 0)
  282. F_CLR(mdbp, DB_AM_DISCARD);
  283. if ((t_ret = mdbp->close(mdbp, 0)) != 0 && ret == 0)
  284. ret = t_ret;
  285. }
  286. return (ret);
  287. }
  288. /*
  289.  * __db_dbopen --
  290.  * Open a database.
  291.  * PUBLIC: int __db_dbopen __P((DB *, const char *, u_int32_t, int, db_pgno_t));
  292.  */
  293. int
  294. __db_dbopen(dbp, name, flags, mode, meta_pgno)
  295. DB *dbp;
  296. const char *name;
  297. u_int32_t flags;
  298. int mode;
  299. db_pgno_t meta_pgno;
  300. {
  301. DB_ENV *dbenv;
  302. int ret, retinfo;
  303. dbenv = dbp->dbenv;
  304. /* Set up the underlying file. */
  305. if ((ret = __db_file_setup(dbp,
  306.     name, flags, mode, meta_pgno, &retinfo)) != 0)
  307. return (ret);
  308. /*
  309.  * If we created the file, set the truncate flag for the mpool.  This
  310.  * isn't for anything we've done, it's protection against stupid user
  311.  * tricks: if the user deleted a file behind Berkeley DB's back, we
  312.  * may still have pages in the mpool that match the file's "unique" ID.
  313.  */
  314. if (retinfo & DB_FILE_SETUP_CREATE)
  315. flags |= DB_TRUNCATE;
  316. /* Set up the underlying environment. */
  317. if ((ret = __db_dbenv_setup(dbp, name, flags)) != 0)
  318. return (ret);
  319. /*
  320.  * Do access method specific initialization.
  321.  *
  322.  * !!!
  323.  * Set the open flag.  (The underlying access method open functions
  324.  * may want to do things like acquire cursors, so the open flag has
  325.  * to be set before calling them.)
  326.  */
  327. F_SET(dbp, DB_OPEN_CALLED);
  328. if (retinfo & DB_FILE_SETUP_ZERO)
  329. return (0);
  330. switch (dbp->type) {
  331. case DB_BTREE:
  332. ret = __bam_open(dbp, name, meta_pgno, flags);
  333. break;
  334. case DB_HASH:
  335. ret = __ham_open(dbp, name, meta_pgno, flags);
  336. break;
  337. case DB_RECNO:
  338. ret = __ram_open(dbp, name, meta_pgno, flags);
  339. break;
  340. case DB_QUEUE:
  341. ret = __qam_open(dbp, name, meta_pgno, mode, flags);
  342. break;
  343. case DB_UNKNOWN:
  344. return (__db_unknown_type(dbp->dbenv,
  345.      "__db_dbopen", dbp->type));
  346. break;
  347. }
  348. return (ret);
  349. }
  350. /*
  351.  * __db_master_open --
  352.  * Open up a handle on a master database.
  353.  *
  354.  * PUBLIC: int __db_master_open __P((DB *,
  355.  * PUBLIC:     const char *, u_int32_t, int, DB **));
  356.  */
  357. int
  358. __db_master_open(subdbp, name, flags, mode, dbpp)
  359. DB *subdbp;
  360. const char *name;
  361. u_int32_t flags;
  362. int mode;
  363. DB **dbpp;
  364. {
  365. DB *dbp;
  366. int ret;
  367. /* Open up a handle on the main database. */
  368. if ((ret = db_create(&dbp, subdbp->dbenv, 0)) != 0)
  369. return (ret);
  370. /*
  371.  * It's always a btree.
  372.  * Run in the transaction we've created.
  373.  * Set the pagesize in case we're creating a new database.
  374.  * Flag that we're creating a database with subdatabases.
  375.  */
  376. dbp->type = DB_BTREE;
  377. dbp->open_txn = subdbp->open_txn;
  378. dbp->pgsize = subdbp->pgsize;
  379. F_SET(dbp, DB_AM_SUBDB);
  380. if ((ret = __db_dbopen(dbp, name, flags, mode, PGNO_BASE_MD)) != 0) {
  381. if (!F_ISSET(dbp, DB_AM_DISCARD))
  382. dbp->close(dbp, 0);
  383. return (ret);
  384. }
  385. *dbpp = dbp;
  386. return (0);
  387. }
  388. /*
  389.  * __db_master_update --
  390.  * Add/Remove a subdatabase from a master database.
  391.  */
  392. static int
  393. __db_master_update(mdbp, subdb, type, meta_pgnop, action, newname, flags)
  394. DB *mdbp;
  395. const char *subdb;
  396. u_int32_t type;
  397. db_pgno_t *meta_pgnop; /* may be NULL on MU_RENAME */
  398. mu_action action;
  399. const char *newname;
  400. u_int32_t flags;
  401. {
  402. DB_ENV *dbenv;
  403. DBC *dbc, *ndbc;
  404. DBT key, data, ndata;
  405. PAGE *p;
  406. db_pgno_t t_pgno;
  407. int modify, ret, t_ret;
  408. dbenv = mdbp->dbenv;
  409. dbc = ndbc = NULL;
  410. p = NULL;
  411. /* Might we modify the master database?  If so, we'll need to lock. */
  412. modify = (action != MU_OPEN || LF_ISSET(DB_CREATE)) ? 1 : 0;
  413. memset(&key, 0, sizeof(key));
  414. memset(&data, 0, sizeof(data));
  415. /*
  416.  * Open up a cursor.  If this is CDB and we're creating the database,
  417.  * make it an update cursor.
  418.  */
  419. if ((ret = mdbp->cursor(mdbp, mdbp->open_txn, &dbc,
  420.     (CDB_LOCKING(dbenv) && modify) ? DB_WRITECURSOR : 0)) != 0)
  421. goto err;
  422. /*
  423.  * Try to point the cursor at the record.
  424.  *
  425.  * If we're removing or potentially creating an entry, lock the page
  426.  * with DB_RMW.
  427.  *
  428.  * !!!
  429.  * We don't include the name's nul termination in the database.
  430.  */
  431. key.data = (char *)subdb;
  432. key.size = strlen(subdb);
  433. /* In the rename case, we do multiple cursor ops, so MALLOC is safer. */
  434. F_SET(&data, DB_DBT_MALLOC);
  435. ret = dbc->c_get(dbc, &key, &data,
  436.     DB_SET | ((STD_LOCKING(dbc) && modify) ? DB_RMW : 0));
  437. /*
  438.  * What we do next--whether or not we found a record for the
  439.  * specified subdatabase--depends on what the specified action is.
  440.  * Handle ret appropriately as the first statement of each case.
  441.  */
  442. switch (action) {
  443. case MU_REMOVE:
  444. /*
  445.  * We should have found something if we're removing it.  Note
  446.  * that in the common case where the DB we're asking to remove
  447.  * doesn't exist, we won't get this far;  __db_subdb_remove
  448.  * will already have returned an error from __db_open.
  449.  */
  450. if (ret != 0)
  451. goto err;
  452. /*
  453.  * Delete the subdatabase entry first;  if this fails,
  454.  * we don't want to touch the actual subdb pages.
  455.  */
  456. if ((ret = dbc->c_del(dbc, 0)) != 0)
  457. goto err;
  458. /*
  459.  * We're handling actual data, not on-page meta-data,
  460.  * so it hasn't been converted to/from opposite
  461.  * endian architectures.  Do it explicitly, now.
  462.  */
  463. memcpy(meta_pgnop, data.data, sizeof(db_pgno_t));
  464. DB_NTOHL(meta_pgnop);
  465. if ((ret = memp_fget(mdbp->mpf, meta_pgnop, 0, &p)) != 0)
  466. goto err;
  467. /* Free and put the page. */
  468. if ((ret = __db_free(dbc, p)) != 0) {
  469. p = NULL;
  470. goto err;
  471. }
  472. p = NULL;
  473. break;
  474. case MU_RENAME:
  475. /* We should have found something if we're renaming it. */
  476. if (ret != 0)
  477. goto err;
  478. /*
  479.  * Before we rename, we need to make sure we're not
  480.  * overwriting another subdatabase, or else this operation
  481.  * won't be undoable.  Open a second cursor and check
  482.  * for the existence of newname;  it shouldn't appear under
  483.  * us since we hold the metadata lock.
  484.  */
  485. if ((ret = mdbp->cursor(mdbp, mdbp->open_txn, &ndbc, 0)) != 0)
  486. goto err;
  487. DB_ASSERT(newname != NULL);
  488. key.data = (void *) newname;
  489. key.size = strlen(newname);
  490. /*
  491.  * We don't actually care what the meta page of the potentially-
  492.  * overwritten DB is;  we just care about existence.
  493.  */
  494. memset(&ndata, 0, sizeof(ndata));
  495. F_SET(&ndata, DB_DBT_USERMEM | DB_DBT_PARTIAL);
  496. if ((ret = ndbc->c_get(ndbc, &key, &ndata, DB_SET)) == 0) {
  497. /* A subdb called newname exists.  Bail. */
  498. ret = EEXIST;
  499. __db_err(dbenv, "rename: database %s exists", newname);
  500. goto err;
  501. } else if (ret != DB_NOTFOUND)
  502. goto err;
  503. /*
  504.  * Now do the put first;  we don't want to lose our
  505.  * sole reference to the subdb.  Use the second cursor
  506.  * so that the first one continues to point to the old record.
  507.  */
  508. if ((ret = ndbc->c_put(ndbc, &key, &data, DB_KEYFIRST)) != 0)
  509. goto err;
  510. if ((ret = dbc->c_del(dbc, 0)) != 0) {
  511. /*
  512.  * If the delete fails, try to delete the record
  513.  * we just put, in case we're not txn-protected.
  514.  */
  515. (void)ndbc->c_del(ndbc, 0);
  516. goto err;
  517. }
  518. break;
  519. case MU_OPEN:
  520. /*
  521.  * Get the subdatabase information.  If it already exists,
  522.  * copy out the page number and we're done.
  523.  */
  524. switch (ret) {
  525. case 0:
  526. memcpy(meta_pgnop, data.data, sizeof(db_pgno_t));
  527. DB_NTOHL(meta_pgnop);
  528. goto done;
  529. case DB_NOTFOUND:
  530. if (LF_ISSET(DB_CREATE))
  531. break;
  532. /*
  533.  * No db_err, it is reasonable to remove a
  534.  * nonexistent db.
  535.  */
  536. ret = ENOENT;
  537. goto err;
  538. default:
  539. goto err;
  540. }
  541. if ((ret = __db_new(dbc,
  542.     type == DB_HASH ? P_HASHMETA : P_BTREEMETA, &p)) != 0)
  543. goto err;
  544. *meta_pgnop = PGNO(p);
  545. /*
  546.  * XXX
  547.  * We're handling actual data, not on-page meta-data, so it
  548.  * hasn't been converted to/from opposite endian architectures.
  549.  * Do it explicitly, now.
  550.  */
  551. t_pgno = PGNO(p);
  552. DB_HTONL(&t_pgno);
  553. memset(&ndata, 0, sizeof(ndata));
  554. ndata.data = &t_pgno;
  555. ndata.size = sizeof(db_pgno_t);
  556. if ((ret = dbc->c_put(dbc, &key, &ndata, DB_KEYLAST)) != 0)
  557. goto err;
  558. break;
  559. }
  560. err:
  561. done: /*
  562.  * If we allocated a page: if we're successful, mark the page dirty
  563.  * and return it to the cache, otherwise, discard/free it.
  564.  */
  565. if (p != NULL) {
  566. if (ret == 0) {
  567. if ((t_ret =
  568.     memp_fput(mdbp->mpf, p, DB_MPOOL_DIRTY)) != 0)
  569. ret = t_ret;
  570. /*
  571.  * Since we cannot close this file until after
  572.  * transaction commit, we need to sync the dirty
  573.  * pages, because we'll read these directly from
  574.  * disk to open.
  575.  */
  576. if ((t_ret = mdbp->sync(mdbp, 0)) != 0 && ret == 0)
  577. ret = t_ret;
  578. } else
  579. (void)__db_free(dbc, p);
  580. }
  581. /* Discard the cursor(s) and data. */
  582. if (data.data != NULL)
  583. __os_free(data.data, data.size);
  584. if (dbc != NULL && (t_ret = dbc->c_close(dbc)) != 0 && ret == 0)
  585. ret = t_ret;
  586. if (ndbc != NULL && (t_ret = ndbc->c_close(ndbc)) != 0 && ret == 0)
  587. ret = t_ret;
  588. return (ret);
  589. }
  590. /*
  591.  * __db_dbenv_setup --
  592.  * Set up the underlying environment during a db_open.
  593.  *
  594.  * PUBLIC: int __db_dbenv_setup __P((DB *, const char *, u_int32_t));
  595.  */
  596. int
  597. __db_dbenv_setup(dbp, name, flags)
  598. DB *dbp;
  599. const char *name;
  600. u_int32_t flags;
  601. {
  602. DB *ldbp;
  603. DB_ENV *dbenv;
  604. DBT pgcookie;
  605. DB_MPOOL_FINFO finfo;
  606. DB_PGINFO pginfo;
  607. int ret;
  608. u_int32_t maxid;
  609. dbenv = dbp->dbenv;
  610. /* If we don't yet have an environment, it's time to create it. */
  611. if (!F_ISSET(dbenv, DB_ENV_OPEN_CALLED)) {
  612. /* Make sure we have at least DB_MINCACHE pages in our cache. */
  613. if (dbenv->mp_gbytes == 0 &&
  614.     dbenv->mp_bytes < dbp->pgsize * DB_MINPAGECACHE &&
  615.     (ret = dbenv->set_cachesize(
  616.     dbenv, 0, dbp->pgsize * DB_MINPAGECACHE, 0)) != 0)
  617. return (ret);
  618. if ((ret = dbenv->open(dbenv, NULL, DB_CREATE |
  619.     DB_INIT_MPOOL | DB_PRIVATE | LF_ISSET(DB_THREAD), 0)) != 0)
  620. return (ret);
  621. }
  622. /* Register DB's pgin/pgout functions. */
  623. if ((ret =
  624.     memp_register(dbenv, DB_FTYPE_SET, __db_pgin, __db_pgout)) != 0)
  625. return (ret);
  626. /*
  627.  * Open a backing file in the memory pool.
  628.  *
  629.  * If we need to pre- or post-process a file's pages on I/O, set the
  630.  * file type.  If it's a hash file, always call the pgin and pgout
  631.  * routines.  This means that hash files can never be mapped into
  632.  * process memory.  If it's a btree file and requires swapping, we
  633.  * need to page the file in and out.  This has to be right -- we can't
  634.  * mmap files that are being paged in and out.
  635.  */
  636. memset(&finfo, 0, sizeof(finfo));
  637. switch (dbp->type) {
  638. case DB_BTREE:
  639. case DB_RECNO:
  640. finfo.ftype =
  641.     F_ISSET(dbp, DB_AM_SWAP) ? DB_FTYPE_SET : DB_FTYPE_NOTSET;
  642. finfo.clear_len = DB_PAGE_DB_LEN;
  643. break;
  644. case DB_HASH:
  645. finfo.ftype = DB_FTYPE_SET;
  646. finfo.clear_len = DB_PAGE_DB_LEN;
  647. break;
  648. case DB_QUEUE:
  649. finfo.ftype =
  650.     F_ISSET(dbp, DB_AM_SWAP) ? DB_FTYPE_SET : DB_FTYPE_NOTSET;
  651. finfo.clear_len = DB_PAGE_QUEUE_LEN;
  652. break;
  653. case DB_UNKNOWN:
  654. /*
  655.  * If we're running in the verifier, our database might
  656.  * be corrupt and we might not know its type--but we may
  657.  * still want to be able to verify and salvage.
  658.  *
  659.  * If we can't identify the type, it's not going to be safe
  660.  * to call __db_pgin--we pretty much have to give up all
  661.  * hope of salvaging cross-endianness.  Proceed anyway;
  662.  * at worst, the database will just appear more corrupt
  663.  * than it actually is, but at best, we may be able
  664.  * to salvage some data even with no metadata page.
  665.  */
  666. if (F_ISSET(dbp, DB_AM_VERIFYING)) {
  667. finfo.ftype = DB_FTYPE_NOTSET;
  668. finfo.clear_len = DB_PAGE_DB_LEN;
  669. break;
  670. }
  671. return (__db_unknown_type(dbp->dbenv,
  672.      "__db_dbenv_setup", dbp->type));
  673. }
  674. finfo.pgcookie = &pgcookie;
  675. finfo.fileid = dbp->fileid;
  676. finfo.lsn_offset = 0;
  677. pginfo.db_pagesize = dbp->pgsize;
  678. pginfo.needswap = F_ISSET(dbp, DB_AM_SWAP);
  679. pgcookie.data = &pginfo;
  680. pgcookie.size = sizeof(DB_PGINFO);
  681. if ((ret = memp_fopen(dbenv, name,
  682.     LF_ISSET(DB_RDONLY | DB_NOMMAP | DB_ODDFILESIZE | DB_TRUNCATE),
  683.     0, dbp->pgsize, &finfo, &dbp->mpf)) != 0)
  684. return (ret);
  685. /*
  686.  * We may need a per-thread mutex.  Allocate it from the environment
  687.  * region, there's supposed to be extra space there for that purpose.
  688.  */
  689. if (LF_ISSET(DB_THREAD)) {
  690. if ((ret = __db_mutex_alloc(
  691.     dbenv, dbenv->reginfo, (MUTEX **)&dbp->mutexp)) != 0)
  692. return (ret);
  693. if ((ret = __db_mutex_init(
  694.     dbenv, dbp->mutexp, 0, MUTEX_THREAD)) != 0) {
  695. __db_mutex_free(dbenv, dbenv->reginfo, dbp->mutexp);
  696. return (ret);
  697. }
  698. }
  699. /* Get a log file id. */
  700. if (LOGGING_ON(dbenv) && !IS_RECOVERING(dbenv) &&
  701. #if !defined(DEBUG_ROP)
  702.     !F_ISSET(dbp, DB_AM_RDONLY) &&
  703. #endif
  704.     (ret = log_register(dbenv, dbp, name)) != 0)
  705. return (ret);
  706. /*
  707.  * Insert ourselves into the DB_ENV's dblist.  We allocate a
  708.  * unique ID to each {fileid, meta page number} pair, and to
  709.  * each temporary file (since they all have a zero fileid).
  710.  * This ID gives us something to use to tell which DB handles
  711.  * go with which databases in all the cursor adjustment
  712.  * routines, where we don't want to do a lot of ugly and
  713.  * expensive memcmps.
  714.  */
  715. MUTEX_THREAD_LOCK(dbenv, dbenv->dblist_mutexp);
  716. for (maxid = 0, ldbp = LIST_FIRST(&dbenv->dblist);
  717.     ldbp != NULL; ldbp = LIST_NEXT(dbp, dblistlinks)) {
  718. if (name != NULL &&
  719.     memcmp(ldbp->fileid, dbp->fileid, DB_FILE_ID_LEN) == 0 &&
  720.     ldbp->meta_pgno == dbp->meta_pgno)
  721. break;
  722. if (ldbp->adj_fileid > maxid)
  723. maxid = ldbp->adj_fileid;
  724. }
  725. /*
  726.  * If ldbp is NULL, we didn't find a match, or we weren't
  727.  * really looking because name is NULL.  Assign the dbp an
  728.  * adj_fileid one higher than the largest we found, and
  729.  * insert it at the head of the master dbp list.
  730.  *
  731.  * If ldbp is not NULL, it is a match for our dbp.  Give dbp
  732.  * the same ID that ldbp has, and add it after ldbp so they're
  733.  * together in the list.
  734.  */
  735. if (ldbp == NULL) {
  736. dbp->adj_fileid = maxid + 1;
  737. LIST_INSERT_HEAD(&dbenv->dblist, dbp, dblistlinks);
  738. } else {
  739. dbp->adj_fileid = ldbp->adj_fileid;
  740. LIST_INSERT_AFTER(ldbp, dbp, dblistlinks);
  741. }
  742. MUTEX_THREAD_UNLOCK(dbenv, dbenv->dblist_mutexp);
  743. return (0);
  744. }
  745. /*
  746.  * __db_file_setup --
  747.  * Setup the file or in-memory data.
  748.  * Read the database metadata and resolve it with our arguments.
  749.  */
  750. static int
  751. __db_file_setup(dbp, name, flags, mode, meta_pgno, retflags)
  752. DB *dbp;
  753. const char *name;
  754. u_int32_t flags;
  755. int mode;
  756. db_pgno_t meta_pgno;
  757. int *retflags;
  758. {
  759. DB *mdb;
  760. DBT namedbt;
  761. DB_ENV *dbenv;
  762. DB_FH *fhp, fh;
  763. DB_LSN lsn;
  764. DB_TXN *txn;
  765. size_t nr;
  766. u_int32_t magic, oflags;
  767. int ret, retry_cnt, t_ret;
  768. char *real_name, mbuf[DBMETASIZE];
  769. #define IS_SUBDB_SETUP (meta_pgno != PGNO_BASE_MD)
  770. dbenv = dbp->dbenv;
  771. dbp->meta_pgno = meta_pgno;
  772. txn = NULL;
  773. *retflags = 0;
  774. /*
  775.  * If we open a file handle and our caller is doing fcntl(2) locking,
  776.  * we can't close it because that would discard the caller's lock.
  777.  * Save it until we close the DB handle.
  778.  */
  779. if (LF_ISSET(DB_FCNTL_LOCKING)) {
  780. if ((ret = __os_malloc(dbenv, sizeof(*fhp), NULL, &fhp)) != 0)
  781. return (ret);
  782. } else
  783. fhp = &fh;
  784. memset(fhp, 0, sizeof(*fhp));
  785. /*
  786.  * If the file is in-memory, set up is simple.  Otherwise, do the
  787.  * hard work of opening and reading the file.
  788.  *
  789.  * If we have a file name, try and read the first page, figure out
  790.  * what type of file it is, and initialize everything we can based
  791.  * on that file's meta-data page.
  792.  *
  793.  * !!!
  794.  * There's a reason we don't push this code down into the buffer cache.
  795.  * The problem is that there's no information external to the file that
  796.  * we can use as a unique ID.  UNIX has dev/inode pairs, but they are
  797.  * not necessarily unique after reboot, if the file was mounted via NFS.
  798.  * Windows has similar problems, as the FAT filesystem doesn't maintain
  799.  * dev/inode numbers across reboot.  So, we must get something from the
  800.  * file we can use to ensure that, even after a reboot, the file we're
  801.  * joining in the cache is the right file for us to join.  The solution
  802.  * we use is to maintain a file ID that's stored in the database, and
  803.  * that's why we have to open and read the file before calling into the
  804.  * buffer cache.
  805.  *
  806.  * The secondary reason is that there's additional information that
  807.  * we want to have before instantiating a file in the buffer cache:
  808.  * the page size, file type (btree/hash), if swapping is required,
  809.  * and flags (DB_RDONLY, DB_CREATE, DB_TRUNCATE).  We could handle
  810.  * needing this information by allowing it to be set for a file in
  811.  * the buffer cache even after the file has been opened, and, of
  812.  * course, supporting the ability to flush a file from the cache as
  813.  * necessary, e.g., if we guessed wrongly about the page size.  Given
  814.  * that we have to read the file anyway to get the file ID, we might
  815.  * as well get the rest, too.
  816.  *
  817.  * Get the real file name.
  818.  */
  819. if (name == NULL) {
  820. F_SET(dbp, DB_AM_INMEM);
  821. if (dbp->type == DB_UNKNOWN) {
  822. __db_err(dbenv,
  823.     "DBTYPE of unknown without existing file");
  824. return (EINVAL);
  825. }
  826. real_name = NULL;
  827. /* Set the page size if we don't have one yet. */
  828. if (dbp->pgsize == 0)
  829. dbp->pgsize = DB_DEF_IOSIZE;
  830. /*
  831.  * If the file is a temporary file and we're doing locking,
  832.  * then we have to create a unique file ID.  We can't use our
  833.  * normal dev/inode pair (or whatever this OS uses in place of
  834.  * dev/inode pairs) because no backing file will be created
  835.  * until the mpool cache is filled forcing the buffers to disk.
  836.  * Grab a random locker ID to use as a file ID.  The created
  837.  * ID must never match a potential real file ID -- we know it
  838.  * won't because real file IDs contain a time stamp after the
  839.  * dev/inode pair, and we're simply storing a 4-byte value.
  840.  *
  841.  * !!!
  842.  * Store the locker in the file id structure -- we can get it
  843.  * from there as necessary, and it saves having two copies.
  844.  */
  845. if (LOCKING_ON(dbenv) &&
  846.     (ret = lock_id(dbenv, (u_int32_t *)dbp->fileid)) != 0)
  847. return (ret);
  848. return (0);
  849. }
  850. /* Get the real backing file name. */
  851. if ((ret = __db_appname(dbenv,
  852.     DB_APP_DATA, NULL, name, 0, NULL, &real_name)) != 0)
  853. return (ret);
  854. /*
  855.  * Open the backing file.  We need to make sure that multiple processes
  856.  * attempting to create the file at the same time are properly ordered
  857.  * so that only one of them creates the "unique" file ID, so we open it
  858.  * O_EXCL and O_CREAT so two simultaneous attempts to create the region
  859.  * will return failure in one of the attempts.  If we're the one that
  860.  * fails, simply retry without the O_CREAT flag, which will require the
  861.  * meta-data page exist.
  862.  */
  863. /* Fill in the default file mode. */
  864. if (mode == 0)
  865. mode = __db_omode("rwrw--");
  866. oflags = 0;
  867. if (LF_ISSET(DB_RDONLY))
  868. oflags |= DB_OSO_RDONLY;
  869. if (LF_ISSET(DB_TRUNCATE))
  870. oflags |= DB_OSO_TRUNC;
  871. retry_cnt = 0;
  872. open_retry:
  873. *retflags = 0;
  874. ret = 0;
  875. if (!IS_SUBDB_SETUP && LF_ISSET(DB_CREATE)) {
  876. if (dbp->open_txn != NULL) {
  877. /*
  878.  * Start a child transaction to wrap this individual
  879.  * create.
  880.  */
  881. if ((ret =
  882.     txn_begin(dbenv, dbp->open_txn, &txn, 0)) != 0)
  883. goto err_msg;
  884. memset(&namedbt, 0, sizeof(namedbt));
  885. namedbt.data = (char *)name;
  886. namedbt.size = strlen(name) + 1;
  887. if ((ret = __crdel_fileopen_log(dbenv, txn,
  888.     &lsn, DB_FLUSH, &namedbt, mode)) != 0)
  889. goto err_msg;
  890. }
  891. DB_TEST_RECOVERY(dbp, DB_TEST_PREOPEN, ret, name);
  892. if ((ret = __os_open(dbenv, real_name,
  893.     oflags | DB_OSO_CREATE | DB_OSO_EXCL, mode, fhp)) == 0) {
  894. DB_TEST_RECOVERY(dbp, DB_TEST_POSTOPEN, ret, name);
  895. /* Commit the file create. */
  896. if (dbp->open_txn != NULL) {
  897. if ((ret = txn_commit(txn, DB_TXN_SYNC)) != 0)
  898. goto err_msg;
  899. txn = NULL;
  900. }
  901. /*
  902.  * We created the file.  This means that if we later
  903.  * fail, we need to delete the file and if we're going
  904.  * to do that, we need to trash any pages in the
  905.  * memory pool.  Since we only know here that we
  906.  * created the file, we're going to set the flag here
  907.  * and clear it later if we commit successfully.
  908.  */
  909. F_SET(dbp, DB_AM_DISCARD);
  910. *retflags |= DB_FILE_SETUP_CREATE;
  911. } else {
  912. /*
  913.  * Abort the file create.  If the abort fails, report
  914.  * the error returned by txn_abort(), rather than the
  915.  * open error, for no particular reason.
  916.  */
  917. if (dbp->open_txn != NULL) {
  918. if ((t_ret = txn_abort(txn)) != 0) {
  919. ret = t_ret;
  920. goto err_msg;
  921. }
  922. txn = NULL;
  923. }
  924. /*
  925.  * If we were not doing an exclusive open, try again
  926.  * without the create flag.
  927.  */
  928. if (ret == EEXIST && !LF_ISSET(DB_EXCL)) {
  929. LF_CLR(DB_CREATE);
  930. DB_TEST_RECOVERY(dbp,
  931.     DB_TEST_POSTOPEN, ret, name);
  932. goto open_retry;
  933. }
  934. }
  935. } else
  936. ret = __os_open(dbenv, real_name, oflags, mode, fhp);
  937. /*
  938.  * Be quiet if we couldn't open the file because it didn't exist
  939.  * or we did not have permission,
  940.  * the customers don't like those messages appearing in the logs.
  941.  * Otherwise, complain loudly.
  942.  */
  943. if (ret != 0) {
  944. if (ret == EACCES || ret == ENOENT)
  945. goto err;
  946. goto err_msg;
  947. }
  948. /* Set the page size if we don't have one yet. */
  949. if (dbp->pgsize == 0) {
  950. if (IS_SUBDB_SETUP) {
  951. if ((ret = __db_master_open(dbp,
  952.     name, flags, mode, &mdb)) != 0)
  953. goto err;
  954. dbp->pgsize = mdb->pgsize;
  955. (void)mdb->close(mdb, 0);
  956. } else if ((ret = __db_set_pgsize(dbp, fhp, real_name)) != 0)
  957. goto err;
  958. }
  959. /*
  960.  * Seek to the metadata offset; if it's a master database open or a
  961.  * database without subdatabases, we're seeking to 0, but that's OK.
  962.  */
  963. if ((ret = __os_seek(dbenv, fhp,
  964.     dbp->pgsize, meta_pgno, 0, 0, DB_OS_SEEK_SET)) != 0)
  965. goto err_msg;
  966. /*
  967.  * Read the metadata page.  We read DBMETASIZE bytes, which is larger
  968.  * than any access method's metadata page and smaller than any disk
  969.  * sector.
  970.  */
  971. if ((ret = __os_read(dbenv, fhp, mbuf, sizeof(mbuf), &nr)) != 0)
  972. goto err_msg;
  973. if (nr == sizeof(mbuf)) {
  974. /*
  975.  * Figure out what access method we're dealing with, and then
  976.  * call access method specific code to check error conditions
  977.  * based on conflicts between the found file and application
  978.  * arguments.  A found file overrides some user information --
  979.  * we don't consider it an error, for example, if the user set
  980.  * an expected byte order and the found file doesn't match it.
  981.  */
  982. F_CLR(dbp, DB_AM_SWAP);
  983. magic = ((DBMETA *)mbuf)->magic;
  984. swap_retry: switch (magic) {
  985. case DB_BTREEMAGIC:
  986. if ((ret =
  987.     __bam_metachk(dbp, name, (BTMETA *)mbuf)) != 0)
  988. goto err;
  989. break;
  990. case DB_HASHMAGIC:
  991. if ((ret =
  992.     __ham_metachk(dbp, name, (HMETA *)mbuf)) != 0)
  993. goto err;
  994. break;
  995. case DB_QAMMAGIC:
  996. if ((ret =
  997.     __qam_metachk(dbp, name, (QMETA *)mbuf)) != 0)
  998. goto err;
  999. break;
  1000. case 0:
  1001. /*
  1002.  * There are two ways we can get a 0 magic number.
  1003.  * If we're creating a subdatabase, then the magic
  1004.  * number will be 0.  We allocate a page as part of
  1005.  * finding out what the base page number will be for
  1006.  * the new subdatabase, but it's not initialized in
  1007.  * any way.
  1008.  *
  1009.  * The second case happens if we are in recovery
  1010.  * and we are going to recreate a database, it's
  1011.  * possible that it's page was created (on systems
  1012.  * where pages must be created explicitly to avoid
  1013.  * holes in files) but is still 0.
  1014.  */
  1015. if (IS_SUBDB_SETUP) { /* Case 1 */
  1016. if ((IS_RECOVERING(dbenv)
  1017.     && F_ISSET((DB_LOG *)
  1018.     dbenv->lg_handle, DBLOG_FORCE_OPEN))
  1019.     || ((DBMETA *)mbuf)->pgno != PGNO_INVALID)
  1020. goto empty;
  1021. ret = EINVAL;
  1022. goto err;
  1023. }
  1024. /* Case 2 */
  1025. if (IS_RECOVERING(dbenv)) {
  1026. *retflags |= DB_FILE_SETUP_ZERO;
  1027. goto empty;
  1028. }
  1029. goto bad_format;
  1030. default:
  1031. if (F_ISSET(dbp, DB_AM_SWAP))
  1032. goto bad_format;
  1033. M_32_SWAP(magic);
  1034. F_SET(dbp, DB_AM_SWAP);
  1035. goto swap_retry;
  1036. }
  1037. } else {
  1038. /*
  1039.  * Only newly created files are permitted to fail magic
  1040.  * number tests.
  1041.  */
  1042. if (nr != 0 || (!IS_RECOVERING(dbenv) && IS_SUBDB_SETUP))
  1043. goto bad_format;
  1044. /* Let the caller know that we had a 0-length file. */
  1045. if (!LF_ISSET(DB_CREATE | DB_TRUNCATE))
  1046. *retflags |= DB_FILE_SETUP_ZERO;
  1047. /*
  1048.  * The only way we can reach here with the DB_CREATE flag set
  1049.  * is if we created the file.  If that's not the case, then
  1050.  * either (a) someone else created the file but has not yet
  1051.  * written out the metadata page, or (b) we truncated the file
  1052.  * (DB_TRUNCATE) leaving it zero-length.  In the case of (a),
  1053.  * we want to sleep and give the file creator time to write
  1054.  * the metadata page.  In the case of (b), we want to continue.
  1055.  *
  1056.  * !!!
  1057.  * There's a race in the case of two processes opening the file
  1058.  * with the DB_TRUNCATE flag set at roughly the same time, and
  1059.  * they could theoretically hurt each other.  Sure hope that's
  1060.  * unlikely.
  1061.  */
  1062. if (!LF_ISSET(DB_CREATE | DB_TRUNCATE) &&
  1063.     !IS_RECOVERING(dbenv)) {
  1064. if (retry_cnt++ < 3) {
  1065. __os_sleep(dbenv, 1, 0);
  1066. goto open_retry;
  1067. }
  1068. bad_format: if (!IS_RECOVERING(dbenv))
  1069. __db_err(dbenv,
  1070.     "%s: unexpected file type or format", name);
  1071. ret = EINVAL;
  1072. goto err;
  1073. }
  1074. DB_ASSERT (dbp->type != DB_UNKNOWN);
  1075. empty: /*
  1076.  * The file is empty, and that's OK.  If it's not a subdatabase,
  1077.  * though, we do need to generate a unique file ID for it.  The
  1078.  * unique file ID includes a timestamp so that we can't collide
  1079.  * with any other files, even when the file IDs (dev/inode pair)
  1080.  * are reused.
  1081.  */
  1082. if (!IS_SUBDB_SETUP) {
  1083. if (*retflags & DB_FILE_SETUP_ZERO)
  1084. memset(dbp->fileid, 0, DB_FILE_ID_LEN);
  1085. else if ((ret = __os_fileid(dbenv,
  1086.     real_name, 1, dbp->fileid)) != 0)
  1087. goto err_msg;
  1088. }
  1089. }
  1090. if (0) {
  1091. err_msg: __db_err(dbenv, "%s: %s", name, db_strerror(ret));
  1092. }
  1093. /*
  1094.  * Abort any running transaction -- it can only exist if something
  1095.  * went wrong.
  1096.  */
  1097. err:
  1098. DB_TEST_RECOVERY_LABEL
  1099. /*
  1100.  * If we opened a file handle and our caller is doing fcntl(2) locking,
  1101.  * then we can't close it because that would discard the caller's lock.
  1102.  * Otherwise, close the handle.
  1103.  */
  1104. if (F_ISSET(fhp, DB_FH_VALID)) {
  1105. if (ret == 0 && LF_ISSET(DB_FCNTL_LOCKING))
  1106. dbp->saved_open_fhp = fhp;
  1107. else
  1108. if ((t_ret = __os_closehandle(fhp)) != 0 && ret == 0)
  1109. ret = t_ret;
  1110. }
  1111. /*
  1112.  * This must be done after the file is closed, since
  1113.  * txn_abort() may remove the file, and an open file
  1114.  * cannot be removed on a Windows platforms.
  1115.  */
  1116. if (txn != NULL)
  1117. (void)txn_abort(txn);
  1118. if (real_name != NULL)
  1119. __os_freestr(real_name);
  1120. return (ret);
  1121. }
  1122. /*
  1123.  * __db_set_pgsize --
  1124.  * Set the page size based on file information.
  1125.  */
  1126. static int
  1127. __db_set_pgsize(dbp, fhp, name)
  1128. DB *dbp;
  1129. DB_FH *fhp;
  1130. char *name;
  1131. {
  1132. DB_ENV *dbenv;
  1133. u_int32_t iopsize;
  1134. int ret;
  1135. dbenv = dbp->dbenv;
  1136. /*
  1137.  * Use the filesystem's optimum I/O size as the pagesize if a pagesize
  1138.  * not specified.  Some filesystems have 64K as their optimum I/O size,
  1139.  * but as that results in fairly large default caches, we limit the
  1140.  * default pagesize to 16K.
  1141.  */
  1142. if ((ret = __os_ioinfo(dbenv, name, fhp, NULL, NULL, &iopsize)) != 0) {
  1143. __db_err(dbenv, "%s: %s", name, db_strerror(ret));
  1144. return (ret);
  1145. }
  1146. if (iopsize < 512)
  1147. iopsize = 512;
  1148. if (iopsize > 16 * 1024)
  1149. iopsize = 16 * 1024;
  1150. /*
  1151.  * Sheer paranoia, but we don't want anything that's not a power-of-2
  1152.  * (we rely on that for alignment of various types on the pages), and
  1153.  * we want a multiple of the sector size as well.
  1154.  */
  1155. OS_ROUNDOFF(iopsize, 512);
  1156. dbp->pgsize = iopsize;
  1157. F_SET(dbp, DB_AM_PGDEF);
  1158. return (0);
  1159. }
  1160. /*
  1161.  * __db_close --
  1162.  * DB destructor.
  1163.  *
  1164.  * PUBLIC: int __db_close __P((DB *, u_int32_t));
  1165.  */
  1166. int
  1167. __db_close(dbp, flags)
  1168. DB *dbp;
  1169. u_int32_t flags;
  1170. {
  1171. DB_ENV *dbenv;
  1172. DBC *dbc;
  1173. int ret, t_ret;
  1174. ret = 0;
  1175. dbenv = dbp->dbenv;
  1176. PANIC_CHECK(dbenv);
  1177. /* Validate arguments. */
  1178. if ((ret = __db_closechk(dbp, flags)) != 0)
  1179. goto err;
  1180. /* If never opened, or not currently open, it's easy. */
  1181. if (!F_ISSET(dbp, DB_OPEN_CALLED))
  1182. goto never_opened;
  1183. /* Sync the underlying access method. */
  1184. if (!LF_ISSET(DB_NOSYNC) && !F_ISSET(dbp, DB_AM_DISCARD) &&
  1185.     (t_ret = dbp->sync(dbp, 0)) != 0 && ret == 0)
  1186. ret = t_ret;
  1187. /*
  1188.  * Go through the active cursors and call the cursor recycle routine,
  1189.  * which resolves pending operations and moves the cursors onto the
  1190.  * free list.  Then, walk the free list and call the cursor destroy
  1191.  * routine.
  1192.  */
  1193. while ((dbc = TAILQ_FIRST(&dbp->active_queue)) != NULL)
  1194. if ((t_ret = dbc->c_close(dbc)) != 0 && ret == 0)
  1195. ret = t_ret;
  1196. while ((dbc = TAILQ_FIRST(&dbp->free_queue)) != NULL)
  1197. if ((t_ret = __db_c_destroy(dbc)) != 0 && ret == 0)
  1198. ret = t_ret;
  1199. /*
  1200.  * Close any outstanding join cursors.  Join cursors destroy
  1201.  * themselves on close and have no separate destroy routine.
  1202.  */
  1203. while ((dbc = TAILQ_FIRST(&dbp->join_queue)) != NULL)
  1204. if ((t_ret = dbc->c_close(dbc)) != 0 && ret == 0)
  1205. ret = t_ret;
  1206. /* Remove this DB handle from the DB_ENV's dblist. */
  1207. MUTEX_THREAD_LOCK(dbenv, dbenv->dblist_mutexp);
  1208. LIST_REMOVE(dbp, dblistlinks);
  1209. MUTEX_THREAD_UNLOCK(dbenv, dbenv->dblist_mutexp);
  1210. /* Sync the memory pool. */
  1211. if (!LF_ISSET(DB_NOSYNC) && !F_ISSET(dbp, DB_AM_DISCARD) &&
  1212.     (t_ret = memp_fsync(dbp->mpf)) != 0 &&
  1213.     t_ret != DB_INCOMPLETE && ret == 0)
  1214. ret = t_ret;
  1215. /* Close any handle we've been holding since the open.  */
  1216. if (dbp->saved_open_fhp != NULL &&
  1217.     F_ISSET(dbp->saved_open_fhp, DB_FH_VALID) &&
  1218.     (t_ret = __os_closehandle(dbp->saved_open_fhp)) != 0 && ret == 0)
  1219. ret = t_ret;
  1220. never_opened:
  1221. /*
  1222.  * Call the access specific close function.
  1223.  *
  1224.  * !!!
  1225.  * Because of where the function is called in the close process,
  1226.  * these routines can't do anything that would dirty pages or
  1227.  * otherwise affect closing down the database.
  1228.  */
  1229. if ((t_ret = __ham_db_close(dbp)) != 0 && ret == 0)
  1230. ret = t_ret;
  1231. if ((t_ret = __bam_db_close(dbp)) != 0 && ret == 0)
  1232. ret = t_ret;
  1233. if ((t_ret = __qam_db_close(dbp)) != 0 && ret == 0)
  1234. ret = t_ret;
  1235. err:
  1236. /* Refresh the structure and close any local environment. */
  1237. if ((t_ret = __db_refresh(dbp)) != 0 && ret == 0)
  1238. ret = t_ret;
  1239. if (F_ISSET(dbenv, DB_ENV_DBLOCAL) &&
  1240.     --dbenv->dblocal_ref == 0 &&
  1241.     (t_ret = dbenv->close(dbenv, 0)) != 0 && ret == 0)
  1242. ret = t_ret;
  1243. memset(dbp, CLEAR_BYTE, sizeof(*dbp));
  1244. __os_free(dbp, sizeof(*dbp));
  1245. return (ret);
  1246. }
  1247. /*
  1248.  * __db_refresh --
  1249.  * Refresh the DB structure, releasing any allocated resources.
  1250.  */
  1251. static int
  1252. __db_refresh(dbp)
  1253. DB *dbp;
  1254. {
  1255. DB_ENV *dbenv;
  1256. DBC *dbc;
  1257. int ret, t_ret;
  1258. ret = 0;
  1259. dbenv = dbp->dbenv;
  1260. /*
  1261.  * Go through the active cursors and call the cursor recycle routine,
  1262.  * which resolves pending operations and moves the cursors onto the
  1263.  * free list.  Then, walk the free list and call the cursor destroy
  1264.  * routine.
  1265.  */
  1266. while ((dbc = TAILQ_FIRST(&dbp->active_queue)) != NULL)
  1267. if ((t_ret = dbc->c_close(dbc)) != 0 && ret == 0)
  1268. ret = t_ret;
  1269. while ((dbc = TAILQ_FIRST(&dbp->free_queue)) != NULL)
  1270. if ((t_ret = __db_c_destroy(dbc)) != 0 && ret == 0)
  1271. ret = t_ret;
  1272. dbp->type = 0;
  1273. /* Close the memory pool file handle. */
  1274. if (dbp->mpf != NULL) {
  1275. if (F_ISSET(dbp, DB_AM_DISCARD))
  1276. (void)__memp_fremove(dbp->mpf);
  1277. if ((t_ret = memp_fclose(dbp->mpf)) != 0 && ret == 0)
  1278. ret = t_ret;
  1279. dbp->mpf = NULL;
  1280. }
  1281. /* Discard the thread mutex. */
  1282. if (dbp->mutexp != NULL) {
  1283. __db_mutex_free(dbenv, dbenv->reginfo, dbp->mutexp);
  1284. dbp->mutexp = NULL;
  1285. }
  1286. /* Discard the log file id. */
  1287. if (!IS_RECOVERING(dbenv)
  1288.     && dbp->log_fileid != DB_LOGFILEID_INVALID)
  1289. (void)log_unregister(dbenv, dbp);
  1290. F_CLR(dbp, DB_AM_DISCARD);
  1291. F_CLR(dbp, DB_AM_INMEM);
  1292. F_CLR(dbp, DB_AM_RDONLY);
  1293. F_CLR(dbp, DB_AM_SWAP);
  1294. F_CLR(dbp, DB_DBM_ERROR);
  1295. F_CLR(dbp, DB_OPEN_CALLED);
  1296. return (ret);
  1297. }
  1298. /*
  1299.  * __db_remove
  1300.  * Remove method for DB.
  1301.  *
  1302.  * PUBLIC: int __db_remove __P((DB *, const char *, const char *, u_int32_t));
  1303.  */
  1304. int
  1305. __db_remove(dbp, name, subdb, flags)
  1306. DB *dbp;
  1307. const char *name, *subdb;
  1308. u_int32_t flags;
  1309. {
  1310. DBT namedbt;
  1311. DB_ENV *dbenv;
  1312. DB_LOCK remove_lock;
  1313. DB_LSN newlsn;
  1314. int ret, t_ret, (*callback_func) __P((DB *, void *));
  1315. char *backup, *real_back, *real_name;
  1316. void *cookie;
  1317. dbenv = dbp->dbenv;
  1318. ret = 0;
  1319. backup = real_back = real_name = NULL;
  1320. PANIC_CHECK(dbenv);
  1321. /*
  1322.  * Cannot use DB_ILLEGAL_AFTER_OPEN here because that returns
  1323.  * and we cannot return, but must deal with the error and destroy
  1324.  * the handle anyway.
  1325.  */
  1326. if (F_ISSET(dbp, DB_OPEN_CALLED)) {
  1327. ret = __db_mi_open(dbp->dbenv, "remove", 1);
  1328. goto err_close;
  1329. }
  1330. /* Validate arguments. */
  1331. if ((ret = __db_removechk(dbp, flags)) != 0)
  1332. goto err_close;
  1333. /*
  1334.  * Subdatabases.
  1335.  */
  1336. if (subdb != NULL) {
  1337. /* Subdatabases must be created in named files. */
  1338. if (name == NULL) {
  1339. __db_err(dbenv,
  1340.     "multiple databases cannot be created in temporary files");
  1341. goto err_close;
  1342. }
  1343. return (__db_subdb_remove(dbp, name, subdb));
  1344. }
  1345. if ((ret = dbp->open(dbp,
  1346.     name, NULL, DB_UNKNOWN, DB_RDWRMASTER, 0)) != 0)
  1347. goto err_close;
  1348. if (LOGGING_ON(dbenv) && (ret = __log_file_lock(dbp)) != 0)
  1349. goto err_close;
  1350. if ((ret = dbp->sync(dbp, 0)) != 0)
  1351. goto err_close;
  1352. /* Start the transaction and log the delete. */
  1353. if (TXN_ON(dbenv) && (ret = __db_metabegin(dbp, &remove_lock)) != 0)
  1354. goto err_close;
  1355. if (LOGGING_ON(dbenv)) {
  1356. memset(&namedbt, 0, sizeof(namedbt));
  1357. namedbt.data = (char *)name;
  1358. namedbt.size = strlen(name) + 1;
  1359. if ((ret = __crdel_delete_log(dbenv,
  1360.     dbp->open_txn, &newlsn, DB_FLUSH,
  1361.     dbp->log_fileid, &namedbt)) != 0) {
  1362. __db_err(dbenv,
  1363.     "%s: %s", name, db_strerror(ret));
  1364. goto err;
  1365. }
  1366. }
  1367. /* Find the real name of the file. */
  1368. if ((ret = __db_appname(dbenv,
  1369.     DB_APP_DATA, NULL, name, 0, NULL, &real_name)) != 0)
  1370. goto err;
  1371. /*
  1372.  * XXX
  1373.  * We don't bother to open the file and call __memp_fremove on the mpf.
  1374.  * There is a potential race here.  It is at least possible that, if
  1375.  * the unique filesystem ID (dev/inode pair on UNIX) is reallocated
  1376.  * within a second (the granularity of the fileID timestamp), a new
  1377.  * file open will get the same fileID as the file being "removed".
  1378.  * We may actually want to open the file and call __memp_fremove on
  1379.  * the mpf to get around this.
  1380.  */
  1381. /* Create name for backup file. */
  1382. if (TXN_ON(dbenv)) {
  1383. if ((ret =
  1384.     __db_backup_name(dbenv, name, &backup, &newlsn)) != 0)
  1385. goto err;
  1386. if ((ret = __db_appname(dbenv,
  1387.     DB_APP_DATA, NULL, backup, 0, NULL, &real_back)) != 0)
  1388. goto err;
  1389. }
  1390. callback_func = __db_remove_callback;
  1391. cookie = real_back;
  1392. DB_TEST_RECOVERY(dbp, DB_TEST_PRERENAME, ret, name);
  1393. if (dbp->db_am_remove != NULL &&
  1394.     (ret = dbp->db_am_remove(dbp,
  1395.     name, subdb, &newlsn, &callback_func, &cookie)) != 0)
  1396. goto err;
  1397. /*
  1398.  * On Windows, the underlying file must be closed to perform a remove.
  1399.  * Nothing later in __db_remove requires that it be open, and the
  1400.  * dbp->close closes it anyway, so we just close it early.
  1401.  */
  1402. (void)__memp_fremove(dbp->mpf);
  1403. if ((ret = memp_fclose(dbp->mpf)) != 0)
  1404. goto err;
  1405. dbp->mpf = NULL;
  1406. if (TXN_ON(dbenv))
  1407. ret = __os_rename(dbenv, real_name, real_back);
  1408. else
  1409. ret = __os_unlink(dbenv, real_name);
  1410. DB_TEST_RECOVERY(dbp, DB_TEST_POSTRENAME, ret, name);
  1411. err:
  1412. DB_TEST_RECOVERY_LABEL
  1413. /*
  1414.  * End the transaction, committing the transaction if we were
  1415.  * successful, aborting otherwise.
  1416.  */
  1417. if (dbp->open_txn != NULL && (t_ret = __db_metaend(dbp, &remove_lock,
  1418.    ret == 0, callback_func, cookie)) != 0 && ret == 0)
  1419. ret = t_ret;
  1420. /* FALLTHROUGH */
  1421. err_close:
  1422. if (real_back != NULL)
  1423. __os_freestr(real_back);
  1424. if (real_name != NULL)
  1425. __os_freestr(real_name);
  1426. if (backup != NULL)
  1427. __os_freestr(backup);
  1428. /* We no longer have an mpool, so syncing would be disastrous. */
  1429. if ((t_ret = dbp->close(dbp, DB_NOSYNC)) != 0 && ret == 0)
  1430. ret = t_ret;
  1431. return (ret);
  1432. }
  1433. /*
  1434.  * __db_subdb_remove --
  1435.  * Remove a subdatabase.
  1436.  */
  1437. static int
  1438. __db_subdb_remove(dbp, name, subdb)
  1439. DB *dbp;
  1440. const char *name, *subdb;
  1441. {
  1442. DB *mdbp;
  1443. DBC *dbc;
  1444. DB_ENV *dbenv;
  1445. DB_LOCK remove_lock;
  1446. db_pgno_t meta_pgno;
  1447. int ret, t_ret;
  1448. mdbp = NULL;
  1449. dbc = NULL;
  1450. dbenv = dbp->dbenv;
  1451. /* Start the transaction. */
  1452. if (TXN_ON(dbenv) && (ret = __db_metabegin(dbp, &remove_lock)) != 0)
  1453. goto err_close;
  1454. /*
  1455.  * Open the subdatabase.  We can use the user's DB handle for this
  1456.  * purpose, I think.
  1457.  */
  1458. if ((ret = __db_open(dbp, name, subdb, DB_UNKNOWN, 0, 0)) != 0)
  1459. goto err;
  1460. /* Free up the pages in the subdatabase. */
  1461. switch (dbp->type) {
  1462. case DB_BTREE:
  1463. case DB_RECNO:
  1464. if ((ret = __bam_reclaim(dbp, dbp->open_txn)) != 0)
  1465. goto err;
  1466. break;
  1467. case DB_HASH:
  1468. if ((ret = __ham_reclaim(dbp, dbp->open_txn)) != 0)
  1469. goto err;
  1470. break;
  1471. default:
  1472. ret = __db_unknown_type(dbp->dbenv,
  1473.      "__db_subdb_remove", dbp->type);
  1474. goto err;
  1475. }
  1476. /*
  1477.  * Remove the entry from the main database and free the subdatabase
  1478.  * metadata page.
  1479.  */
  1480. if ((ret = __db_master_open(dbp, name, 0, 0, &mdbp)) != 0)
  1481. goto err;
  1482. if ((ret = __db_master_update(mdbp,
  1483.      subdb, dbp->type, &meta_pgno, MU_REMOVE, NULL, 0)) != 0)
  1484. goto err;
  1485. err: /*
  1486.  * End the transaction, committing the transaction if we were
  1487.  * successful, aborting otherwise.
  1488.  */
  1489. if (dbp->open_txn != NULL && (t_ret = __db_metaend(dbp,
  1490.     &remove_lock, ret == 0, NULL, NULL)) != 0 && ret == 0)
  1491. ret = t_ret;
  1492. err_close:
  1493. /*
  1494.  * Close the user's DB handle -- do this LAST to avoid smashing the
  1495.  * the transaction information.
  1496.  */
  1497. if ((t_ret = dbp->close(dbp, 0)) != 0 && ret == 0)
  1498. ret = t_ret;
  1499. if (mdbp != NULL && (t_ret = mdbp->close(mdbp, 0)) != 0 && ret == 0)
  1500. ret = t_ret;
  1501. return (ret);
  1502. }
  1503. /*
  1504.  * __db_rename
  1505.  * Rename method for DB.
  1506.  *
  1507.  * PUBLIC: int __db_rename __P((DB *,
  1508.  * PUBLIC:     const char *, const char *, const char *, u_int32_t));
  1509.  */
  1510. int
  1511. __db_rename(dbp, filename, subdb, newname, flags)
  1512. DB *dbp;
  1513. const char *filename, *subdb, *newname;
  1514. u_int32_t flags;
  1515. {
  1516. DBT namedbt, newnamedbt;
  1517. DB_ENV *dbenv;
  1518. DB_LOCK remove_lock;
  1519. DB_LSN newlsn;
  1520. char *real_name, *real_newname;
  1521. int ret, t_ret;
  1522. dbenv = dbp->dbenv;
  1523. ret = 0;
  1524. real_name = real_newname = NULL;
  1525. PANIC_CHECK(dbenv);
  1526. /*
  1527.  * Cannot use DB_ILLEGAL_AFTER_OPEN here because that returns
  1528.  * and we cannot return, but must deal with the error and destroy
  1529.  * the handle anyway.
  1530.  */
  1531. if (F_ISSET(dbp, DB_OPEN_CALLED)) {
  1532. ret = __db_mi_open(dbp->dbenv, "rename", 1);
  1533. goto err_close;
  1534. }
  1535. /* Validate arguments -- has same rules as remove. */
  1536. if ((ret = __db_removechk(dbp, flags)) != 0)
  1537. goto err_close;
  1538. /*
  1539.  * Subdatabases.
  1540.  */
  1541. if (subdb != NULL) {
  1542. if (filename == NULL) {
  1543. __db_err(dbenv,
  1544.     "multiple databases cannot be created in temporary files");
  1545. goto err_close;
  1546. }
  1547. return (__db_subdb_rename(dbp, filename, subdb, newname));
  1548. }
  1549. if ((ret = dbp->open(dbp,
  1550.     filename, NULL, DB_UNKNOWN, DB_RDWRMASTER, 0)) != 0)
  1551. goto err_close;
  1552. if (LOGGING_ON(dbenv) && (ret = __log_file_lock(dbp)) != 0)
  1553. goto err_close;
  1554. if ((ret = dbp->sync(dbp, 0)) != 0)
  1555. goto err_close;
  1556. /* Start the transaction and log the rename. */
  1557. if (TXN_ON(dbenv) && (ret = __db_metabegin(dbp, &remove_lock)) != 0)
  1558. goto err_close;
  1559. if (LOGGING_ON(dbenv)) {
  1560. memset(&namedbt, 0, sizeof(namedbt));
  1561. namedbt.data = (char *)filename;
  1562. namedbt.size = strlen(filename) + 1;
  1563. memset(&newnamedbt, 0, sizeof(namedbt));
  1564. newnamedbt.data = (char *)newname;
  1565. newnamedbt.size = strlen(newname) + 1;
  1566. if ((ret = __crdel_rename_log(dbenv, dbp->open_txn,
  1567.     &newlsn, 0, dbp->log_fileid, &namedbt, &newnamedbt)) != 0) {
  1568. __db_err(dbenv, "%s: %s", filename, db_strerror(ret));
  1569. goto err;
  1570. }
  1571. if ((ret = __log_filelist_update(dbenv, dbp,
  1572.     dbp->log_fileid, newname, NULL)) != 0)
  1573. goto err;
  1574. }
  1575. /* Find the real name of the file. */
  1576. if ((ret = __db_appname(dbenv,
  1577.     DB_APP_DATA, NULL, filename, 0, NULL, &real_name)) != 0)
  1578. goto err;
  1579. /* Find the real newname of the file. */
  1580. if ((ret = __db_appname(dbenv,
  1581.     DB_APP_DATA, NULL, newname, 0, NULL, &real_newname)) != 0)
  1582. goto err;
  1583. /*
  1584.  * It is an error to rename a file over one that already exists,
  1585.  * as that wouldn't be transaction-safe.
  1586.  */
  1587. if (__os_exists(real_newname, NULL) == 0) {
  1588. ret = EEXIST;
  1589. __db_err(dbenv, "rename: file %s exists", real_newname);
  1590. goto err;
  1591. }
  1592. DB_TEST_RECOVERY(dbp, DB_TEST_PRERENAME, ret, filename);
  1593. if (dbp->db_am_rename != NULL &&
  1594.     (ret = dbp->db_am_rename(dbp, filename, subdb, newname)) != 0)
  1595. goto err;
  1596. /*
  1597.  * We have to flush the cache for a couple of reasons.  First, the
  1598.  * underlying MPOOLFILE maintains a "name" that unrelated processes
  1599.  * can use to open the file in order to flush pages, and that name
  1600.  * is about to be wrong.  Second, on Windows the unique file ID is
  1601.  * generated from the file's name, not other file information as is
  1602.  * the case on UNIX, and so a subsequent open of the old file name
  1603.  * could conceivably result in a matching "unique" file ID.
  1604.  */
  1605. if ((ret = __memp_fremove(dbp->mpf)) != 0)
  1606. goto err;
  1607. /*
  1608.  * On Windows, the underlying file must be closed to perform a rename.
  1609.  * Nothing later in __db_rename requires that it be open, and the call
  1610.  * to dbp->close closes it anyway, so we just close it early.
  1611.  */
  1612. if ((ret = memp_fclose(dbp->mpf)) != 0)
  1613. goto err;
  1614. dbp->mpf = NULL;
  1615. ret = __os_rename(dbenv, real_name, real_newname);
  1616. DB_TEST_RECOVERY(dbp, DB_TEST_POSTRENAME, ret, newname);
  1617. DB_TEST_RECOVERY_LABEL
  1618. err: if (dbp->open_txn != NULL && (t_ret = __db_metaend(dbp,
  1619.     &remove_lock, ret == 0, NULL, NULL)) != 0 && ret == 0)
  1620. ret = t_ret;
  1621. err_close:
  1622. /* We no longer have an mpool, so syncing would be disastrous. */
  1623. dbp->close(dbp, DB_NOSYNC);
  1624. if (real_name != NULL)
  1625. __os_freestr(real_name);
  1626. if (real_newname != NULL)
  1627. __os_freestr(real_newname);
  1628. return (ret);
  1629. }
  1630. /*
  1631.  * __db_subdb_rename --
  1632.  * Rename a subdatabase.
  1633.  */
  1634. static int
  1635. __db_subdb_rename(dbp, name, subdb, newname)
  1636. DB *dbp;
  1637. const char *name, *subdb, *newname;
  1638. {
  1639. DB *mdbp;
  1640. DBC *dbc;
  1641. DB_ENV *dbenv;
  1642. DB_LOCK remove_lock;
  1643. int ret, t_ret;
  1644. mdbp = NULL;
  1645. dbc = NULL;
  1646. dbenv = dbp->dbenv;
  1647. /* Start the transaction. */
  1648. if (TXN_ON(dbenv) && (ret = __db_metabegin(dbp, &remove_lock)) != 0)
  1649. goto err_close;
  1650. /*
  1651.  * Open the subdatabase.  We can use the user's DB handle for this
  1652.  * purpose, I think.
  1653.  */
  1654. if ((ret = __db_open(dbp, name, subdb, DB_UNKNOWN, 0, 0)) != 0)
  1655. goto err;
  1656. /*
  1657.  * Rename the entry in the main database.
  1658.  */
  1659. if ((ret = __db_master_open(dbp, name, 0, 0, &mdbp)) != 0)
  1660. goto err;
  1661. if ((ret = __db_master_update(mdbp,
  1662.      subdb, dbp->type, NULL, MU_RENAME, newname, 0)) != 0)
  1663. goto err;
  1664. err: /*
  1665.  * End the transaction, committing the transaction if we were
  1666.  * successful, aborting otherwise.
  1667.  */
  1668. if (dbp->open_txn != NULL && (t_ret = __db_metaend(dbp,
  1669.     &remove_lock, ret == 0, NULL, NULL)) != 0 && ret == 0)
  1670. ret = t_ret;
  1671. err_close:
  1672. /*
  1673.  * Close the user's DB handle -- do this LAST to avoid smashing the
  1674.  * the transaction information.
  1675.  */
  1676. if ((t_ret = dbp->close(dbp, 0)) != 0 && ret == 0)
  1677. ret = t_ret;
  1678. if (mdbp != NULL && (t_ret = mdbp->close(mdbp, 0)) != 0 && ret == 0)
  1679. ret = t_ret;
  1680. return (ret);
  1681. }
  1682. /*
  1683.  * __db_metabegin --
  1684.  *
  1685.  * Begin a meta-data operation.  This involves doing any required locking,
  1686.  * potentially beginning a transaction and then telling the caller if you
  1687.  * did or did not begin the transaction.
  1688.  *
  1689.  * The writing flag indicates if the caller is actually allowing creates
  1690.  * or doing deletes (i.e., if the caller is opening and not creating, then
  1691.  * we don't need to do any of this).
  1692.  * PUBLIC: int __db_metabegin __P((DB *, DB_LOCK *));
  1693.  */
  1694. int
  1695. __db_metabegin(dbp, lockp)
  1696. DB *dbp;
  1697. DB_LOCK *lockp;
  1698. {
  1699. DB_ENV *dbenv;
  1700. DBT dbplock;
  1701. u_int32_t locker, lockval;
  1702. int ret;
  1703. dbenv = dbp->dbenv;
  1704. lockp->off = LOCK_INVALID;
  1705. /*
  1706.  * There is no single place where we can know that we are or are not
  1707.  * going to be creating any files and/or subdatabases, so we will
  1708.  * always begin a tranasaction when we start creating one.  If we later
  1709.  * discover that this was unnecessary, we will abort the transaction.
  1710.  * Recovery is written so that if we log a file create, but then
  1711.  * discover that we didn't have to do it, we recover correctly.  The
  1712.  * file recovery design document has details.
  1713.  *
  1714.  * We need to single thread all create and delete operations, so if we
  1715.  * are running with locking, we must obtain a lock. We use lock_id to
  1716.  * generate a unique locker id and use a handcrafted DBT as the object
  1717.  * on which we are locking.
  1718.  */
  1719. if (LOCKING_ON(dbenv)) {
  1720. if ((ret = lock_id(dbenv, &locker)) != 0)
  1721. return (ret);
  1722. lockval = 0;
  1723. dbplock.data = &lockval;
  1724. dbplock.size = sizeof(lockval);
  1725. if ((ret = lock_get(dbenv,
  1726.     locker, 0, &dbplock, DB_LOCK_WRITE, lockp)) != 0)
  1727. return (ret);
  1728. }
  1729. return (txn_begin(dbenv, NULL, &dbp->open_txn, 0));
  1730. }
  1731. /*
  1732.  * __db_metaend --
  1733.  * End a meta-data operation.
  1734.  * PUBLIC: int __db_metaend __P((DB *,
  1735.  * PUBLIC:       DB_LOCK *, int, int (*)(DB *, void *), void *));
  1736.  */
  1737. int
  1738. __db_metaend(dbp, lockp, commit, callback, cookie)
  1739. DB *dbp;
  1740. DB_LOCK *lockp;
  1741. int commit, (*callback) __P((DB *, void *));
  1742. void *cookie;
  1743. {
  1744. DB_ENV *dbenv;
  1745. int ret, t_ret;
  1746. ret = 0;
  1747. dbenv = dbp->dbenv;
  1748. /* End the transaction. */
  1749. if (commit) {
  1750. if ((ret = txn_commit(dbp->open_txn, DB_TXN_SYNC)) == 0) {
  1751. /*
  1752.  * Unlink any underlying file, we've committed the
  1753.  * transaction.
  1754.  */
  1755. if (callback != NULL)
  1756. ret = callback(dbp, cookie);
  1757. }
  1758. } else if ((t_ret = txn_abort(dbp->open_txn)) && ret == 0)
  1759. ret = t_ret;
  1760. /* Release our lock. */
  1761. if (lockp->off != LOCK_INVALID &&
  1762.     (t_ret = lock_put(dbenv, lockp)) != 0 && ret == 0)
  1763. ret = t_ret;
  1764. return (ret);
  1765. }
  1766. /*
  1767.  * __db_log_page
  1768.  * Log a meta-data or root page during a create operation.
  1769.  *
  1770.  * PUBLIC: int __db_log_page __P((DB *,
  1771.  * PUBLIC:     const char *, DB_LSN *, db_pgno_t, PAGE *));
  1772.  */
  1773. int
  1774. __db_log_page(dbp, name, lsn, pgno, page)
  1775. DB *dbp;
  1776. const char *name;
  1777. DB_LSN *lsn;
  1778. db_pgno_t pgno;
  1779. PAGE *page;
  1780. {
  1781. DBT name_dbt, page_dbt;
  1782. DB_LSN new_lsn;
  1783. int ret;
  1784. if (dbp->open_txn == NULL)
  1785. return (0);
  1786. memset(&page_dbt, 0, sizeof(page_dbt));
  1787. page_dbt.size = dbp->pgsize;
  1788. page_dbt.data = page;
  1789. if (pgno == PGNO_BASE_MD) {
  1790. /*
  1791.  * !!!
  1792.  * Make sure that we properly handle a null name.  The old
  1793.  * Tcl sent us pathnames of the form ""; it may be the case
  1794.  * that the new Tcl doesn't do that, so we can get rid of
  1795.  * the second check here.
  1796.  */
  1797. memset(&name_dbt, 0, sizeof(name_dbt));
  1798. name_dbt.data = (char *)name;
  1799. if (name == NULL || *name == '')
  1800. name_dbt.size = 0;
  1801. else
  1802. name_dbt.size = strlen(name) + 1;
  1803. ret = __crdel_metapage_log(dbp->dbenv,
  1804.     dbp->open_txn, &new_lsn, DB_FLUSH,
  1805.     dbp->log_fileid, &name_dbt, pgno, &page_dbt);
  1806. } else
  1807. ret = __crdel_metasub_log(dbp->dbenv, dbp->open_txn,
  1808.     &new_lsn, 0, dbp->log_fileid, pgno, &page_dbt, lsn);
  1809. if (ret == 0)
  1810. page->lsn = new_lsn;
  1811. return (ret);
  1812. }
  1813. /*
  1814.  * __db_backup_name
  1815.  * Create the backup file name for a given file.
  1816.  *
  1817.  * PUBLIC: int __db_backup_name __P((DB_ENV *,
  1818.  * PUBLIC:     const char *, char **, DB_LSN *));
  1819.  */
  1820. #undef BACKUP_PREFIX
  1821. #define BACKUP_PREFIX "__db."
  1822. #undef MAX_LSN_TO_TEXT
  1823. #define MAX_LSN_TO_TEXT 21
  1824. int
  1825. __db_backup_name(dbenv, name, backup, lsn)
  1826. DB_ENV *dbenv;
  1827. const char *name;
  1828. char **backup;
  1829. DB_LSN *lsn;
  1830. {
  1831. size_t len;
  1832. int plen, ret;
  1833. char *p, *retp;
  1834. len = strlen(name) + strlen(BACKUP_PREFIX) + MAX_LSN_TO_TEXT + 1;
  1835. if ((ret = __os_malloc(dbenv, len, NULL, &retp)) != 0)
  1836. return (ret);
  1837. /*
  1838.  * Create the name.  Backup file names are of the form:
  1839.  *
  1840.  * __db.name.0x[lsn-file].0x[lsn-offset]
  1841.  *
  1842.  * which guarantees uniqueness.
  1843.  *
  1844.  * However, name may contain an env-relative path in it.
  1845.  * In that case, put the __db. after the last portion of
  1846.  * the pathname.
  1847.  */
  1848. if ((p = __db_rpath(name)) == NULL)
  1849. snprintf(retp, len,
  1850.     "%s%s.0x%x0x%x", BACKUP_PREFIX, name,
  1851.     lsn->file, lsn->offset);
  1852. else {
  1853. plen = p - name + 1;
  1854. p++;
  1855. snprintf(retp, len,
  1856.     "%.*s%s%s.0x%x0x%x", plen, name, BACKUP_PREFIX, p,
  1857.     lsn->file, lsn->offset);
  1858. }
  1859. *backup = retp;
  1860. return (0);
  1861. }
  1862. /*
  1863.  * __db_remove_callback --
  1864.  * Callback function -- on file remove commit, it unlinks the backing
  1865.  * file.
  1866.  */
  1867. static int
  1868. __db_remove_callback(dbp, cookie)
  1869. DB *dbp;
  1870. void *cookie;
  1871. {
  1872. return (__os_unlink(dbp->dbenv, cookie));
  1873. }
  1874. /*
  1875.  * __dblist_get --
  1876.  * Get the first element of dbenv->dblist with
  1877.  * dbp->adj_fileid matching adjid.
  1878.  *
  1879.  * PUBLIC: DB *__dblist_get __P((DB_ENV *, u_int32_t));
  1880.  */
  1881. DB *
  1882. __dblist_get(dbenv, adjid)
  1883. DB_ENV *dbenv;
  1884. u_int32_t adjid;
  1885. {
  1886. DB *dbp;
  1887. for (dbp = LIST_FIRST(&dbenv->dblist);
  1888.     dbp != NULL && dbp->adj_fileid != adjid;
  1889.     dbp = LIST_NEXT(dbp, dblistlinks))
  1890. ;
  1891. return (dbp);
  1892. }
  1893. #if CONFIG_TEST
  1894. /*
  1895.  * __db_testcopy
  1896.  * Create a copy of all backup files and our "main" DB.
  1897.  *
  1898.  * PUBLIC: int __db_testcopy __P((DB *, const char *));
  1899.  */
  1900. int
  1901. __db_testcopy(dbp, name)
  1902. DB *dbp;
  1903. const char *name;
  1904. {
  1905. if (dbp->type == DB_QUEUE)
  1906. return (__qam_testdocopy(dbp, name));
  1907. else
  1908. return (__db_testdocopy(dbp, name));
  1909. }
  1910. static int
  1911. __qam_testdocopy(dbp, name)
  1912. DB *dbp;
  1913. const char *name;
  1914. {
  1915. QUEUE_FILELIST *filelist, *fp;
  1916. char buf[256], *dir;
  1917. int ret;
  1918. filelist = NULL;
  1919. if ((ret = __db_testdocopy(dbp, name)) != 0)
  1920. return (ret);
  1921. if (dbp->mpf != NULL &&
  1922.     (ret = __qam_gen_filelist(dbp, &filelist)) != 0)
  1923. return (ret);
  1924. if (filelist == NULL)
  1925. return (0);
  1926. dir = ((QUEUE *)dbp->q_internal)->dir;
  1927. for (fp = filelist; fp->mpf != NULL; fp++) {
  1928. snprintf(buf, sizeof(buf), QUEUE_EXTENT, dir, name, fp->id);
  1929. if ((ret = __db_testdocopy(dbp, buf)) != 0)
  1930. return (ret);
  1931. }
  1932. __os_free(filelist, 0);
  1933. return (0);
  1934. }
  1935. /*
  1936.  * __db_testdocopy
  1937.  * Create a copy of all backup files and our "main" DB.
  1938.  *
  1939.  */
  1940. static int
  1941. __db_testdocopy(dbp, name)
  1942. DB *dbp;
  1943. const char *name;
  1944. {
  1945. size_t len;
  1946. int dircnt, i, ret;
  1947. char **namesp, *backup, *copy, *dir, *p, *real_name;
  1948. real_name = NULL;
  1949. /* Get the real backing file name. */
  1950. if ((ret = __db_appname(dbp->dbenv,
  1951.     DB_APP_DATA, NULL, name, 0, NULL, &real_name)) != 0)
  1952. return (ret);
  1953. copy = backup = NULL;
  1954. namesp = NULL;
  1955. /*
  1956.  * Maximum size of file, including adding a ".afterop".
  1957.  */
  1958. len = strlen(real_name) + strlen(BACKUP_PREFIX) + MAX_LSN_TO_TEXT + 9;
  1959. if ((ret = __os_malloc(dbp->dbenv, len, NULL, &copy)) != 0)
  1960. goto out;
  1961. if ((ret = __os_malloc(dbp->dbenv, len, NULL, &backup)) != 0)
  1962. goto out;
  1963. /*
  1964.  * First copy the file itself.
  1965.  */
  1966. snprintf(copy, len, "%s.afterop", real_name);
  1967. __db_makecopy(real_name, copy);
  1968. if ((ret = __os_strdup(dbp->dbenv, real_name, &dir)) != 0)
  1969. goto out;
  1970. __os_freestr(real_name);
  1971. real_name = NULL;
  1972. /*
  1973.  * Create the name.  Backup file names are of the form:
  1974.  *
  1975.  * __db.name.0x[lsn-file].0x[lsn-offset]
  1976.  *
  1977.  * which guarantees uniqueness.  We want to look for the
  1978.  * backup name, followed by a '.0x' (so that if they have
  1979.  * files named, say, 'a' and 'abc' we won't match 'abc' when
  1980.  * looking for 'a'.
  1981.  */
  1982. snprintf(backup, len, "%s%s.0x", BACKUP_PREFIX, name);
  1983. /*
  1984.  * We need the directory path to do the __os_dirlist.
  1985.  */
  1986. p = __db_rpath(dir);
  1987. if (p != NULL)
  1988. *p = '';
  1989. ret = __os_dirlist(dbp->dbenv, dir, &namesp, &dircnt);
  1990. #if DIAGNOSTIC
  1991. /*
  1992.  * XXX
  1993.  * To get the memory guard code to work because it uses strlen and we
  1994.  * just moved the end of the string somewhere sooner.  This causes the
  1995.  * guard code to fail because it looks at one byte past the end of the
  1996.  * string.
  1997.  */
  1998. *p = '/';
  1999. #endif
  2000. __os_freestr(dir);
  2001. if (ret != 0)
  2002. goto out;
  2003. for (i = 0; i < dircnt; i++) {
  2004. /*
  2005.  * Need to check if it is a backup file for this.
  2006.  * No idea what namesp[i] may be or how long, so
  2007.  * must use strncmp and not memcmp.  We don't want
  2008.  * to use strcmp either because we are only matching
  2009.  * the first part of the real file's name.  We don't
  2010.  * know its LSN's.
  2011.  */
  2012. if (strncmp(namesp[i], backup, strlen(backup)) == 0) {
  2013. if ((ret = __db_appname(dbp->dbenv, DB_APP_DATA,
  2014.     NULL, namesp[i], 0, NULL, &real_name)) != 0)
  2015. goto out;
  2016. /*
  2017.  * This should not happen.  Check that old
  2018.  * .afterop files aren't around.
  2019.  * If so, just move on.
  2020.  */
  2021. if (strstr(real_name, ".afterop") != NULL) {
  2022. __os_freestr(real_name);
  2023. real_name = NULL;
  2024. continue;
  2025. }
  2026. snprintf(copy, len, "%s.afterop", real_name);
  2027. __db_makecopy(real_name, copy);
  2028. __os_freestr(real_name);
  2029. real_name = NULL;
  2030. }
  2031. }
  2032. out:
  2033. if (backup != NULL)
  2034. __os_freestr(backup);
  2035. if (copy != NULL)
  2036. __os_freestr(copy);
  2037. if (namesp != NULL)
  2038. __os_dirfree(namesp, dircnt);
  2039. if (real_name != NULL)
  2040. __os_freestr(real_name);
  2041. return (ret);
  2042. }
  2043. static void
  2044. __db_makecopy(src, dest)
  2045. const char *src, *dest;
  2046. {
  2047. DB_FH rfh, wfh;
  2048. size_t rcnt, wcnt;
  2049. char *buf;
  2050. memset(&rfh, 0, sizeof(rfh));
  2051. memset(&wfh, 0, sizeof(wfh));
  2052. if (__os_malloc(NULL, 1024, NULL, &buf) != 0)
  2053. return;
  2054. if (__os_open(NULL,
  2055.     src, DB_OSO_RDONLY, __db_omode("rw----"), &rfh) != 0)
  2056. goto err;
  2057. if (__os_open(NULL, dest,
  2058.     DB_OSO_CREATE | DB_OSO_TRUNC, __db_omode("rw----"), &wfh) != 0)
  2059. goto err;
  2060. for (;;)
  2061. if (__os_read(NULL, &rfh, buf, 1024, &rcnt) < 0 || rcnt == 0 ||
  2062.     __os_write(NULL, &wfh, buf, rcnt, &wcnt) < 0 || wcnt != rcnt)
  2063. break;
  2064. err: __os_free(buf, 1024);
  2065. if (F_ISSET(&rfh, DB_FH_VALID))
  2066. __os_closehandle(&rfh);
  2067. if (F_ISSET(&wfh, DB_FH_VALID))
  2068. __os_closehandle(&wfh);
  2069. }
  2070. #endif