mp_sync.c
上传用户:romrleung
上传日期:2022-05-23
资源大小:18897k
文件大小:16k
源码类别:

MySQL数据库

开发平台:

Visual C++

  1. /*-
  2.  * See the file LICENSE for redistribution information.
  3.  *
  4.  * Copyright (c) 1996-2002
  5.  * Sleepycat Software.  All rights reserved.
  6.  */
  7. #include "db_config.h"
  8. #ifndef lint
  9. static const char revid[] = "$Id: mp_sync.c,v 11.64 2002/08/25 16:00:27 bostic Exp $";
  10. #endif /* not lint */
  11. #ifndef NO_SYSTEM_INCLUDES
  12. #include <sys/types.h>
  13. #include <stdlib.h>
  14. #endif
  15. #include "db_int.h"
  16. #include "dbinc/db_shash.h"
  17. #include "dbinc/mp.h"
  18. typedef struct {
  19. DB_MPOOL_HASH *track_hp; /* Hash bucket. */
  20. roff_t   track_off; /* Page file offset. */
  21. db_pgno_t track_pgno; /* Page number. */
  22. } BH_TRACK;
  23. static int __bhcmp __P((const void *, const void *));
  24. static int __memp_close_flush_files __P((DB_ENV *, DB_MPOOL *));
  25. static int __memp_sync_files __P((DB_ENV *, DB_MPOOL *));
  26. /*
  27.  * __memp_sync --
  28.  * Mpool sync function.
  29.  *
  30.  * PUBLIC: int __memp_sync __P((DB_ENV *, DB_LSN *));
  31.  */
  32. int
  33. __memp_sync(dbenv, lsnp)
  34. DB_ENV *dbenv;
  35. DB_LSN *lsnp;
  36. {
  37. DB_MPOOL *dbmp;
  38. MPOOL *mp;
  39. int ret;
  40. PANIC_CHECK(dbenv);
  41. ENV_REQUIRES_CONFIG(dbenv,
  42.     dbenv->mp_handle, "memp_sync", DB_INIT_MPOOL);
  43. /*
  44.  * If no LSN is provided, flush the entire cache (reasonable usage
  45.  * even if there's no log subsystem configured).
  46.  */
  47. if (lsnp != NULL)
  48. ENV_REQUIRES_CONFIG(dbenv,
  49.     dbenv->lg_handle, "memp_sync", DB_INIT_LOG);
  50. dbmp = dbenv->mp_handle;
  51. mp = dbmp->reginfo[0].primary;
  52. /* If we've flushed to the requested LSN, return that information. */
  53. if (lsnp != NULL) {
  54. R_LOCK(dbenv, dbmp->reginfo);
  55. if (log_compare(lsnp, &mp->lsn) <= 0) {
  56. *lsnp = mp->lsn;
  57. R_UNLOCK(dbenv, dbmp->reginfo);
  58. return (0);
  59. }
  60. R_UNLOCK(dbenv, dbmp->reginfo);
  61. }
  62. if ((ret = __memp_sync_int(dbenv, NULL, 0, DB_SYNC_CACHE, NULL)) != 0)
  63. return (ret);
  64. if (lsnp != NULL) {
  65. R_LOCK(dbenv, dbmp->reginfo);
  66. if (log_compare(lsnp, &mp->lsn) > 0)
  67. mp->lsn = *lsnp;
  68. R_UNLOCK(dbenv, dbmp->reginfo);
  69. }
  70. return (0);
  71. }
  72. /*
  73.  * __memp_fsync --
  74.  * Mpool file sync function.
  75.  *
  76.  * PUBLIC: int __memp_fsync __P((DB_MPOOLFILE *));
  77.  */
  78. int
  79. __memp_fsync(dbmfp)
  80. DB_MPOOLFILE *dbmfp;
  81. {
  82. DB_ENV *dbenv;
  83. DB_MPOOL *dbmp;
  84. dbmp = dbmfp->dbmp;
  85. dbenv = dbmp->dbenv;
  86. PANIC_CHECK(dbenv);
  87. /*
  88.  * If this handle doesn't have a file descriptor that's open for
  89.  * writing, or if the file is a temporary, there's no reason to
  90.  * proceed further.
  91.  */
  92. if (F_ISSET(dbmfp, MP_READONLY))
  93. return (0);
  94. if (F_ISSET(dbmfp->mfp, MP_TEMP))
  95. return (0);
  96. return (__memp_sync_int(dbenv, dbmfp, 0, DB_SYNC_FILE, NULL));
  97. }
  98. /*
  99.  * __mp_xxx_fh --
  100.  * Return a file descriptor for DB 1.85 compatibility locking.
  101.  *
  102.  * PUBLIC: int __mp_xxx_fh __P((DB_MPOOLFILE *, DB_FH **));
  103.  */
  104. int
  105. __mp_xxx_fh(dbmfp, fhp)
  106. DB_MPOOLFILE *dbmfp;
  107. DB_FH **fhp;
  108. {
  109. DB_ENV *dbenv;
  110. /*
  111.  * This is a truly spectacular layering violation, intended ONLY to
  112.  * support compatibility for the DB 1.85 DB->fd call.
  113.  *
  114.  * Sync the database file to disk, creating the file as necessary.
  115.  *
  116.  * We skip the MP_READONLY and MP_TEMP tests done by memp_fsync(3).
  117.  * The MP_READONLY test isn't interesting because we will either
  118.  * already have a file descriptor (we opened the database file for
  119.  * reading) or we aren't readonly (we created the database which
  120.  * requires write privileges).  The MP_TEMP test isn't interesting
  121.  * because we want to write to the backing file regardless so that
  122.  * we get a file descriptor to return.
  123.  */
  124. *fhp = dbmfp->fhp;
  125. if (F_ISSET(dbmfp->fhp, DB_FH_VALID))
  126. return (0);
  127. dbenv = dbmfp->dbmp->dbenv;
  128. return (__memp_sync_int(dbenv, dbmfp, 0, DB_SYNC_FILE, NULL));
  129. }
  130. /*
  131.  * __memp_sync_int --
  132.  * Mpool sync internal function.
  133.  *
  134.  * PUBLIC: int __memp_sync_int
  135.  * PUBLIC:     __P((DB_ENV *, DB_MPOOLFILE *, int, db_sync_op, int *));
  136.  */
  137. int
  138. __memp_sync_int(dbenv, dbmfp, ar_max, op, wrotep)
  139. DB_ENV *dbenv;
  140. DB_MPOOLFILE *dbmfp;
  141. int ar_max, *wrotep;
  142. db_sync_op op;
  143. {
  144. BH *bhp;
  145. BH_TRACK *bharray;
  146. DB_MPOOL *dbmp;
  147. DB_MPOOL_HASH *hp;
  148. DB_MUTEX *mutexp;
  149. MPOOL *c_mp, *mp;
  150. MPOOLFILE *mfp;
  151. u_int32_t n_cache;
  152. int ar_cnt, hb_lock, i, pass, remaining, ret, t_ret, wait_cnt, wrote;
  153. dbmp = dbenv->mp_handle;
  154. mp = dbmp->reginfo[0].primary;
  155. pass = wrote = 0;
  156. /*
  157.  * If the caller does not specify how many pages assume one
  158.  * per bucket.
  159.  */
  160. if (ar_max == 0)
  161. ar_max = mp->nreg * mp->htab_buckets;
  162. if ((ret =
  163.     __os_malloc(dbenv, ar_max * sizeof(BH_TRACK), &bharray)) != 0)
  164. return (ret);
  165. /*
  166.  * Walk each cache's list of buffers and mark all dirty buffers to be
  167.  * written and all pinned buffers to be potentially written, depending
  168.  * on our flags.
  169.  */
  170. for (ar_cnt = 0, n_cache = 0; n_cache < mp->nreg; ++n_cache) {
  171. c_mp = dbmp->reginfo[n_cache].primary;
  172. hp = R_ADDR(&dbmp->reginfo[n_cache], c_mp->htab);
  173. for (i = 0; i < c_mp->htab_buckets; i++, hp++) {
  174. /*
  175.  * We can check for empty buckets before locking as we
  176.  * only care if the pointer is zero or non-zero.  We
  177.  * can ignore empty buckets because we only need write
  178.  * buffers that were dirty before we started.
  179.  */
  180. if (SH_TAILQ_FIRST(&hp->hash_bucket, __bh) == NULL)
  181. continue;
  182. MUTEX_LOCK(dbenv, &hp->hash_mutex);
  183. for (bhp = SH_TAILQ_FIRST(&hp->hash_bucket, __bh);
  184.     bhp != NULL; bhp = SH_TAILQ_NEXT(bhp, hq, __bh)) {
  185. /* Always ignore unreferenced, clean pages. */
  186. if (bhp->ref == 0 && !F_ISSET(bhp, BH_DIRTY))
  187. continue;
  188. /*
  189.  * Checkpoints have to wait on all pinned pages,
  190.  * as pages may be marked dirty when returned to
  191.  * the cache.
  192.  *
  193.  * File syncs only wait on pages both pinned and
  194.  * dirty.  (We don't care if pages are marked
  195.  * dirty when returned to the cache, that means
  196.  * there's another writing thread and flushing
  197.  * the cache for this handle is meaningless.)
  198.  */
  199. if (op == DB_SYNC_FILE &&
  200.     !F_ISSET(bhp, BH_DIRTY))
  201. continue;
  202. mfp = R_ADDR(dbmp->reginfo, bhp->mf_offset);
  203. /*
  204.  * Ignore temporary files -- this means you
  205.  * can't even flush temporary files by handle.
  206.  * (Checkpoint doesn't require temporary files
  207.  * be flushed and the underlying buffer write
  208.  * write routine may not be able to write it
  209.  * anyway.)
  210.  */
  211. if (F_ISSET(mfp, MP_TEMP))
  212. continue;
  213. /*
  214.  * If we're flushing a specific file, see if
  215.  * this page is from that file.
  216.  */
  217. if (dbmfp != NULL && mfp != dbmfp->mfp)
  218. continue;
  219. /*
  220.  * Ignore files that aren't involved in DB's
  221.  * transactional operations during checkpoints.
  222.  */
  223. if (dbmfp == NULL && mfp->lsn_off == -1)
  224. continue;
  225. /* Track the buffer, we want it. */
  226. bharray[ar_cnt].track_hp = hp;
  227. bharray[ar_cnt].track_pgno = bhp->pgno;
  228. bharray[ar_cnt].track_off = bhp->mf_offset;
  229. ar_cnt++;
  230. if (ar_cnt >= ar_max) {
  231. if ((ret = __os_realloc(dbenv,
  232.     (ar_max * 2) * sizeof(BH_TRACK),
  233.     &bharray)) != 0)
  234. break;
  235. ar_max *= 2;
  236. }
  237. }
  238. MUTEX_UNLOCK(dbenv, &hp->hash_mutex);
  239. if (ret != 0)
  240. goto err;
  241. }
  242. }
  243. /* If there no buffers to write, we're done. */
  244. if (ar_cnt == 0)
  245. goto done;
  246. /*
  247.  * Write the buffers in file/page order, trying to reduce seeks by the
  248.  * filesystem and, when pages are smaller than filesystem block sizes,
  249.  * reduce the actual number of writes.
  250.  */
  251. if (ar_cnt > 1)
  252. qsort(bharray, ar_cnt, sizeof(BH_TRACK), __bhcmp);
  253. /*
  254.  * If we're trickling buffers, only write enough to reach the correct
  255.  * percentage for this region.  We may not write enough if the dirty
  256.  * buffers have an unbalanced distribution among the regions, but that
  257.  * seems unlikely.
  258.  */
  259.  if (op == DB_SYNC_TRICKLE && ar_cnt > ar_max / (int)mp->nreg)
  260. ar_cnt = ar_max / (int)mp->nreg;
  261. /*
  262.  * Flush the log.  We have to ensure the log records reflecting the
  263.  * changes on the database pages we're writing have already made it
  264.  * to disk.  We still have to check the log each time we write a page
  265.  * (because pages we are about to write may be modified after we have
  266.  * flushed the log), but in general this will at least avoid any I/O
  267.  * on the log's part.
  268.  */
  269. if (LOGGING_ON(dbenv) && (ret = dbenv->log_flush(dbenv, NULL)) != 0)
  270. goto err;
  271. /*
  272.  * Walk the array, writing buffers.  When we write a buffer, we NULL
  273.  * out its hash bucket pointer so we don't process a slot more than
  274.  * once.
  275.  */
  276. for (remaining = ar_cnt, i = pass = 0; remaining > 0; ++i) {
  277. if (i >= ar_cnt) {
  278. i = 0;
  279. ++pass;
  280. __os_sleep(dbenv, 1, 0);
  281. }
  282. if ((hp = bharray[i].track_hp) == NULL)
  283. continue;
  284. /* Lock the hash bucket and find the buffer. */
  285. mutexp = &hp->hash_mutex;
  286. MUTEX_LOCK(dbenv, mutexp);
  287. for (bhp = SH_TAILQ_FIRST(&hp->hash_bucket, __bh);
  288.     bhp != NULL; bhp = SH_TAILQ_NEXT(bhp, hq, __bh))
  289. if (bhp->pgno == bharray[i].track_pgno &&
  290.     bhp->mf_offset == bharray[i].track_off)
  291. break;
  292. /*
  293.  * If we can't find the buffer we're done, somebody else had
  294.  * to have written it.
  295.  *
  296.  * If the buffer isn't pinned or dirty, we're done, there's
  297.  * no work needed.
  298.  */
  299. if (bhp == NULL || (bhp->ref == 0 && !F_ISSET(bhp, BH_DIRTY))) {
  300. MUTEX_UNLOCK(dbenv, mutexp);
  301. --remaining;
  302. bharray[i].track_hp = NULL;
  303. continue;
  304. }
  305. /*
  306.  * If the buffer is locked by another thread, ignore it, we'll
  307.  * come back to it.
  308.  *
  309.  * If the buffer is pinned and it's only the first or second
  310.  * time we have looked at it, ignore it, we'll come back to
  311.  * it.
  312.  *
  313.  * In either case, skip the buffer if we're not required to
  314.  * write it.
  315.  */
  316. if (F_ISSET(bhp, BH_LOCKED) || (bhp->ref != 0 && pass < 2)) {
  317. MUTEX_UNLOCK(dbenv, mutexp);
  318. if (op != DB_SYNC_CACHE && op != DB_SYNC_FILE) {
  319. --remaining;
  320. bharray[i].track_hp = NULL;
  321. }
  322. continue;
  323. }
  324. /*
  325.  * The buffer is either pinned or dirty.
  326.  *
  327.  * Set the sync wait-for count, used to count down outstanding
  328.  * references to this buffer as they are returned to the cache.
  329.  */
  330. bhp->ref_sync = bhp->ref;
  331. /* Pin the buffer into memory and lock it. */
  332. ++bhp->ref;
  333. F_SET(bhp, BH_LOCKED);
  334. MUTEX_LOCK(dbenv, &bhp->mutex);
  335. /*
  336.  * Unlock the hash bucket and wait for the wait-for count to
  337.  * go to 0.   No new thread can acquire the buffer because we
  338.  * have it locked.
  339.  *
  340.  * If a thread attempts to re-pin a page, the wait-for count
  341.  * will never go to 0 (the thread spins on our buffer lock,
  342.  * while we spin on the thread's ref count).  Give up if we
  343.  * don't get the buffer in 3 seconds, we can try again later.
  344.  *
  345.  * If, when the wait-for count goes to 0, the buffer is found
  346.  * to be dirty, write it.
  347.  */
  348. MUTEX_UNLOCK(dbenv, mutexp);
  349. for (wait_cnt = 1;
  350.     bhp->ref_sync != 0 && wait_cnt < 4; ++wait_cnt)
  351. __os_sleep(dbenv, 1, 0);
  352. MUTEX_LOCK(dbenv, mutexp);
  353. hb_lock = 1;
  354. /*
  355.  * If the ref_sync count has gone to 0, we're going to be done
  356.  * with this buffer no matter what happens.
  357.  */
  358. if (bhp->ref_sync == 0) {
  359. --remaining;
  360. bharray[i].track_hp = NULL;
  361. }
  362. /*
  363.  * If the ref_sync count has gone to 0 and the buffer is still
  364.  * dirty, we write it.  We only try to write the buffer once.
  365.  * Any process checkpointing or trickle-flushing the pool
  366.  * must be able to write any underlying file -- if the write
  367.  * fails, error out.  It would be very strange if file sync
  368.  * failed to write, but we don't care if it happens.
  369.  */
  370. if (bhp->ref_sync == 0 && F_ISSET(bhp, BH_DIRTY)) {
  371. hb_lock = 0;
  372. MUTEX_UNLOCK(dbenv, mutexp);
  373. mfp = R_ADDR(dbmp->reginfo, bhp->mf_offset);
  374. if ((ret = __memp_bhwrite(dbmp, hp, mfp, bhp, 1)) == 0)
  375. ++wrote;
  376. else if (op == DB_SYNC_CACHE || op == DB_SYNC_TRICKLE)
  377. __db_err(dbenv, "%s: unable to flush page: %lu",
  378.     __memp_fns(dbmp, mfp), (u_long)bhp->pgno);
  379. else
  380. ret = 0;
  381. }
  382. /*
  383.  * If ref_sync count never went to 0, the buffer was written
  384.  * by another thread, or the write failed, we still have the
  385.  * buffer locked.
  386.  *
  387.  * We may or may not currently hold the hash bucket mutex.  If
  388.  * the __memp_bhwrite -> __memp_pgwrite call was successful,
  389.  * then __memp_pgwrite will have swapped the buffer lock for
  390.  * the hash lock.  All other call paths will leave us without
  391.  * the hash bucket lock.
  392.  *
  393.  * The order of mutexes above was to acquire the buffer lock
  394.  * while holding the hash bucket lock.  Don't deadlock here,
  395.  * release the buffer lock and then acquire the hash bucket
  396.  * lock.
  397.  */
  398. if (F_ISSET(bhp, BH_LOCKED)) {
  399. F_CLR(bhp, BH_LOCKED);
  400. MUTEX_UNLOCK(dbenv, &bhp->mutex);
  401. if (!hb_lock)
  402. MUTEX_LOCK(dbenv, mutexp);
  403. }
  404. /*
  405.  * Reset the ref_sync count regardless of our success, we're
  406.  * done with this buffer for now.
  407.  */
  408. bhp->ref_sync = 0;
  409. /* Discard our reference and unlock the bucket. */
  410. --bhp->ref;
  411. MUTEX_UNLOCK(dbenv, mutexp);
  412. if (ret != 0)
  413. break;
  414. }
  415. done: /* If we've opened files to flush pages, close them. */
  416. if ((t_ret = __memp_close_flush_files(dbenv, dbmp)) != 0 && ret == 0)
  417. ret = t_ret;
  418. /*
  419.  * If doing a checkpoint or flushing a file for the application, we
  420.  * have to force the pages to disk.  We don't do this as we go along
  421.  * because we want to give the OS as much time as possible to lazily
  422.  * flush, and because we have to flush files that might not even have
  423.  * had dirty buffers in the cache, so we have to walk the files list.
  424.  */
  425. if (ret == 0 && (op == DB_SYNC_CACHE || op == DB_SYNC_FILE)) {
  426. if (dbmfp == NULL)
  427. ret = __memp_sync_files(dbenv, dbmp);
  428. else
  429. ret = __os_fsync(dbenv, dbmfp->fhp);
  430. }
  431. err: __os_free(dbenv, bharray);
  432. if (wrotep != NULL)
  433. *wrotep = wrote;
  434. return (ret);
  435. }
  436. /*
  437.  * __memp_sync_files --
  438.  * Sync all the files in the environment, open or not.
  439.  */
  440. static
  441. int __memp_sync_files(dbenv, dbmp)
  442. DB_ENV *dbenv;
  443. DB_MPOOL *dbmp;
  444. {
  445. DB_MPOOLFILE *dbmfp;
  446. MPOOL *mp;
  447. MPOOLFILE *mfp;
  448. int ret, t_ret;
  449. ret = 0;
  450. mp = dbmp->reginfo[0].primary;
  451. R_LOCK(dbenv, dbmp->reginfo);
  452. for (mfp = SH_TAILQ_FIRST(&mp->mpfq, __mpoolfile);
  453.     mfp != NULL; mfp = SH_TAILQ_NEXT(mfp, q, __mpoolfile)) {
  454. if (mfp->stat.st_page_out == 0 ||
  455.     F_ISSET(mfp, MP_DEADFILE | MP_TEMP))
  456. continue;
  457. /* Look for an already open handle. */
  458. ret = 0;
  459. MUTEX_THREAD_LOCK(dbenv, dbmp->mutexp);
  460. for (dbmfp = TAILQ_FIRST(&dbmp->dbmfq);
  461.     dbmfp != NULL; dbmfp = TAILQ_NEXT(dbmfp, q))
  462. if (dbmfp->mfp == mfp) {
  463. ret = __os_fsync(dbenv, dbmfp->fhp);
  464. break;
  465. }
  466. MUTEX_THREAD_UNLOCK(dbenv, dbmp->mutexp);
  467. if (ret != 0)
  468. goto err;
  469. /* If we don't find one, open one. */
  470. if (dbmfp == NULL) {
  471. if ((ret = dbenv->memp_fcreate(dbenv, &dbmfp, 0)) != 0)
  472. goto err;
  473. ret = __memp_fopen_int(
  474.     dbmfp, mfp, R_ADDR(dbmp->reginfo, mfp->path_off),
  475.     0, 0, mfp->stat.st_pagesize);
  476. if (ret == 0)
  477. ret = __os_fsync(dbenv, dbmfp->fhp);
  478. if ((t_ret =
  479.     __memp_fclose_int(dbmfp, 0)) != 0 && ret == 0)
  480. ret = t_ret;
  481. if (ret != 0)
  482. goto err;
  483. }
  484. }
  485. if (0) {
  486. err: __db_err(dbenv, "%s: cannot sync: %s",
  487.     R_ADDR(dbmp->reginfo, mfp->path_off), db_strerror(ret));
  488. }
  489. R_UNLOCK(dbenv, dbmp->reginfo);
  490. return (ret);
  491. }
  492. /*
  493.  * __memp_close_flush_files --
  494.  * Close files opened only to flush buffers.
  495.  */
  496. static int
  497. __memp_close_flush_files(dbenv, dbmp)
  498. DB_ENV *dbenv;
  499. DB_MPOOL *dbmp;
  500. {
  501. DB_MPOOLFILE *dbmfp;
  502. int ret;
  503. /*
  504.  * The routine exists because we must close files opened by sync to
  505.  * flush buffers.  There are two cases: first, extent files have to
  506.  * be closed so they may be removed when empty.  Second, regular
  507.  * files have to be closed so we don't run out of descriptors (for
  508.  * example, and application partitioning its data into databases
  509.  * based on timestamps, so there's a continually increasing set of
  510.  * files).
  511.  *
  512.  * We mark files opened in the __memp_bhwrite() function with the
  513.  * MP_FLUSH flag.  Here we walk through our file descriptor list,
  514.  * and, if a file was opened by __memp_bhwrite(), we close it.
  515.  */
  516. retry: MUTEX_THREAD_LOCK(dbenv, dbmp->mutexp);
  517. for (dbmfp = TAILQ_FIRST(&dbmp->dbmfq);
  518.     dbmfp != NULL; dbmfp = TAILQ_NEXT(dbmfp, q))
  519. if (F_ISSET(dbmfp, MP_FLUSH)) {
  520. F_CLR(dbmfp, MP_FLUSH);
  521. MUTEX_THREAD_UNLOCK(dbenv, dbmp->mutexp);
  522. if ((ret = __memp_fclose_int(dbmfp, 0)) != 0)
  523. return (ret);
  524. goto retry;
  525. }
  526. MUTEX_THREAD_UNLOCK(dbenv, dbmp->mutexp);
  527. return (0);
  528. }
  529. static int
  530. __bhcmp(p1, p2)
  531. const void *p1, *p2;
  532. {
  533. BH_TRACK *bhp1, *bhp2;
  534. bhp1 = (BH_TRACK *)p1;
  535. bhp2 = (BH_TRACK *)p2;
  536. /* Sort by file (shared memory pool offset). */
  537. if (bhp1->track_off < bhp2->track_off)
  538. return (-1);
  539. if (bhp1->track_off > bhp2->track_off)
  540. return (1);
  541. /*
  542.  * !!!
  543.  * Defend against badly written quicksort code calling the comparison
  544.  * function with two identical pointers (e.g., WATCOM C++ (Power++)).
  545.  */
  546. if (bhp1->track_pgno < bhp2->track_pgno)
  547. return (-1);
  548. if (bhp1->track_pgno > bhp2->track_pgno)
  549. return (1);
  550. return (0);
  551. }