ibuf0ibuf.c
上传用户:romrleung
上传日期:2022-05-23
资源大小:18897k
文件大小:85k
源码类别:

MySQL数据库

开发平台:

Visual C++

  1. /******************************************************
  2. Insert buffer
  3. (c) 1997 Innobase Oy
  4. Created 7/19/1997 Heikki Tuuri
  5. *******************************************************/
  6. #include "ibuf0ibuf.h"
  7. #ifdef UNIV_NONINL
  8. #include "ibuf0ibuf.ic"
  9. #endif
  10. #include "buf0buf.h"
  11. #include "buf0rea.h"
  12. #include "fsp0fsp.h"
  13. #include "trx0sys.h"
  14. #include "fil0fil.h"
  15. #include "thr0loc.h"
  16. #include "rem0rec.h"
  17. #include "btr0cur.h"
  18. #include "btr0pcur.h"
  19. #include "btr0btr.h"
  20. #include "sync0sync.h"
  21. #include "dict0boot.h"
  22. #include "fut0lst.h"
  23. #include "lock0lock.h"
  24. #include "log0recv.h"
  25. #include "que0que.h"
  26. /*      STRUCTURE OF AN INSERT BUFFER RECORD
  27. In versions < 4.1.x:
  28. 1. The first field is the page number.
  29. 2. The second field is an array which stores type info for each subsequent
  30.    field. We store the information which affects the ordering of records, and
  31.    also the physical storage size of an SQL NULL value. E.g., for CHAR(10) it
  32.    is 10 bytes.
  33. 3. Next we have the fields of the actual index record.
  34. In versions >= 4.1.x:
  35. Note that contary to what we planned in the 1990's, there will only be one
  36. insert buffer tree, and that is in the system tablespace of InnoDB.
  37. 1. The first field is the space id.
  38. 2. The second field is a one-byte marker which differentiates records from
  39.    the < 4.1.x storage format.
  40. 3. The third field is the page number.
  41. 4. The fourth field contains the type info, where we have also added 2 bytes to
  42.    store the charset. In the compressed table format of 5.0.x we must add more
  43.    information here so that we can build a dummy 'index' struct which 5.0.x
  44.    can use in the binary search on the index page in the ibuf merge phase.
  45. 5. The rest of the fields contain the fields of the actual index record.
  46. */
  47. /* PREVENTING DEADLOCKS IN THE INSERT BUFFER SYSTEM
  48. If an OS thread performs any operation that brings in disk pages from
  49. non-system tablespaces into the buffer pool, or creates such a page there,
  50. then the operation may have as a side effect an insert buffer index tree
  51. compression. Thus, the tree latch of the insert buffer tree may be acquired
  52. in the x-mode, and also the file space latch of the system tablespace may
  53. be acquired in the x-mode.
  54. Also, an insert to an index in a non-system tablespace can have the same
  55. effect. How do we know this cannot lead to a deadlock of OS threads? There
  56. is a problem with the io-handler threads: they break the latching order
  57. because they own x-latches to pages which are on a lower level than the
  58. insert buffer tree latch, its page latches, and the tablespace latch an
  59. insert buffer operation can reserve.
  60. The solution is the following: Let all the tree and page latches connected
  61. with the insert buffer be later in the latching order than the fsp latch and
  62. fsp page latches.
  63. Insert buffer pages must be such that the insert buffer is never invoked
  64. when these pages are accessed as this would result in a recursion violating
  65. the latching order. We let a special i/o-handler thread take care of i/o to
  66. the insert buffer pages and the ibuf bitmap pages, as well as the fsp bitmap
  67. pages and the first inode page, which contains the inode of the ibuf tree: let
  68. us call all these ibuf pages. To prevent deadlocks, we do not let a read-ahead
  69. access both non-ibuf and ibuf pages.
  70. Then an i/o-handler for the insert buffer never needs to access recursively the
  71. insert buffer tree and thus obeys the latching order. On the other hand, other
  72. i/o-handlers for other tablespaces may require access to the insert buffer,
  73. but because all kinds of latches they need to access there are later in the
  74. latching order, no violation of the latching order occurs in this case,
  75. either.
  76. A problem is how to grow and contract an insert buffer tree. As it is later
  77. in the latching order than the fsp management, we have to reserve the fsp
  78. latch first, before adding or removing pages from the insert buffer tree.
  79. We let the insert buffer tree have its own file space management: a free
  80. list of pages linked to the tree root. To prevent recursive using of the
  81. insert buffer when adding pages to the tree, we must first load these pages
  82. to memory, obtaining a latch on them, and only after that add them to the
  83. free list of the insert buffer tree. More difficult is removing of pages
  84. from the free list. If there is an excess of pages in the free list of the
  85. ibuf tree, they might be needed if some thread reserves the fsp latch,
  86. intending to allocate more file space. So we do the following: if a thread
  87. reserves the fsp latch, we check the writer count field of the latch. If
  88. this field has value 1, it means that the thread did not own the latch
  89. before entering the fsp system, and the mtr of the thread contains no
  90. modifications to the fsp pages. Now we are free to reserve the ibuf latch,
  91. and check if there is an excess of pages in the free list. We can then, in a
  92. separate mini-transaction, take them out of the free list and free them to
  93. the fsp system.
  94. To avoid deadlocks in the ibuf system, we divide file pages into three levels:
  95. (1) non-ibuf pages,
  96. (2) ibuf tree pages and the pages in the ibuf tree free list, and
  97. (3) ibuf bitmap pages.
  98. No OS thread is allowed to access higher level pages if it has latches to
  99. lower level pages; even if the thread owns a B-tree latch it must not access
  100. the B-tree non-leaf pages if it has latches on lower level pages. Read-ahead
  101. is only allowed for level 1 and 2 pages. Dedicated i/o-handler threads handle
  102. exclusively level 1 i/o. A dedicated i/o handler thread handles exclusively
  103. level 2 i/o. However, if an OS thread does the i/o handling for itself, i.e.,
  104. it uses synchronous aio, it can access any pages, as long as it obeys the
  105. access order rules. */
  106. /* Buffer pool size per the maximum insert buffer size */
  107. #define IBUF_POOL_SIZE_PER_MAX_SIZE 2
  108. /* The insert buffer control structure */
  109. ibuf_t* ibuf = NULL;
  110. static
  111. ulint ibuf_rnd = 986058871;
  112. ulint ibuf_flush_count = 0;
  113. /* Dimensions for the ibuf_count array */
  114. #define IBUF_COUNT_N_SPACES 500
  115. #define IBUF_COUNT_N_PAGES 2000
  116. /* Buffered entry counts for file pages, used in debugging */
  117. static ulint* ibuf_counts[IBUF_COUNT_N_SPACES];
  118. static ibool ibuf_counts_inited = FALSE;
  119. /* The start address for an insert buffer bitmap page bitmap */
  120. #define IBUF_BITMAP PAGE_DATA
  121. /* Offsets in bits for the bits describing a single page in the bitmap */
  122. #define IBUF_BITMAP_FREE 0
  123. #define IBUF_BITMAP_BUFFERED 2
  124. #define IBUF_BITMAP_IBUF 3 /* TRUE if page is a part of the ibuf
  125. tree, excluding the root page, or is
  126. in the free list of the ibuf */
  127. /* Number of bits describing a single page */
  128. #define IBUF_BITS_PER_PAGE 4
  129. #if IBUF_BITS_PER_PAGE % 2
  130. # error "IBUF_BITS_PER_PAGE must be an even number!"
  131. #endif
  132. /* The mutex used to block pessimistic inserts to ibuf trees */
  133. static mutex_t ibuf_pessimistic_insert_mutex;
  134. /* The mutex protecting the insert buffer structs */
  135. static mutex_t ibuf_mutex;
  136. /* The mutex protecting the insert buffer bitmaps */
  137. static mutex_t ibuf_bitmap_mutex;
  138. /* The area in pages from which contract looks for page numbers for merge */
  139. #define IBUF_MERGE_AREA 8
  140. /* Inside the merge area, pages which have at most 1 per this number less
  141. buffered entries compared to maximum volume that can buffered for a single
  142. page are merged along with the page whose buffer became full */
  143. #define IBUF_MERGE_THRESHOLD 4
  144. /* In ibuf_contract at most this number of pages is read to memory in one
  145. batch, in order to merge the entries for them in the insert buffer */
  146. #define IBUF_MAX_N_PAGES_MERGED IBUF_MERGE_AREA
  147. /* If the combined size of the ibuf trees exceeds ibuf->max_size by this
  148. many pages, we start to contract it in connection to inserts there, using
  149. non-synchronous contract */
  150. #define IBUF_CONTRACT_ON_INSERT_NON_SYNC 0
  151. /* Same as above, but use synchronous contract */
  152. #define IBUF_CONTRACT_ON_INSERT_SYNC 5
  153. /* Same as above, but no insert is done, only contract is called */
  154. #define IBUF_CONTRACT_DO_NOT_INSERT 10
  155. /* TODO: how to cope with drop table if there are records in the insert
  156. buffer for the indexes of the table? Is there actually any problem,
  157. because ibuf merge is done to a page when it is read in, and it is
  158. still physically like the index page even if the index would have been
  159. dropped! So, there seems to be no problem. */
  160. /**********************************************************************
  161. Validates the ibuf data structures when the caller owns ibuf_mutex. */
  162. ibool
  163. ibuf_validate_low(void);
  164. /*===================*/
  165. /* out: TRUE if ok */
  166. /**********************************************************************
  167. Sets the flag in the current OS thread local storage denoting that it is
  168. inside an insert buffer routine. */
  169. UNIV_INLINE
  170. void
  171. ibuf_enter(void)
  172. /*============*/
  173. {
  174. ibool* ptr;
  175. ptr = thr_local_get_in_ibuf_field();
  176. ut_ad(*ptr == FALSE);
  177. *ptr = TRUE;
  178. }
  179. /**********************************************************************
  180. Sets the flag in the current OS thread local storage denoting that it is
  181. exiting an insert buffer routine. */
  182. UNIV_INLINE
  183. void
  184. ibuf_exit(void)
  185. /*===========*/
  186. {
  187. ibool* ptr;
  188. ptr = thr_local_get_in_ibuf_field();
  189. ut_ad(*ptr == TRUE);
  190. *ptr = FALSE;
  191. }
  192. /**********************************************************************
  193. Returns TRUE if the current OS thread is performing an insert buffer
  194. routine. */
  195. ibool
  196. ibuf_inside(void)
  197. /*=============*/
  198. /* out: TRUE if inside an insert buffer routine: for instance,
  199. a read-ahead of non-ibuf pages is then forbidden */
  200. {
  201. return(*thr_local_get_in_ibuf_field());
  202. }
  203. /**********************************************************************
  204. Gets the ibuf header page and x-latches it. */
  205. static
  206. page_t*
  207. ibuf_header_page_get(
  208. /*=================*/
  209. /* out: insert buffer header page */
  210. ulint space, /* in: space id */
  211. mtr_t* mtr) /* in: mtr */
  212. {
  213. page_t* page;
  214. ut_a(space == 0);
  215. ut_ad(!ibuf_inside());
  216. page = buf_page_get(space, FSP_IBUF_HEADER_PAGE_NO, RW_X_LATCH, mtr);
  217. #ifdef UNIV_SYNC_DEBUG
  218. buf_page_dbg_add_level(page, SYNC_IBUF_HEADER);
  219. #endif /* UNIV_SYNC_DEBUG */
  220. return(page);
  221. }
  222. /**********************************************************************
  223. Gets the root page and x-latches it. */
  224. static
  225. page_t*
  226. ibuf_tree_root_get(
  227. /*===============*/
  228. /* out: insert buffer tree root page */
  229. ibuf_data_t* data, /* in: ibuf data */
  230. ulint space, /* in: space id */
  231. mtr_t* mtr) /* in: mtr */
  232. {
  233. page_t* page;
  234. ut_a(space == 0);
  235. ut_ad(ibuf_inside());
  236. mtr_x_lock(dict_tree_get_lock((data->index)->tree), mtr);
  237. page = buf_page_get(space, FSP_IBUF_TREE_ROOT_PAGE_NO, RW_X_LATCH,
  238. mtr);
  239. #ifdef UNIV_SYNC_DEBUG
  240. buf_page_dbg_add_level(page, SYNC_TREE_NODE);
  241. #endif /* UNIV_SYNC_DEBUG */
  242. return(page);
  243. }
  244. /**********************************************************************
  245. Gets the ibuf count for a given page. */
  246. ulint
  247. ibuf_count_get(
  248. /*===========*/
  249. /* out: number of entries in the insert buffer
  250. currently buffered for this page */
  251. ulint space, /* in: space id */
  252. ulint page_no)/* in: page number */
  253. {
  254. ut_ad(space < IBUF_COUNT_N_SPACES);
  255. ut_ad(page_no < IBUF_COUNT_N_PAGES);
  256. if (!ibuf_counts_inited) {
  257. return(0);
  258. }
  259. return(*(ibuf_counts[space] + page_no));
  260. }
  261. /**********************************************************************
  262. Sets the ibuf count for a given page. */
  263. #ifdef UNIV_IBUF_DEBUG
  264. static
  265. void
  266. ibuf_count_set(
  267. /*===========*/
  268. ulint space, /* in: space id */
  269. ulint page_no,/* in: page number */
  270. ulint val) /* in: value to set */
  271. {
  272. ut_a(space < IBUF_COUNT_N_SPACES);
  273. ut_a(page_no < IBUF_COUNT_N_PAGES);
  274. ut_a(val < UNIV_PAGE_SIZE);
  275. *(ibuf_counts[space] + page_no) = val;
  276. }
  277. #endif
  278. /**********************************************************************
  279. Creates the insert buffer data structure at a database startup and initializes
  280. the data structures for the insert buffer. */
  281. void
  282. ibuf_init_at_db_start(void)
  283. /*=======================*/
  284. {
  285. ibuf = mem_alloc(sizeof(ibuf_t));
  286. /* Note that also a pessimistic delete can sometimes make a B-tree
  287. grow in size, as the references on the upper levels of the tree can
  288. change */
  289. ibuf->max_size = buf_pool_get_curr_size() / UNIV_PAGE_SIZE
  290. / IBUF_POOL_SIZE_PER_MAX_SIZE;
  291. ibuf->meter = IBUF_THRESHOLD + 1;
  292. UT_LIST_INIT(ibuf->data_list);
  293. ibuf->size = 0;
  294. #ifdef UNIV_IBUF_DEBUG
  295. {
  296. ulint i, j;
  297. for (i = 0; i < IBUF_COUNT_N_SPACES; i++) {
  298. ibuf_counts[i] = mem_alloc(sizeof(ulint)
  299. * IBUF_COUNT_N_PAGES);
  300. for (j = 0; j < IBUF_COUNT_N_PAGES; j++) {
  301. ibuf_count_set(i, j, 0);
  302. }
  303. }
  304. }
  305. #endif
  306. mutex_create(&ibuf_pessimistic_insert_mutex);
  307. mutex_set_level(&ibuf_pessimistic_insert_mutex,
  308. SYNC_IBUF_PESS_INSERT_MUTEX);
  309. mutex_create(&ibuf_mutex);
  310. mutex_set_level(&ibuf_mutex, SYNC_IBUF_MUTEX);
  311. mutex_create(&ibuf_bitmap_mutex);
  312. mutex_set_level(&ibuf_bitmap_mutex, SYNC_IBUF_BITMAP_MUTEX);
  313. fil_ibuf_init_at_db_start();
  314. ibuf_counts_inited = TRUE;
  315. }
  316. /**********************************************************************
  317. Updates the size information in an ibuf data, assuming the segment size has
  318. not changed. */
  319. static
  320. void
  321. ibuf_data_sizes_update(
  322. /*===================*/
  323. ibuf_data_t* data, /* in: ibuf data struct */
  324. page_t* root, /* in: ibuf tree root */
  325. mtr_t* mtr) /* in: mtr */
  326. {
  327. ulint old_size;
  328. #ifdef UNIV_SYNC_DEBUG
  329. ut_ad(mutex_own(&ibuf_mutex));
  330. #endif /* UNIV_SYNC_DEBUG */
  331. old_size = data->size;
  332. data->free_list_len = flst_get_len(root + PAGE_HEADER
  333.    + PAGE_BTR_IBUF_FREE_LIST, mtr);
  334. data->height = 1 + btr_page_get_level(root, mtr);
  335. data->size = data->seg_size - (1 + data->free_list_len);
  336. /* the '1 +' is the ibuf header page */
  337. ut_ad(data->size < data->seg_size);
  338. if (page_get_n_recs(root) == 0) {
  339. data->empty = TRUE;
  340. } else {
  341. data->empty = FALSE;
  342. }
  343. ut_ad(ibuf->size + data->size >= old_size);
  344. ibuf->size = ibuf->size + data->size - old_size;
  345. /* fprintf(stderr, "ibuf size %lu, space ibuf size %lun", ibuf->size,
  346. data->size); */
  347. }
  348. /**********************************************************************
  349. Creates the insert buffer data struct for a single tablespace. Reads the
  350. root page of the insert buffer tree in the tablespace. This function can
  351. be called only after the dictionary system has been initialized, as this
  352. creates also the insert buffer table and index into this tablespace. */
  353. ibuf_data_t*
  354. ibuf_data_init_for_space(
  355. /*=====================*/
  356. /* out, own: ibuf data struct, linked to the list
  357. in ibuf control structure */
  358. ulint space) /* in: space id */
  359. {
  360. ibuf_data_t* data;
  361. page_t* root;
  362. page_t* header_page;
  363. mtr_t mtr;
  364. char buf[50];
  365. dict_table_t* table;
  366. dict_index_t* index;
  367. ulint n_used;
  368. ut_a(space == 0);
  369. #ifdef UNIV_LOG_DEBUG
  370. if (space % 2 == 1) {
  371. fputs("No ibuf op in replicate spacen", stderr);
  372. return(NULL);
  373. }
  374. #endif
  375. data = mem_alloc(sizeof(ibuf_data_t));
  376. data->space = space;
  377. mtr_start(&mtr);
  378. mutex_enter(&ibuf_mutex);
  379. mtr_x_lock(fil_space_get_latch(space), &mtr);
  380. header_page = ibuf_header_page_get(space, &mtr);
  381. fseg_n_reserved_pages(header_page + IBUF_HEADER + IBUF_TREE_SEG_HEADER,
  382. &n_used, &mtr);
  383. ibuf_enter();
  384. ut_ad(n_used >= 2);
  385. data->seg_size = n_used;
  386. root = buf_page_get(space, FSP_IBUF_TREE_ROOT_PAGE_NO, RW_X_LATCH,
  387. &mtr);
  388. #ifdef UNIV_SYNC_DEBUG
  389. buf_page_dbg_add_level(root, SYNC_TREE_NODE);
  390. #endif /* UNIV_SYNC_DEBUG */
  391. data->size = 0;
  392. data->n_inserts = 0;
  393. data->n_merges = 0;
  394. data->n_merged_recs = 0;
  395. ibuf_data_sizes_update(data, root, &mtr);
  396. /*
  397. if (!data->empty) {
  398. fprintf(stderr,
  399. "InnoDB: index entries found in the insert buffern");
  400. } else {
  401. fprintf(stderr,
  402. "InnoDB: insert buffer emptyn");
  403. }
  404. */
  405. mutex_exit(&ibuf_mutex);
  406. mtr_commit(&mtr);
  407. ibuf_exit();
  408. sprintf(buf, "SYS_IBUF_TABLE_%lu", (ulong) space);
  409. table = dict_mem_table_create(buf, space, 2);
  410. dict_mem_table_add_col(table, "PAGE_NO", DATA_BINARY, 0, 0, 0);
  411. dict_mem_table_add_col(table, "TYPES", DATA_BINARY, 0, 0, 0);
  412. table->id = ut_dulint_add(DICT_IBUF_ID_MIN, space);
  413. dict_table_add_to_cache(table);
  414. index = dict_mem_index_create(buf, "CLUST_IND", space,
  415. DICT_CLUSTERED | DICT_UNIVERSAL | DICT_IBUF,2);
  416. dict_mem_index_add_field(index, "PAGE_NO", 0, 0);
  417. dict_mem_index_add_field(index, "TYPES", 0, 0);
  418. index->page_no = FSP_IBUF_TREE_ROOT_PAGE_NO;
  419. index->id = ut_dulint_add(DICT_IBUF_ID_MIN, space);
  420. dict_index_add_to_cache(table, index);
  421. data->index = dict_table_get_first_index(table);
  422. mutex_enter(&ibuf_mutex);
  423. UT_LIST_ADD_LAST(data_list, ibuf->data_list, data);
  424. mutex_exit(&ibuf_mutex);
  425. return(data);
  426. }
  427. /*************************************************************************
  428. Initializes an ibuf bitmap page. */
  429. void
  430. ibuf_bitmap_page_init(
  431. /*==================*/
  432. page_t* page, /* in: bitmap page */
  433. mtr_t* mtr) /* in: mtr */
  434. {
  435. ulint bit_offset;
  436. ulint byte_offset;
  437. ulint i;
  438. /* Write all zeros to the bitmap */
  439. bit_offset = XDES_DESCRIBED_PER_PAGE * IBUF_BITS_PER_PAGE;
  440. byte_offset = bit_offset / 8 + 1;
  441. for (i = IBUF_BITMAP; i < IBUF_BITMAP + byte_offset; i++) {
  442. *(page + i) = (byte)0;
  443. }
  444. mlog_write_initial_log_record(page, MLOG_IBUF_BITMAP_INIT, mtr);
  445. }
  446. /*************************************************************************
  447. Parses a redo log record of an ibuf bitmap page init. */
  448. byte*
  449. ibuf_parse_bitmap_init(
  450. /*===================*/
  451. /* out: end of log record or NULL */
  452. byte* ptr, /* in: buffer */
  453. byte* end_ptr __attribute__((unused)), /* in: buffer end */
  454. page_t* page, /* in: page or NULL */
  455. mtr_t* mtr) /* in: mtr or NULL */
  456. {
  457. ut_ad(ptr && end_ptr);
  458. if (page) {
  459. ibuf_bitmap_page_init(page, mtr);
  460. }
  461. return(ptr);
  462. }
  463. /************************************************************************
  464. Gets the desired bits for a given page from a bitmap page. */
  465. UNIV_INLINE
  466. ulint
  467. ibuf_bitmap_page_get_bits(
  468. /*======================*/
  469. /* out: value of bits */
  470. page_t* page, /* in: bitmap page */
  471. ulint page_no,/* in: page whose bits to get */
  472. ulint bit, /* in: IBUF_BITMAP_FREE, IBUF_BITMAP_BUFFERED, ... */
  473. mtr_t* mtr __attribute__((unused))) /* in: mtr containing an x-latch
  474.                                                to the bitmap page */
  475. {
  476. ulint byte_offset;
  477. ulint bit_offset;
  478. ulint map_byte;
  479. ulint value;
  480. ut_ad(bit < IBUF_BITS_PER_PAGE);
  481. ut_ad(IBUF_BITS_PER_PAGE % 2 == 0);
  482. ut_ad(mtr_memo_contains(mtr, buf_block_align(page),
  483. MTR_MEMO_PAGE_X_FIX));
  484. bit_offset = (page_no % XDES_DESCRIBED_PER_PAGE) * IBUF_BITS_PER_PAGE
  485.      + bit;
  486. byte_offset = bit_offset / 8;
  487. bit_offset = bit_offset % 8;
  488. ut_ad(byte_offset + IBUF_BITMAP < UNIV_PAGE_SIZE);
  489. map_byte = mach_read_from_1(page + IBUF_BITMAP + byte_offset);
  490. value = ut_bit_get_nth(map_byte, bit_offset);
  491. if (bit == IBUF_BITMAP_FREE) {
  492. ut_ad(bit_offset + 1 < 8);
  493. value = value * 2 + ut_bit_get_nth(map_byte, bit_offset + 1);
  494. }
  495. return(value);
  496. }
  497. /************************************************************************
  498. Sets the desired bit for a given page in a bitmap page. */
  499. static
  500. void
  501. ibuf_bitmap_page_set_bits(
  502. /*======================*/
  503. page_t* page, /* in: bitmap page */
  504. ulint page_no,/* in: page whose bits to set */
  505. ulint bit, /* in: IBUF_BITMAP_FREE, IBUF_BITMAP_BUFFERED, ... */
  506. ulint val, /* in: value to set */
  507. mtr_t* mtr) /* in: mtr containing an x-latch to the bitmap page */
  508. {
  509. ulint byte_offset;
  510. ulint bit_offset;
  511. ulint map_byte;
  512. ut_ad(bit < IBUF_BITS_PER_PAGE);
  513. ut_ad(IBUF_BITS_PER_PAGE % 2 == 0);
  514. ut_ad(mtr_memo_contains(mtr, buf_block_align(page),
  515. MTR_MEMO_PAGE_X_FIX));
  516. #ifdef UNIV_IBUF_DEBUG
  517. ut_a((bit != IBUF_BITMAP_BUFFERED) || (val != FALSE)
  518.       || (0 == ibuf_count_get(buf_frame_get_space_id(page), page_no)));
  519. #endif
  520. bit_offset = (page_no % XDES_DESCRIBED_PER_PAGE) * IBUF_BITS_PER_PAGE
  521.      + bit;
  522. byte_offset = bit_offset / 8;
  523. bit_offset = bit_offset % 8;
  524. ut_ad(byte_offset + IBUF_BITMAP < UNIV_PAGE_SIZE);
  525. map_byte = mach_read_from_1(page + IBUF_BITMAP + byte_offset);
  526. if (bit == IBUF_BITMAP_FREE) {
  527. ut_ad(bit_offset + 1 < 8);
  528. ut_ad(val <= 3);
  529. map_byte = ut_bit_set_nth(map_byte, bit_offset, val / 2);
  530. map_byte = ut_bit_set_nth(map_byte, bit_offset + 1, val % 2);
  531. } else {
  532. ut_ad(val <= 1);
  533. map_byte = ut_bit_set_nth(map_byte, bit_offset, val);
  534. }
  535. mlog_write_ulint(page + IBUF_BITMAP + byte_offset, map_byte,
  536. MLOG_1BYTE, mtr);
  537. }
  538. /************************************************************************
  539. Calculates the bitmap page number for a given page number. */
  540. UNIV_INLINE
  541. ulint
  542. ibuf_bitmap_page_no_calc(
  543. /*=====================*/
  544. /* out: the bitmap page number where
  545. the file page is mapped */
  546. ulint page_no) /* in: tablespace page number */
  547. {
  548. return(FSP_IBUF_BITMAP_OFFSET
  549.        + XDES_DESCRIBED_PER_PAGE
  550. * (page_no / XDES_DESCRIBED_PER_PAGE));
  551. }
  552. /************************************************************************
  553. Gets the ibuf bitmap page where the bits describing a given file page are
  554. stored. */
  555. static
  556. page_t*
  557. ibuf_bitmap_get_map_page(
  558. /*=====================*/
  559. /* out: bitmap page where the file page is mapped,
  560. that is, the bitmap page containing the descriptor
  561. bits for the file page; the bitmap page is
  562. x-latched */
  563. ulint space, /* in: space id of the file page */
  564. ulint page_no,/* in: page number of the file page */
  565. mtr_t* mtr) /* in: mtr */
  566. {
  567. page_t* page;
  568. page = buf_page_get(space, ibuf_bitmap_page_no_calc(page_no),
  569. RW_X_LATCH, mtr);
  570. #ifdef UNIV_SYNC_DEBUG
  571. buf_page_dbg_add_level(page, SYNC_IBUF_BITMAP);
  572. #endif /* UNIV_SYNC_DEBUG */
  573. return(page);
  574. }
  575. /****************************************************************************
  576. Sets the free bits of the page in the ibuf bitmap. This is done in a separate
  577. mini-transaction, hence this operation does not restrict further work to only
  578. ibuf bitmap operations, which would result if the latch to the bitmap page
  579. were kept. */
  580. UNIV_INLINE
  581. void
  582. ibuf_set_free_bits_low(
  583. /*===================*/
  584. ulint type, /* in: index type */
  585. page_t* page, /* in: index page; free bit is set if the index is
  586. non-clustered and page level is 0 */
  587. ulint val, /* in: value to set: < 4 */
  588. mtr_t* mtr) /* in: mtr */
  589. {
  590. page_t* bitmap_page;
  591. if (type & DICT_CLUSTERED) {
  592. return;
  593. }
  594. if (btr_page_get_level_low(page) != 0) {
  595. return;
  596. }
  597. bitmap_page = ibuf_bitmap_get_map_page(buf_frame_get_space_id(page),
  598. buf_frame_get_page_no(page), mtr);
  599. #ifdef UNIV_IBUF_DEBUG
  600. /* fprintf(stderr,
  601. "Setting page no %lu free bits to %lu should be %lun",
  602. buf_frame_get_page_no(page), val,
  603. ibuf_index_page_calc_free(page)); */
  604. ut_a(val <= ibuf_index_page_calc_free(page));
  605. #endif
  606. ibuf_bitmap_page_set_bits(bitmap_page, buf_frame_get_page_no(page),
  607. IBUF_BITMAP_FREE, val, mtr);
  608. }
  609. /****************************************************************************
  610. Sets the free bit of the page in the ibuf bitmap. This is done in a separate
  611. mini-transaction, hence this operation does not restrict further work to only
  612. ibuf bitmap operations, which would result if the latch to the bitmap page
  613. were kept. */
  614. void
  615. ibuf_set_free_bits(
  616. /*===============*/
  617. ulint type, /* in: index type */
  618. page_t* page, /* in: index page; free bit is set if the index is
  619. non-clustered and page level is 0 */
  620. ulint val, /* in: value to set: < 4 */
  621. ulint max_val)/* in: ULINT_UNDEFINED or a maximum value which
  622. the bits must have before setting; this is for
  623. debugging */
  624. {
  625. mtr_t mtr;
  626. page_t* bitmap_page;
  627. if (type & DICT_CLUSTERED) {
  628. return;
  629. }
  630. if (btr_page_get_level_low(page) != 0) {
  631. return;
  632. }
  633. mtr_start(&mtr);
  634. bitmap_page = ibuf_bitmap_get_map_page(buf_frame_get_space_id(page),
  635. buf_frame_get_page_no(page), &mtr);
  636. if (max_val != ULINT_UNDEFINED) {
  637. #ifdef UNIV_IBUF_DEBUG
  638. ulint old_val;
  639. old_val = ibuf_bitmap_page_get_bits(bitmap_page,
  640. buf_frame_get_page_no(page),
  641. IBUF_BITMAP_FREE, &mtr);
  642. if (old_val != max_val) {
  643. /* fprintf(stderr,
  644. "Ibuf: page %lu old val %lu max val %lun",
  645. buf_frame_get_page_no(page), old_val, max_val); */
  646. }
  647. ut_a(old_val <= max_val);
  648. #endif
  649. }
  650. #ifdef UNIV_IBUF_DEBUG
  651. /* fprintf(stderr, "Setting page no %lu free bits to %lu should be %lun",
  652. buf_frame_get_page_no(page), val,
  653. ibuf_index_page_calc_free(page)); */
  654. ut_a(val <= ibuf_index_page_calc_free(page));
  655. #endif
  656. ibuf_bitmap_page_set_bits(bitmap_page, buf_frame_get_page_no(page),
  657. IBUF_BITMAP_FREE, val, &mtr);
  658. mtr_commit(&mtr);
  659. }
  660. /****************************************************************************
  661. Resets the free bits of the page in the ibuf bitmap. This is done in a
  662. separate mini-transaction, hence this operation does not restrict further
  663. work to only ibuf bitmap operations, which would result if the latch to the
  664. bitmap page were kept. */
  665. void
  666. ibuf_reset_free_bits_with_type(
  667. /*===========================*/
  668. ulint type, /* in: index type */
  669. page_t* page) /* in: index page; free bits are set to 0 if the index
  670. is non-clustered and non-unique and the page level is
  671. 0 */
  672. {
  673. ibuf_set_free_bits(type, page, 0, ULINT_UNDEFINED);
  674. }
  675. /****************************************************************************
  676. Resets the free bits of the page in the ibuf bitmap. This is done in a
  677. separate mini-transaction, hence this operation does not restrict further
  678. work to solely ibuf bitmap operations, which would result if the latch to
  679. the bitmap page were kept. */
  680. void
  681. ibuf_reset_free_bits(
  682. /*=================*/
  683. dict_index_t* index, /* in: index */
  684. page_t* page) /* in: index page; free bits are set to 0 if
  685. the index is non-clustered and non-unique and
  686. the page level is 0 */
  687. {
  688. ibuf_set_free_bits(index->type, page, 0, ULINT_UNDEFINED);
  689. }
  690. /**************************************************************************
  691. Updates the free bits for a page to reflect the present state. Does this
  692. in the mtr given, which means that the latching order rules virtually prevent
  693. any further operations for this OS thread until mtr is committed. */
  694. void
  695. ibuf_update_free_bits_low(
  696. /*======================*/
  697. dict_index_t* index, /* in: index */
  698. page_t* page, /* in: index page */
  699. ulint max_ins_size, /* in: value of maximum insert size
  700. with reorganize before the latest
  701. operation performed to the page */
  702. mtr_t* mtr) /* in: mtr */
  703. {
  704. ulint before;
  705. ulint after;
  706. before = ibuf_index_page_calc_free_bits(max_ins_size);
  707. after = ibuf_index_page_calc_free(page);
  708. if (before != after) {
  709. ibuf_set_free_bits_low(index->type, page, after, mtr);
  710. }
  711. }
  712. /**************************************************************************
  713. Updates the free bits for the two pages to reflect the present state. Does
  714. this in the mtr given, which means that the latching order rules virtually
  715. prevent any further operations until mtr is committed. */
  716. void
  717. ibuf_update_free_bits_for_two_pages_low(
  718. /*====================================*/
  719. dict_index_t* index, /* in: index */
  720. page_t* page1, /* in: index page */
  721. page_t* page2, /* in: index page */
  722. mtr_t* mtr) /* in: mtr */
  723. {
  724. ulint state;
  725. /* As we have to x-latch two random bitmap pages, we have to acquire
  726. the bitmap mutex to prevent a deadlock with a similar operation
  727. performed by another OS thread. */
  728. mutex_enter(&ibuf_bitmap_mutex);
  729. state = ibuf_index_page_calc_free(page1);
  730. ibuf_set_free_bits_low(index->type, page1, state, mtr);
  731. state = ibuf_index_page_calc_free(page2);
  732. ibuf_set_free_bits_low(index->type, page2, state, mtr);
  733. mutex_exit(&ibuf_bitmap_mutex);
  734. }
  735. /**************************************************************************
  736. Returns TRUE if the page is one of the fixed address ibuf pages. */
  737. UNIV_INLINE
  738. ibool
  739. ibuf_fixed_addr_page(
  740. /*=================*/
  741. /* out: TRUE if a fixed address ibuf i/o page */
  742. ulint page_no)/* in: page number */
  743. {
  744. if ((ibuf_bitmap_page(page_no))
  745. || (page_no == IBUF_TREE_ROOT_PAGE_NO)) {
  746. return(TRUE);
  747. }
  748. return(FALSE);
  749. }
  750. /***************************************************************************
  751. Checks if a page is a level 2 or 3 page in the ibuf hierarchy of pages. */
  752. ibool
  753. ibuf_page(
  754. /*======*/
  755. /* out: TRUE if level 2 or level 3 page */
  756. ulint space, /* in: space id */
  757. ulint page_no)/* in: page number */
  758. {
  759. page_t* bitmap_page;
  760. mtr_t mtr;
  761. ibool ret;
  762. if (recv_no_ibuf_operations) {
  763. /* Recovery is running: no ibuf operations should be
  764. performed */
  765. return(FALSE);
  766. }
  767. if (ibuf_fixed_addr_page(page_no)) {
  768. return(TRUE);
  769. }
  770. if (space != 0) {
  771. /* Currently we only have an ibuf tree in space 0 */
  772. return(FALSE);
  773. }
  774. ut_ad(fil_space_get_type(space) == FIL_TABLESPACE);
  775. mtr_start(&mtr);
  776. bitmap_page = ibuf_bitmap_get_map_page(space, page_no, &mtr);
  777. ret = ibuf_bitmap_page_get_bits(bitmap_page, page_no, IBUF_BITMAP_IBUF,
  778. &mtr);
  779. mtr_commit(&mtr);
  780. return(ret);
  781. }
  782. /***************************************************************************
  783. Checks if a page is a level 2 or 3 page in the ibuf hierarchy of pages. */
  784. ibool
  785. ibuf_page_low(
  786. /*==========*/
  787. /* out: TRUE if level 2 or level 3 page */
  788. ulint space, /* in: space id */
  789. ulint page_no,/* in: page number */
  790. mtr_t* mtr) /* in: mtr which will contain an x-latch to the
  791. bitmap page if the page is not one of the fixed
  792. address ibuf pages */
  793. {
  794. page_t* bitmap_page;
  795. ibool ret;
  796. #ifdef UNIV_LOG_DEBUG
  797. if (space % 2 != 0) {
  798. fputs("No ibuf in a replicate spacen", stderr);
  799. return(FALSE);
  800. }
  801. #endif
  802. if (ibuf_fixed_addr_page(page_no)) {
  803. return(TRUE);
  804. }
  805. bitmap_page = ibuf_bitmap_get_map_page(space, page_no, mtr);
  806. ret = ibuf_bitmap_page_get_bits(bitmap_page, page_no, IBUF_BITMAP_IBUF,
  807. mtr);
  808. return(ret);
  809. }
  810. /************************************************************************
  811. Returns the page number field of an ibuf record. */
  812. static
  813. ulint
  814. ibuf_rec_get_page_no(
  815. /*=================*/
  816. /* out: page number */
  817. rec_t* rec) /* in: ibuf record */
  818. {
  819. byte* field;
  820. ulint len;
  821. ut_ad(ibuf_inside());
  822. ut_ad(rec_get_n_fields(rec) > 2);
  823. field = rec_get_nth_field(rec, 1, &len);
  824. if (len == 1) {
  825. /* This is of the >= 4.1.x record format */
  826. ut_a(trx_sys_multiple_tablespace_format);
  827. field = rec_get_nth_field(rec, 2, &len);
  828. } else {
  829. ut_a(trx_doublewrite_must_reset_space_ids);
  830. ut_a(!trx_sys_multiple_tablespace_format);
  831.         field = rec_get_nth_field(rec, 0, &len);
  832. }
  833. ut_a(len == 4);
  834. return(mach_read_from_4(field));
  835. }
  836. /************************************************************************
  837. Returns the space id field of an ibuf record. For < 4.1.x format records
  838. returns 0. */
  839. static
  840. ulint
  841. ibuf_rec_get_space(
  842. /*===============*/
  843. /* out: space id */
  844. rec_t* rec) /* in: ibuf record */
  845. {
  846. byte* field;
  847. ulint len;
  848. ut_ad(ibuf_inside());
  849. ut_ad(rec_get_n_fields(rec) > 2);
  850. field = rec_get_nth_field(rec, 1, &len);
  851. if (len == 1) {
  852. /* This is of the >= 4.1.x record format */
  853. ut_a(trx_sys_multiple_tablespace_format);
  854. field = rec_get_nth_field(rec, 0, &len);
  855. ut_a(len == 4);
  856. return(mach_read_from_4(field));
  857. }
  858. ut_a(trx_doublewrite_must_reset_space_ids);
  859. ut_a(!trx_sys_multiple_tablespace_format);
  860. return(0);
  861. }
  862. /************************************************************************
  863. Returns the space taken by a stored non-clustered index entry if converted to
  864. an index record. */
  865. static
  866. ulint
  867. ibuf_rec_get_volume(
  868. /*================*/
  869. /* out: size of index record in bytes + an upper
  870. limit of the space taken in the page directory */
  871. rec_t* ibuf_rec)/* in: ibuf record */
  872. {
  873. dtype_t dtype;
  874. ibool new_format = FALSE;
  875. ulint data_size = 0;
  876. ulint n_fields;
  877. byte* types;
  878. byte* data;
  879. ulint len;
  880. ulint i;
  881. ut_ad(ibuf_inside());
  882. ut_ad(rec_get_n_fields(ibuf_rec) > 2);
  883. data = rec_get_nth_field(ibuf_rec, 1, &len);
  884. if (len > 1) {
  885.         /* < 4.1.x format record */
  886. ut_a(trx_doublewrite_must_reset_space_ids);
  887. ut_a(!trx_sys_multiple_tablespace_format);
  888. n_fields = rec_get_n_fields(ibuf_rec) - 2;
  889. types = rec_get_nth_field(ibuf_rec, 1, &len);
  890. ut_ad(len == n_fields * DATA_ORDER_NULL_TYPE_BUF_SIZE);
  891. } else {
  892.         /* >= 4.1.x format record */
  893. ut_a(trx_sys_multiple_tablespace_format);
  894. new_format = TRUE;
  895. n_fields = rec_get_n_fields(ibuf_rec) - 4;
  896. types = rec_get_nth_field(ibuf_rec, 3, &len);
  897. }
  898. for (i = 0; i < n_fields; i++) {
  899. if (new_format) {
  900.         data = rec_get_nth_field(ibuf_rec, i + 4, &len);
  901. dtype_new_read_for_order_and_null_size(&dtype,
  902.        types + i * DATA_NEW_ORDER_NULL_TYPE_BUF_SIZE);
  903. } else {
  904.         data = rec_get_nth_field(ibuf_rec, i + 2, &len);
  905. dtype_read_for_order_and_null_size(&dtype,
  906.    types + i * DATA_ORDER_NULL_TYPE_BUF_SIZE);
  907. }
  908. if (len == UNIV_SQL_NULL) {
  909. data_size += dtype_get_sql_null_size(&dtype);
  910. } else {
  911. data_size += len;
  912. }
  913. }
  914. return(data_size + rec_get_converted_extra_size(data_size, n_fields)
  915. + page_dir_calc_reserved_space(1));
  916. }
  917. /*************************************************************************
  918. Builds the tuple to insert to an ibuf tree when we have an entry for a
  919. non-clustered index. */
  920. static
  921. dtuple_t*
  922. ibuf_entry_build(
  923. /*=============*/
  924. /* out, own: entry to insert into an ibuf
  925. index tree; NOTE that the original entry
  926. must be kept because we copy pointers to its
  927. fields */
  928. dtuple_t* entry, /* in: entry for a non-clustered index */
  929. ulint space, /* in: space id */
  930. ulint page_no,/* in: index page number where entry should
  931. be inserted */
  932. mem_heap_t* heap) /* in: heap into which to build */
  933. {
  934. dtuple_t* tuple;
  935. dfield_t* field;
  936. dfield_t* entry_field;
  937. ulint n_fields;
  938. byte* buf;
  939. byte* buf2;
  940. ulint i;
  941. /* Starting from 4.1.x, we have to build a tuple whose
  942. (1) first field is the space id,
  943. (2) the second field a single marker byte to tell that this
  944. is a new format record,
  945. (3) the third contains the page number, and
  946. (4) the fourth contains the relevent type information of each data
  947. field,
  948. (5) and the rest of the fields are copied from entry. All fields
  949. in the tuple are ordered like the type binary in our insert buffer
  950. tree. */
  951. n_fields = dtuple_get_n_fields(entry);
  952. tuple = dtuple_create(heap, n_fields + 4);
  953. /* Store the space id in tuple */
  954. field = dtuple_get_nth_field(tuple, 0);
  955. buf = mem_heap_alloc(heap, 4);
  956. mach_write_to_4(buf, space);
  957. dfield_set_data(field, buf, 4);
  958. /* Store the marker byte field in tuple */
  959. field = dtuple_get_nth_field(tuple, 1);
  960. buf = mem_heap_alloc(heap, 1);
  961. /* We set the marker byte zero */
  962. mach_write_to_1(buf, 0);
  963. dfield_set_data(field, buf, 1);
  964. /* Store the page number in tuple */
  965. field = dtuple_get_nth_field(tuple, 2);
  966. buf = mem_heap_alloc(heap, 4);
  967. mach_write_to_4(buf, page_no);
  968. dfield_set_data(field, buf, 4);
  969. /* Store the type info in buf2, and add the fields from entry to
  970. tuple */
  971. buf2 = mem_heap_alloc(heap, n_fields
  972. * DATA_NEW_ORDER_NULL_TYPE_BUF_SIZE);
  973. for (i = 0; i < n_fields; i++) {
  974. /* We add 4 below because we have the 4 extra fields at the
  975. start of an ibuf record */
  976. field = dtuple_get_nth_field(tuple, i + 4);
  977. entry_field = dtuple_get_nth_field(entry, i);
  978. dfield_copy(field, entry_field);
  979. dtype_new_store_for_order_and_null_size(
  980. buf2 + i * DATA_NEW_ORDER_NULL_TYPE_BUF_SIZE,
  981. dfield_get_type(entry_field));
  982. }
  983. /* Store the type info in buf2 to field 3 of tuple */
  984. field = dtuple_get_nth_field(tuple, 3);
  985. dfield_set_data(field, buf2, n_fields
  986. * DATA_NEW_ORDER_NULL_TYPE_BUF_SIZE);
  987. /* Set all the types in the new tuple binary */
  988. dtuple_set_types_binary(tuple, n_fields + 4);
  989. return(tuple);
  990. }
  991. /*************************************************************************
  992. Builds the entry to insert into a non-clustered index when we have the
  993. corresponding record in an ibuf index. */
  994. static
  995. dtuple_t*
  996. ibuf_build_entry_from_ibuf_rec(
  997. /*===========================*/
  998. /* out, own: entry to insert to
  999. a non-clustered index; NOTE that
  1000. as we copy pointers to fields in
  1001. ibuf_rec, the caller must hold a
  1002. latch to the ibuf_rec page as long
  1003. as the entry is used! */
  1004. rec_t* ibuf_rec, /* in: record in an insert buffer */
  1005. mem_heap_t* heap) /* in: heap where built */
  1006. {
  1007. dtuple_t* tuple;
  1008. dfield_t* field;
  1009. ulint n_fields;
  1010. byte* types;
  1011. byte* data;
  1012. ulint len;
  1013. ulint i;
  1014. data = rec_get_nth_field(ibuf_rec, 1, &len);
  1015. if (len > 1) {
  1016.         /* This a < 4.1.x format record */
  1017. ut_a(trx_doublewrite_must_reset_space_ids);
  1018. ut_a(!trx_sys_multiple_tablespace_format);
  1019. n_fields = rec_get_n_fields(ibuf_rec) - 2;
  1020. tuple = dtuple_create(heap, n_fields);
  1021. types = rec_get_nth_field(ibuf_rec, 1, &len);
  1022. ut_a(len == n_fields * DATA_ORDER_NULL_TYPE_BUF_SIZE);
  1023. for (i = 0; i < n_fields; i++) {
  1024.         field = dtuple_get_nth_field(tuple, i);
  1025. data = rec_get_nth_field(ibuf_rec, i + 2, &len);
  1026. dfield_set_data(field, data, len);
  1027. dtype_read_for_order_and_null_size(
  1028.    dfield_get_type(field),
  1029.    types + i * DATA_ORDER_NULL_TYPE_BUF_SIZE);
  1030. }
  1031. return(tuple);
  1032. }
  1033. /* This a >= 4.1.x format record */
  1034. ut_a(trx_sys_multiple_tablespace_format);
  1035. ut_a(rec_get_n_fields(ibuf_rec) > 4);
  1036. n_fields = rec_get_n_fields(ibuf_rec) - 4;
  1037. tuple = dtuple_create(heap, n_fields);
  1038. types = rec_get_nth_field(ibuf_rec, 3, &len);
  1039. ut_a(len == n_fields * DATA_NEW_ORDER_NULL_TYPE_BUF_SIZE);
  1040. for (i = 0; i < n_fields; i++) {
  1041.         field = dtuple_get_nth_field(tuple, i);
  1042. data = rec_get_nth_field(ibuf_rec, i + 4, &len);
  1043. dfield_set_data(field, data, len);
  1044. dtype_new_read_for_order_and_null_size(
  1045. dfield_get_type(field),
  1046. types + i * DATA_NEW_ORDER_NULL_TYPE_BUF_SIZE);
  1047. }
  1048. return(tuple);
  1049. }
  1050. /*************************************************************************
  1051. Builds a search tuple used to search buffered inserts for an index page.
  1052. This is for < 4.1.x format records */
  1053. static
  1054. dtuple_t*
  1055. ibuf_search_tuple_build(
  1056. /*====================*/
  1057. /* out, own: search tuple */
  1058. ulint space, /* in: space id */
  1059. ulint page_no,/* in: index page number */
  1060. mem_heap_t* heap) /* in: heap into which to build */
  1061. {
  1062. dtuple_t* tuple;
  1063. dfield_t* field;
  1064. byte* buf;
  1065. ut_a(space == 0);
  1066. ut_a(trx_doublewrite_must_reset_space_ids);
  1067. ut_a(!trx_sys_multiple_tablespace_format);
  1068. tuple = dtuple_create(heap, 1);
  1069. /* Store the page number in tuple */
  1070. field = dtuple_get_nth_field(tuple, 0);
  1071. buf = mem_heap_alloc(heap, 4);
  1072. mach_write_to_4(buf, page_no);
  1073. dfield_set_data(field, buf, 4);
  1074. dtuple_set_types_binary(tuple, 1);
  1075. return(tuple);
  1076. }
  1077. /*************************************************************************
  1078. Builds a search tuple used to search buffered inserts for an index page.
  1079. This is for >= 4.1.x format records. */
  1080. static
  1081. dtuple_t*
  1082. ibuf_new_search_tuple_build(
  1083. /*========================*/
  1084. /* out, own: search tuple */
  1085. ulint space, /* in: space id */
  1086. ulint page_no,/* in: index page number */
  1087. mem_heap_t* heap) /* in: heap into which to build */
  1088. {
  1089. dtuple_t* tuple;
  1090. dfield_t* field;
  1091. byte* buf;
  1092. ut_a(trx_sys_multiple_tablespace_format);
  1093. tuple = dtuple_create(heap, 3);
  1094. /* Store the space id in tuple */
  1095. field = dtuple_get_nth_field(tuple, 0);
  1096. buf = mem_heap_alloc(heap, 4);
  1097. mach_write_to_4(buf, space);
  1098. dfield_set_data(field, buf, 4);
  1099. /* Store the new format record marker byte */
  1100. field = dtuple_get_nth_field(tuple, 1);
  1101. buf = mem_heap_alloc(heap, 1);
  1102. mach_write_to_1(buf, 0);
  1103. dfield_set_data(field, buf, 1);
  1104. /* Store the page number in tuple */
  1105. field = dtuple_get_nth_field(tuple, 2);
  1106. buf = mem_heap_alloc(heap, 4);
  1107. mach_write_to_4(buf, page_no);
  1108. dfield_set_data(field, buf, 4);
  1109. dtuple_set_types_binary(tuple, 3);
  1110. return(tuple);
  1111. }
  1112. /*************************************************************************
  1113. Checks if there are enough pages in the free list of the ibuf tree that we
  1114. dare to start a pessimistic insert to the insert buffer. */
  1115. UNIV_INLINE
  1116. ibool
  1117. ibuf_data_enough_free_for_insert(
  1118. /*=============================*/
  1119. /* out: TRUE if enough free pages in list */
  1120. ibuf_data_t* data) /* in: ibuf data for the space */
  1121. {
  1122. #ifdef UNIV_SYNC_DEBUG
  1123. ut_ad(mutex_own(&ibuf_mutex));
  1124. #endif /* UNIV_SYNC_DEBUG */
  1125. /* We want a big margin of free pages, because a B-tree can sometimes
  1126. grow in size also if records are deleted from it, as the node pointers
  1127. can change, and we must make sure that we are able to delete the
  1128. inserts buffered for pages that we read to the buffer pool, without
  1129. any risk of running out of free space in the insert buffer. */
  1130. if (data->free_list_len >= data->size / 2 + 3 * data->height) {
  1131. return(TRUE);
  1132. }
  1133. return(FALSE);
  1134. }
  1135. /*************************************************************************
  1136. Checks if there are enough pages in the free list of the ibuf tree that we
  1137. should remove them and free to the file space management. */
  1138. UNIV_INLINE
  1139. ibool
  1140. ibuf_data_too_much_free(
  1141. /*====================*/
  1142. /* out: TRUE if enough free pages in list */
  1143. ibuf_data_t* data) /* in: ibuf data for the space */
  1144. {
  1145. #ifdef UNIV_SYNC_DEBUG
  1146. ut_ad(mutex_own(&ibuf_mutex));
  1147. #endif /* UNIV_SYNC_DEBUG */
  1148. if (data->free_list_len >= 3 + data->size / 2 + 3 * data->height) {
  1149. return(TRUE);
  1150. }
  1151. return(FALSE);
  1152. }
  1153. /*************************************************************************
  1154. Allocates a new page from the ibuf file segment and adds it to the free
  1155. list. */
  1156. static
  1157. ulint
  1158. ibuf_add_free_page(
  1159. /*===============*/
  1160. /* out: DB_SUCCESS, or DB_STRONG_FAIL
  1161. if no space left */
  1162. ulint space, /* in: space id */
  1163. ibuf_data_t* ibuf_data) /* in: ibuf data for the space */
  1164. {
  1165. mtr_t mtr;
  1166. page_t* header_page;
  1167. ulint page_no;
  1168. page_t* page;
  1169. page_t* root;
  1170. page_t* bitmap_page;
  1171. ut_a(space == 0);
  1172. mtr_start(&mtr);
  1173. /* Acquire the fsp latch before the ibuf header, obeying the latching
  1174. order */
  1175. mtr_x_lock(fil_space_get_latch(space), &mtr);
  1176. header_page = ibuf_header_page_get(space, &mtr);
  1177. /* Allocate a new page: NOTE that if the page has been a part of a
  1178. non-clustered index which has subsequently been dropped, then the
  1179. page may have buffered inserts in the insert buffer, and these
  1180. should be deleted from there. These get deleted when the page
  1181. allocation creates the page in buffer. Thus the call below may end
  1182. up calling the insert buffer routines and, as we yet have no latches
  1183. to insert buffer tree pages, these routines can run without a risk
  1184. of a deadlock. This is the reason why we created a special ibuf
  1185. header page apart from the ibuf tree. */
  1186. page_no = fseg_alloc_free_page(header_page + IBUF_HEADER
  1187. + IBUF_TREE_SEG_HEADER, 0, FSP_UP,
  1188. &mtr);
  1189. if (page_no == FIL_NULL) {
  1190. mtr_commit(&mtr);
  1191. return(DB_STRONG_FAIL);
  1192. }
  1193. page = buf_page_get(space, page_no, RW_X_LATCH, &mtr);
  1194. #ifdef UNIV_SYNC_DEBUG
  1195. buf_page_dbg_add_level(page, SYNC_TREE_NODE_NEW);
  1196. #endif /* UNIV_SYNC_DEBUG */
  1197. ibuf_enter();
  1198. mutex_enter(&ibuf_mutex);
  1199. root = ibuf_tree_root_get(ibuf_data, space, &mtr);
  1200. /* Add the page to the free list and update the ibuf size data */
  1201. flst_add_last(root + PAGE_HEADER + PAGE_BTR_IBUF_FREE_LIST,
  1202.       page + PAGE_HEADER + PAGE_BTR_IBUF_FREE_LIST_NODE, &mtr);
  1203. fil_page_set_type(page, FIL_PAGE_IBUF_FREE_LIST);
  1204. ibuf_data->seg_size++;
  1205. ibuf_data->free_list_len++;
  1206. /* Set the bit indicating that this page is now an ibuf tree page
  1207. (level 2 page) */
  1208. bitmap_page = ibuf_bitmap_get_map_page(space, page_no, &mtr);
  1209. ibuf_bitmap_page_set_bits(bitmap_page, page_no, IBUF_BITMAP_IBUF,
  1210. TRUE, &mtr);
  1211. mtr_commit(&mtr);
  1212. mutex_exit(&ibuf_mutex);
  1213. ibuf_exit();
  1214. return(DB_SUCCESS);
  1215. }
  1216. /*************************************************************************
  1217. Removes a page from the free list and frees it to the fsp system. */
  1218. static
  1219. void
  1220. ibuf_remove_free_page(
  1221. /*==================*/
  1222. ulint space, /* in: space id */
  1223. ibuf_data_t* ibuf_data) /* in: ibuf data for the space */
  1224. {
  1225. mtr_t mtr;
  1226. mtr_t mtr2;
  1227. page_t* header_page;
  1228. ulint page_no;
  1229. page_t* page;
  1230. page_t* root;
  1231. page_t* bitmap_page;
  1232. ut_a(space == 0);
  1233. mtr_start(&mtr);
  1234. /* Acquire the fsp latch before the ibuf header, obeying the latching
  1235. order */
  1236. mtr_x_lock(fil_space_get_latch(space), &mtr);
  1237. header_page = ibuf_header_page_get(space, &mtr);
  1238. /* Prevent pessimistic inserts to insert buffer trees for a while */
  1239. mutex_enter(&ibuf_pessimistic_insert_mutex);
  1240. ibuf_enter();
  1241. mutex_enter(&ibuf_mutex);
  1242. if (!ibuf_data_too_much_free(ibuf_data)) {
  1243. mutex_exit(&ibuf_mutex);
  1244. ibuf_exit();
  1245. mutex_exit(&ibuf_pessimistic_insert_mutex);
  1246. mtr_commit(&mtr);
  1247. return;
  1248. }
  1249. mtr_start(&mtr2);
  1250. root = ibuf_tree_root_get(ibuf_data, space, &mtr2);
  1251. page_no = flst_get_last(root + PAGE_HEADER + PAGE_BTR_IBUF_FREE_LIST,
  1252. &mtr2)
  1253.   .page;
  1254. /* NOTE that we must release the latch on the ibuf tree root
  1255. because in fseg_free_page we access level 1 pages, and the root
  1256. is a level 2 page. */
  1257.   
  1258. mtr_commit(&mtr2);
  1259. mutex_exit(&ibuf_mutex);
  1260. ibuf_exit();
  1261. /* Since pessimistic inserts were prevented, we know that the
  1262. page is still in the free list. NOTE that also deletes may take
  1263. pages from the free list, but they take them from the start, and
  1264. the free list was so long that they cannot have taken the last
  1265. page from it. */
  1266. fseg_free_page(header_page + IBUF_HEADER + IBUF_TREE_SEG_HEADER,
  1267. space, page_no, &mtr);
  1268. #ifdef UNIV_DEBUG_FILE_ACCESSES
  1269. buf_page_reset_file_page_was_freed(space, page_no);
  1270. #endif
  1271. ibuf_enter();
  1272. mutex_enter(&ibuf_mutex);
  1273. root = ibuf_tree_root_get(ibuf_data, space, &mtr);
  1274. ut_ad(page_no == flst_get_last(root + PAGE_HEADER
  1275. + PAGE_BTR_IBUF_FREE_LIST, &mtr)
  1276.     .page);
  1277. page = buf_page_get(space, page_no, RW_X_LATCH, &mtr);
  1278. #ifdef UNIV_SYNC_DEBUG
  1279. buf_page_dbg_add_level(page, SYNC_TREE_NODE);
  1280. #endif /* UNIV_SYNC_DEBUG */
  1281. /* Remove the page from the free list and update the ibuf size data */
  1282. flst_remove(root + PAGE_HEADER + PAGE_BTR_IBUF_FREE_LIST,
  1283.     page + PAGE_HEADER + PAGE_BTR_IBUF_FREE_LIST_NODE, &mtr);
  1284. ibuf_data->seg_size--;
  1285. ibuf_data->free_list_len--;
  1286.       
  1287. mutex_exit(&ibuf_pessimistic_insert_mutex);
  1288. /* Set the bit indicating that this page is no more an ibuf tree page
  1289. (level 2 page) */
  1290. bitmap_page = ibuf_bitmap_get_map_page(space, page_no, &mtr);
  1291. ibuf_bitmap_page_set_bits(bitmap_page, page_no, IBUF_BITMAP_IBUF,
  1292. FALSE, &mtr);
  1293. #ifdef UNIV_DEBUG_FILE_ACCESSES
  1294. buf_page_set_file_page_was_freed(space, page_no);
  1295. #endif
  1296. mtr_commit(&mtr);
  1297. mutex_exit(&ibuf_mutex);
  1298. ibuf_exit();
  1299. }
  1300. /***************************************************************************
  1301. Frees excess pages from the ibuf free list. This function is called when an OS
  1302. thread calls fsp services to allocate a new file segment, or a new page to a
  1303. file segment, and the thread did not own the fsp latch before this call. */ 
  1304. void
  1305. ibuf_free_excess_pages(
  1306. /*===================*/
  1307. ulint space) /* in: space id */
  1308. {
  1309. ibuf_data_t* ibuf_data;
  1310. ulint i;
  1311. if (space != 0) {
  1312.         fprintf(stderr,
  1313. "InnoDB: Error: calling ibuf_free_excess_pages for space %lun", (ulong) space);
  1314. return;
  1315. }
  1316. #ifdef UNIV_SYNC_DEBUG
  1317. ut_ad(rw_lock_own(fil_space_get_latch(space), RW_LOCK_EX));
  1318. #endif /* UNIV_SYNC_DEBUG */
  1319. ut_ad(rw_lock_get_x_lock_count(fil_space_get_latch(space)) == 1);
  1320. ut_ad(!ibuf_inside());
  1321. /* NOTE: We require that the thread did not own the latch before,
  1322. because then we know that we can obey the correct latching order
  1323. for ibuf latches */
  1324. ibuf_data = fil_space_get_ibuf_data(space);
  1325. if (ibuf_data == NULL) {
  1326. /* Not yet initialized */
  1327. #ifdef UNIV_DEBUG
  1328. /*fprintf(stderr,
  1329. "Ibuf for space %lu not yet initializedn", space); */
  1330. #endif
  1331. return;
  1332. }
  1333. /* Free at most a few pages at a time, so that we do not delay the
  1334. requested service too much */
  1335. for (i = 0; i < 4; i++) {
  1336. mutex_enter(&ibuf_mutex);
  1337. if (!ibuf_data_too_much_free(ibuf_data)) {
  1338. mutex_exit(&ibuf_mutex);
  1339. return;
  1340. }
  1341. mutex_exit(&ibuf_mutex);
  1342. ibuf_remove_free_page(space, ibuf_data);
  1343. }
  1344. }
  1345. /*************************************************************************
  1346. Reads page numbers from a leaf in an ibuf tree. */
  1347. static
  1348. ulint
  1349. ibuf_get_merge_page_nos(
  1350. /*====================*/
  1351. /* out: a lower limit for the combined volume
  1352. of records which will be merged */
  1353. ibool contract,/* in: TRUE if this function is called to
  1354. contract the tree, FALSE if this is called
  1355. when a single page becomes full and we look
  1356. if it pays to read also nearby pages */
  1357. rec_t* first_rec,/* in: record from which we read up and down
  1358. in the chain of records */
  1359. ulint* space_ids,/* in/out: space id's of the pages */
  1360. ib_longlong* space_versions,/* in/out: tablespace version
  1361. timestamps; used to prevent reading in old
  1362. pages after DISCARD + IMPORT tablespace */
  1363. ulint* page_nos,/* in/out: buffer for at least
  1364. IBUF_MAX_N_PAGES_MERGED many page numbers;
  1365. the page numbers are in an ascending order */
  1366. ulint* n_stored)/* out: number of page numbers stored to
  1367. page_nos in this function */
  1368. {
  1369. ulint prev_page_no;
  1370. ulint prev_space_id;
  1371. ulint first_page_no;
  1372. ulint first_space_id;
  1373. ulint rec_page_no;
  1374. ulint rec_space_id;
  1375. rec_t* rec;
  1376. ulint sum_volumes;
  1377. ulint volume_for_page;
  1378. ulint rec_volume;
  1379. ulint limit;
  1380. page_t* page;
  1381. ulint n_pages;
  1382. *n_stored = 0;
  1383. limit = ut_min(IBUF_MAX_N_PAGES_MERGED, buf_pool->curr_size / 4);
  1384. page = buf_frame_align(first_rec);
  1385. if (first_rec == page_get_supremum_rec(page)) {
  1386. first_rec = page_rec_get_prev(first_rec);
  1387. }
  1388. if (first_rec == page_get_infimum_rec(page)) {
  1389. first_rec = page_rec_get_next(first_rec);
  1390. }
  1391. if (first_rec == page_get_supremum_rec(page)) {
  1392. return(0);
  1393. }
  1394. rec = first_rec;
  1395. first_page_no = ibuf_rec_get_page_no(first_rec);
  1396. first_space_id = ibuf_rec_get_space(first_rec);
  1397. n_pages = 0;
  1398. prev_page_no = 0;
  1399. prev_space_id = 0;
  1400. /* Go backwards from the first_rec until we reach the border of the
  1401. 'merge area', or the page start or the limit of storeable pages is
  1402. reached */
  1403. while ((rec != page_get_infimum_rec(page)) && (n_pages < limit)) {
  1404. rec_page_no = ibuf_rec_get_page_no(rec);
  1405. rec_space_id = ibuf_rec_get_space(rec);
  1406. if (rec_space_id != first_space_id
  1407.     || rec_page_no / IBUF_MERGE_AREA
  1408.        != first_page_no / IBUF_MERGE_AREA) {
  1409.      break;
  1410. }
  1411. if (rec_page_no != prev_page_no
  1412.     || rec_space_id != prev_space_id) {
  1413. n_pages++;
  1414. }
  1415. prev_page_no = rec_page_no;
  1416. prev_space_id = rec_space_id;
  1417. rec = page_rec_get_prev(rec);
  1418. }
  1419. rec = page_rec_get_next(rec);
  1420. /* At the loop start there is no prev page; we mark this with a pair
  1421. of space id, page no (0, 0) for which there can never be entries in
  1422. the insert buffer */
  1423. prev_page_no = 0;
  1424. prev_space_id = 0;
  1425. sum_volumes = 0;
  1426. volume_for_page = 0;
  1427. while (*n_stored < limit) {
  1428. if (rec == page_get_supremum_rec(page)) {
  1429. /* When no more records available, mark this with
  1430. another 'impossible' pair of space id, page no */
  1431. rec_page_no = 1;
  1432. rec_space_id = 0;
  1433. } else {
  1434. rec_page_no = ibuf_rec_get_page_no(rec);
  1435. rec_space_id = ibuf_rec_get_space(rec);
  1436. ut_ad(rec_page_no > IBUF_TREE_ROOT_PAGE_NO);
  1437. }
  1438. #ifdef UNIV_IBUF_DEBUG
  1439. ut_a(*n_stored < IBUF_MAX_N_PAGES_MERGED);
  1440. #endif
  1441. if ((rec_space_id != prev_space_id
  1442.      || rec_page_no != prev_page_no)
  1443.                     && (prev_space_id != 0 || prev_page_no != 0)) {
  1444. if ((prev_page_no == first_page_no
  1445.      && prev_space_id == first_space_id)
  1446.     || contract
  1447.     || (volume_for_page >
  1448.      ((IBUF_MERGE_THRESHOLD - 1)
  1449.       * 4 * UNIV_PAGE_SIZE
  1450.     / IBUF_PAGE_SIZE_PER_FREE_SPACE)
  1451.      / IBUF_MERGE_THRESHOLD)) {
  1452.         space_ids[*n_stored] = prev_space_id;
  1453. space_versions[*n_stored]
  1454. = fil_space_get_version(
  1455. prev_space_id);
  1456. page_nos[*n_stored] = prev_page_no;
  1457. (*n_stored)++;
  1458. sum_volumes += volume_for_page;
  1459. }
  1460. if (rec_space_id != first_space_id
  1461.     || rec_page_no / IBUF_MERGE_AREA
  1462.        != first_page_no / IBUF_MERGE_AREA) {
  1463.      break;
  1464. }
  1465. volume_for_page = 0;
  1466. }
  1467. if (rec_page_no == 1 && rec_space_id == 0) {
  1468. /* Supremum record */
  1469. break;
  1470. }
  1471. rec_volume = ibuf_rec_get_volume(rec);
  1472. volume_for_page += rec_volume;
  1473. prev_page_no = rec_page_no;
  1474. prev_space_id = rec_space_id;
  1475. rec = page_rec_get_next(rec);
  1476. }
  1477. #ifdef UNIV_IBUF_DEBUG
  1478. ut_a(*n_stored <= IBUF_MAX_N_PAGES_MERGED);
  1479. #endif
  1480. /* fprintf(stderr, "Ibuf merge batch %lu pages %lu volumen", *n_stored,
  1481. sum_volumes); */
  1482. return(sum_volumes);
  1483. }
  1484. /*************************************************************************
  1485. Contracts insert buffer trees by reading pages to the buffer pool. */
  1486. static
  1487. ulint
  1488. ibuf_contract_ext(
  1489. /*==============*/
  1490. /* out: a lower limit for the combined size in bytes
  1491. of entries which will be merged from ibuf trees to the
  1492. pages read, 0 if ibuf is empty */
  1493. ulint* n_pages,/* out: number of pages to which merged */
  1494. ibool sync) /* in: TRUE if the caller wants to wait for the
  1495. issued read with the highest tablespace address
  1496. to complete */
  1497. {
  1498. ulint rnd_pos;
  1499. ibuf_data_t* data;
  1500. btr_pcur_t pcur;
  1501. ulint space;
  1502. ibool all_trees_empty;
  1503. ulint page_nos[IBUF_MAX_N_PAGES_MERGED];
  1504. ulint space_ids[IBUF_MAX_N_PAGES_MERGED];
  1505. ib_longlong space_versions[IBUF_MAX_N_PAGES_MERGED];
  1506. ulint n_stored;
  1507. ulint sum_sizes;
  1508. mtr_t mtr;
  1509. *n_pages = 0;
  1510. loop:
  1511. ut_ad(!ibuf_inside());
  1512. mutex_enter(&ibuf_mutex);
  1513. ut_ad(ibuf_validate_low());
  1514. /* Choose an ibuf tree at random (though there really is only one tree
  1515. in the current implementation) */
  1516. ibuf_rnd += 865558671;
  1517. rnd_pos = ibuf_rnd % ibuf->size;
  1518. all_trees_empty = TRUE;
  1519. data = UT_LIST_GET_FIRST(ibuf->data_list);
  1520. for (;;) {
  1521. if (!data->empty) {
  1522. all_trees_empty = FALSE;
  1523. if (rnd_pos < data->size) {
  1524. break;
  1525. }
  1526. rnd_pos -= data->size;
  1527. }
  1528. data = UT_LIST_GET_NEXT(data_list, data);
  1529. if (data == NULL) {
  1530. if (all_trees_empty) {
  1531. mutex_exit(&ibuf_mutex);
  1532. return(0);
  1533. }
  1534. data = UT_LIST_GET_FIRST(ibuf->data_list);
  1535. }
  1536. }
  1537. ut_ad(data);
  1538. space = data->index->space;
  1539. ut_a(space == 0); /* We currently only have an ibuf tree in
  1540. space 0 */
  1541. mtr_start(&mtr);
  1542. ibuf_enter();
  1543. /* Open a cursor to a randomly chosen leaf of the tree, at a random
  1544. position within the leaf */
  1545. btr_pcur_open_at_rnd_pos(data->index, BTR_SEARCH_LEAF, &pcur, &mtr);
  1546. if (0 == page_get_n_recs(btr_pcur_get_page(&pcur))) {
  1547. /* This tree is empty */
  1548.     
  1549.      data->empty = TRUE;
  1550.      ibuf_exit();
  1551.      mtr_commit(&mtr);
  1552.      btr_pcur_close(&pcur);
  1553.      mutex_exit(&ibuf_mutex);
  1554.      goto loop;
  1555. }
  1556. mutex_exit(&ibuf_mutex);
  1557. sum_sizes = ibuf_get_merge_page_nos(TRUE, btr_pcur_get_rec(&pcur),
  1558. space_ids, space_versions, page_nos,
  1559. &n_stored);
  1560. #ifdef UNIV_IBUF_DEBUG
  1561. /* fprintf(stderr, "Ibuf contract sync %lu pages %lu volume %lun",
  1562. sync, n_stored, sum_sizes); */
  1563. #endif
  1564. ibuf_exit();
  1565. mtr_commit(&mtr);
  1566. btr_pcur_close(&pcur);
  1567. buf_read_ibuf_merge_pages(sync, space_ids, space_versions, page_nos,
  1568.    n_stored);
  1569. *n_pages = n_stored;
  1570. return(sum_sizes + 1);
  1571. }
  1572. /*************************************************************************
  1573. Contracts insert buffer trees by reading pages to the buffer pool. */
  1574. ulint
  1575. ibuf_contract(
  1576. /*==========*/
  1577. /* out: a lower limit for the combined size in bytes
  1578. of entries which will be merged from ibuf trees to the
  1579. pages read, 0 if ibuf is empty */
  1580. ibool sync) /* in: TRUE if the caller wants to wait for the
  1581. issued read with the highest tablespace address
  1582. to complete */
  1583. {
  1584. ulint n_pages;
  1585. return(ibuf_contract_ext(&n_pages, sync));
  1586. }
  1587. /*************************************************************************
  1588. Contracts insert buffer trees by reading pages to the buffer pool. */
  1589. ulint
  1590. ibuf_contract_for_n_pages(
  1591. /*======================*/
  1592. /* out: a lower limit for the combined size in bytes
  1593. of entries which will be merged from ibuf trees to the
  1594. pages read, 0 if ibuf is empty */
  1595. ibool sync, /* in: TRUE if the caller wants to wait for the
  1596. issued read with the highest tablespace address
  1597. to complete */
  1598. ulint n_pages)/* in: try to read at least this many pages to
  1599. the buffer pool and merge the ibuf contents to
  1600. them */
  1601. {
  1602. ulint sum_bytes = 0;
  1603. ulint sum_pages  = 0;
  1604. ulint n_bytes;
  1605. ulint n_pag2;
  1606. while (sum_pages < n_pages) {
  1607. n_bytes = ibuf_contract_ext(&n_pag2, sync);
  1608. if (n_bytes == 0) {
  1609. return(sum_bytes);
  1610. }
  1611. sum_bytes += n_bytes;
  1612. sum_pages += n_pag2;
  1613. }
  1614. return(sum_bytes);
  1615. }
  1616. /*************************************************************************
  1617. Contract insert buffer trees after insert if they are too big. */
  1618. UNIV_INLINE
  1619. void
  1620. ibuf_contract_after_insert(
  1621. /*=======================*/
  1622. ulint entry_size) /* in: size of a record which was inserted
  1623. into an ibuf tree */
  1624. {
  1625. ibool sync;
  1626. ulint sum_sizes;
  1627. ulint size;
  1628. mutex_enter(&ibuf_mutex);
  1629. if (ibuf->size < ibuf->max_size + IBUF_CONTRACT_ON_INSERT_NON_SYNC) {
  1630. mutex_exit(&ibuf_mutex);
  1631. return;
  1632. }
  1633. sync = FALSE;
  1634. if (ibuf->size >= ibuf->max_size + IBUF_CONTRACT_ON_INSERT_SYNC) {
  1635. sync = TRUE;
  1636. }
  1637. mutex_exit(&ibuf_mutex);
  1638. /* Contract at least entry_size many bytes */
  1639. sum_sizes = 0;
  1640. size = 1;
  1641. while ((size > 0) && (sum_sizes < entry_size)) {
  1642. size = ibuf_contract(sync);
  1643. sum_sizes += size;
  1644. }
  1645. }
  1646. /*************************************************************************
  1647. Gets an upper limit for the combined size of entries buffered in the insert
  1648. buffer for a given page. */
  1649. ulint
  1650. ibuf_get_volume_buffered(
  1651. /*=====================*/
  1652. /* out: upper limit for the volume of
  1653. buffered inserts for the index page, in bytes;
  1654. we may also return UNIV_PAGE_SIZE, if the
  1655. entries for the index page span on several
  1656. pages in the insert buffer */
  1657. btr_pcur_t* pcur, /* in: pcur positioned at a place in an
  1658. insert buffer tree where we would insert an
  1659. entry for the index page whose number is
  1660. page_no, latch mode has to be BTR_MODIFY_PREV
  1661. or BTR_MODIFY_TREE */
  1662. ulint space, /* in: space id */
  1663. ulint page_no,/* in: page number of an index page */
  1664. mtr_t* mtr) /* in: mtr */
  1665. {
  1666. ulint volume;
  1667. rec_t* rec;
  1668. page_t* page;
  1669. ulint prev_page_no;
  1670. page_t* prev_page;
  1671. ulint next_page_no;
  1672. page_t* next_page;
  1673. ut_a(trx_sys_multiple_tablespace_format);
  1674. ut_ad((pcur->latch_mode == BTR_MODIFY_PREV)
  1675. || (pcur->latch_mode == BTR_MODIFY_TREE));
  1676. /* Count the volume of records earlier in the alphabetical order than
  1677. pcur */
  1678. volume = 0;
  1679. rec = btr_pcur_get_rec(pcur);
  1680. page = buf_frame_align(rec);
  1681. if (rec == page_get_supremum_rec(page)) {
  1682. rec = page_rec_get_prev(rec);
  1683. }
  1684. for (;;) {
  1685. if (rec == page_get_infimum_rec(page)) {
  1686. break;
  1687. }
  1688. if (page_no != ibuf_rec_get_page_no(rec)
  1689.     || space != ibuf_rec_get_space(rec)) {
  1690. goto count_later;
  1691. }
  1692. volume += ibuf_rec_get_volume(rec);
  1693. rec = page_rec_get_prev(rec);
  1694. }
  1695. /* Look at the previous page */
  1696. prev_page_no = btr_page_get_prev(page, mtr);
  1697. if (prev_page_no == FIL_NULL) {
  1698. goto count_later;
  1699. }
  1700. prev_page = buf_page_get(0, prev_page_no, RW_X_LATCH, mtr);
  1701. #ifdef UNIV_SYNC_DEBUG
  1702. buf_page_dbg_add_level(prev_page, SYNC_TREE_NODE);
  1703. #endif /* UNIV_SYNC_DEBUG */
  1704. rec = page_get_supremum_rec(prev_page);
  1705. rec = page_rec_get_prev(rec);
  1706. for (;;) {
  1707. if (rec == page_get_infimum_rec(prev_page)) {
  1708. /* We cannot go to yet a previous page, because we
  1709. do not have the x-latch on it, and cannot acquire one
  1710. because of the latching order: we have to give up */
  1711. return(UNIV_PAGE_SIZE);
  1712. }
  1713. if (page_no != ibuf_rec_get_page_no(rec)
  1714.     || space != ibuf_rec_get_space(rec)) {
  1715. goto count_later;
  1716. }
  1717. volume += ibuf_rec_get_volume(rec);
  1718. rec = page_rec_get_prev(rec);
  1719. }
  1720. count_later:
  1721. rec = btr_pcur_get_rec(pcur);
  1722. if (rec != page_get_supremum_rec(page)) {
  1723. rec = page_rec_get_next(rec);
  1724. }
  1725. for (;;) {
  1726. if (rec == page_get_supremum_rec(page)) {
  1727. break;
  1728. }
  1729. if (page_no != ibuf_rec_get_page_no(rec)
  1730.     || space != ibuf_rec_get_space(rec)) {
  1731. return(volume);
  1732. }
  1733. volume += ibuf_rec_get_volume(rec);
  1734. rec = page_rec_get_next(rec);
  1735. }
  1736. /* Look at the next page */
  1737. next_page_no = btr_page_get_next(page, mtr);
  1738. if (next_page_no == FIL_NULL) {
  1739. return(volume);
  1740. }
  1741. next_page = buf_page_get(0, next_page_no, RW_X_LATCH, mtr);
  1742. #ifdef UNIV_SYNC_DEBUG
  1743. buf_page_dbg_add_level(next_page, SYNC_TREE_NODE);
  1744. #endif /* UNIV_SYNC_DEBUG */
  1745. rec = page_get_infimum_rec(next_page);
  1746. rec = page_rec_get_next(rec);
  1747. for (;;) {
  1748. if (rec == page_get_supremum_rec(next_page)) {
  1749. /* We give up */
  1750. return(UNIV_PAGE_SIZE);
  1751. }
  1752. if (page_no != ibuf_rec_get_page_no(rec)
  1753.     || space != ibuf_rec_get_space(rec)) {
  1754. return(volume);
  1755. }
  1756. volume += ibuf_rec_get_volume(rec);
  1757. rec = page_rec_get_next(rec);
  1758. }
  1759. }
  1760. /*************************************************************************
  1761. Reads the biggest tablespace id from the high end of the insert buffer
  1762. tree and updates the counter in fil_system. */
  1763. void
  1764. ibuf_update_max_tablespace_id(void)
  1765. /*===============================*/
  1766. {
  1767. ulint max_space_id;
  1768. rec_t* rec;
  1769. byte* field;
  1770. ulint len;
  1771. ibuf_data_t* ibuf_data;
  1772. dict_index_t* ibuf_index;
  1773. btr_pcur_t pcur;
  1774. mtr_t mtr;
  1775. ibuf_data = fil_space_get_ibuf_data(0);
  1776. ibuf_index = ibuf_data->index;
  1777. ibuf_enter();
  1778. mtr_start(&mtr);
  1779. btr_pcur_open_at_index_side(FALSE, ibuf_index, BTR_SEARCH_LEAF,
  1780. &pcur, TRUE, &mtr);
  1781. btr_pcur_move_to_prev(&pcur, &mtr);
  1782. if (btr_pcur_is_before_first_on_page(&pcur, &mtr)) {
  1783. /* The tree is empty */
  1784. max_space_id = 0;
  1785. } else {
  1786. rec = btr_pcur_get_rec(&pcur);
  1787. field = rec_get_nth_field(rec, 0, &len);
  1788. ut_a(len == 4);
  1789. max_space_id = mach_read_from_4(field);
  1790. }
  1791. mtr_commit(&mtr);
  1792. ibuf_exit();
  1793. /* printf("Maximum space id in insert buffer %lun", max_space_id); */
  1794. fil_set_max_space_id_if_bigger(max_space_id);
  1795. }
  1796. /*************************************************************************
  1797. Makes an index insert to the insert buffer, instead of directly to the disk
  1798. page, if this is possible. */
  1799. static
  1800. ulint
  1801. ibuf_insert_low(
  1802. /*============*/
  1803. /* out: DB_SUCCESS, DB_FAIL, DB_STRONG_FAIL */
  1804. ulint mode, /* in: BTR_MODIFY_PREV or BTR_MODIFY_TREE */
  1805. dtuple_t* entry, /* in: index entry to insert */
  1806. dict_index_t* index, /* in: index where to insert; must not be
  1807. unique or clustered */
  1808. ulint space, /* in: space id where to insert */
  1809. ulint page_no,/* in: page number where to insert */
  1810. que_thr_t* thr) /* in: query thread */
  1811. {
  1812. big_rec_t* dummy_big_rec;
  1813. ulint entry_size;
  1814. btr_pcur_t pcur;
  1815. btr_cur_t* cursor;
  1816. dtuple_t* ibuf_entry;
  1817. mem_heap_t* heap;
  1818. ulint buffered;
  1819. rec_t* ins_rec;
  1820. ibool old_bit_value;
  1821. page_t* bitmap_page;
  1822. ibuf_data_t* ibuf_data;
  1823. dict_index_t* ibuf_index;
  1824. page_t* root;
  1825. ulint err;
  1826. ibool do_merge;
  1827. ulint space_ids[IBUF_MAX_N_PAGES_MERGED];
  1828. ib_longlong space_versions[IBUF_MAX_N_PAGES_MERGED];
  1829. ulint page_nos[IBUF_MAX_N_PAGES_MERGED];
  1830. ulint n_stored;
  1831. ulint bits;
  1832. mtr_t mtr;
  1833. mtr_t bitmap_mtr;
  1834. ut_a(!(index->type & DICT_CLUSTERED));
  1835. ut_ad(dtuple_check_typed(entry));
  1836. ut_a(trx_sys_multiple_tablespace_format);
  1837. do_merge = FALSE;
  1838. /* Currently the insert buffer of space 0 takes care of inserts to all
  1839. tablespaces */
  1840. ibuf_data = fil_space_get_ibuf_data(0);
  1841. ibuf_index = ibuf_data->index;
  1842. mutex_enter(&ibuf_mutex);
  1843. if (ibuf->size >= ibuf->max_size + IBUF_CONTRACT_DO_NOT_INSERT) {
  1844. /* Insert buffer is now too big, contract it but do not try
  1845. to insert */
  1846. mutex_exit(&ibuf_mutex);
  1847. #ifdef UNIV_IBUF_DEBUG
  1848. fputs("Ibuf too bign", stderr);
  1849. #endif
  1850. /* Use synchronous contract (== TRUE) */
  1851. ibuf_contract(TRUE);
  1852. return(DB_STRONG_FAIL);
  1853. }
  1854. mutex_exit(&ibuf_mutex);
  1855. if (mode == BTR_MODIFY_TREE) {
  1856. mutex_enter(&ibuf_pessimistic_insert_mutex);
  1857. ibuf_enter();
  1858. mutex_enter(&ibuf_mutex);
  1859. while (!ibuf_data_enough_free_for_insert(ibuf_data)) {
  1860. mutex_exit(&ibuf_mutex);
  1861. ibuf_exit();
  1862. mutex_exit(&ibuf_pessimistic_insert_mutex);
  1863. err = ibuf_add_free_page(0, ibuf_data);
  1864. if (err == DB_STRONG_FAIL) {
  1865. return(err);
  1866. }
  1867. mutex_enter(&ibuf_pessimistic_insert_mutex);
  1868. ibuf_enter();
  1869. mutex_enter(&ibuf_mutex);
  1870. }
  1871. } else {
  1872. ibuf_enter();
  1873. }
  1874. entry_size = rec_get_converted_size(entry);
  1875. heap = mem_heap_create(512);
  1876.   /* Build the entry which contains the space id and the page number as
  1877. the first fields and the type information for other fields, and which
  1878. will be inserted to the insert buffer. */
  1879. ibuf_entry = ibuf_entry_build(entry, space, page_no, heap);
  1880. /* Open a cursor to the insert buffer tree to calculate if we can add
  1881. the new entry to it without exceeding the free space limit for the
  1882. page. */
  1883. mtr_start(&mtr);
  1884. btr_pcur_open(ibuf_index, ibuf_entry, PAGE_CUR_LE, mode, &pcur, &mtr);
  1885. /* Find out the volume of already buffered inserts for the same index
  1886. page */
  1887. buffered = ibuf_get_volume_buffered(&pcur, space, page_no, &mtr);
  1888. #ifdef UNIV_IBUF_DEBUG
  1889. ut_a((buffered == 0) || ibuf_count_get(space, page_no));
  1890. #endif
  1891.   mtr_start(&bitmap_mtr);
  1892. bitmap_page = ibuf_bitmap_get_map_page(space, page_no, &bitmap_mtr);
  1893. /* We check if the index page is suitable for buffered entries */
  1894. if (buf_page_peek(space, page_no)
  1895. || lock_rec_expl_exist_on_page(space, page_no)) {
  1896. err = DB_STRONG_FAIL;
  1897. mtr_commit(&bitmap_mtr);
  1898. goto function_exit;
  1899. }
  1900. bits = ibuf_bitmap_page_get_bits(bitmap_page, page_no,
  1901. IBUF_BITMAP_FREE, &bitmap_mtr);
  1902. if (buffered + entry_size + page_dir_calc_reserved_space(1)
  1903. > ibuf_index_page_calc_free_from_bits(bits)) {
  1904. mtr_commit(&bitmap_mtr);
  1905.   /* It may not fit */
  1906. err = DB_STRONG_FAIL;
  1907. do_merge = TRUE; 
  1908. ibuf_get_merge_page_nos(FALSE, btr_pcur_get_rec(&pcur),
  1909. space_ids, space_versions, page_nos,
  1910. &n_stored);
  1911. goto function_exit;
  1912.   }
  1913. /* Set the bitmap bit denoting that the insert buffer contains
  1914. buffered entries for this index page, if the bit is not set yet */
  1915. old_bit_value = ibuf_bitmap_page_get_bits(bitmap_page, page_no,
  1916. IBUF_BITMAP_BUFFERED, &bitmap_mtr);
  1917. if (!old_bit_value) {
  1918. ibuf_bitmap_page_set_bits(bitmap_page, page_no,
  1919. IBUF_BITMAP_BUFFERED, TRUE, &bitmap_mtr);
  1920. }
  1921. mtr_commit(&bitmap_mtr);
  1922. cursor = btr_pcur_get_btr_cur(&pcur);
  1923. if (mode == BTR_MODIFY_PREV) {
  1924. err = btr_cur_optimistic_insert(BTR_NO_LOCKING_FLAG, cursor,
  1925. ibuf_entry, &ins_rec,
  1926. &dummy_big_rec, thr,
  1927. &mtr);
  1928. if (err == DB_SUCCESS) {
  1929. /* Update the page max trx id field */
  1930. page_update_max_trx_id(buf_frame_align(ins_rec),
  1931. thr_get_trx(thr)->id);
  1932. }
  1933. } else {
  1934. ut_ad(mode == BTR_MODIFY_TREE);
  1935. /* We acquire an x-latch to the root page before the insert,
  1936. because a pessimistic insert releases the tree x-latch,
  1937. which would cause the x-latching of the root after that to
  1938. break the latching order. */
  1939. root = ibuf_tree_root_get(ibuf_data, 0, &mtr);
  1940. err = btr_cur_pessimistic_insert(BTR_NO_LOCKING_FLAG
  1941.  | BTR_NO_UNDO_LOG_FLAG,
  1942. cursor,
  1943. ibuf_entry, &ins_rec,
  1944. &dummy_big_rec, thr,
  1945. &mtr);
  1946. if (err == DB_SUCCESS) {
  1947. /* Update the page max trx id field */
  1948. page_update_max_trx_id(buf_frame_align(ins_rec),
  1949. thr_get_trx(thr)->id);
  1950. }
  1951. ibuf_data_sizes_update(ibuf_data, root, &mtr);
  1952. }
  1953. function_exit:
  1954. #ifdef UNIV_IBUF_DEBUG
  1955. if (err == DB_SUCCESS) {
  1956. printf(
  1957. "Incrementing ibuf count of space %lu page %lun"
  1958. "from %lu by 1n", space, page_no, ibuf_count_get(space, page_no));
  1959. ibuf_count_set(space, page_no,
  1960. ibuf_count_get(space, page_no) + 1);
  1961. }
  1962. #endif
  1963.   if (mode == BTR_MODIFY_TREE) {
  1964. ut_ad(ibuf_validate_low());
  1965. mutex_exit(&ibuf_mutex);
  1966. mutex_exit(&ibuf_pessimistic_insert_mutex);
  1967. }
  1968. mtr_commit(&mtr);
  1969.   btr_pcur_close(&pcur);
  1970. ibuf_exit();
  1971.   mem_heap_free(heap);
  1972. mutex_enter(&ibuf_mutex);
  1973. if (err == DB_SUCCESS) {
  1974. ibuf_data->empty = FALSE;
  1975. ibuf_data->n_inserts++;
  1976. }
  1977. mutex_exit(&ibuf_mutex);
  1978.   if ((mode == BTR_MODIFY_TREE) && (err == DB_SUCCESS)) {
  1979. ibuf_contract_after_insert(entry_size);
  1980. }
  1981. if (do_merge) {
  1982. #ifdef UNIV_IBUF_DEBUG
  1983. ut_a(n_stored <= IBUF_MAX_N_PAGES_MERGED);
  1984. #endif
  1985. buf_read_ibuf_merge_pages(FALSE, space_ids, space_versions,
  1986. page_nos, n_stored);
  1987. }
  1988. return(err);
  1989. }
  1990. /*************************************************************************
  1991. Makes an index insert to the insert buffer, instead of directly to the disk
  1992. page, if this is possible. Does not do insert if the index is clustered
  1993. or unique. */
  1994. ibool
  1995. ibuf_insert(
  1996. /*========*/
  1997. /* out: TRUE if success */
  1998. dtuple_t* entry, /* in: index entry to insert */
  1999. dict_index_t* index, /* in: index where to insert */
  2000. ulint space, /* in: space id where to insert */
  2001. ulint page_no,/* in: page number where to insert */
  2002. que_thr_t* thr) /* in: query thread */
  2003. {
  2004. ulint err;
  2005. ut_a(trx_sys_multiple_tablespace_format);
  2006. ut_ad(dtuple_check_typed(entry));
  2007. ut_a(!(index->type & DICT_CLUSTERED));
  2008. if (rec_get_converted_size(entry)
  2009. >= page_get_free_space_of_empty() / 2) {
  2010. return(FALSE);
  2011. }
  2012. err = ibuf_insert_low(BTR_MODIFY_PREV, entry, index, space, page_no,
  2013. thr);
  2014. if (err == DB_FAIL) {
  2015. err = ibuf_insert_low(BTR_MODIFY_TREE, entry, index, space,
  2016. page_no, thr);
  2017. }
  2018. if (err == DB_SUCCESS) {
  2019. #ifdef UNIV_IBUF_DEBUG
  2020. /* fprintf(stderr, "Ibuf insert for page no %lu of index %sn",
  2021. page_no, index->name); */
  2022. #endif
  2023. return(TRUE);
  2024. } else {
  2025. ut_a(err == DB_STRONG_FAIL);
  2026. return(FALSE);
  2027. }
  2028. }
  2029. /************************************************************************
  2030. During merge, inserts to an index page a secondary index entry extracted
  2031. from the insert buffer. */
  2032. static
  2033. void
  2034. ibuf_insert_to_index_page(
  2035. /*======================*/
  2036. dtuple_t* entry, /* in: buffered entry to insert */
  2037. page_t* page, /* in: index page where the buffered entry
  2038. should be placed */
  2039. mtr_t* mtr) /* in: mtr */
  2040. {
  2041. page_cur_t page_cur;
  2042. ulint low_match;
  2043. rec_t* rec;
  2044. page_t* bitmap_page;
  2045. ulint old_bits;
  2046. ut_ad(ibuf_inside());
  2047. ut_ad(dtuple_check_typed(entry));
  2048. if (rec_get_n_fields(page_rec_get_next(page_get_infimum_rec(page)))
  2049.     != dtuple_get_n_fields(entry)) {
  2050. fprintf(stderr,
  2051. "InnoDB: Trying to insert a record from the insert buffer to an index pagen"
  2052. "InnoDB: but the number of fields does not match!n");
  2053. buf_page_print(page);
  2054.         dtuple_print(stderr, entry);
  2055. fputs(
  2056. "InnoDB: The table where where this index record belongsn"
  2057. "InnoDB: is now probably corrupt. Please run CHECK TABLE onn"
  2058. "InnoDB: your tables.n"
  2059. "InnoDB: Send a detailed bug report to mysql@lists.mysql.com!n", stderr);
  2060. return;
  2061. }
  2062. low_match = page_cur_search(page, entry, PAGE_CUR_LE, &page_cur);
  2063. if (low_match == dtuple_get_n_fields(entry)) {
  2064. rec = page_cur_get_rec(&page_cur);
  2065. btr_cur_del_unmark_for_ibuf(rec, mtr);
  2066. } else {
  2067. rec = page_cur_tuple_insert(&page_cur, entry, mtr);
  2068. if (rec == NULL) {
  2069. /* If the record did not fit, reorganize */
  2070. btr_page_reorganize(page, mtr);
  2071. page_cur_search(page, entry, PAGE_CUR_LE, &page_cur);
  2072. /* This time the record must fit */
  2073. if (!page_cur_tuple_insert(&page_cur, entry, mtr)) {
  2074. ut_print_timestamp(stderr);
  2075. fprintf(stderr,
  2076. "InnoDB: Error: Insert buffer insert fails; page free %lu, dtuple size %lun",
  2077. (ulong) page_get_max_insert_size(page, 1),
  2078. (ulong) rec_get_converted_size(entry));
  2079. fputs("InnoDB: Cannot insert index record ",
  2080. stderr);
  2081. dtuple_print(stderr, entry);
  2082. fputs(
  2083. "nInnoDB: The table where where this index record belongsn"
  2084. "InnoDB: is now probably corrupt. Please run CHECK TABLE onn"
  2085. "InnoDB: that table.n", stderr);
  2086. bitmap_page = ibuf_bitmap_get_map_page(
  2087. buf_frame_get_space_id(page),
  2088. buf_frame_get_page_no(page),
  2089. mtr);
  2090. old_bits = ibuf_bitmap_page_get_bits(
  2091. bitmap_page,
  2092. buf_frame_get_page_no(page),
  2093. IBUF_BITMAP_FREE, mtr);
  2094. fprintf(stderr, "Bitmap bits %lun", (ulong) old_bits);
  2095. fputs(
  2096. "InnoDB: Submit a detailed bug report to http://bugs.mysql.comn", stderr);
  2097. }
  2098. }
  2099. }
  2100. }
  2101. /*************************************************************************
  2102. Deletes from ibuf the record on which pcur is positioned. If we have to
  2103. resort to a pessimistic delete, this function commits mtr and closes
  2104. the cursor. */
  2105. static
  2106. ibool
  2107. ibuf_delete_rec(
  2108. /*============*/
  2109. /* out: TRUE if mtr was committed and pcur
  2110. closed in this operation */
  2111. ulint space, /* in: space id */
  2112. ulint page_no,/* in: index page number where the record
  2113. should belong */
  2114. btr_pcur_t* pcur, /* in: pcur positioned on the record to
  2115. delete, having latch mode BTR_MODIFY_LEAF */
  2116. dtuple_t* search_tuple,
  2117. /* in: search tuple for entries of page_no */
  2118. mtr_t* mtr) /* in: mtr */
  2119. {
  2120. ibool success;
  2121. ibuf_data_t* ibuf_data;
  2122. page_t* root;
  2123. ulint err;
  2124. ut_ad(ibuf_inside());
  2125. success = btr_cur_optimistic_delete(btr_pcur_get_btr_cur(pcur), mtr);
  2126. if (success) {
  2127. #ifdef UNIV_IBUF_DEBUG
  2128. printf(
  2129. "Decrementing ibuf count of space %lu page %lun"
  2130. "from %lu by 1n", space, page_no, ibuf_count_get(space, page_no));
  2131. ibuf_count_set(space, page_no,
  2132. ibuf_count_get(space, page_no) - 1);
  2133. #endif
  2134. return(FALSE);
  2135. }
  2136. /* We have to resort to a pessimistic delete from ibuf */
  2137. btr_pcur_store_position(pcur, mtr);
  2138. btr_pcur_commit_specify_mtr(pcur, mtr);
  2139. /* Currently the insert buffer of space 0 takes care of inserts to all
  2140. tablespaces */
  2141. ibuf_data = fil_space_get_ibuf_data(0);
  2142. mutex_enter(&ibuf_mutex);
  2143. mtr_start(mtr);
  2144. success = btr_pcur_restore_position(BTR_MODIFY_TREE, pcur, mtr);
  2145. if (!success) {
  2146. fprintf(stderr,
  2147. "InnoDB: ERROR: Submit the output to http://bugs.mysql.comn"
  2148. "InnoDB: ibuf cursor restoration fails!n"
  2149. "InnoDB: ibuf record inserted to page %lun", (ulong) page_no);
  2150. fflush(stderr);
  2151. rec_print(stderr, btr_pcur_get_rec(pcur));
  2152. rec_print(stderr, pcur->old_rec);
  2153. dtuple_print(stderr, search_tuple);
  2154. rec_print(stderr, page_rec_get_next(btr_pcur_get_rec(pcur)));
  2155. fflush(stderr);
  2156. btr_pcur_commit_specify_mtr(pcur, mtr);
  2157. fputs("InnoDB: Validating insert buffer tree:n", stderr);
  2158. ut_a(btr_validate_tree(ibuf_data->index->tree));
  2159. fprintf(stderr, "InnoDB: ibuf tree okn");
  2160. fflush(stderr);
  2161. btr_pcur_close(pcur);
  2162. mutex_exit(&ibuf_mutex);
  2163. return(TRUE);
  2164. }
  2165. root = ibuf_tree_root_get(ibuf_data, 0, mtr);
  2166. btr_cur_pessimistic_delete(&err, TRUE, btr_pcur_get_btr_cur(pcur),
  2167. FALSE, mtr);
  2168. ut_a(err == DB_SUCCESS);
  2169. #ifdef UNIV_IBUF_DEBUG
  2170. ibuf_count_set(space, page_no, ibuf_count_get(space, page_no) - 1);
  2171. #else
  2172. UT_NOT_USED(space);
  2173. #endif
  2174. ibuf_data_sizes_update(ibuf_data, root, mtr);
  2175. ut_ad(ibuf_validate_low());
  2176. btr_pcur_commit_specify_mtr(pcur, mtr);
  2177. btr_pcur_close(pcur);
  2178. mutex_exit(&ibuf_mutex);
  2179. return(TRUE);
  2180. }
  2181. /*************************************************************************
  2182. When an index page is read from a disk to the buffer pool, this function
  2183. inserts to the page the possible index entries buffered in the insert buffer.
  2184. The entries are deleted from the insert buffer. If the page is not read, but
  2185. created in the buffer pool, this function deletes its buffered entries from
  2186. the insert buffer; there can exist entries for such a page if the page
  2187. belonged to an index which subsequently was dropped. */
  2188. void
  2189. ibuf_merge_or_delete_for_page(
  2190. /*==========================*/
  2191. page_t* page, /* in: if page has been read from disk, pointer to
  2192. the page x-latched, else NULL */
  2193. ulint space, /* in: space id of the index page */
  2194. ulint page_no,/* in: page number of the index page */
  2195. ibool update_ibuf_bitmap)/* in: normally this is set to TRUE, but if
  2196. we have deleted or are deleting the tablespace, then we
  2197. naturally do not want to update a non-existent bitmap
  2198. page */
  2199. {
  2200. mem_heap_t* heap;
  2201. btr_pcur_t pcur;
  2202. dtuple_t* entry;
  2203. dtuple_t* search_tuple;
  2204. rec_t* ibuf_rec;
  2205. buf_block_t* block;
  2206. page_t* bitmap_page;
  2207. ibuf_data_t* ibuf_data;
  2208. ulint n_inserts;
  2209. #ifdef UNIV_IBUF_DEBUG
  2210. ulint volume;
  2211. #endif
  2212. ibool tablespace_being_deleted = FALSE;
  2213. ibool corruption_noticed = FALSE;
  2214. mtr_t mtr;
  2215. if (srv_force_recovery >= SRV_FORCE_NO_IBUF_MERGE) {
  2216. return;
  2217. }
  2218. #ifdef UNIV_LOG_DEBUG
  2219. if (space % 2 != 0) {
  2220. fputs("No ibuf operation in a replicate spacen", stderr);
  2221. return;
  2222. }
  2223. #endif
  2224. if (ibuf_fixed_addr_page(page_no) || fsp_descr_page(page_no)
  2225. || trx_sys_hdr_page(space, page_no)) {
  2226. return;
  2227. }
  2228. if (update_ibuf_bitmap) {
  2229. /* If the following returns FALSE, we get the counter
  2230. incremented, and must decrement it when we leave this
  2231. function. When the counter is > 0, that prevents tablespace
  2232. from being dropped. */
  2233. tablespace_being_deleted = fil_inc_pending_ibuf_merges(space);
  2234. if (tablespace_being_deleted) {
  2235. /* Do not try to read the bitmap page from space;
  2236. just delete the ibuf records for the page */
  2237. page = NULL;
  2238. update_ibuf_bitmap = FALSE;
  2239. }
  2240. }
  2241. if (update_ibuf_bitmap) {
  2242. mtr_start(&mtr);
  2243. bitmap_page = ibuf_bitmap_get_map_page(space, page_no, &mtr);
  2244. if (!ibuf_bitmap_page_get_bits(bitmap_page, page_no,
  2245. IBUF_BITMAP_BUFFERED, &mtr)) {
  2246. /* No inserts buffered for this page */
  2247. mtr_commit(&mtr);
  2248. if (!tablespace_being_deleted) {
  2249. fil_decr_pending_ibuf_merges(space);
  2250. }
  2251. return;
  2252. }
  2253. mtr_commit(&mtr);
  2254. }
  2255. /* Currently the insert buffer of space 0 takes care of inserts to all
  2256. tablespaces */
  2257. ibuf_data = fil_space_get_ibuf_data(0);
  2258. ibuf_enter();
  2259. heap = mem_heap_create(512);
  2260. if (!trx_sys_multiple_tablespace_format) {
  2261. ut_a(trx_doublewrite_must_reset_space_ids);
  2262.         search_tuple = ibuf_search_tuple_build(space, page_no, heap);
  2263. } else {
  2264.         search_tuple = ibuf_new_search_tuple_build(space, page_no,
  2265. heap);
  2266. }
  2267. if (page) {
  2268. /* Move the ownership of the x-latch on the page to this OS
  2269. thread, so that we can acquire a second x-latch on it. This
  2270. is needed for the insert operations to the index page to pass
  2271. the debug checks. */
  2272. block = buf_block_align(page);
  2273. rw_lock_x_lock_move_ownership(&(block->lock));
  2274. if (fil_page_get_type(page) != FIL_PAGE_INDEX) {
  2275. corruption_noticed = TRUE;
  2276. ut_print_timestamp(stderr);
  2277. mtr_start(&mtr);
  2278. fputs("  InnoDB: Dump of the ibuf bitmap page:n",
  2279. stderr);
  2280. bitmap_page = ibuf_bitmap_get_map_page(space, page_no,
  2281. &mtr);
  2282. buf_page_print(bitmap_page);
  2283. mtr_commit(&mtr);
  2284. fputs("nInnoDB: Dump of the page:n", stderr);
  2285. buf_page_print(page);
  2286. fprintf(stderr,
  2287. "InnoDB: Error: corruption in the tablespace. Bitmap shows insertn"
  2288. "InnoDB: buffer records to page n:o %lu though the pagen"
  2289. "InnoDB: type is %lu, which is not an index page!n"
  2290. "InnoDB: We try to resolve the problem by skipping the insert buffern"
  2291. "InnoDB: merge for this page. Please run CHECK TABLE on your tablesn"
  2292. "InnoDB: to determine if they are corrupt after this.nn"
  2293. "InnoDB: Please submit a detailed bug report to http://bugs.mysql.comnn",
  2294. (ulong) page_no,
  2295. (ulong) fil_page_get_type(page));
  2296. }
  2297. }
  2298. n_inserts = 0;
  2299. #ifdef UNIV_IBUF_DEBUG
  2300. volume = 0;
  2301. #endif
  2302. loop:
  2303. mtr_start(&mtr);
  2304. if (page) {
  2305. ibool success = buf_page_get_known_nowait(RW_X_LATCH, page,
  2306. BUF_KEEP_OLD,
  2307. __FILE__, __LINE__,
  2308. &mtr);
  2309. ut_a(success);
  2310. #ifdef UNIV_SYNC_DEBUG
  2311. buf_page_dbg_add_level(page, SYNC_TREE_NODE);
  2312. #endif /* UNIV_SYNC_DEBUG */
  2313. }
  2314. /* Position pcur in the insert buffer at the first entry for this
  2315. index page */
  2316. btr_pcur_open_on_user_rec(ibuf_data->index, search_tuple, PAGE_CUR_GE,
  2317. BTR_MODIFY_LEAF, &pcur, &mtr);
  2318. if (!btr_pcur_is_on_user_rec(&pcur, &mtr)) {
  2319. ut_ad(btr_pcur_is_after_last_in_tree(&pcur, &mtr));
  2320. goto reset_bit;
  2321. }
  2322. for (;;) {
  2323. ut_ad(btr_pcur_is_on_user_rec(&pcur, &mtr));
  2324. ibuf_rec = btr_pcur_get_rec(&pcur);
  2325. /* Check if the entry is for this index page */
  2326. if (ibuf_rec_get_page_no(ibuf_rec) != page_no
  2327.     || ibuf_rec_get_space(ibuf_rec) != space) {
  2328. if (page) {
  2329. page_header_reset_last_insert(page, &mtr);
  2330. }
  2331. goto reset_bit;
  2332. }
  2333. if (corruption_noticed) {
  2334. fputs("InnoDB: Discarding recordn ", stderr);
  2335. rec_print(stderr, ibuf_rec);
  2336. fputs("n from the insert buffer!nn", stderr);
  2337.     } else if (page) {
  2338. /* Now we have at pcur a record which should be
  2339. inserted to the index page; NOTE that the call below
  2340. copies pointers to fields in ibuf_rec, and we must
  2341. keep the latch to the ibuf_rec page until the
  2342. insertion is finished! */
  2343. dulint max_trx_id = page_get_max_trx_id(
  2344. buf_frame_align(ibuf_rec));
  2345. page_update_max_trx_id(page, max_trx_id);
  2346. entry = ibuf_build_entry_from_ibuf_rec(ibuf_rec, heap);
  2347. #ifdef UNIV_IBUF_DEBUG
  2348. volume += rec_get_converted_size(entry)
  2349.   + page_dir_calc_reserved_space(1);
  2350. ut_a(volume <= 4 * UNIV_PAGE_SIZE
  2351. / IBUF_PAGE_SIZE_PER_FREE_SPACE);
  2352. #endif
  2353. ibuf_insert_to_index_page(entry, page, &mtr);
  2354. }
  2355. n_inserts++;
  2356. /* Delete the record from ibuf */
  2357. if (ibuf_delete_rec(space, page_no, &pcur, search_tuple,
  2358. &mtr)) {
  2359. /* Deletion was pessimistic and mtr was committed:
  2360. we start from the beginning again */
  2361. goto loop;
  2362. }
  2363. if (btr_pcur_is_after_last_on_page(&pcur, &mtr)) {
  2364. mtr_commit(&mtr);
  2365.   btr_pcur_close(&pcur);
  2366. goto loop;
  2367. }
  2368. }
  2369. reset_bit:
  2370. #ifdef UNIV_IBUF_DEBUG
  2371. if (ibuf_count_get(space, page_no) > 0) {
  2372. /* btr_print_tree(ibuf_data->index->tree, 100);
  2373. ibuf_print(); */
  2374. }
  2375. #endif
  2376. if (update_ibuf_bitmap) {
  2377. bitmap_page = ibuf_bitmap_get_map_page(space, page_no, &mtr);
  2378. ibuf_bitmap_page_set_bits(bitmap_page, page_no,
  2379. IBUF_BITMAP_BUFFERED, FALSE, &mtr);
  2380. if (page) {
  2381. ulint old_bits = ibuf_bitmap_page_get_bits(bitmap_page,
  2382. page_no, IBUF_BITMAP_FREE, &mtr);
  2383. ulint new_bits = ibuf_index_page_calc_free(page);
  2384. #ifdef UNIV_IBUF_DEBUG
  2385. /* fprintf(stderr, "Old bits %lu new bits %lu max size %lun",
  2386. old_bits, new_bits,
  2387. page_get_max_insert_size_after_reorganize(page, 1)); */
  2388. #endif
  2389. if (old_bits != new_bits) {
  2390. ibuf_bitmap_page_set_bits(bitmap_page, page_no,
  2391. IBUF_BITMAP_FREE,
  2392. new_bits, &mtr);
  2393. }
  2394. }
  2395. }
  2396. #ifdef UNIV_IBUF_DEBUG
  2397. /* fprintf(stderr,
  2398. "Ibuf merge %lu records volume %lu to page no %lun",
  2399. n_inserts, volume, page_no); */
  2400. #endif
  2401. mtr_commit(&mtr);
  2402.   btr_pcur_close(&pcur);
  2403. mem_heap_free(heap);
  2404. /* Protect our statistics keeping from race conditions */
  2405. mutex_enter(&ibuf_mutex);
  2406. ibuf_data->n_merges++;
  2407. ibuf_data->n_merged_recs += n_inserts;
  2408. mutex_exit(&ibuf_mutex);
  2409. if (update_ibuf_bitmap && !tablespace_being_deleted) {
  2410. fil_decr_pending_ibuf_merges(space);
  2411. }
  2412. ibuf_exit();
  2413. #ifdef UNIV_IBUF_DEBUG
  2414. ut_a(ibuf_count_get(space, page_no) == 0);
  2415. #endif
  2416. }
  2417. /*************************************************************************
  2418. Deletes all entries in the insert buffer for a given space id. This is used
  2419. in DISCARD TABLESPACE and IMPORT TABLESPACE.
  2420. NOTE: this does not update the page free bitmaps in the space. The space will
  2421. become CORRUPT when you call this function! */
  2422. void
  2423. ibuf_delete_for_discarded_space(
  2424. /*============================*/
  2425. ulint space) /* in: space id */
  2426. {
  2427. mem_heap_t* heap;
  2428. btr_pcur_t pcur;
  2429. dtuple_t* search_tuple;
  2430. rec_t* ibuf_rec;
  2431. ulint page_no;
  2432. ibool closed;
  2433. ibuf_data_t* ibuf_data;
  2434. ulint n_inserts;
  2435. mtr_t mtr;
  2436. /* Currently the insert buffer of space 0 takes care of inserts to all
  2437. tablespaces */
  2438. ibuf_data = fil_space_get_ibuf_data(0);
  2439. heap = mem_heap_create(512);
  2440. /* Use page number 0 to build the search tuple so that we get the
  2441. cursor positioned at the first entry for this space id */
  2442. search_tuple = ibuf_new_search_tuple_build(space, 0, heap);
  2443. n_inserts = 0;
  2444. loop:
  2445. ibuf_enter();
  2446. mtr_start(&mtr);
  2447. /* Position pcur in the insert buffer at the first entry for the
  2448. space */
  2449. btr_pcur_open_on_user_rec(ibuf_data->index, search_tuple, PAGE_CUR_GE,
  2450. BTR_MODIFY_LEAF, &pcur, &mtr);
  2451. if (!btr_pcur_is_on_user_rec(&pcur, &mtr)) {
  2452. ut_ad(btr_pcur_is_after_last_in_tree(&pcur, &mtr));
  2453. goto leave_loop;
  2454. }
  2455. for (;;) {
  2456. ut_ad(btr_pcur_is_on_user_rec(&pcur, &mtr));
  2457. ibuf_rec = btr_pcur_get_rec(&pcur);
  2458. /* Check if the entry is for this space */
  2459. if (ibuf_rec_get_space(ibuf_rec) != space) {
  2460. goto leave_loop;
  2461. }
  2462. page_no = ibuf_rec_get_page_no(ibuf_rec);
  2463. n_inserts++;
  2464. /* Delete the record from ibuf */
  2465. closed = ibuf_delete_rec(space, page_no, &pcur, search_tuple,
  2466. &mtr);
  2467. if (closed) {
  2468. /* Deletion was pessimistic and mtr was committed:
  2469. we start from the beginning again */
  2470. ibuf_exit();
  2471. goto loop;
  2472. }
  2473. if (btr_pcur_is_after_last_on_page(&pcur, &mtr)) {
  2474. mtr_commit(&mtr);
  2475.   btr_pcur_close(&pcur);
  2476. ibuf_exit();
  2477. goto loop;
  2478. }
  2479. }
  2480. leave_loop:
  2481. mtr_commit(&mtr);
  2482.   btr_pcur_close(&pcur);
  2483. /* Protect our statistics keeping from race conditions */
  2484. mutex_enter(&ibuf_mutex);
  2485. ibuf_data->n_merges++;
  2486. ibuf_data->n_merged_recs += n_inserts;
  2487. mutex_exit(&ibuf_mutex);
  2488. /*
  2489. fprintf(stderr,
  2490. "InnoDB: Discarded %lu ibuf entries for space %lun",
  2491. (ulong) n_inserts, (ulong) space);
  2492. */
  2493. ibuf_exit();
  2494. mem_heap_free(heap);
  2495. }
  2496. /**********************************************************************
  2497. Validates the ibuf data structures when the caller owns ibuf_mutex. */
  2498. ibool
  2499. ibuf_validate_low(void)
  2500. /*===================*/
  2501. /* out: TRUE if ok */
  2502. {
  2503. ibuf_data_t* data;
  2504. ulint sum_sizes;
  2505. #ifdef UNIV_SYNC_DEBUG
  2506. ut_ad(mutex_own(&ibuf_mutex));
  2507. #endif /* UNIV_SYNC_DEBUG */
  2508. sum_sizes = 0;
  2509. data = UT_LIST_GET_FIRST(ibuf->data_list);
  2510. while (data) {
  2511. sum_sizes += data->size;
  2512. data = UT_LIST_GET_NEXT(data_list, data);
  2513. }
  2514. ut_a(sum_sizes == ibuf->size);
  2515. return(TRUE);
  2516. }
  2517. /**********************************************************************
  2518. Looks if the insert buffer is empty. */
  2519. ibool
  2520. ibuf_is_empty(void)
  2521. /*===============*/
  2522. /* out: TRUE if empty */
  2523. {
  2524. ibuf_data_t* data;
  2525. ibool is_empty;
  2526. page_t* root;
  2527. mtr_t mtr;
  2528. ibuf_enter();
  2529. mutex_enter(&ibuf_mutex);
  2530. data = UT_LIST_GET_FIRST(ibuf->data_list);
  2531. mtr_start(&mtr);
  2532. root = ibuf_tree_root_get(data, 0, &mtr);
  2533. if (page_get_n_recs(root) == 0) {
  2534. is_empty = TRUE;
  2535. if (data->empty == FALSE) {
  2536. fprintf(stderr,
  2537. "InnoDB: Warning: insert buffer tree is empty but the data struct does notn"
  2538. "InnoDB: know it. This condition is legal if the master thread has not yetn"
  2539. "InnoDB: run to completion.n");
  2540. }
  2541. } else {
  2542.         ut_a(data->empty == FALSE);
  2543. is_empty = FALSE;
  2544. }
  2545. mtr_commit(&mtr);
  2546. ut_a(data->space == 0);
  2547. mutex_exit(&ibuf_mutex);
  2548. ibuf_exit();
  2549. return(is_empty);
  2550. }
  2551. /**********************************************************************
  2552. Prints info of ibuf. */
  2553. void
  2554. ibuf_print(
  2555. /*=======*/
  2556. FILE* file) /* in: file where to print */
  2557. {
  2558. ibuf_data_t* data;
  2559. #ifdef UNIV_IBUF_DEBUG
  2560. ulint i;
  2561. #endif
  2562. mutex_enter(&ibuf_mutex);
  2563. data = UT_LIST_GET_FIRST(ibuf->data_list);
  2564. while (data) {
  2565. fprintf(file,
  2566.    "Ibuf for space %lu: size %lu, free list len %lu, seg size %lu,",
  2567.        (ulong) data->space, (ulong) data->size,
  2568.        (ulong) data->free_list_len,
  2569.        (ulong) data->seg_size);
  2570. if (data->empty) {
  2571. fputs(" is emptyn", file);
  2572. } else {
  2573. fputs(" is not emptyn", file);
  2574. }
  2575. fprintf(file,
  2576. "Ibuf for space %lu: size %lu, free list len %lu, seg size %lu,n"
  2577. "%lu inserts, %lu merged recs, %lu mergesn",
  2578.                                (ulong) data->space,
  2579.                                (ulong) data->size,
  2580.                                (ulong) data->free_list_len,
  2581.        (ulong) data->seg_size,
  2582.        (ulong) data->n_inserts,
  2583.        (ulong) data->n_merged_recs,
  2584.        (ulong) data->n_merges);
  2585. #ifdef UNIV_IBUF_DEBUG
  2586. for (i = 0; i < IBUF_COUNT_N_PAGES; i++) {
  2587. if (ibuf_count_get(data->space, i) > 0) {
  2588. fprintf(stderr,
  2589. "Ibuf count for page %lu is %lun",
  2590.        (ulong) i,
  2591.        (ulong) ibuf_count_get(data->space, i));
  2592. }
  2593. }
  2594. #endif
  2595. data = UT_LIST_GET_NEXT(data_list, data);
  2596. }
  2597. mutex_exit(&ibuf_mutex);
  2598. }