row0sel.c
上传用户:romrleung
上传日期:2022-05-23
资源大小:18897k
文件大小:98k
源码类别:

MySQL数据库

开发平台:

Visual C++

  1. /*******************************************************
  2. Select
  3. (c) 1997 Innobase Oy
  4. Created 12/19/1997 Heikki Tuuri
  5. *******************************************************/
  6. #include "row0sel.h"
  7. #ifdef UNIV_NONINL
  8. #include "row0sel.ic"
  9. #endif
  10. #include "dict0dict.h"
  11. #include "dict0boot.h"
  12. #include "trx0undo.h"
  13. #include "trx0trx.h"
  14. #include "btr0btr.h"
  15. #include "btr0cur.h"
  16. #include "btr0sea.h"
  17. #include "mach0data.h"
  18. #include "que0que.h"
  19. #include "row0upd.h"
  20. #include "row0row.h"
  21. #include "row0vers.h"
  22. #include "rem0cmp.h"
  23. #include "lock0lock.h"
  24. #include "eval0eval.h"
  25. #include "pars0sym.h"
  26. #include "pars0pars.h"
  27. #include "row0mysql.h"
  28. #include "read0read.h"
  29. #include "buf0lru.h"
  30. /* Maximum number of rows to prefetch; MySQL interface has another parameter */
  31. #define SEL_MAX_N_PREFETCH 16
  32. /* Number of rows fetched, after which to start prefetching; MySQL interface
  33. has another parameter */
  34. #define SEL_PREFETCH_LIMIT 1
  35. /* When a select has accessed about this many pages, it returns control back
  36. to que_run_threads: this is to allow canceling runaway queries */
  37. #define SEL_COST_LIMIT 100
  38. /* Flags for search shortcut */
  39. #define SEL_FOUND 0
  40. #define SEL_EXHAUSTED 1
  41. #define SEL_RETRY 2
  42. /************************************************************************
  43. Returns TRUE if the user-defined column values in a secondary index record
  44. are alphabetically the same as the corresponding columns in the clustered
  45. index record.
  46. NOTE: the comparison is NOT done as a binary comparison, but character
  47. fields are compared with collation! */
  48. static
  49. ibool
  50. row_sel_sec_rec_is_for_clust_rec(
  51. /*=============================*/
  52. /* out: TRUE if the secondary
  53. record is equal to the corresponding
  54. fields in the clustered record,
  55. when compared with collation */
  56. rec_t* sec_rec, /* in: secondary index record */
  57. dict_index_t* sec_index, /* in: secondary index */
  58. rec_t* clust_rec, /* in: clustered index record */
  59. dict_index_t* clust_index) /* in: clustered index */
  60. {
  61. dict_field_t* ifield;
  62.         dict_col_t*     col;
  63.         byte*           sec_field;
  64.         ulint           sec_len;
  65.         byte*           clust_field;
  66.         ulint           clust_len;
  67.         ulint           n;
  68.         ulint           i;
  69. dtype_t* cur_type;
  70. UT_NOT_USED(clust_index);
  71.         n = dict_index_get_n_ordering_defined_by_user(sec_index);
  72.         for (i = 0; i < n; i++) {
  73. ifield = dict_index_get_nth_field(sec_index, i);
  74.                 col = dict_field_get_col(ifield);
  75.                 
  76.                 clust_field = rec_get_nth_field(clust_rec,
  77.                                                 dict_col_get_clust_pos(col),
  78.                                                 &clust_len);
  79.                 sec_field = rec_get_nth_field(sec_rec, i, &sec_len);
  80. if (ifield->prefix_len > 0
  81.     && clust_len != UNIV_SQL_NULL) {
  82. cur_type = dict_col_get_type(
  83. dict_field_get_col(ifield));
  84. clust_len = dtype_get_at_most_n_mbchars(
  85. cur_type,
  86. ifield->prefix_len,
  87. clust_len, clust_field);
  88. }
  89.                 if (0 != cmp_data_data(dict_col_get_type(col),
  90.                                         clust_field, clust_len,
  91.                                         sec_field, sec_len)) {
  92.                         return(FALSE);
  93.                 }
  94.         }
  95.         return(TRUE);
  96. }
  97. /*************************************************************************
  98. Creates a select node struct. */
  99. sel_node_t*
  100. sel_node_create(
  101. /*============*/
  102. /* out, own: select node struct */
  103. mem_heap_t* heap) /* in: memory heap where created */
  104. {
  105. sel_node_t* node;
  106. node = mem_heap_alloc(heap, sizeof(sel_node_t));
  107. node->common.type = QUE_NODE_SELECT;
  108. node->state = SEL_NODE_OPEN;
  109. node->select_will_do_update = FALSE;
  110. node->latch_mode = BTR_SEARCH_LEAF;
  111. node->plans = NULL;
  112. return(node);
  113. }
  114. /*************************************************************************
  115. Frees the memory private to a select node when a query graph is freed,
  116. does not free the heap where the node was originally created. */
  117. void
  118. sel_node_free_private(
  119. /*==================*/
  120. sel_node_t* node) /* in: select node struct */
  121. {
  122. ulint i;
  123. plan_t* plan;
  124. if (node->plans != NULL) {
  125. for (i = 0; i < node->n_tables; i++) {
  126. plan = sel_node_get_nth_plan(node, i);
  127. btr_pcur_close(&(plan->pcur));
  128. btr_pcur_close(&(plan->clust_pcur));
  129. if (plan->old_vers_heap) {
  130. mem_heap_free(plan->old_vers_heap);
  131. }
  132. }
  133. }
  134. }
  135. /*************************************************************************
  136. Evaluates the values in a select list. If there are aggregate functions,
  137. their argument value is added to the aggregate total. */
  138. UNIV_INLINE
  139. void
  140. sel_eval_select_list(
  141. /*=================*/
  142. sel_node_t* node) /* in: select node */
  143. {
  144. que_node_t* exp;
  145. exp = node->select_list;
  146. while (exp) {
  147. eval_exp(exp);
  148. exp = que_node_get_next(exp);
  149. }
  150. }
  151. /*************************************************************************
  152. Assigns the values in the select list to the possible into-variables in
  153. SELECT ... INTO ... */
  154. UNIV_INLINE
  155. void
  156. sel_assign_into_var_values(
  157. /*=======================*/
  158. sym_node_t* var, /* in: first variable in a list of variables */
  159. sel_node_t* node) /* in: select node */
  160. {
  161. que_node_t* exp;
  162. if (var == NULL) {
  163. return;
  164. }
  165. exp = node->select_list;
  166. while (var) {
  167. ut_ad(exp);
  168. eval_node_copy_val(var->alias, exp);
  169. exp = que_node_get_next(exp);
  170. var = que_node_get_next(var);
  171. }
  172. }
  173. /*************************************************************************
  174. Resets the aggregate value totals in the select list of an aggregate type
  175. query. */
  176. UNIV_INLINE
  177. void
  178. sel_reset_aggregate_vals(
  179. /*=====================*/
  180. sel_node_t* node) /* in: select node */
  181. {
  182. func_node_t* func_node;
  183. ut_ad(node->is_aggregate);
  184. func_node = node->select_list;
  185. while (func_node) {
  186. eval_node_set_int_val(func_node, 0);
  187. func_node = que_node_get_next(func_node);
  188. }
  189. node->aggregate_already_fetched = FALSE;
  190. }
  191. /*************************************************************************
  192. Copies the input variable values when an explicit cursor is opened. */
  193. UNIV_INLINE
  194. void
  195. row_sel_copy_input_variable_vals(
  196. /*=============================*/
  197. sel_node_t* node) /* in: select node */
  198. {
  199. sym_node_t* var;
  200. var = UT_LIST_GET_FIRST(node->copy_variables);
  201. while (var) {
  202. eval_node_copy_val(var, var->alias);
  203. var->indirection = NULL;
  204. var = UT_LIST_GET_NEXT(col_var_list, var);
  205. }
  206. }
  207. /*************************************************************************
  208. Fetches the column values from a record. */
  209. static
  210. void
  211. row_sel_fetch_columns(
  212. /*==================*/
  213. dict_index_t* index, /* in: record index */
  214. rec_t* rec, /* in: record in a clustered or non-clustered
  215. index */
  216. sym_node_t* column) /* in: first column in a column list, or
  217. NULL */
  218. {
  219. dfield_t* val;
  220. ulint index_type;
  221. ulint field_no;
  222. byte* data;
  223. ulint len;
  224. if (index->type & DICT_CLUSTERED) {
  225. index_type = SYM_CLUST_FIELD_NO;
  226. } else {
  227. index_type = SYM_SEC_FIELD_NO;
  228. }
  229. while (column) {
  230. field_no = column->field_nos[index_type];
  231. if (field_no != ULINT_UNDEFINED) {
  232. data = rec_get_nth_field(rec, field_no, &len);
  233. if (column->copy_val) {
  234. eval_node_copy_and_alloc_val(column, data,
  235. len);
  236. } else {
  237. val = que_node_get_val(column);
  238. dfield_set_data(val, data, len);
  239. }
  240. }
  241. column = UT_LIST_GET_NEXT(col_var_list, column);
  242. }
  243. }
  244. /*************************************************************************
  245. Allocates a prefetch buffer for a column when prefetch is first time done. */
  246. static
  247. void
  248. sel_col_prefetch_buf_alloc(
  249. /*=======================*/
  250. sym_node_t* column) /* in: symbol table node for a column */
  251. {
  252. sel_buf_t* sel_buf;
  253. ulint i;
  254. ut_ad(que_node_get_type(column) == QUE_NODE_SYMBOL);
  255. column->prefetch_buf = mem_alloc(SEL_MAX_N_PREFETCH
  256. * sizeof(sel_buf_t));
  257. for (i = 0; i < SEL_MAX_N_PREFETCH; i++) {
  258. sel_buf = column->prefetch_buf + i;
  259. sel_buf->data = NULL;
  260. sel_buf->val_buf_size = 0;
  261. }
  262. }
  263. /*************************************************************************
  264. Frees a prefetch buffer for a column, including the dynamically allocated
  265. memory for data stored there. */
  266. void
  267. sel_col_prefetch_buf_free(
  268. /*======================*/
  269. sel_buf_t* prefetch_buf) /* in, own: prefetch buffer */
  270. {
  271. sel_buf_t* sel_buf;
  272. ulint i;
  273. for (i = 0; i < SEL_MAX_N_PREFETCH; i++) {
  274. sel_buf = prefetch_buf + i;
  275. if (sel_buf->val_buf_size > 0) {
  276. mem_free(sel_buf->data);
  277. }
  278. }
  279. }
  280. /*************************************************************************
  281. Pops the column values for a prefetched, cached row from the column prefetch
  282. buffers and places them to the val fields in the column nodes. */
  283. static
  284. void
  285. sel_pop_prefetched_row(
  286. /*===================*/
  287. plan_t* plan) /* in: plan node for a table */
  288. {
  289. sym_node_t* column;
  290. sel_buf_t* sel_buf;
  291. dfield_t* val;
  292. byte* data;
  293. ulint len;
  294. ulint val_buf_size;
  295. ut_ad(plan->n_rows_prefetched > 0);
  296. column = UT_LIST_GET_FIRST(plan->columns);
  297. while (column) {
  298. val = que_node_get_val(column);
  299. if (!column->copy_val) {
  300. /* We did not really push any value for the
  301. column */
  302. ut_ad(!column->prefetch_buf);
  303. ut_ad(que_node_get_val_buf_size(column) == 0);
  304. #ifdef UNIV_DEBUG
  305. dfield_set_data(val, NULL, 0);
  306. #endif
  307. goto next_col;
  308. }
  309. ut_ad(column->prefetch_buf);
  310. sel_buf = column->prefetch_buf + plan->first_prefetched;
  311. data = sel_buf->data;
  312. len = sel_buf->len;
  313. val_buf_size = sel_buf->val_buf_size;
  314. /* We must keep track of the allocated memory for
  315. column values to be able to free it later: therefore
  316. we swap the values for sel_buf and val */
  317. sel_buf->data = dfield_get_data(val);
  318. sel_buf->len = dfield_get_len(val);
  319. sel_buf->val_buf_size = que_node_get_val_buf_size(column);
  320. dfield_set_data(val, data, len);
  321. que_node_set_val_buf_size(column, val_buf_size);
  322. next_col:
  323. column = UT_LIST_GET_NEXT(col_var_list, column);
  324. }
  325. plan->n_rows_prefetched--;
  326. plan->first_prefetched++;
  327. }
  328. /*************************************************************************
  329. Pushes the column values for a prefetched, cached row to the column prefetch
  330. buffers from the val fields in the column nodes. */
  331. UNIV_INLINE
  332. void
  333. sel_push_prefetched_row(
  334. /*====================*/
  335. plan_t* plan) /* in: plan node for a table */
  336. {
  337. sym_node_t* column;
  338. sel_buf_t* sel_buf;
  339. dfield_t* val;
  340. byte* data;
  341. ulint len;
  342. ulint pos;
  343. ulint val_buf_size;
  344. if (plan->n_rows_prefetched == 0) {
  345. pos = 0;
  346. plan->first_prefetched = 0;
  347. } else {
  348. pos = plan->n_rows_prefetched;
  349. /* We have the convention that pushing new rows starts only
  350. after the prefetch stack has been emptied: */
  351. ut_ad(plan->first_prefetched == 0);
  352. }
  353. plan->n_rows_prefetched++;
  354. ut_ad(pos < SEL_MAX_N_PREFETCH);
  355. column = UT_LIST_GET_FIRST(plan->columns);
  356. while (column) {
  357. if (!column->copy_val) {
  358. /* There is no sense to push pointers to database
  359. page fields when we do not keep latch on the page! */
  360. goto next_col;
  361. }
  362. if (!column->prefetch_buf) {
  363. /* Allocate a new prefetch buffer */
  364. sel_col_prefetch_buf_alloc(column);
  365. }
  366. sel_buf = column->prefetch_buf + pos;
  367. val = que_node_get_val(column);
  368. data = dfield_get_data(val);
  369. len = dfield_get_len(val);
  370. val_buf_size = que_node_get_val_buf_size(column);
  371. /* We must keep track of the allocated memory for
  372. column values to be able to free it later: therefore
  373. we swap the values for sel_buf and val */
  374. dfield_set_data(val, sel_buf->data, sel_buf->len);
  375. que_node_set_val_buf_size(column, sel_buf->val_buf_size);
  376. sel_buf->data = data;
  377. sel_buf->len = len;
  378. sel_buf->val_buf_size = val_buf_size;
  379. next_col:
  380. column = UT_LIST_GET_NEXT(col_var_list, column);
  381. }
  382. }
  383. /*************************************************************************
  384. Builds a previous version of a clustered index record for a consistent read */
  385. static
  386. ulint
  387. row_sel_build_prev_vers(
  388. /*====================*/
  389. /* out: DB_SUCCESS or error code */
  390. read_view_t* read_view, /* in: read view */
  391. plan_t* plan, /* in: plan node for table */
  392. rec_t* rec, /* in: record in a clustered index */
  393. rec_t** old_vers, /* out: old version, or NULL if the
  394. record does not exist in the view:
  395. i.e., it was freshly inserted
  396. afterwards */
  397. mtr_t* mtr) /* in: mtr */
  398. {
  399. ulint err;
  400. if (plan->old_vers_heap) {
  401. mem_heap_empty(plan->old_vers_heap);
  402. } else {
  403. plan->old_vers_heap = mem_heap_create(512);
  404. }
  405. err = row_vers_build_for_consistent_read(rec, mtr, plan->index,
  406. read_view, plan->old_vers_heap,
  407. old_vers);
  408. return(err);
  409. }
  410. /*************************************************************************
  411. Tests the conditions which determine when the index segment we are searching
  412. through has been exhausted. */
  413. UNIV_INLINE
  414. ibool
  415. row_sel_test_end_conds(
  416. /*===================*/
  417.   /* out: TRUE if row passed the tests */
  418. plan_t* plan) /* in: plan for the table; the column values must
  419. already have been retrieved and the right sides of
  420. comparisons evaluated */
  421. {
  422. func_node_t* cond;
  423. /* All conditions in end_conds are comparisons of a column to an
  424. expression */
  425. cond = UT_LIST_GET_FIRST(plan->end_conds);
  426. while (cond) {
  427. /* Evaluate the left side of the comparison, i.e., get the
  428. column value if there is an indirection */
  429. eval_sym(cond->args);
  430. /* Do the comparison */
  431. if (!eval_cmp(cond)) {
  432. return(FALSE);
  433. }
  434. cond = UT_LIST_GET_NEXT(cond_list, cond);
  435. }
  436. return(TRUE);
  437. }
  438. /*************************************************************************
  439. Tests the other conditions. */
  440. UNIV_INLINE
  441. ibool
  442. row_sel_test_other_conds(
  443. /*=====================*/
  444. /* out: TRUE if row passed the tests */
  445. plan_t* plan) /* in: plan for the table; the column values must
  446. already have been retrieved */
  447. {
  448. func_node_t* cond;
  449. cond = UT_LIST_GET_FIRST(plan->other_conds);
  450. while (cond) {
  451. eval_exp(cond);
  452. if (!eval_node_get_ibool_val(cond)) {
  453. return(FALSE);
  454. }
  455. cond = UT_LIST_GET_NEXT(cond_list, cond);
  456. }
  457. return(TRUE);
  458. }
  459. /*************************************************************************
  460. Retrieves the clustered index record corresponding to a record in a
  461. non-clustered index. Does the necessary locking. */
  462. static
  463. ulint
  464. row_sel_get_clust_rec(
  465. /*==================*/
  466. /* out: DB_SUCCESS or error code */
  467. sel_node_t* node, /* in: select_node */
  468. plan_t* plan, /* in: plan node for table */
  469. rec_t* rec, /* in: record in a non-clustered index */
  470. que_thr_t* thr, /* in: query thread */
  471. rec_t** out_rec,/* out: clustered record or an old version of
  472. it, NULL if the old version did not exist
  473. in the read view, i.e., it was a fresh
  474. inserted version */
  475. mtr_t* mtr) /* in: mtr used to get access to the
  476. non-clustered record; the same mtr is used to
  477. access the clustered index */
  478. {
  479. dict_index_t* index;
  480. rec_t* clust_rec;
  481. rec_t* old_vers;
  482. ulint err;
  483. row_build_row_ref_fast(plan->clust_ref, plan->clust_map, rec);
  484. index = dict_table_get_first_index(plan->table);
  485. btr_pcur_open_with_no_init(index, plan->clust_ref, PAGE_CUR_LE,
  486. node->latch_mode, &(plan->clust_pcur),
  487. 0, mtr);
  488. clust_rec = btr_pcur_get_rec(&(plan->clust_pcur));
  489. /* Note: only if the search ends up on a non-infimum record is the
  490. low_match value the real match to the search tuple */
  491. if (!page_rec_is_user_rec(clust_rec)
  492.             || btr_pcur_get_low_match(&(plan->clust_pcur))
  493.        < dict_index_get_n_unique(index)) {
  494. ut_a(rec_get_deleted_flag(rec));
  495. ut_a(node->read_view);
  496. /* In a rare case it is possible that no clust rec is found
  497. for a delete-marked secondary index record: if in row0umod.c
  498. in row_undo_mod_remove_clust_low() we have already removed
  499. the clust rec, while purge is still cleaning and removing
  500. secondary index records associated with earlier versions of
  501. the clustered index record. In that case we know that the
  502. clustered index record did not exist in the read view of
  503. trx. */
  504. clust_rec = NULL;
  505. goto func_exit;
  506. }
  507. if (!node->read_view) {
  508. /* Try to place a lock on the index record */
  509.         
  510. /* If innodb_locks_unsafe_for_binlog option is used, 
  511. we lock only the record, i.e. next-key locking is
  512. not used.
  513. */
  514. if (srv_locks_unsafe_for_binlog) {
  515. err = lock_clust_rec_read_check_and_lock(0, 
  516. clust_rec, 
  517. index, node->row_lock_mode, 
  518. LOCK_REC_NOT_GAP, thr);
  519. } else {
  520. err = lock_clust_rec_read_check_and_lock(0, 
  521. clust_rec, 
  522. index, node->row_lock_mode, 
  523. LOCK_ORDINARY, thr);
  524. }
  525. if (err != DB_SUCCESS) {
  526. return(err);
  527. }
  528. } else {
  529. /* This is a non-locking consistent read: if necessary, fetch
  530. a previous version of the record */
  531. old_vers = NULL;
  532. if (!lock_clust_rec_cons_read_sees(clust_rec, index,
  533. node->read_view)) {
  534. err = row_sel_build_prev_vers(node->read_view, plan,
  535. clust_rec, &old_vers, mtr);
  536. if (err != DB_SUCCESS) {
  537. return(err);
  538. }
  539. clust_rec = old_vers;
  540. if (clust_rec == NULL) {
  541. *out_rec = clust_rec;
  542. return(DB_SUCCESS);
  543. }
  544. }
  545. /* If we had to go to an earlier version of row or the
  546. secondary index record is delete marked, then it may be that
  547. the secondary index record corresponding to clust_rec
  548. (or old_vers) is not rec; in that case we must ignore
  549. such row because in our snapshot rec would not have existed.
  550. Remember that from rec we cannot see directly which transaction
  551. id corresponds to it: we have to go to the clustered index
  552. record. A query where we want to fetch all rows where
  553. the secondary index value is in some interval would return
  554. a wrong result if we would not drop rows which we come to
  555. visit through secondary index records that would not really
  556. exist in our snapshot. */
  557. if ((old_vers || rec_get_deleted_flag(rec)) 
  558.     && !row_sel_sec_rec_is_for_clust_rec(rec, plan->index,
  559. clust_rec, index)) {
  560. clust_rec = NULL;
  561. *out_rec = clust_rec;
  562. return(DB_SUCCESS);
  563. }
  564. }
  565. /* Fetch the columns needed in test conditions */
  566. row_sel_fetch_columns(index, clust_rec,
  567. UT_LIST_GET_FIRST(plan->columns));
  568. func_exit:
  569. *out_rec = clust_rec;
  570. return(DB_SUCCESS);
  571. }
  572. /*************************************************************************
  573. Sets a lock on a record. */
  574. UNIV_INLINE
  575. ulint
  576. sel_set_rec_lock(
  577. /*=============*/
  578. /* out: DB_SUCCESS or error code */
  579. rec_t* rec, /* in: record */
  580. dict_index_t* index, /* in: index */
  581. ulint mode, /* in: lock mode */
  582. ulint type,  /* in: LOCK_ORDINARY, LOCK_GAP, or LOC_REC_NOT_GAP */
  583. que_thr_t* thr) /* in: query thread */
  584. {
  585. trx_t* trx;
  586. ulint err;
  587. trx = thr_get_trx(thr);
  588. if (UT_LIST_GET_LEN(trx->trx_locks) > 10000) {
  589. if (buf_LRU_buf_pool_running_out()) {
  590. return(DB_LOCK_TABLE_FULL);
  591. }
  592. }
  593. if (index->type & DICT_CLUSTERED) {
  594. err = lock_clust_rec_read_check_and_lock(0, rec, index, mode,
  595. type, thr);
  596. } else {
  597. err = lock_sec_rec_read_check_and_lock(0, rec, index, mode,
  598. type, thr);
  599. }
  600. return(err);
  601. }
  602. /*************************************************************************
  603. Opens a pcur to a table index. */
  604. static
  605. void
  606. row_sel_open_pcur(
  607. /*==============*/
  608. sel_node_t* node, /* in: select node */
  609. plan_t* plan, /* in: table plan */
  610. ibool search_latch_locked,
  611. /* in: TRUE if the thread currently
  612. has the search latch locked in
  613. s-mode */
  614. mtr_t* mtr) /* in: mtr */
  615. {
  616. dict_index_t* index;
  617. func_node_t* cond;
  618. que_node_t* exp;
  619. ulint n_fields;
  620. ulint has_search_latch = 0; /* RW_S_LATCH or 0 */ 
  621. ulint i;
  622. if (search_latch_locked) {
  623. has_search_latch = RW_S_LATCH;
  624. }
  625. index = plan->index;
  626. /* Calculate the value of the search tuple: the exact match columns
  627. get their expressions evaluated when we evaluate the right sides of
  628. end_conds */
  629. cond = UT_LIST_GET_FIRST(plan->end_conds);
  630. while (cond) {
  631. eval_exp(que_node_get_next(cond->args));
  632. cond = UT_LIST_GET_NEXT(cond_list, cond);
  633. }
  634. if (plan->tuple) {
  635. n_fields = dtuple_get_n_fields(plan->tuple);
  636. if (plan->n_exact_match < n_fields) {
  637. /* There is a non-exact match field which must be
  638. evaluated separately */
  639. eval_exp(plan->tuple_exps[n_fields - 1]);
  640. }
  641. for (i = 0; i < n_fields; i++) {
  642. exp = plan->tuple_exps[i];
  643. dfield_copy_data(dtuple_get_nth_field(plan->tuple, i),
  644. que_node_get_val(exp));
  645. }
  646. /* Open pcur to the index */
  647. btr_pcur_open_with_no_init(index, plan->tuple, plan->mode,
  648. node->latch_mode, &(plan->pcur),
  649. has_search_latch, mtr);
  650. } else {
  651. /* Open the cursor to the start or the end of the index
  652. (FALSE: no init) */
  653. btr_pcur_open_at_index_side(plan->asc, index, node->latch_mode,
  654. &(plan->pcur), FALSE, mtr);
  655. }
  656. ut_ad(plan->n_rows_prefetched == 0);
  657. ut_ad(plan->n_rows_fetched == 0);
  658. ut_ad(plan->cursor_at_end == FALSE);
  659.  
  660. plan->pcur_is_open = TRUE;
  661. }
  662. /*************************************************************************
  663. Restores a stored pcur position to a table index. */
  664. static
  665. ibool
  666. row_sel_restore_pcur_pos(
  667. /*=====================*/
  668. /* out: TRUE if the cursor should be moved to
  669. the next record after we return from this
  670. function (moved to the previous, in the case
  671. of a descending cursor) without processing
  672. again the current cursor record */
  673. sel_node_t* node, /* in: select node */
  674. plan_t* plan, /* in: table plan */
  675. mtr_t* mtr) /* in: mtr */
  676. {
  677. ibool equal_position;
  678. ulint relative_position;
  679. ut_ad(!plan->cursor_at_end);
  680. relative_position = btr_pcur_get_rel_pos(&(plan->pcur));
  681. equal_position = btr_pcur_restore_position(node->latch_mode,
  682. &(plan->pcur), mtr);
  683. /* If the cursor is traveling upwards, and relative_position is
  684. (1) BTR_PCUR_BEFORE: this is not allowed, as we did not have a lock
  685. yet on the successor of the page infimum;
  686. (2) BTR_PCUR_AFTER: btr_pcur_restore_position placed the cursor on the
  687. first record GREATER than the predecessor of a page supremum; we have
  688. not yet processed the cursor record: no need to move the cursor to the
  689. next record;
  690. (3) BTR_PCUR_ON: btr_pcur_restore_position placed the cursor on the
  691. last record LESS or EQUAL to the old stored user record; (a) if
  692. equal_position is FALSE, this means that the cursor is now on a record
  693. less than the old user record, and we must move to the next record;
  694. (b) if equal_position is TRUE, then if
  695. plan->stored_cursor_rec_processed is TRUE, we must move to the next
  696. record, else there is no need to move the cursor. */
  697. if (plan->asc) {
  698. if (relative_position == BTR_PCUR_ON) {
  699. if (equal_position) {
  700. return(plan->stored_cursor_rec_processed);
  701. }
  702. return(TRUE);
  703. }
  704. ut_ad(relative_position == BTR_PCUR_AFTER
  705.       || relative_position == BTR_PCUR_AFTER_LAST_IN_TREE);
  706. return(FALSE);
  707. }
  708. /* If the cursor is traveling downwards, and relative_position is
  709. (1) BTR_PCUR_BEFORE: btr_pcur_restore_position placed the cursor on
  710. the last record LESS than the successor of a page infimum; we have not
  711. processed the cursor record: no need to move the cursor;
  712. (2) BTR_PCUR_AFTER: btr_pcur_restore_position placed the cursor on the
  713. first record GREATER than the predecessor of a page supremum; we have
  714. processed the cursor record: we should move the cursor to the previous
  715. record;
  716. (3) BTR_PCUR_ON: btr_pcur_restore_position placed the cursor on the
  717. last record LESS or EQUAL to the old stored user record; (a) if
  718. equal_position is FALSE, this means that the cursor is now on a record
  719. less than the old user record, and we need not move to the previous
  720. record; (b) if equal_position is TRUE, then if
  721. plan->stored_cursor_rec_processed is TRUE, we must move to the previous
  722. record, else there is no need to move the cursor. */
  723. if (relative_position == BTR_PCUR_BEFORE
  724.     || relative_position == BTR_PCUR_BEFORE_FIRST_IN_TREE) {
  725. return(FALSE);
  726. }
  727. if (relative_position == BTR_PCUR_ON) {
  728. if (equal_position) {
  729. return(plan->stored_cursor_rec_processed);
  730. }
  731. return(FALSE);
  732. }
  733. ut_ad(relative_position == BTR_PCUR_AFTER
  734.       || relative_position == BTR_PCUR_AFTER_LAST_IN_TREE);
  735. return(TRUE);
  736. }
  737. /*************************************************************************
  738. Resets a plan cursor to a closed state. */
  739. UNIV_INLINE
  740. void
  741. plan_reset_cursor(
  742. /*==============*/
  743. plan_t* plan) /* in: plan */
  744. {
  745. plan->pcur_is_open = FALSE;
  746. plan->cursor_at_end = FALSE;
  747. plan->n_rows_fetched = 0;
  748. plan->n_rows_prefetched = 0;
  749. }
  750. /*************************************************************************
  751. Tries to do a shortcut to fetch a clustered index record with a unique key,
  752. using the hash index if possible (not always). */
  753. static
  754. ulint
  755. row_sel_try_search_shortcut(
  756. /*========================*/
  757. /* out: SEL_FOUND, SEL_EXHAUSTED, SEL_RETRY */
  758. sel_node_t* node, /* in: select node for a consistent read */
  759. plan_t* plan, /* in: plan for a unique search in clustered
  760. index */
  761. mtr_t* mtr) /* in: mtr */
  762. {
  763. dict_index_t* index;
  764. rec_t* rec;
  765. index = plan->index;
  766. ut_ad(node->read_view);
  767. ut_ad(plan->unique_search);
  768. ut_ad(!plan->must_get_clust);
  769. #ifdef UNIV_SYNC_DEBUG
  770. ut_ad(rw_lock_own(&btr_search_latch, RW_LOCK_SHARED));
  771. #endif /* UNIV_SYNC_DEBUG */
  772. row_sel_open_pcur(node, plan, TRUE, mtr);
  773. rec = btr_pcur_get_rec(&(plan->pcur));
  774. if (!page_rec_is_user_rec(rec)) {
  775. return(SEL_RETRY);
  776. }
  777. ut_ad(plan->mode == PAGE_CUR_GE);
  778. /* As the cursor is now placed on a user record after a search with
  779. the mode PAGE_CUR_GE, the up_match field in the cursor tells how many
  780. fields in the user record matched to the search tuple */ 
  781. if (btr_pcur_get_up_match(&(plan->pcur)) < plan->n_exact_match) {
  782. return(SEL_EXHAUSTED);
  783. }
  784. /* This is a non-locking consistent read: if necessary, fetch
  785. a previous version of the record */
  786. if (index->type & DICT_CLUSTERED) {
  787. if (!lock_clust_rec_cons_read_sees(rec, index,
  788. node->read_view)) {
  789. return(SEL_RETRY);
  790. }
  791. } else if (!lock_sec_rec_cons_read_sees(rec, index, node->read_view)) {
  792. return(SEL_RETRY);
  793. }
  794. /* Test deleted flag. Fetch the columns needed in test conditions. */
  795. row_sel_fetch_columns(index, rec, UT_LIST_GET_FIRST(plan->columns));
  796. if (rec_get_deleted_flag(rec)) {
  797. return(SEL_EXHAUSTED);
  798. }
  799. /* Test the rest of search conditions */
  800. if (!row_sel_test_other_conds(plan)) {
  801. return(SEL_EXHAUSTED);
  802. }
  803. ut_ad(plan->pcur.latch_mode == node->latch_mode);
  804. plan->n_rows_fetched++;
  805. return(SEL_FOUND);
  806. }
  807. /*************************************************************************
  808. Performs a select step. */
  809. static
  810. ulint
  811. row_sel(
  812. /*====*/
  813. /* out: DB_SUCCESS or error code */
  814. sel_node_t* node, /* in: select node */
  815. que_thr_t* thr) /* in: query thread */
  816. {
  817. dict_index_t* index;
  818. plan_t* plan;
  819. mtr_t mtr;
  820. ibool moved;
  821. rec_t* rec;
  822. rec_t* old_vers;
  823. rec_t* clust_rec;
  824. ibool search_latch_locked;
  825. ibool consistent_read;
  826. /* The following flag becomes TRUE when we are doing a
  827. consistent read from a non-clustered index and we must look
  828. at the clustered index to find out the previous delete mark
  829. state of the non-clustered record: */
  830. ibool cons_read_requires_clust_rec = FALSE;
  831. ulint cost_counter = 0;
  832. ibool cursor_just_opened;
  833. ibool must_go_to_next;
  834. ibool leaf_contains_updates  = FALSE;
  835. /* TRUE if select_will_do_update is
  836. TRUE and the current clustered index
  837. leaf page has been updated during
  838. the current mtr: mtr must be committed
  839. at the same time as the leaf x-latch
  840. is released */
  841. ibool mtr_has_extra_clust_latch  = FALSE;
  842. /* TRUE if the search was made using
  843. a non-clustered index, and we had to
  844. access the clustered record: now &mtr
  845. contains a clustered index latch, and
  846. &mtr must be committed before we move
  847. to the next non-clustered record */
  848. ulint found_flag;
  849. ulint err;
  850. ut_ad(thr->run_node == node);
  851. search_latch_locked = FALSE;
  852. if (node->read_view) {
  853. /* In consistent reads, we try to do with the hash index and
  854. not to use the buffer page get. This is to reduce memory bus
  855. load resulting from semaphore operations. The search latch
  856. will be s-locked when we access an index with a unique search
  857. condition, but not locked when we access an index with a
  858. less selective search condition. */
  859. consistent_read = TRUE;
  860. } else {
  861. consistent_read = FALSE;
  862. }
  863. table_loop:
  864. /* TABLE LOOP
  865.    ----------
  866. This is the outer major loop in calculating a join. We come here when
  867. node->fetch_table changes, and after adding a row to aggregate totals
  868. and, of course, when this function is called. */
  869. ut_ad(leaf_contains_updates == FALSE);
  870. ut_ad(mtr_has_extra_clust_latch == FALSE);
  871. plan = sel_node_get_nth_plan(node, node->fetch_table);
  872. index = plan->index;
  873. if (plan->n_rows_prefetched > 0) {
  874. sel_pop_prefetched_row(plan);
  875. goto next_table_no_mtr;
  876. }
  877. if (plan->cursor_at_end) {
  878. /* The cursor has already reached the result set end: no more
  879. rows to process for this table cursor, as also the prefetch
  880. stack was empty */
  881. ut_ad(plan->pcur_is_open);
  882. goto table_exhausted_no_mtr;
  883. }
  884. /* Open a cursor to index, or restore an open cursor position */
  885. mtr_start(&mtr);
  886. if (consistent_read && plan->unique_search && !plan->pcur_is_open
  887. && !plan->must_get_clust) {
  888. if (!search_latch_locked) {
  889. rw_lock_s_lock(&btr_search_latch);
  890. search_latch_locked = TRUE;
  891. } else if (btr_search_latch.writer_is_wait_ex) {
  892. /* There is an x-latch request waiting: release the
  893. s-latch for a moment; as an s-latch here is often
  894. kept for some 10 searches before being released,
  895. a waiting x-latch request would block other threads
  896. from acquiring an s-latch for a long time, lowering
  897. performance significantly in multiprocessors. */
  898. rw_lock_s_unlock(&btr_search_latch);
  899. rw_lock_s_lock(&btr_search_latch);
  900. }
  901. found_flag = row_sel_try_search_shortcut(node, plan, &mtr);
  902. if (found_flag == SEL_FOUND) {
  903. goto next_table;
  904. } else if (found_flag == SEL_EXHAUSTED) {
  905. goto table_exhausted;
  906. }
  907. ut_ad(found_flag == SEL_RETRY);
  908. plan_reset_cursor(plan);
  909. mtr_commit(&mtr);
  910. mtr_start(&mtr);
  911. }
  912. if (search_latch_locked) {
  913. rw_lock_s_unlock(&btr_search_latch);
  914. search_latch_locked = FALSE;
  915. }
  916. if (!plan->pcur_is_open) {
  917. /* Evaluate the expressions to build the search tuple and
  918. open the cursor */
  919. row_sel_open_pcur(node, plan, search_latch_locked, &mtr);
  920. cursor_just_opened = TRUE;
  921. /* A new search was made: increment the cost counter */
  922. cost_counter++;
  923. } else {
  924. /* Restore pcur position to the index */
  925. must_go_to_next = row_sel_restore_pcur_pos(node, plan, &mtr);
  926. cursor_just_opened = FALSE;
  927. if (must_go_to_next) {
  928. /* We have already processed the cursor record: move
  929. to the next */
  930. goto next_rec;
  931. }
  932. }
  933. rec_loop:
  934. /* RECORD LOOP
  935.    -----------
  936. In this loop we use pcur and try to fetch a qualifying row, and
  937. also fill the prefetch buffer for this table if n_rows_fetched has
  938. exceeded a threshold. While we are inside this loop, the following
  939. holds:
  940. (1) &mtr is started,
  941. (2) pcur is positioned and open.
  942. NOTE that if cursor_just_opened is TRUE here, it means that we came
  943. to this point right after row_sel_open_pcur. */
  944. ut_ad(mtr_has_extra_clust_latch == FALSE);
  945. rec = btr_pcur_get_rec(&(plan->pcur));
  946. /* PHASE 1: Set a lock if specified */
  947. if (!node->asc && cursor_just_opened
  948. && (rec != page_get_supremum_rec(buf_frame_align(rec)))) {
  949. /* When we open a cursor for a descending search, we must set
  950. a next-key lock on the successor record: otherwise it would
  951. be possible to insert new records next to the cursor position,
  952. and it might be that these new records should appear in the
  953. search result set, resulting in the phantom problem. */
  954. if (!consistent_read) {
  955. /* If innodb_locks_unsafe_for_binlog option is used,
  956. we lock only the record, i.e. next-key locking is
  957. not used.
  958. */
  959. if (srv_locks_unsafe_for_binlog) {
  960. err = sel_set_rec_lock(page_rec_get_next(rec), 
  961. index,
  962. node->row_lock_mode,
  963. LOCK_REC_NOT_GAP, thr);
  964. } else {
  965. err = sel_set_rec_lock(page_rec_get_next(rec), 
  966. index,
  967. node->row_lock_mode, 
  968. LOCK_ORDINARY, thr);
  969. }
  970. if (err != DB_SUCCESS) {
  971. /* Note that in this case we will store in pcur
  972. the PREDECESSOR of the record we are waiting
  973. the lock for */
  974. goto lock_wait_or_error;
  975. }
  976. }
  977. }
  978. if (rec == page_get_infimum_rec(buf_frame_align(rec))) {
  979. /* The infimum record on a page cannot be in the result set,
  980. and neither can a record lock be placed on it: we skip such
  981. a record. We also increment the cost counter as we may have
  982. processed yet another page of index. */
  983. cost_counter++;
  984. goto next_rec;
  985. }
  986. if (!consistent_read) {
  987. /* Try to place a lock on the index record */
  988. /* If innodb_locks_unsafe_for_binlog option is used,
  989. we lock only the record, i.e. next-key locking is
  990. not used.
  991. */
  992. if (srv_locks_unsafe_for_binlog) {
  993. err = sel_set_rec_lock(rec, index, node->row_lock_mode,
  994. LOCK_REC_NOT_GAP, thr);
  995. } else {
  996. err = sel_set_rec_lock(rec, index, node->row_lock_mode,
  997. LOCK_ORDINARY, thr);
  998. }
  999. if (err != DB_SUCCESS) {
  1000. goto lock_wait_or_error;
  1001. }
  1002. }
  1003. if (rec == page_get_supremum_rec(buf_frame_align(rec))) {
  1004. /* A page supremum record cannot be in the result set: skip
  1005. it now when we have placed a possible lock on it */
  1006. goto next_rec;
  1007. }
  1008. ut_ad(page_rec_is_user_rec(rec));
  1009. if (cost_counter > SEL_COST_LIMIT) {
  1010. /* Now that we have placed the necessary locks, we can stop
  1011. for a while and store the cursor position; NOTE that if we
  1012. would store the cursor position BEFORE placing a record lock,
  1013. it might happen that the cursor would jump over some records
  1014. that another transaction could meanwhile insert adjacent to
  1015. the cursor: this would result in the phantom problem. */
  1016. goto stop_for_a_while;
  1017. }
  1018. /* PHASE 2: Check a mixed index mix id if needed */
  1019. if (plan->unique_search && cursor_just_opened) {
  1020. ut_ad(plan->mode == PAGE_CUR_GE);
  1021. /* As the cursor is now placed on a user record after a search
  1022. with the mode PAGE_CUR_GE, the up_match field in the cursor
  1023. tells how many fields in the user record matched to the search
  1024. tuple */ 
  1025. if (btr_pcur_get_up_match(&(plan->pcur))
  1026. < plan->n_exact_match) {
  1027. goto table_exhausted;
  1028. }
  1029. /* Ok, no need to test end_conds or mix id */
  1030. } else if (plan->mixed_index) {
  1031.      /* We have to check if the record in a mixed cluster belongs
  1032.      to this table */
  1033.   if (!dict_is_mixed_table_rec(plan->table, rec)) {
  1034.      goto next_rec;
  1035.      }
  1036. }
  1037. /* We are ready to look at a possible new index entry in the result
  1038. set: the cursor is now placed on a user record */
  1039. /* PHASE 3: Get previous version in a consistent read */
  1040. cons_read_requires_clust_rec = FALSE;
  1041. if (consistent_read) {
  1042. /* This is a non-locking consistent read: if necessary, fetch
  1043. a previous version of the record */
  1044. if (index->type & DICT_CLUSTERED) {
  1045. if (!lock_clust_rec_cons_read_sees(rec, index,
  1046. node->read_view)) {
  1047. err = row_sel_build_prev_vers(node->read_view,
  1048. plan, rec, &old_vers,
  1049. &mtr);
  1050. if (err != DB_SUCCESS) {
  1051. goto lock_wait_or_error;
  1052. }
  1053. if (old_vers == NULL) {
  1054. row_sel_fetch_columns(index, rec,
  1055.     UT_LIST_GET_FIRST(plan->columns));
  1056. if (!row_sel_test_end_conds(plan)) {
  1057. goto table_exhausted;
  1058. }
  1059. goto next_rec;
  1060. }
  1061. rec = old_vers;
  1062. }
  1063. } else if (!lock_sec_rec_cons_read_sees(rec, index,
  1064. node->read_view)) {
  1065. cons_read_requires_clust_rec = TRUE;
  1066. }
  1067. }
  1068. /* PHASE 4: Test search end conditions and deleted flag */
  1069. /* Fetch the columns needed in test conditions */
  1070. row_sel_fetch_columns(index, rec, UT_LIST_GET_FIRST(plan->columns));
  1071. /* Test the selection end conditions: these can only contain columns
  1072. which already are found in the index, even though the index might be
  1073. non-clustered */
  1074. if (plan->unique_search && cursor_just_opened) {
  1075. /* No test necessary: the test was already made above */
  1076. } else if (!row_sel_test_end_conds(plan)) {
  1077. goto table_exhausted;
  1078. }
  1079. if (rec_get_deleted_flag(rec) && !cons_read_requires_clust_rec) {
  1080. /* The record is delete marked: we can skip it if this is
  1081. not a consistent read which might see an earlier version
  1082. of a non-clustered index record */
  1083. if (plan->unique_search) {
  1084. goto table_exhausted;
  1085. }
  1086. goto next_rec;
  1087. }
  1088. /* PHASE 5: Get the clustered index record, if needed and if we did
  1089. not do the search using the clustered index */
  1090. if (plan->must_get_clust || cons_read_requires_clust_rec) {
  1091. /* It was a non-clustered index and we must fetch also the
  1092. clustered index record */
  1093. err = row_sel_get_clust_rec(node, plan, rec, thr, &clust_rec,
  1094. &mtr);
  1095. mtr_has_extra_clust_latch = TRUE;
  1096. if (err != DB_SUCCESS) {
  1097. goto lock_wait_or_error;
  1098. }
  1099. /* Retrieving the clustered record required a search:
  1100. increment the cost counter */
  1101. cost_counter++;
  1102. if (clust_rec == NULL) {
  1103. /* The record did not exist in the read view */
  1104. ut_ad(consistent_read);
  1105. goto next_rec;
  1106. }
  1107. if (rec_get_deleted_flag(clust_rec)) {
  1108. /* The record is delete marked: we can skip it */
  1109. goto next_rec;
  1110. }
  1111. if (node->can_get_updated) {
  1112. btr_pcur_store_position(&(plan->clust_pcur), &mtr);
  1113. }
  1114. }
  1115. /* PHASE 6: Test the rest of search conditions */
  1116. if (!row_sel_test_other_conds(plan)) {
  1117. if (plan->unique_search) {
  1118. goto table_exhausted;
  1119. }
  1120. goto next_rec;
  1121. }
  1122. /* PHASE 7: We found a new qualifying row for the current table; push
  1123. the row if prefetch is on, or move to the next table in the join */
  1124. plan->n_rows_fetched++;
  1125. ut_ad(plan->pcur.latch_mode == node->latch_mode);
  1126. if (node->select_will_do_update) {
  1127. /* This is a searched update and we can do the update in-place,
  1128. saving CPU time */
  1129. row_upd_in_place_in_select(node, thr, &mtr);
  1130. leaf_contains_updates = TRUE;
  1131. /* When the database is in the online backup mode, the number
  1132. of log records for a single mtr should be small: increment the
  1133. cost counter to ensure it */
  1134. cost_counter += 1 + (SEL_COST_LIMIT / 8);
  1135. if (plan->unique_search) {
  1136. goto table_exhausted;
  1137. }
  1138. goto next_rec;
  1139. }
  1140. if ((plan->n_rows_fetched <= SEL_PREFETCH_LIMIT)
  1141. || plan->unique_search || plan->no_prefetch) {
  1142. /* No prefetch in operation: go to the next table */
  1143. goto next_table;
  1144. }
  1145. sel_push_prefetched_row(plan);
  1146. if (plan->n_rows_prefetched == SEL_MAX_N_PREFETCH) {
  1147. /* The prefetch buffer is now full */
  1148. sel_pop_prefetched_row(plan);
  1149. goto next_table;
  1150. }
  1151. next_rec:
  1152. ut_ad(!search_latch_locked);
  1153. if (mtr_has_extra_clust_latch) {
  1154. /* We must commit &mtr if we are moving to the next
  1155. non-clustered index record, because we could break the
  1156. latching order if we would access a different clustered
  1157. index page right away without releasing the previous. */
  1158. goto commit_mtr_for_a_while;
  1159. }
  1160. if (leaf_contains_updates
  1161. && btr_pcur_is_after_last_on_page(&(plan->pcur), &mtr)) {
  1162. /* We must commit &mtr if we are moving to a different page,
  1163. because we have done updates to the x-latched leaf page, and
  1164. the latch would be released in btr_pcur_move_to_next, without
  1165. &mtr getting committed there */
  1166. ut_ad(node->asc);
  1167. goto commit_mtr_for_a_while;
  1168. }
  1169. if (node->asc) {
  1170. moved = btr_pcur_move_to_next(&(plan->pcur), &mtr);
  1171. } else {
  1172. moved = btr_pcur_move_to_prev(&(plan->pcur), &mtr);
  1173. }
  1174. if (!moved) {
  1175. goto table_exhausted;
  1176. }
  1177. cursor_just_opened = FALSE;
  1178. /* END OF RECORD LOOP
  1179.    ------------------ */
  1180. goto rec_loop;
  1181. next_table:
  1182. /* We found a record which satisfies the conditions: we can move to
  1183. the next table or return a row in the result set */
  1184. ut_ad(btr_pcur_is_on_user_rec(&(plan->pcur), &mtr));
  1185. if (plan->unique_search && !node->can_get_updated) {
  1186. plan->cursor_at_end = TRUE;
  1187. } else {
  1188. ut_ad(!search_latch_locked);
  1189. plan->stored_cursor_rec_processed = TRUE;
  1190. btr_pcur_store_position(&(plan->pcur), &mtr);
  1191. }
  1192. mtr_commit(&mtr);
  1193. leaf_contains_updates = FALSE;
  1194. mtr_has_extra_clust_latch = FALSE;
  1195. next_table_no_mtr:
  1196. /* If we use 'goto' to this label, it means that the row was popped
  1197. from the prefetched rows stack, and &mtr is already committed */
  1198. if (node->fetch_table + 1 == node->n_tables) {
  1199. sel_eval_select_list(node);
  1200. if (node->is_aggregate) {
  1201. goto table_loop;
  1202. }
  1203. sel_assign_into_var_values(node->into_list, node);
  1204. thr->run_node = que_node_get_parent(node);
  1205. if (search_latch_locked) {
  1206. rw_lock_s_unlock(&btr_search_latch);
  1207. }
  1208. return(DB_SUCCESS);
  1209. }
  1210. node->fetch_table++;
  1211. /* When we move to the next table, we first reset the plan cursor:
  1212. we do not care about resetting it when we backtrack from a table */
  1213. plan_reset_cursor(sel_node_get_nth_plan(node, node->fetch_table));
  1214. goto table_loop;
  1215. table_exhausted:
  1216. /* The table cursor pcur reached the result set end: backtrack to the
  1217. previous table in the join if we do not have cached prefetched rows */
  1218. plan->cursor_at_end = TRUE;
  1219. mtr_commit(&mtr);
  1220. leaf_contains_updates = FALSE;
  1221. mtr_has_extra_clust_latch = FALSE;
  1222. if (plan->n_rows_prefetched > 0) {
  1223. /* The table became exhausted during a prefetch */
  1224. sel_pop_prefetched_row(plan);
  1225. goto next_table_no_mtr;
  1226. }
  1227. table_exhausted_no_mtr:
  1228. if (node->fetch_table == 0) {
  1229. if (node->is_aggregate && !node->aggregate_already_fetched) {
  1230. node->aggregate_already_fetched = TRUE;
  1231. sel_assign_into_var_values(node->into_list, node);
  1232. thr->run_node = que_node_get_parent(node);
  1233. if (search_latch_locked) {
  1234. rw_lock_s_unlock(&btr_search_latch);
  1235. }
  1236. return(DB_SUCCESS);
  1237. }
  1238. node->state = SEL_NODE_NO_MORE_ROWS;
  1239. thr->run_node = que_node_get_parent(node);
  1240. if (search_latch_locked) {
  1241. rw_lock_s_unlock(&btr_search_latch);
  1242. }
  1243. return(DB_SUCCESS);
  1244. }
  1245. node->fetch_table--;
  1246. goto table_loop;
  1247. stop_for_a_while:
  1248. /* Return control for a while to que_run_threads, so that runaway
  1249. queries can be canceled. NOTE that when we come here, we must, in a
  1250. locking read, have placed the necessary (possibly waiting request)
  1251. record lock on the cursor record or its successor: when we reposition
  1252. the cursor, this record lock guarantees that nobody can meanwhile have
  1253. inserted new records which should have appeared in the result set,
  1254. which would result in the phantom problem. */ 
  1255. ut_ad(!search_latch_locked);
  1256. plan->stored_cursor_rec_processed = FALSE;
  1257. btr_pcur_store_position(&(plan->pcur), &mtr);
  1258. mtr_commit(&mtr);
  1259. ut_ad(sync_thread_levels_empty_gen(TRUE));
  1260. return(DB_SUCCESS);
  1261. commit_mtr_for_a_while:
  1262. /* Stores the cursor position and commits &mtr; this is used if
  1263. &mtr may contain latches which would break the latching order if
  1264. &mtr would not be committed and the latches released. */ 
  1265. plan->stored_cursor_rec_processed = TRUE;
  1266. ut_ad(!search_latch_locked);
  1267. btr_pcur_store_position(&(plan->pcur), &mtr);
  1268. mtr_commit(&mtr);
  1269. leaf_contains_updates = FALSE;
  1270. mtr_has_extra_clust_latch = FALSE;
  1271. ut_ad(sync_thread_levels_empty_gen(TRUE));
  1272. goto table_loop;
  1273. lock_wait_or_error:
  1274. /* See the note at stop_for_a_while: the same holds for this case */
  1275. ut_ad(!btr_pcur_is_before_first_on_page(&(plan->pcur), &mtr)
  1276. || !node->asc);
  1277. ut_ad(!search_latch_locked);
  1278. plan->stored_cursor_rec_processed = FALSE;
  1279. btr_pcur_store_position(&(plan->pcur), &mtr);
  1280. mtr_commit(&mtr);
  1281. ut_ad(sync_thread_levels_empty_gen(TRUE));
  1282. return(err);
  1283. }
  1284. /**************************************************************************
  1285. Performs a select step. This is a high-level function used in SQL execution
  1286. graphs. */
  1287. que_thr_t*
  1288. row_sel_step(
  1289. /*=========*/
  1290. /* out: query thread to run next or NULL */
  1291. que_thr_t* thr) /* in: query thread */
  1292. {
  1293. ulint i_lock_mode;
  1294. sym_node_t* table_node;
  1295. sel_node_t* node;
  1296. ulint err;
  1297. ut_ad(thr);
  1298. node = thr->run_node;
  1299. ut_ad(que_node_get_type(node) == QUE_NODE_SELECT);
  1300. /* If this is a new time this node is executed (or when execution
  1301. resumes after wait for a table intention lock), set intention locks
  1302. on the tables, or assign a read view */
  1303. if (node->into_list && (thr->prev_node == que_node_get_parent(node))) {
  1304. node->state = SEL_NODE_OPEN;
  1305. }
  1306. if (node->state == SEL_NODE_OPEN) {
  1307. /* It may be that the current session has not yet started
  1308. its transaction, or it has been committed: */
  1309. trx_start_if_not_started(thr_get_trx(thr));
  1310. plan_reset_cursor(sel_node_get_nth_plan(node, 0));
  1311. if (node->consistent_read) {
  1312. /* Assign a read view for the query */
  1313. node->read_view = trx_assign_read_view(
  1314. thr_get_trx(thr));
  1315. } else {
  1316. if (node->set_x_locks) {
  1317. i_lock_mode = LOCK_IX;
  1318. } else {
  1319. i_lock_mode = LOCK_IS;
  1320. }
  1321. table_node = node->table_list;
  1322. while (table_node) {
  1323. err = lock_table(0, table_node->table,
  1324. i_lock_mode, thr);
  1325. if (err != DB_SUCCESS) {
  1326. que_thr_handle_error(thr, DB_ERROR,
  1327. NULL, 0);
  1328. return(NULL);
  1329. }
  1330. table_node = que_node_get_next(table_node);
  1331. }
  1332. }
  1333. /* If this is an explicit cursor, copy stored procedure
  1334. variable values, so that the values cannot change between
  1335. fetches (currently, we copy them also for non-explicit
  1336. cursors) */
  1337. if (node->explicit_cursor &&
  1338. UT_LIST_GET_FIRST(node->copy_variables)) {
  1339. row_sel_copy_input_variable_vals(node);
  1340. }
  1341. node->state = SEL_NODE_FETCH;
  1342. node->fetch_table = 0;
  1343. if (node->is_aggregate) {
  1344. /* Reset the aggregate total values */
  1345. sel_reset_aggregate_vals(node);
  1346. }
  1347. }
  1348. err = row_sel(node, thr);
  1349. /* NOTE! if queries are parallelized, the following assignment may
  1350. have problems; the assignment should be made only if thr is the
  1351. only top-level thr in the graph: */
  1352. thr->graph->last_sel_node = node;
  1353. if (err == DB_SUCCESS) {
  1354. /* Ok: do nothing */
  1355. } else if (err == DB_LOCK_WAIT) {
  1356. return(NULL);
  1357. } else {
  1358. /* SQL error detected */
  1359. fprintf(stderr, "SQL error %lun", (ulong) err);
  1360. que_thr_handle_error(thr, DB_ERROR, NULL, 0);
  1361. return(NULL);
  1362. }
  1363. return(thr);
  1364. /**************************************************************************
  1365. Performs a fetch for a cursor. */
  1366. que_thr_t*
  1367. fetch_step(
  1368. /*=======*/
  1369. /* out: query thread to run next or NULL */
  1370. que_thr_t* thr) /* in: query thread */
  1371. {
  1372. sel_node_t* sel_node;
  1373. fetch_node_t* node;
  1374. ut_ad(thr);
  1375. node = thr->run_node;
  1376. sel_node = node->cursor_def;
  1377. ut_ad(que_node_get_type(node) == QUE_NODE_FETCH);
  1378. if (thr->prev_node != que_node_get_parent(node)) {
  1379. if (sel_node->state != SEL_NODE_NO_MORE_ROWS) {
  1380. sel_assign_into_var_values(node->into_list, sel_node);
  1381. }
  1382. thr->run_node = que_node_get_parent(node);
  1383. return(thr);
  1384. }
  1385. /* Make the fetch node the parent of the cursor definition for
  1386. the time of the fetch, so that execution knows to return to this
  1387. fetch node after a row has been selected or we know that there is
  1388. no row left */
  1389. sel_node->common.parent = node;
  1390. if (sel_node->state == SEL_NODE_CLOSED) {
  1391. /* SQL error detected */
  1392. fprintf(stderr, "SQL error %lun", (ulong)DB_ERROR);
  1393. que_thr_handle_error(thr, DB_ERROR, NULL, 0);
  1394. return(NULL);
  1395. }
  1396. thr->run_node = sel_node;
  1397. return(thr);
  1398. /***************************************************************
  1399. Prints a row in a select result. */
  1400. que_thr_t*
  1401. row_printf_step(
  1402. /*============*/
  1403. /* out: query thread to run next or NULL */
  1404. que_thr_t* thr) /* in: query thread */
  1405. {
  1406. row_printf_node_t* node;
  1407. sel_node_t* sel_node;
  1408. que_node_t* arg;
  1409. ut_ad(thr);
  1410. node = thr->run_node;
  1411. sel_node = node->sel_node;
  1412. ut_ad(que_node_get_type(node) == QUE_NODE_ROW_PRINTF);
  1413. if (thr->prev_node == que_node_get_parent(node)) {
  1414. /* Reset the cursor */
  1415. sel_node->state = SEL_NODE_OPEN;
  1416. /* Fetch next row to print */
  1417. thr->run_node = sel_node;
  1418. return(thr);
  1419. }
  1420. if (sel_node->state != SEL_NODE_FETCH) {
  1421. ut_ad(sel_node->state == SEL_NODE_NO_MORE_ROWS);
  1422. /* No more rows to print */
  1423. thr->run_node = que_node_get_parent(node);
  1424. return(thr);
  1425. }
  1426. arg = sel_node->select_list;
  1427. while (arg) {
  1428. dfield_print_also_hex(que_node_get_val(arg));
  1429. fputs(" ::: ", stderr);
  1430. arg = que_node_get_next(arg);
  1431. }
  1432. putc('n', stderr);
  1433. /* Fetch next row to print */
  1434. thr->run_node = sel_node;
  1435. return(thr);
  1436. /********************************************************************
  1437. Converts a key value stored in MySQL format to an Innobase dtuple. The last
  1438. field of the key value may be just a prefix of a fixed length field: hence
  1439. the parameter key_len. But currently we do not allow search keys where the
  1440. last field is only a prefix of the full key field len and print a warning if
  1441. such appears. */
  1442. void
  1443. row_sel_convert_mysql_key_to_innobase(
  1444. /*==================================*/
  1445. dtuple_t* tuple, /* in: tuple where to build;
  1446. NOTE: we assume that the type info
  1447. in the tuple is already according
  1448. to index! */
  1449. byte* buf, /* in: buffer to use in field
  1450. conversions */
  1451. ulint buf_len, /* in: buffer length */
  1452. dict_index_t* index, /* in: index of the key value */
  1453. byte* key_ptr, /* in: MySQL key value */
  1454. ulint key_len, /* in: MySQL key value length */
  1455. trx_t* trx) /* in: transaction */
  1456. {
  1457. byte* original_buf = buf;
  1458. byte* original_key_ptr = key_ptr;
  1459. dict_field_t* field;
  1460. dfield_t* dfield;
  1461. ulint data_offset;
  1462. ulint data_len;
  1463. ulint data_field_len;
  1464. ibool is_null;
  1465. byte* key_end;
  1466. ulint n_fields = 0;
  1467. ulint type;
  1468. /* For documentation of the key value storage format in MySQL, see
  1469. ha_innobase::store_key_val_for_row() in ha_innodb.cc. */
  1470. key_end = key_ptr + key_len;
  1471. /* Permit us to access any field in the tuple (ULINT_MAX): */
  1472. dtuple_set_n_fields(tuple, ULINT_MAX);
  1473. dfield = dtuple_get_nth_field(tuple, 0);
  1474. field = dict_index_get_nth_field(index, 0);
  1475. if (dfield_get_type(dfield)->mtype == DATA_SYS) {
  1476. /* A special case: we are looking for a position in the
  1477. generated clustered index which InnoDB automatically added
  1478. to a table with no primary key: the first and the only
  1479. ordering column is ROW_ID which InnoDB stored to the key_ptr
  1480. buffer. */
  1481. ut_a(key_len == DATA_ROW_ID_LEN);
  1482. dfield_set_data(dfield, key_ptr, DATA_ROW_ID_LEN);
  1483. dtuple_set_n_fields(tuple, 1);
  1484. return;
  1485. }
  1486. while (key_ptr < key_end) {
  1487. ut_a(dict_col_get_type(field->col)->mtype
  1488.      == dfield_get_type(dfield)->mtype);
  1489. data_offset = 0;
  1490. is_null = FALSE;
  1491.      if (!(dfield_get_type(dfield)->prtype & DATA_NOT_NULL)) {
  1492.      /* The first byte in the field tells if this is
  1493.      an SQL NULL value */
  1494.     
  1495. data_offset = 1;
  1496.   if (*key_ptr != 0) {
  1497.        dfield_set_data(dfield, NULL, UNIV_SQL_NULL);
  1498. is_null = TRUE;
  1499.        }
  1500.        }
  1501. type = dfield_get_type(dfield)->mtype;
  1502. /* Calculate data length and data field total length */
  1503. if (type == DATA_BLOB) {
  1504. /* The key field is a column prefix of a BLOB or
  1505. TEXT type column */
  1506. ut_a(field->prefix_len > 0);
  1507. /* MySQL stores the actual data length to the first 2
  1508. bytes after the optional SQL NULL marker byte. The
  1509. storage format is little-endian, that is, the most
  1510. significant byte at a higher address. In UTF-8, MySQL
  1511. seems to reserve field->prefix_len bytes for
  1512. storing this field in the key value buffer, even
  1513. though the actual value only takes data_len bytes
  1514. from the start. */
  1515. data_len = key_ptr[data_offset]
  1516.    + 256 * key_ptr[data_offset + 1];
  1517. data_field_len = data_offset + 2 + field->prefix_len;
  1518. data_offset += 2;
  1519. type = DATA_CHAR; /* now that we know the length, we
  1520.   store the column value like it would
  1521.   be a fixed char field */
  1522. } else if (field->prefix_len > 0) {
  1523. /* Looks like MySQL pads unused end bytes in the
  1524. prefix with space. Therefore, also in UTF-8, it is ok
  1525. to compare with a prefix containing full prefix_len
  1526. bytes, and no need to take at most prefix_len / 3
  1527. UTF-8 characters from the start.
  1528. If the prefix is used as the upper end of a LIKE
  1529. 'abc%' query, then MySQL pads the end with chars
  1530. 0xff. TODO: in that case does it any harm to compare
  1531. with the full prefix_len bytes. How do characters
  1532. 0xff in UTF-8 behave? */
  1533.         data_len = field->prefix_len;
  1534. data_field_len = data_offset + data_len;
  1535. } else {
  1536. data_len = dfield_get_type(dfield)->len;
  1537. data_field_len = data_offset + data_len;
  1538. }
  1539. /* Storing may use at most data_len bytes of buf */
  1540. if (!is_null) {
  1541.         row_mysql_store_col_in_innobase_format(
  1542. dfield, buf, key_ptr + data_offset,
  1543. data_len, type,
  1544. dfield_get_type(dfield)->prtype
  1545. & DATA_UNSIGNED);
  1546. buf += data_len;
  1547. }
  1548.      key_ptr += data_field_len;
  1549. if (key_ptr > key_end) {
  1550. /* The last field in key was not a complete key field
  1551. but a prefix of it.
  1552.         Print a warning about this! HA_READ_PREFIX_LAST does
  1553. not currently work in InnoDB with partial-field key
  1554. value prefixes. Since MySQL currently uses a padding
  1555. trick to calculate LIKE 'abc%' type queries there
  1556. should never be partial-field prefixes in searches. */
  1557.         ut_print_timestamp(stderr);
  1558. fputs(
  1559.   "  InnoDB: Warning: using a partial-field key prefix in search.n"
  1560.   "InnoDB: ", stderr);
  1561. dict_index_name_print(stderr, trx, index);
  1562. fprintf(stderr, ". Last data field length %lu bytes,n"
  1563.   "InnoDB: key ptr now exceeds key end by %lu bytes.n"
  1564.   "InnoDB: Key value in the MySQL format:n",
  1565.   (ulong) data_field_len,
  1566.   (ulong) (key_ptr - key_end));
  1567. fflush(stderr);
  1568. ut_print_buf(stderr, original_key_ptr, key_len);
  1569. fprintf(stderr, "n");
  1570. if (!is_null) {
  1571.         dfield->len -= (ulint)(key_ptr - key_end);
  1572. }
  1573. }
  1574. n_fields++;    
  1575.      field++;
  1576. dfield++;
  1577.    }
  1578. ut_a(buf <= original_buf + buf_len);
  1579.   /* We set the length of tuple to n_fields: we assume that the memory
  1580. area allocated for it is big enough (usually bigger than n_fields). */
  1581.  
  1582.   dtuple_set_n_fields(tuple, n_fields);
  1583. }
  1584. /******************************************************************
  1585. Stores the row id to the prebuilt struct. */
  1586. static
  1587. void
  1588. row_sel_store_row_id_to_prebuilt(
  1589. /*=============================*/
  1590. row_prebuilt_t* prebuilt, /* in: prebuilt */
  1591. rec_t* index_rec, /* in: record */
  1592. dict_index_t* index) /* in: index of the record */
  1593. {
  1594. byte* data;
  1595. ulint len;
  1596. data = rec_get_nth_field(index_rec,
  1597. dict_index_get_sys_col_pos(index, DATA_ROW_ID), &len);
  1598. if (len != DATA_ROW_ID_LEN) {
  1599.         fprintf(stderr,
  1600. "InnoDB: Error: Row id field is wrong length %lu in ", (ulong) len);
  1601. dict_index_name_print(stderr, prebuilt->trx, index);
  1602. fprintf(stderr, "n"
  1603. "InnoDB: Field number %lu, record:n",
  1604. (ulong) dict_index_get_sys_col_pos(index, DATA_ROW_ID));
  1605. rec_print(stderr, index_rec);
  1606. putc('n', stderr);
  1607. ut_error;
  1608. }
  1609. ut_memcpy(prebuilt->row_id, data, len);
  1610. }
  1611. /******************************************************************
  1612. Stores a non-SQL-NULL field in the MySQL format. */
  1613. UNIV_INLINE
  1614. void
  1615. row_sel_field_store_in_mysql_format(
  1616. /*================================*/
  1617. byte* dest, /* in/out: buffer where to store; NOTE that BLOBs
  1618. are not in themselves stored here: the caller must
  1619. allocate and copy the BLOB into buffer before, and pass
  1620. the pointer to the BLOB in 'data' */
  1621. ulint col_len,/* in: MySQL column length */
  1622. byte* data, /* in: data to store */
  1623. ulint len, /* in: length of the data */
  1624. ulint type, /* in: data type */
  1625. ulint is_unsigned)/* in: != 0 if an unsigned integer type */
  1626. {
  1627. byte* ptr;
  1628. ut_ad(len != UNIV_SQL_NULL);
  1629. if (type == DATA_INT) {
  1630. /* Convert integer data from Innobase to a little-endian
  1631. format, sign bit restored to normal */
  1632. ptr = dest + len;
  1633. for (;;) {
  1634. ptr--;
  1635. *ptr = *data;
  1636. if (ptr == dest) {
  1637. break;
  1638. }
  1639. data++;
  1640. }
  1641. if (!is_unsigned) {
  1642. dest[len - 1] = (byte) (dest[len - 1] ^ 128);
  1643. }
  1644. ut_ad(col_len == len);
  1645. } else if (type == DATA_VARCHAR || type == DATA_VARMYSQL
  1646. || type == DATA_BINARY) {
  1647. /* Store the length of the data to the first two bytes of
  1648. dest; does not do anything yet because MySQL has
  1649. no real vars! */
  1650. dest = row_mysql_store_var_len(dest, len);
  1651. ut_memcpy(dest, data, len);
  1652. /* ut_ad(col_len >= len + 2); No real var implemented in
  1653. MySQL yet! */
  1654. } else if (type == DATA_BLOB) {
  1655. /* Store a pointer to the BLOB buffer to dest: the BLOB was
  1656. already copied to the buffer in row_sel_store_mysql_rec */
  1657. row_mysql_store_blob_ref(dest, col_len, data, len);
  1658. } else {
  1659. ut_memcpy(dest, data, len);
  1660. ut_ad(col_len == len);
  1661. }
  1662. }
  1663. /******************************************************************
  1664. Convert a row in the Innobase format to a row in the MySQL format.
  1665. Note that the template in prebuilt may advise us to copy only a few
  1666. columns to mysql_rec, other columns are left blank. All columns may not
  1667. be needed in the query. */
  1668. static
  1669. ibool
  1670. row_sel_store_mysql_rec(
  1671. /*====================*/
  1672. /* out: TRUE if success, FALSE if
  1673. could not allocate memory for a BLOB
  1674. (though we may also assert in that
  1675. case) */
  1676. byte* mysql_rec, /* out: row in the MySQL format */
  1677. row_prebuilt_t* prebuilt, /* in: prebuilt struct */
  1678. rec_t* rec) /* in: Innobase record in the index
  1679. which was described in prebuilt's
  1680. template */
  1681. {
  1682. mysql_row_templ_t* templ;
  1683. mem_heap_t* extern_field_heap = NULL;
  1684. byte* data;
  1685. ulint len;
  1686. byte* blob_buf;
  1687. int pad_char;
  1688. ulint i;
  1689. ut_ad(prebuilt->mysql_template);
  1690. if (prebuilt->blob_heap != NULL) {
  1691. mem_heap_free(prebuilt->blob_heap);
  1692. prebuilt->blob_heap = NULL;
  1693. }
  1694. /* MySQL assumes that all columns have the SQL NULL bit set unless it
  1695. is a nullable column with a non-NULL value */
  1696. memset(mysql_rec, 0xFF, prebuilt->null_bitmap_len);
  1697. for (i = 0; i < prebuilt->n_template; i++) {
  1698. templ = prebuilt->mysql_template + i;
  1699. data = rec_get_nth_field(rec, templ->rec_field_no, &len);
  1700. if (rec_get_nth_field_extern_bit(rec, templ->rec_field_no)) {
  1701. /* Copy an externally stored field to the temporary
  1702. heap */
  1703. ut_a(!prebuilt->trx->has_search_latch);
  1704. extern_field_heap = mem_heap_create(UNIV_PAGE_SIZE);
  1705. /* NOTE: if we are retrieving a big BLOB, we may
  1706. already run out of memory in the next call, which
  1707. causes an assert */
  1708. data = btr_rec_copy_externally_stored_field(rec,
  1709. templ->rec_field_no, &len,
  1710. extern_field_heap);
  1711. ut_a(len != UNIV_SQL_NULL);
  1712. }
  1713. if (len != UNIV_SQL_NULL) {
  1714. if (templ->type == DATA_BLOB) {
  1715. ut_a(prebuilt->templ_contains_blob);
  1716. /* A heuristic test that we can allocate the
  1717. memory for a big BLOB. We have a safety margin
  1718. of 1000000 bytes. Since the test takes some
  1719. CPU time, we do not use it for small BLOBs. */
  1720. if (len > 2000000
  1721.     && !ut_test_malloc(len + 1000000)) {
  1722. ut_print_timestamp(stderr);
  1723. fprintf(stderr,
  1724. "  InnoDB: Warning: could not allocate %lu + 1000000 bytes to retrieven"
  1725. "InnoDB: a big column. Table name ", (ulong) len);
  1726. ut_print_name(stderr,
  1727. prebuilt->trx,
  1728. prebuilt->table->name);
  1729. putc('n', stderr);
  1730. if (extern_field_heap) {
  1731. mem_heap_free(
  1732. extern_field_heap);
  1733. }
  1734. return(FALSE);
  1735. }
  1736. /* Copy the BLOB data to the BLOB heap of
  1737. prebuilt */
  1738. if (prebuilt->blob_heap == NULL) {
  1739. prebuilt->blob_heap =
  1740. mem_heap_create(len);
  1741. }
  1742. blob_buf = mem_heap_alloc(prebuilt->blob_heap,
  1743. len);
  1744. ut_memcpy(blob_buf, data, len);
  1745. data = blob_buf;
  1746. }
  1747. row_sel_field_store_in_mysql_format(
  1748. mysql_rec + templ->mysql_col_offset,
  1749. templ->mysql_col_len, data, len,
  1750. templ->type, templ->is_unsigned);
  1751. if (templ->type == DATA_VARCHAR
  1752. || templ->type == DATA_VARMYSQL
  1753. || templ->type == DATA_BINARY) {
  1754. /* Pad with trailing spaces */
  1755. data = mysql_rec + templ->mysql_col_offset;
  1756. /* Handle UCS2 strings differently.  As no new
  1757. collations will be introduced in 4.1, we
  1758. hardcode the charset-collation codes here.
  1759. 5.0 will use a different approach. */
  1760. if (templ->charset == 35
  1761. || templ->charset == 90
  1762. || (templ->charset >= 128
  1763. && templ->charset <= 144)) {
  1764. /* space=0x0020 */
  1765. ulint col_len = templ->mysql_col_len;
  1766. ut_a(!(col_len & 1));
  1767. if (len & 1) {
  1768. /* A 0x20 has been stripped
  1769. from the column.
  1770. Pad it back. */
  1771. goto pad_0x20;
  1772. }
  1773. /* Pad the rest of the string
  1774. with 0x0020 */
  1775. while (len < col_len) {
  1776. data[len++] = 0x00;
  1777. pad_0x20:
  1778. data[len++] = 0x20;
  1779. }
  1780. } else {
  1781. /* space=0x20 */
  1782. memset(data + len, 0x20,
  1783. templ->mysql_col_len - len);
  1784. }
  1785. }
  1786. /* Cleanup */
  1787. if (extern_field_heap) {
  1788.   mem_heap_free(extern_field_heap);
  1789. extern_field_heap = NULL;
  1790.   }
  1791. if (templ->mysql_null_bit_mask) {
  1792. /* It is a nullable column with a non-NULL
  1793. value */
  1794. mysql_rec[templ->mysql_null_byte_offset] &=
  1795. ~(byte) (templ->mysql_null_bit_mask);
  1796. }
  1797. } else {
  1798.         /* MySQL seems to assume the field for an SQL NULL
  1799.         value is set to zero or space. Not taking this into
  1800. account caused seg faults with NULL BLOB fields, and
  1801.         bug number 154 in the MySQL bug database: GROUP BY
  1802.         and DISTINCT could treat NULL values inequal. */
  1803. if (templ->type == DATA_VARCHAR
  1804.     || templ->type == DATA_CHAR
  1805.     || templ->type == DATA_BINARY
  1806.     || templ->type == DATA_FIXBINARY
  1807.     || templ->type == DATA_MYSQL
  1808.     || templ->type == DATA_VARMYSQL) {
  1809.         /* MySQL pads all non-BLOB and non-TEXT
  1810. string types with space ' ' */
  1811.     
  1812. pad_char = ' ';
  1813. } else {
  1814. pad_char = '';
  1815. }
  1816. /* Handle UCS2 strings differently.  As no new
  1817. collations will be introduced in 4.1,
  1818. we hardcode the charset-collation codes here.
  1819. 5.0 will use a different approach. */
  1820. if (pad_char != ''
  1821. && (templ->charset == 35
  1822. || templ->charset == 90
  1823. || (templ->charset >= 128
  1824. && templ->charset <= 144))) {
  1825. /* There are two bytes per char, so the length
  1826. has to be an even number. */
  1827. ut_a(!(templ->mysql_col_len & 1));
  1828. data = mysql_rec + templ->mysql_col_offset;
  1829. len = templ->mysql_col_len;
  1830. /* Pad with 0x0020. */
  1831. while (len >= 2) {
  1832. *data++ = 0x00;
  1833. *data++ = 0x20;
  1834. len -= 2;
  1835. }
  1836. } else {
  1837. memset(mysql_rec + templ->mysql_col_offset,
  1838. pad_char, templ->mysql_col_len);
  1839. }
  1840. }
  1841. return(TRUE);
  1842. }
  1843. /*************************************************************************
  1844. Builds a previous version of a clustered index record for a consistent read */
  1845. static
  1846. ulint
  1847. row_sel_build_prev_vers_for_mysql(
  1848. /*==============================*/
  1849. /* out: DB_SUCCESS or error code */
  1850. read_view_t* read_view, /* in: read view */
  1851. dict_index_t* clust_index, /* in: clustered index */
  1852. row_prebuilt_t* prebuilt, /* in: prebuilt struct */
  1853. rec_t* rec, /* in: record in a clustered index */
  1854. rec_t** old_vers, /* out: old version, or NULL if the
  1855. record does not exist in the view:
  1856. i.e., it was freshly inserted
  1857. afterwards */
  1858. mtr_t* mtr) /* in: mtr */
  1859. {
  1860. ulint err;
  1861. if (prebuilt->old_vers_heap) {
  1862. mem_heap_empty(prebuilt->old_vers_heap);
  1863. } else {
  1864. prebuilt->old_vers_heap = mem_heap_create(200);
  1865. }
  1866. err = row_vers_build_for_consistent_read(rec, mtr, clust_index,
  1867. read_view, prebuilt->old_vers_heap,
  1868. old_vers);
  1869. return(err);
  1870. }
  1871. /*************************************************************************
  1872. Retrieves the clustered index record corresponding to a record in a
  1873. non-clustered index. Does the necessary locking. Used in the MySQL
  1874. interface. */
  1875. static
  1876. ulint
  1877. row_sel_get_clust_rec_for_mysql(
  1878. /*============================*/
  1879. /* out: DB_SUCCESS or error code */
  1880. row_prebuilt_t* prebuilt,/* in: prebuilt struct in the handle */
  1881. dict_index_t* sec_index,/* in: secondary index where rec resides */
  1882. rec_t* rec, /* in: record in a non-clustered index; if
  1883. this is a locking read, then rec is not
  1884. allowed to be delete-marked, and that would
  1885. not make sense either */
  1886. que_thr_t* thr, /* in: query thread */
  1887. rec_t** out_rec,/* out: clustered record or an old version of
  1888. it, NULL if the old version did not exist
  1889. in the read view, i.e., it was a fresh
  1890. inserted version */
  1891. mtr_t* mtr) /* in: mtr used to get access to the
  1892. non-clustered record; the same mtr is used to
  1893. access the clustered index */
  1894. {
  1895. dict_index_t* clust_index;
  1896. rec_t* clust_rec;
  1897. rec_t* old_vers;
  1898. ulint err;
  1899. trx_t* trx;
  1900. *out_rec = NULL;
  1901. trx = thr_get_trx(thr);
  1902. row_build_row_ref_in_tuple(prebuilt->clust_ref, sec_index, rec, trx);
  1903. clust_index = dict_table_get_first_index(sec_index->table);
  1904. btr_pcur_open_with_no_init(clust_index, prebuilt->clust_ref,
  1905. PAGE_CUR_LE, BTR_SEARCH_LEAF,
  1906. prebuilt->clust_pcur, 0, mtr);
  1907. clust_rec = btr_pcur_get_rec(prebuilt->clust_pcur);
  1908. prebuilt->clust_pcur->trx_if_known = trx;
  1909. /* Note: only if the search ends up on a non-infimum record is the
  1910. low_match value the real match to the search tuple */
  1911. if (!page_rec_is_user_rec(clust_rec)
  1912.     || btr_pcur_get_low_match(prebuilt->clust_pcur)
  1913.        < dict_index_get_n_unique(clust_index)) {
  1914. /* In a rare case it is possible that no clust rec is found
  1915. for a delete-marked secondary index record: if in row0umod.c
  1916. in row_undo_mod_remove_clust_low() we have already removed
  1917. the clust rec, while purge is still cleaning and removing
  1918. secondary index records associated with earlier versions of
  1919. the clustered index record. In that case we know that the
  1920. clustered index record did not exist in the read view of
  1921. trx. */
  1922. if (!rec_get_deleted_flag(rec)
  1923.     || prebuilt->select_lock_type != LOCK_NONE) {
  1924.         ut_print_timestamp(stderr);
  1925. fputs("  InnoDB: error clustered record"
  1926. " for sec rec not foundn"
  1927. "InnoDB: ", stderr);
  1928. dict_index_name_print(stderr, trx, sec_index);
  1929. fputs("n"
  1930. "InnoDB: sec index record ", stderr);
  1931. rec_print(stderr, rec);
  1932. fputs("n"
  1933. "InnoDB: clust index record ", stderr);
  1934. rec_print(stderr, clust_rec);
  1935. putc('n', stderr);
  1936. trx_print(stderr, trx);
  1937. fputs("n"
  1938. "InnoDB: Submit a detailed bug report to http://bugs.mysql.comn", stderr);
  1939. }
  1940. clust_rec = NULL;
  1941. goto func_exit;
  1942. }
  1943. if (prebuilt->select_lock_type != LOCK_NONE) {
  1944. /* Try to place a lock on the index record; we are searching
  1945. the clust rec with a unique condition, hence
  1946. we set a LOCK_REC_NOT_GAP type lock */
  1947. err = lock_clust_rec_read_check_and_lock(0, clust_rec,
  1948. clust_index,
  1949. prebuilt->select_lock_type,
  1950. LOCK_REC_NOT_GAP, thr);
  1951. if (err != DB_SUCCESS) {
  1952. return(err);
  1953. }
  1954. } else {
  1955. /* This is a non-locking consistent read: if necessary, fetch
  1956. a previous version of the record */
  1957. old_vers = NULL;
  1958. /* If the isolation level allows reading of uncommitted data,
  1959. then we never look for an earlier version */
  1960. if (trx->isolation_level > TRX_ISO_READ_UNCOMMITTED
  1961.     && !lock_clust_rec_cons_read_sees(clust_rec, clust_index,
  1962. trx->read_view)) {
  1963. err = row_sel_build_prev_vers_for_mysql(
  1964. trx->read_view, clust_index,
  1965. prebuilt, clust_rec,
  1966. &old_vers, mtr);
  1967. if (err != DB_SUCCESS) {
  1968. return(err);
  1969. }
  1970. clust_rec = old_vers;
  1971. }
  1972. /* If we had to go to an earlier version of row or the
  1973. secondary index record is delete marked, then it may be that
  1974. the secondary index record corresponding to clust_rec
  1975. (or old_vers) is not rec; in that case we must ignore
  1976. such row because in our snapshot rec would not have existed.
  1977. Remember that from rec we cannot see directly which transaction
  1978. id corresponds to it: we have to go to the clustered index
  1979. record. A query where we want to fetch all rows where
  1980. the secondary index value is in some interval would return
  1981. a wrong result if we would not drop rows which we come to
  1982. visit through secondary index records that would not really
  1983. exist in our snapshot. */
  1984. if (clust_rec && (old_vers || rec_get_deleted_flag(rec))
  1985.     && !row_sel_sec_rec_is_for_clust_rec(rec, sec_index,
  1986. clust_rec, clust_index)) {
  1987. clust_rec = NULL;
  1988. } else {
  1989. #ifdef UNIV_SEARCH_DEBUG
  1990. ut_a(clust_rec == NULL ||
  1991.     row_sel_sec_rec_is_for_clust_rec(rec, sec_index,
  1992. clust_rec, clust_index));
  1993. #endif
  1994. }
  1995. }
  1996. func_exit:
  1997. *out_rec = clust_rec;
  1998. if (prebuilt->select_lock_type == LOCK_X) {
  1999. /* We may use the cursor in update: store its position */
  2000. btr_pcur_store_position(prebuilt->clust_pcur, mtr);
  2001. }
  2002. return(DB_SUCCESS);
  2003. }
  2004. /************************************************************************
  2005. Restores cursor position after it has been stored. We have to take into
  2006. account that the record cursor was positioned on may have been deleted.
  2007. Then we may have to move the cursor one step up or down. */
  2008. static
  2009. ibool
  2010. sel_restore_position_for_mysql(
  2011. /*===========================*/
  2012. /* out: TRUE if we may need to
  2013. process the record the cursor is
  2014. now positioned on (i.e. we should
  2015. not go to the next record yet) */
  2016. ulint latch_mode, /* in: latch mode wished in
  2017. restoration */
  2018. btr_pcur_t* pcur, /* in: cursor whose position
  2019. has been stored */
  2020. ibool moves_up, /* in: TRUE if the cursor moves up
  2021. in the index */
  2022. mtr_t* mtr) /* in: mtr; CAUTION: may commit
  2023. mtr temporarily! */
  2024. {
  2025. ibool success;
  2026. ulint relative_position;
  2027. relative_position = pcur->rel_pos;
  2028. success = btr_pcur_restore_position(latch_mode, pcur, mtr);
  2029. if (relative_position == BTR_PCUR_ON) {
  2030. if (success) {
  2031. return(FALSE);
  2032. }
  2033. if (moves_up) {
  2034. btr_pcur_move_to_next(pcur, mtr);
  2035. }
  2036. return(TRUE);
  2037. }
  2038. if (relative_position == BTR_PCUR_AFTER
  2039.     || relative_position == BTR_PCUR_AFTER_LAST_IN_TREE) {
  2040. if (moves_up) {
  2041. return(TRUE);
  2042. }
  2043. if (btr_pcur_is_on_user_rec(pcur, mtr)) {
  2044. btr_pcur_move_to_prev(pcur, mtr);
  2045. }
  2046. return(TRUE);
  2047. }
  2048. ut_ad(relative_position == BTR_PCUR_BEFORE
  2049.      || relative_position == BTR_PCUR_BEFORE_FIRST_IN_TREE);
  2050. if (moves_up && btr_pcur_is_on_user_rec(pcur, mtr)) {
  2051. btr_pcur_move_to_next(pcur, mtr);
  2052. }
  2053. return(TRUE);
  2054. }
  2055. /************************************************************************
  2056. Pops a cached row for MySQL from the fetch cache. */
  2057. UNIV_INLINE
  2058. void
  2059. row_sel_pop_cached_row_for_mysql(
  2060. /*=============================*/
  2061. byte* buf, /* in/out: buffer where to copy the
  2062. row */
  2063. row_prebuilt_t* prebuilt) /* in: prebuilt struct */
  2064. {
  2065. ut_ad(prebuilt->n_fetch_cached > 0);
  2066. ut_memcpy(buf, prebuilt->fetch_cache[prebuilt->fetch_cache_first],
  2067. prebuilt->mysql_row_len);
  2068. prebuilt->n_fetch_cached--;
  2069. prebuilt->fetch_cache_first++;
  2070. if (prebuilt->n_fetch_cached == 0) {
  2071. prebuilt->fetch_cache_first = 0;
  2072. }
  2073. }
  2074. /************************************************************************
  2075. Pushes a row for MySQL to the fetch cache. */
  2076. UNIV_INLINE
  2077. void
  2078. row_sel_push_cache_row_for_mysql(
  2079. /*=============================*/
  2080. row_prebuilt_t* prebuilt, /* in: prebuilt struct */
  2081. rec_t* rec) /* in: record to push */
  2082. {
  2083. byte* buf;
  2084. ulint i;
  2085. ut_ad(prebuilt->n_fetch_cached < MYSQL_FETCH_CACHE_SIZE);
  2086. ut_a(!prebuilt->templ_contains_blob);
  2087. if (prebuilt->fetch_cache[0] == NULL) {
  2088. /* Allocate memory for the fetch cache */
  2089. for (i = 0; i < MYSQL_FETCH_CACHE_SIZE; i++) {
  2090. /* A user has reported memory corruption in these
  2091. buffers in Linux. Put magic numbers there to help
  2092. to track a possible bug. */
  2093. buf = mem_alloc(prebuilt->mysql_row_len + 8);
  2094. prebuilt->fetch_cache[i] = buf + 4;
  2095. mach_write_to_4(buf, ROW_PREBUILT_FETCH_MAGIC_N);
  2096. mach_write_to_4(buf + 4 + prebuilt->mysql_row_len,
  2097. ROW_PREBUILT_FETCH_MAGIC_N);
  2098. }
  2099. }
  2100. ut_ad(prebuilt->fetch_cache_first == 0);
  2101. ut_a(row_sel_store_mysql_rec(
  2102. prebuilt->fetch_cache[prebuilt->n_fetch_cached],
  2103. prebuilt, rec));
  2104. prebuilt->n_fetch_cached++;
  2105. }
  2106. /*************************************************************************
  2107. Tries to do a shortcut to fetch a clustered index record with a unique key,
  2108. using the hash index if possible (not always). We assume that the search
  2109. mode is PAGE_CUR_GE, it is a consistent read, there is a read view in trx,
  2110. btr search latch has been locked in S-mode. */
  2111. static
  2112. ulint
  2113. row_sel_try_search_shortcut_for_mysql(
  2114. /*==================================*/
  2115. /* out: SEL_FOUND, SEL_EXHAUSTED, SEL_RETRY */
  2116. rec_t** out_rec,/* out: record if found */
  2117. row_prebuilt_t* prebuilt,/* in: prebuilt struct */
  2118. mtr_t* mtr) /* in: started mtr */
  2119. {
  2120. dict_index_t* index = prebuilt->index;
  2121. dtuple_t* search_tuple = prebuilt->search_tuple;
  2122. btr_pcur_t* pcur = prebuilt->pcur;
  2123. trx_t* trx = prebuilt->trx;
  2124. rec_t* rec;
  2125. ut_ad(index->type & DICT_CLUSTERED);
  2126. ut_ad(!prebuilt->templ_contains_blob);
  2127. btr_pcur_open_with_no_init(index, search_tuple, PAGE_CUR_GE,
  2128. BTR_SEARCH_LEAF, pcur,
  2129. #ifndef UNIV_SEARCH_DEBUG
  2130. RW_S_LATCH,
  2131. #else
  2132. 0,
  2133. #endif
  2134. mtr);
  2135. rec = btr_pcur_get_rec(pcur);
  2136. if (!page_rec_is_user_rec(rec)) {
  2137. return(SEL_RETRY);
  2138. }
  2139. /* As the cursor is now placed on a user record after a search with
  2140. the mode PAGE_CUR_GE, the up_match field in the cursor tells how many
  2141. fields in the user record matched to the search tuple */ 
  2142. if (btr_pcur_get_up_match(pcur) < dtuple_get_n_fields(search_tuple)) {
  2143. return(SEL_EXHAUSTED);
  2144. }
  2145. /* This is a non-locking consistent read: if necessary, fetch
  2146. a previous version of the record */
  2147. if (!lock_clust_rec_cons_read_sees(rec, index, trx->read_view)) {
  2148. return(SEL_RETRY);
  2149. }
  2150. if (rec_get_deleted_flag(rec)) {
  2151. return(SEL_EXHAUSTED);
  2152. }
  2153. *out_rec = rec;
  2154. return(SEL_FOUND);
  2155. }
  2156. /************************************************************************
  2157. Searches for rows in the database. This is used in the interface to
  2158. MySQL. This function opens a cursor, and also implements fetch next
  2159. and fetch prev. NOTE that if we do a search with a full key value
  2160. from a unique index (ROW_SEL_EXACT), then we will not store the cursor
  2161. position and fetch next or fetch prev must not be tried to the cursor! */
  2162. ulint
  2163. row_search_for_mysql(
  2164. /*=================*/
  2165. /* out: DB_SUCCESS,
  2166. DB_RECORD_NOT_FOUND, 
  2167. DB_END_OF_INDEX, DB_DEADLOCK,
  2168. DB_LOCK_TABLE_FULL, DB_CORRUPTION,
  2169. or DB_TOO_BIG_RECORD */
  2170. byte* buf, /* in/out: buffer for the fetched
  2171. row in the MySQL format */
  2172. ulint mode, /* in: search mode PAGE_CUR_L, ... */
  2173. row_prebuilt_t* prebuilt, /* in: prebuilt struct for the
  2174. table handle; this contains the info
  2175. of search_tuple, index; if search
  2176. tuple contains 0 fields then we
  2177. position the cursor at the start or
  2178. the end of the index, depending on
  2179. 'mode' */
  2180. ulint match_mode, /* in: 0 or ROW_SEL_EXACT or
  2181. ROW_SEL_EXACT_PREFIX */ 
  2182. ulint direction) /* in: 0 or ROW_SEL_NEXT or
  2183. ROW_SEL_PREV; NOTE: if this is != 0,
  2184. then prebuilt must have a pcur
  2185. with stored position! In opening of a
  2186. cursor 'direction' should be 0. */
  2187. {
  2188. dict_index_t* index = prebuilt->index;
  2189. dtuple_t* search_tuple = prebuilt->search_tuple;
  2190. btr_pcur_t* pcur = prebuilt->pcur;
  2191. trx_t* trx = prebuilt->trx;
  2192. dict_index_t* clust_index;
  2193. que_thr_t* thr;
  2194. rec_t* rec;
  2195. rec_t* index_rec;
  2196. rec_t* clust_rec;
  2197. rec_t* old_vers;
  2198. ulint err             = DB_SUCCESS;
  2199. ibool moved;
  2200. ibool cons_read_requires_clust_rec;
  2201. ibool was_lock_wait;
  2202. ulint ret;
  2203. ulint shortcut;
  2204. ibool unique_search = FALSE;
  2205. ibool unique_search_from_clust_index = FALSE;
  2206. ibool mtr_has_extra_clust_latch  = FALSE;
  2207. ibool moves_up  = FALSE;
  2208. ibool set_also_gap_locks = TRUE;
  2209. /* if the query is a plain
  2210. locking SELECT, and the isolation
  2211. level is <= TRX_ISO_READ_COMMITTED,
  2212. then this is set to FALSE */
  2213. ibool success;
  2214. ulint cnt = 0;
  2215. ulint next_offs;
  2216. mtr_t mtr;
  2217. ut_ad(index && pcur && search_tuple);
  2218. ut_ad(trx->mysql_thread_id == os_thread_get_curr_id());
  2219. if (prebuilt->table->ibd_file_missing) {
  2220.         ut_print_timestamp(stderr);
  2221.         fprintf(stderr, "  InnoDB: Error:n"
  2222. "InnoDB: MySQL is trying to use a table handle but the .ibd file forn"
  2223. "InnoDB: table %s does not exist.n"
  2224. "InnoDB: Have you deleted the .ibd file from the database directory undern"
  2225. "InnoDB: the MySQL datadir, or have you used DISCARD TABLESPACE?n"
  2226. "InnoDB: Look fromn"
  2227. "http://dev.mysql.com/doc/mysql/en/InnoDB_troubleshooting_datadict.htmln"
  2228. "InnoDB: how you can resolve the problem.n",
  2229. prebuilt->table->name);
  2230. return(DB_ERROR);
  2231. }
  2232. if (prebuilt->magic_n != ROW_PREBUILT_ALLOCATED) {
  2233. fprintf(stderr,
  2234. "InnoDB: Error: trying to free a corruptn"
  2235. "InnoDB: table handle. Magic n %lu, table name ",
  2236. (ulong) prebuilt->magic_n);
  2237. ut_print_name(stderr, trx, prebuilt->table->name);
  2238. putc('n', stderr);
  2239. mem_analyze_corruption((byte*)prebuilt);
  2240. ut_error;
  2241. }
  2242. if (trx->n_mysql_tables_in_use == 0
  2243.             && prebuilt->select_lock_type == LOCK_NONE) {
  2244. /* Note that if MySQL uses an InnoDB temp table that it
  2245. created inside LOCK TABLES, then n_mysql_tables_in_use can
  2246. be zero; in that case select_lock_type is set to LOCK_X in
  2247. ::start_stmt. */
  2248. fputs(
  2249. "InnoDB: Error: MySQL is trying to perform a SELECTn"
  2250. "InnoDB: but it has not locked any tables in ::external_lock()!n",
  2251.                       stderr);
  2252. trx_print(stderr, trx);
  2253.                 fputc('n', stderr);
  2254. }
  2255. /* fprintf(stderr, "Match mode %lun search tuple ", (ulong) match_mode);
  2256. dtuple_print(search_tuple);
  2257. fprintf(stderr, "N tables locked %lun", trx->mysql_n_tables_locked);
  2258. */
  2259. /*-------------------------------------------------------------*/
  2260. /* PHASE 0: Release a possible s-latch we are holding on the
  2261. adaptive hash index latch if there is someone waiting behind */
  2262. if (trx->has_search_latch
  2263.     && btr_search_latch.writer != RW_LOCK_NOT_LOCKED) {
  2264. /* There is an x-latch request on the adaptive hash index:
  2265. release the s-latch to reduce starvation and wait for
  2266. BTR_SEA_TIMEOUT rounds before trying to keep it again over
  2267. calls from MySQL */
  2268. rw_lock_s_unlock(&btr_search_latch);
  2269. trx->has_search_latch = FALSE;
  2270. trx->search_latch_timeout = BTR_SEA_TIMEOUT;
  2271. }
  2272. /*-------------------------------------------------------------*/
  2273. /* PHASE 1: Try to pop the row from the prefetch cache */
  2274. if (direction == 0) {
  2275. trx->op_info = "starting index read";
  2276. prebuilt->n_rows_fetched = 0;
  2277. prebuilt->n_fetch_cached = 0;
  2278. prebuilt->fetch_cache_first = 0;
  2279. if (prebuilt->sel_graph == NULL) {
  2280. /* Build a dummy select query graph */
  2281. row_prebuild_sel_graph(prebuilt);
  2282. }
  2283. } else {
  2284. trx->op_info = "fetching rows";
  2285. if (prebuilt->n_rows_fetched == 0) {
  2286. prebuilt->fetch_direction = direction;
  2287. }
  2288. if (direction != prebuilt->fetch_direction) {
  2289. if (prebuilt->n_fetch_cached > 0) {
  2290. ut_error;
  2291. /* TODO: scrollable cursor: restore cursor to
  2292. the place of the latest returned row,
  2293. or better: prevent caching for a scroll
  2294. cursor! */
  2295. }
  2296. prebuilt->n_rows_fetched = 0;
  2297. prebuilt->n_fetch_cached = 0;
  2298. prebuilt->fetch_cache_first = 0;
  2299. } else if (prebuilt->n_fetch_cached > 0) {
  2300. row_sel_pop_cached_row_for_mysql(buf, prebuilt);
  2301. prebuilt->n_rows_fetched++;
  2302. srv_n_rows_read++;
  2303. trx->op_info = "";
  2304. return(DB_SUCCESS);
  2305. }
  2306. if (prebuilt->fetch_cache_first > 0
  2307.     && prebuilt->fetch_cache_first < MYSQL_FETCH_CACHE_SIZE) {
  2308.      /* The previous returned row was popped from the fetch
  2309.      cache, but the cache was not full at the time of the
  2310.      popping: no more rows can exist in the result set */
  2311.     
  2312. trx->op_info = "";
  2313.      return(DB_RECORD_NOT_FOUND);
  2314. }
  2315. prebuilt->n_rows_fetched++;
  2316. if (prebuilt->n_rows_fetched > 1000000000) {
  2317. /* Prevent wrap-over */
  2318. prebuilt->n_rows_fetched = 500000000;
  2319. }
  2320. mode = pcur->search_mode;
  2321. }
  2322. /* In a search where at most one record in the index may match, we
  2323. can use a LOCK_REC_NOT_GAP type record lock when locking a non-delete-
  2324. marked matching record.
  2325. Note that in a unique secondary index there may be different delete-
  2326. marked versions of a record where only the primary key values differ:
  2327. thus in a secondary index we must use next-key locks when locking
  2328. delete-marked records. */
  2329. if (match_mode == ROW_SEL_EXACT
  2330.     && index->type & DICT_UNIQUE
  2331.     && dtuple_get_n_fields(search_tuple)
  2332. == dict_index_get_n_unique(index)
  2333.     && (index->type & DICT_CLUSTERED
  2334.  || !dtuple_contains_null(search_tuple))) {
  2335. /* Note above that a UNIQUE secondary index can contain many
  2336. rows with the same key value if one of the columns is the SQL
  2337. null. A clustered index under MySQL can never contain null
  2338. columns because we demand that all the columns in primary key
  2339. are non-null. */
  2340. unique_search = TRUE;
  2341. /* Even if the condition is unique, MySQL seems to try to
  2342. retrieve also a second row if a primary key contains more than
  2343. 1 column. Return immediately if this is not a HANDLER
  2344. command. */
  2345. if (direction != 0 && !prebuilt->used_in_HANDLER) {
  2346.         
  2347. trx->op_info = "";
  2348. return(DB_RECORD_NOT_FOUND);
  2349. }
  2350. }
  2351. mtr_start(&mtr);
  2352. /*-------------------------------------------------------------*/
  2353. /* PHASE 2: Try fast adaptive hash index search if possible */
  2354. /* Next test if this is the special case where we can use the fast
  2355. adaptive hash index to try the search. Since we must release the
  2356. search system latch when we retrieve an externally stored field, we
  2357. cannot use the adaptive hash index in a search in the case the row
  2358. may be long and there may be externally stored fields */
  2359. if (unique_search
  2360.     && index->type & DICT_CLUSTERED
  2361.     && direction == 0
  2362.     && !prebuilt->templ_contains_blob
  2363.     && !prebuilt->used_in_HANDLER
  2364.     && (prebuilt->mysql_row_len < UNIV_PAGE_SIZE / 8)) {
  2365. mode = PAGE_CUR_GE;
  2366. unique_search_from_clust_index = TRUE;
  2367. if (trx->mysql_n_tables_locked == 0
  2368.     && prebuilt->select_lock_type == LOCK_NONE
  2369.     && trx->isolation_level > TRX_ISO_READ_UNCOMMITTED
  2370.     && trx->read_view) {
  2371. /* This is a SELECT query done as a consistent read,
  2372. and the read view has already been allocated:
  2373. let us try a search shortcut through the hash
  2374. index.
  2375. NOTE that we must also test that
  2376. mysql_n_tables_locked == 0, because this might
  2377. also be INSERT INTO ... SELECT ... or
  2378. CREATE TABLE ... SELECT ... . Our algorithm is
  2379. NOT prepared to inserts interleaved with the SELECT,
  2380. and if we try that, we can deadlock on the adaptive
  2381. hash index semaphore! */
  2382. #ifndef UNIV_SEARCH_DEBUG
  2383. if (!trx->has_search_latch) {
  2384. rw_lock_s_lock(&btr_search_latch);
  2385. trx->has_search_latch = TRUE;
  2386. }
  2387. #endif
  2388. shortcut = row_sel_try_search_shortcut_for_mysql(&rec,
  2389.        prebuilt, &mtr);
  2390. if (shortcut == SEL_FOUND) {
  2391. #ifdef UNIV_SEARCH_DEBUG
  2392. ut_a(0 == cmp_dtuple_rec(search_tuple, rec));
  2393. #endif 
  2394. if (!row_sel_store_mysql_rec(buf, prebuilt,
  2395. rec)) {
  2396.   err = DB_TOO_BIG_RECORD;
  2397. /* We let the main loop to do the
  2398. error handling */
  2399.   goto shortcut_fails_too_big_rec;
  2400. }
  2401.   mtr_commit(&mtr);
  2402. /* ut_print_name(stderr, index->name);
  2403. fputs(" shortcutn", stderr); */
  2404. srv_n_rows_read++;
  2405. if (trx->search_latch_timeout > 0
  2406.     && trx->has_search_latch) {
  2407. trx->search_latch_timeout--;
  2408.          rw_lock_s_unlock(&btr_search_latch);
  2409. trx->has_search_latch = FALSE;
  2410. }    
  2411. trx->op_info = "";
  2412. /* NOTE that we do NOT store the cursor
  2413. position */
  2414. return(DB_SUCCESS);
  2415. } else if (shortcut == SEL_EXHAUSTED) {
  2416.   mtr_commit(&mtr);
  2417. /* ut_print_name(stderr, index->name);
  2418. fputs(" record not found 2n", stderr); */
  2419. if (trx->search_latch_timeout > 0
  2420.     && trx->has_search_latch) {
  2421. trx->search_latch_timeout--;
  2422.          rw_lock_s_unlock(&btr_search_latch);
  2423. trx->has_search_latch = FALSE;
  2424. }
  2425. trx->op_info = "";
  2426. /* NOTE that we do NOT store the cursor
  2427. position */
  2428. return(DB_RECORD_NOT_FOUND);
  2429. }
  2430. shortcut_fails_too_big_rec:
  2431. mtr_commit(&mtr);
  2432. mtr_start(&mtr);
  2433. }
  2434. }
  2435. /*-------------------------------------------------------------*/
  2436. /* PHASE 3: Open or restore index cursor position */
  2437. if (trx->has_search_latch) {
  2438. rw_lock_s_unlock(&btr_search_latch);
  2439. trx->has_search_latch = FALSE;
  2440. }
  2441. trx_start_if_not_started(trx);
  2442. if (trx->isolation_level <= TRX_ISO_READ_COMMITTED
  2443.     && prebuilt->select_lock_type != LOCK_NONE
  2444.     && trx->mysql_query_str) {
  2445. /* Scan the MySQL query string; check if SELECT is the first
  2446.         word there */
  2447. dict_accept(*trx->mysql_query_str, "SELECT", &success);
  2448. if (success) {
  2449. /* It is a plain locking SELECT and the isolation
  2450. level is low: do not lock gaps */
  2451. set_also_gap_locks = FALSE;
  2452. }
  2453. }
  2454. /* Note that if the search mode was GE or G, then the cursor
  2455. naturally moves upward (in fetch next) in alphabetical order,
  2456. otherwise downward */
  2457. if (direction == 0) {
  2458. if (mode == PAGE_CUR_GE || mode == PAGE_CUR_G) {
  2459. moves_up = TRUE;
  2460. }
  2461. } else if (direction == ROW_SEL_NEXT) {
  2462. moves_up = TRUE;
  2463. }
  2464. thr = que_fork_get_first_thr(prebuilt->sel_graph);
  2465. que_thr_move_to_run_state_for_mysql(thr, trx);
  2466. clust_index = dict_table_get_first_index(index->table);
  2467. if (direction != 0) {
  2468. moved = sel_restore_position_for_mysql(BTR_SEARCH_LEAF, pcur,
  2469. moves_up, &mtr);
  2470. if (!moved) {
  2471. goto next_rec;
  2472. }
  2473. } else if (dtuple_get_n_fields(search_tuple) > 0) {
  2474. btr_pcur_open_with_no_init(index, search_tuple, mode,
  2475. BTR_SEARCH_LEAF,
  2476. pcur, 0, &mtr);
  2477. pcur->trx_if_known = trx;
  2478. } else {
  2479. if (mode == PAGE_CUR_G) {
  2480. btr_pcur_open_at_index_side(TRUE, index,
  2481. BTR_SEARCH_LEAF, pcur, FALSE, &mtr);
  2482. } else if (mode == PAGE_CUR_L) {
  2483. btr_pcur_open_at_index_side(FALSE, index,
  2484. BTR_SEARCH_LEAF, pcur, FALSE, &mtr);
  2485. }
  2486. }
  2487. if (!prebuilt->sql_stat_start) {
  2488. /* No need to set an intention lock or assign a read view */
  2489. if (trx->read_view == NULL
  2490.     && prebuilt->select_lock_type == LOCK_NONE) {
  2491. fputs(
  2492. "InnoDB: Error: MySQL is trying to perform a consistent readn"
  2493. "InnoDB: but the read view is not assigned!n", stderr);
  2494. trx_print(stderr, trx);
  2495.                         fputc('n', stderr);
  2496. ut_a(0);
  2497. }
  2498. } else if (prebuilt->select_lock_type == LOCK_NONE) {
  2499. /* This is a consistent read */
  2500. /* Assign a read view for the query */
  2501. trx_assign_read_view(trx);
  2502. prebuilt->sql_stat_start = FALSE;
  2503. } else {
  2504. if (prebuilt->select_lock_type == LOCK_S) {
  2505. err = lock_table(0, index->table, LOCK_IS, thr);
  2506. } else {
  2507. err = lock_table(0, index->table, LOCK_IX, thr);
  2508. }
  2509. if (err != DB_SUCCESS) {
  2510. goto lock_wait_or_error;
  2511. }
  2512. prebuilt->sql_stat_start = FALSE;
  2513. }
  2514. rec_loop:
  2515. /*-------------------------------------------------------------*/
  2516. /* PHASE 4: Look for matching records in a loop */
  2517. rec = btr_pcur_get_rec(pcur);
  2518. /*
  2519. fputs("Using ", stderr);
  2520. dict_index_name_print(stderr, index);
  2521. fprintf(stderr, " cnt %lu ; Page no %lun", cnt,
  2522. buf_frame_get_page_no(buf_frame_align(rec)));
  2523. rec_print(rec);
  2524. */
  2525. if (rec == page_get_infimum_rec(buf_frame_align(rec))) {
  2526. /* The infimum record on a page cannot be in the result set,
  2527. and neither can a record lock be placed on it: we skip such
  2528. a record. */
  2529. goto next_rec;
  2530. }
  2531. if (rec == page_get_supremum_rec(buf_frame_align(rec))) {
  2532. if (prebuilt->select_lock_type != LOCK_NONE
  2533.     && set_also_gap_locks) {
  2534. /* Try to place a lock on the index record */
  2535. /* If innodb_locks_unsafe_for_binlog option is used,
  2536. we do not lock gaps. Supremum record is really
  2537. a gap and therefore we do not set locks there. */
  2538. if (srv_locks_unsafe_for_binlog == FALSE) {
  2539. err = sel_set_rec_lock(rec, index,
  2540. prebuilt->select_lock_type,
  2541. LOCK_ORDINARY, thr);
  2542. if (err != DB_SUCCESS) {
  2543. goto lock_wait_or_error;
  2544. }
  2545. }
  2546. }
  2547. /* A page supremum record cannot be in the result set: skip
  2548. it now that we have placed a possible lock on it */
  2549. goto next_rec;
  2550. }
  2551. /*-------------------------------------------------------------*/
  2552. /* Do sanity checks in case our cursor has bumped into page
  2553. corruption */
  2554. next_offs = rec_get_next_offs(rec);
  2555. if (next_offs >= UNIV_PAGE_SIZE || next_offs < PAGE_SUPREMUM) {
  2556. if (srv_force_recovery == 0 || moves_up == FALSE) {
  2557. ut_print_timestamp(stderr);
  2558. buf_page_print(buf_frame_align(rec));
  2559. fprintf(stderr,
  2560. "nInnoDB: rec address %p, first buffer frame %pn"
  2561. "InnoDB: buffer pool high end %p, buf block fix count %lun",
  2562. rec, buf_pool->frame_zero,
  2563. buf_pool->high_end,
  2564. (ulong)buf_block_align(rec)->buf_fix_count);
  2565. fprintf(stderr,
  2566. "InnoDB: Index corruption: rec offs %lu next offs %lu, page no %lu,n"
  2567. "InnoDB: ",
  2568. (ulong) (rec - buf_frame_align(rec)),
  2569. (ulong) next_offs,
  2570. (ulong) buf_frame_get_page_no(rec));
  2571. dict_index_name_print(stderr, trx, index);
  2572. fputs(". Run CHECK TABLE. You may need ton"
  2573. "InnoDB: restore from a backup, or dump + drop + reimport the table.n",
  2574.       stderr);
  2575. err = DB_CORRUPTION;
  2576. goto lock_wait_or_error;
  2577. } else {
  2578. /* The user may be dumping a corrupt table. Jump
  2579. over the corruption to recover as much as possible. */
  2580. fprintf(stderr,
  2581. "InnoDB: Index corruption: rec offs %lu next offs %lu, page no %lu,n"
  2582. "InnoDB: ",
  2583.    (ulong) (rec - buf_frame_align(rec)),
  2584.    (ulong) next_offs,
  2585.    (ulong) buf_frame_get_page_no(rec));
  2586. dict_index_name_print(stderr, trx, index);
  2587. fputs(". We try to skip the rest of the page.n",
  2588. stderr);
  2589. btr_pcur_move_to_last_on_page(pcur, &mtr);
  2590. goto next_rec;
  2591. }
  2592. }
  2593. if (srv_force_recovery > 0) {
  2594. if (!rec_validate(rec) || !btr_index_rec_validate(rec, index,
  2595. FALSE)) {
  2596. fprintf(stderr,
  2597. "InnoDB: Index corruption: rec offs %lu next offs %lu, page no %lu,n"
  2598. "InnoDB: ",
  2599.    (ulong) (rec - buf_frame_align(rec)),
  2600.    (ulong) next_offs,
  2601.    (ulong) buf_frame_get_page_no(rec));
  2602. dict_index_name_print(stderr, trx, index);
  2603. fputs(". We try to skip the record.n",
  2604. stderr);
  2605. goto next_rec;
  2606. }
  2607. }
  2608. /*-------------------------------------------------------------*/
  2609. /* Note that we cannot trust the up_match value in the cursor at this
  2610. place because we can arrive here after moving the cursor! Thus
  2611. we have to recompare rec and search_tuple to determine if they
  2612. match enough. */
  2613. if (match_mode == ROW_SEL_EXACT) {
  2614. /* Test if the index record matches completely to search_tuple
  2615. in prebuilt: if not, then we return with DB_RECORD_NOT_FOUND */
  2616. /* fputs("Comparing rec and search tuplen", stderr); */
  2617. if (0 != cmp_dtuple_rec(search_tuple, rec)) {
  2618. if (prebuilt->select_lock_type != LOCK_NONE
  2619.          && set_also_gap_locks) {
  2620. /* Try to place a gap lock on the index 
  2621. record only if innodb_locks_unsafe_for_binlog
  2622. option is not set */
  2623. if (srv_locks_unsafe_for_binlog == FALSE) { 
  2624. err = sel_set_rec_lock(rec, index,
  2625. prebuilt->select_lock_type,
  2626. LOCK_GAP, thr);
  2627. if (err != DB_SUCCESS) {
  2628. goto lock_wait_or_error;
  2629. }
  2630. }
  2631. }
  2632. btr_pcur_store_position(pcur, &mtr);
  2633. ret = DB_RECORD_NOT_FOUND;
  2634. /* ut_print_name(stderr, index->name);
  2635. fputs(" record not found 3n", stderr); */
  2636. goto normal_return;
  2637. }
  2638. } else if (match_mode == ROW_SEL_EXACT_PREFIX) {
  2639. if (!cmp_dtuple_is_prefix_of_rec(search_tuple, rec)) {
  2640. if (prebuilt->select_lock_type != LOCK_NONE
  2641.     && set_also_gap_locks) {
  2642. /* Try to place a gap lock on the index 
  2643. record only if innodb_locks_unsafe_for_binlog
  2644. option is not set */
  2645. if (srv_locks_unsafe_for_binlog == FALSE) {
  2646. err = sel_set_rec_lock(rec, index,
  2647. prebuilt->select_lock_type,
  2648. LOCK_GAP, thr);
  2649. if (err != DB_SUCCESS) {
  2650. goto lock_wait_or_error;
  2651. }
  2652. }
  2653. }
  2654. btr_pcur_store_position(pcur, &mtr);
  2655. ret = DB_RECORD_NOT_FOUND;
  2656. /* ut_print_name(stderr, index->name);
  2657. fputs(" record not found 4n", stderr); */
  2658. goto normal_return;
  2659. }
  2660. }
  2661. /* We are ready to look at a possible new index entry in the result
  2662. set: the cursor is now placed on a user record */
  2663. cons_read_requires_clust_rec = FALSE;
  2664. if (prebuilt->select_lock_type != LOCK_NONE) {
  2665. /* Try to place a lock on the index record; note that delete
  2666. marked records are a special case in a unique search. If there
  2667. is a non-delete marked record, then it is enough to lock its
  2668. existence with LOCK_REC_NOT_GAP. */
  2669. if (!set_also_gap_locks
  2670.     || (unique_search && !rec_get_deleted_flag(rec))) {
  2671. err = sel_set_rec_lock(rec, index,
  2672. prebuilt->select_lock_type,
  2673. LOCK_REC_NOT_GAP, thr);
  2674. } else {
  2675. /* If innodb_locks_unsafe_for_binlog option is used, 
  2676. we lock only the record, i.e. next-key locking is
  2677. not used. */
  2678. if (srv_locks_unsafe_for_binlog) {
  2679. err = sel_set_rec_lock(rec, index,
  2680. prebuilt->select_lock_type,
  2681. LOCK_REC_NOT_GAP, thr);
  2682. } else {
  2683. err = sel_set_rec_lock(rec, index,
  2684. prebuilt->select_lock_type,
  2685. LOCK_ORDINARY, thr);
  2686. }
  2687. }
  2688. if (err != DB_SUCCESS) {
  2689. goto lock_wait_or_error;
  2690. }
  2691. } else {
  2692. /* This is a non-locking consistent read: if necessary, fetch
  2693. a previous version of the record */
  2694. if (trx->isolation_level == TRX_ISO_READ_UNCOMMITTED) {
  2695. /* Do nothing: we let a non-locking SELECT read the
  2696. latest version of the record */
  2697. } else if (index == clust_index) {
  2698.   
  2699. /* Fetch a previous version of the row if the current
  2700. one is not visible in the snapshot; if we have a very
  2701. high force recovery level set, we try to avoid crashes
  2702. by skipping this lookup */
  2703. if (srv_force_recovery < 5
  2704.                             && !lock_clust_rec_cons_read_sees(rec, index,
  2705. trx->read_view)) {
  2706. err = row_sel_build_prev_vers_for_mysql(
  2707. trx->read_view, clust_index,
  2708. prebuilt, rec,
  2709. &old_vers, &mtr);
  2710. if (err != DB_SUCCESS) {
  2711. goto lock_wait_or_error;
  2712. }
  2713. if (old_vers == NULL) {
  2714. /* The row did not exist yet in
  2715. the read view */
  2716. goto next_rec;
  2717. }
  2718. rec = old_vers;
  2719. }
  2720. } else if (!lock_sec_rec_cons_read_sees(rec, index,
  2721. trx->read_view)) {
  2722. /* We are looking into a non-clustered index,
  2723. and to get the right version of the record we
  2724. have to look also into the clustered index: this
  2725. is necessary, because we can only get the undo
  2726. information via the clustered index record. */
  2727. cons_read_requires_clust_rec = TRUE;
  2728. }
  2729. }
  2730. if (rec_get_deleted_flag(rec) && !cons_read_requires_clust_rec) {
  2731. /* The record is delete-marked: we can skip it if this is
  2732. not a consistent read which might see an earlier version
  2733. of a non-clustered index record */
  2734. goto next_rec;
  2735. }
  2736. /* Get the clustered index record if needed and if we did
  2737. not do the search using the clustered index */
  2738. index_rec = rec;
  2739. if (index != clust_index && (cons_read_requires_clust_rec
  2740. || prebuilt->need_to_access_clustered)) {
  2741. /* It was a non-clustered index and we must fetch also the
  2742. clustered index record */
  2743. mtr_has_extra_clust_latch = TRUE;
  2744. err = row_sel_get_clust_rec_for_mysql(prebuilt, index, rec,
  2745. thr, &clust_rec, &mtr);
  2746. if (err != DB_SUCCESS) {
  2747. goto lock_wait_or_error;
  2748. }
  2749. if (clust_rec == NULL) {
  2750. /* The record did not exist in the read view */
  2751. ut_ad(prebuilt->select_lock_type == LOCK_NONE);
  2752. goto next_rec;
  2753. }
  2754. if (rec_get_deleted_flag(clust_rec)) {
  2755. /* The record is delete marked: we can skip it */
  2756. goto next_rec;
  2757. }
  2758. if (prebuilt->need_to_access_clustered) {
  2759.         rec = clust_rec;
  2760. }
  2761. }
  2762. /* We found a qualifying row */
  2763. if (prebuilt->n_rows_fetched >= MYSQL_FETCH_CACHE_THRESHOLD
  2764. && prebuilt->select_lock_type == LOCK_NONE
  2765. && !prebuilt->templ_contains_blob
  2766. && !prebuilt->clust_index_was_generated
  2767. && !prebuilt->used_in_HANDLER
  2768.                 && prebuilt->template_type
  2769.                                  != ROW_MYSQL_DUMMY_TEMPLATE) {
  2770. /* Inside an update, for example, we do not cache rows,
  2771. since we may use the cursor position to do the actual
  2772. update, that is why we require ...lock_type == LOCK_NONE.
  2773. Since we keep space in prebuilt only for the BLOBs of
  2774. a single row, we cannot cache rows in the case there
  2775. are BLOBs in the fields to be fetched. In HANDLER we do
  2776. not cache rows because there the cursor is a scrollable
  2777. cursor. */
  2778. row_sel_push_cache_row_for_mysql(prebuilt, rec);
  2779. if (prebuilt->n_fetch_cached == MYSQL_FETCH_CACHE_SIZE) {
  2780. goto got_row;
  2781. }
  2782. goto next_rec;
  2783. } else {
  2784. if (prebuilt->template_type == ROW_MYSQL_DUMMY_TEMPLATE) {
  2785. ut_memcpy(buf + 4, rec - rec_get_extra_size(rec),
  2786. rec_get_size(rec));
  2787. mach_write_to_4(buf, rec_get_extra_size(rec) + 4);
  2788. } else {
  2789. if (!row_sel_store_mysql_rec(buf, prebuilt, rec)) {
  2790. err = DB_TOO_BIG_RECORD;
  2791. goto lock_wait_or_error;
  2792. }
  2793. }
  2794. if (prebuilt->clust_index_was_generated) {
  2795. row_sel_store_row_id_to_prebuilt(prebuilt, index_rec,
  2796. index);
  2797. }
  2798. }
  2799. got_row:
  2800. /* We have an optimization to save CPU time: if this is a consistent
  2801. read on a unique condition on the clustered index, then we do not
  2802. store the pcur position, because any fetch next or prev will anyway
  2803. return 'end of file'. An exception is the MySQL HANDLER command
  2804. where the user can move the cursor with PREV or NEXT even after
  2805. a unique search. */
  2806. if (!unique_search_from_clust_index
  2807.     || prebuilt->select_lock_type == LOCK_X
  2808.     || prebuilt->used_in_HANDLER) {
  2809. /* Inside an update always store the cursor position */
  2810. btr_pcur_store_position(pcur, &mtr);
  2811. }
  2812. ret = DB_SUCCESS;
  2813. goto normal_return;
  2814. next_rec:
  2815. /*-------------------------------------------------------------*/
  2816. /* PHASE 5: Move the cursor to the next index record */
  2817. if (mtr_has_extra_clust_latch) {
  2818. /* We must commit mtr if we are moving to the next
  2819. non-clustered index record, because we could break the
  2820. latching order if we would access a different clustered
  2821. index page right away without releasing the previous. */
  2822. btr_pcur_store_position(pcur, &mtr);
  2823. mtr_commit(&mtr);
  2824. mtr_has_extra_clust_latch = FALSE;
  2825. mtr_start(&mtr);
  2826. moved = sel_restore_position_for_mysql(BTR_SEARCH_LEAF, pcur,
  2827. moves_up, &mtr);
  2828. if (moved) {
  2829. cnt++;
  2830. goto rec_loop;
  2831. }
  2832. }
  2833. if (moves_up) {
  2834. moved = btr_pcur_move_to_next(pcur, &mtr);
  2835. } else {
  2836. moved = btr_pcur_move_to_prev(pcur, &mtr);
  2837. }
  2838. if (!moved) {
  2839. btr_pcur_store_position(pcur, &mtr);
  2840. if (match_mode != 0) {
  2841. ret = DB_RECORD_NOT_FOUND;
  2842. } else {
  2843. ret = DB_END_OF_INDEX;
  2844. }
  2845. goto normal_return;
  2846. }
  2847. cnt++;
  2848. goto rec_loop;
  2849. lock_wait_or_error:
  2850. /*-------------------------------------------------------------*/
  2851. btr_pcur_store_position(pcur, &mtr);
  2852. mtr_commit(&mtr);
  2853. mtr_has_extra_clust_latch = FALSE;
  2854. trx->error_state = err;
  2855. /* The following is a patch for MySQL */
  2856. que_thr_stop_for_mysql(thr);
  2857. was_lock_wait = row_mysql_handle_errors(&err, trx, thr, NULL);
  2858. if (was_lock_wait) {
  2859. mtr_start(&mtr);
  2860. sel_restore_position_for_mysql(BTR_SEARCH_LEAF, pcur,
  2861. moves_up, &mtr);
  2862. mode = pcur->search_mode;
  2863. goto rec_loop;
  2864. }
  2865. /* fputs("Using ", stderr);
  2866. dict_index_name_print(stderr, index);
  2867. fprintf(stderr, " cnt %lu ret value %lu errn", cnt, err); */
  2868. trx->op_info = "";
  2869. return(err);
  2870. normal_return:
  2871. /*-------------------------------------------------------------*/
  2872. que_thr_stop_for_mysql_no_error(thr, trx);
  2873. mtr_commit(&mtr);
  2874. if (prebuilt->n_fetch_cached > 0) {
  2875. row_sel_pop_cached_row_for_mysql(buf, prebuilt);
  2876. ret = DB_SUCCESS;
  2877. }
  2878. /* fputs("Using ", stderr);
  2879. dict_index_name_print(stderr, index);
  2880. fprintf(stderr, " cnt %lu ret value %lu errn", cnt, err); */
  2881. if (ret == DB_SUCCESS) {
  2882. srv_n_rows_read++;
  2883. }
  2884. trx->op_info = "";
  2885. return(ret);
  2886. }
  2887. /***********************************************************************
  2888. Checks if MySQL at the moment is allowed for this table to retrieve a
  2889. consistent read result, or store it to the query cache. */
  2890. ibool
  2891. row_search_check_if_query_cache_permitted(
  2892. /*======================================*/
  2893. /* out: TRUE if storing or retrieving
  2894. from the query cache is permitted */
  2895. trx_t* trx, /* in: transaction object */
  2896. const char* norm_name) /* in: concatenation of database name,
  2897. '/' char, table name */
  2898. {
  2899. dict_table_t* table;
  2900. ibool ret  = FALSE;
  2901. table = dict_table_get(norm_name, trx);
  2902. if (table == NULL) {
  2903. return(FALSE);
  2904. }
  2905. mutex_enter(&kernel_mutex);
  2906. /* Start the transaction if it is not started yet */
  2907. trx_start_if_not_started_low(trx);
  2908. /* If there are locks on the table or some trx has invalidated the
  2909. cache up to our trx id, then ret = FALSE.
  2910. We do not check what type locks there are on the table, though only
  2911. IX type locks actually would require ret = FALSE. */
  2912. if (UT_LIST_GET_LEN(table->locks) == 0
  2913.     && ut_dulint_cmp(trx->id, table->query_cache_inv_trx_id) >= 0) {
  2914. ret = TRUE;
  2915. /* If the isolation level is high, assign a read view for the
  2916. transaction if it does not yet have one */
  2917. if (trx->isolation_level >= TRX_ISO_REPEATABLE_READ
  2918.     && !trx->read_view) {
  2919. trx->read_view = read_view_open_now(trx,
  2920. trx->read_view_heap);
  2921. }
  2922. }
  2923. mutex_exit(&kernel_mutex);
  2924. return(ret);
  2925. }