fix_node.c
上传用户:lgb322
上传日期:2013-02-24
资源大小:30529k
文件大小:83k
源码类别:

嵌入式Linux

开发平台:

Unix_Linux

  1. /*
  2.  * Copyright 2000 by Hans Reiser, licensing governed by reiserfs/README
  3.  */
  4. /**
  5.  ** old_item_num
  6.  ** old_entry_num
  7.  ** set_entry_sizes
  8.  ** create_virtual_node
  9.  ** check_left
  10.  ** check_right
  11.  ** directory_part_size
  12.  ** get_num_ver
  13.  ** set_parameters
  14.  ** is_leaf_removable
  15.  ** are_leaves_removable
  16.  ** get_empty_nodes
  17.  ** get_lfree
  18.  ** get_rfree
  19.  ** is_left_neighbor_in_cache
  20.  ** decrement_key
  21.  ** get_far_parent
  22.  ** get_parents
  23.  ** can_node_be_removed
  24.  ** ip_check_balance
  25.  ** dc_check_balance_internal
  26.  ** dc_check_balance_leaf
  27.  ** dc_check_balance
  28.  ** check_balance
  29.  ** get_direct_parent
  30.  ** get_neighbors
  31.  ** fix_nodes
  32.  ** 
  33.  ** 
  34.  **/
  35. #include <linux/config.h>
  36. #include <linux/sched.h>
  37. #include <linux/string.h>
  38. #include <linux/locks.h>
  39. #include <linux/reiserfs_fs.h>
  40. /* To make any changes in the tree we find a node, that contains item
  41.    to be changed/deleted or position in the node we insert a new item
  42.    to. We call this node S. To do balancing we need to decide what we
  43.    will shift to left/right neighbor, or to a new node, where new item
  44.    will be etc. To make this analysis simpler we build virtual
  45.    node. Virtual node is an array of items, that will replace items of
  46.    node S. (For instance if we are going to delete an item, virtual
  47.    node does not contain it). Virtual node keeps information about
  48.    item sizes and types, mergeability of first and last items, sizes
  49.    of all entries in directory item. We use this array of items when
  50.    calculating what we can shift to neighbors and how many nodes we
  51.    have to have if we do not any shiftings, if we shift to left/right
  52.    neighbor or to both. */
  53. /* taking item number in virtual node, returns number of item, that it has in source buffer */
  54. static inline int old_item_num (int new_num, int affected_item_num, int mode)
  55. {
  56.   if (mode == M_PASTE || mode == M_CUT || new_num < affected_item_num)
  57.     return new_num;
  58.   if (mode == M_INSERT) {
  59.     RFALSE( new_num == 0, 
  60.     "vs-8005: for INSERT mode and item number of inserted item");
  61.     return new_num - 1;
  62.   }
  63.   RFALSE( mode != M_DELETE,
  64.   "vs-8010: old_item_num: mode must be M_DELETE (mode = '%c'", mode);
  65.   /* delete mode */
  66.   return new_num + 1;
  67. }
  68. static void create_virtual_node (struct tree_balance * tb, int h)
  69. {
  70.     struct item_head * ih;
  71.     struct virtual_node * vn = tb->tb_vn;
  72.     int new_num;
  73.     struct buffer_head * Sh; /* this comes from tb->S[h] */
  74.     Sh = PATH_H_PBUFFER (tb->tb_path, h);
  75.     /* size of changed node */
  76.     vn->vn_size = MAX_CHILD_SIZE (Sh) - B_FREE_SPACE (Sh) + tb->insert_size[h];
  77.     /* for internal nodes array if virtual items is not created */
  78.     if (h) {
  79. vn->vn_nr_item = (vn->vn_size - DC_SIZE) / (DC_SIZE + KEY_SIZE);
  80. return;
  81.     }
  82.     /* number of items in virtual node  */
  83.     vn->vn_nr_item = B_NR_ITEMS (Sh) + ((vn->vn_mode == M_INSERT)? 1 : 0) - ((vn->vn_mode == M_DELETE)? 1 : 0);
  84.     /* first virtual item */
  85.     vn->vn_vi = (struct virtual_item *)(tb->tb_vn + 1);
  86.     memset (vn->vn_vi, 0, vn->vn_nr_item * sizeof (struct virtual_item));
  87.     vn->vn_free_ptr += vn->vn_nr_item * sizeof (struct virtual_item);
  88.     /* first item in the node */
  89.     ih = B_N_PITEM_HEAD (Sh, 0);
  90.     /* define the mergeability for 0-th item (if it is not being deleted) */
  91.     if (op_is_left_mergeable (&(ih->ih_key), Sh->b_size) && (vn->vn_mode != M_DELETE || vn->vn_affected_item_num))
  92.     vn->vn_vi[0].vi_type |= VI_TYPE_LEFT_MERGEABLE;
  93.     /* go through all items those remain in the virtual node (except for the new (inserted) one) */
  94.     for (new_num = 0; new_num < vn->vn_nr_item; new_num ++) {
  95. int j;
  96. struct virtual_item * vi = vn->vn_vi + new_num;
  97. int is_affected = ((new_num != vn->vn_affected_item_num) ? 0 : 1);
  98.     
  99. if (is_affected && vn->vn_mode == M_INSERT)
  100.     continue;
  101.     
  102. /* get item number in source node */
  103. j = old_item_num (new_num, vn->vn_affected_item_num, vn->vn_mode);
  104.     
  105. vi->vi_item_len += ih_item_len(ih + j) + IH_SIZE;
  106. vi->vi_ih = ih + j;
  107. vi->vi_item = B_I_PITEM (Sh, ih + j);
  108. vi->vi_uarea = vn->vn_free_ptr;
  109. // FIXME: there is no check, that item operation did not
  110. // consume too much memory
  111. vn->vn_free_ptr += op_create_vi (vn, vi, is_affected, tb->insert_size [0]);
  112. if (tb->vn_buf + tb->vn_buf_size < vn->vn_free_ptr)
  113.     reiserfs_panic (tb->tb_sb, "vs-8030: create_virtual_node: "
  114.     "virtual node space consumed");
  115. if (!is_affected)
  116.     /* this is not being changed */
  117.     continue;
  118.     
  119. if (vn->vn_mode == M_PASTE || vn->vn_mode == M_CUT) {
  120.     vn->vn_vi[new_num].vi_item_len += tb->insert_size[0];
  121.     vi->vi_new_data = vn->vn_data; // pointer to data which is going to be pasted
  122. }
  123.     }
  124.   
  125.     /* virtual inserted item is not defined yet */
  126.     if (vn->vn_mode == M_INSERT) {
  127. struct virtual_item * vi = vn->vn_vi + vn->vn_affected_item_num;
  128.       
  129. RFALSE( vn->vn_ins_ih == 0,
  130. "vs-8040: item header of inserted item is not specified");
  131. vi->vi_item_len = tb->insert_size[0];
  132. vi->vi_ih = vn->vn_ins_ih;
  133. vi->vi_item = vn->vn_data;
  134. vi->vi_uarea = vn->vn_free_ptr;
  135. op_create_vi (vn, vi, 0/*not pasted or cut*/, tb->insert_size [0]);
  136.     }
  137.   
  138.     /* set right merge flag we take right delimiting key and check whether it is a mergeable item */
  139.     if (tb->CFR[0]) {
  140. struct key * key;
  141. key = B_N_PDELIM_KEY (tb->CFR[0], tb->rkey[0]);
  142. if (op_is_left_mergeable (key, Sh->b_size) && (vn->vn_mode != M_DELETE ||
  143.        vn->vn_affected_item_num != B_NR_ITEMS (Sh) - 1))
  144. vn->vn_vi[vn->vn_nr_item-1].vi_type |= VI_TYPE_RIGHT_MERGEABLE;
  145. #ifdef CONFIG_REISERFS_CHECK
  146. if (op_is_left_mergeable (key, Sh->b_size) &&
  147.     !(vn->vn_mode != M_DELETE || vn->vn_affected_item_num != B_NR_ITEMS (Sh) - 1) ) {
  148.     /* we delete last item and it could be merged with right neighbor's first item */
  149.     if (!(B_NR_ITEMS (Sh) == 1 && is_direntry_le_ih (B_N_PITEM_HEAD (Sh, 0)) &&
  150.   I_ENTRY_COUNT (B_N_PITEM_HEAD (Sh, 0)) == 1)) {
  151. /* node contains more than 1 item, or item is not directory item, or this item contains more than 1 entry */
  152. print_block (Sh, 0, -1, -1);
  153. reiserfs_panic (tb->tb_sb, "vs-8045: create_virtual_node: rdkey %k, affected item==%d (mode==%c) Must be %c", 
  154. key, vn->vn_affected_item_num, vn->vn_mode, M_DELETE);
  155.     } else
  156. /* we can delete directory item, that has only one directory entry in it */
  157. ;
  158. }
  159. #endif
  160.     
  161.     }
  162. }
  163. /* using virtual node check, how many items can be shifted to left
  164.    neighbor */
  165. static void check_left (struct tree_balance * tb, int h, int cur_free)
  166. {
  167.     int i;
  168.     struct virtual_node * vn = tb->tb_vn;
  169.     struct virtual_item * vi;
  170.     int d_size, ih_size;
  171.     RFALSE( cur_free < 0, "vs-8050: cur_free (%d) < 0", cur_free);
  172.     /* internal level */
  173.     if (h > 0) {
  174. tb->lnum[h] = cur_free / (DC_SIZE + KEY_SIZE);
  175. return;
  176.     }
  177.     /* leaf level */
  178.     if (!cur_free || !vn->vn_nr_item) {
  179. /* no free space or nothing to move */
  180. tb->lnum[h] = 0;
  181. tb->lbytes = -1;
  182. return;
  183.     }
  184.     RFALSE( !PATH_H_PPARENT (tb->tb_path, 0),
  185.     "vs-8055: parent does not exist or invalid");
  186.     vi = vn->vn_vi;
  187.     if ((unsigned int)cur_free >= (vn->vn_size - ((vi->vi_type & VI_TYPE_LEFT_MERGEABLE) ? IH_SIZE : 0))) {
  188. /* all contents of S[0] fits into L[0] */
  189. RFALSE( vn->vn_mode == M_INSERT || vn->vn_mode == M_PASTE,
  190. "vs-8055: invalid mode or balance condition failed");
  191. tb->lnum[0] = vn->vn_nr_item;
  192. tb->lbytes = -1;
  193. return;
  194.     }
  195.   
  196.     d_size = 0, ih_size = IH_SIZE;
  197.     /* first item may be merge with last item in left neighbor */
  198.     if (vi->vi_type & VI_TYPE_LEFT_MERGEABLE)
  199. d_size = -((int)IH_SIZE), ih_size = 0;
  200.     tb->lnum[0] = 0;
  201.     for (i = 0; i < vn->vn_nr_item; i ++, ih_size = IH_SIZE, d_size = 0, vi ++) {
  202. d_size += vi->vi_item_len;
  203. if (cur_free >= d_size) {
  204.     /* the item can be shifted entirely */
  205.     cur_free -= d_size;
  206.     tb->lnum[0] ++;
  207.     continue;
  208. }
  209.       
  210. /* the item cannot be shifted entirely, try to split it */
  211. /* check whether L[0] can hold ih and at least one byte of the item body */
  212. if (cur_free <= ih_size) {
  213.     /* cannot shift even a part of the current item */
  214.     tb->lbytes = -1;
  215.     return;
  216. }
  217. cur_free -= ih_size;
  218.     
  219. tb->lbytes = op_check_left (vi, cur_free, 0, 0);
  220. if (tb->lbytes != -1)
  221.     /* count partially shifted item */
  222.     tb->lnum[0] ++;
  223.     
  224. break;
  225.     }
  226.   
  227.     return;
  228. }
  229. /* using virtual node check, how many items can be shifted to right
  230.    neighbor */
  231. static void check_right (struct tree_balance * tb, int h, int cur_free)
  232. {
  233.     int i;
  234.     struct virtual_node * vn = tb->tb_vn;
  235.     struct virtual_item * vi;
  236.     int d_size, ih_size;
  237.     RFALSE( cur_free < 0, "vs-8070: cur_free < 0");
  238.     
  239.     /* internal level */
  240.     if (h > 0) {
  241. tb->rnum[h] = cur_free / (DC_SIZE + KEY_SIZE);
  242. return;
  243.     }
  244.     
  245.     /* leaf level */
  246.     
  247.     if (!cur_free || !vn->vn_nr_item) {
  248. /* no free space  */
  249. tb->rnum[h] = 0;
  250. tb->rbytes = -1;
  251. return;
  252.     }
  253.   
  254.     RFALSE( !PATH_H_PPARENT (tb->tb_path, 0),
  255.     "vs-8075: parent does not exist or invalid");
  256.   
  257.     vi = vn->vn_vi + vn->vn_nr_item - 1;
  258.     if ((unsigned int)cur_free >= (vn->vn_size - ((vi->vi_type & VI_TYPE_RIGHT_MERGEABLE) ? IH_SIZE : 0))) {
  259. /* all contents of S[0] fits into R[0] */
  260. RFALSE( vn->vn_mode == M_INSERT || vn->vn_mode == M_PASTE,
  261. "vs-8080: invalid mode or balance condition failed");
  262. tb->rnum[h] = vn->vn_nr_item;
  263. tb->rbytes = -1;
  264. return;
  265.     }
  266.     
  267.     d_size = 0, ih_size = IH_SIZE;
  268.     
  269.     /* last item may be merge with first item in right neighbor */
  270.     if (vi->vi_type & VI_TYPE_RIGHT_MERGEABLE)
  271. d_size = -(int)IH_SIZE, ih_size = 0;
  272.     tb->rnum[0] = 0;
  273.     for (i = vn->vn_nr_item - 1; i >= 0; i --, d_size = 0, ih_size = IH_SIZE, vi --) {
  274. d_size += vi->vi_item_len;
  275. if (cur_free >= d_size) {
  276.     /* the item can be shifted entirely */
  277.     cur_free -= d_size;
  278.     tb->rnum[0] ++;
  279.     continue;
  280. }
  281. /* check whether R[0] can hold ih and at least one byte of the item body */
  282. if ( cur_free <= ih_size ) {    /* cannot shift even a part of the current item */
  283.     tb->rbytes = -1;
  284.     return;
  285. }
  286. /* R[0] can hold the header of the item and at least one byte of its body */
  287. cur_free -= ih_size; /* cur_free is still > 0 */
  288. tb->rbytes = op_check_right (vi, cur_free);
  289. if (tb->rbytes != -1)
  290.     /* count partially shifted item */
  291.     tb->rnum[0] ++;
  292.     
  293. break;
  294.     }
  295.   return;
  296. }
  297. /*
  298.  * from - number of items, which are shifted to left neighbor entirely
  299.  * to - number of item, which are shifted to right neighbor entirely
  300.  * from_bytes - number of bytes of boundary item (or directory entries) which are shifted to left neighbor
  301.  * to_bytes - number of bytes of boundary item (or directory entries) which are shifted to right neighbor */
  302. static int get_num_ver (int mode, struct tree_balance * tb, int h,
  303. int from, int from_bytes,
  304. int to,   int to_bytes,
  305. short * snum012, int flow
  306.     )
  307. {
  308.     int i;
  309.     int cur_free;
  310.     //    int bytes;
  311.     int units;
  312.     struct virtual_node * vn = tb->tb_vn;
  313.     //    struct virtual_item * vi;
  314.     int total_node_size, max_node_size, current_item_size;
  315.     int needed_nodes;
  316.     int start_item,  /* position of item we start filling node from */
  317. end_item, /* position of item we finish filling node by */
  318. start_bytes,/* number of first bytes (entries for directory) of start_item-th item 
  319.        we do not include into node that is being filled */
  320. end_bytes; /* number of last bytes (entries for directory) of end_item-th item 
  321.    we do node include into node that is being filled */
  322.     int split_item_positions[2]; /* these are positions in virtual item of
  323.     items, that are split between S[0] and
  324.     S1new and S1new and S2new */
  325.     split_item_positions[0] = -1;
  326.     split_item_positions[1] = -1;
  327.     /* We only create additional nodes if we are in insert or paste mode
  328.        or we are in replace mode at the internal level. If h is 0 and
  329.        the mode is M_REPLACE then in fix_nodes we change the mode to
  330.        paste or insert before we get here in the code.  */
  331.     RFALSE( tb->insert_size[h] < 0  || (mode != M_INSERT && mode != M_PASTE),
  332.     "vs-8100: insert_size < 0 in overflow");
  333.     max_node_size = MAX_CHILD_SIZE (PATH_H_PBUFFER (tb->tb_path, h));
  334.     /* snum012 [0-2] - number of items, that lay
  335.        to S[0], first new node and second new node */
  336.     snum012[3] = -1; /* s1bytes */
  337.     snum012[4] = -1; /* s2bytes */
  338.     /* internal level */
  339.     if (h > 0) {
  340. i = ((to - from) * (KEY_SIZE + DC_SIZE) + DC_SIZE);
  341. if (i == max_node_size)
  342.     return 1;
  343. return (i / max_node_size + 1);
  344.     }
  345.     /* leaf level */
  346.     needed_nodes = 1;
  347.     total_node_size = 0;
  348.     cur_free = max_node_size;
  349.     // start from 'from'-th item
  350.     start_item = from;
  351.     // skip its first 'start_bytes' units
  352.     start_bytes = ((from_bytes != -1) ? from_bytes : 0);
  353.     // last included item is the 'end_item'-th one
  354.     end_item = vn->vn_nr_item - to - 1;
  355.     // do not count last 'end_bytes' units of 'end_item'-th item
  356.     end_bytes = (to_bytes != -1) ? to_bytes : 0;
  357.     /* go through all item beginning from the start_item-th item and ending by
  358.        the end_item-th item. Do not count first 'start_bytes' units of
  359.        'start_item'-th item and last 'end_bytes' of 'end_item'-th item */
  360.     
  361.     for (i = start_item; i <= end_item; i ++) {
  362. struct virtual_item * vi = vn->vn_vi + i;
  363. int skip_from_end = ((i == end_item) ? end_bytes : 0);
  364. RFALSE( needed_nodes > 3, "vs-8105: too many nodes are needed");
  365. /* get size of current item */
  366. current_item_size = vi->vi_item_len;
  367. /* do not take in calculation head part (from_bytes) of from-th item */
  368. current_item_size -= op_part_size (vi, 0/*from start*/, start_bytes);
  369. /* do not take in calculation tail part of last item */
  370. current_item_size -= op_part_size (vi, 1/*from end*/, skip_from_end);
  371. /* if item fits into current node entierly */
  372. if (total_node_size + current_item_size <= max_node_size) {
  373.     snum012[needed_nodes - 1] ++;
  374.     total_node_size += current_item_size;
  375.     start_bytes = 0;
  376.     continue;
  377. }
  378. if (current_item_size > max_node_size) {
  379.     /* virtual item length is longer, than max size of item in
  380.                a node. It is impossible for direct item */
  381.     RFALSE( is_direct_le_ih (vi->vi_ih),
  382.     "vs-8110: "
  383.     "direct item length is %d. It can not be longer than %d",
  384.     current_item_size, max_node_size);
  385.     /* we will try to split it */
  386.     flow = 1;
  387. }
  388. if (!flow) {
  389.     /* as we do not split items, take new node and continue */
  390.     needed_nodes ++; i --; total_node_size = 0;
  391.     continue;
  392. }
  393. // calculate number of item units which fit into node being
  394. // filled
  395. {
  396.     int free_space;
  397.     free_space = max_node_size - total_node_size - IH_SIZE;
  398.     units = op_check_left (vi, free_space, start_bytes, skip_from_end);
  399.     if (units == -1) {
  400. /* nothing fits into current node, take new node and continue */
  401. needed_nodes ++, i--, total_node_size = 0;
  402. continue;
  403.     }
  404. }
  405. /* something fits into the current node */
  406. //if (snum012[3] != -1 || needed_nodes != 1)
  407. //  reiserfs_panic (tb->tb_sb, "vs-8115: get_num_ver: too many nodes required");
  408. //snum012[needed_nodes - 1 + 3] = op_unit_num (vi) - start_bytes - units;
  409. start_bytes += units;
  410. snum012[needed_nodes - 1 + 3] = units;
  411. if (needed_nodes > 2)
  412.     reiserfs_warning ("vs-8111: get_num_ver: split_item_position is out of boundaryn");
  413. snum012[needed_nodes - 1] ++;
  414. split_item_positions[needed_nodes - 1] = i;
  415. needed_nodes ++;
  416. /* continue from the same item with start_bytes != -1 */
  417. start_item = i;
  418. i --;
  419. total_node_size = 0;
  420.     }
  421.     // sum012[4] (if it is not -1) contains number of units of which
  422.     // are to be in S1new, snum012[3] - to be in S0. They are supposed
  423.     // to be S1bytes and S2bytes correspondingly, so recalculate
  424.     if (snum012[4] > 0) {
  425. int split_item_num;
  426. int bytes_to_r, bytes_to_l;
  427. int bytes_to_S1new;
  428.     
  429. split_item_num = split_item_positions[1];
  430. bytes_to_l = ((from == split_item_num && from_bytes != -1) ? from_bytes : 0);
  431. bytes_to_r = ((end_item == split_item_num && end_bytes != -1) ? end_bytes : 0);
  432. bytes_to_S1new = ((split_item_positions[0] == split_item_positions[1]) ? snum012[3] : 0);
  433. // s2bytes
  434. snum012[4] = op_unit_num (&vn->vn_vi[split_item_num]) - snum012[4] - bytes_to_r - bytes_to_l - bytes_to_S1new;
  435. if (vn->vn_vi[split_item_num].vi_index != TYPE_DIRENTRY)
  436.     reiserfs_warning ("vs-8115: get_num_ver: not directory itemn");
  437.     }
  438.     /* now we know S2bytes, calculate S1bytes */
  439.     if (snum012[3] > 0) {
  440. int split_item_num;
  441. int bytes_to_r, bytes_to_l;
  442. int bytes_to_S2new;
  443.     
  444. split_item_num = split_item_positions[0];
  445. bytes_to_l = ((from == split_item_num && from_bytes != -1) ? from_bytes : 0);
  446. bytes_to_r = ((end_item == split_item_num && end_bytes != -1) ? end_bytes : 0);
  447. bytes_to_S2new = ((split_item_positions[0] == split_item_positions[1] && snum012[4] != -1) ? snum012[4] : 0);
  448. // s1bytes
  449. snum012[3] = op_unit_num (&vn->vn_vi[split_item_num]) - snum012[3] - bytes_to_r - bytes_to_l - bytes_to_S2new;
  450.     }
  451.     
  452.     return needed_nodes;
  453. }
  454. #ifdef CONFIG_REISERFS_CHECK
  455. extern struct tree_balance * cur_tb;
  456. #endif
  457. /* Set parameters for balancing.
  458.  * Performs write of results of analysis of balancing into structure tb,
  459.  * where it will later be used by the functions that actually do the balancing. 
  460.  * Parameters:
  461.  * tb tree_balance structure;
  462.  * h current level of the node;
  463.  * lnum number of items from S[h] that must be shifted to L[h];
  464.  * rnum number of items from S[h] that must be shifted to R[h];
  465.  * blk_num number of blocks that S[h] will be splitted into;
  466.  * s012 number of items that fall into splitted nodes.
  467.  * lbytes number of bytes which flow to the left neighbor from the item that is not
  468.  * not shifted entirely
  469.  * rbytes number of bytes which flow to the right neighbor from the item that is not
  470.  * not shifted entirely
  471.  * s1bytes number of bytes which flow to the first  new node when S[0] splits (this number is contained in s012 array)
  472.  */
  473. static void set_parameters (struct tree_balance * tb, int h, int lnum,
  474.     int rnum, int blk_num, short * s012, int lb, int rb)
  475. {
  476.   tb->lnum[h] = lnum;
  477.   tb->rnum[h] = rnum;
  478.   tb->blknum[h] = blk_num;
  479.   if (h == 0)
  480.     {  /* only for leaf level */
  481.       if (s012 != NULL)
  482. {
  483.   tb->s0num = * s012 ++,
  484.   tb->s1num = * s012 ++,
  485.   tb->s2num = * s012 ++;
  486.   tb->s1bytes = * s012 ++;
  487.   tb->s2bytes = * s012;
  488. }
  489.       tb->lbytes = lb;
  490.       tb->rbytes = rb;
  491.     }
  492.   PROC_INFO_ADD( tb -> tb_sb, lnum[ h ], lnum );
  493.   PROC_INFO_ADD( tb -> tb_sb, rnum[ h ], rnum );
  494.   PROC_INFO_ADD( tb -> tb_sb, lbytes[ h ], lb );
  495.   PROC_INFO_ADD( tb -> tb_sb, rbytes[ h ], rb );
  496. }
  497. /* check, does node disappear if we shift tb->lnum[0] items to left
  498.    neighbor and tb->rnum[0] to the right one. */
  499. static int is_leaf_removable (struct tree_balance * tb)
  500. {
  501.   struct virtual_node * vn = tb->tb_vn;
  502.   int to_left, to_right;
  503.   int size;
  504.   int remain_items;
  505.   /* number of items, that will be shifted to left (right) neighbor
  506.      entirely */
  507.   to_left = tb->lnum[0] - ((tb->lbytes != -1) ? 1 : 0);
  508.   to_right = tb->rnum[0] - ((tb->rbytes != -1) ? 1 : 0);
  509.   remain_items = vn->vn_nr_item;
  510.   /* how many items remain in S[0] after shiftings to neighbors */
  511.   remain_items -= (to_left + to_right);
  512.   if (remain_items < 1) {
  513.     /* all content of node can be shifted to neighbors */
  514.     set_parameters (tb, 0, to_left, vn->vn_nr_item - to_left, 0, NULL, -1, -1);    
  515.     return 1;
  516.   }
  517.   
  518.   if (remain_items > 1 || tb->lbytes == -1 || tb->rbytes == -1)
  519.     /* S[0] is not removable */
  520.     return 0;
  521.   /* check, whether we can divide 1 remaining item between neighbors */
  522.   /* get size of remaining item (in item units) */
  523.   size = op_unit_num (&(vn->vn_vi[to_left]));
  524.   if (tb->lbytes + tb->rbytes >= size) {
  525.     set_parameters (tb, 0, to_left + 1, to_right + 1, 0, NULL, tb->lbytes, -1);
  526.     return 1;
  527.   }
  528.   return 0;
  529. }
  530. /* check whether L, S, R can be joined in one node */
  531. static int are_leaves_removable (struct tree_balance * tb, int lfree, int rfree)
  532. {
  533.   struct virtual_node * vn = tb->tb_vn;
  534.   int ih_size;
  535.   struct buffer_head *S0;
  536.   S0 = PATH_H_PBUFFER (tb->tb_path, 0);
  537.   ih_size = 0;
  538.   if (vn->vn_nr_item) {
  539.     if (vn->vn_vi[0].vi_type & VI_TYPE_LEFT_MERGEABLE)
  540.       ih_size += IH_SIZE;
  541.     
  542. if (vn->vn_vi[vn->vn_nr_item-1].vi_type & VI_TYPE_RIGHT_MERGEABLE)
  543.     ih_size += IH_SIZE;
  544.     } else {
  545. /* there was only one item and it will be deleted */
  546. struct item_head * ih;
  547.     
  548.     RFALSE( B_NR_ITEMS (S0) != 1,
  549.     "vs-8125: item number must be 1: it is %d", B_NR_ITEMS(S0));
  550.     ih = B_N_PITEM_HEAD (S0, 0);
  551.     if (tb->CFR[0] && !comp_short_le_keys (&(ih->ih_key), B_N_PDELIM_KEY (tb->CFR[0], tb->rkey[0])))
  552. if (is_direntry_le_ih (ih)) {
  553.     /* Directory must be in correct state here: that is
  554.        somewhere at the left side should exist first directory
  555.        item. But the item being deleted can not be that first
  556.        one because its right neighbor is item of the same
  557.        directory. (But first item always gets deleted in last
  558.        turn). So, neighbors of deleted item can be merged, so
  559.        we can save ih_size */
  560.     ih_size = IH_SIZE;
  561.     
  562.     /* we might check that left neighbor exists and is of the
  563.        same directory */
  564.     RFALSE(le_ih_k_offset (ih) == DOT_OFFSET,
  565. "vs-8130: first directory item can not be removed until directory is not empty");
  566.       }
  567.     
  568.   }
  569.   if (MAX_CHILD_SIZE (S0) + vn->vn_size <= rfree + lfree + ih_size) {
  570.     set_parameters (tb, 0, -1, -1, -1, NULL, -1, -1);
  571.     PROC_INFO_INC( tb -> tb_sb, leaves_removable );
  572.     return 1;  
  573.   }
  574.   return 0;
  575.   
  576. }
  577. /* when we do not split item, lnum and rnum are numbers of entire items */
  578. #define SET_PAR_SHIFT_LEFT 
  579. if (h)
  580. {
  581.    int to_l;
  582.    
  583.    to_l = (MAX_NR_KEY(Sh)+1 - lpar + vn->vn_nr_item + 1) / 2 -
  584.       (MAX_NR_KEY(Sh) + 1 - lpar);
  585.       
  586.       set_parameters (tb, h, to_l, 0, lnver, NULL, -1, -1);
  587. }
  588. else 
  589. {
  590.    if (lset==LEFT_SHIFT_FLOW)
  591.      set_parameters (tb, h, lpar, 0, lnver, snum012+lset,
  592.      tb->lbytes, -1);
  593.    else
  594.      set_parameters (tb, h, lpar - (tb->lbytes!=-1), 0, lnver, snum012+lset,
  595.      -1, -1);
  596. }
  597. #define SET_PAR_SHIFT_RIGHT 
  598. if (h)
  599. {
  600.    int to_r;
  601.    
  602.    to_r = (MAX_NR_KEY(Sh)+1 - rpar + vn->vn_nr_item + 1) / 2 - (MAX_NR_KEY(Sh) + 1 - rpar);
  603.    
  604.    set_parameters (tb, h, 0, to_r, rnver, NULL, -1, -1);
  605. }
  606. else 
  607. {
  608.    if (rset==RIGHT_SHIFT_FLOW)
  609.      set_parameters (tb, h, 0, rpar, rnver, snum012+rset,
  610.   -1, tb->rbytes);
  611.    else
  612.      set_parameters (tb, h, 0, rpar - (tb->rbytes!=-1), rnver, snum012+rset,
  613.   -1, -1);
  614. }
  615. void free_buffers_in_tb (
  616.        struct tree_balance * p_s_tb
  617.        ) {
  618.   int n_counter;
  619.   decrement_counters_in_path(p_s_tb->tb_path);
  620.   
  621.   for ( n_counter = 0; n_counter < MAX_HEIGHT; n_counter++ ) {
  622.     decrement_bcount(p_s_tb->L[n_counter]);
  623.     p_s_tb->L[n_counter] = NULL;
  624.     decrement_bcount(p_s_tb->R[n_counter]);
  625.     p_s_tb->R[n_counter] = NULL;
  626.     decrement_bcount(p_s_tb->FL[n_counter]);
  627.     p_s_tb->FL[n_counter] = NULL;
  628.     decrement_bcount(p_s_tb->FR[n_counter]);
  629.     p_s_tb->FR[n_counter] = NULL;
  630.     decrement_bcount(p_s_tb->CFL[n_counter]);
  631.     p_s_tb->CFL[n_counter] = NULL;
  632.     decrement_bcount(p_s_tb->CFR[n_counter]);
  633.     p_s_tb->CFR[n_counter] = NULL;
  634.   }
  635. }
  636. /* Get new buffers for storing new nodes that are created while balancing.
  637.  * Returns: SCHEDULE_OCCURRED - schedule occurred while the function worked;
  638.  *         CARRY_ON - schedule didn't occur while the function worked;
  639.  *         NO_DISK_SPACE - no disk space.
  640.  */
  641. /* The function is NOT SCHEDULE-SAFE! */
  642. static int  get_empty_nodes(
  643.               struct tree_balance * p_s_tb,
  644.               int n_h
  645.             ) {
  646.   struct buffer_head  * p_s_new_bh,
  647.            * p_s_Sh = PATH_H_PBUFFER (p_s_tb->tb_path, n_h);
  648.   unsigned long       * p_n_blocknr,
  649.      a_n_blocknrs[MAX_AMOUNT_NEEDED] = {0, };
  650.   int        n_counter,
  651.     n_number_of_freeblk,
  652.                  n_amount_needed,/* number of needed empty blocks */
  653. n_retval = CARRY_ON;
  654.   struct super_block * p_s_sb = p_s_tb->tb_sb;
  655.   /* number_of_freeblk is the number of empty blocks which have been
  656.      acquired for use by the balancing algorithm minus the number of
  657.      empty blocks used in the previous levels of the analysis,
  658.      number_of_freeblk = tb->cur_blknum can be non-zero if a schedule occurs
  659.      after empty blocks are acquired, and the balancing analysis is
  660.      then restarted, amount_needed is the number needed by this level
  661.      (n_h) of the balancing analysis.
  662.     
  663.      Note that for systems with many processes writing, it would be
  664.      more layout optimal to calculate the total number needed by all
  665.      levels and then to run reiserfs_new_blocks to get all of them at once.  */
  666.   /* Initiate number_of_freeblk to the amount acquired prior to the restart of
  667.      the analysis or 0 if not restarted, then subtract the amount needed
  668.      by all of the levels of the tree below n_h. */
  669.   /* blknum includes S[n_h], so we subtract 1 in this calculation */
  670.   for ( n_counter = 0, n_number_of_freeblk = p_s_tb->cur_blknum; n_counter < n_h; n_counter++ )
  671.     n_number_of_freeblk -= ( p_s_tb->blknum[n_counter] ) ? (p_s_tb->blknum[n_counter] - 1) : 0;
  672.   /* Allocate missing empty blocks. */
  673.   /* if p_s_Sh == 0  then we are getting a new root */
  674.   n_amount_needed = ( p_s_Sh ) ? (p_s_tb->blknum[n_h] - 1) : 1;
  675.   /*  Amount_needed = the amount that we need more than the amount that we have. */
  676.   if ( n_amount_needed > n_number_of_freeblk )
  677.     n_amount_needed -= n_number_of_freeblk;
  678.   else /* If we have enough already then there is nothing to do. */
  679.     return CARRY_ON;
  680.   if ( reiserfs_new_blocknrs (p_s_tb->transaction_handle, a_n_blocknrs,
  681.       PATH_PLAST_BUFFER(p_s_tb->tb_path)->b_blocknr, n_amount_needed) == NO_DISK_SPACE )
  682.     return NO_DISK_SPACE;
  683.   /* for each blocknumber we just got, get a buffer and stick it on FEB */
  684.   for ( p_n_blocknr = a_n_blocknrs, n_counter = 0; n_counter < n_amount_needed;
  685. p_n_blocknr++, n_counter++ ) { 
  686.     RFALSE( ! *p_n_blocknr,
  687.     "PAP-8135: reiserfs_new_blocknrs failed when got new blocks");
  688.     p_s_new_bh = getblk(p_s_sb->s_dev, *p_n_blocknr, p_s_sb->s_blocksize);
  689.     if (atomic_read (&(p_s_new_bh->b_count)) > 1) {
  690. /*&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&*/
  691. /*
  692.       reiserfs_warning ("waiting for buffer %b, iput inode pid = %d, this pid %d, mode %c, %hn",
  693. p_s_new_bh, put_inode_pid, current->pid, p_s_tb->tb_vn->vn_mode, p_s_tb->tb_vn->vn_ins_ih);
  694.       print_tb (0, 0, 0, p_s_tb, "tb");
  695. */
  696. /*&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&*/
  697.       if (atomic_read(&(p_s_new_bh->b_count)) > 2 || 
  698.           !(buffer_journaled(p_s_new_bh) || buffer_journal_dirty(p_s_new_bh))) {
  699. n_retval = REPEAT_SEARCH ;
  700. free_buffers_in_tb (p_s_tb);
  701. wait_buffer_until_released (p_s_new_bh);
  702.       }
  703.     }
  704.     RFALSE( (atomic_read (&(p_s_new_bh->b_count)) != 1 || 
  705.      buffer_dirty (p_s_new_bh)) && 
  706.     (atomic_read(&(p_s_new_bh->b_count)) > 2 || 
  707.      !(buffer_journaled(p_s_new_bh) || 
  708.        buffer_journal_dirty(p_s_new_bh))),
  709.     "PAP-8140: not free or dirty buffer %b for the new block", 
  710.     p_s_new_bh);
  711.     
  712.     /* Put empty buffers into the array. */
  713.     if (p_s_tb->FEB[p_s_tb->cur_blknum])
  714.       BUG();
  715.     mark_buffer_journal_new(p_s_new_bh) ;
  716.     p_s_tb->FEB[p_s_tb->cur_blknum++] = p_s_new_bh;
  717.   }
  718.   if ( n_retval == CARRY_ON && FILESYSTEM_CHANGED_TB (p_s_tb) )
  719.     n_retval = REPEAT_SEARCH ;
  720.   return n_retval;
  721. }
  722. /* Get free space of the left neighbor, which is stored in the parent
  723.  * node of the left neighbor.  */
  724. static int get_lfree (struct tree_balance * tb, int h)
  725. {
  726.     struct buffer_head * l, * f;
  727.     int order;
  728.     if ((f = PATH_H_PPARENT (tb->tb_path, h)) == 0 || (l = tb->FL[h]) == 0)
  729. return 0;
  730.     if (f == l)
  731. order = PATH_H_B_ITEM_ORDER (tb->tb_path, h) - 1;
  732.     else {
  733. order = B_NR_ITEMS (l);
  734. f = l;
  735.     }
  736.     return (MAX_CHILD_SIZE(f) - dc_size(B_N_CHILD(f,order)));
  737. }
  738. /* Get free space of the right neighbor,
  739.  * which is stored in the parent node of the right neighbor.
  740.  */
  741. static int get_rfree (struct tree_balance * tb, int h)
  742. {
  743.   struct buffer_head * r, * f;
  744.   int order;
  745.   if ((f = PATH_H_PPARENT (tb->tb_path, h)) == 0 || (r = tb->FR[h]) == 0)
  746.     return 0;
  747.   if (f == r)
  748.       order = PATH_H_B_ITEM_ORDER (tb->tb_path, h) + 1;
  749.   else {
  750.       order = 0;
  751.       f = r;
  752.   }
  753.   return (MAX_CHILD_SIZE(f) - dc_size( B_N_CHILD(f,order)));
  754. }
  755. /* Check whether left neighbor is in memory. */
  756. static int  is_left_neighbor_in_cache(
  757.               struct tree_balance * p_s_tb,
  758.               int                   n_h
  759.             ) {
  760.   struct buffer_head  * p_s_father, * left;
  761.   struct super_block  * p_s_sb = p_s_tb->tb_sb;
  762.   unsigned long         n_left_neighbor_blocknr;
  763.   int                   n_left_neighbor_position;
  764.   if ( ! p_s_tb->FL[n_h] ) /* Father of the left neighbor does not exist. */
  765.     return 0;
  766.   /* Calculate father of the node to be balanced. */
  767.   p_s_father = PATH_H_PBUFFER(p_s_tb->tb_path, n_h + 1);
  768.   RFALSE( ! p_s_father || 
  769.   ! B_IS_IN_TREE (p_s_father) || 
  770.   ! B_IS_IN_TREE (p_s_tb->FL[n_h]) ||
  771.   ! buffer_uptodate (p_s_father) || 
  772.   ! buffer_uptodate (p_s_tb->FL[n_h]),
  773.   "vs-8165: F[h] (%b) or FL[h] (%b) is invalid", 
  774.   p_s_father, p_s_tb->FL[n_h]);
  775.   /* Get position of the pointer to the left neighbor into the left father. */
  776.   n_left_neighbor_position = ( p_s_father == p_s_tb->FL[n_h] ) ?
  777.                       p_s_tb->lkey[n_h] : B_NR_ITEMS (p_s_tb->FL[n_h]);
  778.   /* Get left neighbor block number. */
  779.   n_left_neighbor_blocknr = B_N_CHILD_NUM(p_s_tb->FL[n_h], n_left_neighbor_position);
  780.   /* Look for the left neighbor in the cache. */
  781.   if ( (left = sb_get_hash_table(p_s_sb, n_left_neighbor_blocknr)) ) {
  782.     RFALSE( buffer_uptodate (left) && ! B_IS_IN_TREE(left),
  783.     "vs-8170: left neighbor (%b %z) is not in the tree", left, left);
  784.     put_bh(left) ;
  785.     return 1;
  786.   }
  787.   return 0;
  788. }
  789. #define LEFT_PARENTS  'l'
  790. #define RIGHT_PARENTS 'r'
  791. static void decrement_key (struct cpu_key * p_s_key)
  792. {
  793.     // call item specific function for this key
  794.     item_ops[cpu_key_k_type (p_s_key)]->decrement_key (p_s_key);
  795. }
  796. /* Calculate far left/right parent of the left/right neighbor of the current node, that
  797.  * is calculate the left/right (FL[h]/FR[h]) neighbor of the parent F[h].
  798.  * Calculate left/right common parent of the current node and L[h]/R[h].
  799.  * Calculate left/right delimiting key position.
  800.  * Returns: PATH_INCORRECT   - path in the tree is not correct;
  801.   SCHEDULE_OCCURRED - schedule occurred while the function worked;
  802.  *         CARRY_ON         - schedule didn't occur while the function worked;
  803.  */
  804. static int  get_far_parent (struct tree_balance *   p_s_tb,
  805.     int                     n_h,
  806.     struct buffer_head  **  pp_s_father,
  807.     struct buffer_head  **  pp_s_com_father,
  808.     char                    c_lr_par) 
  809. {
  810.     struct buffer_head  * p_s_parent;
  811.     INITIALIZE_PATH (s_path_to_neighbor_father);
  812.     struct path * p_s_path = p_s_tb->tb_path;
  813.     struct cpu_key s_lr_father_key;
  814.     int                   n_counter,
  815. n_position = INT_MAX,
  816. n_first_last_position = 0,
  817. n_path_offset = PATH_H_PATH_OFFSET(p_s_path, n_h);
  818.     /* Starting from F[n_h] go upwards in the tree, and look for the common
  819.       ancestor of F[n_h], and its neighbor l/r, that should be obtained. */
  820.     n_counter = n_path_offset;
  821.     RFALSE( n_counter < FIRST_PATH_ELEMENT_OFFSET,
  822.     "PAP-8180: invalid path length");
  823.   
  824.     for ( ; n_counter > FIRST_PATH_ELEMENT_OFFSET; n_counter--  )  {
  825. /* Check whether parent of the current buffer in the path is really parent in the tree. */
  826. if ( ! B_IS_IN_TREE(p_s_parent = PATH_OFFSET_PBUFFER(p_s_path, n_counter - 1)) )
  827.     return REPEAT_SEARCH;
  828. /* Check whether position in the parent is correct. */
  829. if ( (n_position = PATH_OFFSET_POSITION(p_s_path, n_counter - 1)) > B_NR_ITEMS(p_s_parent) )
  830.     return REPEAT_SEARCH;
  831. /* Check whether parent at the path really points to the child. */
  832. if ( B_N_CHILD_NUM(p_s_parent, n_position) !=
  833.      PATH_OFFSET_PBUFFER(p_s_path, n_counter)->b_blocknr )
  834.     return REPEAT_SEARCH;
  835. /* Return delimiting key if position in the parent is not equal to first/last one. */
  836. if ( c_lr_par == RIGHT_PARENTS )
  837.     n_first_last_position = B_NR_ITEMS (p_s_parent);
  838. if ( n_position != n_first_last_position ) {
  839.     *pp_s_com_father = p_s_parent;
  840.     get_bh(*pp_s_com_father) ;
  841.     /*(*pp_s_com_father = p_s_parent)->b_count++;*/
  842.     break;
  843. }
  844.     }
  845.     /* if we are in the root of the tree, then there is no common father */
  846.     if ( n_counter == FIRST_PATH_ELEMENT_OFFSET ) {
  847. /* Check whether first buffer in the path is the root of the tree. */
  848. if ( PATH_OFFSET_PBUFFER(p_s_tb->tb_path, FIRST_PATH_ELEMENT_OFFSET)->b_blocknr ==
  849.      SB_ROOT_BLOCK (p_s_tb->tb_sb) ) {
  850.     *pp_s_father = *pp_s_com_father = NULL;
  851.     return CARRY_ON;
  852. }
  853. return REPEAT_SEARCH;
  854.     }
  855.     RFALSE( B_LEVEL (*pp_s_com_father) <= DISK_LEAF_NODE_LEVEL,
  856.     "PAP-8185: (%b %z) level too small", 
  857.     *pp_s_com_father, *pp_s_com_father);
  858.     /* Check whether the common parent is locked. */
  859.     if ( buffer_locked (*pp_s_com_father) ) {
  860. __wait_on_buffer(*pp_s_com_father);
  861. if ( FILESYSTEM_CHANGED_TB (p_s_tb) ) {
  862.     decrement_bcount(*pp_s_com_father);
  863.     return REPEAT_SEARCH;
  864. }
  865.     }
  866.     /* So, we got common parent of the current node and its left/right neighbor.
  867.      Now we are geting the parent of the left/right neighbor. */
  868.     /* Form key to get parent of the left/right neighbor. */
  869.     le_key2cpu_key (&s_lr_father_key, B_N_PDELIM_KEY(*pp_s_com_father, ( c_lr_par == LEFT_PARENTS ) ?
  870.      (p_s_tb->lkey[n_h - 1] = n_position - 1) : (p_s_tb->rkey[n_h - 1] = n_position)));
  871.     if ( c_lr_par == LEFT_PARENTS )
  872. decrement_key(&s_lr_father_key);
  873.     if (search_by_key(p_s_tb->tb_sb, &s_lr_father_key, &s_path_to_neighbor_father, n_h + 1) == IO_ERROR)
  874. // path is released
  875. return IO_ERROR;
  876.     if ( FILESYSTEM_CHANGED_TB (p_s_tb) ) {
  877. decrement_counters_in_path(&s_path_to_neighbor_father);
  878. decrement_bcount(*pp_s_com_father);
  879. return REPEAT_SEARCH;
  880.     }
  881.     *pp_s_father = PATH_PLAST_BUFFER(&s_path_to_neighbor_father);
  882.     RFALSE( B_LEVEL (*pp_s_father) != n_h + 1,
  883.     "PAP-8190: (%b %z) level too small", *pp_s_father, *pp_s_father);
  884.     RFALSE( s_path_to_neighbor_father.path_length < FIRST_PATH_ELEMENT_OFFSET,
  885.     "PAP-8192: path length is too small");
  886.     s_path_to_neighbor_father.path_length--;
  887.     decrement_counters_in_path(&s_path_to_neighbor_father);
  888.     return CARRY_ON;
  889. }
  890. /* Get parents of neighbors of node in the path(S[n_path_offset]) and common parents of
  891.  * S[n_path_offset] and L[n_path_offset]/R[n_path_offset]: F[n_path_offset], FL[n_path_offset],
  892.  * FR[n_path_offset], CFL[n_path_offset], CFR[n_path_offset].
  893.  * Calculate numbers of left and right delimiting keys position: lkey[n_path_offset], rkey[n_path_offset].
  894.  * Returns: SCHEDULE_OCCURRED - schedule occurred while the function worked;
  895.  *         CARRY_ON - schedule didn't occur while the function worked;
  896.  */
  897. static int  get_parents (struct tree_balance * p_s_tb, int n_h)
  898. {
  899.     struct path         * p_s_path = p_s_tb->tb_path;
  900.     int                   n_position,
  901. n_ret_value,
  902. n_path_offset = PATH_H_PATH_OFFSET(p_s_tb->tb_path, n_h);
  903.     struct buffer_head  * p_s_curf,
  904. * p_s_curcf;
  905.     /* Current node is the root of the tree or will be root of the tree */
  906.     if ( n_path_offset <= FIRST_PATH_ELEMENT_OFFSET ) {
  907. /* The root can not have parents.
  908.    Release nodes which previously were obtained as parents of the current node neighbors. */
  909. decrement_bcount(p_s_tb->FL[n_h]);
  910. decrement_bcount(p_s_tb->CFL[n_h]);
  911. decrement_bcount(p_s_tb->FR[n_h]);
  912. decrement_bcount(p_s_tb->CFR[n_h]);
  913. p_s_tb->FL[n_h] = p_s_tb->CFL[n_h] = p_s_tb->FR[n_h] = p_s_tb->CFR[n_h] = NULL;
  914. return CARRY_ON;
  915.     }
  916.   
  917.     /* Get parent FL[n_path_offset] of L[n_path_offset]. */
  918.     if ( (n_position = PATH_OFFSET_POSITION(p_s_path, n_path_offset - 1)) )  {
  919. /* Current node is not the first child of its parent. */
  920. /*(p_s_curf = p_s_curcf = PATH_OFFSET_PBUFFER(p_s_path, n_path_offset - 1))->b_count += 2;*/
  921. p_s_curf = p_s_curcf = PATH_OFFSET_PBUFFER(p_s_path, n_path_offset - 1);
  922. get_bh(p_s_curf) ;
  923. get_bh(p_s_curf) ;
  924. p_s_tb->lkey[n_h] = n_position - 1;
  925.     }
  926.     else  {
  927. /* Calculate current parent of L[n_path_offset], which is the left neighbor of the current node.
  928.    Calculate current common parent of L[n_path_offset] and the current node. Note that
  929.    CFL[n_path_offset] not equal FL[n_path_offset] and CFL[n_path_offset] not equal F[n_path_offset].
  930.    Calculate lkey[n_path_offset]. */
  931. if ( (n_ret_value = get_far_parent(p_s_tb, n_h + 1, &p_s_curf,
  932.    &p_s_curcf, LEFT_PARENTS)) != CARRY_ON )
  933.     return n_ret_value;
  934.     }
  935.     decrement_bcount(p_s_tb->FL[n_h]);
  936.     p_s_tb->FL[n_h] = p_s_curf; /* New initialization of FL[n_h]. */
  937.     decrement_bcount(p_s_tb->CFL[n_h]);
  938.     p_s_tb->CFL[n_h] = p_s_curcf; /* New initialization of CFL[n_h]. */
  939.     RFALSE( (p_s_curf && !B_IS_IN_TREE (p_s_curf)) || 
  940.     (p_s_curcf && !B_IS_IN_TREE (p_s_curcf)),
  941.     "PAP-8195: FL (%b) or CFL (%b) is invalid", p_s_curf, p_s_curcf);
  942. /* Get parent FR[n_h] of R[n_h]. */
  943. /* Current node is the last child of F[n_h]. FR[n_h] != F[n_h]. */
  944.     if ( n_position == B_NR_ITEMS (PATH_H_PBUFFER(p_s_path, n_h + 1)) ) {
  945. /* Calculate current parent of R[n_h], which is the right neighbor of F[n_h].
  946.    Calculate current common parent of R[n_h] and current node. Note that CFR[n_h]
  947.    not equal FR[n_path_offset] and CFR[n_h] not equal F[n_h]. */
  948. if ( (n_ret_value = get_far_parent(p_s_tb, n_h + 1, &p_s_curf,  &p_s_curcf, RIGHT_PARENTS)) != CARRY_ON )
  949.     return n_ret_value;
  950.     }
  951.     else {
  952. /* Current node is not the last child of its parent F[n_h]. */
  953. /*(p_s_curf = p_s_curcf = PATH_OFFSET_PBUFFER(p_s_path, n_path_offset - 1))->b_count += 2;*/
  954. p_s_curf = p_s_curcf = PATH_OFFSET_PBUFFER(p_s_path, n_path_offset - 1);
  955. get_bh(p_s_curf) ;
  956. get_bh(p_s_curf) ;
  957. p_s_tb->rkey[n_h] = n_position;
  958.     }
  959.     decrement_bcount(p_s_tb->FR[n_h]);
  960.     p_s_tb->FR[n_h] = p_s_curf; /* New initialization of FR[n_path_offset]. */
  961.     
  962.     decrement_bcount(p_s_tb->CFR[n_h]);
  963.     p_s_tb->CFR[n_h] = p_s_curcf; /* New initialization of CFR[n_path_offset]. */
  964.     RFALSE( (p_s_curf && !B_IS_IN_TREE (p_s_curf)) ||
  965.             (p_s_curcf && !B_IS_IN_TREE (p_s_curcf)),
  966.     "PAP-8205: FR (%b) or CFR (%b) is invalid", p_s_curf, p_s_curcf);
  967.     return CARRY_ON;
  968. }
  969. /* it is possible to remove node as result of shiftings to
  970.    neighbors even when we insert or paste item. */
  971. static inline int can_node_be_removed (int mode, int lfree, int sfree, int rfree, struct tree_balance * tb, int h)
  972. {
  973.     struct buffer_head * Sh = PATH_H_PBUFFER (tb->tb_path, h);
  974.     int levbytes = tb->insert_size[h];
  975.     struct item_head * ih;
  976.     struct key * r_key = NULL;
  977.     ih = B_N_PITEM_HEAD (Sh, 0);
  978.     if ( tb->CFR[h] )
  979. r_key = B_N_PDELIM_KEY(tb->CFR[h],tb->rkey[h]);
  980.   
  981.     if (
  982. lfree + rfree + sfree < MAX_CHILD_SIZE(Sh) + levbytes
  983. /* shifting may merge items which might save space */
  984. - (( ! h && op_is_left_mergeable (&(ih->ih_key), Sh->b_size) ) ? IH_SIZE : 0)
  985. - (( ! h && r_key && op_is_left_mergeable (r_key, Sh->b_size) ) ? IH_SIZE : 0)
  986. + (( h ) ? KEY_SIZE : 0))
  987.     {
  988. /* node can not be removed */
  989. if (sfree >= levbytes ) { /* new item fits into node S[h] without any shifting */
  990.     if ( ! h )
  991. tb->s0num = B_NR_ITEMS(Sh) + ((mode == M_INSERT ) ? 1 : 0);
  992.     set_parameters (tb, h, 0, 0, 1, NULL, -1, -1);
  993.     return NO_BALANCING_NEEDED;
  994. }
  995.     }
  996.     PROC_INFO_INC( tb -> tb_sb, can_node_be_removed[ h ] );
  997.     return !NO_BALANCING_NEEDED;
  998. }
  999. /* Check whether current node S[h] is balanced when increasing its size by
  1000.  * Inserting or Pasting.
  1001.  * Calculate parameters for balancing for current level h.
  1002.  * Parameters:
  1003.  * tb tree_balance structure;
  1004.  * h current level of the node;
  1005.  * inum item number in S[h];
  1006.  * mode i - insert, p - paste;
  1007.  * Returns: 1 - schedule occurred; 
  1008.  *         0 - balancing for higher levels needed;
  1009.  *        -1 - no balancing for higher levels needed;
  1010.  *        -2 - no disk space.
  1011.  */
  1012. /* ip means Inserting or Pasting */
  1013. static int ip_check_balance (struct tree_balance * tb, int h)
  1014. {
  1015.     struct virtual_node * vn = tb->tb_vn;
  1016.     int levbytes,  /* Number of bytes that must be inserted into (value
  1017.       is negative if bytes are deleted) buffer which
  1018.       contains node being balanced.  The mnemonic is
  1019.       that the attempted change in node space used level
  1020.       is levbytes bytes. */
  1021. n_ret_value;
  1022.     int lfree, sfree, rfree /* free space in L, S and R */;
  1023.     /* nver is short for number of vertixes, and lnver is the number if
  1024.        we shift to the left, rnver is the number if we shift to the
  1025.        right, and lrnver is the number if we shift in both directions.
  1026.        The goal is to minimize first the number of vertixes, and second,
  1027.        the number of vertixes whose contents are changed by shifting,
  1028.        and third the number of uncached vertixes whose contents are
  1029.        changed by shifting and must be read from disk.  */
  1030.     int nver, lnver, rnver, lrnver;
  1031.     /* used at leaf level only, S0 = S[0] is the node being balanced,
  1032.        sInum [ I = 0,1,2 ] is the number of items that will
  1033.        remain in node SI after balancing.  S1 and S2 are new
  1034.        nodes that might be created. */
  1035.   
  1036.     /* we perform 8 calls to get_num_ver().  For each call we calculate five parameters.
  1037.        where 4th parameter is s1bytes and 5th - s2bytes
  1038.     */
  1039.     short snum012[40] = {0,}; /* s0num, s1num, s2num for 8 cases 
  1040.    0,1 - do not shift and do not shift but bottle
  1041.    2 - shift only whole item to left
  1042.    3 - shift to left and bottle as much as possible
  1043.    4,5 - shift to right (whole items and as much as possible
  1044.    6,7 - shift to both directions (whole items and as much as possible)
  1045. */
  1046.     /* Sh is the node whose balance is currently being checked */
  1047.     struct buffer_head * Sh;
  1048.   
  1049.     Sh = PATH_H_PBUFFER (tb->tb_path, h);
  1050.     levbytes = tb->insert_size[h];
  1051.   
  1052.     /* Calculate balance parameters for creating new root. */
  1053.     if ( ! Sh )  {
  1054. if ( ! h )
  1055.     reiserfs_panic (tb->tb_sb, "vs-8210: ip_check_balance: S[0] can not be 0");
  1056. switch ( n_ret_value = get_empty_nodes (tb, h) )  {
  1057. case CARRY_ON:
  1058.     set_parameters (tb, h, 0, 0, 1, NULL, -1, -1);
  1059.     return NO_BALANCING_NEEDED; /* no balancing for higher levels needed */
  1060. case NO_DISK_SPACE:
  1061. case REPEAT_SEARCH:
  1062.     return n_ret_value;
  1063. default:   
  1064.     reiserfs_panic(tb->tb_sb, "vs-8215: ip_check_balance: incorrect return value of get_empty_nodes");
  1065. }
  1066.     }
  1067.   
  1068.     if ( (n_ret_value = get_parents (tb, h)) != CARRY_ON ) /* get parents of S[h] neighbors. */
  1069. return n_ret_value;
  1070.   
  1071.     sfree = B_FREE_SPACE (Sh);
  1072.     /* get free space of neighbors */
  1073.     rfree = get_rfree (tb, h);
  1074.     lfree = get_lfree (tb, h);
  1075.     if (can_node_be_removed (vn->vn_mode, lfree, sfree, rfree, tb, h) == NO_BALANCING_NEEDED)
  1076. /* and new item fits into node S[h] without any shifting */
  1077. return NO_BALANCING_NEEDED;
  1078.      
  1079.     create_virtual_node (tb, h);
  1080.     /*
  1081. determine maximal number of items we can shift to the left neighbor (in tb structure)
  1082. and the maximal number of bytes that can flow to the left neighbor
  1083. from the left most liquid item that cannot be shifted from S[0] entirely (returned value)
  1084.     */
  1085.     check_left (tb, h, lfree);
  1086.     /*
  1087.       determine maximal number of items we can shift to the right neighbor (in tb structure)
  1088.       and the maximal number of bytes that can flow to the right neighbor
  1089.       from the right most liquid item that cannot be shifted from S[0] entirely (returned value)
  1090.     */
  1091.     check_right (tb, h, rfree);
  1092.     /* all contents of internal node S[h] can be moved into its
  1093.        neighbors, S[h] will be removed after balancing */
  1094.     if (h && (tb->rnum[h] + tb->lnum[h] >= vn->vn_nr_item + 1)) {
  1095. int to_r; 
  1096.        
  1097. /* Since we are working on internal nodes, and our internal
  1098.    nodes have fixed size entries, then we can balance by the
  1099.    number of items rather than the space they consume.  In this
  1100.    routine we set the left node equal to the right node,
  1101.    allowing a difference of less than or equal to 1 child
  1102.    pointer. */
  1103. to_r = ((MAX_NR_KEY(Sh)<<1)+2-tb->lnum[h]-tb->rnum[h]+vn->vn_nr_item+1)/2 - 
  1104.     (MAX_NR_KEY(Sh) + 1 - tb->rnum[h]);
  1105. set_parameters (tb, h, vn->vn_nr_item + 1 - to_r, to_r, 0, NULL, -1, -1);
  1106. return CARRY_ON;
  1107.     }
  1108.     /* this checks balance condition, that any two neighboring nodes can not fit in one node */
  1109.     RFALSE( h && 
  1110.     ( tb->lnum[h] >= vn->vn_nr_item + 1 || 
  1111.       tb->rnum[h] >= vn->vn_nr_item + 1),
  1112.     "vs-8220: tree is not balanced on internal level");
  1113.     RFALSE( ! h && ((tb->lnum[h] >= vn->vn_nr_item && (tb->lbytes == -1)) ||
  1114.     (tb->rnum[h] >= vn->vn_nr_item && (tb->rbytes == -1)) ),
  1115.     "vs-8225: tree is not balanced on leaf level");
  1116.     /* all contents of S[0] can be moved into its neighbors
  1117.        S[0] will be removed after balancing. */
  1118.     if (!h && is_leaf_removable (tb))
  1119. return CARRY_ON;
  1120.     /* why do we perform this check here rather than earlier??
  1121.        Answer: we can win 1 node in some cases above. Moreover we
  1122.        checked it above, when we checked, that S[0] is not removable
  1123.        in principle */
  1124.     if (sfree >= levbytes) { /* new item fits into node S[h] without any shifting */
  1125. if ( ! h )
  1126.     tb->s0num = vn->vn_nr_item;
  1127. set_parameters (tb, h, 0, 0, 1, NULL, -1, -1);
  1128. return NO_BALANCING_NEEDED;
  1129.     }
  1130.     {
  1131. int lpar, rpar, nset, lset, rset, lrset;
  1132. /* 
  1133.  * regular overflowing of the node
  1134.  */
  1135. /* get_num_ver works in 2 modes (FLOW & NO_FLOW) 
  1136.    lpar, rpar - number of items we can shift to left/right neighbor (including splitting item)
  1137.    nset, lset, rset, lrset - shows, whether flowing items give better packing 
  1138. */
  1139. #define FLOW 1
  1140. #define NO_FLOW 0 /* do not any splitting */
  1141. /* we choose one the following */
  1142. #define NOTHING_SHIFT_NO_FLOW 0
  1143. #define NOTHING_SHIFT_FLOW 5
  1144. #define LEFT_SHIFT_NO_FLOW 10
  1145. #define LEFT_SHIFT_FLOW 15
  1146. #define RIGHT_SHIFT_NO_FLOW 20
  1147. #define RIGHT_SHIFT_FLOW 25
  1148. #define LR_SHIFT_NO_FLOW 30
  1149. #define LR_SHIFT_FLOW 35
  1150. lpar = tb->lnum[h];
  1151. rpar = tb->rnum[h];
  1152. /* calculate number of blocks S[h] must be split into when
  1153.    nothing is shifted to the neighbors,
  1154.    as well as number of items in each part of the split node (s012 numbers),
  1155.    and number of bytes (s1bytes) of the shared drop which flow to S1 if any */
  1156. nset = NOTHING_SHIFT_NO_FLOW;
  1157. nver = get_num_ver (vn->vn_mode, tb, h,
  1158.     0, -1, h?vn->vn_nr_item:0, -1, 
  1159.     snum012, NO_FLOW);
  1160. if (!h)
  1161. {
  1162.     int nver1;
  1163.     /* note, that in this case we try to bottle between S[0] and S1 (S1 - the first new node) */
  1164.     nver1 = get_num_ver (vn->vn_mode, tb, h, 
  1165.  0, -1, 0, -1, 
  1166.  snum012 + NOTHING_SHIFT_FLOW, FLOW);
  1167.     if (nver > nver1)
  1168. nset = NOTHING_SHIFT_FLOW, nver = nver1;
  1169. }
  1170.        
  1171.  
  1172. /* calculate number of blocks S[h] must be split into when
  1173.    l_shift_num first items and l_shift_bytes of the right most
  1174.    liquid item to be shifted are shifted to the left neighbor,
  1175.    as well as number of items in each part of the splitted node (s012 numbers),
  1176.    and number of bytes (s1bytes) of the shared drop which flow to S1 if any
  1177. */
  1178. lset = LEFT_SHIFT_NO_FLOW;
  1179. lnver = get_num_ver (vn->vn_mode, tb, h, 
  1180.      lpar - (( h || tb->lbytes == -1 ) ? 0 : 1), -1, h ? vn->vn_nr_item:0, -1,
  1181.      snum012 + LEFT_SHIFT_NO_FLOW, NO_FLOW);
  1182. if (!h)
  1183. {
  1184.     int lnver1;
  1185.     lnver1 = get_num_ver (vn->vn_mode, tb, h, 
  1186.   lpar - ((tb->lbytes != -1) ? 1 : 0), tb->lbytes, 0, -1,
  1187.   snum012 + LEFT_SHIFT_FLOW, FLOW);
  1188.     if (lnver > lnver1)
  1189. lset = LEFT_SHIFT_FLOW, lnver = lnver1;
  1190. }
  1191. /* calculate number of blocks S[h] must be split into when
  1192.    r_shift_num first items and r_shift_bytes of the left most
  1193.    liquid item to be shifted are shifted to the right neighbor,
  1194.    as well as number of items in each part of the splitted node (s012 numbers),
  1195.    and number of bytes (s1bytes) of the shared drop which flow to S1 if any
  1196. */
  1197. rset = RIGHT_SHIFT_NO_FLOW;
  1198. rnver = get_num_ver (vn->vn_mode, tb, h, 
  1199.      0, -1, h ? (vn->vn_nr_item-rpar) : (rpar - (( tb->rbytes != -1 ) ? 1 : 0)), -1, 
  1200.      snum012 + RIGHT_SHIFT_NO_FLOW, NO_FLOW);
  1201. if (!h)
  1202. {
  1203.     int rnver1;
  1204.     rnver1 = get_num_ver (vn->vn_mode, tb, h, 
  1205.   0, -1, (rpar - ((tb->rbytes != -1) ? 1 : 0)), tb->rbytes, 
  1206.   snum012 + RIGHT_SHIFT_FLOW, FLOW);
  1207.     if (rnver > rnver1)
  1208. rset = RIGHT_SHIFT_FLOW, rnver = rnver1;
  1209. }
  1210. /* calculate number of blocks S[h] must be split into when
  1211.    items are shifted in both directions,
  1212.    as well as number of items in each part of the splitted node (s012 numbers),
  1213.    and number of bytes (s1bytes) of the shared drop which flow to S1 if any
  1214. */
  1215. lrset = LR_SHIFT_NO_FLOW;
  1216. lrnver = get_num_ver (vn->vn_mode, tb, h, 
  1217.       lpar - ((h || tb->lbytes == -1) ? 0 : 1), -1, h ? (vn->vn_nr_item-rpar):(rpar - ((tb->rbytes != -1) ? 1 : 0)), -1,
  1218.       snum012 + LR_SHIFT_NO_FLOW, NO_FLOW);
  1219. if (!h)
  1220. {
  1221.     int lrnver1;
  1222.     lrnver1 = get_num_ver (vn->vn_mode, tb, h, 
  1223.    lpar - ((tb->lbytes != -1) ? 1 : 0), tb->lbytes, (rpar - ((tb->rbytes != -1) ? 1 : 0)), tb->rbytes,
  1224.    snum012 + LR_SHIFT_FLOW, FLOW);
  1225.     if (lrnver > lrnver1)
  1226. lrset = LR_SHIFT_FLOW, lrnver = lrnver1;
  1227. }
  1228. /* Our general shifting strategy is:
  1229.    1) to minimized number of new nodes;
  1230.    2) to minimized number of neighbors involved in shifting;
  1231.    3) to minimized number of disk reads; */
  1232. /* we can win TWO or ONE nodes by shifting in both directions */
  1233. if (lrnver < lnver && lrnver < rnver)
  1234. {
  1235.     RFALSE( h && 
  1236.     (tb->lnum[h] != 1 || 
  1237.      tb->rnum[h] != 1 || 
  1238.      lrnver != 1 || rnver != 2 || lnver != 2 || h != 1),
  1239.     "vs-8230: bad h");
  1240.     if (lrset == LR_SHIFT_FLOW)
  1241. set_parameters (tb, h, tb->lnum[h], tb->rnum[h], lrnver, snum012 + lrset,
  1242. tb->lbytes, tb->rbytes);
  1243.     else
  1244. set_parameters (tb, h, tb->lnum[h] - ((tb->lbytes == -1) ? 0 : 1), 
  1245. tb->rnum[h] - ((tb->rbytes == -1) ? 0 : 1), lrnver, snum012 + lrset, -1, -1);
  1246.     return CARRY_ON;
  1247. }
  1248. /* if shifting doesn't lead to better packing then don't shift */
  1249. if (nver == lrnver)
  1250. {
  1251.     set_parameters (tb, h, 0, 0, nver, snum012 + nset, -1, -1);
  1252.     return CARRY_ON;
  1253. }
  1254. /* now we know that for better packing shifting in only one
  1255.    direction either to the left or to the right is required */
  1256. /*  if shifting to the left is better than shifting to the right */
  1257. if (lnver < rnver)
  1258. {
  1259.     SET_PAR_SHIFT_LEFT;
  1260.     return CARRY_ON;
  1261. }
  1262. /* if shifting to the right is better than shifting to the left */
  1263. if (lnver > rnver)
  1264. {
  1265.     SET_PAR_SHIFT_RIGHT;
  1266.     return CARRY_ON;
  1267. }
  1268. /* now shifting in either direction gives the same number
  1269.    of nodes and we can make use of the cached neighbors */
  1270. if (is_left_neighbor_in_cache (tb,h))
  1271. {
  1272.     SET_PAR_SHIFT_LEFT;
  1273.     return CARRY_ON;
  1274. }
  1275. /* shift to the right independently on whether the right neighbor in cache or not */
  1276. SET_PAR_SHIFT_RIGHT;
  1277. return CARRY_ON;
  1278.     }
  1279. }
  1280. /* Check whether current node S[h] is balanced when Decreasing its size by
  1281.  * Deleting or Cutting for INTERNAL node of S+tree.
  1282.  * Calculate parameters for balancing for current level h.
  1283.  * Parameters:
  1284.  * tb tree_balance structure;
  1285.  * h current level of the node;
  1286.  * inum item number in S[h];
  1287.  * mode i - insert, p - paste;
  1288.  * Returns: 1 - schedule occurred; 
  1289.  *         0 - balancing for higher levels needed;
  1290.  *        -1 - no balancing for higher levels needed;
  1291.  *        -2 - no disk space.
  1292.  *
  1293.  * Note: Items of internal nodes have fixed size, so the balance condition for
  1294.  * the internal part of S+tree is as for the B-trees.
  1295.  */
  1296. static int dc_check_balance_internal (struct tree_balance * tb, int h)
  1297. {
  1298.   struct virtual_node * vn = tb->tb_vn;
  1299.   /* Sh is the node whose balance is currently being checked,
  1300.      and Fh is its father.  */
  1301.   struct buffer_head * Sh, * Fh;
  1302.   int maxsize,
  1303.       n_ret_value;
  1304.   int lfree, rfree /* free space in L and R */;
  1305.   Sh = PATH_H_PBUFFER (tb->tb_path, h); 
  1306.   Fh = PATH_H_PPARENT (tb->tb_path, h); 
  1307.   maxsize = MAX_CHILD_SIZE(Sh); 
  1308. /*   using tb->insert_size[h], which is negative in this case, create_virtual_node calculates: */
  1309. /*   new_nr_item = number of items node would have if operation is */
  1310. /*  performed without balancing (new_nr_item); */
  1311.   create_virtual_node (tb, h);
  1312.   if ( ! Fh )
  1313.     {   /* S[h] is the root. */
  1314.       if ( vn->vn_nr_item > 0 )
  1315. {
  1316.   set_parameters (tb, h, 0, 0, 1, NULL, -1, -1);
  1317.   return NO_BALANCING_NEEDED; /* no balancing for higher levels needed */
  1318. }
  1319.       /* new_nr_item == 0.
  1320.        * Current root will be deleted resulting in
  1321.        * decrementing the tree height. */
  1322.       set_parameters (tb, h, 0, 0, 0, NULL, -1, -1);
  1323.       return CARRY_ON;
  1324.     }
  1325.   if ( (n_ret_value = get_parents(tb,h)) != CARRY_ON )
  1326.     return n_ret_value;
  1327.   /* get free space of neighbors */
  1328.   rfree = get_rfree (tb, h);
  1329.   lfree = get_lfree (tb, h);
  1330.   /* determine maximal number of items we can fit into neighbors */
  1331.   check_left (tb, h, lfree);
  1332.   check_right (tb, h, rfree);
  1333.   if ( vn->vn_nr_item >= MIN_NR_KEY(Sh) )
  1334.     { /* Balance condition for the internal node is valid.
  1335.        * In this case we balance only if it leads to better packing. */ 
  1336.       if ( vn->vn_nr_item == MIN_NR_KEY(Sh) )
  1337. { /* Here we join S[h] with one of its neighbors,
  1338.    * which is impossible with greater values of new_nr_item. */
  1339.   if ( tb->lnum[h] >= vn->vn_nr_item + 1 )
  1340.     {
  1341.       /* All contents of S[h] can be moved to L[h]. */
  1342.       int n;
  1343.       int order_L;
  1344.       
  1345.       order_L = ((n=PATH_H_B_ITEM_ORDER(tb->tb_path, h))==0) ? B_NR_ITEMS(tb->FL[h]) : n - 1;
  1346.       n = dc_size(B_N_CHILD(tb->FL[h],order_L)) / (DC_SIZE + KEY_SIZE);
  1347.       set_parameters (tb, h, -n-1, 0, 0, NULL, -1, -1);
  1348.       return CARRY_ON;
  1349.     }
  1350.   if ( tb->rnum[h] >= vn->vn_nr_item + 1 )
  1351.     {
  1352.       /* All contents of S[h] can be moved to R[h]. */
  1353.       int n;
  1354.       int order_R;
  1355.     
  1356.       order_R = ((n=PATH_H_B_ITEM_ORDER(tb->tb_path, h))==B_NR_ITEMS(Fh)) ? 0 : n + 1;
  1357.       n = dc_size(B_N_CHILD(tb->FR[h],order_R)) / (DC_SIZE + KEY_SIZE);
  1358.       set_parameters (tb, h, 0, -n-1, 0, NULL, -1, -1);
  1359.       return CARRY_ON;   
  1360.     }
  1361. }
  1362.       if (tb->rnum[h] + tb->lnum[h] >= vn->vn_nr_item + 1)
  1363. {
  1364.   /* All contents of S[h] can be moved to the neighbors (L[h] & R[h]). */
  1365.   int to_r;
  1366.   to_r = ((MAX_NR_KEY(Sh)<<1)+2-tb->lnum[h]-tb->rnum[h]+vn->vn_nr_item+1)/2 - 
  1367.     (MAX_NR_KEY(Sh) + 1 - tb->rnum[h]);
  1368.   set_parameters (tb, h, vn->vn_nr_item + 1 - to_r, to_r, 0, NULL, -1, -1);
  1369.   return CARRY_ON;
  1370. }
  1371.       /* Balancing does not lead to better packing. */
  1372.       set_parameters (tb, h, 0, 0, 1, NULL, -1, -1);
  1373.       return NO_BALANCING_NEEDED;
  1374.     }
  1375.   /* Current node contain insufficient number of items. Balancing is required. */
  1376.   /* Check whether we can merge S[h] with left neighbor. */
  1377.   if (tb->lnum[h] >= vn->vn_nr_item + 1)
  1378.     if (is_left_neighbor_in_cache (tb,h) || tb->rnum[h] < vn->vn_nr_item + 1 || !tb->FR[h])
  1379.       {
  1380. int n;
  1381. int order_L;
  1382.       
  1383. order_L = ((n=PATH_H_B_ITEM_ORDER(tb->tb_path, h))==0) ? B_NR_ITEMS(tb->FL[h]) : n - 1;
  1384. n = dc_size(B_N_CHILD(tb->FL[h],order_L)) / (DC_SIZE + KEY_SIZE);
  1385. set_parameters (tb, h, -n-1, 0, 0, NULL, -1, -1);
  1386. return CARRY_ON;
  1387.       }
  1388.   /* Check whether we can merge S[h] with right neighbor. */
  1389.   if (tb->rnum[h] >= vn->vn_nr_item + 1)
  1390.     {
  1391.       int n;
  1392.       int order_R;
  1393.     
  1394.       order_R = ((n=PATH_H_B_ITEM_ORDER(tb->tb_path, h))==B_NR_ITEMS(Fh)) ? 0 : (n + 1);
  1395.       n = dc_size(B_N_CHILD(tb->FR[h],order_R)) / (DC_SIZE + KEY_SIZE);
  1396.       set_parameters (tb, h, 0, -n-1, 0, NULL, -1, -1);
  1397.       return CARRY_ON;   
  1398.     }
  1399.   /* All contents of S[h] can be moved to the neighbors (L[h] & R[h]). */
  1400.   if (tb->rnum[h] + tb->lnum[h] >= vn->vn_nr_item + 1)
  1401.     {
  1402.       int to_r;
  1403.     
  1404.       to_r = ((MAX_NR_KEY(Sh)<<1)+2-tb->lnum[h]-tb->rnum[h]+vn->vn_nr_item+1)/2 - 
  1405. (MAX_NR_KEY(Sh) + 1 - tb->rnum[h]);
  1406.       set_parameters (tb, h, vn->vn_nr_item + 1 - to_r, to_r, 0, NULL, -1, -1);
  1407.       return CARRY_ON;
  1408.     }
  1409.   /* For internal nodes try to borrow item from a neighbor */
  1410.   RFALSE( !tb->FL[h] && !tb->FR[h], "vs-8235: trying to borrow for root");
  1411.   /* Borrow one or two items from caching neighbor */
  1412.   if (is_left_neighbor_in_cache (tb,h) || !tb->FR[h])
  1413.     {
  1414.       int from_l;
  1415.       from_l = (MAX_NR_KEY(Sh) + 1 - tb->lnum[h] + vn->vn_nr_item + 1) / 2 -  (vn->vn_nr_item + 1);
  1416.       set_parameters (tb, h, -from_l, 0, 1, NULL, -1, -1);
  1417.       return CARRY_ON;
  1418.     }
  1419.   set_parameters (tb, h, 0, -((MAX_NR_KEY(Sh)+1-tb->rnum[h]+vn->vn_nr_item+1)/2-(vn->vn_nr_item+1)), 1, 
  1420.   NULL, -1, -1);
  1421.   return CARRY_ON;
  1422. }
  1423. /* Check whether current node S[h] is balanced when Decreasing its size by
  1424.  * Deleting or Truncating for LEAF node of S+tree.
  1425.  * Calculate parameters for balancing for current level h.
  1426.  * Parameters:
  1427.  * tb tree_balance structure;
  1428.  * h current level of the node;
  1429.  * inum item number in S[h];
  1430.  * mode i - insert, p - paste;
  1431.  * Returns: 1 - schedule occurred; 
  1432.  *         0 - balancing for higher levels needed;
  1433.  *        -1 - no balancing for higher levels needed;
  1434.  *        -2 - no disk space.
  1435.  */
  1436. static int dc_check_balance_leaf (struct tree_balance * tb, int h)
  1437. {
  1438.   struct virtual_node * vn = tb->tb_vn;
  1439.   /* Number of bytes that must be deleted from
  1440.      (value is negative if bytes are deleted) buffer which
  1441.      contains node being balanced.  The mnemonic is that the
  1442.      attempted change in node space used level is levbytes bytes. */
  1443.   int levbytes;
  1444.   /* the maximal item size */
  1445.   int maxsize,
  1446.       n_ret_value;
  1447.   /* S0 is the node whose balance is currently being checked,
  1448.      and F0 is its father.  */
  1449.   struct buffer_head * S0, * F0;
  1450.   int lfree, rfree /* free space in L and R */;
  1451.   S0 = PATH_H_PBUFFER (tb->tb_path, 0);
  1452.   F0 = PATH_H_PPARENT (tb->tb_path, 0);
  1453.   levbytes = tb->insert_size[h];
  1454.   maxsize = MAX_CHILD_SIZE(S0);  /* maximal possible size of an item */
  1455.   if ( ! F0 )
  1456.     {  /* S[0] is the root now. */
  1457.       RFALSE( -levbytes >= maxsize - B_FREE_SPACE (S0),
  1458.       "vs-8240: attempt to create empty buffer tree");
  1459.       set_parameters (tb, h, 0, 0, 1, NULL, -1, -1);
  1460.       return NO_BALANCING_NEEDED;
  1461.     }
  1462.   if ( (n_ret_value = get_parents(tb,h)) != CARRY_ON )
  1463.     return n_ret_value;
  1464.   /* get free space of neighbors */
  1465.   rfree = get_rfree (tb, h);
  1466.   lfree = get_lfree (tb, h);
  1467.   create_virtual_node (tb, h);
  1468.   /* if 3 leaves can be merge to one, set parameters and return */
  1469.   if (are_leaves_removable (tb, lfree, rfree))
  1470.     return CARRY_ON;
  1471.   /* determine maximal number of items we can shift to the left/right  neighbor
  1472.      and the maximal number of bytes that can flow to the left/right neighbor
  1473.      from the left/right most liquid item that cannot be shifted from S[0] entirely
  1474.      */
  1475.   check_left (tb, h, lfree);
  1476.   check_right (tb, h, rfree);   
  1477.   /* check whether we can merge S with left neighbor. */
  1478.   if (tb->lnum[0] >= vn->vn_nr_item && tb->lbytes == -1)
  1479.     if (is_left_neighbor_in_cache (tb,h) ||
  1480. ((tb->rnum[0] - ((tb->rbytes == -1) ? 0 : 1)) < vn->vn_nr_item) || /* S can not be merged with R */
  1481. !tb->FR[h]) {
  1482.       
  1483.       RFALSE( !tb->FL[h], "vs-8245: dc_check_balance_leaf: FL[h] must exist");
  1484.       /* set parameter to merge S[0] with its left neighbor */
  1485.       set_parameters (tb, h, -1, 0, 0, NULL, -1, -1);
  1486.       return CARRY_ON;
  1487.     }
  1488.   /* check whether we can merge S[0] with right neighbor. */
  1489.   if (tb->rnum[0] >= vn->vn_nr_item && tb->rbytes == -1) {
  1490.     set_parameters (tb, h, 0, -1, 0, NULL, -1, -1);
  1491.     return CARRY_ON;
  1492.   }
  1493.   
  1494.   /* All contents of S[0] can be moved to the neighbors (L[0] & R[0]). Set parameters and return */
  1495.   if (is_leaf_removable (tb))
  1496.     return CARRY_ON;
  1497.   
  1498.   /* Balancing is not required. */
  1499.   tb->s0num = vn->vn_nr_item;
  1500.   set_parameters (tb, h, 0, 0, 1, NULL, -1, -1);
  1501.   return NO_BALANCING_NEEDED;
  1502. }
  1503. /* Check whether current node S[h] is balanced when Decreasing its size by
  1504.  * Deleting or Cutting.
  1505.  * Calculate parameters for balancing for current level h.
  1506.  * Parameters:
  1507.  * tb tree_balance structure;
  1508.  * h current level of the node;
  1509.  * inum item number in S[h];
  1510.  * mode d - delete, c - cut.
  1511.  * Returns: 1 - schedule occurred; 
  1512.  *         0 - balancing for higher levels needed;
  1513.  *        -1 - no balancing for higher levels needed;
  1514.  *        -2 - no disk space.
  1515.  */
  1516. static int dc_check_balance (struct tree_balance * tb, int h)
  1517. {
  1518.  RFALSE( ! (PATH_H_PBUFFER (tb->tb_path, h)), "vs-8250: S is not initialized");
  1519.  if ( h )
  1520.    return dc_check_balance_internal (tb, h);
  1521.  else
  1522.    return dc_check_balance_leaf (tb, h);
  1523. }
  1524. /* Check whether current node S[h] is balanced.
  1525.  * Calculate parameters for balancing for current level h.
  1526.  * Parameters:
  1527.  *
  1528.  * tb tree_balance structure:
  1529.  *
  1530.  *              tb is a large structure that must be read about in the header file
  1531.  *              at the same time as this procedure if the reader is to successfully
  1532.  *              understand this procedure
  1533.  *
  1534.  * h current level of the node;
  1535.  * inum item number in S[h];
  1536.  * mode i - insert, p - paste, d - delete, c - cut.
  1537.  * Returns: 1 - schedule occurred; 
  1538.  *         0 - balancing for higher levels needed;
  1539.  *        -1 - no balancing for higher levels needed;
  1540.  *        -2 - no disk space.
  1541.  */
  1542. static int check_balance (int mode, 
  1543.   struct tree_balance * tb,
  1544.   int h, 
  1545.   int inum,
  1546.   int pos_in_item,
  1547.   struct item_head * ins_ih,
  1548.   const void * data
  1549.   )
  1550. {
  1551.   struct virtual_node * vn;
  1552.   vn = tb->tb_vn = (struct virtual_node *)(tb->vn_buf);
  1553.   vn->vn_free_ptr = (char *)(tb->tb_vn + 1);
  1554.   vn->vn_mode = mode;
  1555.   vn->vn_affected_item_num = inum;
  1556.   vn->vn_pos_in_item = pos_in_item;
  1557.   vn->vn_ins_ih = ins_ih;
  1558.   vn->vn_data = data;
  1559.   RFALSE( mode == M_INSERT && !vn->vn_ins_ih,
  1560.   "vs-8255: ins_ih can not be 0 in insert mode");
  1561.  if ( tb->insert_size[h] > 0 )
  1562.    /* Calculate balance parameters when size of node is increasing. */
  1563.    return ip_check_balance (tb, h);
  1564.  /* Calculate balance parameters when  size of node is decreasing. */
  1565.  return dc_check_balance (tb, h);
  1566. }
  1567. /* Check whether parent at the path is the really parent of the current node.*/
  1568. static int  get_direct_parent(
  1569.               struct tree_balance * p_s_tb,
  1570.               int                   n_h
  1571.             ) {
  1572.     struct buffer_head  * p_s_bh;
  1573.     struct path         * p_s_path      = p_s_tb->tb_path;
  1574.     int                   n_position,
  1575. n_path_offset = PATH_H_PATH_OFFSET(p_s_tb->tb_path, n_h);
  1576.     
  1577.     /* We are in the root or in the new root. */
  1578.     if ( n_path_offset <= FIRST_PATH_ELEMENT_OFFSET ) {
  1579. RFALSE( n_path_offset < FIRST_PATH_ELEMENT_OFFSET - 1,
  1580. "PAP-8260: illegal offset in the path");
  1581. if ( PATH_OFFSET_PBUFFER(p_s_path, FIRST_PATH_ELEMENT_OFFSET)->b_blocknr ==
  1582.      SB_ROOT_BLOCK (p_s_tb->tb_sb) ) {
  1583.     /* Root is not changed. */
  1584.     PATH_OFFSET_PBUFFER(p_s_path, n_path_offset - 1) = NULL;
  1585.     PATH_OFFSET_POSITION(p_s_path, n_path_offset - 1) = 0;
  1586.     return CARRY_ON;
  1587. }
  1588. return REPEAT_SEARCH; /* Root is changed and we must recalculate the path. */
  1589.     }
  1590.     if ( ! B_IS_IN_TREE(p_s_bh = PATH_OFFSET_PBUFFER(p_s_path, n_path_offset - 1)) )
  1591. return REPEAT_SEARCH; /* Parent in the path is not in the tree. */
  1592.     if ( (n_position = PATH_OFFSET_POSITION(p_s_path, n_path_offset - 1)) > B_NR_ITEMS(p_s_bh) )
  1593. return REPEAT_SEARCH;
  1594.     
  1595.     if ( B_N_CHILD_NUM(p_s_bh, n_position) != PATH_OFFSET_PBUFFER(p_s_path, n_path_offset)->b_blocknr )
  1596. /* Parent in the path is not parent of the current node in the tree. */
  1597. return REPEAT_SEARCH;
  1598.     if ( buffer_locked(p_s_bh) ) {
  1599. __wait_on_buffer(p_s_bh);
  1600. if ( FILESYSTEM_CHANGED_TB (p_s_tb) )
  1601.     return REPEAT_SEARCH;
  1602.     }
  1603.     return CARRY_ON; /* Parent in the path is unlocked and really parent of the current node.  */
  1604. }
  1605. /* Using lnum[n_h] and rnum[n_h] we should determine what neighbors
  1606.  * of S[n_h] we
  1607.  * need in order to balance S[n_h], and get them if necessary.
  1608.  * Returns: SCHEDULE_OCCURRED - schedule occurred while the function worked;
  1609.  *         CARRY_ON - schedule didn't occur while the function worked;
  1610.  */
  1611. static int  get_neighbors(
  1612.             struct tree_balance * p_s_tb,
  1613.             int    n_h
  1614.           ) {
  1615.     int   n_child_position,
  1616. n_path_offset = PATH_H_PATH_OFFSET(p_s_tb->tb_path, n_h + 1);
  1617.     unsigned long n_son_number;
  1618.     struct super_block  * p_s_sb = p_s_tb->tb_sb;
  1619.     struct buffer_head  * p_s_bh;
  1620.     PROC_INFO_INC( p_s_sb, get_neighbors[ n_h ] );
  1621.     if ( p_s_tb->lnum[n_h] ) {
  1622. /* We need left neighbor to balance S[n_h]. */
  1623. PROC_INFO_INC( p_s_sb, need_l_neighbor[ n_h ] );
  1624. p_s_bh = PATH_OFFSET_PBUFFER(p_s_tb->tb_path, n_path_offset);
  1625. RFALSE( p_s_bh == p_s_tb->FL[n_h] && 
  1626. ! PATH_OFFSET_POSITION(p_s_tb->tb_path, n_path_offset),
  1627. "PAP-8270: invalid position in the parent");
  1628. n_child_position = ( p_s_bh == p_s_tb->FL[n_h] ) ? p_s_tb->lkey[n_h] : B_NR_ITEMS (p_s_tb->FL[n_h]);
  1629. n_son_number = B_N_CHILD_NUM(p_s_tb->FL[n_h], n_child_position);
  1630. p_s_bh = reiserfs_bread(p_s_sb, n_son_number, p_s_sb->s_blocksize);
  1631. if (!p_s_bh)
  1632.     return IO_ERROR;
  1633. if ( FILESYSTEM_CHANGED_TB (p_s_tb) ) {
  1634.     decrement_bcount(p_s_bh);
  1635.     PROC_INFO_INC( p_s_sb, get_neighbors_restart[ n_h ] );
  1636.     return REPEAT_SEARCH;
  1637. }
  1638. RFALSE( ! B_IS_IN_TREE(p_s_tb->FL[n_h]) ||
  1639.                 n_child_position > B_NR_ITEMS(p_s_tb->FL[n_h]) ||
  1640.         B_N_CHILD_NUM(p_s_tb->FL[n_h], n_child_position) !=
  1641.                 p_s_bh->b_blocknr, "PAP-8275: invalid parent");
  1642. RFALSE( ! B_IS_IN_TREE(p_s_bh), "PAP-8280: invalid child");
  1643. RFALSE( ! n_h &&
  1644.                 B_FREE_SPACE (p_s_bh) != MAX_CHILD_SIZE (p_s_bh) - dc_size(B_N_CHILD (p_s_tb->FL[0],n_child_position)),
  1645.                 "PAP-8290: invalid child size of left neighbor");
  1646. decrement_bcount(p_s_tb->L[n_h]);
  1647. p_s_tb->L[n_h] = p_s_bh;
  1648.     }
  1649.     if ( p_s_tb->rnum[n_h] ) { /* We need right neighbor to balance S[n_path_offset]. */
  1650. PROC_INFO_INC( p_s_sb, need_r_neighbor[ n_h ] );
  1651. p_s_bh = PATH_OFFSET_PBUFFER(p_s_tb->tb_path, n_path_offset);
  1652. RFALSE( p_s_bh == p_s_tb->FR[n_h] && 
  1653. PATH_OFFSET_POSITION(p_s_tb->tb_path, n_path_offset) >= B_NR_ITEMS(p_s_bh),
  1654. "PAP-8295: invalid position in the parent");
  1655. n_child_position = ( p_s_bh == p_s_tb->FR[n_h] ) ? p_s_tb->rkey[n_h] + 1 : 0;
  1656. n_son_number = B_N_CHILD_NUM(p_s_tb->FR[n_h], n_child_position);
  1657. p_s_bh = reiserfs_bread(p_s_sb, n_son_number, p_s_sb->s_blocksize);
  1658. if (!p_s_bh)
  1659.     return IO_ERROR;
  1660. if ( FILESYSTEM_CHANGED_TB (p_s_tb) ) {
  1661.     decrement_bcount(p_s_bh);
  1662.     PROC_INFO_INC( p_s_sb, get_neighbors_restart[ n_h ] );
  1663.     return REPEAT_SEARCH;
  1664. }
  1665. decrement_bcount(p_s_tb->R[n_h]);
  1666. p_s_tb->R[n_h] = p_s_bh;
  1667. RFALSE( ! n_h && B_FREE_SPACE (p_s_bh) != MAX_CHILD_SIZE (p_s_bh) - dc_size(B_N_CHILD (p_s_tb->FR[0],n_child_position)),
  1668.                 "PAP-8300: invalid child size of right neighbor (%d != %d - %d)",
  1669.                 B_FREE_SPACE (p_s_bh), MAX_CHILD_SIZE (p_s_bh),
  1670.                 dc_size(B_N_CHILD (p_s_tb->FR[0],n_child_position)));
  1671.     }
  1672.     return CARRY_ON;
  1673. }
  1674. void * reiserfs_kmalloc (size_t size, int flags, struct super_block * s)
  1675. {
  1676.     void * vp;
  1677.     static size_t malloced;
  1678.     vp = kmalloc (size, flags);
  1679.     if (vp) {
  1680. s->u.reiserfs_sb.s_kmallocs += size;
  1681. if (s->u.reiserfs_sb.s_kmallocs > malloced + 200000) {
  1682.     reiserfs_warning ("vs-8301: reiserfs_kmalloc: allocated memory %dn", s->u.reiserfs_sb.s_kmallocs);
  1683.     malloced = s->u.reiserfs_sb.s_kmallocs;
  1684. }
  1685.     }
  1686. /*printk ("malloc : size %d, allocated %dn", size, s->u.reiserfs_sb.s_kmallocs);*/
  1687.     return vp;
  1688. }
  1689. void reiserfs_kfree (const void * vp, size_t size, struct super_block * s)
  1690. {
  1691.     kfree (vp);
  1692.   
  1693.     s->u.reiserfs_sb.s_kmallocs -= size;
  1694.     if (s->u.reiserfs_sb.s_kmallocs < 0)
  1695. reiserfs_warning ("vs-8302: reiserfs_kfree: allocated memory %dn", s->u.reiserfs_sb.s_kmallocs);
  1696. }
  1697. static int get_virtual_node_size (struct super_block * sb, struct buffer_head * bh)
  1698. {
  1699.   //  int size = sizeof (struct virtual_item); /* for new item in case of insert */
  1700.   //  int i, nr_items;
  1701.   //  struct item_head * ih;
  1702.   // this is enough for _ALL_ currently possible cases. In 4 k block
  1703.   // one may put < 170 empty items. Each virtual item eats 12
  1704.   // byte. The biggest direntry item may have < 256 entries. Each
  1705.   // entry would eat 2 byte of virtual node space
  1706.   return sb->s_blocksize;
  1707. }
  1708. /* maybe we should fail balancing we are going to perform when kmalloc
  1709.    fails several times. But now it will loop until kmalloc gets
  1710.    required memory */
  1711. static int get_mem_for_virtual_node (struct tree_balance * tb)
  1712. {
  1713.     int check_fs = 0;
  1714.     int size;
  1715.     char * buf;
  1716.     size = get_virtual_node_size (tb->tb_sb, PATH_PLAST_BUFFER (tb->tb_path));
  1717.     if (size > tb->vn_buf_size) {
  1718. /* we have to allocate more memory for virtual node */
  1719. if (tb->vn_buf) {
  1720.     /* free memory allocated before */
  1721.     reiserfs_kfree (tb->vn_buf, tb->vn_buf_size, tb->tb_sb);
  1722.     /* this is not needed if kfree is atomic */
  1723.             check_fs = 1;
  1724. }
  1725. /* virtual node requires now more memory */
  1726. tb->vn_buf_size = size;
  1727. /* get memory for virtual item */
  1728. buf = reiserfs_kmalloc(size, GFP_ATOMIC, tb->tb_sb);
  1729. if ( ! buf ) {
  1730.     /* getting memory with GFP_KERNEL priority may involve
  1731.                balancing now (due to indirect_to_direct conversion on
  1732.                dcache shrinking). So, release path and collected
  1733.                resourses here */
  1734.     free_buffers_in_tb (tb);
  1735.     buf = reiserfs_kmalloc(size, GFP_NOFS, tb->tb_sb);
  1736.     if ( !buf ) {
  1737. #ifdef CONFIG_REISERFS_CHECK
  1738. reiserfs_warning ("vs-8345: get_mem_for_virtual_node: "
  1739.   "kmalloc failed. reiserfs kmalloced %d bytesn",
  1740.   tb->tb_sb->u.reiserfs_sb.s_kmallocs);
  1741. #endif
  1742. tb->vn_buf_size = 0;
  1743.     }
  1744.     tb->vn_buf = buf;
  1745.     schedule() ;
  1746.     return REPEAT_SEARCH;
  1747. }
  1748. tb->vn_buf = buf;
  1749.     }
  1750.     if ( check_fs && FILESYSTEM_CHANGED_TB (tb) )
  1751.         return REPEAT_SEARCH;
  1752.     return CARRY_ON;
  1753. }
  1754. #ifdef CONFIG_REISERFS_CHECK
  1755. static void tb_buffer_sanity_check (struct super_block * p_s_sb,
  1756.     struct buffer_head * p_s_bh, 
  1757.     const char *descr, int level) {
  1758.   if (p_s_bh) {
  1759.     if (atomic_read (&(p_s_bh->b_count)) <= 0) {
  1760.       reiserfs_panic (p_s_sb, "tb_buffer_sanity_check(): negative or zero reference counter for buffer %s[%d] (%b)n", descr, level, p_s_bh);
  1761.     }
  1762.     if ( ! buffer_uptodate (p_s_bh) ) {
  1763.       reiserfs_panic (p_s_sb, "tb_buffer_sanity_check(): buffer is not up to date %s[%d] (%b)n", descr, level, p_s_bh);
  1764.     }
  1765.     if ( ! B_IS_IN_TREE (p_s_bh) ) {
  1766.       reiserfs_panic (p_s_sb, "tb_buffer_sanity_check(): buffer is not in tree %s[%d] (%b)n", descr, level, p_s_bh);
  1767.     }
  1768.     if (p_s_bh->b_dev != p_s_sb->s_dev || 
  1769. p_s_bh->b_size != p_s_sb->s_blocksize ||
  1770. p_s_bh->b_blocknr > SB_BLOCK_COUNT(p_s_sb)) {
  1771.       reiserfs_panic (p_s_sb, "tb_buffer_sanity_check(): check failed for buffer %s[%d] (%b)n", descr, level, p_s_bh);
  1772.     }
  1773.   }
  1774. }
  1775. #else
  1776. static void tb_buffer_sanity_check (struct super_block * p_s_sb,
  1777.     struct buffer_head * p_s_bh, 
  1778.     const char *descr, int level)
  1779. {;}
  1780. #endif
  1781. static void clear_all_dirty_bits(struct super_block *s, 
  1782.                                  struct buffer_head *bh) {
  1783.   reiserfs_prepare_for_journal(s, bh, 0) ;
  1784. }
  1785. static int wait_tb_buffers_until_unlocked (struct tree_balance * p_s_tb)
  1786. {
  1787.     struct buffer_head * locked;
  1788. #ifdef CONFIG_REISERFS_CHECK
  1789.     int repeat_counter = 0;
  1790. #endif
  1791.     int i;
  1792.     do {
  1793. locked = NULL;
  1794. for ( i = p_s_tb->tb_path->path_length; !locked && i > ILLEGAL_PATH_ELEMENT_OFFSET; i-- ) {
  1795.     if ( PATH_OFFSET_PBUFFER (p_s_tb->tb_path, i) ) {
  1796. /* if I understand correctly, we can only be sure the last buffer
  1797. ** in the path is in the tree --clm
  1798. */
  1799. #ifdef CONFIG_REISERFS_CHECK
  1800. if (PATH_PLAST_BUFFER(p_s_tb->tb_path) ==
  1801.     PATH_OFFSET_PBUFFER(p_s_tb->tb_path, i)) {
  1802.     tb_buffer_sanity_check (p_s_tb->tb_sb, 
  1803.     PATH_OFFSET_PBUFFER (p_s_tb->tb_path, i), 
  1804.     "S", 
  1805.     p_s_tb->tb_path->path_length - i);
  1806. }
  1807. #endif
  1808. clear_all_dirty_bits(p_s_tb->tb_sb, 
  1809.      PATH_OFFSET_PBUFFER (p_s_tb->tb_path, i)) ;
  1810. if ( buffer_locked (PATH_OFFSET_PBUFFER (p_s_tb->tb_path, i)) )
  1811.     locked = PATH_OFFSET_PBUFFER (p_s_tb->tb_path, i);
  1812.     }
  1813. }
  1814. for ( i = 0; !locked && i < MAX_HEIGHT && p_s_tb->insert_size[i]; i++ ) { 
  1815.     if (p_s_tb->lnum[i] ) {
  1816. if ( p_s_tb->L[i] ) {
  1817.     tb_buffer_sanity_check (p_s_tb->tb_sb, p_s_tb->L[i], "L", i);
  1818.     clear_all_dirty_bits(p_s_tb->tb_sb, p_s_tb->L[i]) ;
  1819.     if ( buffer_locked (p_s_tb->L[i]) )
  1820. locked = p_s_tb->L[i];
  1821. }
  1822. if ( !locked && p_s_tb->FL[i] ) {
  1823.     tb_buffer_sanity_check (p_s_tb->tb_sb, p_s_tb->FL[i], "FL", i);
  1824.     clear_all_dirty_bits(p_s_tb->tb_sb, p_s_tb->FL[i]) ;
  1825.     if ( buffer_locked (p_s_tb->FL[i]) )
  1826. locked = p_s_tb->FL[i];
  1827. }
  1828. if ( !locked && p_s_tb->CFL[i] ) {
  1829.     tb_buffer_sanity_check (p_s_tb->tb_sb, p_s_tb->CFL[i], "CFL", i);
  1830.     clear_all_dirty_bits(p_s_tb->tb_sb, p_s_tb->CFL[i]) ;
  1831.     if ( buffer_locked (p_s_tb->CFL[i]) )
  1832. locked = p_s_tb->CFL[i];
  1833. }
  1834.     }
  1835.     if ( !locked && (p_s_tb->rnum[i]) ) {
  1836. if ( p_s_tb->R[i] ) {
  1837.     tb_buffer_sanity_check (p_s_tb->tb_sb, p_s_tb->R[i], "R", i);
  1838.     clear_all_dirty_bits(p_s_tb->tb_sb, p_s_tb->R[i]) ;
  1839.     if ( buffer_locked (p_s_tb->R[i]) )
  1840. locked = p_s_tb->R[i];
  1841. }
  1842.        
  1843. if ( !locked && p_s_tb->FR[i] ) {
  1844.     tb_buffer_sanity_check (p_s_tb->tb_sb, p_s_tb->FR[i], "FR", i);
  1845.     clear_all_dirty_bits(p_s_tb->tb_sb, p_s_tb->FR[i]) ;
  1846.     if ( buffer_locked (p_s_tb->FR[i]) )
  1847. locked = p_s_tb->FR[i];
  1848. }
  1849. if ( !locked && p_s_tb->CFR[i] ) {
  1850.     tb_buffer_sanity_check (p_s_tb->tb_sb, p_s_tb->CFR[i], "CFR", i);
  1851.     clear_all_dirty_bits(p_s_tb->tb_sb, p_s_tb->CFR[i]) ;
  1852.     if ( buffer_locked (p_s_tb->CFR[i]) )
  1853. locked = p_s_tb->CFR[i];
  1854. }
  1855.     }
  1856. }
  1857. /* as far as I can tell, this is not required.  The FEB list seems
  1858. ** to be full of newly allocated nodes, which will never be locked,
  1859. ** dirty, or anything else.
  1860. ** To be safe, I'm putting in the checks and waits in.  For the moment,
  1861. ** they are needed to keep the code in journal.c from complaining
  1862. ** about the buffer.  That code is inside CONFIG_REISERFS_CHECK as well.
  1863. ** --clm
  1864. */
  1865. for ( i = 0; !locked && i < MAX_FEB_SIZE; i++ ) { 
  1866.     if ( p_s_tb->FEB[i] ) {
  1867. clear_all_dirty_bits(p_s_tb->tb_sb, p_s_tb->FEB[i]) ;
  1868. if (buffer_locked(p_s_tb->FEB[i])) {
  1869.     locked = p_s_tb->FEB[i] ;
  1870. }
  1871.     }
  1872. }
  1873. if (locked) {
  1874. #ifdef CONFIG_REISERFS_CHECK
  1875.     repeat_counter++;
  1876.     if ( (repeat_counter % 10000) == 0) {
  1877. reiserfs_warning ("wait_tb_buffers_until_released(): too many iterations waiting for buffer to unlock (%b)n", locked);
  1878. /* Don't loop forever.  Try to recover from possible error. */
  1879. return ( FILESYSTEM_CHANGED_TB (p_s_tb) ) ? REPEAT_SEARCH : CARRY_ON;
  1880.     }
  1881. #endif
  1882.     __wait_on_buffer (locked);
  1883.     if ( FILESYSTEM_CHANGED_TB (p_s_tb) ) {
  1884. return REPEAT_SEARCH;
  1885.     }
  1886. }
  1887.     } while (locked);
  1888.     return CARRY_ON;
  1889. }
  1890. /* Prepare for balancing, that is
  1891.  * get all necessary parents, and neighbors;
  1892.  * analyze what and where should be moved;
  1893.  * get sufficient number of new nodes;
  1894.  * Balancing will start only after all resources will be collected at a time.
  1895.  * 
  1896.  * When ported to SMP kernels, only at the last moment after all needed nodes
  1897.  * are collected in cache, will the resources be locked using the usual
  1898.  * textbook ordered lock acquisition algorithms.  Note that ensuring that
  1899.  * this code neither write locks what it does not need to write lock nor locks out of order
  1900.  * will be a pain in the butt that could have been avoided.  Grumble grumble. -Hans
  1901.  * 
  1902.  * fix is meant in the sense of render unchanging
  1903.  * 
  1904.  * Latency might be improved by first gathering a list of what buffers are needed
  1905.  * and then getting as many of them in parallel as possible? -Hans
  1906.  *
  1907.  * Parameters:
  1908.  * op_mode i - insert, d - delete, c - cut (truncate), p - paste (append)
  1909.  * tb tree_balance structure;
  1910.  * inum item number in S[h];
  1911.  *      pos_in_item - comment this if you can
  1912.  *      ins_ih & ins_sd are used when inserting
  1913.  * Returns: 1 - schedule occurred while the function worked;
  1914.  *         0 - schedule didn't occur while the function worked;
  1915.  *             -1 - if no_disk_space 
  1916.  */
  1917. int fix_nodes (int n_op_mode,
  1918.        struct tree_balance *  p_s_tb,
  1919.        struct item_head * p_s_ins_ih, // item head of item being inserted
  1920.        const void * data // inserted item or data to be pasted
  1921.     ) {
  1922.     int n_ret_value,
  1923.      n_h,
  1924.      n_item_num = PATH_LAST_POSITION(p_s_tb->tb_path);
  1925.     int n_pos_in_item;
  1926.     /* we set wait_tb_buffers_run when we have to restore any dirty bits cleared
  1927.     ** during wait_tb_buffers_run
  1928.     */
  1929.     int wait_tb_buffers_run = 0 ; 
  1930.     int windex ;
  1931.     struct buffer_head  * p_s_tbS0 = PATH_PLAST_BUFFER(p_s_tb->tb_path);
  1932.     ++ p_s_tb -> tb_sb -> u.reiserfs_sb.s_fix_nodes;
  1933.     n_pos_in_item = p_s_tb->tb_path->pos_in_item;
  1934.     p_s_tb->fs_gen = get_generation (p_s_tb->tb_sb);
  1935.     /* we prepare and log the super here so it will already be in the
  1936.     ** transaction when do_balance needs to change it.
  1937.     ** This way do_balance won't have to schedule when trying to prepare
  1938.     ** the super for logging
  1939.     */
  1940.     reiserfs_prepare_for_journal(p_s_tb->tb_sb, 
  1941.                                  SB_BUFFER_WITH_SB(p_s_tb->tb_sb), 1) ;
  1942.     journal_mark_dirty(p_s_tb->transaction_handle, p_s_tb->tb_sb, 
  1943.                        SB_BUFFER_WITH_SB(p_s_tb->tb_sb)) ;
  1944.     if ( FILESYSTEM_CHANGED_TB (p_s_tb) )
  1945. return REPEAT_SEARCH;
  1946.     /* if it possible in indirect_to_direct conversion */
  1947.     if (buffer_locked (p_s_tbS0)) {
  1948.         __wait_on_buffer (p_s_tbS0);
  1949.         if ( FILESYSTEM_CHANGED_TB (p_s_tb) )
  1950.             return REPEAT_SEARCH;
  1951.     }
  1952. #ifdef CONFIG_REISERFS_CHECK
  1953.     if ( cur_tb ) {
  1954. print_cur_tb ("fix_nodes");
  1955. reiserfs_panic(p_s_tb->tb_sb,"PAP-8305: fix_nodes:  there is pending do_balance");
  1956.     }
  1957.     if (!buffer_uptodate (p_s_tbS0) || !B_IS_IN_TREE (p_s_tbS0)) {
  1958. reiserfs_panic (p_s_tb->tb_sb, "PAP-8320: fix_nodes: S[0] (%b %z) is not uptodate "
  1959. "at the beginning of fix_nodes or not in tree (mode %c)", p_s_tbS0, p_s_tbS0, n_op_mode);
  1960.     }
  1961.     /* Check parameters. */
  1962.     switch (n_op_mode) {
  1963.     case M_INSERT:
  1964. if ( n_item_num <= 0 || n_item_num > B_NR_ITEMS(p_s_tbS0) )
  1965.     reiserfs_panic(p_s_tb->tb_sb,"PAP-8330: fix_nodes: Incorrect item number %d (in S0 - %d) in case of insert",
  1966.    n_item_num, B_NR_ITEMS(p_s_tbS0));
  1967. break;
  1968.     case M_PASTE:
  1969.     case M_DELETE:
  1970.     case M_CUT:
  1971. if ( n_item_num < 0 || n_item_num >= B_NR_ITEMS(p_s_tbS0) ) {
  1972.     print_block (p_s_tbS0, 0, -1, -1);
  1973.     printk("mode = %c insert_size = %dn", n_op_mode, p_s_tb->insert_size[0]);
  1974.     reiserfs_panic(p_s_tb->tb_sb,"PAP-8335: fix_nodes: Incorrect item number(%d)", n_item_num);
  1975. }
  1976. break;
  1977.     default:
  1978. reiserfs_panic(p_s_tb->tb_sb,"PAP-8340: fix_nodes: Incorrect mode of operation");
  1979.     }
  1980. #endif
  1981.     if (get_mem_for_virtual_node (p_s_tb) == REPEAT_SEARCH)
  1982. // FIXME: maybe -ENOMEM when tb->vn_buf == 0? Now just repeat
  1983. return REPEAT_SEARCH;
  1984.     /* Starting from the leaf level; for all levels n_h of the tree. */
  1985.     for ( n_h = 0; n_h < MAX_HEIGHT && p_s_tb->insert_size[n_h]; n_h++ ) { 
  1986. if ( (n_ret_value = get_direct_parent(p_s_tb, n_h)) != CARRY_ON ) {
  1987.     goto repeat;
  1988.     return n_ret_value;
  1989. }
  1990. if ( (n_ret_value = check_balance (n_op_mode, p_s_tb, n_h, n_item_num,
  1991.    n_pos_in_item, p_s_ins_ih, data)) != CARRY_ON ) {
  1992.     if ( n_ret_value == NO_BALANCING_NEEDED ) {
  1993. /* No balancing for higher levels needed. */
  1994. if ( (n_ret_value = get_neighbors(p_s_tb, n_h)) != CARRY_ON ) {
  1995.     goto repeat;
  1996.     return n_ret_value;
  1997. }
  1998. if ( n_h != MAX_HEIGHT - 1 )  
  1999.     p_s_tb->insert_size[n_h + 1] = 0;
  2000. /* ok, analysis and resource gathering are complete */
  2001. break;
  2002.     }
  2003.     goto repeat;
  2004.     return n_ret_value;
  2005. }
  2006. if ( (n_ret_value = get_neighbors(p_s_tb, n_h)) != CARRY_ON ) {
  2007.     goto repeat;
  2008.     return n_ret_value;
  2009. }
  2010. if ( (n_ret_value = get_empty_nodes(p_s_tb, n_h)) != CARRY_ON ) {
  2011.     goto repeat;
  2012.     return n_ret_value; /* No disk space, or schedule occurred and
  2013.    analysis may be invalid and needs to be redone. */
  2014. }
  2015.     
  2016. if ( ! PATH_H_PBUFFER(p_s_tb->tb_path, n_h) ) {
  2017.     /* We have a positive insert size but no nodes exist on this
  2018.        level, this means that we are creating a new root. */
  2019.     RFALSE( p_s_tb->blknum[n_h] != 1,
  2020.     "PAP-8350: creating new empty root");
  2021.     if ( n_h < MAX_HEIGHT - 1 )
  2022. p_s_tb->insert_size[n_h + 1] = 0;
  2023. }
  2024. else
  2025.     if ( ! PATH_H_PBUFFER(p_s_tb->tb_path, n_h + 1) ) {
  2026. if ( p_s_tb->blknum[n_h] > 1 ) {
  2027.     /* The tree needs to be grown, so this node S[n_h]
  2028.        which is the root node is split into two nodes,
  2029.        and a new node (S[n_h+1]) will be created to
  2030.        become the root node.  */
  2031.   
  2032.     RFALSE( n_h == MAX_HEIGHT - 1,
  2033.     "PAP-8355: attempt to create too high of a tree");
  2034.     p_s_tb->insert_size[n_h + 1] = (DC_SIZE + KEY_SIZE) * (p_s_tb->blknum[n_h] - 1) + DC_SIZE;
  2035. }
  2036. else
  2037.     if ( n_h < MAX_HEIGHT - 1 )
  2038. p_s_tb->insert_size[n_h + 1] = 0;
  2039.     }
  2040.     else
  2041. p_s_tb->insert_size[n_h + 1] = (DC_SIZE + KEY_SIZE) * (p_s_tb->blknum[n_h] - 1);
  2042.     }
  2043.     
  2044.     windex = push_journal_writer("fix_nodes") ;
  2045.     if ((n_ret_value = wait_tb_buffers_until_unlocked (p_s_tb)) == CARRY_ON) {
  2046. pop_journal_writer(windex) ;
  2047. if (FILESYSTEM_CHANGED_TB(p_s_tb)) {
  2048.     wait_tb_buffers_run = 1 ;
  2049.     n_ret_value = REPEAT_SEARCH ;
  2050.     goto repeat; 
  2051. } else {
  2052.     return CARRY_ON;
  2053. }
  2054.     } else {
  2055. wait_tb_buffers_run = 1 ;
  2056. pop_journal_writer(windex) ;
  2057. goto repeat; 
  2058.     }
  2059.  repeat:
  2060.     // fix_nodes was unable to perform its calculation due to
  2061.     // filesystem got changed under us, lack of free disk space or i/o
  2062.     // failure. If the first is the case - the search will be
  2063.     // repeated. For now - free all resources acquired so far except
  2064.     // for the new allocated nodes
  2065.     {
  2066. int i;
  2067. /* Release path buffers. */
  2068. if (wait_tb_buffers_run) {
  2069.     pathrelse_and_restore(p_s_tb->tb_sb, p_s_tb->tb_path) ;
  2070. } else {
  2071.     pathrelse (p_s_tb->tb_path);
  2072.         }
  2073. /* brelse all resources collected for balancing */
  2074. for ( i = 0; i < MAX_HEIGHT; i++ ) {
  2075.     if (wait_tb_buffers_run) {
  2076. reiserfs_restore_prepared_buffer(p_s_tb->tb_sb, p_s_tb->L[i]);
  2077. reiserfs_restore_prepared_buffer(p_s_tb->tb_sb, p_s_tb->R[i]);
  2078. reiserfs_restore_prepared_buffer(p_s_tb->tb_sb, p_s_tb->FL[i]);
  2079. reiserfs_restore_prepared_buffer(p_s_tb->tb_sb, p_s_tb->FR[i]);
  2080. reiserfs_restore_prepared_buffer(p_s_tb->tb_sb, p_s_tb->CFL[i]);
  2081. reiserfs_restore_prepared_buffer(p_s_tb->tb_sb, p_s_tb->CFR[i]);
  2082.     }
  2083.     brelse (p_s_tb->L[i]);p_s_tb->L[i] = 0;
  2084.     brelse (p_s_tb->R[i]);p_s_tb->R[i] = 0;
  2085.     brelse (p_s_tb->FL[i]);p_s_tb->FL[i] = 0;
  2086.     brelse (p_s_tb->FR[i]);p_s_tb->FR[i] = 0;
  2087.     brelse (p_s_tb->CFL[i]);p_s_tb->CFL[i] = 0;
  2088.     brelse (p_s_tb->CFR[i]);p_s_tb->CFR[i] = 0;
  2089. }
  2090. if (wait_tb_buffers_run) {
  2091.     for ( i = 0; i < MAX_FEB_SIZE; i++ ) { 
  2092. if ( p_s_tb->FEB[i] ) {
  2093.     reiserfs_restore_prepared_buffer(p_s_tb->tb_sb, 
  2094.      p_s_tb->FEB[i]) ;
  2095. }
  2096.     }
  2097. }
  2098. return n_ret_value;
  2099.     }
  2100. }
  2101. /* Anatoly will probably forgive me renaming p_s_tb to tb. I just
  2102.    wanted to make lines shorter */
  2103. void unfix_nodes (struct tree_balance * tb)
  2104. {
  2105.     int i;
  2106.     /* Release path buffers. */
  2107.     pathrelse_and_restore (tb->tb_sb, tb->tb_path);
  2108.     /* brelse all resources collected for balancing */
  2109.     for ( i = 0; i < MAX_HEIGHT; i++ ) {
  2110. reiserfs_restore_prepared_buffer (tb->tb_sb, tb->L[i]);
  2111. reiserfs_restore_prepared_buffer (tb->tb_sb, tb->R[i]);
  2112. reiserfs_restore_prepared_buffer (tb->tb_sb, tb->FL[i]);
  2113. reiserfs_restore_prepared_buffer (tb->tb_sb, tb->FR[i]);
  2114. reiserfs_restore_prepared_buffer (tb->tb_sb, tb->CFL[i]);
  2115. reiserfs_restore_prepared_buffer (tb->tb_sb, tb->CFR[i]);
  2116. brelse (tb->L[i]);
  2117. brelse (tb->R[i]);
  2118. brelse (tb->FL[i]);
  2119. brelse (tb->FR[i]);
  2120. brelse (tb->CFL[i]);
  2121. brelse (tb->CFR[i]);
  2122.     }
  2123.     /* deal with list of allocated (used and unused) nodes */
  2124.     for ( i = 0; i < MAX_FEB_SIZE; i++ ) {
  2125. if ( tb->FEB[i] ) {
  2126.     unsigned long blocknr  = tb->FEB[i]->b_blocknr ;
  2127.     /* de-allocated block which was not used by balancing and
  2128.                bforget about buffer for it */
  2129.     brelse (tb->FEB[i]);
  2130.     reiserfs_free_block (tb->transaction_handle, blocknr);
  2131. }
  2132. if (tb->used[i]) {
  2133.     /* release used as new nodes including a new root */
  2134.     brelse (tb->used[i]);
  2135. }
  2136.     }
  2137.     if (tb->vn_buf) 
  2138.     reiserfs_kfree (tb->vn_buf, tb->vn_buf_size, tb->tb_sb);