raid1.c
上传用户:jlfgdled
上传日期:2013-04-10
资源大小:33168k
文件大小:46k
源码类别:

Linux/Unix编程

开发平台:

Unix_Linux

  1. /*
  2.  * raid1.c : Multiple Devices driver for Linux
  3.  *
  4.  * Copyright (C) 1999, 2000 Ingo Molnar, Red Hat
  5.  *
  6.  * Copyright (C) 1996, 1997, 1998 Ingo Molnar, Miguel de Icaza, Gadi Oxman
  7.  *
  8.  * RAID-1 management functions.
  9.  *
  10.  * Better read-balancing code written by Mika Kuoppala <miku@iki.fi>, 2000
  11.  *
  12.  * Fixes to reconstruction by Jakob 豷tergaard" <jakob@ostenfeld.dk>
  13.  * Various fixes by Neil Brown <neilb@cse.unsw.edu.au>
  14.  *
  15.  * This program is free software; you can redistribute it and/or modify
  16.  * it under the terms of the GNU General Public License as published by
  17.  * the Free Software Foundation; either version 2, or (at your option)
  18.  * any later version.
  19.  *
  20.  * You should have received a copy of the GNU General Public License
  21.  * (for example /usr/src/linux/COPYING); if not, write to the Free
  22.  * Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  23.  */
  24. #include <linux/module.h>
  25. #include <linux/config.h>
  26. #include <linux/slab.h>
  27. #include <linux/raid/raid1.h>
  28. #include <asm/atomic.h>
  29. #define MAJOR_NR MD_MAJOR
  30. #define MD_DRIVER
  31. #define MD_PERSONALITY
  32. #define MAX_WORK_PER_DISK 128
  33. #define NR_RESERVED_BUFS 32
  34. /*
  35.  * The following can be used to debug the driver
  36.  */
  37. #define RAID1_DEBUG 0
  38. #if RAID1_DEBUG
  39. #define PRINTK(x...)   printk(x)
  40. #define inline
  41. #define __inline__
  42. #else
  43. #define PRINTK(x...)  do { } while (0)
  44. #endif
  45. static mdk_personality_t raid1_personality;
  46. static md_spinlock_t retry_list_lock = MD_SPIN_LOCK_UNLOCKED;
  47. struct raid1_bh *raid1_retry_list = NULL, **raid1_retry_tail;
  48. static struct buffer_head *raid1_alloc_bh(raid1_conf_t *conf, int cnt)
  49. {
  50. /* return a linked list of "cnt" struct buffer_heads.
  51.  * don't take any off the free list unless we know we can
  52.  * get all we need, otherwise we could deadlock
  53.  */
  54. struct buffer_head *bh=NULL;
  55. while(cnt) {
  56. struct buffer_head *t;
  57. md_spin_lock_irq(&conf->device_lock);
  58. if (!conf->freebh_blocked && conf->freebh_cnt >= cnt)
  59. while (cnt) {
  60. t = conf->freebh;
  61. conf->freebh = t->b_next;
  62. t->b_next = bh;
  63. bh = t;
  64. t->b_state = 0;
  65. conf->freebh_cnt--;
  66. cnt--;
  67. }
  68. md_spin_unlock_irq(&conf->device_lock);
  69. if (cnt == 0)
  70. break;
  71. t = kmem_cache_alloc(bh_cachep, SLAB_NOIO);
  72. if (t) {
  73. t->b_next = bh;
  74. bh = t;
  75. cnt--;
  76. } else {
  77. PRINTK("raid1: waiting for %d bhn", cnt);
  78. conf->freebh_blocked = 1;
  79. wait_disk_event(conf->wait_buffer,
  80. !conf->freebh_blocked ||
  81. conf->freebh_cnt > conf->raid_disks * NR_RESERVED_BUFS/2);
  82. conf->freebh_blocked = 0;
  83. }
  84. }
  85. return bh;
  86. }
  87. static inline void raid1_free_bh(raid1_conf_t *conf, struct buffer_head *bh)
  88. {
  89. unsigned long flags;
  90. spin_lock_irqsave(&conf->device_lock, flags);
  91. while (bh) {
  92. struct buffer_head *t = bh;
  93. bh=bh->b_next;
  94. if (t->b_pprev == NULL)
  95. kmem_cache_free(bh_cachep, t);
  96. else {
  97. t->b_next= conf->freebh;
  98. conf->freebh = t;
  99. conf->freebh_cnt++;
  100. }
  101. }
  102. spin_unlock_irqrestore(&conf->device_lock, flags);
  103. wake_up(&conf->wait_buffer);
  104. }
  105. static int raid1_grow_bh(raid1_conf_t *conf, int cnt)
  106. {
  107. /* allocate cnt buffer_heads, possibly less if kmalloc fails */
  108. int i = 0;
  109. while (i < cnt) {
  110. struct buffer_head *bh;
  111. bh = kmem_cache_alloc(bh_cachep, SLAB_KERNEL);
  112. if (!bh) break;
  113. md_spin_lock_irq(&conf->device_lock);
  114. bh->b_pprev = &conf->freebh;
  115. bh->b_next = conf->freebh;
  116. conf->freebh = bh;
  117. conf->freebh_cnt++;
  118. md_spin_unlock_irq(&conf->device_lock);
  119. i++;
  120. }
  121. return i;
  122. }
  123. static void raid1_shrink_bh(raid1_conf_t *conf)
  124. {
  125. /* discard all buffer_heads */
  126. md_spin_lock_irq(&conf->device_lock);
  127. while (conf->freebh) {
  128. struct buffer_head *bh = conf->freebh;
  129. conf->freebh = bh->b_next;
  130. kmem_cache_free(bh_cachep, bh);
  131. conf->freebh_cnt--;
  132. }
  133. md_spin_unlock_irq(&conf->device_lock);
  134. }
  135. static struct raid1_bh *raid1_alloc_r1bh(raid1_conf_t *conf)
  136. {
  137. struct raid1_bh *r1_bh = NULL;
  138. do {
  139. md_spin_lock_irq(&conf->device_lock);
  140. if (!conf->freer1_blocked && conf->freer1) {
  141. r1_bh = conf->freer1;
  142. conf->freer1 = r1_bh->next_r1;
  143. conf->freer1_cnt--;
  144. r1_bh->next_r1 = NULL;
  145. r1_bh->state = (1 << R1BH_PreAlloc);
  146. r1_bh->bh_req.b_state = 0;
  147. }
  148. md_spin_unlock_irq(&conf->device_lock);
  149. if (r1_bh)
  150. return r1_bh;
  151. r1_bh = (struct raid1_bh *) kmalloc(sizeof(struct raid1_bh), GFP_NOIO);
  152. if (r1_bh) {
  153. memset(r1_bh, 0, sizeof(*r1_bh));
  154. return r1_bh;
  155. }
  156. conf->freer1_blocked = 1;
  157. wait_disk_event(conf->wait_buffer,
  158. !conf->freer1_blocked ||
  159. conf->freer1_cnt > NR_RESERVED_BUFS/2
  160. );
  161. conf->freer1_blocked = 0;
  162. } while (1);
  163. }
  164. static inline void raid1_free_r1bh(struct raid1_bh *r1_bh)
  165. {
  166. struct buffer_head *bh = r1_bh->mirror_bh_list;
  167. raid1_conf_t *conf = mddev_to_conf(r1_bh->mddev);
  168. r1_bh->mirror_bh_list = NULL;
  169. if (test_bit(R1BH_PreAlloc, &r1_bh->state)) {
  170. unsigned long flags;
  171. spin_lock_irqsave(&conf->device_lock, flags);
  172. r1_bh->next_r1 = conf->freer1;
  173. conf->freer1 = r1_bh;
  174. conf->freer1_cnt++;
  175. spin_unlock_irqrestore(&conf->device_lock, flags);
  176. /* don't need to wakeup wait_buffer because
  177.  *  raid1_free_bh below will do that
  178.  */
  179. } else {
  180. kfree(r1_bh);
  181. }
  182. raid1_free_bh(conf, bh);
  183. }
  184. static int raid1_grow_r1bh (raid1_conf_t *conf, int cnt)
  185. {
  186. int i = 0;
  187. while (i < cnt) {
  188. struct raid1_bh *r1_bh;
  189. r1_bh = (struct raid1_bh*)kmalloc(sizeof(*r1_bh), GFP_KERNEL);
  190. if (!r1_bh)
  191. break;
  192. memset(r1_bh, 0, sizeof(*r1_bh));
  193. set_bit(R1BH_PreAlloc, &r1_bh->state);
  194. r1_bh->mddev = conf->mddev;
  195. raid1_free_r1bh(r1_bh);
  196. i++;
  197. }
  198. return i;
  199. }
  200. static void raid1_shrink_r1bh(raid1_conf_t *conf)
  201. {
  202. md_spin_lock_irq(&conf->device_lock);
  203. while (conf->freer1) {
  204. struct raid1_bh *r1_bh = conf->freer1;
  205. conf->freer1 = r1_bh->next_r1;
  206. conf->freer1_cnt--;
  207. kfree(r1_bh);
  208. }
  209. md_spin_unlock_irq(&conf->device_lock);
  210. }
  211. static inline void raid1_free_buf(struct raid1_bh *r1_bh)
  212. {
  213. unsigned long flags;
  214. struct buffer_head *bh = r1_bh->mirror_bh_list;
  215. raid1_conf_t *conf = mddev_to_conf(r1_bh->mddev);
  216. r1_bh->mirror_bh_list = NULL;
  217. spin_lock_irqsave(&conf->device_lock, flags);
  218. r1_bh->next_r1 = conf->freebuf;
  219. conf->freebuf = r1_bh;
  220. spin_unlock_irqrestore(&conf->device_lock, flags);
  221. raid1_free_bh(conf, bh);
  222. }
  223. static struct raid1_bh *raid1_alloc_buf(raid1_conf_t *conf)
  224. {
  225. struct raid1_bh *r1_bh;
  226. md_spin_lock_irq(&conf->device_lock);
  227. wait_event_lock_irq(conf->wait_buffer, conf->freebuf, conf->device_lock);
  228. r1_bh = conf->freebuf;
  229. conf->freebuf = r1_bh->next_r1;
  230. r1_bh->next_r1= NULL;
  231. md_spin_unlock_irq(&conf->device_lock);
  232. return r1_bh;
  233. }
  234. static int raid1_grow_buffers (raid1_conf_t *conf, int cnt)
  235. {
  236. int i = 0;
  237. struct raid1_bh *head = NULL, **tail;
  238. tail = &head;
  239. while (i < cnt) {
  240. struct raid1_bh *r1_bh;
  241. struct page *page;
  242. page = alloc_page(GFP_KERNEL);
  243. if (!page)
  244. break;
  245. r1_bh = (struct raid1_bh *) kmalloc(sizeof(*r1_bh), GFP_KERNEL);
  246. if (!r1_bh) {
  247. __free_page(page);
  248. break;
  249. }
  250. memset(r1_bh, 0, sizeof(*r1_bh));
  251. r1_bh->bh_req.b_page = page;
  252. r1_bh->bh_req.b_data = page_address(page);
  253. *tail = r1_bh;
  254. r1_bh->next_r1 = NULL;
  255. tail = & r1_bh->next_r1;
  256. i++;
  257. }
  258. /* this lock probably isn't needed, as at the time when
  259.  * we are allocating buffers, nobody else will be touching the
  260.  * freebuf list.  But it doesn't hurt....
  261.  */
  262. md_spin_lock_irq(&conf->device_lock);
  263. *tail = conf->freebuf;
  264. conf->freebuf = head;
  265. md_spin_unlock_irq(&conf->device_lock);
  266. return i;
  267. }
  268. static void raid1_shrink_buffers (raid1_conf_t *conf)
  269. {
  270. struct raid1_bh *head;
  271. md_spin_lock_irq(&conf->device_lock);
  272. head = conf->freebuf;
  273. conf->freebuf = NULL;
  274. md_spin_unlock_irq(&conf->device_lock);
  275. while (head) {
  276. struct raid1_bh *r1_bh = head;
  277. head = r1_bh->next_r1;
  278. __free_page(r1_bh->bh_req.b_page);
  279. kfree(r1_bh);
  280. }
  281. }
  282. static int raid1_map (mddev_t *mddev, kdev_t *rdev)
  283. {
  284. raid1_conf_t *conf = mddev_to_conf(mddev);
  285. int i, disks = MD_SB_DISKS;
  286. /*
  287.  * Later we do read balancing on the read side 
  288.  * now we use the first available disk.
  289.  */
  290. for (i = 0; i < disks; i++) {
  291. if (conf->mirrors[i].operational) {
  292. *rdev = conf->mirrors[i].dev;
  293. return (0);
  294. }
  295. }
  296. printk (KERN_ERR "raid1_map(): huh, no more operational devices?n");
  297. return (-1);
  298. }
  299. static void raid1_reschedule_retry (struct raid1_bh *r1_bh)
  300. {
  301. unsigned long flags;
  302. mddev_t *mddev = r1_bh->mddev;
  303. raid1_conf_t *conf = mddev_to_conf(mddev);
  304. md_spin_lock_irqsave(&retry_list_lock, flags);
  305. if (raid1_retry_list == NULL)
  306. raid1_retry_tail = &raid1_retry_list;
  307. *raid1_retry_tail = r1_bh;
  308. raid1_retry_tail = &r1_bh->next_r1;
  309. r1_bh->next_r1 = NULL;
  310. md_spin_unlock_irqrestore(&retry_list_lock, flags);
  311. md_wakeup_thread(conf->thread);
  312. }
  313. static void inline io_request_done(unsigned long sector, raid1_conf_t *conf, int phase)
  314. {
  315. unsigned long flags;
  316. spin_lock_irqsave(&conf->segment_lock, flags);
  317. if (sector < conf->start_active)
  318. conf->cnt_done--;
  319. else if (sector >= conf->start_future && conf->phase == phase)
  320. conf->cnt_future--;
  321. else if (!--conf->cnt_pending)
  322. wake_up(&conf->wait_ready);
  323. spin_unlock_irqrestore(&conf->segment_lock, flags);
  324. }
  325. static void inline sync_request_done (unsigned long sector, raid1_conf_t *conf)
  326. {
  327. unsigned long flags;
  328. spin_lock_irqsave(&conf->segment_lock, flags);
  329. if (sector >= conf->start_ready)
  330. --conf->cnt_ready;
  331. else if (sector >= conf->start_active) {
  332. if (!--conf->cnt_active) {
  333. conf->start_active = conf->start_ready;
  334. wake_up(&conf->wait_done);
  335. }
  336. }
  337. spin_unlock_irqrestore(&conf->segment_lock, flags);
  338. }
  339. /*
  340.  * raid1_end_bh_io() is called when we have finished servicing a mirrored
  341.  * operation and are ready to return a success/failure code to the buffer
  342.  * cache layer.
  343.  */
  344. static void raid1_end_bh_io (struct raid1_bh *r1_bh, int uptodate)
  345. {
  346. struct buffer_head *bh = r1_bh->master_bh;
  347. io_request_done(bh->b_rsector, mddev_to_conf(r1_bh->mddev),
  348. test_bit(R1BH_SyncPhase, &r1_bh->state));
  349. bh->b_end_io(bh, uptodate);
  350. raid1_free_r1bh(r1_bh);
  351. }
  352. void raid1_end_request (struct buffer_head *bh, int uptodate)
  353. {
  354. struct raid1_bh * r1_bh = (struct raid1_bh *)(bh->b_private);
  355. /*
  356.  * this branch is our 'one mirror IO has finished' event handler:
  357.  */
  358. if (!uptodate)
  359. md_error (r1_bh->mddev, bh->b_dev);
  360. else
  361. /*
  362.  * Set R1BH_Uptodate in our master buffer_head, so that
  363.  * we will return a good error code for to the higher
  364.  * levels even if IO on some other mirrored buffer fails.
  365.  *
  366.  * The 'master' represents the complex operation to 
  367.  * user-side. So if something waits for IO, then it will
  368.  * wait for the 'master' buffer_head.
  369.  */
  370. set_bit (R1BH_Uptodate, &r1_bh->state);
  371. /*
  372.  * We split up the read and write side, imho they are 
  373.  * conceptually different.
  374.  */
  375. if ( (r1_bh->cmd == READ) || (r1_bh->cmd == READA) ) {
  376. /*
  377.  * we have only one buffer_head on the read side
  378.  */
  379. if (uptodate) {
  380. raid1_end_bh_io(r1_bh, uptodate);
  381. return;
  382. }
  383. /*
  384.  * oops, read error:
  385.  */
  386. printk(KERN_ERR "raid1: %s: rescheduling block %lun", 
  387.  partition_name(bh->b_dev), bh->b_blocknr);
  388. raid1_reschedule_retry(r1_bh);
  389. return;
  390. }
  391. /*
  392.  * WRITE:
  393.  *
  394.  * Let's see if all mirrored write operations have finished 
  395.  * already.
  396.  */
  397. if (atomic_dec_and_test(&r1_bh->remaining))
  398. raid1_end_bh_io(r1_bh, test_bit(R1BH_Uptodate, &r1_bh->state));
  399. }
  400. /*
  401.  * This routine returns the disk from which the requested read should
  402.  * be done. It bookkeeps the last read position for every disk
  403.  * in array and when new read requests come, the disk which last
  404.  * position is nearest to the request, is chosen.
  405.  *
  406.  * TODO: now if there are 2 mirrors in the same 2 devices, performance
  407.  * degrades dramatically because position is mirror, not device based.
  408.  * This should be changed to be device based. Also atomic sequential
  409.  * reads should be somehow balanced.
  410.  */
  411. static int raid1_read_balance (raid1_conf_t *conf, struct buffer_head *bh)
  412. {
  413. int new_disk = conf->last_used;
  414. const int sectors = bh->b_size >> 9;
  415. const unsigned long this_sector = bh->b_rsector;
  416. int disk = new_disk;
  417. unsigned long new_distance;
  418. unsigned long current_distance;
  419. /*
  420.  * Check if it is sane at all to balance
  421.  */
  422. if (conf->resync_mirrors)
  423. goto rb_out;
  424. /* make sure that disk is operational */
  425. while( !conf->mirrors[new_disk].operational) {
  426. if (new_disk <= 0) new_disk = conf->raid_disks;
  427. new_disk--;
  428. if (new_disk == disk) {
  429. /*
  430.  * This means no working disk was found
  431.  * Nothing much to do, lets not change anything
  432.  * and hope for the best...
  433.  */
  434. new_disk = conf->last_used;
  435. goto rb_out;
  436. }
  437. }
  438. disk = new_disk;
  439. /* now disk == new_disk == starting point for search */
  440. /*
  441.  * Don't touch anything for sequential reads.
  442.  */
  443. if (this_sector == conf->mirrors[new_disk].head_position)
  444. goto rb_out;
  445. /*
  446.  * If reads have been done only on a single disk
  447.  * for a time, lets give another disk a change.
  448.  * This is for kicking those idling disks so that
  449.  * they would find work near some hotspot.
  450.  */
  451. if (conf->sect_count >= conf->mirrors[new_disk].sect_limit) {
  452. conf->sect_count = 0;
  453. #if defined(CONFIG_SPARC64) && (__GNUC__ == 2) && (__GNUC_MINOR__ == 92)
  454. /* Work around a compiler bug in egcs-2.92.11 19980921 */
  455. new_disk = *(volatile int *)&new_disk;
  456. #endif
  457. do {
  458. if (new_disk<=0)
  459. new_disk = conf->raid_disks;
  460. new_disk--;
  461. if (new_disk == disk)
  462. break;
  463. } while ((conf->mirrors[new_disk].write_only) ||
  464.  (!conf->mirrors[new_disk].operational));
  465. goto rb_out;
  466. }
  467. current_distance = abs(this_sector -
  468. conf->mirrors[disk].head_position);
  469. /* Find the disk which is closest */
  470. do {
  471. if (disk <= 0)
  472. disk = conf->raid_disks;
  473. disk--;
  474. if ((conf->mirrors[disk].write_only) ||
  475. (!conf->mirrors[disk].operational))
  476. continue;
  477. new_distance = abs(this_sector -
  478. conf->mirrors[disk].head_position);
  479. if (new_distance < current_distance) {
  480. conf->sect_count = 0;
  481. current_distance = new_distance;
  482. new_disk = disk;
  483. }
  484. } while (disk != conf->last_used);
  485. rb_out:
  486. conf->mirrors[new_disk].head_position = this_sector + sectors;
  487. conf->last_used = new_disk;
  488. conf->sect_count += sectors;
  489. return new_disk;
  490. }
  491. static int raid1_make_request (mddev_t *mddev, int rw,
  492.        struct buffer_head * bh)
  493. {
  494. raid1_conf_t *conf = mddev_to_conf(mddev);
  495. struct buffer_head *bh_req, *bhl;
  496. struct raid1_bh * r1_bh;
  497. int disks = MD_SB_DISKS;
  498. int i, sum_bhs = 0;
  499. struct mirror_info *mirror;
  500. if (!buffer_locked(bh))
  501. BUG();
  502. /*
  503.  * make_request() can abort the operation when READA is being
  504.  * used and no empty request is available.
  505.  *
  506.  * Currently, just replace the command with READ/WRITE.
  507.  */
  508. if (rw == READA)
  509. rw = READ;
  510. r1_bh = raid1_alloc_r1bh (conf);
  511. spin_lock_irq(&conf->segment_lock);
  512. wait_event_lock_irq(conf->wait_done,
  513. bh->b_rsector < conf->start_active ||
  514. bh->b_rsector >= conf->start_future,
  515. conf->segment_lock);
  516. if (bh->b_rsector < conf->start_active) 
  517. conf->cnt_done++;
  518. else {
  519. conf->cnt_future++;
  520. if (conf->phase)
  521. set_bit(R1BH_SyncPhase, &r1_bh->state);
  522. }
  523. spin_unlock_irq(&conf->segment_lock);
  524. /*
  525.  * i think the read and write branch should be separated completely,
  526.  * since we want to do read balancing on the read side for example.
  527.  * Alternative implementations? :) --mingo
  528.  */
  529. r1_bh->master_bh = bh;
  530. r1_bh->mddev = mddev;
  531. r1_bh->cmd = rw;
  532. if (rw == READ) {
  533. /*
  534.  * read balancing logic:
  535.  */
  536. mirror = conf->mirrors + raid1_read_balance(conf, bh);
  537. bh_req = &r1_bh->bh_req;
  538. memcpy(bh_req, bh, sizeof(*bh));
  539. bh_req->b_blocknr = bh->b_rsector;
  540. bh_req->b_dev = mirror->dev;
  541. bh_req->b_rdev = mirror->dev;
  542. /* bh_req->b_rsector = bh->n_rsector; */
  543. bh_req->b_end_io = raid1_end_request;
  544. bh_req->b_private = r1_bh;
  545. generic_make_request (rw, bh_req);
  546. return 0;
  547. }
  548. /*
  549.  * WRITE:
  550.  */
  551. bhl = raid1_alloc_bh(conf, conf->raid_disks);
  552. for (i = 0; i < disks; i++) {
  553. struct buffer_head *mbh;
  554. if (!conf->mirrors[i].operational) 
  555. continue;
  556.  
  557. /*
  558.  * We should use a private pool (size depending on NR_REQUEST),
  559.  * to avoid writes filling up the memory with bhs
  560.  *
  561.    * Such pools are much faster than kmalloc anyways (so we waste
  562.    * almost nothing by not using the master bh when writing and
  563.    * win alot of cleanness) but for now we are cool enough. --mingo
  564.    *
  565.  * It's safe to sleep here, buffer heads cannot be used in a shared
  566.    * manner in the write branch. Look how we lock the buffer at the
  567.    * beginning of this function to grok the difference ;)
  568.  */
  569.   mbh = bhl;
  570. if (mbh == NULL) {
  571. MD_BUG();
  572. break;
  573. }
  574. bhl = mbh->b_next;
  575. mbh->b_next = NULL;
  576. mbh->b_this_page = (struct buffer_head *)1;
  577.   /*
  578.    * prepare mirrored mbh (fields ordered for max mem throughput):
  579.    */
  580. mbh->b_blocknr    = bh->b_rsector;
  581. mbh->b_dev        = conf->mirrors[i].dev;
  582. mbh->b_rdev   = conf->mirrors[i].dev;
  583. mbh->b_rsector   = bh->b_rsector;
  584. mbh->b_state      = (1<<BH_Req) | (1<<BH_Dirty) |
  585. (1<<BH_Mapped) | (1<<BH_Lock);
  586. atomic_set(&mbh->b_count, 1);
  587.   mbh->b_size       = bh->b_size;
  588.   mbh->b_page   = bh->b_page;
  589.   mbh->b_data   = bh->b_data;
  590.   mbh->b_list       = BUF_LOCKED;
  591.   mbh->b_end_io     = raid1_end_request;
  592.   mbh->b_private    = r1_bh;
  593. mbh->b_next = r1_bh->mirror_bh_list;
  594. r1_bh->mirror_bh_list = mbh;
  595. sum_bhs++;
  596. }
  597. if (bhl) raid1_free_bh(conf,bhl);
  598. if (!sum_bhs) {
  599. /* Gag - all mirrors non-operational.. */
  600. raid1_end_bh_io(r1_bh, 0);
  601. return 0;
  602. }
  603. md_atomic_set(&r1_bh->remaining, sum_bhs);
  604. /*
  605.  * We have to be a bit careful about the semaphore above, thats
  606.  * why we start the requests separately. Since kmalloc() could
  607.  * fail, sleep and make_request() can sleep too, this is the
  608.  * safer solution. Imagine, end_request decreasing the semaphore
  609.  * before we could have set it up ... We could play tricks with
  610.  * the semaphore (presetting it and correcting at the end if
  611.  * sum_bhs is not 'n' but we have to do end_request by hand if
  612.  * all requests finish until we had a chance to set up the
  613.  * semaphore correctly ... lots of races).
  614.  */
  615. bh = r1_bh->mirror_bh_list;
  616. while(bh) {
  617. struct buffer_head *bh2 = bh;
  618. bh = bh->b_next;
  619. generic_make_request(rw, bh2);
  620. }
  621. return (0);
  622. }
  623. static int raid1_status (char *page, mddev_t *mddev)
  624. {
  625. raid1_conf_t *conf = mddev_to_conf(mddev);
  626. int sz = 0, i;
  627. sz += sprintf (page+sz, " [%d/%d] [", conf->raid_disks,
  628.  conf->working_disks);
  629. for (i = 0; i < conf->raid_disks; i++)
  630. sz += sprintf (page+sz, "%s",
  631. conf->mirrors[i].operational ? "U" : "_");
  632. sz += sprintf (page+sz, "]");
  633. return sz;
  634. }
  635. #define LAST_DISK KERN_ALERT 
  636. "raid1: only one disk left and IO error.n"
  637. #define NO_SPARE_DISK KERN_ALERT 
  638. "raid1: no spare disk left, degrading mirror level by one.n"
  639. #define DISK_FAILED KERN_ALERT 
  640. "raid1: Disk failure on %s, disabling device. n" 
  641. " Operation continuing on %d devicesn"
  642. #define START_SYNCING KERN_ALERT 
  643. "raid1: start syncing spare disk.n"
  644. #define ALREADY_SYNCING KERN_INFO 
  645. "raid1: syncing already in progress.n"
  646. static void mark_disk_bad (mddev_t *mddev, int failed)
  647. {
  648. raid1_conf_t *conf = mddev_to_conf(mddev);
  649. struct mirror_info *mirror = conf->mirrors+failed;
  650. mdp_super_t *sb = mddev->sb;
  651. mirror->operational = 0;
  652. mark_disk_faulty(sb->disks+mirror->number);
  653. mark_disk_nonsync(sb->disks+mirror->number);
  654. mark_disk_inactive(sb->disks+mirror->number);
  655. if (!mirror->write_only)
  656. sb->active_disks--;
  657. sb->working_disks--;
  658. sb->failed_disks++;
  659. mddev->sb_dirty = 1;
  660. md_wakeup_thread(conf->thread);
  661. if (!mirror->write_only)
  662. conf->working_disks--;
  663. printk (DISK_FAILED, partition_name (mirror->dev),
  664.  conf->working_disks);
  665. }
  666. static int raid1_error (mddev_t *mddev, kdev_t dev)
  667. {
  668. raid1_conf_t *conf = mddev_to_conf(mddev);
  669. struct mirror_info * mirrors = conf->mirrors;
  670. int disks = MD_SB_DISKS;
  671. int i;
  672. /* Find the drive.
  673.  * If it is not operational, then we have already marked it as dead
  674.  * else if it is the last working disks, ignore the error, let the
  675.  * next level up know.
  676.  * else mark the drive as failed
  677.  */
  678. for (i = 0; i < disks; i++)
  679. if (mirrors[i].dev==dev && mirrors[i].operational)
  680. break;
  681. if (i == disks)
  682. return 0;
  683. if (i < conf->raid_disks && conf->working_disks == 1) {
  684. /* Don't fail the drive, act as though we were just a
  685.  * normal single drive
  686.  */
  687. return 1;
  688. }
  689. mark_disk_bad(mddev, i);
  690. return 0;
  691. }
  692. #undef LAST_DISK
  693. #undef NO_SPARE_DISK
  694. #undef DISK_FAILED
  695. #undef START_SYNCING
  696. static void print_raid1_conf (raid1_conf_t *conf)
  697. {
  698. int i;
  699. struct mirror_info *tmp;
  700. printk("RAID1 conf printout:n");
  701. if (!conf) {
  702. printk("(conf==NULL)n");
  703. return;
  704. }
  705. printk(" --- wd:%d rd:%d nd:%dn", conf->working_disks,
  706.  conf->raid_disks, conf->nr_disks);
  707. for (i = 0; i < MD_SB_DISKS; i++) {
  708. tmp = conf->mirrors + i;
  709. printk(" disk %d, s:%d, o:%d, n:%d rd:%d us:%d dev:%sn",
  710. i, tmp->spare,tmp->operational,
  711. tmp->number,tmp->raid_disk,tmp->used_slot,
  712. partition_name(tmp->dev));
  713. }
  714. }
  715. static void close_sync(raid1_conf_t *conf)
  716. {
  717. mddev_t *mddev = conf->mddev;
  718. /* If reconstruction was interrupted, we need to close the "active" and "pending"
  719.  * holes.
  720.  * we know that there are no active rebuild requests, os cnt_active == cnt_ready ==0
  721.  */
  722. /* this is really needed when recovery stops too... */
  723. spin_lock_irq(&conf->segment_lock);
  724. conf->start_active = conf->start_pending;
  725. conf->start_ready = conf->start_pending;
  726. wait_event_lock_irq(conf->wait_ready, !conf->cnt_pending, conf->segment_lock);
  727. conf->start_active =conf->start_ready = conf->start_pending = conf->start_future;
  728. conf->start_future = (mddev->sb->size<<1)+1;
  729. conf->cnt_pending = conf->cnt_future;
  730. conf->cnt_future = 0;
  731. conf->phase = conf->phase ^1;
  732. wait_event_lock_irq(conf->wait_ready, !conf->cnt_pending, conf->segment_lock);
  733. conf->start_active = conf->start_ready = conf->start_pending = conf->start_future = 0;
  734. conf->phase = 0;
  735. conf->cnt_future = conf->cnt_done;;
  736. conf->cnt_done = 0;
  737. spin_unlock_irq(&conf->segment_lock);
  738. wake_up(&conf->wait_done);
  739. }
  740. static int raid1_diskop(mddev_t *mddev, mdp_disk_t **d, int state)
  741. {
  742. int err = 0;
  743. int i, failed_disk=-1, spare_disk=-1, removed_disk=-1, added_disk=-1;
  744. raid1_conf_t *conf = mddev->private;
  745. struct mirror_info *tmp, *sdisk, *fdisk, *rdisk, *adisk;
  746. mdp_super_t *sb = mddev->sb;
  747. mdp_disk_t *failed_desc, *spare_desc, *added_desc;
  748. mdk_rdev_t *spare_rdev, *failed_rdev;
  749. print_raid1_conf(conf);
  750. switch (state) {
  751. case DISKOP_SPARE_ACTIVE:
  752. case DISKOP_SPARE_INACTIVE:
  753. /* need to wait for pending sync io before locking device */
  754. close_sync(conf);
  755. }
  756. md_spin_lock_irq(&conf->device_lock);
  757. /*
  758.  * find the disk ...
  759.  */
  760. switch (state) {
  761. case DISKOP_SPARE_ACTIVE:
  762. /*
  763.  * Find the failed disk within the RAID1 configuration ...
  764.  * (this can only be in the first conf->working_disks part)
  765.  */
  766. for (i = 0; i < conf->raid_disks; i++) {
  767. tmp = conf->mirrors + i;
  768. if ((!tmp->operational && !tmp->spare) ||
  769. !tmp->used_slot) {
  770. failed_disk = i;
  771. break;
  772. }
  773. }
  774. /*
  775.  * When we activate a spare disk we _must_ have a disk in
  776.  * the lower (active) part of the array to replace. 
  777.  */
  778. if ((failed_disk == -1) || (failed_disk >= conf->raid_disks)) {
  779. MD_BUG();
  780. err = 1;
  781. goto abort;
  782. }
  783. /* fall through */
  784. case DISKOP_SPARE_WRITE:
  785. case DISKOP_SPARE_INACTIVE:
  786. /*
  787.  * Find the spare disk ... (can only be in the 'high'
  788.  * area of the array)
  789.  */
  790. for (i = conf->raid_disks; i < MD_SB_DISKS; i++) {
  791. tmp = conf->mirrors + i;
  792. if (tmp->spare && tmp->number == (*d)->number) {
  793. spare_disk = i;
  794. break;
  795. }
  796. }
  797. if (spare_disk == -1) {
  798. MD_BUG();
  799. err = 1;
  800. goto abort;
  801. }
  802. break;
  803. case DISKOP_HOT_REMOVE_DISK:
  804. for (i = 0; i < MD_SB_DISKS; i++) {
  805. tmp = conf->mirrors + i;
  806. if (tmp->used_slot && (tmp->number == (*d)->number)) {
  807. if (tmp->operational) {
  808. err = -EBUSY;
  809. goto abort;
  810. }
  811. removed_disk = i;
  812. break;
  813. }
  814. }
  815. if (removed_disk == -1) {
  816. MD_BUG();
  817. err = 1;
  818. goto abort;
  819. }
  820. break;
  821. case DISKOP_HOT_ADD_DISK:
  822. for (i = conf->raid_disks; i < MD_SB_DISKS; i++) {
  823. tmp = conf->mirrors + i;
  824. if (!tmp->used_slot) {
  825. added_disk = i;
  826. break;
  827. }
  828. }
  829. if (added_disk == -1) {
  830. MD_BUG();
  831. err = 1;
  832. goto abort;
  833. }
  834. break;
  835. }
  836. switch (state) {
  837. /*
  838.  * Switch the spare disk to write-only mode:
  839.  */
  840. case DISKOP_SPARE_WRITE:
  841. sdisk = conf->mirrors + spare_disk;
  842. sdisk->operational = 1;
  843. sdisk->write_only = 1;
  844. break;
  845. /*
  846.  * Deactivate a spare disk:
  847.  */
  848. case DISKOP_SPARE_INACTIVE:
  849. if (conf->start_future > 0) {
  850. MD_BUG();
  851. err = -EBUSY;
  852. break;
  853. }
  854. sdisk = conf->mirrors + spare_disk;
  855. sdisk->operational = 0;
  856. sdisk->write_only = 0;
  857. break;
  858. /*
  859.  * Activate (mark read-write) the (now sync) spare disk,
  860.  * which means we switch it's 'raid position' (->raid_disk)
  861.  * with the failed disk. (only the first 'conf->nr_disks'
  862.  * slots are used for 'real' disks and we must preserve this
  863.  * property)
  864.  */
  865. case DISKOP_SPARE_ACTIVE:
  866. if (conf->start_future > 0) {
  867. MD_BUG();
  868. err = -EBUSY;
  869. break;
  870. }
  871. sdisk = conf->mirrors + spare_disk;
  872. fdisk = conf->mirrors + failed_disk;
  873. spare_desc = &sb->disks[sdisk->number];
  874. failed_desc = &sb->disks[fdisk->number];
  875. if (spare_desc != *d) {
  876. MD_BUG();
  877. err = 1;
  878. goto abort;
  879. }
  880. if (spare_desc->raid_disk != sdisk->raid_disk) {
  881. MD_BUG();
  882. err = 1;
  883. goto abort;
  884. }
  885. if (sdisk->raid_disk != spare_disk) {
  886. MD_BUG();
  887. err = 1;
  888. goto abort;
  889. }
  890. if (failed_desc->raid_disk != fdisk->raid_disk) {
  891. MD_BUG();
  892. err = 1;
  893. goto abort;
  894. }
  895. if (fdisk->raid_disk != failed_disk) {
  896. MD_BUG();
  897. err = 1;
  898. goto abort;
  899. }
  900. /*
  901.  * do the switch finally
  902.  */
  903. spare_rdev = find_rdev_nr(mddev, spare_desc->number);
  904. failed_rdev = find_rdev_nr(mddev, failed_desc->number);
  905. /* There must be a spare_rdev, but there may not be a
  906.  * failed_rdev.  That slot might be empty...
  907.  */
  908. spare_rdev->desc_nr = failed_desc->number;
  909. if (failed_rdev)
  910. failed_rdev->desc_nr = spare_desc->number;
  911. xchg_values(*spare_desc, *failed_desc);
  912. xchg_values(*fdisk, *sdisk);
  913. /*
  914.  * (careful, 'failed' and 'spare' are switched from now on)
  915.  *
  916.  * we want to preserve linear numbering and we want to
  917.  * give the proper raid_disk number to the now activated
  918.  * disk. (this means we switch back these values)
  919.  */
  920. xchg_values(spare_desc->raid_disk, failed_desc->raid_disk);
  921. xchg_values(sdisk->raid_disk, fdisk->raid_disk);
  922. xchg_values(spare_desc->number, failed_desc->number);
  923. xchg_values(sdisk->number, fdisk->number);
  924. *d = failed_desc;
  925. if (sdisk->dev == MKDEV(0,0))
  926. sdisk->used_slot = 0;
  927. /*
  928.  * this really activates the spare.
  929.  */
  930. fdisk->spare = 0;
  931. fdisk->write_only = 0;
  932. /*
  933.  * if we activate a spare, we definitely replace a
  934.  * non-operational disk slot in the 'low' area of
  935.  * the disk array.
  936.  */
  937. conf->working_disks++;
  938. break;
  939. case DISKOP_HOT_REMOVE_DISK:
  940. rdisk = conf->mirrors + removed_disk;
  941. if (rdisk->spare && (removed_disk < conf->raid_disks)) {
  942. MD_BUG();
  943. err = 1;
  944. goto abort;
  945. }
  946. rdisk->dev = MKDEV(0,0);
  947. rdisk->used_slot = 0;
  948. conf->nr_disks--;
  949. break;
  950. case DISKOP_HOT_ADD_DISK:
  951. adisk = conf->mirrors + added_disk;
  952. added_desc = *d;
  953. if (added_disk != added_desc->number) {
  954. MD_BUG();
  955. err = 1;
  956. goto abort;
  957. }
  958. adisk->number = added_desc->number;
  959. adisk->raid_disk = added_desc->raid_disk;
  960. adisk->dev = MKDEV(added_desc->major,added_desc->minor);
  961. adisk->operational = 0;
  962. adisk->write_only = 0;
  963. adisk->spare = 1;
  964. adisk->used_slot = 1;
  965. adisk->head_position = 0;
  966. conf->nr_disks++;
  967. break;
  968. default:
  969. MD_BUG();
  970. err = 1;
  971. goto abort;
  972. }
  973. abort:
  974. md_spin_unlock_irq(&conf->device_lock);
  975. if (state == DISKOP_SPARE_ACTIVE || state == DISKOP_SPARE_INACTIVE)
  976. /* should move to "END_REBUILD" when such exists */
  977. raid1_shrink_buffers(conf);
  978. print_raid1_conf(conf);
  979. return err;
  980. }
  981. #define IO_ERROR KERN_ALERT 
  982. "raid1: %s: unrecoverable I/O read error for block %lun"
  983. #define REDIRECT_SECTOR KERN_ERR 
  984. "raid1: %s: redirecting sector %lu to another mirrorn"
  985. /*
  986.  * This is a kernel thread which:
  987.  *
  988.  * 1. Retries failed read operations on working mirrors.
  989.  * 2. Updates the raid superblock when problems encounter.
  990.  * 3. Performs writes following reads for array syncronising.
  991.  */
  992. static void end_sync_write(struct buffer_head *bh, int uptodate);
  993. static void end_sync_read(struct buffer_head *bh, int uptodate);
  994. static void raid1d (void *data)
  995. {
  996. struct raid1_bh *r1_bh;
  997. struct buffer_head *bh;
  998. unsigned long flags;
  999. raid1_conf_t *conf = data;
  1000. mddev_t *mddev = conf->mddev;
  1001. kdev_t dev;
  1002. if (mddev->sb_dirty)
  1003. md_update_sb(mddev);
  1004. for (;;) {
  1005. md_spin_lock_irqsave(&retry_list_lock, flags);
  1006. r1_bh = raid1_retry_list;
  1007. if (!r1_bh)
  1008. break;
  1009. raid1_retry_list = r1_bh->next_r1;
  1010. md_spin_unlock_irqrestore(&retry_list_lock, flags);
  1011. mddev = r1_bh->mddev;
  1012. bh = &r1_bh->bh_req;
  1013. switch(r1_bh->cmd) {
  1014. case SPECIAL:
  1015. /* have to allocate lots of bh structures and
  1016.  * schedule writes
  1017.  */
  1018. if (test_bit(R1BH_Uptodate, &r1_bh->state)) {
  1019. int i, sum_bhs = 0;
  1020. int disks = MD_SB_DISKS;
  1021. struct buffer_head *bhl, *mbh;
  1022. conf = mddev_to_conf(mddev);
  1023. bhl = raid1_alloc_bh(conf, conf->raid_disks); /* don't really need this many */
  1024. for (i = 0; i < disks ; i++) {
  1025. if (!conf->mirrors[i].operational)
  1026. continue;
  1027. if (i==conf->last_used)
  1028. /* we read from here, no need to write */
  1029. continue;
  1030. if (i < conf->raid_disks
  1031.     && !conf->resync_mirrors)
  1032. /* don't need to write this,
  1033.  * we are just rebuilding */
  1034. continue;
  1035. mbh = bhl;
  1036. if (!mbh) {
  1037. MD_BUG();
  1038. break;
  1039. }
  1040. bhl = mbh->b_next;
  1041. mbh->b_this_page = (struct buffer_head *)1;
  1042. /*
  1043.  * prepare mirrored bh (fields ordered for max mem throughput):
  1044.  */
  1045. mbh->b_blocknr    = bh->b_blocknr;
  1046. mbh->b_dev        = conf->mirrors[i].dev;
  1047. mbh->b_rdev   = conf->mirrors[i].dev;
  1048. mbh->b_rsector   = bh->b_blocknr;
  1049. mbh->b_state      = (1<<BH_Req) | (1<<BH_Dirty) |
  1050. (1<<BH_Mapped) | (1<<BH_Lock);
  1051. atomic_set(&mbh->b_count, 1);
  1052. mbh->b_size       = bh->b_size;
  1053. mbh->b_page   = bh->b_page;
  1054. mbh->b_data   = bh->b_data;
  1055. mbh->b_list       = BUF_LOCKED;
  1056. mbh->b_end_io     = end_sync_write;
  1057. mbh->b_private    = r1_bh;
  1058. mbh->b_next = r1_bh->mirror_bh_list;
  1059. r1_bh->mirror_bh_list = mbh;
  1060. sum_bhs++;
  1061. }
  1062. md_atomic_set(&r1_bh->remaining, sum_bhs);
  1063. if (bhl) raid1_free_bh(conf, bhl);
  1064. mbh = r1_bh->mirror_bh_list;
  1065. if (!sum_bhs) {
  1066. /* nowhere to write this too... I guess we
  1067.  * must be done
  1068.  */
  1069. sync_request_done(bh->b_blocknr, conf);
  1070. md_done_sync(mddev, bh->b_size>>9, 0);
  1071. raid1_free_buf(r1_bh);
  1072. } else
  1073. while (mbh) {
  1074. struct buffer_head *bh1 = mbh;
  1075. mbh = mbh->b_next;
  1076. generic_make_request(WRITE, bh1);
  1077. md_sync_acct(bh1->b_dev, bh1->b_size/512);
  1078. }
  1079. } else {
  1080. /* There is no point trying a read-for-reconstruct
  1081.  * as reconstruct is about to be aborted
  1082.  */
  1083. printk (IO_ERROR, partition_name(bh->b_dev), bh->b_blocknr);
  1084. md_done_sync(mddev, bh->b_size>>9, 0);
  1085. }
  1086. break;
  1087. case READ:
  1088. case READA:
  1089. dev = bh->b_dev;
  1090. raid1_map (mddev, &bh->b_dev);
  1091. if (bh->b_dev == dev) {
  1092. printk (IO_ERROR, partition_name(bh->b_dev), bh->b_blocknr);
  1093. raid1_end_bh_io(r1_bh, 0);
  1094. } else {
  1095. printk (REDIRECT_SECTOR,
  1096. partition_name(bh->b_dev), bh->b_blocknr);
  1097. bh->b_rdev = bh->b_dev;
  1098. bh->b_rsector = bh->b_blocknr;
  1099. generic_make_request (r1_bh->cmd, bh);
  1100. }
  1101. break;
  1102. }
  1103. }
  1104. md_spin_unlock_irqrestore(&retry_list_lock, flags);
  1105. }
  1106. #undef IO_ERROR
  1107. #undef REDIRECT_SECTOR
  1108. /*
  1109.  * Private kernel thread to reconstruct mirrors after an unclean
  1110.  * shutdown.
  1111.  */
  1112. static void raid1syncd (void *data)
  1113. {
  1114. raid1_conf_t *conf = data;
  1115. mddev_t *mddev = conf->mddev;
  1116. if (!conf->resync_mirrors)
  1117. return;
  1118. if (conf->resync_mirrors == 2)
  1119. return;
  1120. down(&mddev->recovery_sem);
  1121. if (!md_do_sync(mddev, NULL)) {
  1122. /*
  1123.  * Only if everything went Ok.
  1124.  */
  1125. conf->resync_mirrors = 0;
  1126. }
  1127. close_sync(conf);
  1128. up(&mddev->recovery_sem);
  1129. raid1_shrink_buffers(conf);
  1130. }
  1131. /*
  1132.  * perform a "sync" on one "block"
  1133.  *
  1134.  * We need to make sure that no normal I/O request - particularly write
  1135.  * requests - conflict with active sync requests.
  1136.  * This is achieved by conceptually dividing the device space into a
  1137.  * number of sections:
  1138.  *  DONE: 0 .. a-1     These blocks are in-sync
  1139.  *  ACTIVE: a.. b-1    These blocks may have active sync requests, but
  1140.  *                     no normal IO requests
  1141.  *  READY: b .. c-1    These blocks have no normal IO requests - sync
  1142.  *                     request may be happening
  1143.  *  PENDING: c .. d-1  These blocks may have IO requests, but no new
  1144.  *                     ones will be added
  1145.  *  FUTURE:  d .. end  These blocks are not to be considered yet. IO may
  1146.  *                     be happening, but not sync
  1147.  *
  1148.  * We keep a
  1149.  *   phase    which flips (0 or 1) each time d moves and
  1150.  * a count of:
  1151.  *   z =  active io requests in FUTURE since d moved - marked with
  1152.  *        current phase
  1153.  *   y =  active io requests in FUTURE before d moved, or PENDING -
  1154.  *        marked with previous phase
  1155.  *   x =  active sync requests in READY
  1156.  *   w =  active sync requests in ACTIVE
  1157.  *   v =  active io requests in DONE
  1158.  *
  1159.  * Normally, a=b=c=d=0 and z= active io requests
  1160.  *   or a=b=c=d=END and v= active io requests
  1161.  * Allowed changes to a,b,c,d:
  1162.  * A:  c==d &&  y==0 -> d+=window, y=z, z=0, phase=!phase
  1163.  * B:  y==0 -> c=d
  1164.  * C:   b=c, w+=x, x=0
  1165.  * D:  w==0 -> a=b
  1166.  * E: a==b==c==d==end -> a=b=c=d=0, z=v, v=0
  1167.  *
  1168.  * At start of sync we apply A.
  1169.  * When y reaches 0, we apply B then A then being sync requests
  1170.  * When sync point reaches c-1, we wait for y==0, and W==0, and
  1171.  * then apply apply B then A then D then C.
  1172.  * Finally, we apply E
  1173.  *
  1174.  * The sync request simply issues a "read" against a working drive
  1175.  * This is marked so that on completion the raid1d thread is woken to
  1176.  * issue suitable write requests
  1177.  */
  1178. static int raid1_sync_request (mddev_t *mddev, unsigned long sector_nr)
  1179. {
  1180. raid1_conf_t *conf = mddev_to_conf(mddev);
  1181. struct mirror_info *mirror;
  1182. struct raid1_bh *r1_bh;
  1183. struct buffer_head *bh;
  1184. int bsize;
  1185. int disk;
  1186. int block_nr;
  1187. int buffs;
  1188. if (!sector_nr) {
  1189. /* we want enough buffers to hold twice the window of 128*/
  1190. buffs = 128 *2 / (PAGE_SIZE>>9);
  1191. buffs = raid1_grow_buffers(conf, buffs);
  1192. if (buffs < 2)
  1193. goto nomem;
  1194. conf->window = buffs*(PAGE_SIZE>>9)/2;
  1195. }
  1196. spin_lock_irq(&conf->segment_lock);
  1197. if (!sector_nr) {
  1198. /* initialize ...*/
  1199. conf->start_active = 0;
  1200. conf->start_ready = 0;
  1201. conf->start_pending = 0;
  1202. conf->start_future = 0;
  1203. conf->phase = 0;
  1204. conf->cnt_future += conf->cnt_done+conf->cnt_pending;
  1205. conf->cnt_done = conf->cnt_pending = 0;
  1206. if (conf->cnt_ready || conf->cnt_active)
  1207. MD_BUG();
  1208. }
  1209. while (sector_nr >= conf->start_pending) {
  1210. PRINTK("wait .. sect=%lu start_active=%d ready=%d pending=%d future=%d, cnt_done=%d active=%d ready=%d pending=%d future=%dn",
  1211. sector_nr, conf->start_active, conf->start_ready, conf->start_pending, conf->start_future,
  1212. conf->cnt_done, conf->cnt_active, conf->cnt_ready, conf->cnt_pending, conf->cnt_future);
  1213. wait_event_lock_irq(conf->wait_done,
  1214. !conf->cnt_active,
  1215. conf->segment_lock);
  1216. wait_event_lock_irq(conf->wait_ready,
  1217. !conf->cnt_pending,
  1218. conf->segment_lock);
  1219. conf->start_active = conf->start_ready;
  1220. conf->start_ready = conf->start_pending;
  1221. conf->start_pending = conf->start_future;
  1222. conf->start_future = conf->start_future+conf->window;
  1223. // Note: falling off the end is not a problem
  1224. conf->phase = conf->phase ^1;
  1225. conf->cnt_active = conf->cnt_ready;
  1226. conf->cnt_ready = 0;
  1227. conf->cnt_pending = conf->cnt_future;
  1228. conf->cnt_future = 0;
  1229. wake_up(&conf->wait_done);
  1230. }
  1231. conf->cnt_ready++;
  1232. spin_unlock_irq(&conf->segment_lock);
  1233. /* If reconstructing, and >1 working disc,
  1234.  * could dedicate one to rebuild and others to
  1235.  * service read requests ..
  1236.  */
  1237. disk = conf->last_used;
  1238. /* make sure disk is operational */
  1239. while (!conf->mirrors[disk].operational) {
  1240. if (disk <= 0) disk = conf->raid_disks;
  1241. disk--;
  1242. if (disk == conf->last_used)
  1243. break;
  1244. }
  1245. conf->last_used = disk;
  1246. mirror = conf->mirrors+conf->last_used;
  1247. r1_bh = raid1_alloc_buf (conf);
  1248. r1_bh->master_bh = NULL;
  1249. r1_bh->mddev = mddev;
  1250. r1_bh->cmd = SPECIAL;
  1251. bh = &r1_bh->bh_req;
  1252. block_nr = sector_nr;
  1253. bsize = 512;
  1254. while (!(block_nr & 1) && bsize < PAGE_SIZE
  1255. && (block_nr+2)*(bsize>>9) < (mddev->sb->size *2)) {
  1256. block_nr >>= 1;
  1257. bsize <<= 1;
  1258. }
  1259. bh->b_size = bsize;
  1260. bh->b_list = BUF_LOCKED;
  1261. bh->b_dev = mirror->dev;
  1262. bh->b_rdev = mirror->dev;
  1263. bh->b_state = (1<<BH_Req) | (1<<BH_Mapped) | (1<<BH_Lock);
  1264. if (!bh->b_page)
  1265. BUG();
  1266. if (!bh->b_data)
  1267. BUG();
  1268. if (bh->b_data != page_address(bh->b_page))
  1269. BUG();
  1270. bh->b_end_io = end_sync_read;
  1271. bh->b_private = r1_bh;
  1272. bh->b_blocknr = sector_nr;
  1273. bh->b_rsector = sector_nr;
  1274. init_waitqueue_head(&bh->b_wait);
  1275. generic_make_request(READ, bh);
  1276. md_sync_acct(bh->b_dev, bh->b_size/512);
  1277. return (bsize >> 9);
  1278. nomem:
  1279. raid1_shrink_buffers(conf);
  1280. return -ENOMEM;
  1281. }
  1282. static void end_sync_read(struct buffer_head *bh, int uptodate)
  1283. {
  1284. struct raid1_bh * r1_bh = (struct raid1_bh *)(bh->b_private);
  1285. /* we have read a block, now it needs to be re-written,
  1286.  * or re-read if the read failed.
  1287.  * We don't do much here, just schedule handling by raid1d
  1288.  */
  1289. if (!uptodate)
  1290. md_error (r1_bh->mddev, bh->b_dev);
  1291. else
  1292. set_bit(R1BH_Uptodate, &r1_bh->state);
  1293. raid1_reschedule_retry(r1_bh);
  1294. }
  1295. static void end_sync_write(struct buffer_head *bh, int uptodate)
  1296. {
  1297.   struct raid1_bh * r1_bh = (struct raid1_bh *)(bh->b_private);
  1298. if (!uptodate)
  1299.   md_error (r1_bh->mddev, bh->b_dev);
  1300. if (atomic_dec_and_test(&r1_bh->remaining)) {
  1301. mddev_t *mddev = r1_bh->mddev;
  1302.   unsigned long sect = bh->b_blocknr;
  1303. int size = bh->b_size;
  1304. raid1_free_buf(r1_bh);
  1305. sync_request_done(sect, mddev_to_conf(mddev));
  1306. md_done_sync(mddev,size>>9, uptodate);
  1307. }
  1308. }
  1309. #define INVALID_LEVEL KERN_WARNING 
  1310. "raid1: md%d: raid level not set to mirroring (%d)n"
  1311. #define NO_SB KERN_ERR 
  1312. "raid1: disabled mirror %s (couldn't access raid superblock)n"
  1313. #define ERRORS KERN_ERR 
  1314. "raid1: disabled mirror %s (errors detected)n"
  1315. #define NOT_IN_SYNC KERN_ERR 
  1316. "raid1: disabled mirror %s (not in sync)n"
  1317. #define INCONSISTENT KERN_ERR 
  1318. "raid1: disabled mirror %s (inconsistent descriptor)n"
  1319. #define ALREADY_RUNNING KERN_ERR 
  1320. "raid1: disabled mirror %s (mirror %d already operational)n"
  1321. #define OPERATIONAL KERN_INFO 
  1322. "raid1: device %s operational as mirror %dn"
  1323. #define MEM_ERROR KERN_ERR 
  1324. "raid1: couldn't allocate memory for md%dn"
  1325. #define SPARE KERN_INFO 
  1326. "raid1: spare disk %sn"
  1327. #define NONE_OPERATIONAL KERN_ERR 
  1328. "raid1: no operational mirrors for md%dn"
  1329. #define ARRAY_IS_ACTIVE KERN_INFO 
  1330. "raid1: raid set md%d active with %d out of %d mirrorsn"
  1331. #define THREAD_ERROR KERN_ERR 
  1332. "raid1: couldn't allocate thread for md%dn"
  1333. #define START_RESYNC KERN_WARNING 
  1334. "raid1: raid set md%d not clean; reconstructing mirrorsn"
  1335. static int raid1_run (mddev_t *mddev)
  1336. {
  1337. raid1_conf_t *conf;
  1338. int i, j, disk_idx;
  1339. struct mirror_info *disk;
  1340. mdp_super_t *sb = mddev->sb;
  1341. mdp_disk_t *descriptor;
  1342. mdk_rdev_t *rdev;
  1343. struct md_list_head *tmp;
  1344. int start_recovery = 0;
  1345. MOD_INC_USE_COUNT;
  1346. if (sb->level != 1) {
  1347. printk(INVALID_LEVEL, mdidx(mddev), sb->level);
  1348. goto out;
  1349. }
  1350. /*
  1351.  * copy the already verified devices into our private RAID1
  1352.  * bookkeeping area. [whatever we allocate in raid1_run(),
  1353.  * should be freed in raid1_stop()]
  1354.  */
  1355. conf = kmalloc(sizeof(raid1_conf_t), GFP_KERNEL);
  1356. mddev->private = conf;
  1357. if (!conf) {
  1358. printk(MEM_ERROR, mdidx(mddev));
  1359. goto out;
  1360. }
  1361. memset(conf, 0, sizeof(*conf));
  1362. ITERATE_RDEV(mddev,rdev,tmp) {
  1363. if (rdev->faulty) {
  1364. printk(ERRORS, partition_name(rdev->dev));
  1365. } else {
  1366. if (!rdev->sb) {
  1367. MD_BUG();
  1368. continue;
  1369. }
  1370. }
  1371. if (rdev->desc_nr == -1) {
  1372. MD_BUG();
  1373. continue;
  1374. }
  1375. descriptor = &sb->disks[rdev->desc_nr];
  1376. disk_idx = descriptor->raid_disk;
  1377. disk = conf->mirrors + disk_idx;
  1378. if (disk_faulty(descriptor)) {
  1379. disk->number = descriptor->number;
  1380. disk->raid_disk = disk_idx;
  1381. disk->dev = rdev->dev;
  1382. disk->sect_limit = MAX_WORK_PER_DISK;
  1383. disk->operational = 0;
  1384. disk->write_only = 0;
  1385. disk->spare = 0;
  1386. disk->used_slot = 1;
  1387. disk->head_position = 0;
  1388. continue;
  1389. }
  1390. if (disk_active(descriptor)) {
  1391. if (!disk_sync(descriptor)) {
  1392. printk(NOT_IN_SYNC,
  1393. partition_name(rdev->dev));
  1394. continue;
  1395. }
  1396. if ((descriptor->number > MD_SB_DISKS) ||
  1397.  (disk_idx > sb->raid_disks)) {
  1398. printk(INCONSISTENT,
  1399. partition_name(rdev->dev));
  1400. continue;
  1401. }
  1402. if (disk->operational) {
  1403. printk(ALREADY_RUNNING,
  1404. partition_name(rdev->dev),
  1405. disk_idx);
  1406. continue;
  1407. }
  1408. printk(OPERATIONAL, partition_name(rdev->dev),
  1409.   disk_idx);
  1410. disk->number = descriptor->number;
  1411. disk->raid_disk = disk_idx;
  1412. disk->dev = rdev->dev;
  1413. disk->sect_limit = MAX_WORK_PER_DISK;
  1414. disk->operational = 1;
  1415. disk->write_only = 0;
  1416. disk->spare = 0;
  1417. disk->used_slot = 1;
  1418. disk->head_position = 0;
  1419. conf->working_disks++;
  1420. } else {
  1421. /*
  1422.  * Must be a spare disk ..
  1423.  */
  1424. printk(SPARE, partition_name(rdev->dev));
  1425. disk->number = descriptor->number;
  1426. disk->raid_disk = disk_idx;
  1427. disk->dev = rdev->dev;
  1428. disk->sect_limit = MAX_WORK_PER_DISK;
  1429. disk->operational = 0;
  1430. disk->write_only = 0;
  1431. disk->spare = 1;
  1432. disk->used_slot = 1;
  1433. disk->head_position = 0;
  1434. }
  1435. }
  1436. conf->raid_disks = sb->raid_disks;
  1437. conf->nr_disks = sb->nr_disks;
  1438. conf->mddev = mddev;
  1439. conf->device_lock = MD_SPIN_LOCK_UNLOCKED;
  1440. conf->segment_lock = MD_SPIN_LOCK_UNLOCKED;
  1441. init_waitqueue_head(&conf->wait_buffer);
  1442. init_waitqueue_head(&conf->wait_done);
  1443. init_waitqueue_head(&conf->wait_ready);
  1444. if (!conf->working_disks) {
  1445. printk(NONE_OPERATIONAL, mdidx(mddev));
  1446. goto out_free_conf;
  1447. }
  1448. /* pre-allocate some buffer_head structures.
  1449.  * As a minimum, 1 r1bh and raid_disks buffer_heads
  1450.  * would probably get us by in tight memory situations,
  1451.  * but a few more is probably a good idea.
  1452.  * For now, try NR_RESERVED_BUFS r1bh and
  1453.  * NR_RESERVED_BUFS*raid_disks bufferheads
  1454.  * This will allow at least NR_RESERVED_BUFS concurrent
  1455.  * reads or writes even if kmalloc starts failing
  1456.  */
  1457. if (raid1_grow_r1bh(conf, NR_RESERVED_BUFS) < NR_RESERVED_BUFS ||
  1458.     raid1_grow_bh(conf, NR_RESERVED_BUFS*conf->raid_disks)
  1459.                       < NR_RESERVED_BUFS*conf->raid_disks) {
  1460. printk(MEM_ERROR, mdidx(mddev));
  1461. goto out_free_conf;
  1462. }
  1463. for (i = 0; i < MD_SB_DISKS; i++) {
  1464. descriptor = sb->disks+i;
  1465. disk_idx = descriptor->raid_disk;
  1466. disk = conf->mirrors + disk_idx;
  1467. if (disk_faulty(descriptor) && (disk_idx < conf->raid_disks) &&
  1468. !disk->used_slot) {
  1469. disk->number = descriptor->number;
  1470. disk->raid_disk = disk_idx;
  1471. disk->dev = MKDEV(0,0);
  1472. disk->operational = 0;
  1473. disk->write_only = 0;
  1474. disk->spare = 0;
  1475. disk->used_slot = 1;
  1476. disk->head_position = 0;
  1477. }
  1478. }
  1479. /*
  1480.  * find the first working one and use it as a starting point
  1481.  * to read balancing.
  1482.  */
  1483. for (j = 0; !conf->mirrors[j].operational && j < MD_SB_DISKS; j++)
  1484. /* nothing */;
  1485. conf->last_used = j;
  1486. if (conf->working_disks != sb->raid_disks) {
  1487. printk(KERN_ALERT "raid1: md%d, not all disks are operational -- trying to recover arrayn", mdidx(mddev));
  1488. start_recovery = 1;
  1489. }
  1490. {
  1491. const char * name = "raid1d";
  1492. conf->thread = md_register_thread(raid1d, conf, name);
  1493. if (!conf->thread) {
  1494. printk(THREAD_ERROR, mdidx(mddev));
  1495. goto out_free_conf;
  1496. }
  1497. }
  1498. if (!start_recovery && !(sb->state & (1 << MD_SB_CLEAN)) &&
  1499.     (conf->working_disks > 1)) {
  1500. const char * name = "raid1syncd";
  1501. conf->resync_thread = md_register_thread(raid1syncd, conf,name);
  1502. if (!conf->resync_thread) {
  1503. printk(THREAD_ERROR, mdidx(mddev));
  1504. goto out_free_conf;
  1505. }
  1506. printk(START_RESYNC, mdidx(mddev));
  1507. conf->resync_mirrors = 1;
  1508. md_wakeup_thread(conf->resync_thread);
  1509. }
  1510. /*
  1511.  * Regenerate the "device is in sync with the raid set" bit for
  1512.  * each device.
  1513.  */
  1514. for (i = 0; i < MD_SB_DISKS; i++) {
  1515. mark_disk_nonsync(sb->disks+i);
  1516. for (j = 0; j < sb->raid_disks; j++) {
  1517. if (!conf->mirrors[j].operational)
  1518. continue;
  1519. if (sb->disks[i].number == conf->mirrors[j].number)
  1520. mark_disk_sync(sb->disks+i);
  1521. }
  1522. }
  1523. sb->active_disks = conf->working_disks;
  1524. if (start_recovery)
  1525. md_recover_arrays();
  1526. printk(ARRAY_IS_ACTIVE, mdidx(mddev), sb->active_disks, sb->raid_disks);
  1527. /*
  1528.  * Ok, everything is just fine now
  1529.  */
  1530. return 0;
  1531. out_free_conf:
  1532. raid1_shrink_r1bh(conf);
  1533. raid1_shrink_bh(conf);
  1534. raid1_shrink_buffers(conf);
  1535. kfree(conf);
  1536. mddev->private = NULL;
  1537. out:
  1538. MOD_DEC_USE_COUNT;
  1539. return -EIO;
  1540. }
  1541. #undef INVALID_LEVEL
  1542. #undef NO_SB
  1543. #undef ERRORS
  1544. #undef NOT_IN_SYNC
  1545. #undef INCONSISTENT
  1546. #undef ALREADY_RUNNING
  1547. #undef OPERATIONAL
  1548. #undef SPARE
  1549. #undef NONE_OPERATIONAL
  1550. #undef ARRAY_IS_ACTIVE
  1551. static int raid1_stop_resync (mddev_t *mddev)
  1552. {
  1553. raid1_conf_t *conf = mddev_to_conf(mddev);
  1554. if (conf->resync_thread) {
  1555. if (conf->resync_mirrors) {
  1556. conf->resync_mirrors = 2;
  1557. md_interrupt_thread(conf->resync_thread);
  1558. printk(KERN_INFO "raid1: mirror resync was not fully finished, restarting next time.n");
  1559. return 1;
  1560. }
  1561. return 0;
  1562. }
  1563. return 0;
  1564. }
  1565. static int raid1_restart_resync (mddev_t *mddev)
  1566. {
  1567. raid1_conf_t *conf = mddev_to_conf(mddev);
  1568. if (conf->resync_mirrors) {
  1569. if (!conf->resync_thread) {
  1570. MD_BUG();
  1571. return 0;
  1572. }
  1573. conf->resync_mirrors = 1;
  1574. md_wakeup_thread(conf->resync_thread);
  1575. return 1;
  1576. }
  1577. return 0;
  1578. }
  1579. static int raid1_stop (mddev_t *mddev)
  1580. {
  1581. raid1_conf_t *conf = mddev_to_conf(mddev);
  1582. md_unregister_thread(conf->thread);
  1583. if (conf->resync_thread)
  1584. md_unregister_thread(conf->resync_thread);
  1585. raid1_shrink_r1bh(conf);
  1586. raid1_shrink_bh(conf);
  1587. raid1_shrink_buffers(conf);
  1588. kfree(conf);
  1589. mddev->private = NULL;
  1590. MOD_DEC_USE_COUNT;
  1591. return 0;
  1592. }
  1593. static mdk_personality_t raid1_personality=
  1594. {
  1595. name: "raid1",
  1596. make_request: raid1_make_request,
  1597. run: raid1_run,
  1598. stop: raid1_stop,
  1599. status: raid1_status,
  1600. error_handler: raid1_error,
  1601. diskop: raid1_diskop,
  1602. stop_resync: raid1_stop_resync,
  1603. restart_resync: raid1_restart_resync,
  1604. sync_request: raid1_sync_request
  1605. };
  1606. static int md__init raid1_init (void)
  1607. {
  1608. return register_md_personality (RAID1, &raid1_personality);
  1609. }
  1610. static void raid1_exit (void)
  1611. {
  1612. unregister_md_personality (RAID1);
  1613. }
  1614. module_init(raid1_init);
  1615. module_exit(raid1_exit);
  1616. MODULE_LICENSE("GPL");