raid1.c
上传用户:lgb322
上传日期:2013-02-24
资源大小:30529k
文件大小:45k
源码类别:

嵌入式Linux

开发平台:

Unix_Linux

  1. /*
  2.  * raid1.c : Multiple Devices driver for Linux
  3.  *
  4.  * Copyright (C) 1999, 2000 Ingo Molnar, Red Hat
  5.  *
  6.  * Copyright (C) 1996, 1997, 1998 Ingo Molnar, Miguel de Icaza, Gadi Oxman
  7.  *
  8.  * RAID-1 management functions.
  9.  *
  10.  * Better read-balancing code written by Mika Kuoppala <miku@iki.fi>, 2000
  11.  *
  12.  * Fixes to reconstruction by Jakob 豷tergaard" <jakob@ostenfeld.dk>
  13.  * Various fixes by Neil Brown <neilb@cse.unsw.edu.au>
  14.  *
  15.  * This program is free software; you can redistribute it and/or modify
  16.  * it under the terms of the GNU General Public License as published by
  17.  * the Free Software Foundation; either version 2, or (at your option)
  18.  * any later version.
  19.  *
  20.  * You should have received a copy of the GNU General Public License
  21.  * (for example /usr/src/linux/COPYING); if not, write to the Free
  22.  * Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  23.  */
  24. #include <linux/module.h>
  25. #include <linux/slab.h>
  26. #include <linux/raid/raid1.h>
  27. #include <asm/atomic.h>
  28. #define MAJOR_NR MD_MAJOR
  29. #define MD_DRIVER
  30. #define MD_PERSONALITY
  31. #define MAX_WORK_PER_DISK 128
  32. #define NR_RESERVED_BUFS 32
  33. /*
  34.  * The following can be used to debug the driver
  35.  */
  36. #define RAID1_DEBUG 0
  37. #if RAID1_DEBUG
  38. #define PRINTK(x...)   printk(x)
  39. #define inline
  40. #define __inline__
  41. #else
  42. #define PRINTK(x...)  do { } while (0)
  43. #endif
  44. static mdk_personality_t raid1_personality;
  45. static md_spinlock_t retry_list_lock = MD_SPIN_LOCK_UNLOCKED;
  46. struct raid1_bh *raid1_retry_list = NULL, **raid1_retry_tail;
  47. static struct buffer_head *raid1_alloc_bh(raid1_conf_t *conf, int cnt)
  48. {
  49. /* return a linked list of "cnt" struct buffer_heads.
  50.  * don't take any off the free list unless we know we can
  51.  * get all we need, otherwise we could deadlock
  52.  */
  53. struct buffer_head *bh=NULL;
  54. while(cnt) {
  55. struct buffer_head *t;
  56. md_spin_lock_irq(&conf->device_lock);
  57. if (!conf->freebh_blocked && conf->freebh_cnt >= cnt)
  58. while (cnt) {
  59. t = conf->freebh;
  60. conf->freebh = t->b_next;
  61. t->b_next = bh;
  62. bh = t;
  63. t->b_state = 0;
  64. conf->freebh_cnt--;
  65. cnt--;
  66. }
  67. md_spin_unlock_irq(&conf->device_lock);
  68. if (cnt == 0)
  69. break;
  70. t = kmem_cache_alloc(bh_cachep, SLAB_NOIO);
  71. if (t) {
  72. t->b_next = bh;
  73. bh = t;
  74. cnt--;
  75. } else {
  76. PRINTK("raid1: waiting for %d bhn", cnt);
  77. conf->freebh_blocked = 1;
  78. wait_disk_event(conf->wait_buffer,
  79. !conf->freebh_blocked ||
  80. conf->freebh_cnt > conf->raid_disks * NR_RESERVED_BUFS/2);
  81. conf->freebh_blocked = 0;
  82. }
  83. }
  84. return bh;
  85. }
  86. static inline void raid1_free_bh(raid1_conf_t *conf, struct buffer_head *bh)
  87. {
  88. unsigned long flags;
  89. spin_lock_irqsave(&conf->device_lock, flags);
  90. while (bh) {
  91. struct buffer_head *t = bh;
  92. bh=bh->b_next;
  93. if (t->b_pprev == NULL)
  94. kmem_cache_free(bh_cachep, t);
  95. else {
  96. t->b_next= conf->freebh;
  97. conf->freebh = t;
  98. conf->freebh_cnt++;
  99. }
  100. }
  101. spin_unlock_irqrestore(&conf->device_lock, flags);
  102. wake_up(&conf->wait_buffer);
  103. }
  104. static int raid1_grow_bh(raid1_conf_t *conf, int cnt)
  105. {
  106. /* allocate cnt buffer_heads, possibly less if kmalloc fails */
  107. int i = 0;
  108. while (i < cnt) {
  109. struct buffer_head *bh;
  110. bh = kmem_cache_alloc(bh_cachep, SLAB_KERNEL);
  111. if (!bh) break;
  112. md_spin_lock_irq(&conf->device_lock);
  113. bh->b_pprev = &conf->freebh;
  114. bh->b_next = conf->freebh;
  115. conf->freebh = bh;
  116. conf->freebh_cnt++;
  117. md_spin_unlock_irq(&conf->device_lock);
  118. i++;
  119. }
  120. return i;
  121. }
  122. static void raid1_shrink_bh(raid1_conf_t *conf)
  123. {
  124. /* discard all buffer_heads */
  125. md_spin_lock_irq(&conf->device_lock);
  126. while (conf->freebh) {
  127. struct buffer_head *bh = conf->freebh;
  128. conf->freebh = bh->b_next;
  129. kmem_cache_free(bh_cachep, bh);
  130. conf->freebh_cnt--;
  131. }
  132. md_spin_unlock_irq(&conf->device_lock);
  133. }
  134. static struct raid1_bh *raid1_alloc_r1bh(raid1_conf_t *conf)
  135. {
  136. struct raid1_bh *r1_bh = NULL;
  137. do {
  138. md_spin_lock_irq(&conf->device_lock);
  139. if (!conf->freer1_blocked && conf->freer1) {
  140. r1_bh = conf->freer1;
  141. conf->freer1 = r1_bh->next_r1;
  142. conf->freer1_cnt--;
  143. r1_bh->next_r1 = NULL;
  144. r1_bh->state = (1 << R1BH_PreAlloc);
  145. r1_bh->bh_req.b_state = 0;
  146. }
  147. md_spin_unlock_irq(&conf->device_lock);
  148. if (r1_bh)
  149. return r1_bh;
  150. r1_bh = (struct raid1_bh *) kmalloc(sizeof(struct raid1_bh), GFP_NOIO);
  151. if (r1_bh) {
  152. memset(r1_bh, 0, sizeof(*r1_bh));
  153. return r1_bh;
  154. }
  155. conf->freer1_blocked = 1;
  156. wait_disk_event(conf->wait_buffer,
  157. !conf->freer1_blocked ||
  158. conf->freer1_cnt > NR_RESERVED_BUFS/2
  159. );
  160. conf->freer1_blocked = 0;
  161. } while (1);
  162. }
  163. static inline void raid1_free_r1bh(struct raid1_bh *r1_bh)
  164. {
  165. struct buffer_head *bh = r1_bh->mirror_bh_list;
  166. raid1_conf_t *conf = mddev_to_conf(r1_bh->mddev);
  167. r1_bh->mirror_bh_list = NULL;
  168. if (test_bit(R1BH_PreAlloc, &r1_bh->state)) {
  169. unsigned long flags;
  170. spin_lock_irqsave(&conf->device_lock, flags);
  171. r1_bh->next_r1 = conf->freer1;
  172. conf->freer1 = r1_bh;
  173. conf->freer1_cnt++;
  174. spin_unlock_irqrestore(&conf->device_lock, flags);
  175. /* don't need to wakeup wait_buffer because
  176.  *  raid1_free_bh below will do that
  177.  */
  178. } else {
  179. kfree(r1_bh);
  180. }
  181. raid1_free_bh(conf, bh);
  182. }
  183. static int raid1_grow_r1bh (raid1_conf_t *conf, int cnt)
  184. {
  185. int i = 0;
  186. while (i < cnt) {
  187. struct raid1_bh *r1_bh;
  188. r1_bh = (struct raid1_bh*)kmalloc(sizeof(*r1_bh), GFP_KERNEL);
  189. if (!r1_bh)
  190. break;
  191. memset(r1_bh, 0, sizeof(*r1_bh));
  192. set_bit(R1BH_PreAlloc, &r1_bh->state);
  193. r1_bh->mddev = conf->mddev;
  194. raid1_free_r1bh(r1_bh);
  195. i++;
  196. }
  197. return i;
  198. }
  199. static void raid1_shrink_r1bh(raid1_conf_t *conf)
  200. {
  201. md_spin_lock_irq(&conf->device_lock);
  202. while (conf->freer1) {
  203. struct raid1_bh *r1_bh = conf->freer1;
  204. conf->freer1 = r1_bh->next_r1;
  205. conf->freer1_cnt--;
  206. kfree(r1_bh);
  207. }
  208. md_spin_unlock_irq(&conf->device_lock);
  209. }
  210. static inline void raid1_free_buf(struct raid1_bh *r1_bh)
  211. {
  212. unsigned long flags;
  213. struct buffer_head *bh = r1_bh->mirror_bh_list;
  214. raid1_conf_t *conf = mddev_to_conf(r1_bh->mddev);
  215. r1_bh->mirror_bh_list = NULL;
  216. spin_lock_irqsave(&conf->device_lock, flags);
  217. r1_bh->next_r1 = conf->freebuf;
  218. conf->freebuf = r1_bh;
  219. spin_unlock_irqrestore(&conf->device_lock, flags);
  220. raid1_free_bh(conf, bh);
  221. }
  222. static struct raid1_bh *raid1_alloc_buf(raid1_conf_t *conf)
  223. {
  224. struct raid1_bh *r1_bh;
  225. md_spin_lock_irq(&conf->device_lock);
  226. wait_event_lock_irq(conf->wait_buffer, conf->freebuf, conf->device_lock);
  227. r1_bh = conf->freebuf;
  228. conf->freebuf = r1_bh->next_r1;
  229. r1_bh->next_r1= NULL;
  230. md_spin_unlock_irq(&conf->device_lock);
  231. return r1_bh;
  232. }
  233. static int raid1_grow_buffers (raid1_conf_t *conf, int cnt)
  234. {
  235. int i = 0;
  236. md_spin_lock_irq(&conf->device_lock);
  237. while (i < cnt) {
  238. struct raid1_bh *r1_bh;
  239. struct page *page;
  240. page = alloc_page(GFP_KERNEL);
  241. if (!page)
  242. break;
  243. r1_bh = (struct raid1_bh *) kmalloc(sizeof(*r1_bh), GFP_KERNEL);
  244. if (!r1_bh) {
  245. __free_page(page);
  246. break;
  247. }
  248. memset(r1_bh, 0, sizeof(*r1_bh));
  249. r1_bh->bh_req.b_page = page;
  250. r1_bh->bh_req.b_data = page_address(page);
  251. r1_bh->next_r1 = conf->freebuf;
  252. conf->freebuf = r1_bh;
  253. i++;
  254. }
  255. md_spin_unlock_irq(&conf->device_lock);
  256. return i;
  257. }
  258. static void raid1_shrink_buffers (raid1_conf_t *conf)
  259. {
  260. md_spin_lock_irq(&conf->device_lock);
  261. while (conf->freebuf) {
  262. struct raid1_bh *r1_bh = conf->freebuf;
  263. conf->freebuf = r1_bh->next_r1;
  264. __free_page(r1_bh->bh_req.b_page);
  265. kfree(r1_bh);
  266. }
  267. md_spin_unlock_irq(&conf->device_lock);
  268. }
  269. static int raid1_map (mddev_t *mddev, kdev_t *rdev)
  270. {
  271. raid1_conf_t *conf = mddev_to_conf(mddev);
  272. int i, disks = MD_SB_DISKS;
  273. /*
  274.  * Later we do read balancing on the read side 
  275.  * now we use the first available disk.
  276.  */
  277. for (i = 0; i < disks; i++) {
  278. if (conf->mirrors[i].operational) {
  279. *rdev = conf->mirrors[i].dev;
  280. return (0);
  281. }
  282. }
  283. printk (KERN_ERR "raid1_map(): huh, no more operational devices?n");
  284. return (-1);
  285. }
  286. static void raid1_reschedule_retry (struct raid1_bh *r1_bh)
  287. {
  288. unsigned long flags;
  289. mddev_t *mddev = r1_bh->mddev;
  290. raid1_conf_t *conf = mddev_to_conf(mddev);
  291. md_spin_lock_irqsave(&retry_list_lock, flags);
  292. if (raid1_retry_list == NULL)
  293. raid1_retry_tail = &raid1_retry_list;
  294. *raid1_retry_tail = r1_bh;
  295. raid1_retry_tail = &r1_bh->next_r1;
  296. r1_bh->next_r1 = NULL;
  297. md_spin_unlock_irqrestore(&retry_list_lock, flags);
  298. md_wakeup_thread(conf->thread);
  299. }
  300. static void inline io_request_done(unsigned long sector, raid1_conf_t *conf, int phase)
  301. {
  302. unsigned long flags;
  303. spin_lock_irqsave(&conf->segment_lock, flags);
  304. if (sector < conf->start_active)
  305. conf->cnt_done--;
  306. else if (sector >= conf->start_future && conf->phase == phase)
  307. conf->cnt_future--;
  308. else if (!--conf->cnt_pending)
  309. wake_up(&conf->wait_ready);
  310. spin_unlock_irqrestore(&conf->segment_lock, flags);
  311. }
  312. static void inline sync_request_done (unsigned long sector, raid1_conf_t *conf)
  313. {
  314. unsigned long flags;
  315. spin_lock_irqsave(&conf->segment_lock, flags);
  316. if (sector >= conf->start_ready)
  317. --conf->cnt_ready;
  318. else if (sector >= conf->start_active) {
  319. if (!--conf->cnt_active) {
  320. conf->start_active = conf->start_ready;
  321. wake_up(&conf->wait_done);
  322. }
  323. }
  324. spin_unlock_irqrestore(&conf->segment_lock, flags);
  325. }
  326. /*
  327.  * raid1_end_bh_io() is called when we have finished servicing a mirrored
  328.  * operation and are ready to return a success/failure code to the buffer
  329.  * cache layer.
  330.  */
  331. static void raid1_end_bh_io (struct raid1_bh *r1_bh, int uptodate)
  332. {
  333. struct buffer_head *bh = r1_bh->master_bh;
  334. io_request_done(bh->b_rsector, mddev_to_conf(r1_bh->mddev),
  335. test_bit(R1BH_SyncPhase, &r1_bh->state));
  336. bh->b_end_io(bh, uptodate);
  337. raid1_free_r1bh(r1_bh);
  338. }
  339. void raid1_end_request (struct buffer_head *bh, int uptodate)
  340. {
  341. struct raid1_bh * r1_bh = (struct raid1_bh *)(bh->b_private);
  342. /*
  343.  * this branch is our 'one mirror IO has finished' event handler:
  344.  */
  345. if (!uptodate)
  346. md_error (r1_bh->mddev, bh->b_dev);
  347. else
  348. /*
  349.  * Set R1BH_Uptodate in our master buffer_head, so that
  350.  * we will return a good error code for to the higher
  351.  * levels even if IO on some other mirrored buffer fails.
  352.  *
  353.  * The 'master' represents the complex operation to 
  354.  * user-side. So if something waits for IO, then it will
  355.  * wait for the 'master' buffer_head.
  356.  */
  357. set_bit (R1BH_Uptodate, &r1_bh->state);
  358. /*
  359.  * We split up the read and write side, imho they are 
  360.  * conceptually different.
  361.  */
  362. if ( (r1_bh->cmd == READ) || (r1_bh->cmd == READA) ) {
  363. /*
  364.  * we have only one buffer_head on the read side
  365.  */
  366. if (uptodate) {
  367. raid1_end_bh_io(r1_bh, uptodate);
  368. return;
  369. }
  370. /*
  371.  * oops, read error:
  372.  */
  373. printk(KERN_ERR "raid1: %s: rescheduling block %lun", 
  374.  partition_name(bh->b_dev), bh->b_blocknr);
  375. raid1_reschedule_retry(r1_bh);
  376. return;
  377. }
  378. /*
  379.  * WRITE:
  380.  *
  381.  * Let's see if all mirrored write operations have finished 
  382.  * already.
  383.  */
  384. if (atomic_dec_and_test(&r1_bh->remaining))
  385. raid1_end_bh_io(r1_bh, test_bit(R1BH_Uptodate, &r1_bh->state));
  386. }
  387. /*
  388.  * This routine returns the disk from which the requested read should
  389.  * be done. It bookkeeps the last read position for every disk
  390.  * in array and when new read requests come, the disk which last
  391.  * position is nearest to the request, is chosen.
  392.  *
  393.  * TODO: now if there are 2 mirrors in the same 2 devices, performance
  394.  * degrades dramatically because position is mirror, not device based.
  395.  * This should be changed to be device based. Also atomic sequential
  396.  * reads should be somehow balanced.
  397.  */
  398. static int raid1_read_balance (raid1_conf_t *conf, struct buffer_head *bh)
  399. {
  400. int new_disk = conf->last_used;
  401. const int sectors = bh->b_size >> 9;
  402. const unsigned long this_sector = bh->b_rsector;
  403. int disk = new_disk;
  404. unsigned long new_distance;
  405. unsigned long current_distance;
  406. /*
  407.  * Check if it is sane at all to balance
  408.  */
  409. if (conf->resync_mirrors)
  410. goto rb_out;
  411. /* make sure that disk is operational */
  412. while( !conf->mirrors[new_disk].operational) {
  413. if (new_disk <= 0) new_disk = conf->raid_disks;
  414. new_disk--;
  415. if (new_disk == disk) {
  416. /*
  417.  * This means no working disk was found
  418.  * Nothing much to do, lets not change anything
  419.  * and hope for the best...
  420.  */
  421. new_disk = conf->last_used;
  422. goto rb_out;
  423. }
  424. }
  425. disk = new_disk;
  426. /* now disk == new_disk == starting point for search */
  427. /*
  428.  * Don't touch anything for sequential reads.
  429.  */
  430. if (this_sector == conf->mirrors[new_disk].head_position)
  431. goto rb_out;
  432. /*
  433.  * If reads have been done only on a single disk
  434.  * for a time, lets give another disk a change.
  435.  * This is for kicking those idling disks so that
  436.  * they would find work near some hotspot.
  437.  */
  438. if (conf->sect_count >= conf->mirrors[new_disk].sect_limit) {
  439. conf->sect_count = 0;
  440. do {
  441. if (new_disk<=0)
  442. new_disk = conf->raid_disks;
  443. new_disk--;
  444. if (new_disk == disk)
  445. break;
  446. } while ((conf->mirrors[new_disk].write_only) ||
  447.  (!conf->mirrors[new_disk].operational));
  448. goto rb_out;
  449. }
  450. current_distance = abs(this_sector -
  451. conf->mirrors[disk].head_position);
  452. /* Find the disk which is closest */
  453. do {
  454. if (disk <= 0)
  455. disk = conf->raid_disks;
  456. disk--;
  457. if ((conf->mirrors[disk].write_only) ||
  458. (!conf->mirrors[disk].operational))
  459. continue;
  460. new_distance = abs(this_sector -
  461. conf->mirrors[disk].head_position);
  462. if (new_distance < current_distance) {
  463. conf->sect_count = 0;
  464. current_distance = new_distance;
  465. new_disk = disk;
  466. }
  467. } while (disk != conf->last_used);
  468. rb_out:
  469. conf->mirrors[new_disk].head_position = this_sector + sectors;
  470. conf->last_used = new_disk;
  471. conf->sect_count += sectors;
  472. return new_disk;
  473. }
  474. static int raid1_make_request (mddev_t *mddev, int rw,
  475.        struct buffer_head * bh)
  476. {
  477. raid1_conf_t *conf = mddev_to_conf(mddev);
  478. struct buffer_head *bh_req, *bhl;
  479. struct raid1_bh * r1_bh;
  480. int disks = MD_SB_DISKS;
  481. int i, sum_bhs = 0;
  482. struct mirror_info *mirror;
  483. if (!buffer_locked(bh))
  484. BUG();
  485. /*
  486.  * make_request() can abort the operation when READA is being
  487.  * used and no empty request is available.
  488.  *
  489.  * Currently, just replace the command with READ/WRITE.
  490.  */
  491. if (rw == READA)
  492. rw = READ;
  493. r1_bh = raid1_alloc_r1bh (conf);
  494. spin_lock_irq(&conf->segment_lock);
  495. wait_event_lock_irq(conf->wait_done,
  496. bh->b_rsector < conf->start_active ||
  497. bh->b_rsector >= conf->start_future,
  498. conf->segment_lock);
  499. if (bh->b_rsector < conf->start_active) 
  500. conf->cnt_done++;
  501. else {
  502. conf->cnt_future++;
  503. if (conf->phase)
  504. set_bit(R1BH_SyncPhase, &r1_bh->state);
  505. }
  506. spin_unlock_irq(&conf->segment_lock);
  507. /*
  508.  * i think the read and write branch should be separated completely,
  509.  * since we want to do read balancing on the read side for example.
  510.  * Alternative implementations? :) --mingo
  511.  */
  512. r1_bh->master_bh = bh;
  513. r1_bh->mddev = mddev;
  514. r1_bh->cmd = rw;
  515. if (rw == READ) {
  516. /*
  517.  * read balancing logic:
  518.  */
  519. mirror = conf->mirrors + raid1_read_balance(conf, bh);
  520. bh_req = &r1_bh->bh_req;
  521. memcpy(bh_req, bh, sizeof(*bh));
  522. bh_req->b_blocknr = bh->b_rsector;
  523. bh_req->b_dev = mirror->dev;
  524. bh_req->b_rdev = mirror->dev;
  525. /* bh_req->b_rsector = bh->n_rsector; */
  526. bh_req->b_end_io = raid1_end_request;
  527. bh_req->b_private = r1_bh;
  528. generic_make_request (rw, bh_req);
  529. return 0;
  530. }
  531. /*
  532.  * WRITE:
  533.  */
  534. bhl = raid1_alloc_bh(conf, conf->raid_disks);
  535. for (i = 0; i < disks; i++) {
  536. struct buffer_head *mbh;
  537. if (!conf->mirrors[i].operational) 
  538. continue;
  539.  
  540. /*
  541.  * We should use a private pool (size depending on NR_REQUEST),
  542.  * to avoid writes filling up the memory with bhs
  543.  *
  544.    * Such pools are much faster than kmalloc anyways (so we waste
  545.    * almost nothing by not using the master bh when writing and
  546.    * win alot of cleanness) but for now we are cool enough. --mingo
  547.    *
  548.  * It's safe to sleep here, buffer heads cannot be used in a shared
  549.    * manner in the write branch. Look how we lock the buffer at the
  550.    * beginning of this function to grok the difference ;)
  551.  */
  552.   mbh = bhl;
  553. if (mbh == NULL) {
  554. MD_BUG();
  555. break;
  556. }
  557. bhl = mbh->b_next;
  558. mbh->b_next = NULL;
  559. mbh->b_this_page = (struct buffer_head *)1;
  560.   /*
  561.    * prepare mirrored mbh (fields ordered for max mem throughput):
  562.    */
  563. mbh->b_blocknr    = bh->b_rsector;
  564. mbh->b_dev        = conf->mirrors[i].dev;
  565. mbh->b_rdev   = conf->mirrors[i].dev;
  566. mbh->b_rsector   = bh->b_rsector;
  567. mbh->b_state      = (1<<BH_Req) | (1<<BH_Dirty) |
  568. (1<<BH_Mapped) | (1<<BH_Lock);
  569. atomic_set(&mbh->b_count, 1);
  570.   mbh->b_size       = bh->b_size;
  571.   mbh->b_page   = bh->b_page;
  572.   mbh->b_data   = bh->b_data;
  573.   mbh->b_list       = BUF_LOCKED;
  574.   mbh->b_end_io     = raid1_end_request;
  575.   mbh->b_private    = r1_bh;
  576. mbh->b_next = r1_bh->mirror_bh_list;
  577. r1_bh->mirror_bh_list = mbh;
  578. sum_bhs++;
  579. }
  580. if (bhl) raid1_free_bh(conf,bhl);
  581. if (!sum_bhs) {
  582. /* Gag - all mirrors non-operational.. */
  583. raid1_end_bh_io(r1_bh, 0);
  584. return 0;
  585. }
  586. md_atomic_set(&r1_bh->remaining, sum_bhs);
  587. /*
  588.  * We have to be a bit careful about the semaphore above, thats
  589.  * why we start the requests separately. Since kmalloc() could
  590.  * fail, sleep and make_request() can sleep too, this is the
  591.  * safer solution. Imagine, end_request decreasing the semaphore
  592.  * before we could have set it up ... We could play tricks with
  593.  * the semaphore (presetting it and correcting at the end if
  594.  * sum_bhs is not 'n' but we have to do end_request by hand if
  595.  * all requests finish until we had a chance to set up the
  596.  * semaphore correctly ... lots of races).
  597.  */
  598. bh = r1_bh->mirror_bh_list;
  599. while(bh) {
  600. struct buffer_head *bh2 = bh;
  601. bh = bh->b_next;
  602. generic_make_request(rw, bh2);
  603. }
  604. return (0);
  605. }
  606. static int raid1_status (char *page, mddev_t *mddev)
  607. {
  608. raid1_conf_t *conf = mddev_to_conf(mddev);
  609. int sz = 0, i;
  610. sz += sprintf (page+sz, " [%d/%d] [", conf->raid_disks,
  611.  conf->working_disks);
  612. for (i = 0; i < conf->raid_disks; i++)
  613. sz += sprintf (page+sz, "%s",
  614. conf->mirrors[i].operational ? "U" : "_");
  615. sz += sprintf (page+sz, "]");
  616. return sz;
  617. }
  618. #define LAST_DISK KERN_ALERT 
  619. "raid1: only one disk left and IO error.n"
  620. #define NO_SPARE_DISK KERN_ALERT 
  621. "raid1: no spare disk left, degrading mirror level by one.n"
  622. #define DISK_FAILED KERN_ALERT 
  623. "raid1: Disk failure on %s, disabling device. n" 
  624. " Operation continuing on %d devicesn"
  625. #define START_SYNCING KERN_ALERT 
  626. "raid1: start syncing spare disk.n"
  627. #define ALREADY_SYNCING KERN_INFO 
  628. "raid1: syncing already in progress.n"
  629. static void mark_disk_bad (mddev_t *mddev, int failed)
  630. {
  631. raid1_conf_t *conf = mddev_to_conf(mddev);
  632. struct mirror_info *mirror = conf->mirrors+failed;
  633. mdp_super_t *sb = mddev->sb;
  634. mirror->operational = 0;
  635. mark_disk_faulty(sb->disks+mirror->number);
  636. mark_disk_nonsync(sb->disks+mirror->number);
  637. mark_disk_inactive(sb->disks+mirror->number);
  638. if (!mirror->write_only)
  639. sb->active_disks--;
  640. sb->working_disks--;
  641. sb->failed_disks++;
  642. mddev->sb_dirty = 1;
  643. md_wakeup_thread(conf->thread);
  644. if (!mirror->write_only)
  645. conf->working_disks--;
  646. printk (DISK_FAILED, partition_name (mirror->dev),
  647.  conf->working_disks);
  648. }
  649. static int raid1_error (mddev_t *mddev, kdev_t dev)
  650. {
  651. raid1_conf_t *conf = mddev_to_conf(mddev);
  652. struct mirror_info * mirrors = conf->mirrors;
  653. int disks = MD_SB_DISKS;
  654. int i;
  655. /* Find the drive.
  656.  * If it is not operational, then we have already marked it as dead
  657.  * else if it is the last working disks, ignore the error, let the
  658.  * next level up know.
  659.  * else mark the drive as failed
  660.  */
  661. for (i = 0; i < disks; i++)
  662. if (mirrors[i].dev==dev && mirrors[i].operational)
  663. break;
  664. if (i == disks)
  665. return 0;
  666. if (i < conf->raid_disks && conf->working_disks == 1) {
  667. /* Don't fail the drive, act as though we were just a
  668.  * normal single drive
  669.  */
  670. return 1;
  671. }
  672. mark_disk_bad(mddev, i);
  673. return 0;
  674. }
  675. #undef LAST_DISK
  676. #undef NO_SPARE_DISK
  677. #undef DISK_FAILED
  678. #undef START_SYNCING
  679. static void print_raid1_conf (raid1_conf_t *conf)
  680. {
  681. int i;
  682. struct mirror_info *tmp;
  683. printk("RAID1 conf printout:n");
  684. if (!conf) {
  685. printk("(conf==NULL)n");
  686. return;
  687. }
  688. printk(" --- wd:%d rd:%d nd:%dn", conf->working_disks,
  689.  conf->raid_disks, conf->nr_disks);
  690. for (i = 0; i < MD_SB_DISKS; i++) {
  691. tmp = conf->mirrors + i;
  692. printk(" disk %d, s:%d, o:%d, n:%d rd:%d us:%d dev:%sn",
  693. i, tmp->spare,tmp->operational,
  694. tmp->number,tmp->raid_disk,tmp->used_slot,
  695. partition_name(tmp->dev));
  696. }
  697. }
  698. static void close_sync(raid1_conf_t *conf)
  699. {
  700. mddev_t *mddev = conf->mddev;
  701. /* If reconstruction was interrupted, we need to close the "active" and "pending"
  702.  * holes.
  703.  * we know that there are no active rebuild requests, os cnt_active == cnt_ready ==0
  704.  */
  705. /* this is really needed when recovery stops too... */
  706. spin_lock_irq(&conf->segment_lock);
  707. conf->start_active = conf->start_pending;
  708. conf->start_ready = conf->start_pending;
  709. wait_event_lock_irq(conf->wait_ready, !conf->cnt_pending, conf->segment_lock);
  710. conf->start_active =conf->start_ready = conf->start_pending = conf->start_future;
  711. conf->start_future = mddev->sb->size+1;
  712. conf->cnt_pending = conf->cnt_future;
  713. conf->cnt_future = 0;
  714. conf->phase = conf->phase ^1;
  715. wait_event_lock_irq(conf->wait_ready, !conf->cnt_pending, conf->segment_lock);
  716. conf->start_active = conf->start_ready = conf->start_pending = conf->start_future = 0;
  717. conf->phase = 0;
  718. conf->cnt_future = conf->cnt_done;;
  719. conf->cnt_done = 0;
  720. spin_unlock_irq(&conf->segment_lock);
  721. wake_up(&conf->wait_done);
  722. }
  723. static int raid1_diskop(mddev_t *mddev, mdp_disk_t **d, int state)
  724. {
  725. int err = 0;
  726. int i, failed_disk=-1, spare_disk=-1, removed_disk=-1, added_disk=-1;
  727. raid1_conf_t *conf = mddev->private;
  728. struct mirror_info *tmp, *sdisk, *fdisk, *rdisk, *adisk;
  729. mdp_super_t *sb = mddev->sb;
  730. mdp_disk_t *failed_desc, *spare_desc, *added_desc;
  731. mdk_rdev_t *spare_rdev, *failed_rdev;
  732. print_raid1_conf(conf);
  733. md_spin_lock_irq(&conf->device_lock);
  734. /*
  735.  * find the disk ...
  736.  */
  737. switch (state) {
  738. case DISKOP_SPARE_ACTIVE:
  739. /*
  740.  * Find the failed disk within the RAID1 configuration ...
  741.  * (this can only be in the first conf->working_disks part)
  742.  */
  743. for (i = 0; i < conf->raid_disks; i++) {
  744. tmp = conf->mirrors + i;
  745. if ((!tmp->operational && !tmp->spare) ||
  746. !tmp->used_slot) {
  747. failed_disk = i;
  748. break;
  749. }
  750. }
  751. /*
  752.  * When we activate a spare disk we _must_ have a disk in
  753.  * the lower (active) part of the array to replace. 
  754.  */
  755. if ((failed_disk == -1) || (failed_disk >= conf->raid_disks)) {
  756. MD_BUG();
  757. err = 1;
  758. goto abort;
  759. }
  760. /* fall through */
  761. case DISKOP_SPARE_WRITE:
  762. case DISKOP_SPARE_INACTIVE:
  763. /*
  764.  * Find the spare disk ... (can only be in the 'high'
  765.  * area of the array)
  766.  */
  767. for (i = conf->raid_disks; i < MD_SB_DISKS; i++) {
  768. tmp = conf->mirrors + i;
  769. if (tmp->spare && tmp->number == (*d)->number) {
  770. spare_disk = i;
  771. break;
  772. }
  773. }
  774. if (spare_disk == -1) {
  775. MD_BUG();
  776. err = 1;
  777. goto abort;
  778. }
  779. break;
  780. case DISKOP_HOT_REMOVE_DISK:
  781. for (i = 0; i < MD_SB_DISKS; i++) {
  782. tmp = conf->mirrors + i;
  783. if (tmp->used_slot && (tmp->number == (*d)->number)) {
  784. if (tmp->operational) {
  785. err = -EBUSY;
  786. goto abort;
  787. }
  788. removed_disk = i;
  789. break;
  790. }
  791. }
  792. if (removed_disk == -1) {
  793. MD_BUG();
  794. err = 1;
  795. goto abort;
  796. }
  797. break;
  798. case DISKOP_HOT_ADD_DISK:
  799. for (i = conf->raid_disks; i < MD_SB_DISKS; i++) {
  800. tmp = conf->mirrors + i;
  801. if (!tmp->used_slot) {
  802. added_disk = i;
  803. break;
  804. }
  805. }
  806. if (added_disk == -1) {
  807. MD_BUG();
  808. err = 1;
  809. goto abort;
  810. }
  811. break;
  812. }
  813. switch (state) {
  814. /*
  815.  * Switch the spare disk to write-only mode:
  816.  */
  817. case DISKOP_SPARE_WRITE:
  818. sdisk = conf->mirrors + spare_disk;
  819. sdisk->operational = 1;
  820. sdisk->write_only = 1;
  821. break;
  822. /*
  823.  * Deactivate a spare disk:
  824.  */
  825. case DISKOP_SPARE_INACTIVE:
  826. close_sync(conf);
  827. sdisk = conf->mirrors + spare_disk;
  828. sdisk->operational = 0;
  829. sdisk->write_only = 0;
  830. break;
  831. /*
  832.  * Activate (mark read-write) the (now sync) spare disk,
  833.  * which means we switch it's 'raid position' (->raid_disk)
  834.  * with the failed disk. (only the first 'conf->nr_disks'
  835.  * slots are used for 'real' disks and we must preserve this
  836.  * property)
  837.  */
  838. case DISKOP_SPARE_ACTIVE:
  839. close_sync(conf);
  840. sdisk = conf->mirrors + spare_disk;
  841. fdisk = conf->mirrors + failed_disk;
  842. spare_desc = &sb->disks[sdisk->number];
  843. failed_desc = &sb->disks[fdisk->number];
  844. if (spare_desc != *d) {
  845. MD_BUG();
  846. err = 1;
  847. goto abort;
  848. }
  849. if (spare_desc->raid_disk != sdisk->raid_disk) {
  850. MD_BUG();
  851. err = 1;
  852. goto abort;
  853. }
  854. if (sdisk->raid_disk != spare_disk) {
  855. MD_BUG();
  856. err = 1;
  857. goto abort;
  858. }
  859. if (failed_desc->raid_disk != fdisk->raid_disk) {
  860. MD_BUG();
  861. err = 1;
  862. goto abort;
  863. }
  864. if (fdisk->raid_disk != failed_disk) {
  865. MD_BUG();
  866. err = 1;
  867. goto abort;
  868. }
  869. /*
  870.  * do the switch finally
  871.  */
  872. spare_rdev = find_rdev_nr(mddev, spare_desc->number);
  873. failed_rdev = find_rdev_nr(mddev, failed_desc->number);
  874. /* There must be a spare_rdev, but there may not be a
  875.  * failed_rdev.  That slot might be empty...
  876.  */
  877. spare_rdev->desc_nr = failed_desc->number;
  878. if (failed_rdev)
  879. failed_rdev->desc_nr = spare_desc->number;
  880. xchg_values(*spare_desc, *failed_desc);
  881. xchg_values(*fdisk, *sdisk);
  882. /*
  883.  * (careful, 'failed' and 'spare' are switched from now on)
  884.  *
  885.  * we want to preserve linear numbering and we want to
  886.  * give the proper raid_disk number to the now activated
  887.  * disk. (this means we switch back these values)
  888.  */
  889. xchg_values(spare_desc->raid_disk, failed_desc->raid_disk);
  890. xchg_values(sdisk->raid_disk, fdisk->raid_disk);
  891. xchg_values(spare_desc->number, failed_desc->number);
  892. xchg_values(sdisk->number, fdisk->number);
  893. *d = failed_desc;
  894. if (sdisk->dev == MKDEV(0,0))
  895. sdisk->used_slot = 0;
  896. /*
  897.  * this really activates the spare.
  898.  */
  899. fdisk->spare = 0;
  900. fdisk->write_only = 0;
  901. /*
  902.  * if we activate a spare, we definitely replace a
  903.  * non-operational disk slot in the 'low' area of
  904.  * the disk array.
  905.  */
  906. conf->working_disks++;
  907. break;
  908. case DISKOP_HOT_REMOVE_DISK:
  909. rdisk = conf->mirrors + removed_disk;
  910. if (rdisk->spare && (removed_disk < conf->raid_disks)) {
  911. MD_BUG();
  912. err = 1;
  913. goto abort;
  914. }
  915. rdisk->dev = MKDEV(0,0);
  916. rdisk->used_slot = 0;
  917. conf->nr_disks--;
  918. break;
  919. case DISKOP_HOT_ADD_DISK:
  920. adisk = conf->mirrors + added_disk;
  921. added_desc = *d;
  922. if (added_disk != added_desc->number) {
  923. MD_BUG();
  924. err = 1;
  925. goto abort;
  926. }
  927. adisk->number = added_desc->number;
  928. adisk->raid_disk = added_desc->raid_disk;
  929. adisk->dev = MKDEV(added_desc->major,added_desc->minor);
  930. adisk->operational = 0;
  931. adisk->write_only = 0;
  932. adisk->spare = 1;
  933. adisk->used_slot = 1;
  934. adisk->head_position = 0;
  935. conf->nr_disks++;
  936. break;
  937. default:
  938. MD_BUG();
  939. err = 1;
  940. goto abort;
  941. }
  942. abort:
  943. md_spin_unlock_irq(&conf->device_lock);
  944. if (state == DISKOP_SPARE_ACTIVE || state == DISKOP_SPARE_INACTIVE)
  945. /* should move to "END_REBUILD" when such exists */
  946. raid1_shrink_buffers(conf);
  947. print_raid1_conf(conf);
  948. return err;
  949. }
  950. #define IO_ERROR KERN_ALERT 
  951. "raid1: %s: unrecoverable I/O read error for block %lun"
  952. #define REDIRECT_SECTOR KERN_ERR 
  953. "raid1: %s: redirecting sector %lu to another mirrorn"
  954. /*
  955.  * This is a kernel thread which:
  956.  *
  957.  * 1. Retries failed read operations on working mirrors.
  958.  * 2. Updates the raid superblock when problems encounter.
  959.  * 3. Performs writes following reads for array syncronising.
  960.  */
  961. static void end_sync_write(struct buffer_head *bh, int uptodate);
  962. static void end_sync_read(struct buffer_head *bh, int uptodate);
  963. static void raid1d (void *data)
  964. {
  965. struct raid1_bh *r1_bh;
  966. struct buffer_head *bh;
  967. unsigned long flags;
  968. mddev_t *mddev;
  969. kdev_t dev;
  970. for (;;) {
  971. md_spin_lock_irqsave(&retry_list_lock, flags);
  972. r1_bh = raid1_retry_list;
  973. if (!r1_bh)
  974. break;
  975. raid1_retry_list = r1_bh->next_r1;
  976. md_spin_unlock_irqrestore(&retry_list_lock, flags);
  977. mddev = r1_bh->mddev;
  978. if (mddev->sb_dirty)
  979. md_update_sb(mddev);
  980. bh = &r1_bh->bh_req;
  981. switch(r1_bh->cmd) {
  982. case SPECIAL:
  983. /* have to allocate lots of bh structures and
  984.  * schedule writes
  985.  */
  986. if (test_bit(R1BH_Uptodate, &r1_bh->state)) {
  987. int i, sum_bhs = 0;
  988. int disks = MD_SB_DISKS;
  989. struct buffer_head *bhl, *mbh;
  990. raid1_conf_t *conf;
  991. conf = mddev_to_conf(mddev);
  992. bhl = raid1_alloc_bh(conf, conf->raid_disks); /* don't really need this many */
  993. for (i = 0; i < disks ; i++) {
  994. if (!conf->mirrors[i].operational)
  995. continue;
  996. if (i==conf->last_used)
  997. /* we read from here, no need to write */
  998. continue;
  999. if (i < conf->raid_disks
  1000.     && !conf->resync_mirrors)
  1001. /* don't need to write this,
  1002.  * we are just rebuilding */
  1003. continue;
  1004. mbh = bhl;
  1005. if (!mbh) {
  1006. MD_BUG();
  1007. break;
  1008. }
  1009. bhl = mbh->b_next;
  1010. mbh->b_this_page = (struct buffer_head *)1;
  1011. /*
  1012.  * prepare mirrored bh (fields ordered for max mem throughput):
  1013.  */
  1014. mbh->b_blocknr    = bh->b_blocknr;
  1015. mbh->b_dev        = conf->mirrors[i].dev;
  1016. mbh->b_rdev   = conf->mirrors[i].dev;
  1017. mbh->b_rsector   = bh->b_blocknr;
  1018. mbh->b_state      = (1<<BH_Req) | (1<<BH_Dirty) |
  1019. (1<<BH_Mapped) | (1<<BH_Lock);
  1020. atomic_set(&mbh->b_count, 1);
  1021. mbh->b_size       = bh->b_size;
  1022. mbh->b_page   = bh->b_page;
  1023. mbh->b_data   = bh->b_data;
  1024. mbh->b_list       = BUF_LOCKED;
  1025. mbh->b_end_io     = end_sync_write;
  1026. mbh->b_private    = r1_bh;
  1027. mbh->b_next = r1_bh->mirror_bh_list;
  1028. r1_bh->mirror_bh_list = mbh;
  1029. sum_bhs++;
  1030. }
  1031. md_atomic_set(&r1_bh->remaining, sum_bhs);
  1032. if (bhl) raid1_free_bh(conf, bhl);
  1033. mbh = r1_bh->mirror_bh_list;
  1034. if (!sum_bhs) {
  1035. /* nowhere to write this too... I guess we
  1036.  * must be done
  1037.  */
  1038. sync_request_done(bh->b_blocknr, conf);
  1039. md_done_sync(mddev, bh->b_size>>9, 0);
  1040. raid1_free_buf(r1_bh);
  1041. } else
  1042. while (mbh) {
  1043. struct buffer_head *bh1 = mbh;
  1044. mbh = mbh->b_next;
  1045. generic_make_request(WRITE, bh1);
  1046. md_sync_acct(bh1->b_dev, bh1->b_size/512);
  1047. }
  1048. } else {
  1049. /* There is no point trying a read-for-reconstruct
  1050.  * as reconstruct is about to be aborted
  1051.  */
  1052. printk (IO_ERROR, partition_name(bh->b_dev), bh->b_blocknr);
  1053. md_done_sync(mddev, bh->b_size>>9, 0);
  1054. }
  1055. break;
  1056. case READ:
  1057. case READA:
  1058. dev = bh->b_dev;
  1059. raid1_map (mddev, &bh->b_dev);
  1060. if (bh->b_dev == dev) {
  1061. printk (IO_ERROR, partition_name(bh->b_dev), bh->b_blocknr);
  1062. raid1_end_bh_io(r1_bh, 0);
  1063. } else {
  1064. printk (REDIRECT_SECTOR,
  1065. partition_name(bh->b_dev), bh->b_blocknr);
  1066. bh->b_rdev = bh->b_dev;
  1067. bh->b_rsector = bh->b_blocknr;
  1068. generic_make_request (r1_bh->cmd, bh);
  1069. }
  1070. break;
  1071. }
  1072. }
  1073. md_spin_unlock_irqrestore(&retry_list_lock, flags);
  1074. }
  1075. #undef IO_ERROR
  1076. #undef REDIRECT_SECTOR
  1077. /*
  1078.  * Private kernel thread to reconstruct mirrors after an unclean
  1079.  * shutdown.
  1080.  */
  1081. static void raid1syncd (void *data)
  1082. {
  1083. raid1_conf_t *conf = data;
  1084. mddev_t *mddev = conf->mddev;
  1085. if (!conf->resync_mirrors)
  1086. return;
  1087. if (conf->resync_mirrors == 2)
  1088. return;
  1089. down(&mddev->recovery_sem);
  1090. if (!md_do_sync(mddev, NULL)) {
  1091. /*
  1092.  * Only if everything went Ok.
  1093.  */
  1094. conf->resync_mirrors = 0;
  1095. }
  1096. close_sync(conf);
  1097. up(&mddev->recovery_sem);
  1098. raid1_shrink_buffers(conf);
  1099. }
  1100. /*
  1101.  * perform a "sync" on one "block"
  1102.  *
  1103.  * We need to make sure that no normal I/O request - particularly write
  1104.  * requests - conflict with active sync requests.
  1105.  * This is achieved by conceptually dividing the device space into a
  1106.  * number of sections:
  1107.  *  DONE: 0 .. a-1     These blocks are in-sync
  1108.  *  ACTIVE: a.. b-1    These blocks may have active sync requests, but
  1109.  *                     no normal IO requests
  1110.  *  READY: b .. c-1    These blocks have no normal IO requests - sync
  1111.  *                     request may be happening
  1112.  *  PENDING: c .. d-1  These blocks may have IO requests, but no new
  1113.  *                     ones will be added
  1114.  *  FUTURE:  d .. end  These blocks are not to be considered yet. IO may
  1115.  *                     be happening, but not sync
  1116.  *
  1117.  * We keep a
  1118.  *   phase    which flips (0 or 1) each time d moves and
  1119.  * a count of:
  1120.  *   z =  active io requests in FUTURE since d moved - marked with
  1121.  *        current phase
  1122.  *   y =  active io requests in FUTURE before d moved, or PENDING -
  1123.  *        marked with previous phase
  1124.  *   x =  active sync requests in READY
  1125.  *   w =  active sync requests in ACTIVE
  1126.  *   v =  active io requests in DONE
  1127.  *
  1128.  * Normally, a=b=c=d=0 and z= active io requests
  1129.  *   or a=b=c=d=END and v= active io requests
  1130.  * Allowed changes to a,b,c,d:
  1131.  * A:  c==d &&  y==0 -> d+=window, y=z, z=0, phase=!phase
  1132.  * B:  y==0 -> c=d
  1133.  * C:   b=c, w+=x, x=0
  1134.  * D:  w==0 -> a=b
  1135.  * E: a==b==c==d==end -> a=b=c=d=0, z=v, v=0
  1136.  *
  1137.  * At start of sync we apply A.
  1138.  * When y reaches 0, we apply B then A then being sync requests
  1139.  * When sync point reaches c-1, we wait for y==0, and W==0, and
  1140.  * then apply apply B then A then D then C.
  1141.  * Finally, we apply E
  1142.  *
  1143.  * The sync request simply issues a "read" against a working drive
  1144.  * This is marked so that on completion the raid1d thread is woken to
  1145.  * issue suitable write requests
  1146.  */
  1147. static int raid1_sync_request (mddev_t *mddev, unsigned long sector_nr)
  1148. {
  1149. raid1_conf_t *conf = mddev_to_conf(mddev);
  1150. struct mirror_info *mirror;
  1151. struct raid1_bh *r1_bh;
  1152. struct buffer_head *bh;
  1153. int bsize;
  1154. int disk;
  1155. int block_nr;
  1156. spin_lock_irq(&conf->segment_lock);
  1157. if (!sector_nr) {
  1158. /* initialize ...*/
  1159. int buffs;
  1160. conf->start_active = 0;
  1161. conf->start_ready = 0;
  1162. conf->start_pending = 0;
  1163. conf->start_future = 0;
  1164. conf->phase = 0;
  1165. /* we want enough buffers to hold twice the window of 128*/
  1166. buffs = 128 *2 / (PAGE_SIZE>>9);
  1167. buffs = raid1_grow_buffers(conf, buffs);
  1168. if (buffs < 2)
  1169. goto nomem;
  1170. conf->window = buffs*(PAGE_SIZE>>9)/2;
  1171. conf->cnt_future += conf->cnt_done+conf->cnt_pending;
  1172. conf->cnt_done = conf->cnt_pending = 0;
  1173. if (conf->cnt_ready || conf->cnt_active)
  1174. MD_BUG();
  1175. }
  1176. while (sector_nr >= conf->start_pending) {
  1177. PRINTK("wait .. sect=%lu start_active=%d ready=%d pending=%d future=%d, cnt_done=%d active=%d ready=%d pending=%d future=%dn",
  1178. sector_nr, conf->start_active, conf->start_ready, conf->start_pending, conf->start_future,
  1179. conf->cnt_done, conf->cnt_active, conf->cnt_ready, conf->cnt_pending, conf->cnt_future);
  1180. wait_event_lock_irq(conf->wait_done,
  1181. !conf->cnt_active,
  1182. conf->segment_lock);
  1183. wait_event_lock_irq(conf->wait_ready,
  1184. !conf->cnt_pending,
  1185. conf->segment_lock);
  1186. conf->start_active = conf->start_ready;
  1187. conf->start_ready = conf->start_pending;
  1188. conf->start_pending = conf->start_future;
  1189. conf->start_future = conf->start_future+conf->window;
  1190. // Note: falling off the end is not a problem
  1191. conf->phase = conf->phase ^1;
  1192. conf->cnt_active = conf->cnt_ready;
  1193. conf->cnt_ready = 0;
  1194. conf->cnt_pending = conf->cnt_future;
  1195. conf->cnt_future = 0;
  1196. wake_up(&conf->wait_done);
  1197. }
  1198. conf->cnt_ready++;
  1199. spin_unlock_irq(&conf->segment_lock);
  1200. /* If reconstructing, and >1 working disc,
  1201.  * could dedicate one to rebuild and others to
  1202.  * service read requests ..
  1203.  */
  1204. disk = conf->last_used;
  1205. /* make sure disk is operational */
  1206. while (!conf->mirrors[disk].operational) {
  1207. if (disk <= 0) disk = conf->raid_disks;
  1208. disk--;
  1209. if (disk == conf->last_used)
  1210. break;
  1211. }
  1212. conf->last_used = disk;
  1213. mirror = conf->mirrors+conf->last_used;
  1214. r1_bh = raid1_alloc_buf (conf);
  1215. r1_bh->master_bh = NULL;
  1216. r1_bh->mddev = mddev;
  1217. r1_bh->cmd = SPECIAL;
  1218. bh = &r1_bh->bh_req;
  1219. block_nr = sector_nr;
  1220. bsize = 512;
  1221. while (!(block_nr & 1) && bsize < PAGE_SIZE
  1222. && (block_nr+2)*(bsize>>9) < (mddev->sb->size *2)) {
  1223. block_nr >>= 1;
  1224. bsize <<= 1;
  1225. }
  1226. bh->b_size = bsize;
  1227. bh->b_list = BUF_LOCKED;
  1228. bh->b_dev = mirror->dev;
  1229. bh->b_rdev = mirror->dev;
  1230. bh->b_state = (1<<BH_Req) | (1<<BH_Mapped) | (1<<BH_Lock);
  1231. if (!bh->b_page)
  1232. BUG();
  1233. if (!bh->b_data)
  1234. BUG();
  1235. if (bh->b_data != page_address(bh->b_page))
  1236. BUG();
  1237. bh->b_end_io = end_sync_read;
  1238. bh->b_private = r1_bh;
  1239. bh->b_blocknr = sector_nr;
  1240. bh->b_rsector = sector_nr;
  1241. init_waitqueue_head(&bh->b_wait);
  1242. generic_make_request(READ, bh);
  1243. md_sync_acct(bh->b_dev, bh->b_size/512);
  1244. return (bsize >> 9);
  1245. nomem:
  1246. raid1_shrink_buffers(conf);
  1247. spin_unlock_irq(&conf->segment_lock);
  1248. return -ENOMEM;
  1249. }
  1250. static void end_sync_read(struct buffer_head *bh, int uptodate)
  1251. {
  1252. struct raid1_bh * r1_bh = (struct raid1_bh *)(bh->b_private);
  1253. /* we have read a block, now it needs to be re-written,
  1254.  * or re-read if the read failed.
  1255.  * We don't do much here, just schedule handling by raid1d
  1256.  */
  1257. if (!uptodate)
  1258. md_error (r1_bh->mddev, bh->b_dev);
  1259. else
  1260. set_bit(R1BH_Uptodate, &r1_bh->state);
  1261. raid1_reschedule_retry(r1_bh);
  1262. }
  1263. static void end_sync_write(struct buffer_head *bh, int uptodate)
  1264. {
  1265.   struct raid1_bh * r1_bh = (struct raid1_bh *)(bh->b_private);
  1266. if (!uptodate)
  1267.   md_error (r1_bh->mddev, bh->b_dev);
  1268. if (atomic_dec_and_test(&r1_bh->remaining)) {
  1269. mddev_t *mddev = r1_bh->mddev;
  1270.   unsigned long sect = bh->b_blocknr;
  1271. int size = bh->b_size;
  1272. raid1_free_buf(r1_bh);
  1273. sync_request_done(sect, mddev_to_conf(mddev));
  1274. md_done_sync(mddev,size>>9, uptodate);
  1275. }
  1276. }
  1277. #define INVALID_LEVEL KERN_WARNING 
  1278. "raid1: md%d: raid level not set to mirroring (%d)n"
  1279. #define NO_SB KERN_ERR 
  1280. "raid1: disabled mirror %s (couldn't access raid superblock)n"
  1281. #define ERRORS KERN_ERR 
  1282. "raid1: disabled mirror %s (errors detected)n"
  1283. #define NOT_IN_SYNC KERN_ERR 
  1284. "raid1: disabled mirror %s (not in sync)n"
  1285. #define INCONSISTENT KERN_ERR 
  1286. "raid1: disabled mirror %s (inconsistent descriptor)n"
  1287. #define ALREADY_RUNNING KERN_ERR 
  1288. "raid1: disabled mirror %s (mirror %d already operational)n"
  1289. #define OPERATIONAL KERN_INFO 
  1290. "raid1: device %s operational as mirror %dn"
  1291. #define MEM_ERROR KERN_ERR 
  1292. "raid1: couldn't allocate memory for md%dn"
  1293. #define SPARE KERN_INFO 
  1294. "raid1: spare disk %sn"
  1295. #define NONE_OPERATIONAL KERN_ERR 
  1296. "raid1: no operational mirrors for md%dn"
  1297. #define ARRAY_IS_ACTIVE KERN_INFO 
  1298. "raid1: raid set md%d active with %d out of %d mirrorsn"
  1299. #define THREAD_ERROR KERN_ERR 
  1300. "raid1: couldn't allocate thread for md%dn"
  1301. #define START_RESYNC KERN_WARNING 
  1302. "raid1: raid set md%d not clean; reconstructing mirrorsn"
  1303. static int raid1_run (mddev_t *mddev)
  1304. {
  1305. raid1_conf_t *conf;
  1306. int i, j, disk_idx;
  1307. struct mirror_info *disk;
  1308. mdp_super_t *sb = mddev->sb;
  1309. mdp_disk_t *descriptor;
  1310. mdk_rdev_t *rdev;
  1311. struct md_list_head *tmp;
  1312. int start_recovery = 0;
  1313. MOD_INC_USE_COUNT;
  1314. if (sb->level != 1) {
  1315. printk(INVALID_LEVEL, mdidx(mddev), sb->level);
  1316. goto out;
  1317. }
  1318. /*
  1319.  * copy the already verified devices into our private RAID1
  1320.  * bookkeeping area. [whatever we allocate in raid1_run(),
  1321.  * should be freed in raid1_stop()]
  1322.  */
  1323. conf = kmalloc(sizeof(raid1_conf_t), GFP_KERNEL);
  1324. mddev->private = conf;
  1325. if (!conf) {
  1326. printk(MEM_ERROR, mdidx(mddev));
  1327. goto out;
  1328. }
  1329. memset(conf, 0, sizeof(*conf));
  1330. ITERATE_RDEV(mddev,rdev,tmp) {
  1331. if (rdev->faulty) {
  1332. printk(ERRORS, partition_name(rdev->dev));
  1333. } else {
  1334. if (!rdev->sb) {
  1335. MD_BUG();
  1336. continue;
  1337. }
  1338. }
  1339. if (rdev->desc_nr == -1) {
  1340. MD_BUG();
  1341. continue;
  1342. }
  1343. descriptor = &sb->disks[rdev->desc_nr];
  1344. disk_idx = descriptor->raid_disk;
  1345. disk = conf->mirrors + disk_idx;
  1346. if (disk_faulty(descriptor)) {
  1347. disk->number = descriptor->number;
  1348. disk->raid_disk = disk_idx;
  1349. disk->dev = rdev->dev;
  1350. disk->sect_limit = MAX_WORK_PER_DISK;
  1351. disk->operational = 0;
  1352. disk->write_only = 0;
  1353. disk->spare = 0;
  1354. disk->used_slot = 1;
  1355. disk->head_position = 0;
  1356. continue;
  1357. }
  1358. if (disk_active(descriptor)) {
  1359. if (!disk_sync(descriptor)) {
  1360. printk(NOT_IN_SYNC,
  1361. partition_name(rdev->dev));
  1362. continue;
  1363. }
  1364. if ((descriptor->number > MD_SB_DISKS) ||
  1365.  (disk_idx > sb->raid_disks)) {
  1366. printk(INCONSISTENT,
  1367. partition_name(rdev->dev));
  1368. continue;
  1369. }
  1370. if (disk->operational) {
  1371. printk(ALREADY_RUNNING,
  1372. partition_name(rdev->dev),
  1373. disk_idx);
  1374. continue;
  1375. }
  1376. printk(OPERATIONAL, partition_name(rdev->dev),
  1377.   disk_idx);
  1378. disk->number = descriptor->number;
  1379. disk->raid_disk = disk_idx;
  1380. disk->dev = rdev->dev;
  1381. disk->sect_limit = MAX_WORK_PER_DISK;
  1382. disk->operational = 1;
  1383. disk->write_only = 0;
  1384. disk->spare = 0;
  1385. disk->used_slot = 1;
  1386. disk->head_position = 0;
  1387. conf->working_disks++;
  1388. } else {
  1389. /*
  1390.  * Must be a spare disk ..
  1391.  */
  1392. printk(SPARE, partition_name(rdev->dev));
  1393. disk->number = descriptor->number;
  1394. disk->raid_disk = disk_idx;
  1395. disk->dev = rdev->dev;
  1396. disk->sect_limit = MAX_WORK_PER_DISK;
  1397. disk->operational = 0;
  1398. disk->write_only = 0;
  1399. disk->spare = 1;
  1400. disk->used_slot = 1;
  1401. disk->head_position = 0;
  1402. }
  1403. }
  1404. conf->raid_disks = sb->raid_disks;
  1405. conf->nr_disks = sb->nr_disks;
  1406. conf->mddev = mddev;
  1407. conf->device_lock = MD_SPIN_LOCK_UNLOCKED;
  1408. conf->segment_lock = MD_SPIN_LOCK_UNLOCKED;
  1409. init_waitqueue_head(&conf->wait_buffer);
  1410. init_waitqueue_head(&conf->wait_done);
  1411. init_waitqueue_head(&conf->wait_ready);
  1412. if (!conf->working_disks) {
  1413. printk(NONE_OPERATIONAL, mdidx(mddev));
  1414. goto out_free_conf;
  1415. }
  1416. /* pre-allocate some buffer_head structures.
  1417.  * As a minimum, 1 r1bh and raid_disks buffer_heads
  1418.  * would probably get us by in tight memory situations,
  1419.  * but a few more is probably a good idea.
  1420.  * For now, try NR_RESERVED_BUFS r1bh and
  1421.  * NR_RESERVED_BUFS*raid_disks bufferheads
  1422.  * This will allow at least NR_RESERVED_BUFS concurrent
  1423.  * reads or writes even if kmalloc starts failing
  1424.  */
  1425. if (raid1_grow_r1bh(conf, NR_RESERVED_BUFS) < NR_RESERVED_BUFS ||
  1426.     raid1_grow_bh(conf, NR_RESERVED_BUFS*conf->raid_disks)
  1427.                       < NR_RESERVED_BUFS*conf->raid_disks) {
  1428. printk(MEM_ERROR, mdidx(mddev));
  1429. goto out_free_conf;
  1430. }
  1431. for (i = 0; i < MD_SB_DISKS; i++) {
  1432. descriptor = sb->disks+i;
  1433. disk_idx = descriptor->raid_disk;
  1434. disk = conf->mirrors + disk_idx;
  1435. if (disk_faulty(descriptor) && (disk_idx < conf->raid_disks) &&
  1436. !disk->used_slot) {
  1437. disk->number = descriptor->number;
  1438. disk->raid_disk = disk_idx;
  1439. disk->dev = MKDEV(0,0);
  1440. disk->operational = 0;
  1441. disk->write_only = 0;
  1442. disk->spare = 0;
  1443. disk->used_slot = 1;
  1444. disk->head_position = 0;
  1445. }
  1446. }
  1447. /*
  1448.  * find the first working one and use it as a starting point
  1449.  * to read balancing.
  1450.  */
  1451. for (j = 0; !conf->mirrors[j].operational && j < MD_SB_DISKS; j++)
  1452. /* nothing */;
  1453. conf->last_used = j;
  1454. if (conf->working_disks != sb->raid_disks) {
  1455. printk(KERN_ALERT "raid1: md%d, not all disks are operational -- trying to recover arrayn", mdidx(mddev));
  1456. start_recovery = 1;
  1457. }
  1458. {
  1459. const char * name = "raid1d";
  1460. conf->thread = md_register_thread(raid1d, conf, name);
  1461. if (!conf->thread) {
  1462. printk(THREAD_ERROR, mdidx(mddev));
  1463. goto out_free_conf;
  1464. }
  1465. }
  1466. if (!start_recovery && !(sb->state & (1 << MD_SB_CLEAN)) &&
  1467.     (conf->working_disks > 1)) {
  1468. const char * name = "raid1syncd";
  1469. conf->resync_thread = md_register_thread(raid1syncd, conf,name);
  1470. if (!conf->resync_thread) {
  1471. printk(THREAD_ERROR, mdidx(mddev));
  1472. goto out_free_conf;
  1473. }
  1474. printk(START_RESYNC, mdidx(mddev));
  1475. conf->resync_mirrors = 1;
  1476. md_wakeup_thread(conf->resync_thread);
  1477. }
  1478. /*
  1479.  * Regenerate the "device is in sync with the raid set" bit for
  1480.  * each device.
  1481.  */
  1482. for (i = 0; i < MD_SB_DISKS; i++) {
  1483. mark_disk_nonsync(sb->disks+i);
  1484. for (j = 0; j < sb->raid_disks; j++) {
  1485. if (!conf->mirrors[j].operational)
  1486. continue;
  1487. if (sb->disks[i].number == conf->mirrors[j].number)
  1488. mark_disk_sync(sb->disks+i);
  1489. }
  1490. }
  1491. sb->active_disks = conf->working_disks;
  1492. if (start_recovery)
  1493. md_recover_arrays();
  1494. printk(ARRAY_IS_ACTIVE, mdidx(mddev), sb->active_disks, sb->raid_disks);
  1495. /*
  1496.  * Ok, everything is just fine now
  1497.  */
  1498. return 0;
  1499. out_free_conf:
  1500. raid1_shrink_r1bh(conf);
  1501. raid1_shrink_bh(conf);
  1502. raid1_shrink_buffers(conf);
  1503. kfree(conf);
  1504. mddev->private = NULL;
  1505. out:
  1506. MOD_DEC_USE_COUNT;
  1507. return -EIO;
  1508. }
  1509. #undef INVALID_LEVEL
  1510. #undef NO_SB
  1511. #undef ERRORS
  1512. #undef NOT_IN_SYNC
  1513. #undef INCONSISTENT
  1514. #undef ALREADY_RUNNING
  1515. #undef OPERATIONAL
  1516. #undef SPARE
  1517. #undef NONE_OPERATIONAL
  1518. #undef ARRAY_IS_ACTIVE
  1519. static int raid1_stop_resync (mddev_t *mddev)
  1520. {
  1521. raid1_conf_t *conf = mddev_to_conf(mddev);
  1522. if (conf->resync_thread) {
  1523. if (conf->resync_mirrors) {
  1524. conf->resync_mirrors = 2;
  1525. md_interrupt_thread(conf->resync_thread);
  1526. printk(KERN_INFO "raid1: mirror resync was not fully finished, restarting next time.n");
  1527. return 1;
  1528. }
  1529. return 0;
  1530. }
  1531. return 0;
  1532. }
  1533. static int raid1_restart_resync (mddev_t *mddev)
  1534. {
  1535. raid1_conf_t *conf = mddev_to_conf(mddev);
  1536. if (conf->resync_mirrors) {
  1537. if (!conf->resync_thread) {
  1538. MD_BUG();
  1539. return 0;
  1540. }
  1541. conf->resync_mirrors = 1;
  1542. md_wakeup_thread(conf->resync_thread);
  1543. return 1;
  1544. }
  1545. return 0;
  1546. }
  1547. static int raid1_stop (mddev_t *mddev)
  1548. {
  1549. raid1_conf_t *conf = mddev_to_conf(mddev);
  1550. md_unregister_thread(conf->thread);
  1551. if (conf->resync_thread)
  1552. md_unregister_thread(conf->resync_thread);
  1553. raid1_shrink_r1bh(conf);
  1554. raid1_shrink_bh(conf);
  1555. raid1_shrink_buffers(conf);
  1556. kfree(conf);
  1557. mddev->private = NULL;
  1558. MOD_DEC_USE_COUNT;
  1559. return 0;
  1560. }
  1561. static mdk_personality_t raid1_personality=
  1562. {
  1563. name: "raid1",
  1564. make_request: raid1_make_request,
  1565. run: raid1_run,
  1566. stop: raid1_stop,
  1567. status: raid1_status,
  1568. error_handler: raid1_error,
  1569. diskop: raid1_diskop,
  1570. stop_resync: raid1_stop_resync,
  1571. restart_resync: raid1_restart_resync,
  1572. sync_request: raid1_sync_request
  1573. };
  1574. static int md__init raid1_init (void)
  1575. {
  1576. return register_md_personality (RAID1, &raid1_personality);
  1577. }
  1578. static void raid1_exit (void)
  1579. {
  1580. unregister_md_personality (RAID1);
  1581. }
  1582. module_init(raid1_init);
  1583. module_exit(raid1_exit);
  1584. MODULE_LICENSE("GPL");