xprt.c
上传用户:lgb322
上传日期:2013-02-24
资源大小:30529k
文件大小:38k
源码类别:

嵌入式Linux

开发平台:

Unix_Linux

  1. /*
  2.  *  linux/net/sunrpc/xprt.c
  3.  *
  4.  *  This is a generic RPC call interface supporting congestion avoidance,
  5.  *  and asynchronous calls.
  6.  *
  7.  *  The interface works like this:
  8.  *
  9.  *  - When a process places a call, it allocates a request slot if
  10.  * one is available. Otherwise, it sleeps on the backlog queue
  11.  * (xprt_reserve).
  12.  *  - Next, the caller puts together the RPC message, stuffs it into
  13.  * the request struct, and calls xprt_call().
  14.  *  - xprt_call transmits the message and installs the caller on the
  15.  * socket's wait list. At the same time, it installs a timer that
  16.  * is run after the packet's timeout has expired.
  17.  *  - When a packet arrives, the data_ready handler walks the list of
  18.  * pending requests for that socket. If a matching XID is found, the
  19.  * caller is woken up, and the timer removed.
  20.  *  - When no reply arrives within the timeout interval, the timer is
  21.  * fired by the kernel and runs xprt_timer(). It either adjusts the
  22.  * timeout values (minor timeout) or wakes up the caller with a status
  23.  * of -ETIMEDOUT.
  24.  *  - When the caller receives a notification from RPC that a reply arrived,
  25.  * it should release the RPC slot, and process the reply.
  26.  * If the call timed out, it may choose to retry the operation by
  27.  * adjusting the initial timeout value, and simply calling rpc_call
  28.  * again.
  29.  *
  30.  *  Support for async RPC is done through a set of RPC-specific scheduling
  31.  *  primitives that `transparently' work for processes as well as async
  32.  *  tasks that rely on callbacks.
  33.  *
  34.  *  Copyright (C) 1995-1997, Olaf Kirch <okir@monad.swb.de>
  35.  *
  36.  *  TCP callback races fixes (C) 1998 Red Hat Software <alan@redhat.com>
  37.  *  TCP send fixes (C) 1998 Red Hat Software <alan@redhat.com>
  38.  *  TCP NFS related read + write fixes
  39.  *   (C) 1999 Dave Airlie, University of Limerick, Ireland <airlied@linux.ie>
  40.  *
  41.  *  Rewrite of larges part of the code in order to stabilize TCP stuff.
  42.  *  Fix behaviour when socket buffer is full.
  43.  *   (C) 1999 Trond Myklebust <trond.myklebust@fys.uio.no>
  44.  */
  45. #define __KERNEL_SYSCALLS__
  46. #include <linux/version.h>
  47. #include <linux/types.h>
  48. #include <linux/slab.h>
  49. #include <linux/capability.h>
  50. #include <linux/sched.h>
  51. #include <linux/errno.h>
  52. #include <linux/socket.h>
  53. #include <linux/in.h>
  54. #include <linux/net.h>
  55. #include <linux/mm.h>
  56. #include <linux/udp.h>
  57. #include <linux/unistd.h>
  58. #include <linux/sunrpc/clnt.h>
  59. #include <linux/file.h>
  60. #include <net/sock.h>
  61. #include <net/checksum.h>
  62. #include <net/udp.h>
  63. #include <asm/uaccess.h>
  64. /* Following value should be > 32k + RPC overhead */
  65. #define XPRT_MIN_WRITE_SPACE (35000 + SOCK_MIN_WRITE_SPACE)
  66. extern spinlock_t rpc_queue_lock;
  67. /*
  68.  * Local variables
  69.  */
  70. #ifdef RPC_DEBUG
  71. # undef  RPC_DEBUG_DATA
  72. # define RPCDBG_FACILITY RPCDBG_XPRT
  73. #endif
  74. /*
  75.  * Local functions
  76.  */
  77. static void xprt_request_init(struct rpc_task *, struct rpc_xprt *);
  78. static void do_xprt_transmit(struct rpc_task *);
  79. static void xprt_reserve_status(struct rpc_task *task);
  80. static void xprt_disconnect(struct rpc_xprt *);
  81. static void xprt_reconn_status(struct rpc_task *task);
  82. static struct socket *xprt_create_socket(int, struct rpc_timeout *);
  83. static int xprt_bind_socket(struct rpc_xprt *, struct socket *);
  84. static void xprt_remove_pending(struct rpc_xprt *);
  85. #ifdef RPC_DEBUG_DATA
  86. /*
  87.  * Print the buffer contents (first 128 bytes only--just enough for
  88.  * diropres return).
  89.  */
  90. static void
  91. xprt_pktdump(char *msg, u32 *packet, unsigned int count)
  92. {
  93. u8 *buf = (u8 *) packet;
  94. int j;
  95. dprintk("RPC:      %sn", msg);
  96. for (j = 0; j < count && j < 128; j += 4) {
  97. if (!(j & 31)) {
  98. if (j)
  99. dprintk("n");
  100. dprintk("0x%04x ", j);
  101. }
  102. dprintk("%02x%02x%02x%02x ",
  103. buf[j], buf[j+1], buf[j+2], buf[j+3]);
  104. }
  105. dprintk("n");
  106. }
  107. #else
  108. static inline void
  109. xprt_pktdump(char *msg, u32 *packet, unsigned int count)
  110. {
  111. /* NOP */
  112. }
  113. #endif
  114. /*
  115.  * Look up RPC transport given an INET socket
  116.  */
  117. static inline struct rpc_xprt *
  118. xprt_from_sock(struct sock *sk)
  119. {
  120. return (struct rpc_xprt *) sk->user_data;
  121. }
  122. /*
  123.  * Adjust the iovec to move on 'n' bytes
  124.  */
  125.  
  126. extern inline void
  127. xprt_move_iov(struct msghdr *msg, struct iovec *niv, unsigned amount)
  128. {
  129. struct iovec *iv=msg->msg_iov;
  130. int i;
  131. /*
  132.  * Eat any sent iovecs
  133.  */
  134. while (iv->iov_len <= amount) {
  135. amount -= iv->iov_len;
  136. iv++;
  137. msg->msg_iovlen--;
  138. }
  139. /*
  140.  * And chew down the partial one
  141.  */
  142. niv[0].iov_len = iv->iov_len-amount;
  143. niv[0].iov_base =((unsigned char *)iv->iov_base)+amount;
  144. iv++;
  145. /*
  146.  * And copy any others
  147.  */
  148. for(i = 1; i < msg->msg_iovlen; i++)
  149. niv[i]=*iv++;
  150. msg->msg_iov=niv;
  151. }
  152. /*
  153.  * Serialize write access to sockets, in order to prevent different
  154.  * requests from interfering with each other.
  155.  * Also prevents TCP socket reconnections from colliding with writes.
  156.  */
  157. static int
  158. xprt_lock_write(struct rpc_xprt *xprt, struct rpc_task *task)
  159. {
  160. int retval;
  161. spin_lock_bh(&xprt->sock_lock);
  162. if (!xprt->snd_task)
  163. xprt->snd_task = task;
  164. else if (xprt->snd_task != task) {
  165. dprintk("RPC: %4d TCP write queue full (task %d)n",
  166. task->tk_pid, xprt->snd_task->tk_pid);
  167. task->tk_timeout = 0;
  168. task->tk_status = -EAGAIN;
  169. rpc_sleep_on(&xprt->sending, task, NULL, NULL);
  170. }
  171. retval = xprt->snd_task == task;
  172. spin_unlock_bh(&xprt->sock_lock);
  173. return retval;
  174. }
  175. /*
  176.  * Releases the socket for use by other requests.
  177.  */
  178. static void
  179. xprt_release_write(struct rpc_xprt *xprt, struct rpc_task *task)
  180. {
  181. spin_lock_bh(&xprt->sock_lock);
  182. if (xprt->snd_task == task) {
  183. xprt->snd_task = NULL;
  184. rpc_wake_up_next(&xprt->sending);
  185. }
  186. spin_unlock_bh(&xprt->sock_lock);
  187. }
  188. /*
  189.  * Write data to socket.
  190.  */
  191. static inline int
  192. xprt_sendmsg(struct rpc_xprt *xprt, struct rpc_rqst *req)
  193. {
  194. struct socket *sock = xprt->sock;
  195. struct msghdr msg;
  196. mm_segment_t oldfs;
  197. int result;
  198. int slen = req->rq_slen - req->rq_bytes_sent;
  199. struct iovec niv[MAX_IOVEC];
  200. if (slen <= 0)
  201. return 0;
  202. if (!sock)
  203. return -ENOTCONN;
  204. xprt_pktdump("packet data:",
  205. req->rq_svec->iov_base,
  206. req->rq_svec->iov_len);
  207. msg.msg_flags   = MSG_DONTWAIT|MSG_NOSIGNAL;
  208. msg.msg_iov = req->rq_svec;
  209. msg.msg_iovlen = req->rq_snr;
  210. msg.msg_name = (struct sockaddr *) &xprt->addr;
  211. msg.msg_namelen = sizeof(xprt->addr);
  212. msg.msg_control = NULL;
  213. msg.msg_controllen = 0;
  214. /* Dont repeat bytes */
  215. if (req->rq_bytes_sent)
  216. xprt_move_iov(&msg, niv, req->rq_bytes_sent);
  217. oldfs = get_fs(); set_fs(get_ds());
  218. result = sock_sendmsg(sock, &msg, slen);
  219. set_fs(oldfs);
  220. dprintk("RPC:      xprt_sendmsg(%d) = %dn", slen, result);
  221. if (result >= 0)
  222. return result;
  223. switch (result) {
  224. case -ECONNREFUSED:
  225. /* When the server has died, an ICMP port unreachable message
  226.  * prompts ECONNREFUSED.
  227.  */
  228. break;
  229. case -EAGAIN:
  230. if (test_bit(SOCK_NOSPACE, &sock->flags))
  231. result = -ENOMEM;
  232. break;
  233. case -ENOTCONN:
  234. case -EPIPE:
  235. /* connection broken */
  236. if (xprt->stream)
  237. result = -ENOTCONN;
  238. break;
  239. default:
  240. printk(KERN_NOTICE "RPC: sendmsg returned error %dn", -result);
  241. }
  242. return result;
  243. }
  244. /*
  245.  * Read data from socket
  246.  */
  247. static int
  248. xprt_recvmsg(struct rpc_xprt *xprt, struct iovec *iov, int nr, unsigned len, unsigned shift)
  249. {
  250. struct socket *sock = xprt->sock;
  251. struct msghdr msg;
  252. mm_segment_t oldfs;
  253. struct iovec niv[MAX_IOVEC];
  254. int result;
  255. if (!sock)
  256. return -ENOTCONN;
  257. msg.msg_flags   = MSG_DONTWAIT|MSG_NOSIGNAL;
  258. msg.msg_iov = iov;
  259. msg.msg_iovlen = nr;
  260. msg.msg_name = NULL;
  261. msg.msg_namelen = 0;
  262. msg.msg_control = NULL;
  263. msg.msg_controllen = 0;
  264. /* Adjust the iovec if we've already filled it */
  265. if (shift)
  266. xprt_move_iov(&msg, niv, shift);
  267. oldfs = get_fs(); set_fs(get_ds());
  268. result = sock_recvmsg(sock, &msg, len, MSG_DONTWAIT);
  269. set_fs(oldfs);
  270. dprintk("RPC:      xprt_recvmsg(iov %p, len %d) = %dn",
  271. iov, len, result);
  272. return result;
  273. }
  274. /*
  275.  * Adjust RPC congestion window
  276.  * We use a time-smoothed congestion estimator to avoid heavy oscillation.
  277.  */
  278. static void
  279. xprt_adjust_cwnd(struct rpc_xprt *xprt, int result)
  280. {
  281. unsigned long cwnd;
  282. if (xprt->nocong)
  283. return;
  284. /*
  285.  * Note: we're in a BH context
  286.  */
  287. spin_lock(&xprt->xprt_lock);
  288. cwnd = xprt->cwnd;
  289. if (result >= 0) {
  290. if (xprt->cong < cwnd || time_before(jiffies, xprt->congtime))
  291. goto out;
  292. /* The (cwnd >> 1) term makes sure
  293.  * the result gets rounded properly. */
  294. cwnd += (RPC_CWNDSCALE * RPC_CWNDSCALE + (cwnd >> 1)) / cwnd;
  295. if (cwnd > RPC_MAXCWND)
  296. cwnd = RPC_MAXCWND;
  297. else
  298. pprintk("RPC: %lu %ld cwndn", jiffies, cwnd);
  299. xprt->congtime = jiffies + ((cwnd * HZ) << 2) / RPC_CWNDSCALE;
  300. dprintk("RPC:      cong %08lx, cwnd was %08lx, now %08lx, "
  301. "time %ld msn", xprt->cong, xprt->cwnd, cwnd,
  302. (xprt->congtime-jiffies)*1000/HZ);
  303. } else if (result == -ETIMEDOUT) {
  304. if ((cwnd >>= 1) < RPC_CWNDSCALE)
  305. cwnd = RPC_CWNDSCALE;
  306. xprt->congtime = jiffies + ((cwnd * HZ) << 3) / RPC_CWNDSCALE;
  307. dprintk("RPC:      cong %ld, cwnd was %ld, now %ld, "
  308. "time %ld msn", xprt->cong, xprt->cwnd, cwnd,
  309. (xprt->congtime-jiffies)*1000/HZ);
  310. pprintk("RPC: %lu %ld cwndn", jiffies, cwnd);
  311. }
  312. xprt->cwnd = cwnd;
  313.  out:
  314. spin_unlock(&xprt->xprt_lock);
  315. }
  316. /*
  317.  * Adjust timeout values etc for next retransmit
  318.  */
  319. int
  320. xprt_adjust_timeout(struct rpc_timeout *to)
  321. {
  322. if (to->to_retries > 0) {
  323. if (to->to_exponential)
  324. to->to_current <<= 1;
  325. else
  326. to->to_current += to->to_increment;
  327. if (to->to_maxval && to->to_current >= to->to_maxval)
  328. to->to_current = to->to_maxval;
  329. } else {
  330. if (to->to_exponential)
  331. to->to_initval <<= 1;
  332. else
  333. to->to_initval += to->to_increment;
  334. if (to->to_maxval && to->to_initval >= to->to_maxval)
  335. to->to_initval = to->to_maxval;
  336. to->to_current = to->to_initval;
  337. }
  338. if (!to->to_current) {
  339. printk(KERN_WARNING "xprt_adjust_timeout: to_current = 0!n");
  340. to->to_current = 5 * HZ;
  341. }
  342. pprintk("RPC: %lu %sn", jiffies,
  343. to->to_retries? "retrans" : "timeout");
  344. return to->to_retries-- > 0;
  345. }
  346. /*
  347.  * Close down a transport socket
  348.  */
  349. static void
  350. xprt_close(struct rpc_xprt *xprt)
  351. {
  352. struct socket *sock = xprt->sock;
  353. struct sock *sk = xprt->inet;
  354. if (!sk)
  355. return;
  356. xprt->inet = NULL;
  357. xprt->sock = NULL;
  358. sk->user_data    = NULL;
  359. sk->data_ready   = xprt->old_data_ready;
  360. sk->state_change = xprt->old_state_change;
  361. sk->write_space  = xprt->old_write_space;
  362. xprt_disconnect(xprt);
  363. sk->no_check  = 0;
  364. sock_release(sock);
  365. /*
  366.  * TCP doesnt require the rpciod now - other things may
  367.  * but rpciod handles that not us.
  368.  */
  369. if(xprt->stream)
  370. rpciod_down();
  371. }
  372. /*
  373.  * Mark a transport as disconnected
  374.  */
  375. static void
  376. xprt_disconnect(struct rpc_xprt *xprt)
  377. {
  378. dprintk("RPC:      disconnected transport %pn", xprt);
  379. xprt_clear_connected(xprt);
  380. xprt_remove_pending(xprt);
  381. rpc_wake_up_status(&xprt->pending, -ENOTCONN);
  382. }
  383. /*
  384.  * Reconnect a broken TCP connection.
  385.  *
  386.  * Note: This cannot collide with the TCP reads, as both run from rpciod
  387.  */
  388. void
  389. xprt_reconnect(struct rpc_task *task)
  390. {
  391. struct rpc_xprt *xprt = task->tk_xprt;
  392. struct socket *sock = xprt->sock;
  393. struct sock *inet = xprt->inet;
  394. int status;
  395. dprintk("RPC: %4d xprt_reconnect %p connected %dn",
  396. task->tk_pid, xprt, xprt_connected(xprt));
  397. if (xprt->shutdown)
  398. return;
  399. if (!xprt->stream)
  400. return;
  401. if (!xprt->addr.sin_port) {
  402. task->tk_status = -EIO;
  403. return;
  404. }
  405. if (!xprt_lock_write(xprt, task))
  406. return;
  407. if (xprt_connected(xprt))
  408. goto out_write;
  409. status = -ENOTCONN;
  410. if (!inet) {
  411. /* Create an unconnected socket */
  412. if (!(sock = xprt_create_socket(xprt->prot, &xprt->timeout)))
  413. goto defer;
  414. xprt_bind_socket(xprt, sock);
  415. inet = sock->sk;
  416. }
  417. xprt_disconnect(xprt);
  418. /* Reset TCP record info */
  419. xprt->tcp_offset = 0;
  420. xprt->tcp_reclen = 0;
  421. xprt->tcp_copied = 0;
  422. xprt->tcp_more = 0;
  423. /* Now connect it asynchronously. */
  424. dprintk("RPC: %4d connecting new socketn", task->tk_pid);
  425. status = sock->ops->connect(sock, (struct sockaddr *) &xprt->addr,
  426. sizeof(xprt->addr), O_NONBLOCK);
  427. if (status < 0) {
  428. switch (status) {
  429. case -EALREADY:
  430. case -EINPROGRESS:
  431. status = 0;
  432. break;
  433. case -EISCONN:
  434. case -EPIPE:
  435. status = 0;
  436. xprt_close(xprt);
  437. goto defer;
  438. default:
  439. printk("RPC: TCP connect error %d!n", -status);
  440. xprt_close(xprt);
  441. goto defer;
  442. }
  443. dprintk("RPC: %4d connect status %d connected %dn",
  444. task->tk_pid, status, xprt_connected(xprt));
  445. spin_lock_bh(&xprt->sock_lock);
  446. if (!xprt_connected(xprt)) {
  447. task->tk_timeout = xprt->timeout.to_maxval;
  448. rpc_sleep_on(&xprt->sending, task, xprt_reconn_status, NULL);
  449. spin_unlock_bh(&xprt->sock_lock);
  450. return;
  451. }
  452. spin_unlock_bh(&xprt->sock_lock);
  453. }
  454. defer:
  455. if (status < 0) {
  456. rpc_delay(task, 5*HZ);
  457. task->tk_status = -ENOTCONN;
  458. }
  459.  out_write:
  460. xprt_release_write(xprt, task);
  461. }
  462. /*
  463.  * Reconnect timeout. We just mark the transport as not being in the
  464.  * process of reconnecting, and leave the rest to the upper layers.
  465.  */
  466. static void
  467. xprt_reconn_status(struct rpc_task *task)
  468. {
  469. struct rpc_xprt *xprt = task->tk_xprt;
  470. dprintk("RPC: %4d xprt_reconn_timeout %dn",
  471. task->tk_pid, task->tk_status);
  472. xprt_release_write(xprt, task);
  473. }
  474. /*
  475.  * Look up the RPC request corresponding to a reply, and then lock it.
  476.  */
  477. static inline struct rpc_rqst *
  478. xprt_lookup_rqst(struct rpc_xprt *xprt, u32 xid)
  479. {
  480. struct rpc_task *head, *task;
  481. struct rpc_rqst *req;
  482. int safe = 0;
  483. spin_lock_bh(&rpc_queue_lock);
  484. if ((head = xprt->pending.task) != NULL) {
  485. task = head;
  486. do {
  487. if ((req = task->tk_rqstp) && req->rq_xid == xid)
  488. goto out;
  489. task = task->tk_next;
  490. if (++safe > 100) {
  491. printk("xprt_lookup_rqst: loop in Q!n");
  492. goto out_bad;
  493. }
  494. } while (task != head);
  495. }
  496. dprintk("RPC:      unknown XID %08x in reply.n", xid);
  497.  out_bad:
  498. req = NULL;
  499.  out:
  500. if (req && !__rpc_lock_task(req->rq_task))
  501. req = NULL;
  502. spin_unlock_bh(&rpc_queue_lock);
  503. return req;
  504. }
  505. /*
  506.  * Complete reply received.
  507.  * The TCP code relies on us to remove the request from xprt->pending.
  508.  */
  509. static inline void
  510. xprt_complete_rqst(struct rpc_xprt *xprt, struct rpc_rqst *req, int copied)
  511. {
  512. struct rpc_task *task = req->rq_task;
  513. /* Adjust congestion window */
  514. xprt_adjust_cwnd(xprt, copied);
  515. #ifdef RPC_PROFILE
  516. /* Profile only reads for now */
  517. if (copied > 1024) {
  518. static unsigned long nextstat = 0;
  519. static unsigned long pkt_rtt = 0, pkt_len = 0, pkt_cnt = 0;
  520. pkt_cnt++;
  521. pkt_len += req->rq_slen + copied;
  522. pkt_rtt += jiffies - req->rq_xtime;
  523. if (time_before(nextstat, jiffies)) {
  524. printk("RPC: %lu %ld cwndn", jiffies, xprt->cwnd);
  525. printk("RPC: %ld %ld %ld %ld statn",
  526. jiffies, pkt_cnt, pkt_len, pkt_rtt);
  527. pkt_rtt = pkt_len = pkt_cnt = 0;
  528. nextstat = jiffies + 5 * HZ;
  529. }
  530. }
  531. #endif
  532. dprintk("RPC: %4d has input (%d bytes)n", task->tk_pid, copied);
  533. task->tk_status = copied;
  534. req->rq_received = 1;
  535. /* ... and wake up the process. */
  536. rpc_wake_up_task(task);
  537. return;
  538. }
  539. /*
  540.  * We have set things up such that we perform the checksum of the UDP
  541.  * packet in parallel with the copies into the RPC client iovec.  -DaveM
  542.  */
  543. static int csum_partial_copy_to_page_cache(struct iovec *iov,
  544.    struct sk_buff *skb,
  545.    int copied)
  546. {
  547. int offset = sizeof(struct udphdr);
  548. __u8 *cur_ptr = iov->iov_base;
  549. __kernel_size_t cur_len = iov->iov_len;
  550. unsigned int csum = skb->csum;
  551. int need_csum = (skb->ip_summed != CHECKSUM_UNNECESSARY);
  552. int slack = skb->len - copied - sizeof(struct udphdr);
  553. if (need_csum)
  554. csum = csum_partial(skb->data, sizeof(struct udphdr), csum);
  555. while (copied > 0) {
  556. if (cur_len) {
  557. int to_move = cur_len;
  558. if (to_move > copied)
  559. to_move = copied;
  560. if (need_csum) {
  561. unsigned int csum2;
  562. csum2 = skb_copy_and_csum_bits(skb, offset,
  563.        cur_ptr,
  564.        to_move, 0);
  565. csum = csum_block_add(csum, csum2, offset);
  566. } else
  567. skb_copy_bits(skb, offset, cur_ptr, to_move);
  568. offset += to_move;
  569. copied -= to_move;
  570. cur_ptr += to_move;
  571. cur_len -= to_move;
  572. }
  573. if (cur_len <= 0) {
  574. iov++;
  575. cur_len = iov->iov_len;
  576. cur_ptr = iov->iov_base;
  577. }
  578. }
  579. if (need_csum) {
  580. if (slack > 0) {
  581. unsigned int csum2;
  582. csum2 = skb_checksum(skb, offset, slack, 0);
  583. csum = csum_block_add(csum, csum2, offset);
  584. }
  585. if ((unsigned short)csum_fold(csum))
  586. return -1;
  587. }
  588. return 0;
  589. }
  590. /*
  591.  * Input handler for RPC replies. Called from a bottom half and hence
  592.  * atomic.
  593.  */
  594. static void
  595. udp_data_ready(struct sock *sk, int len)
  596. {
  597. struct rpc_task *task;
  598. struct rpc_xprt *xprt;
  599. struct rpc_rqst *rovr;
  600. struct sk_buff *skb;
  601. int err, repsize, copied;
  602. dprintk("RPC:      udp_data_ready...n");
  603. if (!(xprt = xprt_from_sock(sk))) {
  604. printk("RPC:      udp_data_ready request not found!n");
  605. goto out;
  606. }
  607. dprintk("RPC:      udp_data_ready client %pn", xprt);
  608. if ((skb = skb_recv_datagram(sk, 0, 1, &err)) == NULL)
  609. goto out;
  610. if (xprt->shutdown)
  611. goto dropit;
  612. repsize = skb->len - sizeof(struct udphdr);
  613. if (repsize < 4) {
  614. printk("RPC: impossible RPC reply size %d!n", repsize);
  615. goto dropit;
  616. }
  617. /* Look up and lock the request corresponding to the given XID */
  618. rovr = xprt_lookup_rqst(xprt, *(u32 *) (skb->h.raw + sizeof(struct udphdr)));
  619. if (!rovr)
  620. goto dropit;
  621. task = rovr->rq_task;
  622. dprintk("RPC: %4d received replyn", task->tk_pid);
  623. xprt_pktdump("packet data:",
  624.      (u32 *) (skb->h.raw+sizeof(struct udphdr)), repsize);
  625. if ((copied = rovr->rq_rlen) > repsize)
  626. copied = repsize;
  627. /* Suck it into the iovec, verify checksum if not done by hw. */
  628. if (csum_partial_copy_to_page_cache(rovr->rq_rvec, skb, copied))
  629. goto out_unlock;
  630. /* Something worked... */
  631. dst_confirm(skb->dst);
  632. xprt_complete_rqst(xprt, rovr, copied);
  633.  out_unlock:
  634. rpc_unlock_task(task);
  635.  dropit:
  636. skb_free_datagram(sk, skb);
  637.  out:
  638. if (sk->sleep && waitqueue_active(sk->sleep))
  639. wake_up_interruptible(sk->sleep);
  640. }
  641. /*
  642.  * TCP read fragment marker
  643.  */
  644. static inline int
  645. tcp_read_fraghdr(struct rpc_xprt *xprt)
  646. {
  647. struct iovec riov;
  648. int want, result;
  649. if (xprt->tcp_offset >= sizeof(xprt->tcp_recm))
  650. goto done;
  651. want = sizeof(xprt->tcp_recm) - xprt->tcp_offset;
  652. dprintk("RPC:      reading header (%d bytes)n", want);
  653. do {
  654. riov.iov_base = ((u8*) &xprt->tcp_recm) + xprt->tcp_offset;
  655. riov.iov_len  = want;
  656. result = xprt_recvmsg(xprt, &riov, 1, want, 0);
  657. if (result < 0)
  658. return result;
  659. xprt->tcp_offset += result;
  660. want -= result;
  661. } while (want);
  662. /* Get the record length and mask out the last fragment bit */
  663. xprt->tcp_reclen = ntohl(xprt->tcp_recm);
  664. xprt->tcp_more = (xprt->tcp_reclen & 0x80000000) ? 0 : 1;
  665. xprt->tcp_reclen &= 0x7fffffff;
  666. dprintk("RPC:      New record reclen %d morefrags %dn",
  667.    xprt->tcp_reclen, xprt->tcp_more);
  668.  done:
  669. return xprt->tcp_reclen + sizeof(xprt->tcp_recm) - xprt->tcp_offset;
  670. }
  671. /*
  672.  * TCP read xid
  673.  */
  674. static inline int
  675. tcp_read_xid(struct rpc_xprt *xprt, int avail)
  676. {
  677. struct iovec riov;
  678. int want, result;
  679. if (xprt->tcp_copied >= sizeof(xprt->tcp_xid) || !avail)
  680. goto done;
  681. want = min_t(unsigned int, sizeof(xprt->tcp_xid) - xprt->tcp_copied, avail);
  682. do {
  683. dprintk("RPC:      reading xid (%d bytes)n", want);
  684. riov.iov_base = ((u8*) &xprt->tcp_xid) + xprt->tcp_copied;
  685. riov.iov_len  = want;
  686. result = xprt_recvmsg(xprt, &riov, 1, want, 0);
  687. if (result < 0)
  688. return result;
  689. xprt->tcp_copied += result;
  690. xprt->tcp_offset += result;
  691. want  -= result;
  692. avail -= result;
  693. } while (want);
  694.  done:
  695. return avail;
  696. }
  697. /*
  698.  * TCP read and complete request
  699.  */
  700. static inline int
  701. tcp_read_request(struct rpc_xprt *xprt, struct rpc_rqst *req, int avail)
  702. {
  703. int want, result;
  704. if (req->rq_rlen <= xprt->tcp_copied || !avail)
  705. goto done;
  706. want = min_t(unsigned int, req->rq_rlen - xprt->tcp_copied, avail);
  707. do {
  708. dprintk("RPC: %4d TCP receiving %d bytesn",
  709. req->rq_task->tk_pid, want);
  710. result = xprt_recvmsg(xprt, req->rq_rvec, req->rq_rnr, want, xprt->tcp_copied);
  711. if (result < 0)
  712. return result;
  713. xprt->tcp_copied += result;
  714. xprt->tcp_offset += result;
  715. avail  -= result;
  716. want   -= result;
  717. } while (want);
  718.  done:
  719. if (req->rq_rlen > xprt->tcp_copied && xprt->tcp_more)
  720. return avail;
  721. dprintk("RPC: %4d received reply completen", req->rq_task->tk_pid);
  722. xprt_complete_rqst(xprt, req, xprt->tcp_copied);
  723. return avail;
  724. }
  725. /*
  726.  * TCP discard extra bytes from a short read
  727.  */
  728. static inline int
  729. tcp_read_discard(struct rpc_xprt *xprt, int avail)
  730. {
  731. struct iovec riov;
  732. static u8 dummy[64];
  733. int want, result = 0;
  734. while (avail) {
  735. want = min_t(unsigned int, avail, sizeof(dummy));
  736. riov.iov_base = dummy;
  737. riov.iov_len  = want;
  738. dprintk("RPC:      TCP skipping %d bytesn", want);
  739. result = xprt_recvmsg(xprt, &riov, 1, want, 0);
  740. if (result < 0)
  741. return result;
  742. xprt->tcp_offset += result;
  743. avail  -= result;
  744. }
  745. return avail;
  746. }
  747. /*
  748.  * TCP record receive routine
  749.  * This is not the most efficient code since we call recvfrom thrice--
  750.  * first receiving the record marker, then the XID, then the data.
  751.  * 
  752.  * The optimal solution would be a RPC support in the TCP layer, which
  753.  * would gather all data up to the next record marker and then pass us
  754.  * the list of all TCP segments ready to be copied.
  755.  */
  756. static int
  757. tcp_input_record(struct rpc_xprt *xprt)
  758. {
  759. struct rpc_rqst *req = NULL;
  760. struct rpc_task *task = NULL;
  761. int avail, result;
  762. dprintk("RPC:      tcp_input_recordn");
  763. if (xprt->shutdown)
  764. return -EIO;
  765. if (!xprt_connected(xprt))
  766. return -ENOTCONN;
  767. /* Read in a new fragment marker if necessary */
  768. /* Can we ever really expect to get completely empty fragments? */
  769. if ((result = tcp_read_fraghdr(xprt)) < 0)
  770. return result;
  771. avail = result;
  772. /* Read in the xid if necessary */
  773. if ((result = tcp_read_xid(xprt, avail)) < 0)
  774. return result;
  775. if (!(avail = result))
  776. goto out_ok;
  777. /* Find and lock the request corresponding to this xid */
  778. req = xprt_lookup_rqst(xprt, xprt->tcp_xid);
  779. if (req) {
  780. task = req->rq_task;
  781. /* Read in the request data */
  782. result = tcp_read_request(xprt,  req, avail);
  783. rpc_unlock_task(task);
  784. if (result < 0)
  785. return result;
  786. avail = result;
  787. }
  788. /* Skip over any trailing bytes on short reads */
  789. if ((result = tcp_read_discard(xprt, avail)) < 0)
  790. return result;
  791.  out_ok:
  792. dprintk("RPC:      tcp_input_record done (off %d reclen %d copied %d)n",
  793. xprt->tcp_offset, xprt->tcp_reclen, xprt->tcp_copied);
  794. result = xprt->tcp_reclen;
  795. xprt->tcp_reclen = 0;
  796. xprt->tcp_offset = 0;
  797. if (!xprt->tcp_more)
  798. xprt->tcp_copied = 0;
  799. return result;
  800. }
  801. /*
  802.  * TCP task queue stuff
  803.  */
  804. LIST_HEAD(rpc_xprt_pending); /* List of xprts having pending tcp requests */
  805. static inline
  806. void tcp_rpciod_queue(void)
  807. {
  808. rpciod_wake_up();
  809. }
  810. int xprt_tcp_pending(void)
  811. {
  812. int retval;
  813. spin_lock_bh(&rpc_queue_lock);
  814. retval = !list_empty(&rpc_xprt_pending);
  815. spin_unlock_bh(&rpc_queue_lock);
  816. return retval;
  817. }
  818. static inline
  819. void xprt_append_pending(struct rpc_xprt *xprt)
  820. {
  821. spin_lock_bh(&rpc_queue_lock);
  822. if (list_empty(&xprt->rx_pending)) {
  823. list_add(&xprt->rx_pending, rpc_xprt_pending.prev);
  824. dprintk("RPC:     xprt queue %pn", xprt);
  825. tcp_rpciod_queue();
  826. }
  827. spin_unlock_bh(&rpc_queue_lock);
  828. }
  829. static
  830. void xprt_remove_pending(struct rpc_xprt *xprt)
  831. {
  832. spin_lock_bh(&rpc_queue_lock);
  833. if (!list_empty(&xprt->rx_pending)) {
  834. list_del(&xprt->rx_pending);
  835. INIT_LIST_HEAD(&xprt->rx_pending);
  836. }
  837. spin_unlock_bh(&rpc_queue_lock);
  838. }
  839. static inline
  840. struct rpc_xprt *xprt_remove_pending_next(void)
  841. {
  842. struct rpc_xprt *xprt = NULL;
  843. spin_lock_bh(&rpc_queue_lock);
  844. if (!list_empty(&rpc_xprt_pending)) {
  845. xprt = list_entry(rpc_xprt_pending.next, struct rpc_xprt, rx_pending);
  846. list_del(&xprt->rx_pending);
  847. INIT_LIST_HEAD(&xprt->rx_pending);
  848. }
  849. spin_unlock_bh(&rpc_queue_lock);
  850. return xprt;
  851. }
  852. /*
  853.  * This is protected from tcp_data_ready and the stack as its run
  854.  * inside of the RPC I/O daemon
  855.  */
  856. void
  857. __rpciod_tcp_dispatcher(void)
  858. {
  859. struct rpc_xprt *xprt;
  860. int safe_retry = 0, result;
  861. dprintk("rpciod_tcp_dispatcher: Queue Runningn");
  862. /*
  863.  * Empty each pending socket
  864.  */
  865. while ((xprt = xprt_remove_pending_next()) != NULL) {
  866. dprintk("rpciod_tcp_dispatcher: Processing %pn", xprt);
  867. do {
  868. result = tcp_input_record(xprt);
  869. } while (result >= 0);
  870. if (safe_retry++ > 200) {
  871. schedule();
  872. safe_retry = 0;
  873. }
  874. }
  875. }
  876. /*
  877.  * data_ready callback for TCP. We can't just jump into the
  878.  * tcp recvmsg functions inside of the network receive bh or
  879.  *  bad things occur. We queue it to pick up after networking
  880.  * is done.
  881.  */
  882.  
  883. static void tcp_data_ready(struct sock *sk, int len)
  884. {
  885. struct rpc_xprt *xprt;
  886. dprintk("RPC:      tcp_data_ready...n");
  887. if (!(xprt = xprt_from_sock(sk)))
  888. {
  889. printk("Not a socket with xprt %pn", sk);
  890. goto out;
  891. }
  892. if (xprt->shutdown)
  893. goto out;
  894. xprt_append_pending(xprt);
  895. dprintk("RPC:      tcp_data_ready client %pn", xprt);
  896. dprintk("RPC:      state %x conn %d dead %d zapped %dn",
  897. sk->state, xprt_connected(xprt),
  898. sk->dead, sk->zapped);
  899.  out:
  900. if (sk->sleep && waitqueue_active(sk->sleep))
  901. wake_up_interruptible(sk->sleep);
  902. }
  903. static void
  904. tcp_state_change(struct sock *sk)
  905. {
  906. struct rpc_xprt *xprt;
  907. if (!(xprt = xprt_from_sock(sk)))
  908. goto out;
  909. dprintk("RPC:      tcp_state_change client %p...n", xprt);
  910. dprintk("RPC:      state %x conn %d dead %d zapped %dn",
  911. sk->state, xprt_connected(xprt),
  912. sk->dead, sk->zapped);
  913. switch (sk->state) {
  914. case TCP_ESTABLISHED:
  915. if (xprt_test_and_set_connected(xprt))
  916. break;
  917. spin_lock(&xprt->sock_lock);
  918. if (xprt->snd_task && xprt->snd_task->tk_rpcwait == &xprt->sending)
  919. rpc_wake_up_task(xprt->snd_task);
  920. spin_unlock(&xprt->sock_lock);
  921. break;
  922. case TCP_SYN_SENT:
  923. case TCP_SYN_RECV:
  924. break;
  925. default:
  926. xprt_disconnect(xprt);
  927. break;
  928. }
  929.  out:
  930. if (sk->sleep && waitqueue_active(sk->sleep))
  931. wake_up_interruptible_all(sk->sleep);
  932. }
  933. /*
  934.  * The following 2 routines allow a task to sleep while socket memory is
  935.  * low.
  936.  */
  937. static void
  938. tcp_write_space(struct sock *sk)
  939. {
  940. struct rpc_xprt *xprt;
  941. struct socket *sock;
  942. if (!(xprt = xprt_from_sock(sk)) || !(sock = sk->socket))
  943. return;
  944. if (xprt->shutdown)
  945. return;
  946. /* Wait until we have enough socket memory */
  947. if (!sock_writeable(sk))
  948. return;
  949. if (!xprt_test_and_set_wspace(xprt)) {
  950. spin_lock(&xprt->sock_lock);
  951. if (xprt->snd_task && xprt->snd_task->tk_rpcwait == &xprt->sending)
  952. rpc_wake_up_task(xprt->snd_task);
  953. spin_unlock(&xprt->sock_lock);
  954. }
  955. if (test_bit(SOCK_NOSPACE, &sock->flags)) {
  956. if (sk->sleep && waitqueue_active(sk->sleep)) {
  957. clear_bit(SOCK_NOSPACE, &sock->flags);
  958. wake_up_interruptible(sk->sleep);
  959. }
  960. }
  961. }
  962. static void
  963. udp_write_space(struct sock *sk)
  964. {
  965. struct rpc_xprt *xprt;
  966. if (!(xprt = xprt_from_sock(sk)))
  967. return;
  968. if (xprt->shutdown)
  969. return;
  970. /* Wait until we have enough socket memory */
  971. if (sock_wspace(sk) < min_t(int, sk->sndbuf,XPRT_MIN_WRITE_SPACE))
  972. return;
  973. if (!xprt_test_and_set_wspace(xprt)) {
  974. spin_lock(&xprt->sock_lock);
  975. if (xprt->snd_task && xprt->snd_task->tk_rpcwait == &xprt->sending)
  976. rpc_wake_up_task(xprt->snd_task);
  977. spin_unlock(&xprt->sock_lock);
  978. }
  979. if (sk->sleep && waitqueue_active(sk->sleep))
  980. wake_up_interruptible(sk->sleep);
  981. }
  982. /*
  983.  * RPC receive timeout handler.
  984.  */
  985. static void
  986. xprt_timer(struct rpc_task *task)
  987. {
  988. struct rpc_rqst *req = task->tk_rqstp;
  989. if (req)
  990. xprt_adjust_cwnd(task->tk_xprt, -ETIMEDOUT);
  991. dprintk("RPC: %4d xprt_timer (%s request)n",
  992. task->tk_pid, req ? "pending" : "backlogged");
  993. task->tk_status  = -ETIMEDOUT;
  994. task->tk_timeout = 0;
  995. rpc_wake_up_task(task);
  996. }
  997. /*
  998.  * Place the actual RPC call.
  999.  * We have to copy the iovec because sendmsg fiddles with its contents.
  1000.  */
  1001. void
  1002. xprt_transmit(struct rpc_task *task)
  1003. {
  1004. struct rpc_rqst *req = task->tk_rqstp;
  1005. struct rpc_xprt *xprt = req->rq_xprt;
  1006. dprintk("RPC: %4d xprt_transmit(%x)n", task->tk_pid, 
  1007. *(u32 *)(req->rq_svec[0].iov_base));
  1008. if (xprt->shutdown)
  1009. task->tk_status = -EIO;
  1010. if (!xprt_connected(xprt))
  1011. task->tk_status = -ENOTCONN;
  1012. if (task->tk_status < 0)
  1013. return;
  1014. if (task->tk_rpcwait)
  1015. rpc_remove_wait_queue(task);
  1016. /* set up everything as needed. */
  1017. /* Write the record marker */
  1018. if (xprt->stream) {
  1019. u32 *marker = req->rq_svec[0].iov_base;
  1020. *marker = htonl(0x80000000|(req->rq_slen-sizeof(*marker)));
  1021. }
  1022. if (!xprt_lock_write(xprt, task))
  1023. return;
  1024. #ifdef RPC_PROFILE
  1025. req->rq_xtime = jiffies;
  1026. #endif
  1027. do_xprt_transmit(task);
  1028. }
  1029. static void
  1030. do_xprt_transmit(struct rpc_task *task)
  1031. {
  1032. struct rpc_rqst *req = task->tk_rqstp;
  1033. struct rpc_xprt *xprt = req->rq_xprt;
  1034. int status, retry = 0;
  1035. /* For fast networks/servers we have to put the request on
  1036.  * the pending list now:
  1037.  * Note that we don't want the task timing out during the
  1038.  * call to xprt_sendmsg(), so we initially disable the timeout,
  1039.  * and then reset it later...
  1040.  */
  1041. xprt_receive(task);
  1042. /* Continue transmitting the packet/record. We must be careful
  1043.  * to cope with writespace callbacks arriving _after_ we have
  1044.  * called xprt_sendmsg().
  1045.  */
  1046. while (1) {
  1047. xprt_clear_wspace(xprt);
  1048. status = xprt_sendmsg(xprt, req);
  1049. if (status < 0)
  1050. break;
  1051. if (xprt->stream) {
  1052. req->rq_bytes_sent += status;
  1053. if (req->rq_bytes_sent >= req->rq_slen)
  1054. goto out_receive;
  1055. } else {
  1056. if (status >= req->rq_slen)
  1057. goto out_receive;
  1058. status = -ENOMEM;
  1059. break;
  1060. }
  1061. dprintk("RPC: %4d xmit incomplete (%d left of %d)n",
  1062. task->tk_pid, req->rq_slen - req->rq_bytes_sent,
  1063. req->rq_slen);
  1064. status = -EAGAIN;
  1065. if (retry++ > 50)
  1066. break;
  1067. }
  1068. rpc_unlock_task(task);
  1069. /* Note: at this point, task->tk_sleeping has not yet been set,
  1070.  *  hence there is no danger of the waking up task being put on
  1071.  *  schedq, and being picked up by a parallel run of rpciod().
  1072.  */
  1073. rpc_wake_up_task(task);
  1074. if (!RPC_IS_RUNNING(task))
  1075. goto out_release;
  1076. if (req->rq_received)
  1077. goto out_release;
  1078. task->tk_status = status;
  1079. switch (status) {
  1080. case -ENOMEM:
  1081. /* Protect against (udp|tcp)_write_space */
  1082. spin_lock_bh(&xprt->sock_lock);
  1083. if (!xprt_wspace(xprt)) {
  1084. task->tk_timeout = req->rq_timeout.to_current;
  1085. rpc_sleep_on(&xprt->sending, task, NULL, NULL);
  1086. }
  1087. spin_unlock_bh(&xprt->sock_lock);
  1088. return;
  1089. case -EAGAIN:
  1090. /* Keep holding the socket if it is blocked */
  1091. rpc_delay(task, HZ>>4);
  1092. return;
  1093. case -ECONNREFUSED:
  1094. case -ENOTCONN:
  1095. if (!xprt->stream)
  1096. return;
  1097. default:
  1098. if (xprt->stream)
  1099. xprt_disconnect(xprt);
  1100. req->rq_bytes_sent = 0;
  1101. goto out_release;
  1102. }
  1103.  out_receive:
  1104. dprintk("RPC: %4d xmit completen", task->tk_pid);
  1105. /* Set the task's receive timeout value */
  1106. task->tk_timeout = req->rq_timeout.to_current;
  1107. rpc_add_timer(task, xprt_timer);
  1108. rpc_unlock_task(task);
  1109.  out_release:
  1110. xprt_release_write(xprt, task);
  1111. }
  1112. /*
  1113.  * Queue the task for a reply to our call.
  1114.  * When the callback is invoked, the congestion window should have
  1115.  * been updated already.
  1116.  */
  1117. void
  1118. xprt_receive(struct rpc_task *task)
  1119. {
  1120. struct rpc_rqst *req = task->tk_rqstp;
  1121. struct rpc_xprt *xprt = req->rq_xprt;
  1122. dprintk("RPC: %4d xprt_receiven", task->tk_pid);
  1123. req->rq_received = 0;
  1124. task->tk_timeout = 0;
  1125. rpc_sleep_locked(&xprt->pending, task, NULL, NULL);
  1126. }
  1127. /*
  1128.  * Reserve an RPC call slot.
  1129.  */
  1130. int
  1131. xprt_reserve(struct rpc_task *task)
  1132. {
  1133. struct rpc_xprt *xprt = task->tk_xprt;
  1134. /* We already have an initialized request. */
  1135. if (task->tk_rqstp)
  1136. return 0;
  1137. dprintk("RPC: %4d xprt_reserve cong = %ld cwnd = %ldn",
  1138. task->tk_pid, xprt->cong, xprt->cwnd);
  1139. spin_lock_bh(&xprt->xprt_lock);
  1140. xprt_reserve_status(task);
  1141. if (task->tk_rqstp) {
  1142. task->tk_timeout = 0;
  1143. } else if (!task->tk_timeout) {
  1144. task->tk_status = -ENOBUFS;
  1145. } else {
  1146. dprintk("RPC:      xprt_reserve waiting on backlogn");
  1147. task->tk_status = -EAGAIN;
  1148. rpc_sleep_on(&xprt->backlog, task, NULL, NULL);
  1149. }
  1150. spin_unlock_bh(&xprt->xprt_lock);
  1151. dprintk("RPC: %4d xprt_reserve returns %dn",
  1152. task->tk_pid, task->tk_status);
  1153. return task->tk_status;
  1154. }
  1155. /*
  1156.  * Reservation callback
  1157.  */
  1158. static void
  1159. xprt_reserve_status(struct rpc_task *task)
  1160. {
  1161. struct rpc_xprt *xprt = task->tk_xprt;
  1162. struct rpc_rqst *req;
  1163. if (xprt->shutdown) {
  1164. task->tk_status = -EIO;
  1165. } else if (task->tk_status < 0) {
  1166. /* NOP */
  1167. } else if (task->tk_rqstp) {
  1168. /* We've already been given a request slot: NOP */
  1169. } else {
  1170. if (RPCXPRT_CONGESTED(xprt) || !(req = xprt->free))
  1171. goto out_nofree;
  1172. /* OK: There's room for us. Grab a free slot and bump
  1173.  * congestion value */
  1174. xprt->free     = req->rq_next;
  1175. req->rq_next   = NULL;
  1176. xprt->cong    += RPC_CWNDSCALE;
  1177. task->tk_rqstp = req;
  1178. xprt_request_init(task, xprt);
  1179. if (xprt->free)
  1180. xprt_clear_backlog(xprt);
  1181. }
  1182. return;
  1183. out_nofree:
  1184. task->tk_status = -EAGAIN;
  1185. }
  1186. /*
  1187.  * Initialize RPC request
  1188.  */
  1189. static void
  1190. xprt_request_init(struct rpc_task *task, struct rpc_xprt *xprt)
  1191. {
  1192. struct rpc_rqst *req = task->tk_rqstp;
  1193. static u32 xid = 0;
  1194. if (!xid)
  1195. xid = CURRENT_TIME << 12;
  1196. dprintk("RPC: %4d reserved req %p xid %08xn", task->tk_pid, req, xid);
  1197. task->tk_status = 0;
  1198. req->rq_timeout = xprt->timeout;
  1199. req->rq_task = task;
  1200. req->rq_xprt    = xprt;
  1201. req->rq_xid     = xid++;
  1202. if (!xid)
  1203. xid++;
  1204. }
  1205. /*
  1206.  * Release an RPC call slot
  1207.  */
  1208. void
  1209. xprt_release(struct rpc_task *task)
  1210. {
  1211. struct rpc_xprt *xprt = task->tk_xprt;
  1212. struct rpc_rqst *req;
  1213. if (xprt->snd_task == task) {
  1214. if (xprt->stream)
  1215. xprt_disconnect(xprt);
  1216. xprt_release_write(xprt, task);
  1217. }
  1218. if (!(req = task->tk_rqstp))
  1219. return;
  1220. task->tk_rqstp = NULL;
  1221. memset(req, 0, sizeof(*req)); /* mark unused */
  1222. dprintk("RPC: %4d release request %pn", task->tk_pid, req);
  1223. spin_lock_bh(&xprt->xprt_lock);
  1224. req->rq_next = xprt->free;
  1225. xprt->free   = req;
  1226. /* Decrease congestion value. */
  1227. xprt->cong -= RPC_CWNDSCALE;
  1228. xprt_clear_backlog(xprt);
  1229. spin_unlock_bh(&xprt->xprt_lock);
  1230. }
  1231. /*
  1232.  * Set default timeout parameters
  1233.  */
  1234. void
  1235. xprt_default_timeout(struct rpc_timeout *to, int proto)
  1236. {
  1237. if (proto == IPPROTO_UDP)
  1238. xprt_set_timeout(to, 5,  5 * HZ);
  1239. else
  1240. xprt_set_timeout(to, 5, 60 * HZ);
  1241. }
  1242. /*
  1243.  * Set constant timeout
  1244.  */
  1245. void
  1246. xprt_set_timeout(struct rpc_timeout *to, unsigned int retr, unsigned long incr)
  1247. {
  1248. to->to_current   = 
  1249. to->to_initval   = 
  1250. to->to_increment = incr;
  1251. to->to_maxval    = incr * retr;
  1252. to->to_resrvval  = incr * retr;
  1253. to->to_retries   = retr;
  1254. to->to_exponential = 0;
  1255. }
  1256. /*
  1257.  * Initialize an RPC client
  1258.  */
  1259. static struct rpc_xprt *
  1260. xprt_setup(struct socket *sock, int proto,
  1261. struct sockaddr_in *ap, struct rpc_timeout *to)
  1262. {
  1263. struct rpc_xprt *xprt;
  1264. struct rpc_rqst *req;
  1265. int i;
  1266. dprintk("RPC:      setting up %s transport...n",
  1267. proto == IPPROTO_UDP? "UDP" : "TCP");
  1268. if ((xprt = kmalloc(sizeof(struct rpc_xprt), GFP_KERNEL)) == NULL)
  1269. return NULL;
  1270. memset(xprt, 0, sizeof(*xprt)); /* Nnnngh! */
  1271. xprt->addr = *ap;
  1272. xprt->prot = proto;
  1273. xprt->stream = (proto == IPPROTO_TCP)? 1 : 0;
  1274. if (xprt->stream) {
  1275. xprt->cwnd = RPC_MAXCWND;
  1276. xprt->nocong = 1;
  1277. } else
  1278. xprt->cwnd = RPC_INITCWND;
  1279. xprt->congtime = jiffies;
  1280. spin_lock_init(&xprt->sock_lock);
  1281. spin_lock_init(&xprt->xprt_lock);
  1282. init_waitqueue_head(&xprt->cong_wait);
  1283. /* Set timeout parameters */
  1284. if (to) {
  1285. xprt->timeout = *to;
  1286. xprt->timeout.to_current = to->to_initval;
  1287. xprt->timeout.to_resrvval = to->to_maxval << 1;
  1288. } else
  1289. xprt_default_timeout(&xprt->timeout, xprt->prot);
  1290. xprt->pending = RPC_INIT_WAITQ("xprt_pending");
  1291. xprt->sending = RPC_INIT_WAITQ("xprt_sending");
  1292. xprt->backlog = RPC_INIT_WAITQ("xprt_backlog");
  1293. /* initialize free list */
  1294. for (i = 0, req = xprt->slot; i < RPC_MAXREQS-1; i++, req++)
  1295. req->rq_next = req + 1;
  1296. req->rq_next = NULL;
  1297. xprt->free = xprt->slot;
  1298. INIT_LIST_HEAD(&xprt->rx_pending);
  1299. dprintk("RPC:      created transport %pn", xprt);
  1300. xprt_bind_socket(xprt, sock);
  1301. return xprt;
  1302. }
  1303. /*
  1304.  * Bind to a reserved port
  1305.  */
  1306. static inline int
  1307. xprt_bindresvport(struct socket *sock)
  1308. {
  1309. struct sockaddr_in myaddr;
  1310. int err, port;
  1311. memset(&myaddr, 0, sizeof(myaddr));
  1312. myaddr.sin_family = AF_INET;
  1313. port = 800;
  1314. do {
  1315. myaddr.sin_port = htons(port);
  1316. err = sock->ops->bind(sock, (struct sockaddr *) &myaddr,
  1317. sizeof(myaddr));
  1318. } while (err == -EADDRINUSE && --port > 0);
  1319. if (err < 0)
  1320. printk("RPC: Can't bind to reserved port (%d).n", -err);
  1321. return err;
  1322. }
  1323. static int 
  1324. xprt_bind_socket(struct rpc_xprt *xprt, struct socket *sock)
  1325. {
  1326. struct sock *sk = sock->sk;
  1327. if (xprt->inet)
  1328. return -EBUSY;
  1329. sk->user_data = xprt;
  1330. xprt->old_data_ready = sk->data_ready;
  1331. xprt->old_state_change = sk->state_change;
  1332. xprt->old_write_space = sk->write_space;
  1333. if (xprt->prot == IPPROTO_UDP) {
  1334. sk->data_ready = udp_data_ready;
  1335. sk->write_space = udp_write_space;
  1336. sk->no_check = UDP_CSUM_NORCV;
  1337. xprt_set_connected(xprt);
  1338. } else {
  1339. sk->data_ready = tcp_data_ready;
  1340. sk->state_change = tcp_state_change;
  1341. sk->write_space = tcp_write_space;
  1342. xprt_clear_connected(xprt);
  1343. }
  1344. /* Reset to new socket */
  1345. xprt->sock = sock;
  1346. xprt->inet = sk;
  1347. /*
  1348.  * TCP requires the rpc I/O daemon is present
  1349.  */
  1350. if(xprt->stream)
  1351. rpciod_up();
  1352. return 0;
  1353. }
  1354. /*
  1355.  * Create a client socket given the protocol and peer address.
  1356.  */
  1357. static struct socket *
  1358. xprt_create_socket(int proto, struct rpc_timeout *to)
  1359. {
  1360. struct socket *sock;
  1361. int type, err;
  1362. dprintk("RPC:      xprt_create_socket(%s %d)n",
  1363.    (proto == IPPROTO_UDP)? "udp" : "tcp", proto);
  1364. type = (proto == IPPROTO_UDP)? SOCK_DGRAM : SOCK_STREAM;
  1365. if ((err = sock_create(PF_INET, type, proto, &sock)) < 0) {
  1366. printk("RPC: can't create socket (%d).n", -err);
  1367. goto failed;
  1368. }
  1369. /* If the caller has the capability, bind to a reserved port */
  1370. if (capable(CAP_NET_BIND_SERVICE) && xprt_bindresvport(sock) < 0)
  1371. goto failed;
  1372. return sock;
  1373. failed:
  1374. sock_release(sock);
  1375. return NULL;
  1376. }
  1377. /*
  1378.  * Create an RPC client transport given the protocol and peer address.
  1379.  */
  1380. struct rpc_xprt *
  1381. xprt_create_proto(int proto, struct sockaddr_in *sap, struct rpc_timeout *to)
  1382. {
  1383. struct socket *sock;
  1384. struct rpc_xprt *xprt;
  1385. dprintk("RPC:      xprt_create_proto calledn");
  1386. if (!(sock = xprt_create_socket(proto, to)))
  1387. return NULL;
  1388. if (!(xprt = xprt_setup(sock, proto, sap, to)))
  1389. sock_release(sock);
  1390. return xprt;
  1391. }
  1392. /*
  1393.  * Prepare for transport shutdown.
  1394.  */
  1395. void
  1396. xprt_shutdown(struct rpc_xprt *xprt)
  1397. {
  1398. xprt->shutdown = 1;
  1399. rpc_wake_up(&xprt->sending);
  1400. rpc_wake_up(&xprt->pending);
  1401. rpc_wake_up(&xprt->backlog);
  1402. if (waitqueue_active(&xprt->cong_wait))
  1403. wake_up(&xprt->cong_wait);
  1404. }
  1405. /*
  1406.  * Clear the xprt backlog queue
  1407.  */
  1408. int
  1409. xprt_clear_backlog(struct rpc_xprt *xprt) {
  1410. if (RPCXPRT_CONGESTED(xprt))
  1411. return 0;
  1412. rpc_wake_up_next(&xprt->backlog);
  1413. if (waitqueue_active(&xprt->cong_wait))
  1414. wake_up(&xprt->cong_wait);
  1415. return 1;
  1416. }
  1417. /*
  1418.  * Destroy an RPC transport, killing off all requests.
  1419.  */
  1420. int
  1421. xprt_destroy(struct rpc_xprt *xprt)
  1422. {
  1423. dprintk("RPC:      destroying transport %pn", xprt);
  1424. xprt_shutdown(xprt);
  1425. xprt_close(xprt);
  1426. kfree(xprt);
  1427. return 0;
  1428. }