net/rds/af_rds.c

   1 /*
   2  * Copyright (c) 2006, 2018 Oracle and/or its affiliates. All rights reserved.
   3  *
   4  * This software is available to you under a choice of one of two
   5  * licenses.  You may choose to be licensed under the terms of the GNU
   6  * General Public License (GPL) Version 2, available from the file
   7  * COPYING in the main directory of this source tree, or the
   8  * OpenIB.org BSD license below:
   9  *
  10  *     Redistribution and use in source and binary forms, with or
  11  *     without modification, are permitted provided that the following
  12  *     conditions are met:
  13  *
  14  *      - Redistributions of source code must retain the above
  15  *        copyright notice, this list of conditions and the following
  16  *        disclaimer.
  17  *
  18  *      - Redistributions in binary form must reproduce the above
  19  *        copyright notice, this list of conditions and the following
  20  *        disclaimer in the documentation and/or other materials
  21  *        provided with the distribution.
  22  *
  23  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
  24  * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
  25  * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
  26  * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
  27  * BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
  28  * ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
  29  * CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  30  * SOFTWARE.
  31  *
  32  */
  33 #include <linux/module.h>
  34 #include <linux/errno.h>
  35 #include <linux/kernel.h>
  36 #include <linux/gfp.h>
  37 #include <linux/in.h>
  38 #include <linux/ipv6.h>
  39 #include <linux/poll.h>
  40 #include <net/sock.h>
  41
  42 #include "rds.h"
  43
  44 /* this is just used for stats gathering :/ */
  45 static DEFINE_SPINLOCK(rds_sock_lock);
  46 static unsigned long rds_sock_count;
  47 static LIST_HEAD(rds_sock_list);
  48 DECLARE_WAIT_QUEUE_HEAD(rds_poll_waitq);
  49
  50 /*
  51  * This is called as the final descriptor referencing this socket is closed.
  52  * We have to unbind the socket so that another socket can be bound to the
  53  * address it was using.
  54  *
  55  * We have to be careful about racing with the incoming path.  sock_orphan()
  56  * sets SOCK_DEAD and we use that as an indicator to the rx path that new
  57  * messages shouldn't be queued.
  58  */
  59 static int rds_release(struct socket *sock)
  60 {
  61         struct sock *sk = sock->sk;
  62         struct rds_sock *rs;
  63
  64         if (!sk)
  65                 goto out;
  66
  67         rs = rds_sk_to_rs(sk);
  68
  69         sock_orphan(sk);
  70         /* Note - rds_clear_recv_queue grabs rs_recv_lock, so
  71          * that ensures the recv path has completed messing
  72          * with the socket. */
  73         rds_clear_recv_queue(rs);
  74         rds_cong_remove_socket(rs);
  75
  76         rds_remove_bound(rs);
  77
  78         rds_send_drop_to(rs, NULL);
  79         rds_rdma_drop_keys(rs);
  80         rds_notify_queue_get(rs, NULL);
  81         rds_notify_msg_zcopy_purge(&rs->rs_zcookie_queue);
  82
  83         spin_lock_bh(&rds_sock_lock);
  84         list_del_init(&rs->rs_item);
  85         rds_sock_count--;
  86         spin_unlock_bh(&rds_sock_lock);
  87
  88         rds_trans_put(rs->rs_transport);
  89
  90         sock->sk = NULL;
  91         sock_put(sk);
  92 out:
  93         return 0;
  94 }
  95
  96 /*
  97  * Careful not to race with rds_release -> sock_orphan which clears sk_sleep.
  98  * _bh() isn't OK here, we're called from interrupt handlers.  It's probably OK
  99  * to wake the waitqueue after sk_sleep is clear as we hold a sock ref, but
 100  * this seems more conservative.
 101  * NB - normally, one would use sk_callback_lock for this, but we can
 102  * get here from interrupts, whereas the network code grabs sk_callback_lock
 103  * with _lock_bh only - so relying on sk_callback_lock introduces livelocks.
 104  */
 105 void rds_wake_sk_sleep(struct rds_sock *rs)
 106 {
 107         unsigned long flags;
 108
 109         read_lock_irqsave(&rs->rs_recv_lock, flags);
 110         __rds_wake_sk_sleep(rds_rs_to_sk(rs));
 111         read_unlock_irqrestore(&rs->rs_recv_lock, flags);
 112 }
 113
 114 static int rds_getname(struct socket *sock, struct sockaddr *uaddr,
 115                        int peer)
 116 {
 117         struct rds_sock *rs = rds_sk_to_rs(sock->sk);
 118         struct sockaddr_in6 *sin6;
 119         struct sockaddr_in *sin;
 120         int uaddr_len;
 121
 122         /* racey, don't care */
 123         if (peer) {
 124                 if (ipv6_addr_any(&rs->rs_conn_addr))
 125                         return -ENOTCONN;
 126
 127                 if (ipv6_addr_v4mapped(&rs->rs_conn_addr)) {
 128                         sin = (struct sockaddr_in *)uaddr;
 129                         memset(sin->sin_zero, 0, sizeof(sin->sin_zero));
 130                         sin->sin_family = AF_INET;
 131                         sin->sin_port = rs->rs_conn_port;
 132                         sin->sin_addr.s_addr = rs->rs_conn_addr_v4;
 133                         uaddr_len = sizeof(*sin);
 134                 } else {
 135                         sin6 = (struct sockaddr_in6 *)uaddr;
 136                         sin6->sin6_family = AF_INET6;
 137                         sin6->sin6_port = rs->rs_conn_port;
 138                         sin6->sin6_addr = rs->rs_conn_addr;
 139                         sin6->sin6_flowinfo = 0;
 140                         /* scope_id is the same as in the bound address. */
 141                         sin6->sin6_scope_id = rs->rs_bound_scope_id;
 142                         uaddr_len = sizeof(*sin6);
 143                 }
 144         } else {
 145                 /* If socket is not yet bound and the socket is connected,
 146                  * set the return address family to be the same as the
 147                  * connected address, but with 0 address value.  If it is not
 148                  * connected, set the family to be AF_UNSPEC (value 0) and
 149                  * the address size to be that of an IPv4 address.
 150                  */
 151                 if (ipv6_addr_any(&rs->rs_bound_addr)) {
 152                         if (ipv6_addr_any(&rs->rs_conn_addr)) {
 153                                 sin = (struct sockaddr_in *)uaddr;
 154                                 memset(sin, 0, sizeof(*sin));
 155                                 sin->sin_family = AF_UNSPEC;
 156                                 return sizeof(*sin);
 157                         }
 158
 159 #if IS_ENABLED(CONFIG_IPV6)
 160                         if (!(ipv6_addr_type(&rs->rs_conn_addr) &
 161                               IPV6_ADDR_MAPPED)) {
 162                                 sin6 = (struct sockaddr_in6 *)uaddr;
 163                                 memset(sin6, 0, sizeof(*sin6));
 164                                 sin6->sin6_family = AF_INET6;
 165                                 return sizeof(*sin6);
 166                         }
 167 #endif
 168
 169                         sin = (struct sockaddr_in *)uaddr;
 170                         memset(sin, 0, sizeof(*sin));
 171                         sin->sin_family = AF_INET;
 172                         return sizeof(*sin);
 173                 }
 174                 if (ipv6_addr_v4mapped(&rs->rs_bound_addr)) {
 175                         sin = (struct sockaddr_in *)uaddr;
 176                         memset(sin->sin_zero, 0, sizeof(sin->sin_zero));
 177                         sin->sin_family = AF_INET;
 178                         sin->sin_port = rs->rs_bound_port;
 179                         sin->sin_addr.s_addr = rs->rs_bound_addr_v4;
 180                         uaddr_len = sizeof(*sin);
 181                 } else {
 182                         sin6 = (struct sockaddr_in6 *)uaddr;
 183                         sin6->sin6_family = AF_INET6;
 184                         sin6->sin6_port = rs->rs_bound_port;
 185                         sin6->sin6_addr = rs->rs_bound_addr;
 186                         sin6->sin6_flowinfo = 0;
 187                         sin6->sin6_scope_id = rs->rs_bound_scope_id;
 188                         uaddr_len = sizeof(*sin6);
 189                 }
 190         }
 191
 192         return uaddr_len;
 193 }
 194
 195 /*
 196  * RDS' poll is without a doubt the least intuitive part of the interface,
 197  * as EPOLLIN and EPOLLOUT do not behave entirely as you would expect from
 198  * a network protocol.
 199  *
 200  * EPOLLIN is asserted if
 201  *  -   there is data on the receive queue.
 202  *  -   to signal that a previously congested destination may have become
 203  *      uncongested
 204  *  -   A notification has been queued to the socket (this can be a congestion
 205  *      update, or a RDMA completion, or a MSG_ZEROCOPY completion).
 206  *
 207  * EPOLLOUT is asserted if there is room on the send queue. This does not mean
 208  * however, that the next sendmsg() call will succeed. If the application tries
 209  * to send to a congested destination, the system call may still fail (and
 210  * return ENOBUFS).
 211  */
 212 static __poll_t rds_poll(struct file *file, struct socket *sock,
 213                              poll_table *wait)
 214 {
 215         struct sock *sk = sock->sk;
 216         struct rds_sock *rs = rds_sk_to_rs(sk);
 217         __poll_t mask = 0;
 218         unsigned long flags;
 219
 220         poll_wait(file, sk_sleep(sk), wait);
 221
 222         if (rs->rs_seen_congestion)
 223                 poll_wait(file, &rds_poll_waitq, wait);
 224
 225         read_lock_irqsave(&rs->rs_recv_lock, flags);
 226         if (!rs->rs_cong_monitor) {
 227                 /* When a congestion map was updated, we signal EPOLLIN for
 228                  * "historical" reasons. Applications can also poll for
 229                  * WRBAND instead. */
 230                 if (rds_cong_updated_since(&rs->rs_cong_track))
 231                         mask |= (EPOLLIN | EPOLLRDNORM | EPOLLWRBAND);
 232         } else {
 233                 spin_lock(&rs->rs_lock);
 234                 if (rs->rs_cong_notify)
 235                         mask |= (EPOLLIN | EPOLLRDNORM);
 236                 spin_unlock(&rs->rs_lock);
 237         }
 238         if (!list_empty(&rs->rs_recv_queue) ||
 239             !list_empty(&rs->rs_notify_queue) ||
 240             !list_empty(&rs->rs_zcookie_queue.zcookie_head))
 241                 mask |= (EPOLLIN | EPOLLRDNORM);
 242         if (rs->rs_snd_bytes < rds_sk_sndbuf(rs))
 243                 mask |= (EPOLLOUT | EPOLLWRNORM);
 244         if (sk->sk_err || !skb_queue_empty(&sk->sk_error_queue))
 245                 mask |= POLLERR;
 246         read_unlock_irqrestore(&rs->rs_recv_lock, flags);
 247
 248         /* clear state any time we wake a seen-congested socket */
 249         if (mask)
 250                 rs->rs_seen_congestion = 0;
 251
 252         return mask;
 253 }
 254
 255 static int rds_ioctl(struct socket *sock, unsigned int cmd, unsigned long arg)
 256 {
 257         return -ENOIOCTLCMD;
 258 }
 259
 260 static int rds_cancel_sent_to(struct rds_sock *rs, char __user *optval,
 261                               int len)
 262 {
 263         struct sockaddr_in6 sin6;
 264         struct sockaddr_in sin;
 265         int ret = 0;
 266
 267         /* racing with another thread binding seems ok here */
 268         if (ipv6_addr_any(&rs->rs_bound_addr)) {
 269                 ret = -ENOTCONN; /* XXX not a great errno */
 270                 goto out;
 271         }
 272
 273         if (len < sizeof(struct sockaddr_in)) {
 274                 ret = -EINVAL;
 275                 goto out;
 276         } else if (len < sizeof(struct sockaddr_in6)) {
 277                 /* Assume IPv4 */
 278                 if (copy_from_user(&sin, optval, sizeof(struct sockaddr_in))) {
 279                         ret = -EFAULT;
 280                         goto out;
 281                 }
 282                 ipv6_addr_set_v4mapped(sin.sin_addr.s_addr, &sin6.sin6_addr);
 283                 sin6.sin6_port = sin.sin_port;
 284         } else {
 285                 if (copy_from_user(&sin6, optval,
 286                                    sizeof(struct sockaddr_in6))) {
 287                         ret = -EFAULT;
 288                         goto out;
 289                 }
 290         }
 291
 292         rds_send_drop_to(rs, &sin6);
 293 out:
 294         return ret;
 295 }
 296
 297 static int rds_set_bool_option(unsigned char *optvar, char __user *optval,
 298                                int optlen)
 299 {
 300         int value;
 301
 302         if (optlen < sizeof(int))
 303                 return -EINVAL;
 304         if (get_user(value, (int __user *) optval))
 305                 return -EFAULT;
 306         *optvar = !!value;
 307         return 0;
 308 }
 309
 310 static int rds_cong_monitor(struct rds_sock *rs, char __user *optval,
 311                             int optlen)
 312 {
 313         int ret;
 314
 315         ret = rds_set_bool_option(&rs->rs_cong_monitor, optval, optlen);
 316         if (ret == 0) {
 317                 if (rs->rs_cong_monitor) {
 318                         rds_cong_add_socket(rs);
 319                 } else {
 320                         rds_cong_remove_socket(rs);
 321                         rs->rs_cong_mask = 0;
 322                         rs->rs_cong_notify = 0;
 323                 }
 324         }
 325         return ret;
 326 }
 327
 328 static int rds_set_transport(struct rds_sock *rs, char __user *optval,
 329                              int optlen)
 330 {
 331         int t_type;
 332
 333         if (rs->rs_transport)
 334                 return -EOPNOTSUPP; /* previously attached to transport */
 335
 336         if (optlen != sizeof(int))
 337                 return -EINVAL;
 338
 339         if (copy_from_user(&t_type, (int __user *)optval, sizeof(t_type)))
 340                 return -EFAULT;
 341
 342         if (t_type < 0 || t_type >= RDS_TRANS_COUNT)
 343                 return -EINVAL;
 344
 345         rs->rs_transport = rds_trans_get(t_type);
 346
 347         return rs->rs_transport ? 0 : -ENOPROTOOPT;
 348 }
 349
 350 static int rds_enable_recvtstamp(struct sock *sk, char __user *optval,
 351                                  int optlen)
 352 {
 353         int val, valbool;
 354
 355         if (optlen != sizeof(int))
 356                 return -EFAULT;
 357
 358         if (get_user(val, (int __user *)optval))
 359                 return -EFAULT;
 360
 361         valbool = val ? 1 : 0;
 362
 363         if (valbool)
 364                 sock_set_flag(sk, SOCK_RCVTSTAMP);
 365         else
 366                 sock_reset_flag(sk, SOCK_RCVTSTAMP);
 367
 368         return 0;
 369 }
 370
 371 static int rds_recv_track_latency(struct rds_sock *rs, char __user *optval,
 372                                   int optlen)
 373 {
 374         struct rds_rx_trace_so trace;
 375         int i;
 376
 377         if (optlen != sizeof(struct rds_rx_trace_so))
 378                 return -EFAULT;
 379
 380         if (copy_from_user(&trace, optval, sizeof(trace)))
 381                 return -EFAULT;
 382
 383         if (trace.rx_traces > RDS_MSG_RX_DGRAM_TRACE_MAX)
 384                 return -EFAULT;
 385
 386         rs->rs_rx_traces = trace.rx_traces;
 387         for (i = 0; i < rs->rs_rx_traces; i++) {
 388                 if (trace.rx_trace_pos[i] > RDS_MSG_RX_DGRAM_TRACE_MAX) {
 389                         rs->rs_rx_traces = 0;
 390                         return -EFAULT;
 391                 }
 392                 rs->rs_rx_trace[i] = trace.rx_trace_pos[i];
 393         }
 394
 395         return 0;
 396 }
 397
 398 static int rds_setsockopt(struct socket *sock, int level, int optname,
 399                           char __user *optval, unsigned int optlen)
 400 {
 401         struct rds_sock *rs = rds_sk_to_rs(sock->sk);
 402         int ret;
 403
 404         if (level != SOL_RDS) {
 405                 ret = -ENOPROTOOPT;
 406                 goto out;
 407         }
 408
 409         switch (optname) {
 410         case RDS_CANCEL_SENT_TO:
 411                 ret = rds_cancel_sent_to(rs, optval, optlen);
 412                 break;
 413         case RDS_GET_MR:
 414                 ret = rds_get_mr(rs, optval, optlen);
 415                 break;
 416         case RDS_GET_MR_FOR_DEST:
 417                 ret = rds_get_mr_for_dest(rs, optval, optlen);
 418                 break;
 419         case RDS_FREE_MR:
 420                 ret = rds_free_mr(rs, optval, optlen);
 421                 break;
 422         case RDS_RECVERR:
 423                 ret = rds_set_bool_option(&rs->rs_recverr, optval, optlen);
 424                 break;
 425         case RDS_CONG_MONITOR:
 426                 ret = rds_cong_monitor(rs, optval, optlen);
 427                 break;
 428         case SO_RDS_TRANSPORT:
 429                 lock_sock(sock->sk);
 430                 ret = rds_set_transport(rs, optval, optlen);
 431                 release_sock(sock->sk);
 432                 break;
 433         case SO_TIMESTAMP:
 434                 lock_sock(sock->sk);
 435                 ret = rds_enable_recvtstamp(sock->sk, optval, optlen);
 436                 release_sock(sock->sk);
 437                 break;
 438         case SO_RDS_MSG_RXPATH_LATENCY:
 439                 ret = rds_recv_track_latency(rs, optval, optlen);
 440                 break;
 441         default:
 442                 ret = -ENOPROTOOPT;
 443         }
 444 out:
 445         return ret;
 446 }
 447
 448 static int rds_getsockopt(struct socket *sock, int level, int optname,
 449                           char __user *optval, int __user *optlen)
 450 {
 451         struct rds_sock *rs = rds_sk_to_rs(sock->sk);
 452         int ret = -ENOPROTOOPT, len;
 453         int trans;
 454
 455         if (level != SOL_RDS)
 456                 goto out;
 457
 458         if (get_user(len, optlen)) {
 459                 ret = -EFAULT;
 460                 goto out;
 461         }
 462
 463         switch (optname) {
 464         case RDS_INFO_FIRST ... RDS_INFO_LAST:
 465                 ret = rds_info_getsockopt(sock, optname, optval,
 466                                           optlen);
 467                 break;
 468
 469         case RDS_RECVERR:
 470                 if (len < sizeof(int))
 471                         ret = -EINVAL;
 472                 else
 473                 if (put_user(rs->rs_recverr, (int __user *) optval) ||
 474                     put_user(sizeof(int), optlen))
 475                         ret = -EFAULT;
 476                 else
 477                         ret = 0;
 478                 break;
 479         case SO_RDS_TRANSPORT:
 480                 if (len < sizeof(int)) {
 481                         ret = -EINVAL;
 482                         break;
 483                 }
 484                 trans = (rs->rs_transport ? rs->rs_transport->t_type :
 485                          RDS_TRANS_NONE); /* unbound */
 486                 if (put_user(trans, (int __user *)optval) ||
 487                     put_user(sizeof(int), optlen))
 488                         ret = -EFAULT;
 489                 else
 490                         ret = 0;
 491                 break;
 492         default:
 493                 break;
 494         }
 495
 496 out:
 497         return ret;
 498
 499 }
 500
 501 static int rds_connect(struct socket *sock, struct sockaddr *uaddr,
 502                        int addr_len, int flags)
 503 {
 504         struct sock *sk = sock->sk;
 505         struct sockaddr_in *sin;
 506         struct rds_sock *rs = rds_sk_to_rs(sk);
 507         int ret = 0;
 508
 509         if (addr_len < offsetofend(struct sockaddr, sa_family))
 510                 return -EINVAL;
 511
 512         lock_sock(sk);
 513
 514         switch (uaddr->sa_family) {
 515         case AF_INET:
 516                 sin = (struct sockaddr_in *)uaddr;
 517                 if (addr_len < sizeof(struct sockaddr_in)) {
 518                         ret = -EINVAL;
 519                         break;
 520                 }
 521                 if (sin->sin_addr.s_addr == htonl(INADDR_ANY)) {
 522                         ret = -EDESTADDRREQ;
 523                         break;
 524                 }
 525                 if (IN_MULTICAST(ntohl(sin->sin_addr.s_addr)) ||
 526                     sin->sin_addr.s_addr == htonl(INADDR_BROADCAST)) {
 527                         ret = -EINVAL;
 528                         break;
 529                 }
 530                 ipv6_addr_set_v4mapped(sin->sin_addr.s_addr, &rs->rs_conn_addr);
 531                 rs->rs_conn_port = sin->sin_port;
 532                 break;
 533
 534 #if IS_ENABLED(CONFIG_IPV6)
 535         case AF_INET6: {
 536                 struct sockaddr_in6 *sin6;
 537                 int addr_type;
 538
 539                 sin6 = (struct sockaddr_in6 *)uaddr;
 540                 if (addr_len < sizeof(struct sockaddr_in6)) {
 541                         ret = -EINVAL;
 542                         break;
 543                 }
 544                 addr_type = ipv6_addr_type(&sin6->sin6_addr);
 545                 if (!(addr_type & IPV6_ADDR_UNICAST)) {
 546                         __be32 addr4;
 547
 548                         if (!(addr_type & IPV6_ADDR_MAPPED)) {
 549                                 ret = -EPROTOTYPE;
 550                                 break;
 551                         }
 552
 553                         /* It is a mapped address.  Need to do some sanity
 554                          * checks.
 555                          */
 556                         addr4 = sin6->sin6_addr.s6_addr32[3];
 557                         if (addr4 == htonl(INADDR_ANY) ||
 558                             addr4 == htonl(INADDR_BROADCAST) ||
 559                             IN_MULTICAST(ntohl(addr4))) {
 560                                 ret = -EPROTOTYPE;
 561                                 break;
 562                         }
 563                 }
 564
 565                 if (addr_type & IPV6_ADDR_LINKLOCAL) {
 566                         /* If socket is arleady bound to a link local address,
 567                          * the peer address must be on the same link.
 568                          */
 569                         if (sin6->sin6_scope_id == 0 ||
 570                             (!ipv6_addr_any(&rs->rs_bound_addr) &&
 571                              rs->rs_bound_scope_id &&
 572                              sin6->sin6_scope_id != rs->rs_bound_scope_id)) {
 573                                 ret = -EINVAL;
 574                                 break;
 575                         }
 576                         /* Remember the connected address scope ID.  It will
 577                          * be checked against the binding local address when
 578                          * the socket is bound.
 579                          */
 580                         rs->rs_bound_scope_id = sin6->sin6_scope_id;
 581                 }
 582                 rs->rs_conn_addr = sin6->sin6_addr;
 583                 rs->rs_conn_port = sin6->sin6_port;
 584                 break;
 585         }
 586 #endif
 587
 588         default:
 589                 ret = -EAFNOSUPPORT;
 590                 break;
 591         }
 592
 593         release_sock(sk);
 594         return ret;
 595 }
 596
 597 static struct proto rds_proto = {
 598         .name     = "RDS",
 599         .owner    = THIS_MODULE,
 600         .obj_size = sizeof(struct rds_sock),
 601 };
 602
 603 static const struct proto_ops rds_proto_ops = {
 604         .family =       AF_RDS,
 605         .owner =        THIS_MODULE,
 606         .release =      rds_release,
 607         .bind =         rds_bind,
 608         .connect =      rds_connect,
 609         .socketpair =   sock_no_socketpair,
 610         .accept =       sock_no_accept,
 611         .getname =      rds_getname,
 612         .poll =         rds_poll,
 613         .ioctl =        rds_ioctl,
 614         .listen =       sock_no_listen,
 615         .shutdown =     sock_no_shutdown,
 616         .setsockopt =   rds_setsockopt,
 617         .getsockopt =   rds_getsockopt,
 618         .sendmsg =      rds_sendmsg,
 619         .recvmsg =      rds_recvmsg,
 620         .mmap =         sock_no_mmap,
 621         .sendpage =     sock_no_sendpage,
 622 };
 623
 624 static void rds_sock_destruct(struct sock *sk)
 625 {
 626         struct rds_sock *rs = rds_sk_to_rs(sk);
 627
 628         WARN_ON((&rs->rs_item != rs->rs_item.next ||
 629                  &rs->rs_item != rs->rs_item.prev));
 630 }
 631
 632 static int __rds_create(struct socket *sock, struct sock *sk, int protocol)
 633 {
 634         struct rds_sock *rs;
 635
 636         sock_init_data(sock, sk);
 637         sock->ops               = &rds_proto_ops;
 638         sk->sk_protocol         = protocol;
 639         sk->sk_destruct         = rds_sock_destruct;
 640
 641         rs = rds_sk_to_rs(sk);
 642         spin_lock_init(&rs->rs_lock);
 643         rwlock_init(&rs->rs_recv_lock);
 644         INIT_LIST_HEAD(&rs->rs_send_queue);
 645         INIT_LIST_HEAD(&rs->rs_recv_queue);
 646         INIT_LIST_HEAD(&rs->rs_notify_queue);
 647         INIT_LIST_HEAD(&rs->rs_cong_list);
 648         rds_message_zcopy_queue_init(&rs->rs_zcookie_queue);
 649         spin_lock_init(&rs->rs_rdma_lock);
 650         rs->rs_rdma_keys = RB_ROOT;
 651         rs->rs_rx_traces = 0;
 652
 653         spin_lock_bh(&rds_sock_lock);
 654         list_add_tail(&rs->rs_item, &rds_sock_list);
 655         rds_sock_count++;
 656         spin_unlock_bh(&rds_sock_lock);
 657
 658         return 0;
 659 }
 660
 661 static int rds_create(struct net *net, struct socket *sock, int protocol,
 662                       int kern)
 663 {
 664         struct sock *sk;
 665
 666         if (sock->type != SOCK_SEQPACKET || protocol)
 667                 return -ESOCKTNOSUPPORT;
 668
 669         sk = sk_alloc(net, AF_RDS, GFP_ATOMIC, &rds_proto, kern);
 670         if (!sk)
 671                 return -ENOMEM;
 672
 673         return __rds_create(sock, sk, protocol);
 674 }
 675
 676 void rds_sock_addref(struct rds_sock *rs)
 677 {
 678         sock_hold(rds_rs_to_sk(rs));
 679 }
 680
 681 void rds_sock_put(struct rds_sock *rs)
 682 {
 683         sock_put(rds_rs_to_sk(rs));
 684 }
 685
 686 static const struct net_proto_family rds_family_ops = {
 687         .family =       AF_RDS,
 688         .create =       rds_create,
 689         .owner  =       THIS_MODULE,
 690 };
 691
 692 static void rds_sock_inc_info(struct socket *sock, unsigned int len,
 693                               struct rds_info_iterator *iter,
 694                               struct rds_info_lengths *lens)
 695 {
 696         struct rds_sock *rs;
 697         struct rds_incoming *inc;
 698         unsigned int total = 0;
 699
 700         len /= sizeof(struct rds_info_message);
 701
 702         spin_lock_bh(&rds_sock_lock);
 703
 704         list_for_each_entry(rs, &rds_sock_list, rs_item) {
 705                 read_lock(&rs->rs_recv_lock);
 706
 707                 /* XXX too lazy to maintain counts.. */
 708                 list_for_each_entry(inc, &rs->rs_recv_queue, i_item) {
 709                         total++;
 710                         if (total <= len)
 711                                 rds_inc_info_copy(inc, iter,
 712                                                   inc->i_saddr.s6_addr32[3],
 713                                                   rs->rs_bound_addr_v4,
 714                                                   1);
 715                 }
 716
 717                 read_unlock(&rs->rs_recv_lock);
 718         }
 719
 720         spin_unlock_bh(&rds_sock_lock);
 721
 722         lens->nr = total;
 723         lens->each = sizeof(struct rds_info_message);
 724 }
 725
 726 static void rds_sock_info(struct socket *sock, unsigned int len,
 727                           struct rds_info_iterator *iter,
 728                           struct rds_info_lengths *lens)
 729 {
 730         struct rds_info_socket sinfo;
 731         struct rds_sock *rs;
 732
 733         len /= sizeof(struct rds_info_socket);
 734
 735         spin_lock_bh(&rds_sock_lock);
 736
 737         if (len < rds_sock_count)
 738                 goto out;
 739
 740         list_for_each_entry(rs, &rds_sock_list, rs_item) {
 741                 sinfo.sndbuf = rds_sk_sndbuf(rs);
 742                 sinfo.rcvbuf = rds_sk_rcvbuf(rs);
 743                 sinfo.bound_addr = rs->rs_bound_addr_v4;
 744                 sinfo.connected_addr = rs->rs_conn_addr_v4;
 745                 sinfo.bound_port = rs->rs_bound_port;
 746                 sinfo.connected_port = rs->rs_conn_port;
 747                 sinfo.inum = sock_i_ino(rds_rs_to_sk(rs));
 748
 749                 rds_info_copy(iter, &sinfo, sizeof(sinfo));
 750         }
 751
 752 out:
 753         lens->nr = rds_sock_count;
 754         lens->each = sizeof(struct rds_info_socket);
 755
 756         spin_unlock_bh(&rds_sock_lock);
 757 }
 758
 759 static void rds_exit(void)
 760 {
 761         sock_unregister(rds_family_ops.family);
 762         proto_unregister(&rds_proto);
 763         rds_conn_exit();
 764         rds_cong_exit();
 765         rds_sysctl_exit();
 766         rds_threads_exit();
 767         rds_stats_exit();
 768         rds_page_exit();
 769         rds_bind_lock_destroy();
 770         rds_info_deregister_func(RDS_INFO_SOCKETS, rds_sock_info);
 771         rds_info_deregister_func(RDS_INFO_RECV_MESSAGES, rds_sock_inc_info);
 772 }
 773 module_exit(rds_exit);
 774
 775 u32 rds_gen_num;
 776
 777 static int rds_init(void)
 778 {
 779         int ret;
 780
 781         net_get_random_once(&rds_gen_num, sizeof(rds_gen_num));
 782
 783         ret = rds_bind_lock_init();
 784         if (ret)
 785                 goto out;
 786
 787         ret = rds_conn_init();
 788         if (ret)
 789                 goto out_bind;
 790
 791         ret = rds_threads_init();
 792         if (ret)
 793                 goto out_conn;
 794         ret = rds_sysctl_init();
 795         if (ret)
 796                 goto out_threads;
 797         ret = rds_stats_init();
 798         if (ret)
 799                 goto out_sysctl;
 800         ret = proto_register(&rds_proto, 1);
 801         if (ret)
 802                 goto out_stats;
 803         ret = sock_register(&rds_family_ops);
 804         if (ret)
 805                 goto out_proto;
 806
 807         rds_info_register_func(RDS_INFO_SOCKETS, rds_sock_info);
 808         rds_info_register_func(RDS_INFO_RECV_MESSAGES, rds_sock_inc_info);
 809
 810         goto out;
 811
 812 out_proto:
 813         proto_unregister(&rds_proto);
 814 out_stats:
 815         rds_stats_exit();
 816 out_sysctl:
 817         rds_sysctl_exit();
 818 out_threads:
 819         rds_threads_exit();
 820 out_conn:
 821         rds_conn_exit();
 822         rds_cong_exit();
 823         rds_page_exit();
 824 out_bind:
 825         rds_bind_lock_destroy();
 826 out:
 827         return ret;
 828 }
 829 module_init(rds_init);
 830
 831 #define DRV_VERSION     "4.0"
 832 #define DRV_RELDATE     "Feb 12, 2009"
 833
 834 MODULE_AUTHOR("Oracle Corporation <rds-devel@oss.oracle.com>");
 835 MODULE_DESCRIPTION("RDS: Reliable Datagram Sockets"
 836                    " v" DRV_VERSION " (" DRV_RELDATE ")");
 837 MODULE_VERSION(DRV_VERSION);
 838 MODULE_LICENSE("Dual BSD/GPL");
 839 MODULE_ALIAS_NETPROTO(PF_RDS);