addmul_1.c
上传用户:qaz666999
上传日期:2022-08-06
资源大小:2570k
文件大小:3k
源码类别:

数学计算

开发平台:

Unix_Linux

  1. /* Cray PVP/IEEE mpn_addmul_1 -- multiply a limb vector with a limb and add the
  2.    result to a second limb vector.
  3. Copyright 2000, 2001, 2002 Free Software Foundation, Inc.
  4. This file is part of the GNU MP Library.
  5. The GNU MP Library is free software; you can redistribute it and/or modify
  6. it under the terms of the GNU Lesser General Public License as published by
  7. the Free Software Foundation; either version 3 of the License, or (at your
  8. option) any later version.
  9. The GNU MP Library is distributed in the hope that it will be useful, but
  10. WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  11. or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
  12. License for more details.
  13. You should have received a copy of the GNU Lesser General Public License
  14. along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.  */
  15. /* This code runs at just under 9 cycles/limb on a T90.  That is not perfect,
  16.    mainly due to vector register shortage in the main loop.  Assembly code
  17.    should bring it down to perhaps 7 cycles/limb.  */
  18. #include <intrinsics.h>
  19. #include "gmp.h"
  20. #include "gmp-impl.h"
  21. mp_limb_t
  22. mpn_addmul_1 (mp_ptr rp, mp_srcptr up, mp_size_t n, mp_limb_t vl)
  23. {
  24.   mp_limb_t cy[n];
  25.   mp_limb_t a, b, r, s0, s1, c0, c1;
  26.   mp_size_t i;
  27.   int more_carries;
  28.   if (up == rp)
  29.     {
  30.       /* The algorithm used below cannot handle overlap.  Handle it here by
  31.  making a temporary copy of the source vector, then call ourselves.  */
  32.       mp_limb_t xp[n];
  33.       MPN_COPY (xp, up, n);
  34.       return mpn_addmul_1 (rp, xp, n, vl);
  35.     }
  36.   a = up[0] * vl;
  37.   r = rp[0];
  38.   s0 = a + r;
  39.   rp[0] = s0;
  40.   c0 = ((a & r) | ((a | r) & ~s0)) >> 63;
  41.   cy[0] = c0;
  42.   /* Main multiply loop.  Generate a raw accumulated output product in rp[]
  43.      and a carry vector in cy[].  */
  44. #pragma _CRI ivdep
  45.   for (i = 1; i < n; i++)
  46.     {
  47.       a = up[i] * vl;
  48.       b = _int_mult_upper (up[i - 1], vl);
  49.       s0 = a + b;
  50.       c0 = ((a & b) | ((a | b) & ~s0)) >> 63;
  51.       r = rp[i];
  52.       s1 = s0 + r;
  53.       rp[i] = s1;
  54.       c1 = ((s0 & r) | ((s0 | r) & ~s1)) >> 63;
  55.       cy[i] = c0 + c1;
  56.     }
  57.   /* Carry add loop.  Add the carry vector cy[] to the raw result rp[] and
  58.      store the new result back to rp[].  */
  59.   more_carries = 0;
  60. #pragma _CRI ivdep
  61.   for (i = 1; i < n; i++)
  62.     {
  63.       r = rp[i];
  64.       c0 = cy[i - 1];
  65.       s0 = r + c0;
  66.       rp[i] = s0;
  67.       c0 = (r & ~s0) >> 63;
  68.       more_carries += c0;
  69.     }
  70.   /* If that second loop generated carry, handle that in scalar loop.  */
  71.   if (more_carries)
  72.     {
  73.       mp_limb_t cyrec = 0;
  74.       /* Look for places where rp[k] == 0 and cy[k-1] == 1 or
  75.  rp[k] == 1 and cy[k-1] == 2.
  76.  These are where we got a recurrency carry.  */
  77.       for (i = 1; i < n; i++)
  78. {
  79.   r = rp[i];
  80.   c0 = r < cy[i - 1];
  81.   s0 = r + cyrec;
  82.   rp[i] = s0;
  83.   c1 = (r & ~s0) >> 63;
  84.   cyrec = c0 | c1;
  85. }
  86.       return _int_mult_upper (up[n - 1], vl) + cyrec + cy[n - 1];
  87.     }
  88.   return _int_mult_upper (up[n - 1], vl) + cy[n - 1];
  89. }