diveby3.c
上传用户:qaz666999
上传日期:2022-08-06
资源大小:2570k
文件大小:5k
源码类别:

数学计算

开发平台:

Unix_Linux

  1. /* mpn_divexact_by3c -- mpn exact division by 3.
  2. Copyright 2000, 2001, 2002, 2003, 2008 Free Software Foundation, Inc.
  3. This file is part of the GNU MP Library.
  4. The GNU MP Library is free software; you can redistribute it and/or modify
  5. it under the terms of the GNU Lesser General Public License as published by
  6. the Free Software Foundation; either version 3 of the License, or (at your
  7. option) any later version.
  8. The GNU MP Library is distributed in the hope that it will be useful, but
  9. WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  10. or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
  11. License for more details.
  12. You should have received a copy of the GNU Lesser General Public License
  13. along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.  */
  14. #include "gmp.h"
  15. #include "gmp-impl.h"
  16. #if DIVEXACT_BY3_METHOD == 0
  17. mp_limb_t
  18. mpn_divexact_by3c (mp_ptr rp, mp_srcptr up, mp_size_t un, mp_limb_t c)
  19. {
  20.   mp_limb_t r;
  21.   r = mpn_bdiv_dbm1c (rp, up, un, GMP_NUMB_MASK / 3, GMP_NUMB_MASK / 3 * c);
  22.   /* Possible bdiv_dbm1 return values are C * (GMP_NUMB_MASK / 3), 0 <= C < 3.
  23.      We want to return C.  We compute the remainder mod 4 and notice that the
  24.      inverse of (2^(2k)-1)/3 mod 4 is 1.  */
  25.   return r & 3;
  26. }
  27. #endif
  28. #if DIVEXACT_BY3_METHOD == 1
  29. /* The algorithm here is basically the same as mpn_divexact_1, as described
  30.    in the manual.  Namely at each step q = (src[i]-c)*inverse, and new c =
  31.    borrow(src[i]-c) + high(divisor*q).  But because the divisor is just 3,
  32.    high(divisor*q) can be determined with two comparisons instead of a
  33.    multiply.
  34.    The "c += ..."s add the high limb of 3*l to c.  That high limb will be 0,
  35.    1 or 2.  Doing two separate "+="s seems to give better code on gcc (as of
  36.    2.95.2 at least).
  37.    It will be noted that the new c is formed by adding three values each 0
  38.    or 1.  But the total is only 0, 1 or 2.  When the subtraction src[i]-c
  39.    causes a borrow, that leaves a limb value of either 0xFF...FF or
  40.    0xFF...FE.  The multiply by MODLIMB_INVERSE_3 gives 0x55...55 or
  41.    0xAA...AA respectively, and in those cases high(3*q) is only 0 or 1
  42.    respectively, hence a total of no more than 2.
  43.    Alternatives:
  44.    This implementation has each multiply on the dependent chain, due to
  45.    "l=s-c".  See below for alternative code which avoids that.  */
  46. mp_limb_t
  47. mpn_divexact_by3c (mp_ptr restrict rp, mp_srcptr restrict up, mp_size_t un, mp_limb_t c)
  48. {
  49.   mp_limb_t  l, q, s;
  50.   mp_size_t  i;
  51.   ASSERT (un >= 1);
  52.   ASSERT (c == 0 || c == 1 || c == 2);
  53.   ASSERT (MPN_SAME_OR_SEPARATE_P (rp, up, un));
  54.   i = 0;
  55.   do
  56.     {
  57.       s = up[i];
  58.       SUBC_LIMB (c, l, s, c);
  59.       q = (l * MODLIMB_INVERSE_3) & GMP_NUMB_MASK;
  60.       rp[i] = q;
  61.       c += (q >= GMP_NUMB_CEIL_MAX_DIV3);
  62.       c += (q >= GMP_NUMB_CEIL_2MAX_DIV3);
  63.     }
  64.   while (++i < un);
  65.   ASSERT (c == 0 || c == 1 || c == 2);
  66.   return c;
  67. }
  68. #endif
  69. #if DIVEXACT_BY3_METHOD == 2
  70. /* The following alternative code re-arranges the quotient calculation from
  71.    (src[i]-c)*inverse to instead
  72.        q = src[i]*inverse - c*inverse
  73.    thereby allowing src[i]*inverse to be scheduled back as far as desired,
  74.    making full use of multiplier throughput and leaving just some carry
  75.    handing on the dependent chain.
  76.    The carry handling consists of determining the c for the next iteration.
  77.    This is the same as described above, namely look for any borrow from
  78.    src[i]-c, and at the high of 3*q.
  79.    high(3*q) is done with two comparisons as above (in c2 and c3).  The
  80.    borrow from src[i]-c is incorporated into those by noting that if there's
  81.    a carry then then we have src[i]-c == 0xFF..FF or 0xFF..FE, in turn
  82.    giving q = 0x55..55 or 0xAA..AA.  Adding 1 to either of those q values is
  83.    enough to make high(3*q) come out 1 bigger, as required.
  84.    l = -c*inverse is calculated at the same time as c, since for most chips
  85.    it can be more conveniently derived from separate c1/c2/c3 values than
  86.    from a combined c equal to 0, 1 or 2.
  87.    The net effect is that with good pipelining this loop should be able to
  88.    run at perhaps 4 cycles/limb, depending on available execute resources
  89.    etc.
  90.    Usage:
  91.    This code is not used by default, since we really can't rely on the
  92.    compiler generating a good software pipeline, nor on such an approach
  93.    even being worthwhile on all CPUs.
  94.    Itanium is one chip where this algorithm helps though, see
  95.    mpn/ia64/diveby3.asm.  */
  96. mp_limb_t
  97. mpn_divexact_by3c (mp_ptr restrict rp, mp_srcptr restrict up, mp_size_t un, mp_limb_t cy)
  98. {
  99.   mp_limb_t  s, sm, cl, q, qx, c2, c3;
  100.   mp_size_t  i;
  101.   ASSERT (un >= 1);
  102.   ASSERT (cy == 0 || cy == 1 || cy == 2);
  103.   ASSERT (MPN_SAME_OR_SEPARATE_P (rp, up, un));
  104.   cl = cy == 0 ? 0 : cy == 1 ? -MODLIMB_INVERSE_3 : -2*MODLIMB_INVERSE_3;
  105.   for (i = 0; i < un; i++)
  106.     {
  107.       s = up[i];
  108.       sm = (s * MODLIMB_INVERSE_3) & GMP_NUMB_MASK;
  109.       q = (cl + sm) & GMP_NUMB_MASK;
  110.       rp[i] = q;
  111.       qx = q + (s < cy);
  112.       c2 = qx >= GMP_NUMB_CEIL_MAX_DIV3;
  113.       c3 = qx >= GMP_NUMB_CEIL_2MAX_DIV3 ;
  114.       cy = c2 + c3;
  115.       cl = (-c2 & -MODLIMB_INVERSE_3) + (-c3 & -MODLIMB_INVERSE_3);
  116.     }
  117.   return cy;
  118. }
  119. #endif