README
上传用户:qaz666999
上传日期:2022-08-06
资源大小:2570k
文件大小:3k
源码类别:

数学计算

开发平台:

Unix_Linux

  1. Copyright 1996, 1999, 2001, 2002, 2004 Free Software Foundation, Inc.
  2. This file is part of the GNU MP Library.
  3. The GNU MP Library is free software; you can redistribute it and/or modify
  4. it under the terms of the GNU Lesser General Public License as published by
  5. the Free Software Foundation; either version 3 of the License, or (at your
  6. option) any later version.
  7. The GNU MP Library is distributed in the hope that it will be useful, but
  8. WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  9. or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
  10. License for more details.
  11. You should have received a copy of the GNU Lesser General Public License
  12. along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.
  13. This directory contains mpn functions for various HP PA-RISC chips.  Code
  14. that runs faster on the PA7100 and later implementations, is in the pa7100
  15. directory.
  16. RELEVANT OPTIMIZATION ISSUES
  17.   Load and Store timing
  18. On the PA7000 no memory instructions can issue the two cycles after a store.
  19. For the PA7100, this is reduced to one cycle.
  20. The PA7100 has a lookup-free cache, so it helps to schedule loads and the
  21. dependent instruction really far from each other.
  22. STATUS
  23. 1. mpn_mul_1 could be improved to 6.5 cycles/limb on the PA7100, using the
  24.    instructions below (but some sw pipelining is needed to avoid the
  25.    xmpyu-fstds delay):
  26. fldds s1_ptr
  27. xmpyu
  28. fstds N(%r30)
  29. xmpyu
  30. fstds N(%r30)
  31. ldws N(%r30)
  32. ldws N(%r30)
  33. ldws N(%r30)
  34. ldws N(%r30)
  35. addc
  36. stws res_ptr
  37. addc
  38. stws res_ptr
  39. addib Loop
  40. 2. mpn_addmul_1 could be improved from the current 10 to 7.5 cycles/limb
  41.    (asymptotically) on the PA7100, using the instructions below.  With proper
  42.    sw pipelining and the unrolling level below, the speed becomes 8
  43.    cycles/limb.
  44. fldds s1_ptr
  45. fldds s1_ptr
  46. xmpyu
  47. fstds N(%r30)
  48. xmpyu
  49. fstds N(%r30)
  50. xmpyu
  51. fstds N(%r30)
  52. xmpyu
  53. fstds N(%r30)
  54. ldws N(%r30)
  55. ldws N(%r30)
  56. ldws N(%r30)
  57. ldws N(%r30)
  58. ldws N(%r30)
  59. ldws N(%r30)
  60. ldws N(%r30)
  61. ldws N(%r30)
  62. addc
  63. addc
  64. addc
  65. addc
  66. addc %r0,%r0,cy-limb
  67. ldws res_ptr
  68. ldws res_ptr
  69. ldws res_ptr
  70. ldws res_ptr
  71. add
  72. stws res_ptr
  73. addc
  74. stws res_ptr
  75. addc
  76. stws res_ptr
  77. addc
  78. stws res_ptr
  79. addib
  80. 3. For the PA8000 we have to stick to using 32-bit limbs before compiler
  81.    support emerges.  But we want to use 64-bit operations whenever possible,
  82.    in particular for loads and stores.  It is possible to handle mpn_add_n
  83.    efficiently by rotating (when s1/s2 are aligned), masking+bit field
  84.    inserting when (they are not).  The speed should double compared to the
  85.    code used today.
  86. LABEL SYNTAX
  87. The HP-UX assembler takes labels starting in column 0 with no colon,
  88. L$loop  ldws,mb -4(0,%r25),%r22
  89. Gas on hppa GNU/Linux however requires a colon,
  90. L$loop: ldws,mb -4(0,%r25),%r22
  91. This is covered by using LDEF() from asm-defs.m4.  An alternative would be
  92. to use ".label" which is accepted by both,
  93. .label  L$loop
  94. ldws,mb -4(0,%r25),%r22
  95. but that's not as nice to look at, not if you're used to assembler code
  96. having labels in column 0.
  97. REFERENCES
  98. Hewlett Packard, "HP Assembler Reference Manual", 9th edition, June 1998,
  99. part number 92432-90012.
  100. ----------------
  101. Local variables:
  102. mode: text
  103. fill-column: 76
  104. End: