mul_2.asm
上传用户:qaz666999
上传日期:2022-08-06
资源大小:2570k
文件大小:3k
源码类别:

数学计算

开发平台:

Unix_Linux

  1. dnl  AMD64 mpn_mul_2 -- Multiply an n-limb vector with a 2-limb vector and
  2. dnl  store the result in a third limb vector.
  3. dnl  Copyright 2008 Free Software Foundation, Inc.
  4. dnl  This file is part of the GNU MP Library.
  5. dnl  The GNU MP Library is free software; you can redistribute it and/or modify
  6. dnl  it under the terms of the GNU Lesser General Public License as published
  7. dnl  by the Free Software Foundation; either version 3 of the License, or (at
  8. dnl  your option) any later version.
  9. dnl  The GNU MP Library is distributed in the hope that it will be useful, but
  10. dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  11. dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
  12. dnl  License for more details.
  13. dnl  You should have received a copy of the GNU Lesser General Public License
  14. dnl  along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.
  15. include(`../config.m4')
  16. C      cycles/limb
  17. C K8,K9:  2.275
  18. C K10:  2.275
  19. C P4:  ?
  20. C P6 core2:  4.0
  21. C P6 corei7:  3.8
  22. C This code is the result of running a code generation and optimization tool
  23. C suite written by David Harvey and Torbjorn Granlund.
  24. C TODO
  25. C  * Work on feed-in and wind-down code.
  26. C  * Convert "mov $0" to "xor".
  27. C  * Adjust initial lea to save some bytes.
  28. C  * Perhaps adjust n from n_param&3 value?
  29. C  * Replace with 2.25 c/l sequence.
  30. C INPUT PARAMETERS
  31. define(`rp',  `%rdi')
  32. define(`up',  `%rsi')
  33. define(`n_param',`%rdx')
  34. define(`vp',  `%rcx')
  35. define(`v0', `%r8')
  36. define(`v1', `%r9')
  37. define(`w0', `%rbx')
  38. define(`w1', `%rcx')
  39. define(`w2', `%rbp')
  40. define(`w3', `%r10')
  41. define(`n',  `%r11')
  42. ASM_START()
  43. TEXT
  44. ALIGN(16)
  45. PROLOGUE(mpn_mul_2)
  46. push %rbx
  47. push %rbp
  48. mov (vp), v0
  49. mov 8(vp), v1
  50. mov (up), %rax
  51. mov n_param, n
  52. neg n
  53. lea -8(up,n_param,8), up
  54. lea -8(rp,n_param,8), rp
  55. and $3, R32(n_param)
  56. jz L(m2p0)
  57. cmp $2, R32(n_param)
  58. jc L(m2p1)
  59. jz L(m2p2)
  60. L(m2p3):
  61. mul v0
  62. xor R32(w3), R32(w3)
  63. mov %rax, w1
  64. mov %rdx, w2
  65. mov 8(up,n,8), %rax
  66. add $-1, n
  67. mul v1
  68. add %rax, w2
  69. jmp L(m23)
  70. L(m2p0):
  71. mul v0
  72. xor R32(w2), R32(w2)
  73. mov %rax, w0
  74. mov %rdx, w1
  75. jmp L(m20)
  76. L(m2p1):
  77. mul v0
  78. xor R32(w3), R32(w3)
  79. xor R32(w0), R32(w0)
  80. xor R32(w1), R32(w1)
  81. add $1, n
  82. jmp L(m2top)
  83. L(m2p2):
  84. mul v0
  85. xor R32(w0), R32(w0)
  86. xor R32(w1), R32(w1)
  87. mov %rax, w2
  88. mov %rdx, w3
  89. mov 8(up,n,8), %rax
  90. add $-2, n
  91. jmp L(m22)
  92. ALIGN(32)
  93. L(m2top):
  94. add %rax, w3
  95. adc %rdx, w0
  96. mov 0(up,n,8), %rax
  97. adc $0, R32(w1)
  98. mov $0, R32(w2)
  99. mul v1
  100. add %rax, w0
  101. mov w3, 0(rp,n,8)
  102. adc %rdx, w1
  103. mov 8(up,n,8), %rax
  104. mul v0
  105. add %rax, w0
  106. adc %rdx, w1
  107. adc $0, R32(w2)
  108. L(m20): mov 8(up,n,8), %rax
  109. mul v1
  110. add %rax, w1
  111. adc %rdx, w2
  112. mov 16(up,n,8), %rax
  113. mov $0, R32(w3)
  114. mul v0
  115. add %rax, w1
  116. mov 16(up,n,8), %rax
  117. adc %rdx, w2
  118. adc $0, R32(w3)
  119. mul v1
  120. add %rax, w2
  121. mov w0, 8(rp,n,8)
  122. L(m23): adc %rdx, w3
  123. mov 24(up,n,8), %rax
  124. mul v0
  125. mov $0, R32(w0)
  126. add %rax, w2
  127. adc %rdx, w3
  128. mov w1, 16(rp,n,8)
  129. mov 24(up,n,8), %rax
  130. mov $0, R32(w1)
  131. adc $0, R32(w0)
  132. L(m22): mul v1
  133. add %rax, w3
  134. mov w2, 24(rp,n,8)
  135. adc %rdx, w0
  136. mov 32(up,n,8), %rax
  137. mul v0
  138. add $4, n
  139. js L(m2top)
  140. add %rax, w3
  141. adc %rdx, w0
  142. adc $0, R32(w1)
  143. mov (up), %rax
  144. mul v1
  145. mov w3, (rp)
  146. add %rax, w0
  147. adc %rdx, w1
  148. mov w0, 8(rp)
  149. mov w1, %rax
  150. pop %rbp
  151. pop %rbx
  152. ret
  153. EPILOGUE()