addmul_2.asm
上传用户:qaz666999
上传日期:2022-08-06
资源大小:2570k
文件大小:3k
源码类别:

数学计算

开发平台:

Unix_Linux

  1. dnl  AMD64 mpn_addmul_2 -- Multiply an n-limb vector with a 2-limb vector and
  2. dnl  add the result to a third limb vector.
  3. dnl  Copyright 2008 Free Software Foundation, Inc.
  4. dnl  This file is part of the GNU MP Library.
  5. dnl  The GNU MP Library is free software; you can redistribute it and/or modify
  6. dnl  it under the terms of the GNU Lesser General Public License as published
  7. dnl  by the Free Software Foundation; either version 3 of the License, or (at
  8. dnl  your option) any later version.
  9. dnl  The GNU MP Library is distributed in the hope that it will be useful, but
  10. dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  11. dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
  12. dnl  License for more details.
  13. dnl  You should have received a copy of the GNU Lesser General Public License
  14. dnl  along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.
  15. include(`../config.m4')
  16. C      cycles/limb
  17. C K8,K9:  2.375
  18. C K10:  2.375
  19. C P4:  ?
  20. C P6 core2:  4.45
  21. C P6 corei7:  4.35
  22. C This code is the result of running a code generation and optimization tool
  23. C suite written by David Harvey and Torbjorn Granlund.
  24. C TODO
  25. C  * Work on feed-in and wind-down code.
  26. C  * Convert "mov $0" to "xor".
  27. C  * Adjust initial lea to save some bytes.
  28. C  * Perhaps adjust n from n_param&3 value?
  29. C INPUT PARAMETERS
  30. define(`rp',     `%rdi')
  31. define(`up',     `%rsi')
  32. define(`n_param',`%rdx')
  33. define(`vp',     `%rcx')
  34. define(`v0', `%r8')
  35. define(`v1', `%r9')
  36. define(`w0', `%rbx')
  37. define(`w1', `%rcx')
  38. define(`w2', `%rbp')
  39. define(`w3', `%r10')
  40. define(`n',  `%r11')
  41. ASM_START()
  42. TEXT
  43. ALIGN(16)
  44. PROLOGUE(mpn_addmul_2)
  45. push %rbx
  46. push %rbp
  47. mov (vp), v0
  48. mov 8(vp), v1
  49. mov n_param, n
  50. neg n
  51. lea -32(up,n_param,8), up
  52. lea -32(rp,n_param,8), rp
  53. and $3, R32(n_param)
  54. jz L(am2p0)
  55. cmp $2, R32(n_param)
  56. jc L(am2p1)
  57. jz L(am2p2)
  58. L(am2p3):
  59. mov 32(up,n,8), %rax
  60. mul v0
  61. mov %rax, w1
  62. mov 32(up,n,8), %rax
  63. mov %rdx, w2
  64. xor R32(w3), R32(w3)
  65. add $2, n
  66. jmp L(am3)
  67. L(am2p0):
  68. mov 32(up,n,8), %rax
  69. mul v0
  70. mov %rax, w0
  71. mov 32(up,n,8), %rax
  72. mov %rdx, w1
  73. xor R32(w2), R32(w2)
  74. add $3, n
  75. jmp L(am0)
  76. L(am2p1):
  77. mov 32(up,n,8), %rax
  78. mul v0
  79. mov %rax, w3
  80. mov 32(up,n,8), %rax
  81. mov %rdx, w0
  82. xor R32(w1), R32(w1)
  83. jmp L(am1)
  84. L(am2p2):
  85. mov 32(up,n,8), %rax
  86. mul v0
  87. mov %rax, w2
  88. mov 32(up,n,8), %rax
  89. mov %rdx, w3
  90. xor R32(w0), R32(w0)
  91. xor R32(w1), R32(w1)
  92. add $1, n
  93. jmp L(am2)
  94. ALIGN(32)
  95. L(top):
  96. add w3, (rp,n,8) C 0 21
  97. adc %rax, w0 C 1 24
  98. mov 8(up,n,8), %rax
  99. adc %rdx, w1 C 3 26
  100. mov $0, R32(w2)
  101. mul v0
  102. add %rax, w0 C 2 26
  103. mov 8(up,n,8), %rax
  104. adc %rdx, w1 C 4 28
  105. adc $0, R32(w2) C 6 30
  106. L(am0): mul v1
  107. add w0, 8(rp,n,8) C 3 27
  108. adc %rax, w1 C 6 30
  109. adc %rdx, w2 C 8 32
  110. mov 16(up,n,8), %rax
  111. mov $0, R32(w3)
  112. mul v0
  113. add %rax, w1 C 8
  114. mov 16(up,n,8), %rax
  115. adc %rdx, w2 C 10
  116. adc $0, R32(w3) C 12
  117. L(am3): mul v1
  118. add w1, 16(rp,n,8) C 9
  119. adc %rax, w2 C 12
  120. mov 24(up,n,8), %rax
  121. adc %rdx, w3 C 14
  122. mul v0
  123. mov $0, R32(w0)
  124. add %rax, w2 C 14
  125. adc %rdx, w3 C 16
  126. mov $0, R32(w1)
  127. mov 24(up,n,8), %rax
  128. adc $0, R32(w0) C 18
  129. L(am2): mul v1
  130. add w2, 24(rp,n,8) C 15
  131. adc %rax, w3 C 18
  132. adc %rdx, w0 C 20
  133. mov 32(up,n,8), %rax
  134. mul v0
  135. add %rax, w3 C 20
  136. mov 32(up,n,8), %rax
  137. adc %rdx, w0 C 22
  138. adc $0, R32(w1) C 24
  139. L(am1): mul v1
  140. add $4, n
  141. js L(top)
  142. add w3, (rp,n,8)
  143. adc %rax, w0
  144. adc %rdx, w1
  145. mov w0, 8(rp,n,8)
  146. mov w1, %rax
  147. pop %rbp
  148. pop %rbx
  149. ret
  150. EPILOGUE()