aors_n.asm
上传用户:qaz666999
上传日期:2022-08-06
资源大小:2570k
文件大小:2k
源码类别:

数学计算

开发平台:

Unix_Linux

  1. dnl  Intel P6-15 mpn_add_n/mpn_sub_n -- mpn add or subtract.
  2. dnl  Copyright 2006, 2007 Free Software Foundation, Inc.
  3. dnl  This file is part of the GNU MP Library.
  4. dnl  The GNU MP Library is free software; you can redistribute it and/or modify
  5. dnl  it under the terms of the GNU Lesser General Public License as published
  6. dnl  by the Free Software Foundation; either version 3 of the License, or (at
  7. dnl  your option) any later version.
  8. dnl  The GNU MP Library is distributed in the hope that it will be useful, but
  9. dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  10. dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
  11. dnl  License for more details.
  12. dnl  You should have received a copy of the GNU Lesser General Public License
  13. dnl  along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.
  14. include(`../config.m4')
  15. C      cycles/limb
  16. C K8,K9:  2.25
  17. C K10:  2
  18. C P4: 10
  19. C P6 core2:  2.05
  20. C P6 corei7:  2.3
  21. C INPUT PARAMETERS
  22. define(`rp', `%rdi')
  23. define(`up', `%rsi')
  24. define(`vp', `%rdx')
  25. define(`n', `%rcx')
  26. define(`cy', `%r8')
  27. ifdef(`OPERATION_add_n', `
  28. define(ADCSBB,       adc)
  29. define(func,       mpn_add_n)
  30. define(func_nc,       mpn_add_nc)')
  31. ifdef(`OPERATION_sub_n', `
  32. define(ADCSBB,       sbb)
  33. define(func,       mpn_sub_n)
  34. define(func_nc,       mpn_sub_nc)')
  35. MULFUNC_PROLOGUE(mpn_add_n mpn_add_nc mpn_sub_n mpn_sub_nc)
  36. ASM_START()
  37. TEXT
  38. ALIGN(16)
  39. PROLOGUE(func_nc)
  40. jmp L(start)
  41. EPILOGUE()
  42. PROLOGUE(func)
  43. xor %r8, %r8
  44. L(start):
  45. mov (up), %r10
  46. mov (vp), %r11
  47. lea -8(up,n,8), up
  48. lea -8(vp,n,8), vp
  49. lea -16(rp,n,8), rp
  50. mov %ecx, %eax
  51. neg n
  52. and $3, %eax
  53. je L(b00)
  54. add %rax, n C clear low rcx bits for jrcxz
  55. cmp $2, %eax
  56. jl L(b01)
  57. je L(b10)
  58. L(b11): shr %r8 C set cy
  59. jmp L(e11)
  60. L(b00): shr %r8 C set cy
  61. mov %r10, %r8
  62. mov %r11, %r9
  63. lea 4(n), n
  64. jmp L(e00)
  65. L(b01): shr %r8 C set cy
  66. jmp L(e01)
  67. L(b10): shr %r8 C set cy
  68. mov %r10, %r8
  69. mov %r11, %r9
  70. jmp L(e10)
  71. L(end): ADCSBB %r11, %r10
  72. mov %r10, 8(rp)
  73. mov %ecx, %eax C clear eax, ecx contains 0
  74. adc %eax, %eax
  75. ret
  76. ALIGN(16)
  77. L(top):
  78. mov -24(up,n,8), %r8
  79. mov -24(vp,n,8), %r9
  80. ADCSBB %r11, %r10
  81. mov %r10, -24(rp,n,8)
  82. L(e00):
  83. mov -16(up,n,8), %r10
  84. mov -16(vp,n,8), %r11
  85. ADCSBB %r9, %r8
  86. mov %r8, -16(rp,n,8)
  87. L(e11):
  88. mov -8(up,n,8), %r8
  89. mov -8(vp,n,8), %r9
  90. ADCSBB %r11, %r10
  91. mov %r10, -8(rp,n,8)
  92. L(e10):
  93. mov (up,n,8), %r10
  94. mov (vp,n,8), %r11
  95. ADCSBB %r9, %r8
  96. mov %r8, (rp,n,8)
  97. L(e01):
  98. jrcxz L(end)
  99. lea 4(n), n
  100. jmp L(top)
  101. EPILOGUE()