hamdist.asm
上传用户:qaz666999
上传日期:2022-08-06
资源大小:2570k
文件大小:3k
源码类别:

数学计算

开发平台:

Unix_Linux

  1. dnl  Intel P5 mpn_hamdist -- mpn hamming distance.
  2. dnl  Copyright 2001, 2002 Free Software Foundation, Inc.
  3. dnl
  4. dnl  This file is part of the GNU MP Library.
  5. dnl
  6. dnl  The GNU MP Library is free software; you can redistribute it and/or
  7. dnl  modify it under the terms of the GNU Lesser General Public License as
  8. dnl  published by the Free Software Foundation; either version 3 of the
  9. dnl  License, or (at your option) any later version.
  10. dnl
  11. dnl  The GNU MP Library is distributed in the hope that it will be useful,
  12. dnl  but WITHOUT ANY WARRANTY; without even the implied warranty of
  13. dnl  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14. dnl  Lesser General Public License for more details.
  15. dnl
  16. dnl  You should have received a copy of the GNU Lesser General Public License
  17. dnl  along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.
  18. include(`../config.m4')
  19. C P5: 14.0 cycles/limb
  20. C unsigned long mpn_hamdist (mp_srcptr src1, mp_srcptr src2, mp_size_t size);
  21. C
  22. C It might be possible to shave 1 cycle from the loop, and hence 2
  23. C cycles/limb.  The xorb is taking 2 cycles, but a separate load and xor
  24. C would be 1, if the right schedule could be found (not found so far).
  25. C Wanting to avoid potential cache bank clashes makes it tricky.
  26. C The slightly strange quoting here helps the renaming done by tune/many.pl.
  27. deflit(TABLE_NAME,
  28. m4_assert_defined(`GSYM_PREFIX')
  29. GSYM_PREFIX`'mpn_popcount``'_table')
  30. defframe(PARAM_SIZE,12)
  31. defframe(PARAM_SRC2, 8)
  32. defframe(PARAM_SRC1, 4)
  33. TEXT
  34. ALIGN(8)
  35. PROLOGUE(mpn_hamdist)
  36. deflit(`FRAME',0)
  37. movl PARAM_SIZE, %ecx
  38. pushl %esi FRAME_pushl()
  39. shll %ecx C size in byte pairs
  40. pushl %edi FRAME_pushl()
  41. ifdef(`PIC',`
  42. pushl %ebx FRAME_pushl()
  43. pushl %ebp FRAME_pushl()
  44. call L(here) FRAME_pushl()
  45. L(here):
  46. movl PARAM_SRC1, %esi
  47. popl %ebp FRAME_popl()
  48. movl PARAM_SRC2, %edi
  49. addl $_GLOBAL_OFFSET_TABLE_+[.-L(here)], %ebp
  50. xorl %ebx, %ebx C byte
  51. xorl %edx, %edx C byte
  52. movl TABLE_NAME@GOT(%ebp), %ebp
  53. xorl %eax, %eax C total
  54. define(TABLE,`(%ebp,$1)')
  55. ',`
  56. dnl non-PIC
  57. movl PARAM_SRC1, %esi
  58. movl PARAM_SRC2, %edi
  59. xorl %eax, %eax C total
  60. pushl %ebx FRAME_pushl()
  61. xorl %edx, %edx C byte
  62. xorl %ebx, %ebx C byte
  63. define(TABLE,`TABLE_NAME($1)')
  64. ')
  65. C The nop after the xorb seems necessary.  Although a movb might be
  66. C expected to go down the V pipe in the second cycle of the xorb, it
  67. C doesn't and costs an extra 2 cycles.
  68. L(top):
  69. C eax total
  70. C ebx byte
  71. C ecx counter, 2*size to 2
  72. C edx byte
  73. C esi src1
  74. C edi src2
  75. C ebp [PIC] table
  76. addl %ebx, %eax
  77. movb -1(%esi,%ecx,2), %bl
  78. addl %edx, %eax
  79. movb -1(%edi,%ecx,2), %dl
  80. xorb %dl, %bl
  81. movb -2(%esi,%ecx,2), %dl
  82. xorb -2(%edi,%ecx,2), %dl
  83. nop
  84. movb TABLE(%ebx), %bl
  85. decl %ecx
  86. movb TABLE(%edx), %dl
  87. jnz L(top)
  88. ifdef(`PIC',`
  89. popl %ebp
  90. ')
  91. addl %ebx, %eax
  92. popl %ebx
  93. addl %edx, %eax
  94. popl %edi
  95. popl %esi
  96. ret
  97. EPILOGUE()