xor.h
上传用户:jlfgdled
上传日期:2013-04-10
资源大小:33168k
文件大小:5k
源码类别:

Linux/Unix编程

开发平台:

Unix_Linux

  1. /*
  2.  * include/asm-ia64/xor.h
  3.  *
  4.  * Optimized RAID-5 checksumming functions for IA-64.
  5.  *
  6.  * This program is free software; you can redistribute it and/or modify
  7.  * it under the terms of the GNU General Public License as published by
  8.  * the Free Software Foundation; either version 2, or (at your option)
  9.  * any later version.
  10.  *
  11.  * You should have received a copy of the GNU General Public License
  12.  * (for example /usr/src/linux/COPYING); if not, write to the Free
  13.  * Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  14.  */
  15. extern void xor_ia64_2(unsigned long, unsigned long *, unsigned long *);
  16. extern void xor_ia64_3(unsigned long, unsigned long *, unsigned long *,
  17.        unsigned long *);
  18. extern void xor_ia64_4(unsigned long, unsigned long *, unsigned long *,
  19.        unsigned long *, unsigned long *);
  20. extern void xor_ia64_5(unsigned long, unsigned long *, unsigned long *,
  21.        unsigned long *, unsigned long *, unsigned long *);
  22. asm ("
  23. .text
  24. // Assume L2 memory latency of 6 cycles.
  25. .proc xor_ia64_2
  26. xor_ia64_2:
  27. .prologue
  28. .fframe 0
  29. { .mii
  30.   .save ar.pfs, r31
  31.   alloc r31 = ar.pfs, 3, 0, 13, 16
  32.   .save ar.lc, r30
  33.   mov r30 = ar.lc
  34.   .save pr, r29
  35.   mov r29 = pr
  36.   ;;
  37. }
  38. .body
  39. { .mii
  40.   mov r8 = in1
  41.   mov ar.ec = 6 + 2
  42.   shr in0 = in0, 3
  43.   ;;
  44. }
  45. { .mmi
  46.   adds in0 = -1, in0
  47.   mov r16 = in1
  48.   mov r17 = in2
  49.   ;;
  50. }
  51. { .mii
  52.   mov ar.lc = in0
  53.   mov pr.rot = 1 << 16
  54.   ;;
  55. }
  56. .rotr s1[6+1], s2[6+1], d[2]
  57. .rotp p[6+2]
  58. 0:  { .mmi
  59. (p[0])   ld8.nta s1[0] = [r16], 8
  60. (p[0])   ld8.nta s2[0] = [r17], 8
  61. (p[6])   xor d[0] = s1[6], s2[6]
  62. }
  63. { .mfb
  64. (p[6+1])  st8.nta [r8] = d[1], 8
  65.   nop.f 0
  66.   br.ctop.dptk.few 0b
  67.   ;;
  68. }
  69. { .mii
  70.   mov ar.lc = r30
  71.   mov pr = r29, -1
  72. }
  73. { .bbb
  74.   br.ret.sptk.few rp
  75. }
  76. .endp xor_ia64_2
  77. .proc xor_ia64_3
  78. xor_ia64_3:
  79. .prologue
  80. .fframe 0
  81. { .mii
  82.   .save ar.pfs, r31
  83.   alloc r31 = ar.pfs, 4, 0, 20, 24
  84.   .save ar.lc, r30
  85.   mov r30 = ar.lc
  86.   .save pr, r29
  87.   mov r29 = pr
  88.   ;;
  89. }
  90. .body
  91. { .mii
  92.   mov r8 = in1
  93.   mov ar.ec = 6 + 2
  94.   shr in0 = in0, 3
  95.   ;;
  96. }
  97. { .mmi
  98.   adds in0 = -1, in0
  99.   mov r16 = in1
  100.   mov r17 = in2
  101.   ;;
  102. }
  103. { .mii
  104.   mov r18 = in3
  105.   mov ar.lc = in0
  106.   mov pr.rot = 1 << 16
  107.   ;;
  108. }
  109. .rotr s1[6+1], s2[6+1], s3[6+1], d[2]
  110. .rotp p[6+2]
  111. 0: { .mmi
  112. (p[0])   ld8.nta s1[0] = [r16], 8
  113. (p[0])   ld8.nta s2[0] = [r17], 8
  114. (p[6])   xor d[0] = s1[6], s2[6]
  115.   ;;
  116. }
  117. { .mmi
  118. (p[0])   ld8.nta s3[0] = [r18], 8
  119. (p[6+1])  st8.nta [r8] = d[1], 8
  120. (p[6])   xor d[0] = d[0], s3[6]
  121. }
  122. { .bbb
  123.   br.ctop.dptk.few 0b
  124.   ;;
  125. }
  126. { .mii
  127.   mov ar.lc = r30
  128.   mov pr = r29, -1
  129. }
  130. { .bbb
  131.   br.ret.sptk.few rp
  132. }
  133. .endp xor_ia64_3
  134. .proc xor_ia64_4
  135. xor_ia64_4:
  136. .prologue
  137. .fframe 0
  138. { .mii
  139.   .save ar.pfs, r31
  140.   alloc r31 = ar.pfs, 5, 0, 27, 32
  141.   .save ar.lc, r30
  142.   mov r30 = ar.lc
  143.   .save pr, r29
  144.   mov r29 = pr
  145.   ;;
  146. }
  147. .body
  148. { .mii
  149.   mov r8 = in1
  150.   mov ar.ec = 6 + 2
  151.   shr in0 = in0, 3
  152.   ;;
  153. }
  154. { .mmi
  155.   adds in0 = -1, in0
  156.   mov r16 = in1
  157.   mov r17 = in2
  158.   ;;
  159. }
  160. { .mii
  161.   mov r18 = in3
  162.   mov ar.lc = in0
  163.   mov pr.rot = 1 << 16
  164. }
  165. { .mfb
  166.   mov r19 = in4
  167.   ;;
  168. }
  169. .rotr s1[6+1], s2[6+1], s3[6+1], s4[6+1], d[2]
  170. .rotp p[6+2]
  171. 0: { .mmi
  172. (p[0])   ld8.nta s1[0] = [r16], 8
  173. (p[0])   ld8.nta s2[0] = [r17], 8
  174. (p[6])   xor d[0] = s1[6], s2[6]
  175. }
  176. { .mmi
  177. (p[0])   ld8.nta s3[0] = [r18], 8
  178. (p[0])   ld8.nta s4[0] = [r19], 8
  179. (p[6])   xor r20 = s3[6], s4[6]
  180.   ;;
  181. }
  182. { .mib
  183. (p[6+1])  st8.nta [r8] = d[1], 8
  184. (p[6])   xor d[0] = d[0], r20
  185.   br.ctop.dptk.few 0b
  186.   ;;
  187. }
  188. { .mii
  189.   mov ar.lc = r30
  190.   mov pr = r29, -1
  191. }
  192. { .bbb
  193.   br.ret.sptk.few rp
  194. }
  195. .endp xor_ia64_4
  196. .proc xor_ia64_5
  197. xor_ia64_5:
  198. .prologue
  199. .fframe 0
  200. { .mii
  201.   .save ar.pfs, r31
  202.   alloc r31 = ar.pfs, 6, 0, 34, 40
  203.   .save ar.lc, r30
  204.   mov r30 = ar.lc
  205.   .save pr, r29
  206.   mov r29 = pr
  207.   ;;
  208. }
  209. .body
  210. { .mii
  211.   mov r8 = in1
  212.   mov ar.ec = 6 + 2
  213.   shr in0 = in0, 3
  214.   ;;
  215. }
  216. { .mmi
  217.   adds in0 = -1, in0
  218.   mov r16 = in1
  219.   mov r17 = in2
  220.   ;;
  221. }
  222. { .mii
  223.   mov r18 = in3
  224.   mov ar.lc = in0
  225.   mov pr.rot = 1 << 16
  226. }
  227. { .mib
  228.   mov r19 = in4
  229.   mov r20 = in5
  230.   ;;
  231. }
  232. .rotr s1[6+1], s2[6+1], s3[6+1], s4[6+1], s5[6+1], d[2]
  233. .rotp p[6+2]
  234. 0: { .mmi
  235. (p[0])   ld8.nta s1[0] = [r16], 8
  236. (p[0])   ld8.nta s2[0] = [r17], 8
  237. (p[6])   xor d[0] = s1[6], s2[6]
  238. }
  239. { .mmi
  240. (p[0])   ld8.nta s3[0] = [r18], 8
  241. (p[0])   ld8.nta s4[0] = [r19], 8
  242. (p[6])   xor r21 = s3[6], s4[6]
  243.   ;;
  244. }
  245. { .mmi
  246. (p[0])   ld8.nta s5[0] = [r20], 8
  247. (p[6+1])  st8.nta [r8] = d[1], 8
  248. (p[6])   xor d[0] = d[0], r21
  249.   ;;
  250. }
  251. { .mfb
  252. (p[6])   xor d[0] = d[0], s5[6]
  253.   nop.f 0
  254.   br.ctop.dptk.few 0b
  255.   ;;
  256. }
  257. { .mii
  258.   mov ar.lc = r30
  259.   mov pr = r29, -1
  260. }
  261. { .bbb
  262.   br.ret.sptk.few rp
  263. }
  264. .endp xor_ia64_5
  265. ");
  266. static struct xor_block_template xor_block_ia64 = {
  267. name: "ia64",
  268. do_2: xor_ia64_2,
  269. do_3: xor_ia64_3,
  270. do_4: xor_ia64_4,
  271. do_5: xor_ia64_5,
  272. };
  273. #define XOR_TRY_TEMPLATES xor_speed(&xor_block_ia64)