bmsse2.h
上传用户:yhdzpy8989
上传日期:2007-06-13
资源大小:13604k
文件大小:17k
源码类别:

生物技术

开发平台:

C/C++

  1. /*
  2.  * ===========================================================================
  3.  * PRODUCTION $Log: bmsse2.h,v $
  4.  * PRODUCTION Revision 1000.0  2004/04/21 16:00:52  gouriano
  5.  * PRODUCTION PRODUCTION: IMPORTED [CATCHUP_003] Dev-tree R1.1
  6.  * PRODUCTION
  7.  * ===========================================================================
  8.  */
  9. /*
  10. Copyright (c) 2002,2003 Anatoliy Kuznetsov.
  11. Permission is hereby granted, free of charge, to any person 
  12. obtaining a copy of this software and associated documentation 
  13. files (the "Software"), to deal in the Software without restriction, 
  14. including without limitation the rights to use, copy, modify, merge, 
  15. publish, distribute, sublicense, and/or sell copies of the Software, 
  16. and to permit persons to whom the Software is furnished to do so, 
  17. subject to the following conditions:
  18. The above copyright notice and this permission notice shall be included 
  19. in all copies or substantial portions of the Software.
  20. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
  21. EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES 
  22. OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. 
  23. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, 
  24. DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, 
  25. ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR 
  26. OTHER DEALINGS IN THE SOFTWARE.
  27. */
  28. #ifndef BMSSE2__H__INCLUDED__
  29. #define BMSSE2__H__INCLUDED__
  30. //    Header implements processor specific intrinsics declarations for SSE2
  31. //    instruction set
  32. #include<emmintrin.h>
  33. namespace bm
  34. {
  35. /** @defgroup SSE2 Processor specific optimizations for SSE2 instructions
  36.  *  
  37.  */
  38. /*! 
  39.   @brief SSE2 reinitialization guard class
  40.   SSE2 requires to call _mm_empty() if we are intermixing
  41.   MMX integer commands with floating point arithmetics.
  42.   This class guards critical code fragments where SSE2 integer
  43.   is used.
  44.   @ingroup SSE2
  45. */
  46. class sse2_empty_guard
  47. {
  48. public:
  49.     __forceinline sse2_empty_guard() 
  50.     {
  51.         _mm_empty();
  52.     }
  53.     __forceinline ~sse2_empty_guard() 
  54.     {
  55.         _mm_empty();
  56.     }
  57. };
  58. /*
  59. # ifndef BM_SET_MMX_GUARD
  60. #  define BM_SET_MMX_GUARD  sse2_empty_guard  bm_mmx_guard_;
  61. # endif
  62. */
  63. /*! 
  64.     @brief XOR array elements to specified mask
  65.     *dst = *src ^ mask
  66.     @ingroup SSE2
  67. */
  68. __forceinline 
  69. void sse2_xor_arr_2_mask(__m128i* BMRESTRICT dst, 
  70.                          const __m128i* BMRESTRICT src, 
  71.                          const __m128i* BMRESTRICT src_end,
  72.                          bm::word_t mask)
  73. {
  74.      __m128i xmm2 = _mm_set_epi32(mask, mask, mask, mask);
  75.      do
  76.      {
  77.         __m128i xmm1 = _mm_load_si128(src);
  78.         xmm1 = _mm_xor_si128(xmm1, xmm2);
  79.         _mm_store_si128(dst, xmm1);
  80.         ++dst;
  81.         ++src;
  82.      } while (src < src_end);
  83. }
  84. /*! 
  85.     @brief Inverts array elements and NOT them to specified mask
  86.     *dst = ~*src & mask
  87.     @ingroup SSE2
  88. */
  89. __forceinline 
  90. void sse2_andnot_arr_2_mask(__m128i* BMRESTRICT dst, 
  91.                             const __m128i* BMRESTRICT src, 
  92.                             const __m128i* BMRESTRICT src_end,
  93.                             bm::word_t mask)
  94. {
  95.      __m128i xmm2 = _mm_set_epi32(mask, mask, mask, mask);
  96.      do
  97.      {
  98.         //_mm_prefetch((const char*)(src)+1024, _MM_HINT_NTA);
  99.         //_mm_prefetch((const char*)(src)+1088, _MM_HINT_NTA);
  100.         __m128i xmm1 = _mm_load_si128(src);
  101.         xmm1 = _mm_andnot_si128(xmm1, xmm2); // xmm1 = (~xmm1) & xmm2 
  102.         _mm_store_si128(dst, xmm1);
  103.         ++dst;
  104.         ++src;
  105.      } while (src < src_end);
  106. }
  107. /*! 
  108.     @brief AND array elements against another array
  109.     *dst &= *src
  110.     @ingroup SSE2
  111. */
  112. __forceinline 
  113. void sse2_and_arr(__m128i* BMRESTRICT dst, 
  114.                   const __m128i* BMRESTRICT src, 
  115.                   const __m128i* BMRESTRICT src_end)
  116. {
  117.     __m128i xmm1, xmm2;
  118.     do
  119.     {
  120.         _mm_prefetch((const char*)(src)+512,  _MM_HINT_NTA);
  121.     
  122.         xmm1 = _mm_load_si128(src++);
  123.         xmm2 = _mm_load_si128(dst);
  124.         xmm1 = _mm_and_si128(xmm1, xmm2);
  125.         _mm_store_si128(dst++, xmm1);
  126.         
  127.         xmm1 = _mm_load_si128(src++);
  128.         xmm2 = _mm_load_si128(dst);
  129.         xmm1 = _mm_and_si128(xmm1, xmm2);
  130.         _mm_store_si128(dst++, xmm1);
  131.         xmm1 = _mm_load_si128(src++);
  132.         xmm2 = _mm_load_si128(dst);
  133.         xmm1 = _mm_and_si128(xmm1, xmm2);
  134.         _mm_store_si128(dst++, xmm1);
  135.         xmm1 = _mm_load_si128(src++);
  136.         xmm2 = _mm_load_si128(dst);
  137.         xmm1 = _mm_and_si128(xmm1, xmm2);
  138.         _mm_store_si128(dst++, xmm1);
  139.     } while (src < src_end);
  140. }
  141. /*! 
  142.     @brief OR array elements against another array
  143.     *dst |= *src
  144.     @ingroup SSE2
  145. */
  146. __forceinline 
  147. void sse2_or_arr(__m128i* BMRESTRICT dst, 
  148.                  const __m128i* BMRESTRICT src, 
  149.                  const __m128i* BMRESTRICT src_end)
  150. {
  151.     __m128i xmm1, xmm2;
  152.     do
  153.     {
  154.         _mm_prefetch((const char*)(src)+512,  _MM_HINT_NTA);
  155.     
  156.         xmm1 = _mm_load_si128(src++);
  157.         xmm2 = _mm_load_si128(dst);
  158.         xmm1 = _mm_or_si128(xmm1, xmm2);
  159.         _mm_store_si128(dst++, xmm1);
  160.         
  161.         xmm1 = _mm_load_si128(src++);
  162.         xmm2 = _mm_load_si128(dst);
  163.         xmm1 = _mm_or_si128(xmm1, xmm2);
  164.         _mm_store_si128(dst++, xmm1);
  165.         xmm1 = _mm_load_si128(src++);
  166.         xmm2 = _mm_load_si128(dst);
  167.         xmm1 = _mm_or_si128(xmm1, xmm2);
  168.         _mm_store_si128(dst++, xmm1);
  169.         xmm1 = _mm_load_si128(src++);
  170.         xmm2 = _mm_load_si128(dst);
  171.         xmm1 = _mm_or_si128(xmm1, xmm2);
  172.         _mm_store_si128(dst++, xmm1);
  173.     } while (src < src_end);
  174. }
  175. /*! 
  176.     @brief OR array elements against another array
  177.     *dst |= *src
  178.     @ingroup SSE2
  179. */
  180. __forceinline 
  181. void sse2_xor_arr(__m128i* BMRESTRICT dst, 
  182.                   const __m128i* BMRESTRICT src, 
  183.                   const __m128i* BMRESTRICT src_end)
  184. {
  185.     __m128i xmm1, xmm2;
  186.     do
  187.     {
  188.         _mm_prefetch((const char*)(src)+512,  _MM_HINT_NTA);
  189.     
  190.         xmm1 = _mm_load_si128(src++);
  191.         xmm2 = _mm_load_si128(dst);
  192.         xmm1 = _mm_xor_si128(xmm1, xmm2);
  193.         _mm_store_si128(dst++, xmm1);
  194.         
  195.         xmm1 = _mm_load_si128(src++);
  196.         xmm2 = _mm_load_si128(dst);
  197.         xmm1 = _mm_xor_si128(xmm1, xmm2);
  198.         _mm_store_si128(dst++, xmm1);
  199.         xmm1 = _mm_load_si128(src++);
  200.         xmm2 = _mm_load_si128(dst);
  201.         xmm1 = _mm_xor_si128(xmm1, xmm2);
  202.         _mm_store_si128(dst++, xmm1);
  203.         xmm1 = _mm_load_si128(src++);
  204.         xmm2 = _mm_load_si128(dst);
  205.         xmm1 = _mm_xor_si128(xmm1, xmm2);
  206.         _mm_store_si128(dst++, xmm1);
  207.     } while (src < src_end);
  208. }
  209. /*! 
  210.     @brief AND-NOT (SUB) array elements against another array
  211.     *dst &= ~*src
  212.     @ingroup SSE2
  213. */
  214. __forceinline 
  215. void sse2_sub_arr(__m128i* BMRESTRICT dst, 
  216.                  const __m128i* BMRESTRICT src, 
  217.                  const __m128i* BMRESTRICT src_end)
  218. {
  219.     __m128i xmm1, xmm2;
  220.     do
  221.     {
  222.         _mm_prefetch((const char*)(src)+512,  _MM_HINT_NTA);
  223.     
  224.         xmm1 = _mm_load_si128(src++);
  225.         xmm2 = _mm_load_si128(dst);
  226.         xmm1 = _mm_andnot_si128(xmm1, xmm2);
  227.         _mm_store_si128(dst++, xmm1);
  228.         
  229.         xmm1 = _mm_load_si128(src++);
  230.         xmm2 = _mm_load_si128(dst);
  231.         xmm1 = _mm_andnot_si128(xmm1, xmm2);
  232.         _mm_store_si128(dst++, xmm1);
  233.         xmm1 = _mm_load_si128(src++);
  234.         xmm2 = _mm_load_si128(dst);
  235.         xmm1 = _mm_andnot_si128(xmm1, xmm2);
  236.         _mm_store_si128(dst++, xmm1);
  237.         xmm1 = _mm_load_si128(src++);
  238.         xmm2 = _mm_load_si128(dst);
  239.         xmm1 = _mm_andnot_si128(xmm1, xmm2);
  240.         _mm_store_si128(dst++, xmm1);
  241.     } while (src < src_end);    
  242. }
  243. /*! 
  244.     @brief SSE2 block memset
  245.     *dst = value
  246.     @ingroup SSE2
  247. */
  248. __forceinline 
  249. void sse2_set_block(__m128i* BMRESTRICT dst, 
  250.                     __m128i* BMRESTRICT dst_end, 
  251.                     bm::word_t value)
  252. {
  253.     __m128i xmm0 = _mm_set_epi32 (value, value, value, value);
  254.     do
  255.     {            
  256.         _mm_store_si128(dst, xmm0);
  257. /*        
  258.         _mm_store_si128(dst+1, xmm0);
  259.         _mm_store_si128(dst+2, xmm0);
  260.         _mm_store_si128(dst+3, xmm0);
  261.         _mm_store_si128(dst+4, xmm0);
  262.         _mm_store_si128(dst+5, xmm0);
  263.         _mm_store_si128(dst+6, xmm0);
  264.         _mm_store_si128(dst+7, xmm0);
  265.         dst += 8;
  266. */        
  267.     } while (++dst < dst_end);
  268.     
  269.     _mm_sfence();
  270. }
  271. /*! 
  272.     @brief SSE2 block copy
  273.     *dst = *src
  274.     @ingroup SSE2
  275. */
  276. __forceinline 
  277. void sse2_copy_block(__m128i* BMRESTRICT dst, 
  278.                      const __m128i* BMRESTRICT src, 
  279.                      const __m128i* BMRESTRICT src_end)
  280. {
  281.     __m128i xmm0, xmm1, xmm2, xmm3;
  282.     do
  283.     {
  284.         _mm_prefetch((const char*)(src)+512,  _MM_HINT_NTA);
  285.     
  286.         xmm0 = _mm_load_si128(src+0);
  287.         xmm1 = _mm_load_si128(src+1);
  288.         xmm2 = _mm_load_si128(src+2);
  289.         xmm3 = _mm_load_si128(src+3);
  290.         
  291.         _mm_store_si128(dst+0, xmm0);
  292.         _mm_store_si128(dst+1, xmm1);
  293.         _mm_store_si128(dst+2, xmm2);
  294.         _mm_store_si128(dst+3, xmm3);
  295.         
  296.         xmm0 = _mm_load_si128(src+4);
  297.         xmm1 = _mm_load_si128(src+5);
  298.         xmm2 = _mm_load_si128(src+6);
  299.         xmm3 = _mm_load_si128(src+7);
  300.         
  301.         _mm_store_si128(dst+4, xmm0);
  302.         _mm_store_si128(dst+5, xmm1);
  303.         _mm_store_si128(dst+6, xmm2);
  304.         _mm_store_si128(dst+7, xmm3);
  305.         
  306.         src += 8;
  307.         dst += 8;
  308.         
  309.     } while (src < src_end);    
  310. }
  311. /*! 
  312.     @brief Invert array elements
  313.     *dst = ~*dst
  314.     or
  315.     *dst ^= *dst 
  316.     @ingroup SSE2
  317. */
  318. __forceinline 
  319. void sse2_invert_arr(bm::word_t* first, bm::word_t* last)
  320. {
  321.     __m128i xmm1 = _mm_set_epi32(0xFFFFFFFF, 0xFFFFFFFF, 
  322.                                  0xFFFFFFFF, 0xFFFFFFFF);
  323.     __m128i* wrd_ptr = (__m128i*)first;
  324.     do 
  325.     {
  326.         _mm_prefetch((const char*)(wrd_ptr)+512,  _MM_HINT_NTA);
  327.         
  328.         __m128i xmm0 = _mm_load_si128(wrd_ptr);
  329.         xmm0 = _mm_xor_si128(xmm0, xmm1);
  330.         _mm_store_si128(wrd_ptr, xmm0);
  331.         ++wrd_ptr;
  332.     } while (wrd_ptr < (__m128i*)last);
  333. }
  334. /*!
  335.     SSE2 optimized bitcounting function implements parallel bitcounting
  336.     algorithm for SSE2 instruction set.
  337. <pre>
  338. unsigned CalcBitCount32(unsigned b)
  339. {
  340.     b = (b & 0x55555555) + (b >> 1 & 0x55555555);
  341.     b = (b & 0x33333333) + (b >> 2 & 0x33333333);
  342.     b = (b + (b >> 4)) & 0x0F0F0F0F;
  343.     b = b + (b >> 8);
  344.     b = (b + (b >> 16)) & 0x0000003F;
  345.     return b;
  346. }
  347. </pre>
  348.     @ingroup SSE2
  349. */
  350. inline 
  351. bm::id_t sse2_bit_count(const __m128i* block, const __m128i* block_end)
  352. {
  353.     const unsigned mu1 = 0x55555555;
  354.     const unsigned mu2 = 0x33333333;
  355.     const unsigned mu3 = 0x0F0F0F0F;
  356.     const unsigned mu4 = 0x0000003F;
  357.     // Loading masks
  358.     __m128i m1 = _mm_set_epi32 (mu1, mu1, mu1, mu1);
  359.     __m128i m2 = _mm_set_epi32 (mu2, mu2, mu2, mu2);
  360.     __m128i m3 = _mm_set_epi32 (mu3, mu3, mu3, mu3);
  361.     __m128i m4 = _mm_set_epi32 (mu4, mu4, mu4, mu4);
  362.     __m128i mcnt;
  363.     mcnt = _mm_xor_si128(m1, m1); // cnt = 0
  364.     __m128i tmp1, tmp2;
  365.     do
  366.     {        
  367.         __m128i b = _mm_load_si128(block);
  368.         ++block;
  369.         // b = (b & 0x55555555) + (b >> 1 & 0x55555555);
  370.         tmp1 = _mm_srli_epi32(b, 1);                    // tmp1 = (b >> 1 & 0x55555555)
  371.         tmp1 = _mm_and_si128(tmp1, m1); 
  372.         tmp2 = _mm_and_si128(b, m1);                    // tmp2 = (b & 0x55555555)
  373.         b    = _mm_add_epi32(tmp1, tmp2);               //  b = tmp1 + tmp2
  374.         // b = (b & 0x33333333) + (b >> 2 & 0x33333333);
  375.         tmp1 = _mm_srli_epi32(b, 2);                    // (b >> 2 & 0x33333333)
  376.         tmp1 = _mm_and_si128(tmp1, m2); 
  377.         tmp2 = _mm_and_si128(b, m2);                    // (b & 0x33333333)
  378.         b    = _mm_add_epi32(tmp1, tmp2);               // b = tmp1 + tmp2
  379.         // b = (b + (b >> 4)) & 0x0F0F0F0F;
  380.         tmp1 = _mm_srli_epi32(b, 4);                    // tmp1 = b >> 4
  381.         b = _mm_add_epi32(b, tmp1);                     // b = b + (b >> 4)
  382.         b = _mm_and_si128(b, m3);                       //           & 0x0F0F0F0F
  383.         // b = b + (b >> 8);
  384.         tmp1 = _mm_srli_epi32 (b, 8);                   // tmp1 = b >> 8
  385.         b = _mm_add_epi32(b, tmp1);                     // b = b + (b >> 8)
  386.         // b = (b + (b >> 16)) & 0x0000003F;
  387.         tmp1 = _mm_srli_epi32 (b, 16);                  // b >> 16
  388.         b = _mm_add_epi32(b, tmp1);                     // b + (b >> 16)
  389.         b = _mm_and_si128(b, m4);                       // (b >> 16) & 0x0000003F;
  390.         mcnt = _mm_add_epi32(mcnt, b);                  // mcnt += b
  391.     } while (block < block_end);
  392.     __declspec(align(16)) bm::id_t tcnt[4];
  393.     _mm_store_si128((__m128i*)tcnt, mcnt);
  394.     return tcnt[0] + tcnt[1] + tcnt[2] + tcnt[3];
  395. }
  396. __forceinline 
  397. __m128i sse2_and(__m128i a, __m128i b)
  398. {
  399.     return _mm_and_si128(a, b);
  400. }
  401. __forceinline 
  402. __m128i sse2_or(__m128i a, __m128i b)
  403. {
  404.     return _mm_or_si128(a, b);
  405. }
  406. __forceinline 
  407. __m128i sse2_xor(__m128i a, __m128i b)
  408. {
  409.     return _mm_xor_si128(a, b);
  410. }
  411. __forceinline 
  412. __m128i sse2_sub(__m128i a, __m128i b)
  413. {
  414.     return _mm_andnot_si128(b, a);
  415. }
  416. template<class Func>
  417. bm::id_t sse2_bit_count_op(const __m128i* BMRESTRICT block, 
  418.                            const __m128i* BMRESTRICT block_end,
  419.                            const __m128i* BMRESTRICT mask_block,
  420.                            Func sse2_func)
  421. {
  422.     const unsigned mu1 = 0x55555555;
  423.     const unsigned mu2 = 0x33333333;
  424.     const unsigned mu3 = 0x0F0F0F0F;
  425.     const unsigned mu4 = 0x0000003F;
  426.     // Loading masks
  427.     __m128i m1 = _mm_set_epi32 (mu1, mu1, mu1, mu1);
  428.     __m128i m2 = _mm_set_epi32 (mu2, mu2, mu2, mu2);
  429.     __m128i m3 = _mm_set_epi32 (mu3, mu3, mu3, mu3);
  430.     __m128i m4 = _mm_set_epi32 (mu4, mu4, mu4, mu4);
  431.     __m128i mcnt;
  432.     mcnt = _mm_xor_si128(m1, m1); // cnt = 0
  433.     do
  434.     {
  435.         __m128i tmp1, tmp2;
  436.         __m128i b = _mm_load_si128(block++);
  437.         tmp1 = _mm_load_si128(mask_block++);
  438.         
  439.         b = sse2_func(b, tmp1);
  440.                         
  441.         // b = (b & 0x55555555) + (b >> 1 & 0x55555555);
  442.         tmp1 = _mm_srli_epi32(b, 1);                    // tmp1 = (b >> 1 & 0x55555555)
  443.         tmp1 = _mm_and_si128(tmp1, m1); 
  444.         tmp2 = _mm_and_si128(b, m1);                    // tmp2 = (b & 0x55555555)
  445.         b    = _mm_add_epi32(tmp1, tmp2);               //  b = tmp1 + tmp2
  446.         // b = (b & 0x33333333) + (b >> 2 & 0x33333333);
  447.         tmp1 = _mm_srli_epi32(b, 2);                    // (b >> 2 & 0x33333333)
  448.         tmp1 = _mm_and_si128(tmp1, m2); 
  449.         tmp2 = _mm_and_si128(b, m2);                    // (b & 0x33333333)
  450.         b    = _mm_add_epi32(tmp1, tmp2);               // b = tmp1 + tmp2
  451.         // b = (b + (b >> 4)) & 0x0F0F0F0F;
  452.         tmp1 = _mm_srli_epi32(b, 4);                    // tmp1 = b >> 4
  453.         b = _mm_add_epi32(b, tmp1);                     // b = b + (b >> 4)
  454.         b = _mm_and_si128(b, m3);                       //           & 0x0F0F0F0F
  455.         // b = b + (b >> 8);
  456.         tmp1 = _mm_srli_epi32 (b, 8);                   // tmp1 = b >> 8
  457.         b = _mm_add_epi32(b, tmp1);                     // b = b + (b >> 8)
  458.         
  459.         // b = (b + (b >> 16)) & 0x0000003F;
  460.         tmp1 = _mm_srli_epi32 (b, 16);                  // b >> 16
  461.         b = _mm_add_epi32(b, tmp1);                     // b + (b >> 16)
  462.         b = _mm_and_si128(b, m4);                       // (b >> 16) & 0x0000003F;
  463.         mcnt = _mm_add_epi32(mcnt, b);                  // mcnt += b
  464.     } while (block < block_end);
  465.     __declspec(align(16)) bm::id_t tcnt[4];
  466.     _mm_store_si128((__m128i*)tcnt, mcnt);
  467.     return tcnt[0] + tcnt[1] + tcnt[2] + tcnt[3];
  468. }
  469. #define VECT_XOR_ARR_2_MASK(dst, src, src_end, mask)
  470.     sse2_xor_arr_2_mask((__m128i*)(dst), (__m128i*)(src), (__m128i*)(src_end), mask)
  471. #define VECT_ANDNOT_ARR_2_MASK(dst, src, src_end, mask)
  472.     sse2_andnot_arr_2_mask((__m128i*)(dst), (__m128i*)(src), (__m128i*)(src_end), mask)
  473. #define VECT_BITCOUNT(first, last) 
  474.     sse2_bit_count((__m128i*) (first), (__m128i*) (last)) 
  475. #define VECT_BITCOUNT_AND(first, last, mask) 
  476.     sse2_bit_count_op((__m128i*) (first), (__m128i*) (last), (__m128i*) (mask), sse2_and) 
  477. #define VECT_BITCOUNT_OR(first, last, mask) 
  478.     sse2_bit_count_op((__m128i*) (first), (__m128i*) (last), (__m128i*) (mask), sse2_or) 
  479. #define VECT_BITCOUNT_XOR(first, last, mask) 
  480.     sse2_bit_count_op((__m128i*) (first), (__m128i*) (last), (__m128i*) (mask), sse2_xor) 
  481. #define VECT_BITCOUNT_SUB(first, last, mask) 
  482.     sse2_bit_count_op((__m128i*) (first), (__m128i*) (last), (__m128i*) (mask), sse2_sub) 
  483. #define VECT_INVERT_ARR(first, last) 
  484.     sse2_invert_arr(first, last);
  485. #define VECT_AND_ARR(dst, src, src_end) 
  486.     sse2_and_arr((__m128i*) dst, (__m128i*) (src), (__m128i*) (src_end))
  487. #define VECT_OR_ARR(dst, src, src_end) 
  488.     sse2_or_arr((__m128i*) dst, (__m128i*) (src), (__m128i*) (src_end))
  489. #define VECT_SUB_ARR(dst, src, src_end) 
  490.     sse2_sub_arr((__m128i*) dst, (__m128i*) (src), (__m128i*) (src_end))
  491. #define VECT_XOR_ARR(dst, src, src_end) 
  492.     sse2_xor_arr((__m128i*) dst, (__m128i*) (src), (__m128i*) (src_end))
  493. #define VECT_COPY_BLOCK(dst, src, src_end) 
  494.     sse2_copy_block((__m128i*) dst, (__m128i*) (src), (__m128i*) (src_end))
  495. #define VECT_SET_BLOCK(dst, dst_end, value) 
  496.     sse2_set_block((__m128i*) dst, (__m128i*) (dst_end), (value))
  497. } // namespace
  498. #endif