deblock_vert_lpf9.c
上传用户:hxb_1234
上传日期:2010-03-30
资源大小:8328k
文件大小:18k
源码类别:

VC书籍

开发平台:

Visual C++

  1. #include "postprocess_mmx.h"
  2. const static uint64_t mm_fours  = 0x0004000400040004;
  3. INLINE void deblock_vert_lpf9(uint64_t *v_local, uint64_t *p1p2, uint8_t *v, int stride) {
  4. #ifdef PP_SELF_CHECK
  5. int j, k;
  6. uint8_t selfcheck[64], *vv;
  7. int p1, p2, psum;
  8. int l1 = 1 * stride;
  9. int l2 = 2 * stride;
  10. int l3 = 3 * stride;
  11. int l4 = 4 * stride;
  12. int l5 = 5 * stride;
  13. int l6 = 6 * stride;
  14. int l7 = 7 * stride;
  15. int l8 = 8 * stride;
  16. #endif
  17. #ifdef PP_SELF_CHECK
  18. for (j=0; j<8; j++) { 
  19. vv = &(v[j]);
  20. p1 = ((uint16_t *)(&(p1p2[0+j/4])))[j%4]; 
  21. p2 = ((uint16_t *)(&(p1p2[2+j/4])))[j%4]; 
  22. psum = p1 + p1 + p1 + vv[l1] + vv[l2] + vv[l3] + vv[l4] + 4; 
  23. selfcheck[j+8*0] = (((psum + vv[l1]) << 1) - (vv[l4] - vv[l5])) >> 4; 
  24. psum += vv[l5] - p1; 
  25. selfcheck[j+8*1] = (((psum + vv[l2]) << 1) - (vv[l5] - vv[l6])) >> 4; 
  26. psum += vv[l6] - p1; 
  27. selfcheck[j+8*2] = (((psum + vv[l3]) << 1) - (vv[l6] - vv[l7])) >> 4; 
  28. psum += vv[l7] - p1; 
  29. selfcheck[j+8*3] = (((psum + vv[l4]) << 1) + p1 - vv[l1] - (vv[l7] - vv[l8])) >> 4; 
  30. psum += vv[l8] - vv[l1];  
  31. selfcheck[j+8*4] = (((psum + vv[l5]) << 1) + (vv[l1] - vv[l2]) - vv[l8] + p2) >> 4; 
  32. psum += p2 - vv[l2];  
  33. selfcheck[j+8*5] = (((psum + vv[l6]) << 1) + (vv[l2] - vv[l3])) >> 4; 
  34. psum += p2 - vv[l3]; 
  35. selfcheck[j+8*6] = (((psum + vv[l7]) << 1) + (vv[l3] - vv[l4])) >> 4; 
  36. psum += p2 - vv[l4]; 
  37. selfcheck[j+8*7] = (((psum + vv[l8]) << 1) + (vv[l4] - vv[l5])) >> 4; 
  38. }
  39. #endif
  40. __asm {
  41. push eax
  42. push ebx
  43. push ecx
  44. mov eax, p1p2
  45. mov ebx, v_local
  46. mov ecx, v
  47. movq   mm2, [eax]                  /* mm2 = p1p2[0]               0 1 2w3 4 5 6 7    */
  48. add   ecx, stride                    /* ecx points at v[1*stride]   0 1 2 3 4 5 6 7    */     
  49. movq   mm3, 8[eax]                 /* mm3 = p1p2[1]               0 1 2 3w4 5 6 7    */
  50. movq   mm4, mm_fours                /* mm4 = 0x0004000400040004    0 1 2 3 4w5 6 7    */
  51.         */
  52. movq   mm5, mm4                     /* mm5 = 0x0004000400040004    0 1 2 3 4 5w6 7    */
  53. paddsw mm4, 16[ebx]                 /* mm4 += vv[1] left           0 1 2 3 4m5 6 7    */
  54. paddw  mm5, mm3                     /* mm5 += p2 left              0 1 2 3r4 5m6 7    */
  55. paddsw mm4, 32[ebx]                 /* mm4 += vv[2] left           0 1 2 3 4m5 6 7    */
  56. paddw  mm5, mm3                     /* mm5 += p2 left              0 1 2 3r4 5m6 7    */
  57. paddsw mm4, 48[ebx]                 /* mm4 += vv[3] left           0 1 2 3 4m5 6 7    */
  58. paddw  mm5, mm3                     /* mm5 += p2 left              0 1 2 3r4 5m6 7    */
  59. paddsw mm5, 24[ebx]                 /* mm5 += vv[1] right          0 1 2 3 4 5m6 7    */
  60. paddw  mm4, mm2                     /* mm4 += p1 left              0 1 2r3 4m5 6 7    */
  61. paddsw mm5, 40[ebx]                 /* mm5 += vv[2] right          0 1 2 3 4 5m6 7    */
  62. paddw  mm4, mm2                     /* mm4 += p1 left              0 1 2r3 4m5 6 7    */
  63. paddsw mm5, 56[ebx]                 /* mm5 += vv[3] right          0 1 2 3 4 5m6 7    */
  64. paddw  mm4, mm2                     /* mm4 += p1 left              0 1 2r3 4m5 6 7    */
  65. paddsw mm4, 64[ebx]                 /* mm4 += vv[4] left           0 1 2 3 4m5 6 7    */
  66. paddsw mm5, 72[ebx]                 /* mm5 += vv[4] right          0 1 2 3 4 5m6 7    */
  67. movq   mm0, mm4                     /* mm0 = psum left             0w1 2 3 4 5 6 7    */ 
  68. paddsw mm0, 16[ebx]                 /* mm0 += vv[1] left           0m1 2 3 4 5 6 7    */
  69. movq   mm1, mm5                     /* mm1 = psum right            0 1w2 3 4 5r6 7    */ 
  70. paddsw mm1, 24[ebx]                 /* mm1 += vv[1] right          0 1 2 3 4 5 6 7    */
  71. psllw  mm0, 1                       /* mm0 <<= 1                   0m1 2 3 4 5 6 7    */
  72. psubsw mm0, 64[ebx]                 /* mm0 -= vv[4] left           0m1 2 3 4 5 6 7    */
  73. psllw  mm1, 1                       /* mm1 <<= 1                   0 1 2 3 4 5 6 7    */
  74. psubsw mm1, 72[ebx]                 /* mm1 -= vv[4] right          0 1m2 3 4 5 6 7    */
  75. paddsw mm0, 80[ebx]                 /* mm0 += vv[5] left           0m1 2 3 4 5 6 7    */
  76. paddsw mm1, 88[ebx]                 /* mm1 += vv[5] right          0 1m2 3 4 5 6 7    */
  77. psrlw  mm0, 4                       /* mm0 >>= 4                   0m1 2 3 4 5 6 7    */
  78. paddsw mm4, 80[ebx]                 /* mm4 += vv[5] left           0 1 2 3 4m5 6 7    */
  79. psrlw  mm1, 4                       /* mm1 >>= 4                   0 1m2 3 4 5 6 7    */
  80. paddsw mm5, 88[ebx]                 /* mm5 += vv[5] right          0 1 2 3 4 5 6 7    */
  81. psubsw mm4, [eax]                  /* mm4 -= p1 left              0 1 2 3 4 5 6 7    */
  82. packuswb mm0, mm1                   /* pack mm1, mm0 to mm0        0m1 2 3 4 5 6 7    */
  83. psubsw mm5, 8[eax]                 /* mm5 -= p1 right             0 1 2 3 4 5 6 7    */
  84. movq   mm6, mm4                     /* mm6 = psum left             0 1 2 3 4 5 6 7    */ 
  85. paddsw mm6, 32[ebx]                 /* mm6 += vv[2] left           0 1 2 3 4 5 6 7    */
  86. movq   mm7, mm5                     /* mm7 = psum right            0 1 2 3 4 5 6 7    */ 
  87. paddsw mm7, 40[ebx]                 /* mm7 += vv[2] right          0 1 2 3 4 5 6 7    */
  88. psllw  mm6, 1                       /* mm6 <<= 1                   0 1 2 3 4 5 6 7    */
  89. psubsw mm6, 80[ebx]                 /* mm6 -= vv[5] left           0 1 2 3 4 5 6 7    */
  90. psllw  mm7, 1                       /* mm7 <<= 1                   0 1 2 3 4 5 6 7    */
  91. psubsw mm7, 88[ebx]                 /* mm7 -= vv[5] right          0 1 2 3 4 5 6 7    */
  92. movq   [ecx], mm0                     /* v[1*stride] = mm0           0 1 2 3 4 5 6 7    */
  93. paddsw mm6, 96[ebx]                 /* mm6 += vv[6] left           0 1 2 3 4 5 6 7    */
  94. add   ecx, stride                    /* ecx points at v[2*stride]   0 1 2 3 4 5 6 7    */     
  95. paddsw mm7, 104[ebx]                /* mm7 += vv[6] right          0 1 2 3 4 5 6 7    */
  96. paddsw mm4, 96[ebx]                 /* mm4 += vv[6] left           0 1 2 3 4 5 6 7    */
  97. psrlw  mm6, 4                       /* mm6 >>= 4                   0 1 2 3 4 5 6 7    */
  98. paddsw mm5, 104[ebx]                /* mm5 += vv[6] right          0 1 2 3 4 5 6 7    */
  99. psrlw  mm7, 4                       /* mm7 >>= 4                   0 1 2 3 4 5 6 7    */
  100. psubsw mm4, [eax]                  /* mm4 -= p1 left              0 1 2 3 4 5 6 7    */
  101. packuswb mm6, mm7                   /* pack mm7, mm6 to mm6        0 1 2 3 4 5 6 7    */
  102. psubsw mm5, 8[eax]                 /* mm5 -= p1 right             0 1 2 3 4 5 6 7    */
  103. movq   mm0, mm4                     /* mm0 = psum left             0 1 2 3 4 5 6 7    */ 
  104. paddsw mm0, 48[ebx]                 /* mm0 += vv[3] left           0 1 2 3 4 5 6 7    */
  105. movq   mm1, mm5                     /* mm1 = psum right            0 1 2 3 4 5 6 7    */ 
  106. paddsw mm1, 56[ebx]                 /* mm1 += vv[3] right          0 1 2 3 4 5 6 7    */
  107. psllw  mm0, 1                       /* mm0 <<= 1                   0 1 2 3 4 5 6 7    */
  108. psubsw mm0, 96[ebx]                 /* mm0 -= vv[6] left           0 1 2 3 4 5 6 7    */
  109. psllw  mm1, 1                       /* mm1 <<= 1                   0 1 2 3 4 5 6 7    */
  110. psubsw mm1, 104[ebx]                /* mm1 -= vv[6] right          0 1 2 3 4 5 6 7    */
  111. movq   [ecx], mm6                     /* v[2*stride] = mm6           0 1 2 3 4 5 6 7    */
  112. paddsw mm0, 112[ebx]                /* mm0 += vv[7] left           0 1 2 3 4 5 6 7    */
  113. paddsw mm1, 120[ebx]                /* mm1 += vv[7] right          0 1 2 3 4 5 6 7    */
  114. add   ecx, stride                    /* ecx points at v[3*stride]   0 1 2 3 4 5 6 7    */     
  115. paddsw mm4, 112[ebx]                /* mm4 += vv[5] left           0 1 2 3 4 5 6 7    */
  116. psrlw  mm0, 4                       /* mm0 >>= 4                   0 1 2 3 4 5 6 7    */
  117. paddsw mm5, 120[ebx]                /* mm5 += vv[5] right          0 1 2 3 4 5 6 7    */
  118. psrlw  mm1, 4                       /* mm1 >>= 4                   0 1 2 3 4 5 6 7    */
  119. psubsw mm4, [eax]                  /* mm4 -= p1 left              0 1 2 3 4 5 6 7    */
  120. packuswb mm0, mm1                   /* pack mm1, mm0 to mm0        0 1 2 3 4 5 6 7    */
  121. psubsw mm5, 8[eax]                 /* mm5 -= p1 right             0 1 2 3 4 5 6 7    */
  122. movq   [ecx], mm0                     /* v[3*stride] = mm0           0 1 2 3 4 5 6 7    */
  123. movq   mm6, mm4                     /* mm6 = psum left             0 1 2 3 4 5 6 7    */ 
  124. paddsw mm6, 64[ebx]                 /* mm6 += vv[4] left           0 1 2 3 4 5 6 7    */
  125. movq   mm7, mm5                     /* mm7 = psum right            0 1 2 3 4 5 6 7    */ 
  126. paddsw mm7, 72[ebx]                 /* mm7 += vv[4] right          0 1 2 3 4 5 6 7    */
  127. psllw  mm6, 1                       /* mm6 <<= 1                   0 1 2 3 4 5 6 7    */
  128. paddsw mm6, [eax]                  /* mm6 += p1 left              0 1 2 3 4 5 6 7    */
  129. psllw  mm7, 1                       /* mm7 <<= 1                   0 1 2 3 4 5 6 7    */
  130. paddsw mm7, 8[eax]                 /* mm7 += p1 right             0 1 2 3 4 5 6 7    */
  131. psubsw mm6, 16[ebx]                 /* mm6 -= vv[1] left           0 1 2 3 4 5 6 7    */
  132. psubsw mm7, 24[ebx]                 /* mm7 -= vv[1] right          0 1 2 3 4 5 6 7    */
  133. psubsw mm6, 112[ebx]                /* mm6 -= vv[7] left           0 1 2 3 4 5 6 7    */
  134. psubsw mm7, 120[ebx]                /* mm7 -= vv[7] right          0 1 2 3 4 5 6 7    */
  135. paddsw mm6, 128[ebx]                /* mm6 += vv[8] left           0 1 2 3 4 5 6 7    */
  136. add   ecx, stride                    /* ecx points at v[4*stride]   0 1 2 3 4 5 6 7    */     
  137. paddsw mm7, 136[ebx]                /* mm7 += vv[8] right          0 1 2 3 4 5 6 7    */
  138. paddsw mm4, 128[ebx]                /* mm4 += vv[5] left           0 1 2 3 4 5 6 7    */
  139. psrlw  mm6, 4                       /* mm6 >>= 4                   0 1 2 3 4 5 6 7    */
  140. paddsw mm5, 136[ebx]                /* mm5 += vv[5] right          0 1 2 3 4 5 6 7    */
  141. psrlw  mm7, 4                       /* mm7 >>= 4                   0 1 2 3 4 5 6 7    */
  142. psubsw mm4, 16[ebx]                 /* mm4 -= vv[1] left           0 1 2 3 4 5 6 7    */
  143. packuswb mm6, mm7                   /* pack mm7, mm6 to mm6        0 1 2 3 4 5 6 7    */
  144. psubsw mm5, 24[ebx]                 /* mm5 -= vv[1] right          0 1 2 3 4 5 6 7    */
  145. movq   mm0, mm4                     /* mm0 = psum left             0 1 2 3 4 5 6 7    */ 
  146. paddsw mm0, 80[ebx]                 /* mm0 += vv[5] left           0 1 2 3 4 5 6 7    */
  147. movq   mm1, mm5                     /* mm1 = psum right            0 1 2 3 4 5 6 7    */ 
  148. paddsw mm1, 88[ebx]                 /* mm1 += vv[5] right          0 1 2 3 4 5 6 7    */
  149. psllw  mm0, 1                       /* mm0 <<= 1                   0 1 2 3 4 5 6 7    */
  150. paddsw mm0, 16[eax]                /* mm0 += p2 left              0 1 2 3 4 5 6 7    */
  151. psllw  mm1, 1                       /* mm1 <<= 1                   0 1 2 3 4 5 6 7    */
  152. paddsw mm1, 24[eax]                /* mm1 += p2 right             0 1 2 3 4 5 6 7    */
  153. paddsw mm0, 16[ebx]                 /* mm0 += vv[1] left           0 1 2 3 4 5 6 7    */
  154. movq   [ecx], mm6                     /* v[4*stride] = mm6           0 1 2 3 4 5 6 7    */
  155. paddsw mm1, 24[ebx]                 /* mm1 += vv[1] right          0 1 2 3 4 5 6 7    */
  156. psubsw mm0, 32[ebx]                 /* mm0 -= vv[2] left           0 1 2 3 4 5 6 7    */
  157. psubsw mm1, 40[ebx]                 /* mm1 -= vv[2] right          0 1 2 3 4 5 6 7    */
  158. psubsw mm0, 128[ebx]                /* mm0 -= vv[8] left           0 1 2 3 4 5 6 7    */
  159. psubsw mm1, 136[ebx]                /* mm1 -= vv[8] right          0 1 2 3 4 5 6 7    */
  160. paddsw mm4, 16[eax]                /* mm4 += p2 left              0 1 2 3 4 5 6 7    */
  161. add   ecx, stride                   /* ecx points at v[5*stride]   0 1 2 3 4 5 6 7    */     
  162. paddsw mm5, 24[eax]                /* mm5 += p2 right             0 1 2 3 4 5 6 7    */
  163. psubsw mm4, 32[ebx]                 /* mm4 -= vv[2] left           0 1 2 3 4 5 6 7    */
  164. psubsw mm5, 40[ebx]                 /* mm5 -= vv[2] right          0 1 2 3 4 5 6 7    */
  165. movq   mm6, mm4                     /* mm6 = psum left             0 1 2 3 4 5 6 7    */ 
  166. paddsw mm6, 96[ebx]                 /* mm6 += vv[6] left           0 1 2 3 4 5 6 7    */
  167. movq   mm7, mm5                     /* mm7 = psum right            0 1 2 3 4 5 6 7    */ 
  168. paddsw mm7, 104[ebx]                /* mm7 += vv[6] right          0 1 2 3 4 5 6 7    */
  169. psllw  mm6, 1                       /* mm6 <<= 1                   0 1 2 3 4 5 6 7    */
  170. paddsw mm6, 32[ebx]                 /* mm6 += vv[2] left           0 1 2 3 4 5 6 7    */
  171. psllw  mm7, 1                       /* mm7 <<= 1                   0 1 2 3 4 5 6 7    */
  172. paddsw mm7, 40[ebx]                 /* mm7 += vv[2] right          0 1 2 3 4 5 6 7    */
  173. psrlw  mm0, 4                       /* mm0 >>= 4                   0 1 2 3 4 5 6 7    */
  174. psubsw mm6, 48[ebx]                 /* mm6 -= vv[3] left           0 1 2 3 4 5 6 7    */
  175. psrlw  mm1, 4                       /* mm1 >>= 4                   0 1 2 3 4 5 6 7    */
  176. psubsw mm7, 56[ebx]                 /* mm7 -= vv[3] right          0 1 2 3 4 5 6 7    */
  177. packuswb mm0, mm1                   /* pack mm1, mm0 to mm0        0 1 2 3 4 5 6 7    */
  178. movq   [ecx], mm0                     /* v[5*stride] = mm0           0 1 2 3 4 5 6 7    */
  179. paddsw mm4, 16[eax]                /* mm4 += p2 left              0 1 2 3 4 5 6 7    */
  180. psrlw  mm6, 4                       /* mm6 >>= 4                   0 1 2 3 4 5 6 7    */
  181. paddsw mm5, 24[eax]                /* mm5 += p2 right             0 1 2 3 4 5 6 7    */
  182. psrlw  mm7, 4                       /* mm7 >>= 4                   0 1 2 3 4 5 6 7    */
  183. psubsw mm4, 48[ebx]                 /* mm4 -= vv[3] left           0 1 2 3 4 5 6 7    */
  184. add   ecx, stride                    /* ecx points at v[6*stride]   0 1 2 3 4 5 6 7    */     
  185. psubsw mm5, 56[ebx]                 /* mm5 -= vv[3] right           0 1 2 3 4 5 6 7    */
  186. movq   mm0, mm4                     /* mm0 = psum left             0 1 2 3 4 5 6 7    */ 
  187. paddsw mm0, 112[ebx]                /* mm0 += vv[7] left           0 1 2 3 4 5 6 7    */
  188. movq   mm1, mm5                     /* mm1 = psum right            0 1 2 3 4 5 6 7    */ 
  189. paddsw mm1, 120[ebx]                /* mm1 += vv[7] right          0 1 2 3 4 5 6 7    */
  190. psllw  mm0, 1                       /* mm0 <<= 1                   0 1 2 3 4 5 6 7    */
  191. paddsw mm0, 48[ebx]                 /* mm0 += vv[3] left           0 1 2 3 4 5 6 7    */
  192. psllw  mm1, 1                       /* mm1 <<= 1                   0 1 2 3 4 5 6 7    */
  193. paddsw mm1, 56[ebx]                 /* mm1 += vv[3] right          0 1 2 3 4 5 6 7    */
  194. packuswb mm6, mm7                   /* pack mm7, mm6 to mm6        0 1 2 3 4 5 6 7    */
  195. psubsw mm0, 64[ebx]                 /* mm0 -= vv[4] left           0 1 2 3 4 5 6 7    */
  196. psubsw mm1, 72[ebx]                 /* mm1 -= vv[4] right          0 1 2 3 4 5 6 7    */
  197. psrlw  mm0, 4                       /* mm0 >>= 4                   0 1 2 3 4 5 6 7    */
  198. movq   [ecx], mm6                     /* v[6*stride] = mm6           0 1 2 3 4 5 6 7    */
  199. paddsw mm4, 16[eax]                /* mm4 += p2 left               0 1 2 3 4 5 6 7    */
  200. paddsw mm5, 24[eax]                /* mm5 += p2 right              0 1 2 3 4 5 6 7    */
  201. add    ecx, stride                    /* ecx points at v[7*stride]   0 1 2 3 4 5 6 7    */     
  202. psubsw mm4, 64[ebx]                 /* mm4 -= vv[4] left            0 1 2 3 4 5 6 7    */
  203. psrlw  mm1, 4                       /* mm1 >>= 4                   0 1 2 3 4 5 6 7    */
  204. psubsw mm5, 72[ebx]                 /* mm5 -= vv[4] right           0 1 2 3 4 5 6 7    */
  205. movq   mm6, mm4                     /* mm6 = psum left             0 1 2 3 4 5 6 7    */ 
  206. paddsw mm6, 128[ebx]                /* mm6 += vv[8] left           0 1 2 3 4 5 6 7    */
  207. movq   mm7, mm5                     /* mm7 = psum right            0 1 2 3 4 5 6 7    */ 
  208. paddsw mm7, 136[ebx]                /* mm7 += vv[8] right          0 1 2 3 4 5 6 7    */
  209. psllw  mm6, 1                       /* mm6 <<= 1                   0 1 2 3 4 5 6 7    */
  210. paddsw mm6, 64[ebx]                 /* mm6 += vv[4] left           0 1 2 3 4 5 6 7    */
  211. psllw  mm7, 1                       /* mm7 <<= 1                   0 1 2 3 4 5 6 7    */
  212. paddsw mm7, 72[ebx]                 /* mm7 += vv[4] right          0 1 2 3 4 5 6 7    */
  213. packuswb mm0, mm1                   /* pack mm1, mm0 to mm0        0 1 2 3 4 5 6 7    */
  214. psubsw mm6, 80[ebx]                 /* mm6 -= vv[5] left           0 1 2 3 4 5 6 7    */
  215. psubsw mm7, 88[ebx]                 /* mm7 -= vv[5] right          0 1 2 3 4 5 6 7    */
  216. psrlw  mm6, 4                       /* mm6 >>= 4                   0 1 2 3 4 5 6 7    */
  217. movq   [ecx], mm0                   /* v[7*stride] = mm0           0 1 2 3 4 5 6 7    */
  218. psrlw  mm7, 4                       /* mm7 >>= 4                   0 1 2 3 4 5 6 7    */
  219. packuswb mm6, mm7                   /* pack mm7, mm6 to mm6        0 1 2 3 4 5 6 7    */
  220. add   ecx, stride                   /* ecx points at v[8*stride]   0 1 2 3 4 5 6 7    */     
  221. nop                                 /*                             0 1 2 3 4 5 6 7    */     
  222. movq   [ecx], mm6                   /* v[8*stride] = mm6           0 1 2 3 4 5 6 7    */
  223. pop ecx
  224. pop ebx
  225. pop eax
  226. };
  227. #ifdef PP_SELF_CHECK
  228. for (k=0; k<8; k++) { /* loop top->bottom */
  229. for (j=0; j<8; j++) { /* loop left->right */
  230. vv = &(v[(k+1)*stride + j]);
  231. if (*vv != selfcheck[j+8*k]) {
  232. printf("ERROR: problem with vertical LPF9 filter in row %dn", k+1);
  233. }
  234. }
  235. }
  236. #endif
  237. }