macroblock.c
上传用户:lctgjx
上传日期:2022-06-04
资源大小:8887k
文件大小:56k
源码类别:

流媒体/Mpeg4/MP4

开发平台:

Visual C++

  1. /*****************************************************************************
  2.  * macroblock.c: h264 encoder library
  3.  *****************************************************************************
  4.  * Copyright (C) 2003-2008 x264 project
  5.  *
  6.  * Authors: Laurent Aimar <fenrir@via.ecp.fr>
  7.  *          Loren Merritt <lorenm@u.washington.edu>
  8.  *          Jason Garrett-Glaser <darkshikari@gmail.com>
  9.  *
  10.  * This program is free software; you can redistribute it and/or modify
  11.  * it under the terms of the GNU General Public License as published by
  12.  * the Free Software Foundation; either version 2 of the License, or
  13.  * (at your option) any later version.
  14.  *
  15.  * This program is distributed in the hope that it will be useful,
  16.  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  17.  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  18.  * GNU General Public License for more details.
  19.  *
  20.  * You should have received a copy of the GNU General Public License
  21.  * along with this program; if not, write to the Free Software
  22.  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  23.  *****************************************************************************/
  24. #include "common.h"
  25. #include "encoder/me.h"
  26. void x264_mb_predict_mv( x264_t *h, int i_list, int idx, int i_width, int16_t mvp[2] )
  27. {
  28.     const int i8 = x264_scan8[idx];
  29.     const int i_ref= h->mb.cache.ref[i_list][i8];
  30.     int     i_refa = h->mb.cache.ref[i_list][i8 - 1];
  31.     int16_t *mv_a  = h->mb.cache.mv[i_list][i8 - 1];
  32.     int     i_refb = h->mb.cache.ref[i_list][i8 - 8];
  33.     int16_t *mv_b  = h->mb.cache.mv[i_list][i8 - 8];
  34.     int     i_refc = h->mb.cache.ref[i_list][i8 - 8 + i_width ];
  35.     int16_t *mv_c  = h->mb.cache.mv[i_list][i8 - 8 + i_width];
  36.     int i_count = 0;
  37.     if( (idx&3) >= 2 + (i_width&1) || i_refc == -2 )
  38.     {
  39.         i_refc = h->mb.cache.ref[i_list][i8 - 8 - 1];
  40.         mv_c   = h->mb.cache.mv[i_list][i8 - 8 - 1];
  41.     }
  42.     if( h->mb.i_partition == D_16x8 )
  43.     {
  44.         if( idx == 0 )
  45.         {
  46.             if( i_refb == i_ref )
  47.             {
  48.                 *(uint32_t*)mvp = *(uint32_t*)mv_b;
  49.                 return;
  50.             }
  51.         }
  52.         else
  53.         {
  54.             if( i_refa == i_ref )
  55.             {
  56.                 *(uint32_t*)mvp = *(uint32_t*)mv_a;
  57.                 return;
  58.             }
  59.         }
  60.     }
  61.     else if( h->mb.i_partition == D_8x16 )
  62.     {
  63.         if( idx == 0 )
  64.         {
  65.             if( i_refa == i_ref )
  66.             {
  67.                 *(uint32_t*)mvp = *(uint32_t*)mv_a;
  68.                 return;
  69.             }
  70.         }
  71.         else
  72.         {
  73.             if( i_refc == i_ref )
  74.             {
  75.                 *(uint32_t*)mvp = *(uint32_t*)mv_c;
  76.                 return;
  77.             }
  78.         }
  79.     }
  80.     if( i_refa == i_ref ) i_count++;
  81.     if( i_refb == i_ref ) i_count++;
  82.     if( i_refc == i_ref ) i_count++;
  83.     if( i_count > 1 )
  84.     {
  85. median:
  86.         x264_median_mv( mvp, mv_a, mv_b, mv_c );
  87.     }
  88.     else if( i_count == 1 )
  89.     {
  90.         if( i_refa == i_ref )
  91.             *(uint32_t*)mvp = *(uint32_t*)mv_a;
  92.         else if( i_refb == i_ref )
  93.             *(uint32_t*)mvp = *(uint32_t*)mv_b;
  94.         else
  95.             *(uint32_t*)mvp = *(uint32_t*)mv_c;
  96.     }
  97.     else if( i_refb == -2 && i_refc == -2 && i_refa != -2 )
  98.         *(uint32_t*)mvp = *(uint32_t*)mv_a;
  99.     else
  100.         goto median;
  101. }
  102. void x264_mb_predict_mv_16x16( x264_t *h, int i_list, int i_ref, int16_t mvp[2] )
  103. {
  104.     int     i_refa = h->mb.cache.ref[i_list][X264_SCAN8_0 - 1];
  105.     int16_t *mv_a  = h->mb.cache.mv[i_list][X264_SCAN8_0 - 1];
  106.     int     i_refb = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8];
  107.     int16_t *mv_b  = h->mb.cache.mv[i_list][X264_SCAN8_0 - 8];
  108.     int     i_refc = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8 + 4];
  109.     int16_t *mv_c  = h->mb.cache.mv[i_list][X264_SCAN8_0 - 8 + 4];
  110.     int i_count = 0;
  111.     if( i_refc == -2 )
  112.     {
  113.         i_refc = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8 - 1];
  114.         mv_c   = h->mb.cache.mv[i_list][X264_SCAN8_0 - 8 - 1];
  115.     }
  116.     if( i_refa == i_ref ) i_count++;
  117.     if( i_refb == i_ref ) i_count++;
  118.     if( i_refc == i_ref ) i_count++;
  119.     if( i_count > 1 )
  120.     {
  121. median:
  122.         x264_median_mv( mvp, mv_a, mv_b, mv_c );
  123.     }
  124.     else if( i_count == 1 )
  125.     {
  126.         if( i_refa == i_ref )
  127.             *(uint32_t*)mvp = *(uint32_t*)mv_a;
  128.         else if( i_refb == i_ref )
  129.             *(uint32_t*)mvp = *(uint32_t*)mv_b;
  130.         else
  131.             *(uint32_t*)mvp = *(uint32_t*)mv_c;
  132.     }
  133.     else if( i_refb == -2 && i_refc == -2 && i_refa != -2 )
  134.         *(uint32_t*)mvp = *(uint32_t*)mv_a;
  135.     else
  136.         goto median;
  137. }
  138. void x264_mb_predict_mv_pskip( x264_t *h, int16_t mv[2] )
  139. {
  140.     int     i_refa = h->mb.cache.ref[0][X264_SCAN8_0 - 1];
  141.     int     i_refb = h->mb.cache.ref[0][X264_SCAN8_0 - 8];
  142.     int16_t *mv_a  = h->mb.cache.mv[0][X264_SCAN8_0 - 1];
  143.     int16_t *mv_b  = h->mb.cache.mv[0][X264_SCAN8_0 - 8];
  144.     if( i_refa == -2 || i_refb == -2 ||
  145.         !( i_refa | *(uint32_t*)mv_a ) ||
  146.         !( i_refb | *(uint32_t*)mv_b ) )
  147.     {
  148.         *(uint32_t*)mv = 0;
  149.     }
  150.     else
  151.     {
  152.         x264_mb_predict_mv_16x16( h, 0, 0, mv );
  153.     }
  154. }
  155. static int x264_mb_predict_mv_direct16x16_temporal( x264_t *h )
  156. {
  157.     int i_mb_4x4 = 16 * h->mb.i_mb_stride * h->mb.i_mb_y + 4 * h->mb.i_mb_x;
  158.     int i_mb_8x8 =  4 * h->mb.i_mb_stride * h->mb.i_mb_y + 2 * h->mb.i_mb_x;
  159.     int i8;
  160.     const int type_col = h->fref1[0]->mb_type[ h->mb.i_mb_xy ];
  161.     x264_macroblock_cache_ref( h, 0, 0, 4, 4, 1, 0 );
  162.     if( IS_INTRA( type_col ) )
  163.     {
  164.         x264_macroblock_cache_ref( h, 0, 0, 4, 4, 0, 0 );
  165.         x264_macroblock_cache_mv(  h, 0, 0, 4, 4, 0, 0 );
  166.         x264_macroblock_cache_mv(  h, 0, 0, 4, 4, 1, 0 );
  167.         return 1;
  168.     }
  169.     for( i8 = 0; i8 < 4; i8++ )
  170.     {
  171.         const int x8 = i8%2;
  172.         const int y8 = i8/2;
  173.         const int i_part_8x8 = i_mb_8x8 + x8 + y8 * h->mb.i_b8_stride;
  174.         const int i_ref = h->mb.map_col_to_list0[ h->fref1[0]->ref[0][ i_part_8x8 ] ];
  175.         if( i_ref >= 0 )
  176.         {
  177.             const int dist_scale_factor = h->mb.dist_scale_factor[i_ref][0];
  178.             const int16_t *mv_col = h->fref1[0]->mv[0][ i_mb_4x4 + 3*x8 + 3*y8 * h->mb.i_b4_stride];
  179.             const int l0x = ( dist_scale_factor * mv_col[0] + 128 ) >> 8;
  180.             const int l0y = ( dist_scale_factor * mv_col[1] + 128 ) >> 8;
  181.             if( h->param.i_threads > 1 && (l0y > h->mb.mv_max_spel[1] || l0y-mv_col[1] > h->mb.mv_max_spel[1]) )
  182.                 return 0;
  183.             x264_macroblock_cache_ref( h, 2*x8, 2*y8, 2, 2, 0, i_ref );
  184.             x264_macroblock_cache_mv( h, 2*x8, 2*y8, 2, 2, 0, pack16to32_mask(l0x, l0y) );
  185.             x264_macroblock_cache_mv( h, 2*x8, 2*y8, 2, 2, 1, pack16to32_mask(l0x-mv_col[0], l0y-mv_col[1]) );
  186.         }
  187.         else
  188.         {
  189.             /* the collocated ref isn't in the current list0 */
  190.             /* FIXME: we might still be able to use direct_8x8 on some partitions */
  191.             /* FIXME: with B-pyramid + extensive ref list reordering
  192.              *   (not currently used), we would also have to check
  193.              *   l1mv1 like in spatial mode */
  194.             return 0;
  195.         }
  196.     }
  197.     return 1;
  198. }
  199. static int x264_mb_predict_mv_direct16x16_spatial( x264_t *h )
  200. {
  201.     int ref[2];
  202.     ALIGNED_8( int16_t mv[2][2] );
  203.     int i_list;
  204.     int i8;
  205.     const int8_t *l1ref0 = &h->fref1[0]->ref[0][ h->mb.i_b8_xy ];
  206.     const int8_t *l1ref1 = &h->fref1[0]->ref[1][ h->mb.i_b8_xy ];
  207.     const int16_t (*l1mv0)[2] = (const int16_t (*)[2]) &h->fref1[0]->mv[0][ h->mb.i_b4_xy ];
  208.     const int16_t (*l1mv1)[2] = (const int16_t (*)[2]) &h->fref1[0]->mv[1][ h->mb.i_b4_xy ];
  209.     const int type_col = h->fref1[0]->mb_type[ h->mb.i_mb_xy ];
  210.     for( i_list=0; i_list<2; i_list++ )
  211.     {
  212.         int i_refa = h->mb.cache.ref[i_list][X264_SCAN8_0 - 1];
  213.         int i_refb = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8];
  214.         int i_refc = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8 + 4];
  215.         if( i_refc == -2 )
  216.             i_refc = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8 - 1];
  217.         ref[i_list] = i_refa;
  218.         if( ref[i_list] < 0 || ( i_refb < ref[i_list] && i_refb >= 0 ))
  219.             ref[i_list] = i_refb;
  220.         if( ref[i_list] < 0 || ( i_refc < ref[i_list] && i_refc >= 0 ))
  221.             ref[i_list] = i_refc;
  222.         if( ref[i_list] < 0 )
  223.             ref[i_list] = -1;
  224.     }
  225.     if( ref[0] < 0 && ref[1] < 0 )
  226.     {
  227.         x264_macroblock_cache_ref( h, 0, 0, 4, 4, 0, 0 );
  228.         x264_macroblock_cache_ref( h, 0, 0, 4, 4, 1, 0 );
  229.         x264_macroblock_cache_mv( h, 0, 0, 4, 4, 0, 0 );
  230.         x264_macroblock_cache_mv( h, 0, 0, 4, 4, 1, 0 );
  231.         return 1;
  232.     }
  233.     if( ref[0] >= 0 )
  234.         x264_mb_predict_mv_16x16( h, 0, ref[0], mv[0] );
  235.     else
  236.         *(uint32_t*)mv[0] = 0;
  237.     if( ref[1] >= 0 )
  238.         x264_mb_predict_mv_16x16( h, 1, ref[1], mv[1] );
  239.     else
  240.         *(uint32_t*)mv[1] = 0;
  241.     x264_macroblock_cache_ref( h, 0, 0, 4, 4, 0, ref[0] );
  242.     x264_macroblock_cache_ref( h, 0, 0, 4, 4, 1, ref[1] );
  243.     x264_macroblock_cache_mv_ptr( h, 0, 0, 4, 4, 0, mv[0] );
  244.     x264_macroblock_cache_mv_ptr( h, 0, 0, 4, 4, 1, mv[1] );
  245.     if( h->param.i_threads > 1
  246.         && ( mv[0][1] > h->mb.mv_max_spel[1]
  247.           || mv[1][1] > h->mb.mv_max_spel[1] ) )
  248.     {
  249. #if 0
  250.         fprintf(stderr, "direct_spatial: (%d,%d) (%d,%d) > %d n",
  251.                 mv[0][0], mv[0][1], mv[1][0], mv[1][1],
  252.                 h->mb.mv_max_spel[1]);
  253. #endif
  254.         return 0;
  255.     }
  256.     if( IS_INTRA( type_col ) || (ref[0]&&ref[1]) )
  257.         return 1;
  258.     /* col_zero_flag */
  259.     for( i8=0; i8<4; i8++ )
  260.     {
  261.         const int x8 = i8%2;
  262.         const int y8 = i8/2;
  263.         const int o8 = x8 + y8 * h->mb.i_b8_stride;
  264.         const int o4 = 3*(x8 + y8 * h->mb.i_b4_stride);
  265.         if( l1ref0[o8] == 0 )
  266.         {
  267.             if( abs( l1mv0[o4][0] ) <= 1 && abs( l1mv0[o4][1] ) <= 1 )
  268.             {
  269.                 if( ref[0] == 0 ) x264_macroblock_cache_mv( h, 2*x8, 2*y8, 2, 2, 0, 0 );
  270.                 if( ref[1] == 0 ) x264_macroblock_cache_mv( h, 2*x8, 2*y8, 2, 2, 1, 0 );
  271.             }
  272.         }
  273.         else if( l1ref0[o8] < 0 && l1ref1[o8] == 0 )
  274.         {
  275.             if( abs( l1mv1[o4][0] ) <= 1 && abs( l1mv1[o4][1] ) <= 1 )
  276.             {
  277.                 if( ref[0] == 0 ) x264_macroblock_cache_mv( h, 2*x8, 2*y8, 2, 2, 0, 0 );
  278.                 if( ref[1] == 0 ) x264_macroblock_cache_mv( h, 2*x8, 2*y8, 2, 2, 1, 0 );
  279.             }
  280.         }
  281.     }
  282.     return 1;
  283. }
  284. int x264_mb_predict_mv_direct16x16( x264_t *h, int *b_changed )
  285. {
  286.     int b_available;
  287.     if( h->param.analyse.i_direct_mv_pred == X264_DIRECT_PRED_NONE )
  288.         return 0;
  289.     else if( h->sh.b_direct_spatial_mv_pred )
  290.         b_available = x264_mb_predict_mv_direct16x16_spatial( h );
  291.     else
  292.         b_available = x264_mb_predict_mv_direct16x16_temporal( h );
  293.     if( b_changed != NULL && b_available )
  294.     {
  295.         int type_col = h->fref1[0]->mb_type[ h->mb.i_mb_xy ];
  296.         if( IS_INTRA(type_col) || type_col == P_SKIP )
  297.         {
  298.             *b_changed = h->mb.cache.direct_ref[0][0] != h->mb.cache.ref[0][X264_SCAN8_0]
  299.                       || h->mb.cache.direct_ref[1][0] != h->mb.cache.ref[1][X264_SCAN8_0]
  300.                       || *(uint32_t*)h->mb.cache.direct_mv[0][X264_SCAN8_0] != *(uint32_t*)h->mb.cache.mv[0][X264_SCAN8_0]
  301.                       || *(uint32_t*)h->mb.cache.direct_mv[1][X264_SCAN8_0] != *(uint32_t*)h->mb.cache.mv[1][X264_SCAN8_0];
  302.         }
  303.         else
  304.         {
  305.             int i, l;
  306.             *b_changed = 0;
  307.             for( l = 0; l < 2; l++ )
  308.                 for( i = 0; i < 4; i++ )
  309.                     *b_changed |= h->mb.cache.direct_ref[l][i] != h->mb.cache.ref[l][x264_scan8[i*4]];
  310.             *b_changed = *b_changed || memcmp(h->mb.cache.direct_mv, h->mb.cache.mv, sizeof(h->mb.cache.mv));
  311.         }
  312.         if( !*b_changed )
  313.             return b_available;
  314.     }
  315.     /* cache ref & mv */
  316.     if( b_available )
  317.     {
  318.         int i, l;
  319.         for( l = 0; l < 2; l++ )
  320.             for( i = 0; i < 4; i++ )
  321.                 h->mb.cache.direct_ref[l][i] = h->mb.cache.ref[l][x264_scan8[i*4]];
  322.         h->mc.memcpy_aligned(h->mb.cache.direct_mv, h->mb.cache.mv, sizeof(h->mb.cache.mv));
  323.     }
  324.     return b_available;
  325. }
  326. void x264_mb_load_mv_direct8x8( x264_t *h, int idx )
  327. {
  328.     const int x = 2*(idx%2);
  329.     const int y = 2*(idx/2);
  330.     x264_macroblock_cache_ref( h, x, y, 2, 2, 0, h->mb.cache.direct_ref[0][idx] );
  331.     x264_macroblock_cache_ref( h, x, y, 2, 2, 1, h->mb.cache.direct_ref[1][idx] );
  332.     *(uint64_t*)h->mb.cache.mv[0][x264_scan8[idx*4]] =
  333.     *(uint64_t*)h->mb.cache.direct_mv[0][x264_scan8[idx*4]];
  334.     *(uint64_t*)h->mb.cache.mv[0][x264_scan8[idx*4]+8] =
  335.     *(uint64_t*)h->mb.cache.direct_mv[0][x264_scan8[idx*4]+8];
  336.     *(uint64_t*)h->mb.cache.mv[1][x264_scan8[idx*4]] =
  337.     *(uint64_t*)h->mb.cache.direct_mv[1][x264_scan8[idx*4]];
  338.     *(uint64_t*)h->mb.cache.mv[1][x264_scan8[idx*4]+8] =
  339.     *(uint64_t*)h->mb.cache.direct_mv[1][x264_scan8[idx*4]+8];
  340. }
  341. /* This just improves encoder performance, it's not part of the spec */
  342. void x264_mb_predict_mv_ref16x16( x264_t *h, int i_list, int i_ref, int16_t mvc[9][2], int *i_mvc )
  343. {
  344.     int16_t (*mvr)[2] = h->mb.mvr[i_list][i_ref];
  345.     int i = 0;
  346. #define SET_MVP(mvp) { 
  347.         *(uint32_t*)mvc[i] = *(uint32_t*)mvp; 
  348.         i++; 
  349.     }
  350.     /* b_direct */
  351.     if( h->sh.i_type == SLICE_TYPE_B
  352.         && h->mb.cache.ref[i_list][x264_scan8[12]] == i_ref )
  353.     {
  354.         SET_MVP( h->mb.cache.mv[i_list][x264_scan8[12]] );
  355.     }
  356.     if( i_ref == 0 && h->frames.b_have_lowres )
  357.     {
  358.         int16_t (*lowres_mv)[2] = i_list ? h->fenc->lowres_mvs[1][h->fref1[0]->i_frame-h->fenc->i_frame-1]
  359.                                          : h->fenc->lowres_mvs[0][h->fenc->i_frame-h->fref0[0]->i_frame-1];
  360.         if( lowres_mv[0][0] != 0x7fff ) *(uint32_t*)mvc[i++] = (*(uint32_t*)lowres_mv[h->mb.i_mb_xy]*2)&0xfffeffff;
  361.     }
  362.     /* spatial predictors */
  363.     if( h->mb.i_neighbour & MB_LEFT )
  364.     {
  365.         int i_mb_l = h->mb.i_mb_xy - 1;
  366.         /* skip MBs didn't go through the whole search process, so mvr is undefined */
  367.         if( !IS_SKIP( h->mb.type[i_mb_l] ) )
  368.             SET_MVP( mvr[i_mb_l] );
  369.     }
  370.     if( h->mb.i_neighbour & MB_TOP )
  371.     {
  372.         int i_mb_t = h->mb.i_mb_top_xy;
  373.         if( !IS_SKIP( h->mb.type[i_mb_t] ) )
  374.             SET_MVP( mvr[i_mb_t] );
  375.         if( h->mb.i_neighbour & MB_TOPLEFT && !IS_SKIP( h->mb.type[i_mb_t - 1] ) )
  376.             SET_MVP( mvr[i_mb_t-1] );
  377.         if( h->mb.i_mb_x < h->mb.i_mb_stride - 1 && !IS_SKIP( h->mb.type[i_mb_t + 1] ) )
  378.             SET_MVP( mvr[i_mb_t+1] );
  379.     }
  380. #undef SET_MVP
  381.     /* temporal predictors */
  382.     /* FIXME temporal scaling w/ interlace */
  383.     if( h->fref0[0]->i_ref[0] > 0 && !h->sh.b_mbaff )
  384.     {
  385.         x264_frame_t *l0 = h->fref0[0];
  386. #define SET_TMVP(dx, dy) { 
  387.             int i_b4 = h->mb.i_b4_xy + dx*4 + dy*4*h->mb.i_b4_stride; 
  388.             int i_b8 = h->mb.i_b8_xy + dx*2 + dy*2*h->mb.i_b8_stride; 
  389.             int ref_col = l0->ref[0][i_b8]; 
  390.             if( ref_col >= 0 ) 
  391.             { 
  392.                 int scale = (h->fdec->i_poc - h->fdec->ref_poc[0][i_ref]) * l0->inv_ref_poc[ref_col];
  393.                 mvc[i][0] = (l0->mv[0][i_b4][0]*scale + 128) >> 8;
  394.                 mvc[i][1] = (l0->mv[0][i_b4][1]*scale + 128) >> 8;
  395.                 i++; 
  396.             } 
  397.         }
  398.         SET_TMVP(0,0);
  399.         if( h->mb.i_mb_x < h->sps->i_mb_width-1 )
  400.             SET_TMVP(1,0);
  401.         if( h->mb.i_mb_y < h->sps->i_mb_height-1 )
  402.             SET_TMVP(0,1);
  403. #undef SET_TMVP
  404.     }
  405.     *i_mvc = i;
  406. }
  407. /* Set up a lookup table for delta pocs to reduce an IDIV to an IMUL */
  408. static void setup_inverse_delta_pocs( x264_t *h )
  409. {
  410.     int i;
  411.     for( i = 0; i < h->i_ref0; i++ )
  412.     {
  413.         int delta = h->fdec->i_poc - h->fref0[i]->i_poc;
  414.         h->fdec->inv_ref_poc[i] = (256 + delta/2) / delta;
  415.     }
  416. }
  417. static inline void x264_mb_mc_0xywh( x264_t *h, int x, int y, int width, int height )
  418. {
  419.     const int i8 = x264_scan8[0]+x+8*y;
  420.     const int i_ref = h->mb.cache.ref[0][i8];
  421.     const int mvx   = x264_clip3( h->mb.cache.mv[0][i8][0], h->mb.mv_min[0], h->mb.mv_max[0] );
  422.     int       mvy   = x264_clip3( h->mb.cache.mv[0][i8][1], h->mb.mv_min[1], h->mb.mv_max[1] );
  423.     h->mc.mc_luma( &h->mb.pic.p_fdec[0][4*y*FDEC_STRIDE+4*x], FDEC_STRIDE,
  424.                    h->mb.pic.p_fref[0][i_ref], h->mb.pic.i_stride[0],
  425.                    mvx + 4*4*x, mvy + 4*4*y, 4*width, 4*height );
  426.     // chroma is offset if MCing from a field of opposite parity
  427.     if( h->mb.b_interlaced & i_ref )
  428.         mvy += (h->mb.i_mb_y & 1)*4 - 2;
  429.     h->mc.mc_chroma( &h->mb.pic.p_fdec[1][2*y*FDEC_STRIDE+2*x], FDEC_STRIDE,
  430.                      &h->mb.pic.p_fref[0][i_ref][4][2*y*h->mb.pic.i_stride[1]+2*x], h->mb.pic.i_stride[1],
  431.                      mvx, mvy, 2*width, 2*height );
  432.     h->mc.mc_chroma( &h->mb.pic.p_fdec[2][2*y*FDEC_STRIDE+2*x], FDEC_STRIDE,
  433.                      &h->mb.pic.p_fref[0][i_ref][5][2*y*h->mb.pic.i_stride[2]+2*x], h->mb.pic.i_stride[2],
  434.                      mvx, mvy, 2*width, 2*height );
  435. }
  436. static inline void x264_mb_mc_1xywh( x264_t *h, int x, int y, int width, int height )
  437. {
  438.     const int i8 = x264_scan8[0]+x+8*y;
  439.     const int i_ref = h->mb.cache.ref[1][i8];
  440.     const int mvx   = x264_clip3( h->mb.cache.mv[1][i8][0], h->mb.mv_min[0], h->mb.mv_max[0] );
  441.     int       mvy   = x264_clip3( h->mb.cache.mv[1][i8][1], h->mb.mv_min[1], h->mb.mv_max[1] );
  442.     h->mc.mc_luma( &h->mb.pic.p_fdec[0][4*y*FDEC_STRIDE+4*x], FDEC_STRIDE,
  443.                    h->mb.pic.p_fref[1][i_ref], h->mb.pic.i_stride[0],
  444.                    mvx + 4*4*x, mvy + 4*4*y, 4*width, 4*height );
  445.     if( h->mb.b_interlaced & i_ref )
  446.         mvy += (h->mb.i_mb_y & 1)*4 - 2;
  447.     h->mc.mc_chroma( &h->mb.pic.p_fdec[1][2*y*FDEC_STRIDE+2*x], FDEC_STRIDE,
  448.                      &h->mb.pic.p_fref[1][i_ref][4][2*y*h->mb.pic.i_stride[1]+2*x], h->mb.pic.i_stride[1],
  449.                      mvx, mvy, 2*width, 2*height );
  450.     h->mc.mc_chroma( &h->mb.pic.p_fdec[2][2*y*FDEC_STRIDE+2*x], FDEC_STRIDE,
  451.                      &h->mb.pic.p_fref[1][i_ref][5][2*y*h->mb.pic.i_stride[2]+2*x], h->mb.pic.i_stride[2],
  452.                      mvx, mvy, 2*width, 2*height );
  453. }
  454. static inline void x264_mb_mc_01xywh( x264_t *h, int x, int y, int width, int height )
  455. {
  456.     const int i8 = x264_scan8[0]+x+8*y;
  457.     const int i_ref0 = h->mb.cache.ref[0][i8];
  458.     const int i_ref1 = h->mb.cache.ref[1][i8];
  459.     const int weight = h->mb.bipred_weight[i_ref0][i_ref1];
  460.     const int mvx0   = x264_clip3( h->mb.cache.mv[0][i8][0], h->mb.mv_min[0], h->mb.mv_max[0] );
  461.     const int mvx1   = x264_clip3( h->mb.cache.mv[1][i8][0], h->mb.mv_min[0], h->mb.mv_max[0] );
  462.     int       mvy0   = x264_clip3( h->mb.cache.mv[0][i8][1], h->mb.mv_min[1], h->mb.mv_max[1] );
  463.     int       mvy1   = x264_clip3( h->mb.cache.mv[1][i8][1], h->mb.mv_min[1], h->mb.mv_max[1] );
  464.     int       i_mode = x264_size2pixel[height][width];
  465.     int       i_stride0 = 16, i_stride1 = 16;
  466.     ALIGNED_ARRAY_16( uint8_t, tmp0,[16*16] );
  467.     ALIGNED_ARRAY_16( uint8_t, tmp1,[16*16] );
  468.     uint8_t *src0, *src1;
  469.     src0 = h->mc.get_ref( tmp0, &i_stride0, h->mb.pic.p_fref[0][i_ref0], h->mb.pic.i_stride[0],
  470.                           mvx0 + 4*4*x, mvy0 + 4*4*y, 4*width, 4*height );
  471.     src1 = h->mc.get_ref( tmp1, &i_stride1, h->mb.pic.p_fref[1][i_ref1], h->mb.pic.i_stride[0],
  472.                           mvx1 + 4*4*x, mvy1 + 4*4*y, 4*width, 4*height );
  473.     h->mc.avg[i_mode]( &h->mb.pic.p_fdec[0][4*y*FDEC_STRIDE+4*x], FDEC_STRIDE,
  474.                        src0, i_stride0, src1, i_stride1, weight );
  475.     if( h->mb.b_interlaced & i_ref0 )
  476.         mvy0 += (h->mb.i_mb_y & 1)*4 - 2;
  477.     if( h->mb.b_interlaced & i_ref1 )
  478.         mvy1 += (h->mb.i_mb_y & 1)*4 - 2;
  479.     h->mc.mc_chroma( tmp0, 16, &h->mb.pic.p_fref[0][i_ref0][4][2*y*h->mb.pic.i_stride[1]+2*x], h->mb.pic.i_stride[1],
  480.                      mvx0, mvy0, 2*width, 2*height );
  481.     h->mc.mc_chroma( tmp1, 16, &h->mb.pic.p_fref[1][i_ref1][4][2*y*h->mb.pic.i_stride[1]+2*x], h->mb.pic.i_stride[1],
  482.                      mvx1, mvy1, 2*width, 2*height );
  483.     h->mc.avg[i_mode+3]( &h->mb.pic.p_fdec[1][2*y*FDEC_STRIDE+2*x], FDEC_STRIDE, tmp0, 16, tmp1, 16, weight );
  484.     h->mc.mc_chroma( tmp0, 16, &h->mb.pic.p_fref[0][i_ref0][5][2*y*h->mb.pic.i_stride[2]+2*x], h->mb.pic.i_stride[2],
  485.                      mvx0, mvy0, 2*width, 2*height );
  486.     h->mc.mc_chroma( tmp1, 16, &h->mb.pic.p_fref[1][i_ref1][5][2*y*h->mb.pic.i_stride[2]+2*x], h->mb.pic.i_stride[2],
  487.                      mvx1, mvy1, 2*width, 2*height );
  488.     h->mc.avg[i_mode+3]( &h->mb.pic.p_fdec[2][2*y*FDEC_STRIDE+2*x], FDEC_STRIDE, tmp0, 16, tmp1, 16, weight );
  489. }
  490. static void x264_mb_mc_direct8x8( x264_t *h, int x, int y )
  491. {
  492.     const int i8 = x264_scan8[0] + x + 8*y;
  493.     if( h->mb.cache.ref[0][i8] >= 0 )
  494.         if( h->mb.cache.ref[1][i8] >= 0 )
  495.             x264_mb_mc_01xywh( h, x, y, 2, 2 );
  496.         else
  497.             x264_mb_mc_0xywh( h, x, y, 2, 2 );
  498.     else
  499.         x264_mb_mc_1xywh( h, x, y, 2, 2 );
  500. }
  501. void x264_mb_mc_8x8( x264_t *h, int i8 )
  502. {
  503.     const int x = 2*(i8&1);
  504.     const int y = 2*(i8>>1);
  505.     switch( h->mb.i_sub_partition[i8] )
  506.     {
  507.         case D_L0_8x8:
  508.             x264_mb_mc_0xywh( h, x, y, 2, 2 );
  509.             break;
  510.         case D_L0_8x4:
  511.             x264_mb_mc_0xywh( h, x, y+0, 2, 1 );
  512.             x264_mb_mc_0xywh( h, x, y+1, 2, 1 );
  513.             break;
  514.         case D_L0_4x8:
  515.             x264_mb_mc_0xywh( h, x+0, y, 1, 2 );
  516.             x264_mb_mc_0xywh( h, x+1, y, 1, 2 );
  517.             break;
  518.         case D_L0_4x4:
  519.             x264_mb_mc_0xywh( h, x+0, y+0, 1, 1 );
  520.             x264_mb_mc_0xywh( h, x+1, y+0, 1, 1 );
  521.             x264_mb_mc_0xywh( h, x+0, y+1, 1, 1 );
  522.             x264_mb_mc_0xywh( h, x+1, y+1, 1, 1 );
  523.             break;
  524.         case D_L1_8x8:
  525.             x264_mb_mc_1xywh( h, x, y, 2, 2 );
  526.             break;
  527.         case D_BI_8x8:
  528.             x264_mb_mc_01xywh( h, x, y, 2, 2 );
  529.             break;
  530.         case D_DIRECT_8x8:
  531.             x264_mb_mc_direct8x8( h, x, y );
  532.             break;
  533.     }
  534. }
  535. void x264_mb_mc( x264_t *h )
  536. {
  537.     if( h->mb.i_type == P_L0 )
  538.     {
  539.         if( h->mb.i_partition == D_16x16 )
  540.         {
  541.             x264_mb_mc_0xywh( h, 0, 0, 4, 4 );
  542.         }
  543.         else if( h->mb.i_partition == D_16x8 )
  544.         {
  545.             x264_mb_mc_0xywh( h, 0, 0, 4, 2 );
  546.             x264_mb_mc_0xywh( h, 0, 2, 4, 2 );
  547.         }
  548.         else if( h->mb.i_partition == D_8x16 )
  549.         {
  550.             x264_mb_mc_0xywh( h, 0, 0, 2, 4 );
  551.             x264_mb_mc_0xywh( h, 2, 0, 2, 4 );
  552.         }
  553.     }
  554.     else if( h->mb.i_type == P_8x8 || h->mb.i_type == B_8x8 )
  555.     {
  556.         int i;
  557.         for( i = 0; i < 4; i++ )
  558.             x264_mb_mc_8x8( h, i );
  559.     }
  560.     else if( h->mb.i_type == B_SKIP || h->mb.i_type == B_DIRECT )
  561.     {
  562.         x264_mb_mc_direct8x8( h, 0, 0 );
  563.         x264_mb_mc_direct8x8( h, 2, 0 );
  564.         x264_mb_mc_direct8x8( h, 0, 2 );
  565.         x264_mb_mc_direct8x8( h, 2, 2 );
  566.     }
  567.     else    /* B_*x* */
  568.     {
  569.         const uint8_t *b_list0 = x264_mb_type_list_table[h->mb.i_type][0];
  570.         const uint8_t *b_list1 = x264_mb_type_list_table[h->mb.i_type][1];
  571.         if( h->mb.i_partition == D_16x16 )
  572.         {
  573.             if( b_list0[0] && b_list1[0] ) x264_mb_mc_01xywh( h, 0, 0, 4, 4 );
  574.             else if( b_list0[0] )          x264_mb_mc_0xywh ( h, 0, 0, 4, 4 );
  575.             else if( b_list1[0] )          x264_mb_mc_1xywh ( h, 0, 0, 4, 4 );
  576.         }
  577.         else if( h->mb.i_partition == D_16x8 )
  578.         {
  579.             if( b_list0[0] && b_list1[0] ) x264_mb_mc_01xywh( h, 0, 0, 4, 2 );
  580.             else if( b_list0[0] )          x264_mb_mc_0xywh ( h, 0, 0, 4, 2 );
  581.             else if( b_list1[0] )          x264_mb_mc_1xywh ( h, 0, 0, 4, 2 );
  582.             if( b_list0[1] && b_list1[1] ) x264_mb_mc_01xywh( h, 0, 2, 4, 2 );
  583.             else if( b_list0[1] )          x264_mb_mc_0xywh ( h, 0, 2, 4, 2 );
  584.             else if( b_list1[1] )          x264_mb_mc_1xywh ( h, 0, 2, 4, 2 );
  585.         }
  586.         else if( h->mb.i_partition == D_8x16 )
  587.         {
  588.             if( b_list0[0] && b_list1[0] ) x264_mb_mc_01xywh( h, 0, 0, 2, 4 );
  589.             else if( b_list0[0] )          x264_mb_mc_0xywh ( h, 0, 0, 2, 4 );
  590.             else if( b_list1[0] )          x264_mb_mc_1xywh ( h, 0, 0, 2, 4 );
  591.             if( b_list0[1] && b_list1[1] ) x264_mb_mc_01xywh( h, 2, 0, 2, 4 );
  592.             else if( b_list0[1] )          x264_mb_mc_0xywh ( h, 2, 0, 2, 4 );
  593.             else if( b_list1[1] )          x264_mb_mc_1xywh ( h, 2, 0, 2, 4 );
  594.         }
  595.     }
  596. }
  597. int x264_macroblock_cache_init( x264_t *h )
  598. {
  599.     int i, j;
  600.     int i_mb_count = h->mb.i_mb_count;
  601. //C程序不能中间定义变量 --@lia
  602. int buf_hpel,buf_ssim,me_range,buf_tesa,buf_mbtree;
  603.     h->mb.i_mb_stride = h->sps->i_mb_width;
  604.     h->mb.i_b8_stride = h->sps->i_mb_width * 2;
  605.     h->mb.i_b4_stride = h->sps->i_mb_width * 4;
  606.     h->mb.b_interlaced = h->param.b_interlaced;
  607.     CHECKED_MALLOC( h->mb.qp, i_mb_count * sizeof(int8_t) );
  608.     CHECKED_MALLOC( h->mb.cbp, i_mb_count * sizeof(int16_t) );
  609.     CHECKED_MALLOC( h->mb.skipbp, i_mb_count * sizeof(int8_t) );
  610.     CHECKED_MALLOC( h->mb.mb_transform_size, i_mb_count * sizeof(int8_t) );
  611.     /* 0 -> 3 top(4), 4 -> 6 : left(3) */
  612.     CHECKED_MALLOC( h->mb.intra4x4_pred_mode, i_mb_count * 8 * sizeof(int8_t) );
  613.     /* all coeffs */
  614.     CHECKED_MALLOC( h->mb.non_zero_count, i_mb_count * 24 * sizeof(uint8_t) );
  615.     CHECKED_MALLOC( h->mb.nnz_backup, h->sps->i_mb_width * 4 * 16 * sizeof(uint8_t) );
  616.     if( h->param.b_cabac )
  617.     {
  618.         CHECKED_MALLOC( h->mb.chroma_pred_mode, i_mb_count * sizeof(int8_t) );
  619.         CHECKED_MALLOC( h->mb.mvd[0], 2*16 * i_mb_count * sizeof(int16_t) );
  620.         CHECKED_MALLOC( h->mb.mvd[1], 2*16 * i_mb_count * sizeof(int16_t) );
  621.     }
  622.     for( i=0; i<2; i++ )
  623.     {
  624.         int i_refs = X264_MIN(16, (i ? 1 : h->param.i_frame_reference) + h->param.b_bframe_pyramid) << h->param.b_interlaced;
  625.         for( j=0; j < i_refs; j++ )
  626.             CHECKED_MALLOC( h->mb.mvr[i][j], 2 * i_mb_count * sizeof(int16_t) );
  627.     }
  628.     for( i=0; i<=h->param.b_interlaced; i++ )
  629.         for( j=0; j<3; j++ )
  630.         {
  631.             /* shouldn't really be initialized, just silences a valgrind false-positive in predict_8x8_filter_mmx */
  632.             CHECKED_MALLOCZERO( h->mb.intra_border_backup[i][j], (h->sps->i_mb_width*16+32)>>!!j );
  633.             h->mb.intra_border_backup[i][j] += 8;
  634.         }
  635.     /* init with not available (for top right idx=7,15) */
  636.     memset( h->mb.cache.ref[0], -2, X264_SCAN8_SIZE * sizeof( int8_t ) );
  637.     memset( h->mb.cache.ref[1], -2, X264_SCAN8_SIZE * sizeof( int8_t ) );
  638.     /* fdec:      fenc:
  639.      * yyyyyyy
  640.      * yYYYY      YYYY
  641.      * yYYYY      YYYY
  642.      * yYYYY      YYYY
  643.      * yYYYY      YYYY
  644.      * uuu vvv    UUVV
  645.      * uUU vVV    UUVV
  646.      * uUU vVV
  647.      */
  648.     h->mb.pic.p_fenc[0] = h->mb.pic.fenc_buf;
  649.     h->mb.pic.p_fenc[1] = h->mb.pic.fenc_buf + 16*FENC_STRIDE;
  650.     h->mb.pic.p_fenc[2] = h->mb.pic.fenc_buf + 16*FENC_STRIDE + 8;
  651.     h->mb.pic.p_fdec[0] = h->mb.pic.fdec_buf + 2*FDEC_STRIDE;
  652.     h->mb.pic.p_fdec[1] = h->mb.pic.fdec_buf + 19*FDEC_STRIDE;
  653.     h->mb.pic.p_fdec[2] = h->mb.pic.fdec_buf + 19*FDEC_STRIDE + 16;
  654.     h->mb.i_neighbour4[6] =
  655.     h->mb.i_neighbour4[9] =
  656.     h->mb.i_neighbour4[12] =
  657.     h->mb.i_neighbour4[14] = MB_LEFT|MB_TOP|MB_TOPLEFT|MB_TOPRIGHT;
  658.     h->mb.i_neighbour4[3] =
  659.     h->mb.i_neighbour4[7] =
  660.     h->mb.i_neighbour4[11] =
  661.     h->mb.i_neighbour4[13] =
  662.     h->mb.i_neighbour4[15] =
  663.     h->mb.i_neighbour8[3] = MB_LEFT|MB_TOP|MB_TOPLEFT;
  664.     //C程序不能中间定义变量 --@lia
  665. //int 
  666. buf_hpel = (h->param.i_width+48) * sizeof(int16_t);
  667.     //int 
  668. buf_ssim = h->param.analyse.b_ssim * 8 * (h->param.i_width/4+3) * sizeof(int);
  669.     //int 
  670. me_range = X264_MIN(h->param.analyse.i_me_range, h->param.analyse.i_mv_range);
  671.     //int 
  672. buf_tesa = (h->param.analyse.i_me_method >= X264_ME_ESA) *
  673.         ((me_range*2+18) * sizeof(int16_t) + (me_range+4) * (me_range+1) * 4 * sizeof(mvsad_t));
  674.     //int 
  675. buf_mbtree = h->param.rc.b_mb_tree * ((h->sps->i_mb_width+3)&~3) * sizeof(int);
  676.     CHECKED_MALLOC( h->scratch_buffer, X264_MAX4( buf_hpel, buf_ssim, buf_tesa, buf_mbtree ) );
  677.     return 0;
  678. fail: return -1;
  679. }
  680. void x264_macroblock_cache_end( x264_t *h )
  681. {
  682.     int i, j;
  683.     for( i=0; i<=h->param.b_interlaced; i++ )
  684.         for( j=0; j<3; j++ )
  685.             x264_free( h->mb.intra_border_backup[i][j] - 8 );
  686.     for( i=0; i<2; i++ )
  687.         for( j=0; j<32; j++ )
  688.             x264_free( h->mb.mvr[i][j] );
  689.     if( h->param.b_cabac )
  690.     {
  691.         x264_free( h->mb.chroma_pred_mode );
  692.         x264_free( h->mb.mvd[0] );
  693.         x264_free( h->mb.mvd[1] );
  694.     }
  695.     x264_free( h->mb.intra4x4_pred_mode );
  696.     x264_free( h->mb.non_zero_count );
  697.     x264_free( h->mb.nnz_backup );
  698.     x264_free( h->mb.mb_transform_size );
  699.     x264_free( h->mb.skipbp );
  700.     x264_free( h->mb.cbp );
  701.     x264_free( h->mb.qp );
  702.     x264_free( h->scratch_buffer );
  703. }
  704. void x264_macroblock_slice_init( x264_t *h )
  705. {
  706.     int i, j;
  707.     h->mb.mv[0] = h->fdec->mv[0];
  708.     h->mb.mv[1] = h->fdec->mv[1];
  709.     h->mb.ref[0] = h->fdec->ref[0];
  710.     h->mb.ref[1] = h->fdec->ref[1];
  711.     h->mb.type = h->fdec->mb_type;
  712.     h->fdec->i_ref[0] = h->i_ref0;
  713.     h->fdec->i_ref[1] = h->i_ref1;
  714.     for( i = 0; i < h->i_ref0; i++ )
  715.         h->fdec->ref_poc[0][i] = h->fref0[i]->i_poc;
  716.     if( h->sh.i_type == SLICE_TYPE_B )
  717.     {
  718.         for( i = 0; i < h->i_ref1; i++ )
  719.             h->fdec->ref_poc[1][i] = h->fref1[i]->i_poc;
  720.         h->mb.map_col_to_list0[-1] = -1;
  721.         h->mb.map_col_to_list0[-2] = -2;
  722.         for( i = 0; i < h->fref1[0]->i_ref[0]; i++ )
  723.         {
  724.             int poc = h->fref1[0]->ref_poc[0][i];
  725.             h->mb.map_col_to_list0[i] = -2;
  726.             for( j = 0; j < h->i_ref0; j++ )
  727.                 if( h->fref0[j]->i_poc == poc )
  728.                 {
  729.                     h->mb.map_col_to_list0[i] = j;
  730.                     break;
  731.                 }
  732.         }
  733.     }
  734.     if( h->sh.i_type == SLICE_TYPE_P )
  735.         memset( h->mb.cache.skip, 0, X264_SCAN8_SIZE * sizeof( int8_t ) );
  736.     setup_inverse_delta_pocs( h );
  737. }
  738. void x264_prefetch_fenc( x264_t *h, x264_frame_t *fenc, int i_mb_x, int i_mb_y )
  739. {
  740.     int stride_y  = fenc->i_stride[0];
  741.     int stride_uv = fenc->i_stride[1];
  742.     int off_y = 16 * (i_mb_x + i_mb_y * stride_y);
  743.     int off_uv = 8 * (i_mb_x + i_mb_y * stride_uv);
  744.     h->mc.prefetch_fenc( fenc->plane[0]+off_y, stride_y,
  745.                          fenc->plane[1+(i_mb_x&1)]+off_uv, stride_uv, i_mb_x );
  746. }
  747. static NOINLINE void copy_column8( uint8_t *dst, uint8_t *src )
  748. {
  749.     // input pointers are offset by 4 rows because that's faster (smaller instruction size on x86)
  750.     int i;
  751.     for( i = -4; i < 4; i++ )
  752.         dst[i*FDEC_STRIDE] = src[i*FDEC_STRIDE];
  753. }
  754. static void ALWAYS_INLINE x264_macroblock_load_pic_pointers( x264_t *h, int i_mb_x, int i_mb_y, int i)
  755. {
  756.     const int w = (i == 0 ? 16 : 8);
  757.     const int i_stride = h->fdec->i_stride[!!i];
  758.     const int i_stride2 = i_stride << h->mb.b_interlaced;
  759.     const int i_pix_offset = h->mb.b_interlaced
  760.                            ? w * (i_mb_x + (i_mb_y&~1) * i_stride) + (i_mb_y&1) * i_stride
  761.                            : w * (i_mb_x + i_mb_y * i_stride);
  762.     int ref_pix_offset[2] = { i_pix_offset, i_pix_offset };
  763.     const uint8_t *intra_fdec = &h->mb.intra_border_backup[i_mb_y & h->sh.b_mbaff][i][i_mb_x*16>>!!i];
  764.     x264_frame_t **fref[2] = { h->fref0, h->fref1 };
  765.     int j, k;
  766.     if( h->mb.b_interlaced )
  767.         ref_pix_offset[1] += (1-2*(i_mb_y&1)) * i_stride;
  768.     h->mb.pic.i_stride[i] = i_stride2;
  769.     h->mb.pic.p_fenc_plane[i] = &h->fenc->plane[i][i_pix_offset];
  770.     h->mc.copy[i?PIXEL_8x8:PIXEL_16x16]( h->mb.pic.p_fenc[i], FENC_STRIDE,
  771.         h->mb.pic.p_fenc_plane[i], i_stride2, w );
  772.     memcpy( &h->mb.pic.p_fdec[i][-1-FDEC_STRIDE], intra_fdec-1, w*3/2+1 );
  773.     if( h->mb.b_interlaced || h->mb.b_reencode_mb )
  774.     {
  775.         const uint8_t *plane_fdec = &h->fdec->plane[i][i_pix_offset];
  776.         for( j = 0; j < w; j++ )
  777.             h->mb.pic.p_fdec[i][-1+j*FDEC_STRIDE] = plane_fdec[-1+j*i_stride2];
  778.     }
  779.     for( j = 0; j < h->mb.pic.i_fref[0]; j++ )
  780.     {
  781.         h->mb.pic.p_fref[0][j][i==0 ? 0:i+3] = &fref[0][j >> h->mb.b_interlaced]->plane[i][ref_pix_offset[j&1]];
  782.         if( i == 0 )
  783.             for( k = 1; k < 4; k++ )
  784.                 h->mb.pic.p_fref[0][j][k] = &fref[0][j >> h->mb.b_interlaced]->filtered[k][ref_pix_offset[j&1]];
  785.     }
  786.     if( h->sh.i_type == SLICE_TYPE_B )
  787.         for( j = 0; j < h->mb.pic.i_fref[1]; j++ )
  788.         {
  789.             h->mb.pic.p_fref[1][j][i==0 ? 0:i+3] = &fref[1][j >> h->mb.b_interlaced]->plane[i][ref_pix_offset[j&1]];
  790.             if( i == 0 )
  791.                 for( k = 1; k < 4; k++ )
  792.                     h->mb.pic.p_fref[1][j][k] = &fref[1][j >> h->mb.b_interlaced]->filtered[k][ref_pix_offset[j&1]];
  793.         }
  794. }
  795. void x264_macroblock_cache_load( x264_t *h, int i_mb_x, int i_mb_y )
  796. {
  797.     int i_mb_xy = i_mb_y * h->mb.i_mb_stride + i_mb_x;
  798.     int i_mb_4x4 = 4*(i_mb_y * h->mb.i_b4_stride + i_mb_x);
  799.     int i_mb_8x8 = 2*(i_mb_y * h->mb.i_b8_stride + i_mb_x);
  800.     int i_top_y = i_mb_y - (1 << h->mb.b_interlaced);
  801.     int i_top_xy = i_top_y * h->mb.i_mb_stride + i_mb_x;
  802.     int i_top_4x4 = (4*i_top_y+3) * h->mb.i_b4_stride + 4*i_mb_x;
  803.     int i_top_8x8 = (2*i_top_y+1) * h->mb.i_b8_stride + 2*i_mb_x;
  804.     int i_left_xy = -1;
  805.     int i_top_type = -1;    /* gcc warn */
  806.     int i_left_type= -1;
  807.     int i;
  808.     /* init index */
  809.     h->mb.i_mb_x = i_mb_x;
  810.     h->mb.i_mb_y = i_mb_y;
  811.     h->mb.i_mb_xy = i_mb_xy;
  812.     h->mb.i_b8_xy = i_mb_8x8;
  813.     h->mb.i_b4_xy = i_mb_4x4;
  814.     h->mb.i_mb_top_xy = i_top_xy;
  815.     h->mb.i_neighbour = 0;
  816.     h->mb.i_neighbour_intra = 0;
  817.     /* load cache */
  818.     if( i_top_xy >= h->sh.i_first_mb )
  819.     {
  820.         h->mb.i_mb_type_top =
  821.         i_top_type = h->mb.type[i_top_xy];
  822.         h->mb.cache.i_cbp_top = h->mb.cbp[i_top_xy];
  823.         h->mb.i_neighbour |= MB_TOP;
  824.         if( !h->param.b_constrained_intra || IS_INTRA( i_top_type ) )
  825.             h->mb.i_neighbour_intra |= MB_TOP;
  826.         /* load intra4x4 */
  827.         *(uint32_t*)&h->mb.cache.intra4x4_pred_mode[x264_scan8[0] - 8] = *(uint32_t*)&h->mb.intra4x4_pred_mode[i_top_xy][0];
  828.         /* load non_zero_count */
  829.         *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[0] - 8] = *(uint32_t*)&h->mb.non_zero_count[i_top_xy][12];
  830.         /* shift because x264_scan8[16] is misaligned */
  831.         *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[16] - 9] = *(uint16_t*)&h->mb.non_zero_count[i_top_xy][18] << 8;
  832.         *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[16+4] - 9] = *(uint16_t*)&h->mb.non_zero_count[i_top_xy][22] << 8;
  833.     }
  834.     else
  835.     {
  836.         h->mb.i_mb_type_top = -1;
  837.         h->mb.cache.i_cbp_top = -1;
  838.         /* load intra4x4 */
  839.         *(uint32_t*)&h->mb.cache.intra4x4_pred_mode[x264_scan8[0] - 8] = 0xFFFFFFFFU;
  840.         /* load non_zero_count */
  841.         h->mb.cache.non_zero_count[x264_scan8[0] - 8] =
  842.         h->mb.cache.non_zero_count[x264_scan8[1] - 8] =
  843.         h->mb.cache.non_zero_count[x264_scan8[4] - 8] =
  844.         h->mb.cache.non_zero_count[x264_scan8[5] - 8] =
  845.         h->mb.cache.non_zero_count[x264_scan8[16+0] - 8] =
  846.         h->mb.cache.non_zero_count[x264_scan8[16+1] - 8] =
  847.         h->mb.cache.non_zero_count[x264_scan8[16+4+0] - 8] =
  848.         h->mb.cache.non_zero_count[x264_scan8[16+4+1] - 8] = 0x80;
  849.     }
  850.     if( i_mb_x > 0 && i_mb_xy > h->sh.i_first_mb )
  851.     {
  852.         i_left_xy = i_mb_xy - 1;
  853.         h->mb.i_mb_type_left =
  854.         i_left_type = h->mb.type[i_left_xy];
  855.         h->mb.cache.i_cbp_left = h->mb.cbp[h->mb.i_mb_xy - 1];
  856.         h->mb.i_neighbour |= MB_LEFT;
  857.         if( !h->param.b_constrained_intra || IS_INTRA( i_left_type ) )
  858.             h->mb.i_neighbour_intra |= MB_LEFT;
  859.         /* load intra4x4 */
  860.         h->mb.cache.intra4x4_pred_mode[x264_scan8[0 ] - 1] = h->mb.intra4x4_pred_mode[i_left_xy][4];
  861.         h->mb.cache.intra4x4_pred_mode[x264_scan8[2 ] - 1] = h->mb.intra4x4_pred_mode[i_left_xy][5];
  862.         h->mb.cache.intra4x4_pred_mode[x264_scan8[8 ] - 1] = h->mb.intra4x4_pred_mode[i_left_xy][6];
  863.         h->mb.cache.intra4x4_pred_mode[x264_scan8[10] - 1] = h->mb.intra4x4_pred_mode[i_left_xy][3];
  864.         /* load non_zero_count */
  865.         h->mb.cache.non_zero_count[x264_scan8[0 ] - 1] = h->mb.non_zero_count[i_left_xy][3];
  866.         h->mb.cache.non_zero_count[x264_scan8[2 ] - 1] = h->mb.non_zero_count[i_left_xy][7];
  867.         h->mb.cache.non_zero_count[x264_scan8[8 ] - 1] = h->mb.non_zero_count[i_left_xy][11];
  868.         h->mb.cache.non_zero_count[x264_scan8[10] - 1] = h->mb.non_zero_count[i_left_xy][15];
  869.         h->mb.cache.non_zero_count[x264_scan8[16+0] - 1] = h->mb.non_zero_count[i_left_xy][16+1];
  870.         h->mb.cache.non_zero_count[x264_scan8[16+2] - 1] = h->mb.non_zero_count[i_left_xy][16+3];
  871.         h->mb.cache.non_zero_count[x264_scan8[16+4+0] - 1] = h->mb.non_zero_count[i_left_xy][16+4+1];
  872.         h->mb.cache.non_zero_count[x264_scan8[16+4+2] - 1] = h->mb.non_zero_count[i_left_xy][16+4+3];
  873.     }
  874.     else
  875.     {
  876.         h->mb.i_mb_type_left = -1;
  877.         h->mb.cache.i_cbp_left = -1;
  878.         h->mb.cache.intra4x4_pred_mode[x264_scan8[0 ] - 1] =
  879.         h->mb.cache.intra4x4_pred_mode[x264_scan8[2 ] - 1] =
  880.         h->mb.cache.intra4x4_pred_mode[x264_scan8[8 ] - 1] =
  881.         h->mb.cache.intra4x4_pred_mode[x264_scan8[10] - 1] = -1;
  882.         /* load non_zero_count */
  883.         h->mb.cache.non_zero_count[x264_scan8[0 ] - 1] =
  884.         h->mb.cache.non_zero_count[x264_scan8[2 ] - 1] =
  885.         h->mb.cache.non_zero_count[x264_scan8[8 ] - 1] =
  886.         h->mb.cache.non_zero_count[x264_scan8[10] - 1] =
  887.         h->mb.cache.non_zero_count[x264_scan8[16+0] - 1] =
  888.         h->mb.cache.non_zero_count[x264_scan8[16+2] - 1] =
  889.         h->mb.cache.non_zero_count[x264_scan8[16+4+0] - 1] =
  890.         h->mb.cache.non_zero_count[x264_scan8[16+4+2] - 1] = 0x80;
  891.     }
  892.     if( i_mb_x < h->sps->i_mb_width - 1 && i_top_xy + 1 >= h->sh.i_first_mb )
  893.     {
  894.         h->mb.i_neighbour |= MB_TOPRIGHT;
  895.         h->mb.i_mb_type_topright = h->mb.type[ i_top_xy + 1 ];
  896.         if( !h->param.b_constrained_intra || IS_INTRA( h->mb.i_mb_type_topright ) )
  897.             h->mb.i_neighbour_intra |= MB_TOPRIGHT;
  898.     }
  899.     else
  900.         h->mb.i_mb_type_topright = -1;
  901.     if( i_mb_x > 0 && i_top_xy - 1 >= h->sh.i_first_mb )
  902.     {
  903.         h->mb.i_neighbour |= MB_TOPLEFT;
  904.         h->mb.i_mb_type_topleft = h->mb.type[ i_top_xy - 1 ];
  905.         if( !h->param.b_constrained_intra || IS_INTRA( h->mb.i_mb_type_topleft ) )
  906.             h->mb.i_neighbour_intra |= MB_TOPLEFT;
  907.     }
  908.     else
  909.         h->mb.i_mb_type_topleft = -1;
  910.     if( h->pps->b_transform_8x8_mode )
  911.     {
  912.         h->mb.cache.i_neighbour_transform_size =
  913.             ( i_left_type >= 0 && h->mb.mb_transform_size[i_left_xy] )
  914.           + ( i_top_type  >= 0 && h->mb.mb_transform_size[i_top_xy]  );
  915.     }
  916.     if( h->sh.b_mbaff )
  917.     {
  918.         h->mb.pic.i_fref[0] = h->i_ref0 << h->mb.b_interlaced;
  919.         h->mb.pic.i_fref[1] = h->i_ref1 << h->mb.b_interlaced;
  920.         h->mb.cache.i_neighbour_interlaced =
  921.             !!(h->mb.i_neighbour & MB_LEFT)
  922.           + !!(h->mb.i_neighbour & MB_TOP);
  923.     }
  924.     if( !h->mb.b_interlaced && !h->mb.b_reencode_mb )
  925.     {
  926.         copy_column8( h->mb.pic.p_fdec[0]-1+ 4*FDEC_STRIDE, h->mb.pic.p_fdec[0]+15+ 4*FDEC_STRIDE );
  927.         copy_column8( h->mb.pic.p_fdec[0]-1+12*FDEC_STRIDE, h->mb.pic.p_fdec[0]+15+12*FDEC_STRIDE );
  928.         copy_column8( h->mb.pic.p_fdec[1]-1+ 4*FDEC_STRIDE, h->mb.pic.p_fdec[1]+ 7+ 4*FDEC_STRIDE );
  929.         copy_column8( h->mb.pic.p_fdec[2]-1+ 4*FDEC_STRIDE, h->mb.pic.p_fdec[2]+ 7+ 4*FDEC_STRIDE );
  930.     }
  931.     /* load picture pointers */
  932.     x264_macroblock_load_pic_pointers( h, i_mb_x, i_mb_y, 0 );
  933.     x264_macroblock_load_pic_pointers( h, i_mb_x, i_mb_y, 1 );
  934.     x264_macroblock_load_pic_pointers( h, i_mb_x, i_mb_y, 2 );
  935.     if( h->fdec->integral )
  936.     {
  937.         assert( !h->mb.b_interlaced );
  938.         for( i = 0; i < h->mb.pic.i_fref[0]; i++ )
  939.             h->mb.pic.p_integral[0][i] = &h->fref0[i]->integral[ 16 * ( i_mb_x + i_mb_y * h->fdec->i_stride[0] )];
  940.         for( i = 0; i < h->mb.pic.i_fref[1]; i++ )
  941.             h->mb.pic.p_integral[1][i] = &h->fref1[i]->integral[ 16 * ( i_mb_x + i_mb_y * h->fdec->i_stride[0] )];
  942.     }
  943.     x264_prefetch_fenc( h, h->fenc, i_mb_x, i_mb_y );
  944.     /* load ref/mv/mvd */
  945.     if( h->sh.i_type != SLICE_TYPE_I )
  946.     {
  947.         const int s8x8 = h->mb.i_b8_stride;
  948.         const int s4x4 = h->mb.i_b4_stride;
  949.         int i_list;
  950.         for( i_list = 0; i_list < (h->sh.i_type == SLICE_TYPE_B ? 2  : 1 ); i_list++ )
  951.         {
  952.             /*
  953.             h->mb.cache.ref[i_list][x264_scan8[5 ]+1] =
  954.             h->mb.cache.ref[i_list][x264_scan8[7 ]+1] =
  955.             h->mb.cache.ref[i_list][x264_scan8[13]+1] = -2;
  956.             */
  957.             if( h->mb.i_neighbour & MB_TOPLEFT )
  958.             {
  959.                 const int i8 = x264_scan8[0] - 1 - 1*8;
  960.                 const int ir = i_top_8x8 - 1;
  961.                 const int iv = i_top_4x4 - 1;
  962.                 h->mb.cache.ref[i_list][i8]  = h->mb.ref[i_list][ir];
  963.                 *(uint32_t*)h->mb.cache.mv[i_list][i8] = *(uint32_t*)h->mb.mv[i_list][iv];
  964.             }
  965.             else
  966.             {
  967.                 const int i8 = x264_scan8[0] - 1 - 1*8;
  968.                 h->mb.cache.ref[i_list][i8] = -2;
  969.                 *(uint32_t*)h->mb.cache.mv[i_list][i8] = 0;
  970.             }
  971.             if( h->mb.i_neighbour & MB_TOP )
  972.             {
  973.                 const int i8 = x264_scan8[0] - 8;
  974.                 const int ir = i_top_8x8;
  975.                 const int iv = i_top_4x4;
  976.                 h->mb.cache.ref[i_list][i8+0] =
  977.                 h->mb.cache.ref[i_list][i8+1] = h->mb.ref[i_list][ir + 0];
  978.                 h->mb.cache.ref[i_list][i8+2] =
  979.                 h->mb.cache.ref[i_list][i8+3] = h->mb.ref[i_list][ir + 1];
  980.                 *(uint64_t*)h->mb.cache.mv[i_list][i8+0] = *(uint64_t*)h->mb.mv[i_list][iv+0];
  981.                 *(uint64_t*)h->mb.cache.mv[i_list][i8+2] = *(uint64_t*)h->mb.mv[i_list][iv+2];
  982.             }
  983.             else
  984.             {
  985.                 const int i8 = x264_scan8[0] - 8;
  986.                 *(uint64_t*)h->mb.cache.mv[i_list][i8+0] = 0;
  987.                 *(uint64_t*)h->mb.cache.mv[i_list][i8+2] = 0;
  988.                 *(uint32_t*)&h->mb.cache.ref[i_list][i8] = (uint8_t)(-2) * 0x01010101U;
  989.             }
  990.             if( h->mb.i_neighbour & MB_TOPRIGHT )
  991.             {
  992.                 const int i8 = x264_scan8[0] + 4 - 1*8;
  993.                 const int ir = i_top_8x8 + 2;
  994.                 const int iv = i_top_4x4 + 4;
  995.                 h->mb.cache.ref[i_list][i8]  = h->mb.ref[i_list][ir];
  996.                 *(uint32_t*)h->mb.cache.mv[i_list][i8] = *(uint32_t*)h->mb.mv[i_list][iv];
  997.             }
  998.             else
  999.             {
  1000.                 const int i8 = x264_scan8[0] + 4 - 1*8;
  1001.                 h->mb.cache.ref[i_list][i8] = -2;
  1002.                 *(uint32_t*)h->mb.cache.mv[i_list][i8] = 0;
  1003.             }
  1004.             if( h->mb.i_neighbour & MB_LEFT )
  1005.             {
  1006.                 const int i8 = x264_scan8[0] - 1;
  1007.                 const int ir = i_mb_8x8 - 1;
  1008.                 const int iv = i_mb_4x4 - 1;
  1009.                 h->mb.cache.ref[i_list][i8+0*8] =
  1010.                 h->mb.cache.ref[i_list][i8+1*8] = h->mb.ref[i_list][ir + 0*s8x8];
  1011.                 h->mb.cache.ref[i_list][i8+2*8] =
  1012.                 h->mb.cache.ref[i_list][i8+3*8] = h->mb.ref[i_list][ir + 1*s8x8];
  1013.                 *(uint32_t*)h->mb.cache.mv[i_list][i8+0*8] = *(uint32_t*)h->mb.mv[i_list][iv + 0*s4x4];
  1014.                 *(uint32_t*)h->mb.cache.mv[i_list][i8+1*8] = *(uint32_t*)h->mb.mv[i_list][iv + 1*s4x4];
  1015.                 *(uint32_t*)h->mb.cache.mv[i_list][i8+2*8] = *(uint32_t*)h->mb.mv[i_list][iv + 2*s4x4];
  1016.                 *(uint32_t*)h->mb.cache.mv[i_list][i8+3*8] = *(uint32_t*)h->mb.mv[i_list][iv + 3*s4x4];
  1017.             }
  1018.             else
  1019.             {
  1020.                 const int i8 = x264_scan8[0] - 1;
  1021.                 for( i = 0; i < 4; i++ )
  1022.                 {
  1023.                     h->mb.cache.ref[i_list][i8+i*8] = -2;
  1024.                     *(uint32_t*)h->mb.cache.mv[i_list][i8+i*8] = 0;
  1025.                 }
  1026.             }
  1027.             if( h->param.b_cabac )
  1028.             {
  1029.                 if( i_top_type >= 0 )
  1030.                 {
  1031.                     const int i8 = x264_scan8[0] - 8;
  1032.                     const int iv = i_top_4x4;
  1033.                     *(uint64_t*)h->mb.cache.mvd[i_list][i8+0] = *(uint64_t*)h->mb.mvd[i_list][iv+0];
  1034.                     *(uint64_t*)h->mb.cache.mvd[i_list][i8+2] = *(uint64_t*)h->mb.mvd[i_list][iv+2];
  1035.                 }
  1036.                 else
  1037.                 {
  1038.                     const int i8 = x264_scan8[0] - 8;
  1039.                     *(uint64_t*)h->mb.cache.mvd[i_list][i8+0] =
  1040.                     *(uint64_t*)h->mb.cache.mvd[i_list][i8+2] = 0;
  1041.                 }
  1042.                 if( i_left_type >= 0 )
  1043.                 {
  1044.                     const int i8 = x264_scan8[0] - 1;
  1045.                     const int iv = i_mb_4x4 - 1;
  1046.                     *(uint32_t*)h->mb.cache.mvd[i_list][i8+0*8] = *(uint32_t*)h->mb.mvd[i_list][iv + 0*s4x4];
  1047.                     *(uint32_t*)h->mb.cache.mvd[i_list][i8+1*8] = *(uint32_t*)h->mb.mvd[i_list][iv + 1*s4x4];
  1048.                     *(uint32_t*)h->mb.cache.mvd[i_list][i8+2*8] = *(uint32_t*)h->mb.mvd[i_list][iv + 2*s4x4];
  1049.                     *(uint32_t*)h->mb.cache.mvd[i_list][i8+3*8] = *(uint32_t*)h->mb.mvd[i_list][iv + 3*s4x4];
  1050.                 }
  1051.                 else
  1052.                 {
  1053.                     const int i8 = x264_scan8[0] - 1;
  1054.                     for( i = 0; i < 4; i++ )
  1055.                         *(uint32_t*)h->mb.cache.mvd[i_list][i8+i*8] = 0;
  1056.                 }
  1057.             }
  1058.         }
  1059.         /* load skip */
  1060.         if( h->sh.i_type == SLICE_TYPE_B && h->param.b_cabac )
  1061.         {
  1062.             uint8_t skipbp;
  1063.             x264_macroblock_cache_skip( h, 0, 0, 4, 4, 0 );
  1064.             skipbp = i_left_type >= 0 ? h->mb.skipbp[i_left_xy] : 0;
  1065.             h->mb.cache.skip[x264_scan8[0] - 1] = skipbp & 0x2;
  1066.             h->mb.cache.skip[x264_scan8[8] - 1] = skipbp & 0x8;
  1067.             skipbp = i_top_type >= 0 ? h->mb.skipbp[i_top_xy] : 0;
  1068.             h->mb.cache.skip[x264_scan8[0] - 8] = skipbp & 0x4;
  1069.             h->mb.cache.skip[x264_scan8[4] - 8] = skipbp & 0x8;
  1070.         }
  1071.         if( h->sh.i_type == SLICE_TYPE_P )
  1072.             x264_mb_predict_mv_pskip( h, h->mb.cache.pskip_mv );
  1073.     }
  1074.     h->mb.i_neighbour4[0] =
  1075.     h->mb.i_neighbour8[0] = (h->mb.i_neighbour_intra & (MB_TOP|MB_LEFT|MB_TOPLEFT))
  1076.                             | ((h->mb.i_neighbour_intra & MB_TOP) ? MB_TOPRIGHT : 0);
  1077.     h->mb.i_neighbour4[4] =
  1078.     h->mb.i_neighbour4[1] = MB_LEFT | ((h->mb.i_neighbour_intra & MB_TOP) ? (MB_TOP|MB_TOPLEFT|MB_TOPRIGHT) : 0);
  1079.     h->mb.i_neighbour4[2] =
  1080.     h->mb.i_neighbour4[8] =
  1081.     h->mb.i_neighbour4[10] =
  1082.     h->mb.i_neighbour8[2] = MB_TOP|MB_TOPRIGHT | ((h->mb.i_neighbour_intra & MB_LEFT) ? (MB_LEFT|MB_TOPLEFT) : 0);
  1083.     h->mb.i_neighbour4[5] =
  1084.     h->mb.i_neighbour8[1] = MB_LEFT | (h->mb.i_neighbour_intra & MB_TOPRIGHT)
  1085.                             | ((h->mb.i_neighbour_intra & MB_TOP) ? MB_TOP|MB_TOPLEFT : 0);
  1086. }
  1087. static void ALWAYS_INLINE x264_macroblock_store_pic( x264_t *h, int i )
  1088. {
  1089.     int w = i ? 8 : 16;
  1090.     int i_stride = h->fdec->i_stride[!!i];
  1091.     int i_stride2 = i_stride << h->mb.b_interlaced;
  1092.     int i_pix_offset = h->mb.b_interlaced
  1093.                      ? w * (h->mb.i_mb_x + (h->mb.i_mb_y&~1) * i_stride) + (h->mb.i_mb_y&1) * i_stride
  1094.                      : w * (h->mb.i_mb_x + h->mb.i_mb_y * i_stride);
  1095.     h->mc.copy[i?PIXEL_8x8:PIXEL_16x16](
  1096.         &h->fdec->plane[i][i_pix_offset], i_stride2,
  1097.         h->mb.pic.p_fdec[i], FDEC_STRIDE, w );
  1098. }
  1099. void x264_macroblock_cache_save( x264_t *h )
  1100. {
  1101.     const int i_mb_xy = h->mb.i_mb_xy;
  1102.     const int i_mb_type = x264_mb_type_fix[h->mb.i_type];
  1103.     const int s8x8 = h->mb.i_b8_stride;
  1104.     const int s4x4 = h->mb.i_b4_stride;
  1105.     const int i_mb_4x4 = h->mb.i_b4_xy;
  1106.     const int i_mb_8x8 = h->mb.i_b8_xy;
  1107.     /* GCC pessimizes direct stores to heap-allocated 8-bit arrays due to aliasing.*/
  1108.     /* By only dereferencing them once, we avoid this issue. */
  1109.     int8_t *intra4x4_pred_mode = h->mb.intra4x4_pred_mode[i_mb_xy];
  1110.     uint8_t *non_zero_count = h->mb.non_zero_count[i_mb_xy];
  1111.     int i, y;
  1112.     x264_macroblock_store_pic( h, 0 );
  1113.     x264_macroblock_store_pic( h, 1 );
  1114.     x264_macroblock_store_pic( h, 2 );
  1115.     x264_prefetch_fenc( h, h->fdec, h->mb.i_mb_x, h->mb.i_mb_y );
  1116.     h->mb.type[i_mb_xy] = i_mb_type;
  1117.     h->mb.i_mb_prev_xy = i_mb_xy;
  1118.     /* save intra4x4 */
  1119.     if( i_mb_type == I_4x4 )
  1120.     {
  1121.         *(uint32_t*)&intra4x4_pred_mode[0] = *(uint32_t*)&h->mb.cache.intra4x4_pred_mode[x264_scan8[10] ];
  1122.         *(uint32_t*)&intra4x4_pred_mode[4] = pack8to32(h->mb.cache.intra4x4_pred_mode[x264_scan8[5] ],
  1123.                                                        h->mb.cache.intra4x4_pred_mode[x264_scan8[7] ],
  1124.                                                        h->mb.cache.intra4x4_pred_mode[x264_scan8[13] ], 0);
  1125.     }
  1126.     else if( !h->param.b_constrained_intra || IS_INTRA(i_mb_type) )
  1127.         *(uint64_t*)intra4x4_pred_mode = I_PRED_4x4_DC * 0x0101010101010101ULL;
  1128.     else
  1129.         *(uint64_t*)intra4x4_pred_mode = (uint8_t)(-1) * 0x0101010101010101ULL;
  1130.     if( i_mb_type == I_PCM )
  1131.     {
  1132.         h->mb.qp[i_mb_xy] = 0;
  1133.         h->mb.i_last_dqp = 0;
  1134.         h->mb.i_cbp_chroma = 2;
  1135.         h->mb.i_cbp_luma = 0xf;
  1136.         h->mb.cbp[i_mb_xy] = 0x72f;   /* all set */
  1137.         h->mb.b_transform_8x8 = 0;
  1138.         for( i = 0; i < 16 + 2*4; i++ )
  1139.             non_zero_count[i] = 16;
  1140.     }
  1141.     else
  1142.     {
  1143.         /* save non zero count */
  1144.         *(uint32_t*)&non_zero_count[0*4] = *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[0]+0*8];
  1145.         *(uint32_t*)&non_zero_count[1*4] = *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[0]+1*8];
  1146.         *(uint32_t*)&non_zero_count[2*4] = *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[0]+2*8];
  1147.         *(uint32_t*)&non_zero_count[3*4] = *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[0]+3*8];
  1148.         *(uint16_t*)&non_zero_count[16+0*2] = *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[16+0*2]-1] >> 8;
  1149.         *(uint16_t*)&non_zero_count[16+1*2] = *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[16+1*2]-1] >> 8;
  1150.         *(uint16_t*)&non_zero_count[16+2*2] = *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[16+2*2]-1] >> 8;
  1151.         *(uint16_t*)&non_zero_count[16+3*2] = *(uint32_t*)&h->mb.cache.non_zero_count[x264_scan8[16+3*2]-1] >> 8;
  1152.         if( h->mb.i_type != I_16x16 && h->mb.i_cbp_luma == 0 && h->mb.i_cbp_chroma == 0 )
  1153.             h->mb.i_qp = h->mb.i_last_qp;
  1154.         h->mb.qp[i_mb_xy] = h->mb.i_qp;
  1155.         h->mb.i_last_dqp = h->mb.i_qp - h->mb.i_last_qp;
  1156.         h->mb.i_last_qp = h->mb.i_qp;
  1157.     }
  1158.     if( h->mb.i_cbp_luma == 0 && h->mb.i_type != I_8x8 )
  1159.         h->mb.b_transform_8x8 = 0;
  1160.     h->mb.mb_transform_size[i_mb_xy] = h->mb.b_transform_8x8;
  1161.     if( h->sh.i_type != SLICE_TYPE_I )
  1162.     {
  1163.         if( !IS_INTRA( i_mb_type ) )
  1164.         {
  1165.             h->mb.ref[0][i_mb_8x8+0+0*s8x8] = h->mb.cache.ref[0][x264_scan8[0]];
  1166.             h->mb.ref[0][i_mb_8x8+1+0*s8x8] = h->mb.cache.ref[0][x264_scan8[4]];
  1167.             h->mb.ref[0][i_mb_8x8+0+1*s8x8] = h->mb.cache.ref[0][x264_scan8[8]];
  1168.             h->mb.ref[0][i_mb_8x8+1+1*s8x8] = h->mb.cache.ref[0][x264_scan8[12]];
  1169.             for( y = 0; y < 4; y++ )
  1170.             {
  1171.                 *(uint64_t*)h->mb.mv[0][i_mb_4x4+y*s4x4+0] = *(uint64_t*)h->mb.cache.mv[0][x264_scan8[0]+8*y+0];
  1172.                 *(uint64_t*)h->mb.mv[0][i_mb_4x4+y*s4x4+2] = *(uint64_t*)h->mb.cache.mv[0][x264_scan8[0]+8*y+2];
  1173.             }
  1174.             if( h->sh.i_type == SLICE_TYPE_B )
  1175.             {
  1176.                 h->mb.ref[1][i_mb_8x8+0+0*s8x8] = h->mb.cache.ref[1][x264_scan8[0]];
  1177.                 h->mb.ref[1][i_mb_8x8+1+0*s8x8] = h->mb.cache.ref[1][x264_scan8[4]];
  1178.                 h->mb.ref[1][i_mb_8x8+0+1*s8x8] = h->mb.cache.ref[1][x264_scan8[8]];
  1179.                 h->mb.ref[1][i_mb_8x8+1+1*s8x8] = h->mb.cache.ref[1][x264_scan8[12]];
  1180.                 for( y = 0; y < 4; y++ )
  1181.                 {
  1182.                     *(uint64_t*)h->mb.mv[1][i_mb_4x4+y*s4x4+0] = *(uint64_t*)h->mb.cache.mv[1][x264_scan8[0]+8*y+0];
  1183.                     *(uint64_t*)h->mb.mv[1][i_mb_4x4+y*s4x4+2] = *(uint64_t*)h->mb.cache.mv[1][x264_scan8[0]+8*y+2];
  1184.                 }
  1185.             }
  1186.         }
  1187.         else
  1188.         {
  1189.             int i_list;
  1190.             for( i_list = 0; i_list < (h->sh.i_type == SLICE_TYPE_B ? 2  : 1 ); i_list++ )
  1191.             {
  1192.                 *(uint16_t*)&h->mb.ref[i_list][i_mb_8x8+0*s8x8] = (uint8_t)(-1) * 0x0101;
  1193.                 *(uint16_t*)&h->mb.ref[i_list][i_mb_8x8+1*s8x8] = (uint8_t)(-1) * 0x0101;
  1194.                 for( y = 0; y < 4; y++ )
  1195.                 {
  1196.                     *(uint64_t*)h->mb.mv[i_list][i_mb_4x4+y*s4x4+0] = 0;
  1197.                     *(uint64_t*)h->mb.mv[i_list][i_mb_4x4+y*s4x4+2] = 0;
  1198.                 }
  1199.             }
  1200.         }
  1201.     }
  1202.     if( h->param.b_cabac )
  1203.     {
  1204.         if( IS_INTRA(i_mb_type) && i_mb_type != I_PCM )
  1205.             h->mb.chroma_pred_mode[i_mb_xy] = x264_mb_pred_mode8x8c_fix[ h->mb.i_chroma_pred_mode ];
  1206.         else
  1207.             h->mb.chroma_pred_mode[i_mb_xy] = I_PRED_CHROMA_DC;
  1208.         if( !IS_INTRA( i_mb_type ) && !IS_SKIP( i_mb_type ) && !IS_DIRECT( i_mb_type ) )
  1209.         {
  1210.             for( y = 0; y < 4; y++ )
  1211.             {
  1212.                 *(uint64_t*)h->mb.mvd[0][i_mb_4x4+y*s4x4+0] = *(uint64_t*)h->mb.cache.mvd[0][x264_scan8[0]+8*y+0];
  1213.                 *(uint64_t*)h->mb.mvd[0][i_mb_4x4+y*s4x4+2] = *(uint64_t*)h->mb.cache.mvd[0][x264_scan8[0]+8*y+2];
  1214.             }
  1215.             if( h->sh.i_type == SLICE_TYPE_B )
  1216.                 for( y = 0; y < 4; y++ )
  1217.                 {
  1218.                     *(uint64_t*)h->mb.mvd[1][i_mb_4x4+y*s4x4+0] = *(uint64_t*)h->mb.cache.mvd[1][x264_scan8[0]+8*y+0];
  1219.                     *(uint64_t*)h->mb.mvd[1][i_mb_4x4+y*s4x4+2] = *(uint64_t*)h->mb.cache.mvd[1][x264_scan8[0]+8*y+2];
  1220.                 }
  1221.         }
  1222.         else
  1223.         {
  1224.             for( y = 0; y < 4; y++ )
  1225.             {
  1226.                 *(uint64_t*)h->mb.mvd[0][i_mb_4x4+y*s4x4+0] = 0;
  1227.                 *(uint64_t*)h->mb.mvd[0][i_mb_4x4+y*s4x4+2] = 0;
  1228.             }
  1229.             if( h->sh.i_type == SLICE_TYPE_B )
  1230.                 for( y = 0; y < 4; y++ )
  1231.                 {
  1232.                     *(uint64_t*)h->mb.mvd[1][i_mb_4x4+y*s4x4+0] = 0;
  1233.                     *(uint64_t*)h->mb.mvd[1][i_mb_4x4+y*s4x4+2] = 0;
  1234.                 }
  1235.         }
  1236.         if( h->sh.i_type == SLICE_TYPE_B )
  1237.         {
  1238.             if( i_mb_type == B_SKIP || i_mb_type == B_DIRECT )
  1239.                 h->mb.skipbp[i_mb_xy] = 0xf;
  1240.             else if( i_mb_type == B_8x8 )
  1241.             {
  1242.                 int skipbp = ( h->mb.i_sub_partition[0] == D_DIRECT_8x8 ) << 0;
  1243.                 skipbp    |= ( h->mb.i_sub_partition[1] == D_DIRECT_8x8 ) << 1;
  1244.                 skipbp    |= ( h->mb.i_sub_partition[2] == D_DIRECT_8x8 ) << 2;
  1245.                 skipbp    |= ( h->mb.i_sub_partition[3] == D_DIRECT_8x8 ) << 3;
  1246.                 h->mb.skipbp[i_mb_xy] = skipbp;
  1247.             }
  1248.             else
  1249.                 h->mb.skipbp[i_mb_xy] = 0;
  1250.         }
  1251.     }
  1252. }
  1253. void x264_macroblock_bipred_init( x264_t *h )
  1254. {
  1255.     int i_ref0, i_ref1;
  1256.     for( i_ref0 = 0; i_ref0 < h->i_ref0; i_ref0++ )
  1257.     {
  1258.         int poc0 = h->fref0[i_ref0]->i_poc;
  1259.         for( i_ref1 = 0; i_ref1 < h->i_ref1; i_ref1++ )
  1260.         {
  1261.             int dist_scale_factor;
  1262.             int poc1 = h->fref1[i_ref1]->i_poc;
  1263.             int td = x264_clip3( poc1 - poc0, -128, 127 );
  1264.             if( td == 0 /* || pic0 is a long-term ref */ )
  1265.                 dist_scale_factor = 256;
  1266.             else
  1267.             {
  1268.                 int tb = x264_clip3( h->fdec->i_poc - poc0, -128, 127 );
  1269.                 int tx = (16384 + (abs(td) >> 1)) / td;
  1270.                 dist_scale_factor = x264_clip3( (tb * tx + 32) >> 6, -1024, 1023 );
  1271.             }
  1272.             h->mb.dist_scale_factor[i_ref0][i_ref1] = dist_scale_factor;
  1273.             dist_scale_factor >>= 2;
  1274.             if( h->param.analyse.b_weighted_bipred
  1275.                   && dist_scale_factor >= -64
  1276.                   && dist_scale_factor <= 128 )
  1277.             {
  1278.                 h->mb.bipred_weight[i_ref0][i_ref1] = 64 - dist_scale_factor;
  1279.                 // ssse3 implementation of biweight doesn't support the extrema.
  1280.                 // if we ever generate them, we'll have to drop that optimization.
  1281.                 assert( dist_scale_factor >= -63 && dist_scale_factor <= 127 );
  1282.             }
  1283.             else
  1284.                 h->mb.bipred_weight[i_ref0][i_ref1] = 32;
  1285.         }
  1286.     }
  1287.     if( h->sh.b_mbaff )
  1288.     {
  1289.         for( i_ref0 = 2*h->i_ref0-1; i_ref0 >= 0; i_ref0-- )
  1290.             for( i_ref1 = 2*h->i_ref1-1; i_ref1 >= 0; i_ref1-- )
  1291.                 h->mb.bipred_weight[i_ref0][i_ref1] = h->mb.bipred_weight[i_ref0>>1][i_ref1>>1];
  1292.     }
  1293. }