quantize-pvt.c
上传用户:sun1608
上传日期:2007-02-02
资源大小:6116k
文件大小:36k
源码类别:

流媒体/Mpeg4/MP4

开发平台:

Visual C++

  1. #include <assert.h>
  2. #include "util.h"
  3. #include "tables.h"
  4. #include "reservoir.h"
  5. #include "quantize-pvt.h"
  6. FLOAT masking_lower=1;
  7. int convert_mdct, reduce_sidechannel;
  8. /*
  9. mt 5/99.  These global flags denote 4 possibilities:
  10.                                                                 mode    l3_xmin
  11. 1   MDCT input L/R, quantize L/R,   psy-model thresholds: L/R   -m s     either
  12. 2   MDCT input L/R, quantize M/S,   psy-model thresholds: L/R   -m j     orig
  13. 3   MDCT input M/S, quantize M/S,   psy-model thresholds: M/S   -m f     either
  14. 4   MDCT input L/R, quantize M/S,   psy-model thresholds: M/S   -m j -h  m/s
  15. 1:  convert_mdct = 0, convert_psy=0,  reduce_sidechannel=0          
  16. 2:  convert_mdct = 1, convert_psy=1,  reduce_sidechannel=1
  17. 3:  convert_mdct = 0, convert_psy=0,  reduce_sidechannel=1   (this mode no longer used)
  18. 4:  convert_mdct = 1, convert_psy=0,  reduce_sidechannel=1
  19. if (convert_mdct), then iteration_loop will quantize M/S data from
  20. the L/R input MDCT coefficients.
  21. if (convert_psy), then calc_noise will compute the noise for the L/R
  22. channels from M/S MDCT data and L/R psy-model threshold information.
  23. Distortion in ether L or R channel will be marked as distortion in
  24. both Mid and Side channels.  
  25. NOTE: 3/00: this mode has been removed.  
  26. if (reduce_sidechannel) then outer_loop will allocate less bits
  27. to the side channel and more bits to the mid channel based on relative 
  28. energies.
  29. */
  30. /*
  31.   The following table is used to implement the scalefactor
  32.   partitioning for MPEG2 as described in section
  33.   2.4.3.2 of the IS. The indexing corresponds to the
  34.   way the tables are presented in the IS:
  35.   [table_number][row_in_table][column of nr_of_sfb]
  36. */
  37. unsigned nr_of_sfb_block[6][3][4] =
  38. {
  39.   {
  40.     {6, 5, 5, 5},
  41.     {9, 9, 9, 9},
  42.     {6, 9, 9, 9}
  43.   },
  44.   {
  45.     {6, 5, 7, 3},
  46.     {9, 9, 12, 6},
  47.     {6, 9, 12, 6}
  48.   },
  49.   {
  50.     {11, 10, 0, 0},
  51.     {18, 18, 0, 0},
  52.     {15,18,0,0}
  53.   },
  54.   {
  55.     {7, 7, 7, 0},
  56.     {12, 12, 12, 0},
  57.     {6, 15, 12, 0}
  58.   },
  59.   {
  60.     {6, 6, 6, 3},
  61.     {12, 9, 9, 6},
  62.     {6, 12, 9, 6}
  63.   },
  64.   {
  65.     {8, 8, 5, 0},
  66.     {15,12,9,0},
  67.     {6,18,9,0}
  68.   }
  69. };
  70. /* Table B.6: layer3 preemphasis */
  71. int  pretab[21] =
  72. {
  73.     0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
  74.     1, 1, 1, 1, 2, 2, 3, 3, 3, 2
  75. };
  76. /*
  77.   Here are MPEG1 Table B.8 and MPEG2 Table B.1
  78.   -- Layer III scalefactor bands. 
  79.   Index into this using a method such as:
  80.     idx  = fr_ps->header->sampling_frequency
  81.            + (fr_ps->header->version * 3)
  82. */
  83. struct scalefac_struct sfBandIndex[6] =
  84. {
  85.   { /* Table B.2.b: 22.05 kHz */
  86.     {0,6,12,18,24,30,36,44,54,66,80,96,116,140,168,200,238,284,336,396,464,522,576},
  87.     {0,4,8,12,18,24,32,42,56,74,100,132,174,192}
  88.   },
  89.   { /* Table B.2.c: 24 kHz */                 /* docs: 332. mpg123: 330 */
  90.     {0,6,12,18,24,30,36,44,54,66,80,96,114,136,162,194,232,278, 332, 394,464,540,576},
  91.     {0,4,8,12,18,26,36,48,62,80,104,136,180,192}
  92.   },
  93.   { /* Table B.2.a: 16 kHz */
  94.     {0,6,12,18,24,30,36,44,54,66,80,96,116,140,168,200,238,284,336,396,464,522,576},
  95.     {0,4,8,12,18,26,36,48,62,80,104,134,174,192}
  96.   },
  97.   { /* Table B.8.b: 44.1 kHz */
  98.     {0,4,8,12,16,20,24,30,36,44,52,62,74,90,110,134,162,196,238,288,342,418,576},
  99.     {0,4,8,12,16,22,30,40,52,66,84,106,136,192}
  100.   },
  101.   { /* Table B.8.c: 48 kHz */
  102.     {0,4,8,12,16,20,24,30,36,42,50,60,72,88,106,128,156,190,230,276,330,384,576},
  103.     {0,4,8,12,16,22,28,38,50,64,80,100,126,192}
  104.   },
  105.   { /* Table B.8.a: 32 kHz */
  106.     {0,4,8,12,16,20,24,30,36,44,54,66,82,102,126,156,194,240,296,364,448,550,576},
  107.     {0,4,8,12,16,22,30,42,58,78,104,138,180,192}
  108.   }
  109. };
  110. struct scalefac_struct scalefac_band;
  111. FLOAT8 pow20[Q_MAX];
  112. FLOAT8 ipow20[Q_MAX];
  113. FLOAT8 pow43[PRECALC_SIZE];
  114. static FLOAT8 adj43[PRECALC_SIZE];
  115. static FLOAT8 adj43asm[PRECALC_SIZE];
  116. static FLOAT8 ATH_l[SBPSY_l];
  117. static FLOAT8 ATH_s[SBPSY_l];
  118. FLOAT8 ATH_mdct_long[576];
  119. FLOAT8 ATH_mdct_short[192];
  120. /************************************************************************/
  121. /*  initialization for iteration_loop */
  122. /************************************************************************/
  123. void
  124. iteration_init( lame_global_flags *gfp,III_side_info_t *l3_side, int l3_enc[2][2][576])
  125. {
  126.   gr_info *cod_info;
  127.   int ch, gr, i;
  128.   l3_side->resvDrain = 0;
  129.   if ( gfp->frameNum==0 ) {
  130.     for (i = 0; i < SBMAX_l + 1; i++) {
  131.       scalefac_band.l[i] =
  132. sfBandIndex[gfp->samplerate_index + (gfp->version * 3)].l[i];
  133.     }
  134.     for (i = 0; i < SBMAX_s + 1; i++) {
  135.       scalefac_band.s[i] =
  136. sfBandIndex[gfp->samplerate_index + (gfp->version * 3)].s[i];
  137.     }
  138.     l3_side->main_data_begin = 0;
  139.     compute_ath(gfp,ATH_l,ATH_s);
  140.     for(i=0;i<PRECALC_SIZE;i++)
  141.         pow43[i] = pow((FLOAT8)i, 4.0/3.0);
  142.     for (i = 0; i < PRECALC_SIZE-1; i++)
  143. adj43[i] = (i + 1) - pow(0.5 * (pow43[i] + pow43[i + 1]), 0.75);
  144.     adj43[i] = 0.5;
  145.     adj43asm[0] = 0.0;
  146.     for (i = 1; i < PRECALC_SIZE; i++)
  147.       adj43asm[i] = i - 0.5 - pow(0.5 * (pow43[i - 1] + pow43[i]),0.75);
  148.     for (i = 0; i < Q_MAX; i++) {
  149. ipow20[i] = pow(2.0, (double)(i - 210) * -0.1875);
  150. pow20[i] = pow(2.0, (double)(i - 210) * 0.25);
  151.     }
  152.   }
  153.   convert_mdct=0;
  154.   reduce_sidechannel=0;
  155.   if (gfp->mode_ext==MPG_MD_MS_LR) {
  156.     convert_mdct = 1;
  157.     reduce_sidechannel=1;
  158.   }
  159.   
  160.   /* some intializations. */
  161.   for ( gr = 0; gr < gfp->mode_gr; gr++ ){
  162.     for ( ch = 0; ch < gfp->stereo; ch++ ){
  163.       cod_info = (gr_info *) &(l3_side->gr[gr].ch[ch]);
  164.       if (cod_info->block_type == SHORT_TYPE)
  165.         {
  166.   cod_info->sfb_lmax = 0; /* No sb*/
  167.   cod_info->sfb_smax = 0;
  168.         }
  169.       else
  170. {
  171.   /* MPEG 1 doesnt use last scalefactor band */
  172.   cod_info->sfb_lmax = SBPSY_l;
  173.   cod_info->sfb_smax = SBPSY_s;    /* No sb */
  174. }
  175.     }
  176.   }
  177.   /* dont bother with scfsi. */
  178.   for ( ch = 0; ch < gfp->stereo; ch++ )
  179.     for ( i = 0; i < 4; i++ )
  180.       l3_side->scfsi[ch][i] = 0;
  181. }
  182. /* 
  183. compute the ATH for each scalefactor band 
  184. cd range:  0..96db
  185. Input:  3.3kHz signal  32767 amplitude  (3.3kHz is where ATH is smallest = -5db)
  186. longblocks:  sfb=12   en0/bw=-11db    max_en0 = 1.3db
  187. shortblocks: sfb=5           -9db              0db
  188. Input:  1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 (repeated)
  189. longblocks:  amp=1      sfb=12   en0/bw=-103 db      max_en0 = -92db
  190.             amp=32767   sfb=12           -12 db                 -1.4db 
  191. Input:  1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 (repeated)
  192. shortblocks: amp=1      sfb=5   en0/bw= -99                    -86 
  193.             amp=32767   sfb=5           -9  db                  4db 
  194. MAX energy of largest wave at 3.3kHz = 1db
  195. AVE energy of largest wave at 3.3kHz = -11db
  196. Let's take AVE:  -11db = maximum signal in sfb=12.  
  197. Dynamic range of CD: 96db.  Therefor energy of smallest audible wave 
  198. in sfb=12  = -11  - 96 = -107db = ATH at 3.3kHz.  
  199. ATH formula for this wave: -5db.  To adjust to LAME scaling, we need
  200. ATH = ATH_formula  - 103  (db)
  201. ATH = ATH * 2.5e-10      (ener)
  202. */
  203. FLOAT8 ATHformula(lame_global_flags *gfp,FLOAT8 f)
  204. {
  205.   FLOAT8 ath;
  206.   f  = Max(0.02, f);
  207.   /* from Painter & Spanias, 1997 */
  208.   /* minimum: (i=77) 3.3kHz = -5db */
  209.   ath=(3.640 * pow(f,-0.8)
  210.        -  6.500 * exp(-0.6*pow(f-3.3,2.0))
  211.        +  0.001 * pow(f,4.0));
  212.   /* convert to energy */
  213.   if (gfp->noATH)
  214.     ath -= 200; /* disables ATH */
  215.   else {
  216.     ath -= 114;    /* MDCT scaling.  From tests by macik and MUS420 code */
  217.     /* ath -= 109; */
  218.   }
  219. #ifdef RH_QUALITY_CONTROL 
  220.   /* purpose of RH_QUALITY_CONTROL:
  221.    * at higher quality lower ATH masking abilities   => needs more bits
  222.    * at lower quality increase ATH masking abilities => needs less bits
  223.    * works together with adjusted masking lowering of GPSYCHO thresholds
  224.    * (Robert.Hegemann@gmx.de 2000-01-30)
  225.    */
  226.   ath -= (4-gfp->VBR_q)*4.0; 
  227. #endif
  228.   ath = pow( 10.0, ath/10.0 );
  229.   return ath;
  230. }
  231.  
  232. void compute_ath(lame_global_flags *gfp,FLOAT8 ATH_l[SBPSY_l],FLOAT8 ATH_s[SBPSY_l])
  233. {
  234.   int sfb,i,start,end;
  235.   FLOAT8 ATH_f;
  236.   FLOAT8 samp_freq = gfp->out_samplerate/1000.0;
  237. #ifdef RH_ATH
  238.   /* going from average to peak level ATH masking
  239.    */
  240.   FLOAT8 adjust_mdct_scaling = 10.0; 
  241. #endif
  242.   
  243.   /* last sfb is not used */
  244.   for ( sfb = 0; sfb < SBPSY_l; sfb++ ) {
  245.     start = scalefac_band.l[ sfb ];
  246.     end   = scalefac_band.l[ sfb+1 ];
  247.     ATH_l[sfb]=1e99;
  248.     for (i=start ; i < end; i++) {
  249.       ATH_f = ATHformula(gfp,samp_freq*i/(2*576)); /* freq in kHz */
  250.       ATH_l[sfb]=Min(ATH_l[sfb],ATH_f);
  251. #ifdef RH_ATH
  252.       ATH_mdct_long[i] = ATH_f*adjust_mdct_scaling;
  253. #endif
  254.     }
  255.     /*
  256.     printf("sfb=%i %f  ATH=%f %f  %f   n",sfb,samp_freq*start/(2*576),
  257. 10*log10(ATH_l[sfb]),
  258. 10*log10( ATHformula(samp_freq*start/(2*576)))  ,
  259. 10*log10(ATHformula(samp_freq*end/(2*576))));
  260.     */
  261.   }
  262.   for ( sfb = 0; sfb < SBPSY_s; sfb++ ){
  263.     start = scalefac_band.s[ sfb ];
  264.     end   = scalefac_band.s[ sfb+1 ];
  265.     ATH_s[sfb]=1e99;
  266.     for (i=start ; i < end; i++) {
  267.       ATH_f = ATHformula(gfp,samp_freq*i/(2*192));     /* freq in kHz */
  268.       ATH_s[sfb]=Min(ATH_s[sfb],ATH_f);
  269. #ifdef RH_ATH
  270.       ATH_mdct_short[i] = ATH_f*adjust_mdct_scaling;
  271. #endif
  272.     }
  273.   }
  274. }
  275. /* convert from L/R <-> Mid/Side */
  276. void ms_convert(FLOAT8 xr[2][576],FLOAT8 xr_org[2][576])
  277. {
  278.   int i;
  279.   for ( i = 0; i < 576; i++ ) {
  280.     FLOAT8 l = xr_org[0][i];
  281.     FLOAT8 r = xr_org[1][i];
  282.     xr[0][i] = (l+r)*(SQRT2*0.5);
  283.     xr[1][i] = (l-r)*(SQRT2*0.5);
  284.   }
  285. }
  286. /************************************************************************
  287.  * allocate bits among 2 channels based on PE
  288.  * mt 6/99
  289.  ************************************************************************/
  290. void on_pe(lame_global_flags *gfp,FLOAT8 pe[2][2],III_side_info_t *l3_side,
  291. int targ_bits[2],int mean_bits, int gr)
  292. {
  293.   gr_info *cod_info;
  294.   int extra_bits,tbits,bits;
  295.   int add_bits[2]; 
  296.   int ch;
  297.   /* allocate targ_bits for granule */
  298.   ResvMaxBits( mean_bits, &tbits, &extra_bits, gr);
  299.     
  300.   for (ch=0 ; ch < gfp->stereo ; ch ++) {
  301.     /******************************************************************
  302.      * allocate bits for each channel 
  303.      ******************************************************************/
  304.     cod_info = &l3_side->gr[gr].ch[ch].tt;
  305.     
  306.     targ_bits[ch]=tbits/gfp->stereo;
  307.     
  308.     /* allocate extra bits from reservoir based on PE */
  309.     bits=0;
  310.     
  311.     /* extra bits based on PE > 700 */
  312.     add_bits[ch]=(pe[gr][ch]-750)/1.55;  /* 1.4; */
  313.     
  314.     /* short blocks need extra, no matter what the pe */
  315.     if (cod_info->block_type==SHORT_TYPE) 
  316.       if (add_bits[ch]<500) add_bits[ch]=500;
  317.     
  318.     if (add_bits[ch] < 0) add_bits[ch]=0;
  319.     bits += add_bits[ch];
  320.     
  321.     if (bits > extra_bits) add_bits[ch] = (extra_bits*add_bits[ch])/bits;
  322.     if ((targ_bits[ch]+add_bits[ch]) > 4095) 
  323.       add_bits[ch]=4095-targ_bits[ch];
  324.     targ_bits[ch] = targ_bits[ch] + add_bits[ch];
  325.     extra_bits -= add_bits[ch];
  326.   }
  327. }
  328. void reduce_side(int targ_bits[2],FLOAT8 ms_ener_ratio,int mean_bits)
  329. {
  330. int ch;
  331. int numchn=2;
  332.     /*  ms_ener_ratio = 0:  allocate 66/33  mid/side  fac=.33  
  333.      *  ms_ener_ratio =.5:  allocate 50/50 mid/side   fac= 0 */
  334.     /* 75/25 split is fac=.5 */
  335.     /* float fac = .50*(.5-ms_ener_ratio[gr])/.5;*/
  336.     float fac = .33*(.5-ms_ener_ratio)/.5;
  337.     if (fac<0) fac=0;
  338.     
  339.     if (targ_bits[1] >= 125) {
  340.       /* dont reduce side channel below 125 bits */
  341.       if (targ_bits[1]-targ_bits[1]*fac > 125) {
  342. targ_bits[0] += targ_bits[1]*fac;
  343. targ_bits[1] -= targ_bits[1]*fac;
  344.       } else {
  345. targ_bits[0] += targ_bits[1] - 125;
  346. targ_bits[1] = 125;
  347.       }
  348.     }
  349.     
  350.     /* dont allow to many bits per channel */  
  351.     for (ch=0; ch<numchn; ch++) {
  352.       int max_bits = Min(4095,mean_bits/2 + 1200);
  353.       if (targ_bits[ch] > max_bits) {
  354. targ_bits[ch] = max_bits;
  355.       }
  356.     }
  357. }
  358. /*************************************************************************** 
  359.  *         inner_loop                                                      * 
  360.  *************************************************************************** 
  361.  * The code selects the best global gain for a particular set of scalefacs */
  362.  
  363. int
  364. inner_loop( lame_global_flags *gfp,FLOAT8 xrpow[576],
  365.     int l3_enc[576], int max_bits,
  366.     gr_info *cod_info)
  367. {
  368.     int bits;
  369.     assert( max_bits >= 0 );
  370.     cod_info->global_gain--;
  371.     do
  372.     {
  373.       cod_info->global_gain++;
  374.       bits = count_bits(gfp,l3_enc, xrpow, cod_info);
  375.     }
  376.     while ( bits > max_bits );
  377.     return bits;
  378. }
  379. /*************************************************************************/
  380. /*            scale_bitcount                                             */
  381. /*************************************************************************/
  382. /* Also calculates the number of bits necessary to code the scalefactors. */
  383. int scale_bitcount( III_scalefac_t *scalefac, gr_info *cod_info)
  384. {
  385.     int i, k, sfb, max_slen1 = 0, max_slen2 = 0, /*a, b, */ ep = 2;
  386.     static int slen1[16] = { 1, 1, 1, 1, 8, 2, 2, 2, 4, 4, 4, 8, 8, 8,16,16 };
  387.     static int slen2[16] = { 1, 2, 4, 8, 1, 2, 4, 8, 2, 4, 8, 2, 4, 8, 4, 8 };
  388.     static int slen1_tab[16] = {0,
  389. 18, 36, 54, 54, 36, 54, 72, 54, 72, 90, 72, 90,108,108,126
  390.     };
  391.     static int slen2_tab[16] = {0,
  392. 10, 20, 30, 33, 21, 31, 41, 32, 42, 52, 43, 53, 63, 64, 74
  393.     };
  394.     int *tab;
  395.     if ( cod_info->block_type == SHORT_TYPE )
  396.     {
  397.             tab = slen1_tab;
  398.             /* a = 18; b = 18;  */
  399.             for ( i = 0; i < 3; i++ )
  400.             {
  401.                 for ( sfb = 0; sfb < 6; sfb++ )
  402.                     if (scalefac->s[sfb][i] > max_slen1 )
  403.                         max_slen1 = scalefac->s[sfb][i];
  404.                 for (sfb = 6; sfb < SBPSY_s; sfb++ )
  405.                     if ( scalefac->s[sfb][i] > max_slen2 )
  406.                         max_slen2 = scalefac->s[sfb][i];
  407.             }
  408.     }
  409.     else
  410.     { /* block_type == 1,2,or 3 */
  411.         tab = slen2_tab;
  412.         /* a = 11; b = 10;   */
  413.         for ( sfb = 0; sfb < 11; sfb++ )
  414.             if ( scalefac->l[sfb] > max_slen1 )
  415.                 max_slen1 = scalefac->l[sfb];
  416. if (!cod_info->preflag) {
  417.     for ( sfb = 11; sfb < SBPSY_l; sfb++ )
  418. if (scalefac->l[sfb] < pretab[sfb])
  419.     break;
  420.     if (sfb == SBPSY_l) {
  421. cod_info->preflag = 1;
  422. for ( sfb = 11; sfb < SBPSY_l; sfb++ )
  423.     scalefac->l[sfb] -= pretab[sfb];
  424.     }
  425. }
  426.         for ( sfb = 11; sfb < SBPSY_l; sfb++ )
  427.             if ( scalefac->l[sfb] > max_slen2 )
  428.                 max_slen2 = scalefac->l[sfb];
  429.     }
  430.     /* from Takehiro TOMINAGA <tominaga@isoternet.org> 10/99
  431.      * loop over *all* posible values of scalefac_compress to find the
  432.      * one which uses the smallest number of bits.  ISO would stop
  433.      * at first valid index */
  434.     cod_info->part2_length = LARGE_BITS;
  435.     for ( k = 0; k < 16; k++ )
  436.     {
  437.         if ( (max_slen1 < slen1[k]) && (max_slen2 < slen2[k]) &&
  438.              ((int)cod_info->part2_length > tab[k])) {
  439.   cod_info->part2_length=tab[k];
  440.   cod_info->scalefac_compress=k;
  441.   ep=0;  /* we found a suitable scalefac_compress */
  442. }
  443.     }
  444.     return ep;
  445. }
  446. /*
  447.   table of largest scalefactors (number of bits) for MPEG2
  448. */
  449. /*
  450. static unsigned max_sfac_tab[6][4] =
  451. {
  452.     {4, 4, 3, 3},
  453.     {4, 4, 3, 0},
  454.     {3, 2, 0, 0},
  455.     {4, 5, 5, 0},
  456.     {3, 3, 3, 0},
  457.     {2, 2, 0, 0}
  458. };
  459. */
  460. /*
  461.   table of largest scalefactor values for MPEG2
  462. */
  463. static unsigned max_range_sfac_tab[6][4] =
  464. {
  465.  { 15, 15, 7,  7},
  466.  { 15, 15, 7,  0},
  467.  { 7,  3,  0,  0},
  468.  { 15, 31, 31, 0},
  469.  { 7,  7,  7,  0},
  470.  { 3,  3,  0,  0}
  471. };
  472. /*************************************************************************/
  473. /*            scale_bitcount_lsf                                         */
  474. /*************************************************************************/
  475. /* Also counts the number of bits to encode the scalefacs but for MPEG 2 */ 
  476. /* Lower sampling frequencies  (24, 22.05 and 16 kHz.)                   */
  477.  
  478. /*  This is reverse-engineered from section 2.4.3.2 of the MPEG2 IS,     */
  479. /* "Audio Decoding Layer III"                                            */
  480. int scale_bitcount_lsf(III_scalefac_t *scalefac, gr_info *cod_info)
  481. {
  482.     int table_number, row_in_table, partition, nr_sfb, window, over;
  483.     int i, sfb, max_sfac[ 4 ];
  484.     unsigned *partition_table;
  485.     /*
  486.       Set partition table. Note that should try to use table one,
  487.       but do not yet...
  488.     */
  489.     if ( cod_info->preflag )
  490. table_number = 2;
  491.     else
  492. table_number = 0;
  493.     for ( i = 0; i < 4; i++ )
  494. max_sfac[i] = 0;
  495.     if ( cod_info->block_type == SHORT_TYPE )
  496.     {
  497.     row_in_table = 1;
  498.     partition_table = &nr_of_sfb_block[table_number][row_in_table][0];
  499.     for ( sfb = 0, partition = 0; partition < 4; partition++ )
  500.     {
  501. nr_sfb = partition_table[ partition ] / 3;
  502. for ( i = 0; i < nr_sfb; i++, sfb++ )
  503.     for ( window = 0; window < 3; window++ )
  504. if ( scalefac->s[sfb][window] > max_sfac[partition] )
  505.     max_sfac[partition] = scalefac->s[sfb][window];
  506.     }
  507.     }
  508.     else
  509.     {
  510. row_in_table = 0;
  511. partition_table = &nr_of_sfb_block[table_number][row_in_table][0];
  512. for ( sfb = 0, partition = 0; partition < 4; partition++ )
  513. {
  514.     nr_sfb = partition_table[ partition ];
  515.     for ( i = 0; i < nr_sfb; i++, sfb++ )
  516. if ( scalefac->l[sfb] > max_sfac[partition] )
  517.     max_sfac[partition] = scalefac->l[sfb];
  518. }
  519.     }
  520.     for ( over = 0, partition = 0; partition < 4; partition++ )
  521.     {
  522. if ( max_sfac[partition] > (int)max_range_sfac_tab[table_number][partition] )
  523.     over++;
  524.     }
  525.     if ( !over )
  526.     {
  527. /*
  528.   Since no bands have been over-amplified, we can set scalefac_compress
  529.   and slen[] for the formatter
  530. */
  531. static int log2tab[] = { 0, 1, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4 };
  532. unsigned slen1, slen2, slen3, slen4;
  533.         cod_info->sfb_partition_table = &nr_of_sfb_block[table_number][row_in_table][0];
  534. for ( partition = 0; partition < 4; partition++ )
  535.     cod_info->slen[partition] = log2tab[max_sfac[partition]];
  536. /* set scalefac_compress */
  537. slen1 = cod_info->slen[ 0 ];
  538. slen2 = cod_info->slen[ 1 ];
  539. slen3 = cod_info->slen[ 2 ];
  540. slen4 = cod_info->slen[ 3 ];
  541. switch ( table_number )
  542. {
  543.   case 0:
  544.     cod_info->scalefac_compress = (((slen1 * 5) + slen2) << 4)
  545. + (slen3 << 2)
  546. + slen4;
  547.     break;
  548.   case 1:
  549.     cod_info->scalefac_compress = 400
  550. + (((slen1 * 5) + slen2) << 2)
  551. + slen3;
  552.     break;
  553.   case 2:
  554.     cod_info->scalefac_compress = 500 + (slen1 * 3) + slen2;
  555.     break;
  556.   default:
  557.     fprintf( stderr, "intensity stereo not implemented yetn" );
  558.     exit( EXIT_FAILURE );
  559.     break;
  560. }
  561.     }
  562. #ifdef DEBUG
  563.     if ( over ) 
  564.         printf( "---WARNING !! Amplification of some bands over limitsn" );
  565. #endif
  566.     if (!over) {
  567.       assert( cod_info->sfb_partition_table );     
  568.       cod_info->part2_length=0;
  569.       for ( partition = 0; partition < 4; partition++ )
  570. cod_info->part2_length += cod_info->slen[partition] * cod_info->sfb_partition_table[partition];
  571.     }
  572.     return over;
  573. }
  574. /*************************************************************************/
  575. /*            calc_xmin                                                  */
  576. /*************************************************************************/
  577. /*
  578.   Calculate the allowed distortion for each scalefactor band,
  579.   as determined by the psychoacoustic model.
  580.   xmin(sb) = ratio(sb) * en(sb) / bw(sb)
  581.   returns number of sfb's with energy > ATH
  582. */
  583. int calc_xmin( lame_global_flags *gfp,FLOAT8 xr[576], III_psy_ratio *ratio,
  584.        gr_info *cod_info, III_psy_xmin *l3_xmin)
  585. {
  586.     int start, end, bw,l, b, ath_over=0;
  587. u_int sfb;
  588.     FLOAT8 en0, xmin, ener;
  589.     if (gfp->ATHonly) {    
  590.       for ( sfb = cod_info->sfb_smax; sfb < SBPSY_s; sfb++ )
  591.   for ( b = 0; b < 3; b++ )
  592.       l3_xmin->s[sfb][b]=ATH_s[sfb];
  593.       for ( sfb = 0; sfb < cod_info->sfb_lmax; sfb++ )
  594.   l3_xmin->l[sfb]=ATH_l[sfb];
  595.     }else{
  596.       for ( sfb = cod_info->sfb_smax; sfb < SBPSY_s; sfb++ ) {
  597. start = scalefac_band.s[ sfb ];
  598.         end   = scalefac_band.s[ sfb + 1 ];
  599. bw = end - start;
  600.         for ( b = 0; b < 3; b++ ) {
  601.   for (en0 = 0.0, l = start; l < end; l++) {
  602.     ener = xr[l * 3 + b];
  603.     ener = ener * ener;
  604.     en0 += ener;
  605.   }
  606.   en0 /= bw;
  607.   xmin = ratio->en.s[sfb][b];
  608.   if (xmin > 0.0)
  609.     xmin = en0 * ratio->thm.s[sfb][b] * masking_lower / xmin;
  610. #ifdef RH_ATH
  611.           /* do not mix up ATH masking with GPSYCHO thresholds
  612.    */
  613.   l3_xmin->s[sfb][b] = Max(1e-20, xmin);
  614. #else
  615.   l3_xmin->s[sfb][b] = Max(ATH_s[sfb], xmin);
  616. #endif
  617.   if (en0 > ATH_s[sfb]) ath_over++;
  618. }
  619.       }
  620.       for ( sfb = 0; sfb < cod_info->sfb_lmax; sfb++ ){
  621. start = scalefac_band.l[ sfb ];
  622. end   = scalefac_band.l[ sfb+1 ];
  623. bw = end - start;
  624.         for (en0 = 0.0, l = start; l < end; l++ ) {
  625.   ener = xr[l] * xr[l];
  626.   en0 += ener;
  627. }
  628. en0 /= bw;
  629. xmin = ratio->en.l[sfb];
  630. if (xmin > 0.0)
  631.   xmin = en0 * ratio->thm.l[sfb] * masking_lower / xmin;
  632. #ifdef RH_ATH
  633.         /* do not mix up ATH masking with GPSYCHO thresholds
  634.  */
  635. l3_xmin->l[sfb]=Max(1e-20, xmin);
  636. #else
  637. l3_xmin->l[sfb]=Max(ATH_l[sfb], xmin);
  638. #endif
  639. if (en0 > ATH_l[sfb]) ath_over++;
  640.       }
  641.     }
  642.     return ath_over;
  643. }
  644. /*************************************************************************/
  645. /*            loop_break                                                 */
  646. /*************************************************************************/
  647. /*  Function: Returns zero if there is a scalefac which has not been
  648.     amplified. Otherwise it returns one. 
  649. */
  650. int loop_break( III_scalefac_t *scalefac, gr_info *cod_info)
  651. {
  652.     int i;
  653. u_int sfb;
  654.     for ( sfb = 0; sfb < cod_info->sfb_lmax; sfb++ )
  655.         if ( scalefac->l[sfb] == 0 )
  656.     return 0;
  657.     for ( sfb = cod_info->sfb_smax; sfb < SBPSY_s; sfb++ )
  658.       for ( i = 0; i < 3; i++ ) 
  659.             if ( scalefac->s[sfb][i] == 0 )
  660. return 0;
  661.     return 1;
  662. }
  663. /*
  664.  ----------------------------------------------------------------------
  665.   if someone wants to try to find a faster step search function,
  666.   here is some code which gives a lower bound for the step size:
  667.   
  668.   for (max_xrspow = 0, i = 0; i < 576; ++i)
  669.   {
  670.     max_xrspow = Max(max_xrspow, xrspow[i]);
  671.   }
  672.   lowerbound = 210+log10(max_xrspow/IXMAX_VAL)/(0.1875*LOG2);
  673.  
  674.  
  675.                                                  Robert.Hegemann@gmx.de
  676.  ----------------------------------------------------------------------
  677. */
  678. typedef enum {
  679.     BINSEARCH_NONE,
  680.     BINSEARCH_UP, 
  681.     BINSEARCH_DOWN
  682. } binsearchDirection_t;
  683. /*-------------------------------------------------------------------------*/
  684. int 
  685. bin_search_StepSize2 (lame_global_flags *gfp,int desired_rate, int start, int *ix, 
  686.                       FLOAT8 xrspow[576], gr_info *cod_info)
  687. /*-------------------------------------------------------------------------*/
  688. {
  689.     static int CurrentStep = 4;
  690.     int nBits;
  691.     int flag_GoneOver = 0;
  692.     int StepSize = start;
  693.     binsearchDirection_t Direction = BINSEARCH_NONE;
  694.     do
  695.     {
  696. cod_info->global_gain = StepSize;
  697. nBits = count_bits(gfp,ix, xrspow, cod_info);  
  698. if (CurrentStep == 1 )
  699.         {
  700.     break; /* nothing to adjust anymore */
  701. }
  702. if (flag_GoneOver)
  703. {
  704.     CurrentStep /= 2;
  705. }
  706. if (nBits > desired_rate)  /* increase Quantize_StepSize */
  707. {
  708.     if (Direction == BINSEARCH_DOWN && !flag_GoneOver)
  709.     {
  710. flag_GoneOver = 1;
  711. CurrentStep /= 2; /* late adjust */
  712.     }
  713.     Direction = BINSEARCH_UP;
  714.     StepSize += CurrentStep;
  715.     if (StepSize > 255) break;
  716. }
  717. else if (nBits < desired_rate)
  718. {
  719.     if (Direction == BINSEARCH_UP && !flag_GoneOver)
  720.     {
  721. flag_GoneOver = 1;
  722. CurrentStep /= 2; /* late adjust */
  723.     }
  724.     Direction = BINSEARCH_DOWN;
  725.     StepSize -= CurrentStep;
  726.     if (StepSize < 0) break;
  727. }
  728. else break; /* nBits == desired_rate;; most unlikely to happen.*/
  729.     } while (1); /* For-ever, break is adjusted. */
  730.     CurrentStep = abs(start - StepSize);
  731.     
  732.     if (CurrentStep >= 4) {
  733. CurrentStep = 4;
  734.     } else {
  735. CurrentStep = 2;
  736.     }
  737.     return nBits;
  738. }
  739. #if (defined(__GNUC__) && defined(__i386__))
  740. #define USE_GNUC_ASM
  741. #endif
  742. #ifdef _MSC_VER
  743. #define USE_MSC_ASM
  744. #endif
  745. /*********************************************************************
  746.  * XRPOW_FTOI is a macro to convert floats to ints.  
  747.  * if XRPOW_FTOI(x) = nearest_int(x), then QUANTFAC(x)=adj43asm[x]
  748.  *                                         ROUNDFAC= -0.0946
  749.  *
  750.  * if XRPOW_FTOI(x) = floor(x), then QUANTFAC(x)=asj43[x]   
  751.  *                                   ROUNDFAC=0.4054
  752.  *********************************************************************/
  753. #ifdef USE_GNUC_ASM
  754. #  define QUANTFAC(rx)  adj43asm[rx]
  755. #  define ROUNDFAC -0.0946
  756. #  define XRPOW_FTOI(src, dest) 
  757.      asm ("fistpl %0 " : "=m"(dest) : "t"(src) : "st")
  758. #elif defined (USE_MSC_ASM)
  759. #  define QUANTFAC(rx)  adj43asm[rx]
  760. #  define ROUNDFAC -0.0946
  761. #  define XRPOW_FTOI(src, dest) do { 
  762.      FLOAT8 src_ = (src); 
  763.      int dest_; 
  764.      { 
  765.        __asm fld src_ 
  766.        __asm fistp dest_ 
  767.      } 
  768.      (dest) = dest_; 
  769.    } while (0)
  770. #else
  771. #  define QUANTFAC(rx)  adj43[rx]
  772. #  define ROUNDFAC 0.4054
  773. #  define XRPOW_FTOI(src,dest) ((dest) = (int)(src))
  774. #endif
  775. #ifdef USE_MSC_ASM
  776. /* define F8type and F8size according to type of FLOAT8 */
  777. # if defined FLOAT8_is_double
  778. #  define F8type qword
  779. #  define F8size 8
  780. # elif defined FLOAT8_is_float
  781. #  define F8type dword
  782. #  define F8size 4
  783. # else
  784. /* only float and double supported */
  785. #  error invalid FLOAT8 type for USE_MSC_ASM
  786. # endif
  787. #endif
  788. #ifdef USE_GNUC_ASM
  789. /* define F8type and F8size according to type of FLOAT8 */
  790. # if defined FLOAT8_is_double
  791. #  define F8type "l"
  792. #  define F8size "8"
  793. # elif defined FLOAT8_is_float
  794. #  define F8type "s"
  795. #  define F8size "4"
  796. # else
  797. /* only float and double supported */
  798. #  error invalid FLOAT8 type for USE_GNUC_ASM
  799. # endif
  800. #endif
  801. /*********************************************************************
  802.  * nonlinear quantization of xr 
  803.  * More accurate formula than the ISO formula.  Takes into account
  804.  * the fact that we are quantizing xr -> ix, but we want ix^4/3 to be 
  805.  * as close as possible to x^4/3.  (taking the nearest int would mean
  806.  * ix is as close as possible to xr, which is different.)
  807.  * From Segher Boessenkool <segher@eastsite.nl>  11/1999
  808.  * ASM optimization from 
  809.  *    Mathew Hendry <scampi@dial.pipex.com> 11/1999
  810.  *    Acy Stapp <AStapp@austin.rr.com> 11/1999
  811.  *    Takehiro Tominaga <tominaga@isoternet.org> 11/1999
  812.  *********************************************************************/
  813. void quantize_xrpow(FLOAT8 xr[576], int ix[576], gr_info *cod_info) {
  814.   /* quantize on xr^(3/4) instead of xr */
  815.   const FLOAT8 istep = IPOW20(cod_info->global_gain);
  816. #if defined (USE_GNUC_ASM) 
  817.   {
  818.       int rx[4];
  819.       __asm__ __volatile__(
  820.         "nnloop1:nt"
  821.         "fld" F8type " 0*" F8size "(%1)nt"
  822.         "fld" F8type " 1*" F8size "(%1)nt"
  823.         "fld" F8type " 2*" F8size "(%1)nt"
  824.         "fld" F8type " 3*" F8size "(%1)nt"
  825.         "fxch %%st(3)nt"
  826.         "fmul %%st(4)nt"
  827.         "fxch %%st(2)nt"
  828.         "fmul %%st(4)nt"
  829.         "fxch %%st(1)nt"
  830.         "fmul %%st(4)nt"
  831.         "fxch %%st(3)nt"
  832.         "fmul %%st(4)nt"
  833.         "addl $4*" F8size ", %1nt"
  834.         "addl $16, %3nt"
  835.         "fxch %%st(2)nt"
  836.         "fistl %5nt"
  837.         "fxch %%st(1)nt"
  838.         "fistl 4+%5nt"
  839.         "fxch %%st(3)nt"
  840.         "fistl 8+%5nt"
  841.         "fxch %%st(2)nt"
  842.         "fistl 12+%5nt"
  843.         "dec %4nt"
  844.         "movl %5, %%eaxnt"
  845.         "movl 4+%5, %%ebxnt"
  846.         "fxch %%st(1)nt"
  847.         "fadd" F8type " (%2,%%eax," F8size ")nt"
  848.         "fxch %%st(3)nt"
  849.         "fadd" F8type " (%2,%%ebx," F8size ")nt"
  850.         "movl 8+%5, %%eaxnt"
  851.         "movl 12+%5, %%ebxnt"
  852.         "fxch %%st(2)nt"
  853.         "fadd" F8type " (%2,%%eax," F8size ")nt"
  854.         "fxch %%st(1)nt"
  855.         "fadd" F8type " (%2,%%ebx," F8size ")nt"
  856.         "fxch %%st(3)nt"
  857.         "fistpl -16(%3)nt"
  858.         "fxch %%st(1)nt"
  859.         "fistpl -12(%3)nt"
  860.         "fistpl -8(%3)nt"
  861.         "fistpl -4(%3)nt"
  862.         "jnz loop1nn"
  863.         : /* no outputs */
  864.         : "t" (istep), "r" (xr), "r" (adj43asm), "r" (ix), "r" (576 / 4), "m" (rx)
  865.         : "%eax", "%ebx", "memory", "cc"
  866.       );
  867.   }
  868. #elif defined (USE_MSC_ASM)
  869.   {
  870.       /* asm from Acy Stapp <AStapp@austin.rr.com> */
  871.       int rx[4];
  872.       _asm {
  873.           fld F8type ptr [istep]
  874.           mov esi, dword ptr [xr]
  875.           lea edi, dword ptr [adj43asm]
  876.           mov edx, dword ptr [ix]
  877.           mov ecx, 576/4
  878.       } loop1: _asm {
  879.           fld F8type ptr [esi+(0*F8size)] // 0
  880.           fld F8type ptr [esi+(1*F8size)] // 1 0
  881.           fld F8type ptr [esi+(2*F8size)] // 2 1 0
  882.           fld F8type ptr [esi+(3*F8size)] // 3 2 1 0
  883.           fxch st(3)                  // 0 2 1 3
  884.           fmul st(0), st(4)
  885.           fxch st(2)                  // 1 2 0 3
  886.           fmul st(0), st(4)
  887.           fxch st(1)                  // 2 1 0 3
  888.           fmul st(0), st(4)
  889.           fxch st(3)                  // 3 1 0 2
  890.           fmul st(0), st(4)
  891.           add esi, 4*F8size
  892.           add edx, 16
  893.           fxch st(2)                  // 0 1 3 2
  894.           fist dword ptr [rx]
  895.           fxch st(1)                  // 1 0 3 2
  896.           fist dword ptr [rx+4]
  897.           fxch st(3)                  // 2 0 3 1
  898.           fist dword ptr [rx+8]
  899.           fxch st(2)                  // 3 0 2 1
  900.           fist dword ptr [rx+12]
  901.           dec ecx
  902.           mov eax, dword ptr [rx]
  903.           mov ebx, dword ptr [rx+4]
  904.           fxch st(1)                  // 0 3 2 1
  905.           fadd F8type ptr [edi+eax*F8size]
  906.           fxch st(3)                  // 1 3 2 0
  907.           fadd F8type ptr [edi+ebx*F8size]
  908.           mov eax, dword ptr [rx+8]
  909.           mov ebx, dword ptr [rx+12]
  910.           fxch st(2)                  // 2 3 1 0
  911.           fadd F8type ptr [edi+eax*F8size]
  912.           fxch st(1)                  // 3 2 1 0
  913.           fadd F8type ptr [edi+ebx*F8size]
  914.           fxch st(3)                  // 0 2 1 3
  915.           fistp dword ptr [edx-16]    // 2 1 3
  916.           fxch st(1)                  // 1 2 3
  917.           fistp dword ptr [edx-12]    // 2 3
  918.           fistp dword ptr [edx-8]     // 3
  919.           fistp dword ptr [edx-4]
  920.           jnz loop1
  921.           mov dword ptr [xr], esi
  922.           mov dword ptr [ix], edx
  923.           fstp st(0)
  924.       }
  925.   }
  926. #else
  927. #if 0
  928.   {   /* generic code if you write ASM for XRPOW_FTOI() */
  929.       FLOAT8 x;
  930.       int j, rx;
  931.       for (j = 576 / 4; j > 0; --j) {
  932.           x = *xr++ * istep;
  933.           XRPOW_FTOI(x, rx);
  934.           XRPOW_FTOI(x + QUANTFAC(rx), *ix++);
  935.           x = *xr++ * istep;
  936.           XRPOW_FTOI(x, rx);
  937.           XRPOW_FTOI(x + QUANTFAC(rx), *ix++);
  938.           x = *xr++ * istep;
  939.           XRPOW_FTOI(x, rx);
  940.           XRPOW_FTOI(x + QUANTFAC(rx), *ix++);
  941.           x = *xr++ * istep;
  942.           XRPOW_FTOI(x, rx);
  943.           XRPOW_FTOI(x + QUANTFAC(rx), *ix++);
  944.       }
  945.   }
  946. #endif
  947.   {/* from Wilfried.Behne@t-online.de.  Reported to be 2x faster than 
  948.       the above code (when not using ASM) on PowerPC */
  949.       int j;
  950.      
  951.       for ( j = 576/8; j > 0; --j)
  952.       {
  953. FLOAT8 x1, x2, x3, x4, x5, x6, x7, x8;
  954. int rx1, rx2, rx3, rx4, rx5, rx6, rx7, rx8;
  955. x1 = *xr++ * istep;
  956. x2 = *xr++ * istep;
  957. XRPOW_FTOI(x1, rx1);
  958. x3 = *xr++ * istep;
  959. XRPOW_FTOI(x2, rx2);
  960. x4 = *xr++ * istep;
  961. XRPOW_FTOI(x3, rx3);
  962. x5 = *xr++ * istep;
  963. XRPOW_FTOI(x4, rx4);
  964. x6 = *xr++ * istep;
  965. XRPOW_FTOI(x5, rx5);
  966. x7 = *xr++ * istep;
  967. XRPOW_FTOI(x6, rx6);
  968. x8 = *xr++ * istep;
  969. XRPOW_FTOI(x7, rx7);
  970. x1 += QUANTFAC(rx1);
  971. XRPOW_FTOI(x8, rx8);
  972. x2 += QUANTFAC(rx2);
  973. XRPOW_FTOI(x1,*ix++);
  974. x3 += QUANTFAC(rx3);
  975. XRPOW_FTOI(x2,*ix++);
  976. x4 += QUANTFAC(rx4);
  977. XRPOW_FTOI(x3,*ix++);
  978. x5 += QUANTFAC(rx5);
  979. XRPOW_FTOI(x4,*ix++);
  980. x6 += QUANTFAC(rx6);
  981. XRPOW_FTOI(x5,*ix++);
  982. x7 += QUANTFAC(rx7);
  983. XRPOW_FTOI(x6,*ix++);
  984. x8 += QUANTFAC(rx8);
  985. XRPOW_FTOI(x7,*ix++);
  986. XRPOW_FTOI(x8,*ix++);
  987.       }
  988. }
  989. #endif
  990. }
  991. void quantize_xrpow_ISO( FLOAT8 xr[576], int ix[576], gr_info *cod_info )
  992. {
  993.   /* quantize on xr^(3/4) instead of xr */
  994.   const FLOAT8 istep = IPOW20(cod_info->global_gain);
  995.   
  996. #if defined(USE_GNUC_ASM)
  997.    {
  998.       __asm__ __volatile__ (
  999.         "nnloop0:nt"
  1000.         "fld" F8type " 0*" F8size "(%3)nt"
  1001.         "fld" F8type " 1*" F8size "(%3)nt"
  1002.         "fld" F8type " 2*" F8size "(%3)nt"
  1003.         "fld" F8type " 3*" F8size "(%3)nt"
  1004.         "addl $4*" F8size ", %3nt"
  1005.         "addl $16, %4nt"
  1006.         "fxch %%st(3)nt"
  1007.         "fmul %%st(4)nt"
  1008.         "fxch %%st(2)nt"
  1009.         "fmul %%st(4)nt"
  1010.         "fxch %%st(1)nt"
  1011.         "fmul %%st(4)nt"
  1012.         "fxch %%st(3)nt"
  1013.         "fmul %%st(4)nt"
  1014.         "dec %0nt"
  1015.         "fxch %%st(2)nt"
  1016.         "fadd %%st(5)nt"
  1017.         "fxch %%st(1)nt"
  1018.         "fadd %%st(5)nt"
  1019.         "fxch %%st(3)nt"
  1020.         "fadd %%st(5)nt"
  1021.         "fxch %%st(2)nt"
  1022.         "fadd %%st(5)nt"
  1023.         "fxch %%st(1)nt"
  1024.         "fistpl -16(%4)nt"
  1025.         "fxch %%st(2)nt"
  1026.         "fistpl -12(%4)nt"
  1027.         "fistpl -8(%4)nt"
  1028.         "fistpl -4(%4)nt"
  1029.         "jnz loop0nn"
  1030.         : /* no outputs */
  1031.         : "r" (576 / 4), "u" ((FLOAT8)(0.4054 - 0.5)), "t" (istep), "r" (xr), "r" (ix)
  1032.         : "memory", "cc"
  1033.       );
  1034.   }
  1035. #elif defined(USE_MSC_ASM)
  1036.   {
  1037.       /* asm from Acy Stapp <AStapp@austin.rr.com> */
  1038.       const FLOAT8 temp0 = 0.4054 - 0.5;
  1039.       _asm {
  1040.           mov ecx, 576/4;
  1041.           fld F8type ptr [temp0];
  1042.           fld F8type ptr [istep];
  1043.           mov eax, dword ptr [xr];
  1044.           mov edx, dword ptr [ix];
  1045.       } loop0: _asm {
  1046.           fld F8type ptr [eax+0*F8size]; // 0
  1047.           fld F8type ptr [eax+1*F8size]; // 1 0
  1048.           fld F8type ptr [eax+2*F8size]; // 2 1 0
  1049.           fld F8type ptr [eax+3*F8size]; // 3 2 1 0
  1050.           add eax, 4*F8size;
  1051.           add edx, 16;
  1052.           fxch st(3); // 0 2 1 3
  1053.           fmul st(0), st(4);
  1054.           fxch st(2); // 1 2 0 3
  1055.           fmul st(0), st(4);
  1056.           fxch st(1); // 2 1 0 3
  1057.           fmul st(0), st(4);
  1058.           fxch st(3); // 3 1 0 2
  1059.           fmul st(0), st(4);
  1060.           dec ecx;
  1061.           fxch st(2); // 0 1 3 2
  1062.           fadd st(0), st(5);
  1063.           fxch st(1); // 1 0 3 2
  1064.           fadd st(0), st(5);
  1065.           fxch st(3); // 2 0 3 1
  1066.           fadd st(0), st(5);
  1067.           fxch st(2); // 3 0 2 1
  1068.           fadd st(0), st(5);
  1069.           fxch st(1); // 0 3 2 1 
  1070.           fistp dword ptr [edx-16]; // 3 2 1
  1071.           fxch st(2); // 1 2 3
  1072.           fistp dword ptr [edx-12];
  1073.           fistp dword ptr [edx-8];
  1074.           fistp dword ptr [edx-4];
  1075.           jnz loop0;
  1076.           mov dword ptr [xr], eax;
  1077.           mov dword ptr [ix], edx;
  1078.           fstp st(0);
  1079.           fstp st(0);
  1080.       }
  1081.   }
  1082. #else
  1083. #if 0
  1084.    /* generic ASM */
  1085.       register int j;
  1086.       for (j=576/4;j>0;j--) {
  1087.          XRPOW_FTOI(istep * (*xr++) + ROUNDFAC, *ix++);
  1088.          XRPOW_FTOI(istep * (*xr++) + ROUNDFAC, *ix++);
  1089.          XRPOW_FTOI(istep * (*xr++) + ROUNDFAC, *ix++);
  1090.          XRPOW_FTOI(istep * (*xr++) + ROUNDFAC, *ix++);
  1091.       }
  1092. #endif
  1093.   {
  1094.       register int j;
  1095.       const FLOAT8 compareval0 = (1.0 - 0.4054)/istep;
  1096.       /* depending on architecture, it may be worth calculating a few more compareval's.
  1097.          eg.  compareval1 = (2.0 - 0.4054/istep); 
  1098.               .. and then after the first compare do this ...
  1099.               if compareval1>*xr then ix = 1;
  1100.          On a pentium166, it's only worth doing the one compare (as done here), as the second
  1101.          compare becomes more expensive than just calculating the value. Architectures with 
  1102.          slow FP operations may want to add some more comparevals. try it and send your diffs 
  1103.          statistically speaking
  1104.          73% of all xr*istep values give ix=0
  1105.          16% will give 1
  1106.          4%  will give 2
  1107.       */
  1108.       for (j=576;j>0;j--) 
  1109.         {
  1110.           if (compareval0 > *xr) {
  1111.             *(ix++) = 0;
  1112.             xr++;
  1113.           } else
  1114.     /*    *(ix++) = (int)( istep*(*(xr++))  + 0.4054); */
  1115.             XRPOW_FTOI(  istep*(*(xr++))  + ROUNDFAC , *(ix++) );
  1116.         }
  1117.   }
  1118. #endif
  1119. }