lib_4.0_1.fix
上传用户:zlh9724
上传日期:2007-01-04
资源大小:1991k
文件大小:5k
源码类别:

浏览器

开发平台:

Unix_Linux

  1. <HTML>
  2. <HEAD>
  3. <TITLE>SGML fix</TITLE>
  4. <!-- Changed by: Henrik Frystyk Nielsen, 18-Jan-1996 -->
  5. </HEAD>
  6. <BODY>
  7. <H1>SGML Fix</H1>
  8. I have a proposition to improve a little the SGML module. A small patch I send here improves the
  9. error recovery in parsing ill-formed HTML documents. I have a proposition to improve a little the
  10. SGML module. A small patch I send here improves the error recovery in parsing ill-formed HTML
  11. documents. <P>
  12. The end_element function in sgml.c hanles ill-nested tags pretty well, ignoring bad end tags or
  13. assuming corresponding start tags. The rule used now states that if we encounter an ending tag
  14. without the corresponding start tag on the top of the element=20 stack, we do one of the following:
  15. <OL>
  16. <LI>If we are on the last level (that is there is only &lt;HTML&gt; on the element stack), we ignore
  17. the bad ending tag.
  18. <LI>If there are some other elements (start tags) on the stack, we assume the corresponding end tags
  19. (except &lt;/HTML&gt;), free the stack from those elements, and=20 then check again the tag which
  20. caused the whole problem against the rules 1 and 2.
  21. </OL>
  22. In some cases this algorithm doesn't work well. Consider the example:
  23. <PRE>
  24. &lt;HTML>
  25. &lt;BODY>
  26. &lt;UL>
  27. &lt;LI> &lt;A...> &lt;B> ... &lt;/A> &lt;/I> &lt;/B>
  28. &lt;LI> ...
  29. &lt;/UL>
  30. &lt;/BODY>
  31. &lt;/HTML>
  32. </PRE>
  33. There are two errors in this example:
  34. <OL>
  35. <LI>&lt;A> and &lt;B> are overlapping
  36. <LI>There is an &lt;/I> without any &lt;I>
  37. </OL>
  38. According to the rules given above, this is parsed exactly as shown below:
  39. <PRE>
  40. &lt;HTML>
  41. &lt;BODY>
  42. &lt;UL>
  43. &lt;LI> &lt;A...> &lt;B> ... &lt;/B> &lt;/A>
  44. &lt;/UL>
  45. &lt;/BODY>
  46. &lt;LI> ...
  47. &lt;/HTML>
  48. </PRE>
  49. This is because:
  50. <OL>
  51. <LI>When the parser encounters &lt;/A> (line 4 of the original example) it assumes &lt;/B> and then goes
  52. to &lt;/A>, which is now nested perfectly.
  53. <LI>Next it encounters &lt;/I>, so it assumes all open start tags (except &lt;HTML>); this gives
  54. &lt;/UL> &lt;/BODY>.
  55. <LI> Again with &lt;/I>, the parser is now on the last level (only &lt;HTML> hasn't been closed), so it
  56. ignores &lt;/I>.
  57. <LI> Now the parser encounters &lt;LI>. Note that it's a &lt;LI> outside &lt;UL>!  What=20 happen next
  58. depends on the quality of the HTML module (my version of html.c was crashing until I corrected it).
  59. </OL>
  60. The problem is that too many ending tags are assumed. I propose to ignore all the ill-nested end
  61. tags which doesn't have a corresponding opening tag on the element stack (on the whole stack, not
  62. only on its top). Considering the example, after seeing=20 &lt;/I> we simply ignore it (and not
  63. assume all pending tags and then ignore it). <P>
  64. So, after this modification the example is parsed as:
  65. <PRE>
  66. &lt;HTML>
  67. &lt;BODY>
  68. &lt;UL>
  69. &lt;LI> &lt;A...> &lt;B> ... &lt;/B> &lt;/A>
  70. &lt;LI> ...
  71. &lt;/UL>
  72. &lt;/BODY>
  73. &lt;/HTML>
  74. </PRE>
  75. Here's the patch:
  76. <PRE>
  77. /*
  78. ** Helper function to check if the tag is on the stack
  79. */
  80. PRIVATE BOOL lookup_element_stack (HTElement* stack, HTTag *tag)
  81. {
  82.     HTElement* elem;
  83.     for (elem = stack; elem != NULL; elem = elem->next)
  84.     {
  85.         if (elem->tag == tag)  return TRUE;
  86.     }
  87.     return FALSE;
  88. }
  89. /* 
  90. ** Modified end_element function
  91. ** Only one line is added, it's marked with &lt;==
  92. */
  93. PRIVATE void end_element (HTStream * context, HTTag * old_tag)
  94. {
  95.     if (SGML_TRACE) TTYPrint(TDEST, "SGML: End   &lt;/%s>n", old_tag->name);
  96.     if (old_tag->contents == SGML_EMPTY) {
  97.         if (SGML_TRACE) TTYPrint(TDEST,"SGML: Illegal end tag &lt;/%s> found.n",
  98.                 old_tag->name);
  99.         return;
  100.     }
  101.     while (context->element_stack)      {/* Loop is error path only */
  102.         HTElement * N = context->element_stack;
  103.         HTTag * t = N->tag;
  104.         if (old_tag != t) {             /* Mismatch: syntax error */
  105.             if (context->element_stack->next    /* This is not the last level */
  106.                     && lookup_element_stack(context->element_stack, old_tag)) {  /* &lt;== */
  107.                 if (SGML_TRACE) TTYPrint(TDEST,
  108.                 "SGML: Found &lt;/%s> when expecting &lt;/%s>. &lt;/%s> assumed.n",
  109.                     old_tag->name, t->name, t->name);
  110.             } else {                    /* last level */
  111.                 if (SGML_TRACE) TTYPrint(TDEST,
  112.                     "SGML: Found &lt;/%s> when expecting &lt;/%s>. &lt;/%s> Ignored.n",
  113.                     old_tag->name, t->name, old_tag->name);
  114.                 return;                 /* Ignore */
  115.             }
  116.         }
  117.         context->element_stack = N->next;               /* Remove from stack */
  118.         free(N);
  119.         (*context->actions->end_element)(context->target,
  120.                  t - context->dtd->tags);
  121.         if (old_tag == t) return;  /* Correct sequence */
  122.         /* Syntax error path only */
  123.     }
  124.     if (SGML_TRACE) TTYPrint(TDEST,
  125.         "SGML: Extra end tag &lt;/%s> found and ignored.n", old_tag->name);
  126. }
  127. </PRE>
  128. Tha't all for now. I have also another proposition concerning SGML module (better handling of &lt;P>
  129. tags), but in my opinion it will need some discussion, and I don't know if you are interested in
  130. this.
  131. <P>
  132. <HR>
  133. <ADDRESS>Maciej Puzio, puzio@laser.mimuw.edu.pl</ADDRESS>
  134. </BODY>
  135. </HTML>