资讯专栏INFORMATION COLUMN

翻译:HTML5与HTML4的区别

Null / 1376人阅读

摘要:但由于翻译时草稿只发布了不到二十天,本文有很好的时效性。语法中同时定义了解析规则包括异常的处理方式。语法要求声明,以确保浏览器以标准模式渲染页面。语法中的声明为,不区分大小写。此外,仅允许一些标签上的属性设置。

本文选译自:W3C Working Group Note: HTML5 Differences from HTML4。

解释一下W3C Working Group Note,作为“工作组笔记” 发布,意味着它是一个草稿版文档,可能被其它文档更新、替换或废弃。但由于翻译时草稿只发布了不到二十天,本文有很好的时效性。也作为比较性质的文献,比起HTML5的标准它更容易理解,可以让人快速地理解HTML5的变化轮廓。

关于本翻译:

原文所有指涉HTML5的地方用的要么是无定语的"HTML",要么是“新的HTML”,为了避免和HTML4的混淆,均写作HTML5

由于缺乏一目了然的译名,原文中的User Agent统一简写为UA

由于原文的章节划分非常合理,第五节的属性均为Property,此外其它的章节均是Attribute,因此本文不在翻译上区分它们,均译作“属性”;

Application统一简写为App

为避免混淆,第四节即文档模型章节部分,分类名均保留英文名不翻译。

第五节中IDL(Interface Definition Language)相关内容由于没有标准翻译,概念legacy callerStringifierssettergettercreatordeleter等均保留原文

1. 简介 1.1. 文档范围

本文档覆盖W3C的HTML5标准,它不包含W3C HTML5.1标准或WHATWG HTML标准。

1.4. 向后兼容

HTML5是这样被定义的:能向后兼容目前UA处理内容的方式。为了让语言更简单,一些老的元素和Attribute被舍弃。比如一些纯粹用于展现的元素(译注:即非语义化的元素,如big)或Attribute被舍弃,因为他们更适合用CSS来处理。
但UA依然可以支持老旧的属性和元素。这就是为什么HTML5标准清楚地划分了给开发的要求和给UA的要求。比如,开发者不应当使用plaintext元素,但UA需要兼容plaintext元素。
既然HTML5已区分对UA和对开发者的要求,再也不需将一些特性标记为deprecated(不赞成使用)了。

2. 语法

HTML5定义了HTML5语法,日前已广泛兼容于网络上HTML4和XHTML1的文档,但不兼容大部分HTML4中的深奥SGML特性,大部分UA都不支持它们,比如处理指令 (processing instructions) 和标签简写 (shorthand markup)。
HTML5语法中同时定义了解析规则——包括异常的处理方式。这种解析规则能够广泛支持HTML4领域的实现,UA可以使用这些规则来解析媒体类型为text/html的资源。

下面是一个能够说明HTML语法的示例文档:



  
    
    Example document
  
  
    

Example paragraph

另外一个可以被用于HTML的语法是XML。XML语法可兼容于XHTML文档或实现。使用XML语法的文档需要配套XML文档的媒体类型如application/xhtml+xmlapplication/xml来使用,同时,元素需要遵循XML规则,被放到http://www.w3.org/1999/xhtml命名空间中:



  
    Example document
  
  
    

Example paragraph

2.1 符号编码

HTML标准中要求开发声明编码方式,有这些方式可以做到:

传输层,可以用HTTP头部的Content-Type

在文档头部放置对应使用的编码的BOM

使用有charset的meta元素
比如可以用于声明UTF-8编码。这个新声明替代了,尽管后者依然可以使用。

XML语法中,开发需要按照XML标准来设置编码。

2.2 Doctype

HTML5语法要求声明Doctype,以确保浏览器以标准模式渲染页面。Doctype没有其他用途。
HTML5语法中的Doctype声明为,不区分大小写。
之前HTML4标准中的Doctype更长,因为HTML4语法是基于SGML的,需要引用DTD。而在新的HTML5标准中,再也不需要引用DTD了(译注:因为HTML5不再基于SGML)。因此,doctype只是为了确保文档以标准模式渲染。
为了支持旧有的标签,可以使用作为Doctype声明。
HTML4.0、HTML 4.01、XHTML 1.0、XHTML 1.1之类严格的Doctype,在HTML5中可以使用,但不被提倡。
在XML语法中,可以使用任何Doctype声明或省略Doctype。使用XML媒体类型的文档永远会在标准模式中被解析。

2.3 MathML和SVG

HTML语法允许文档内嵌MathML和SVG元素。

mathsvg的开始标签将会导致HTML解析器转为特殊的插入模式,以将元素和属性放入合适的命名空间,并转化大小写,并支持XML中的空元素语法

HTML中的math/svg的相关元素及其属性依然是区分大小写的

可以省略namespace(译注:如svg的namespace可以省略xmlns="http://www.w3.org/2000/svg"

在这个特殊的插入模式里,可以使用CDATA语法

一些MathML和SVG元素可能导致解析器转回HTML解析模式,比如mtextforeignObject,在这些元素内部你可以使用HTML元素或者新的math/svg元素。

一个使用了svg功能的例子如下:


SVG in text/html

A green circle:

2.4 其它方面

字符实体分别代表U+27E8U+27E9(数学意义上的左右尖括号〈、〉),而非U+2329U+232A(尖括号的旧有表示方法〈、 〉)。(译注,见维基百科的说明)

一些新的字符实体被加入,包括在MathML中定义的全部字符实体

空元素(如br)允许有一个结尾反斜杠(trailing slash)

相较于HTML4,HTML5中的&在更多场景下不转义

属性需要起码一个空格字符来区隔开

有空值的属性等价于属性与值完全相同的情形(译注:比如就相当于),即使这个属性并非boolean属性

相较于HTML4,HTML5中省略了引号的属性值允许使用更大范围的字符集

HTML解析器不再对属性值中间出现的空格进行标准化,比如中的id不再有效,同时中的value中的空行字符可以被使用,而不需要使用实体来替代

optgroup结束标签可选填

colgroup开始标签可选填,HTML解析器会根据上下文补完

3. 语言 3.1 新标签

以下标签的引入是为了用于更好的文档结构:

section代表一般意义上的文档/app区块,它应当与h1~h6等元素搭配使用,以标示文档层级

article代表了独立于文档的一块内容,比如blog入口或报刊文章

main代表了文档/app的主体内容

aside代表了一些与页面其它部分关联性不那么大的内容

header代表了一组介绍性或导航性质的辅助内容

footer代表了一个区块的底部,可以包含作者、版权等信息

nav代表了文档中可以导航的区块

figure代表了代表了一个独立的内容流
figcaption可以用作内容流的标题

template可以用于声明一块可用于克隆与插入的HTML片段
(译注:这替代了我们常见的方案textareascript type="text/html"script type="text/template"

其它的新标签:

audiovideo代表了多媒体元素,它们也提供了相应的API用于开发者定制UI,同时也提供了触发UA展示其默认控件的方式。
source元素跟他们一同使用,用于有多类型的内容流的情形
track提供了audio的文本轨道(译注:包含字幕等)

embed用于插件内容

mark代表了一个文档中需要标记或高亮的引用部分

progress代表了一个任务的完成程度

meter代表了一个度量,比如对磁盘空间的度量

time代表了时间/日期

rubyrtrp为ruby表达式

bdi代表了一段隔绝于周围元素的双向书写文本格式

wbr代表了可能断行的部分

canvas用于渲染动态位图

datalistinputlist属性共同使用,可以用于创建下拉选择框控件



 

keygen代表生成的密钥对

output代表了一种输出内容

3.2 新属性

表单元素:

inputtype属性有了更多新值:telsearchurlemaildatetimenumberrangecolor

form属性可用于在inputoutputselecttextareabuttonlabelobjectfieldset元素上指定关联的

元素的id,不局限于常规的层叠关系

Key Value Action
...

inputtextarea元素可使用placeholder属性来帮助用户填写数据,注意,它不应当替代label元素的作用

type="hidden"inputselecttextareabutton可使用autofocus元素来制定自动获得焦点的元素

inputselecttextarea有新属性required,代表了用户需要填写该字段,才可以提交这个表单。select的第一个元素应当为没有值的元素,以作为空值的占位符


fieldset标签允许使用disabled属性,这将禁止所有子元素的交互;它同时还可以使用name以方便脚本获取

input元素有了用于指明输入限制的属性autocomplete, min,max, multiple, patternstep

input type="image"的元素有widthheight属性

inputtextarea元素有了dirname以指明书写方向(译注:ltr或rtl)

textarea元素有了新的属性,如maxlengthminlengthwrap来控制最大输入长度与提交时的断行行为

form元素有了novalidate属性来禁止默认的表单验证行为

inputbutton元素有了formaction, formenctype, formmethod, formnovalidateformtarget属性,用于覆盖继承自form的action, enctype, method, novalidatetarget属性

input元素有了minlengthmaxlength属性

非表单元素的新属性:

area元素同alink元素一样有了新的hreflangtyperel属性

base元素同a一样可以有target属性

meta元素有了charset属性

script元素有了async属性将影响脚本的加载与运行

html元素有manifest属性,可用于指定缓存行为

link元素有了新的属性sizes,可以指定不同的大小的favicon

ol元素有了新的属性reversed,它代表着列表的顺序是逆序的

iframe元素有了sandboxsrcdoc属性以支持沙盒安全保护

object元素有了typemustmatch元素以保证更安全的嵌入顺序

img元素有crossorigin属性以在canvas中支持CORS

HTML4中有一些全部标签都可以使用的属性,在HTML5中叫做全局属性,如:accesskey , class, dir, id, lang, style, tabindextitle。此外,XHTML 1.0仅允许一些标签上的xml:space属性设置。
有这些新的全局属性:

contenteditable

data-*代表了开发定制的属性,这种格式可以避免与将来的新HTML属性冲突

hidden属性代表一个元素不再与文档相关

rolearia-*用于支持无障碍访问

spellcheck用于指定内容是否允许进行拼写检查

translate用于指定内容是否应当翻译

3.3 修改的标签

b元素现在表示一段加强表示的文本,但并不表达额外的重要性、暗示需要加重的语气和声调(译注:与em的语义区分开来)。比如文档摘要里的关键字、产品评价里的产品名字、可以与之交互的文本等等

i元素现在代表了一段需要使用不同的语气或声调的文本,或代表了不同品类的文本,如分类学名称、科技术语、其他语言中的方言或俚语等等

s元素代表了不再准确/相关的元素

small元素代表了旁注,如免责声明、注意事项、法律限制或版权声明

strong元素代表了重要性,而非着重强调

u元素 represents a span of text with an unarticulated, though explicitly rendered, non-textual annotation, such as labeling the text as being a proper name in Chinese text (a Chinese proper name mark), or labeling the text as being misspelt.(译注:没理解这个元素的语义)

address元素的范围现已由最近的祖先article/body元素决定,代表了后者的联系信息

script标签可以被用于自定义数据块

blockquote元素依然表示从另外一个来源里摘录的内容,但现在允许包含footercite元素

dl元素现在代表了有关联的命名-值的列表,但不再适用于对话了

hr元素代表了段与段之间的主题意义上的区隔(译注:即暗示段落主题已经发生了变化)

noscript元素 represents nothing if scripting is enabled, and represents its children if scripting is disabled. It is used to present different markup to user agents that support scripting and those that don"t support scripting, by affecting how the document is parsed.(译注:没看出来前后有什么区别)

3.4. 修改的属性

(译注:大部分是限制放宽,略)

3.5. 废弃的元素

开发不应当使用这些废弃的元素了,但是UA仍应当支持他们。

这些元素被废弃,因为他们仅仅是用于展现层面的标签,他们用CSS处理更好:basefontbigcenterfontstrikett

这些元素被废弃,因为他们有损可访问性与可用性:frameframesetnoframes

这些元素被废弃,因为他们罕有人使用、有其他元素替代或造成了迷惑:

在表示省略语的时候,acronymabbr取代

appletobject取代

isindex元素被表单元素取代

dirul取代

最后,noscript仅仅可以在HTML语法中被使用,它不被XML语法允许。
因为需要在视觉上隐藏它内部的内容,同时不允许noscript内部内容有运行脚本、应用样式、拥有可以提交的表单、加载资源等行为,所以noscript内部的内容将被当作纯文本解析。

3.6. 废弃的属性

这些属性被废弃,你可以在这里找到你能够用以替代的属性或标签。

a废弃属性:shape, coords, rev, charset

area废弃属性:nohref

form废弃属性:accept

head废弃属性:profile

html废弃属性:version

iframe废弃属性:longdesc

img废弃属性:name

input废弃属性:usemap

link废弃属性:target, rev, charset

meta废弃属性:scheme

object废弃属性:archiveclassidcodebasecodetypedeclarestandby

param废弃属性:valuetypetype

table废弃属性:summary

td废弃属性:axis, abbr, scope

th废弃属性:axis

此外,HTML不再包含纯用于表现的属性,它们应当被CSS替代:

caption, iframe, img, input, object, legend, table, hr, div, h1, h2, h3, h4, h5, h6, p, col, colgroup, tbody, td, tfoot, th, theadtralign属性被废弃

bodyalink, link, text, background属性被废弃

table, tr, td, thbodybgcolor属性被废弃

objectborder属性被废弃

tablecellpaddingcellspacing属性被废弃

col, colgroup, tbody, td, tfoot, th, theadtrcharcharoff属性被废弃

brclear属性被废弃

dl, olulcompact属性被废弃

tableframe属性被废弃

iframeframeborder属性被废弃

tdthheight属性被废弃

imgobjecthspacevspace属性被废弃

iframemarginheightmarginwidth属性被废弃

hrnoshade属性被废弃

tdthnowrap属性被废弃

tablerules属性被废弃

iframescrolling属性被废弃

hrsize属性被废弃

li,和ultype属性被废弃

col, colgroup, tbody, td, tfoot, th, theadtrvalign属性被废弃

hr, table, td, th, col, colgroupprewidth属性被废弃

下列属性允许使用,但不鼓励被使用:

img元素上的border属性。如果使用,要求使用0作为值。应当替代为CSS控制

script元素上的language属性。如果使用,要求使用JavaScript(不区分大小写),同时不应当与type属性冲突。由于它没有实际意义,开发应当省略它

aname属性。开发应当使用id来替代它

4. 内容模型

内容模型即元素的嵌套规则。

内容模型层面,HTML4有这些混乱的规则:

有两个大类"inline"和"block-level"元素,有一些元素不属于任何一个类别

有一些元素允许嵌套inline元素(如p);
有些允许嵌套block-level元素(如body);
有些都允许(如div);
然而一些元素不根据类别、而仅仅允许嵌套特定元素(如table dl);
或完全不允许嵌套元素

一个元素可能在一个类别中,而内容模型却在另外一个类别中。
比如p属于block-level,但内容模型为inline。

更加让人混淆的是,针对HTML4的不一样的DTD声明——Strict、Transitional或Frameset——有不一样的内容模型。
比如Strict下body元素仅仅允许嵌套block-level元素,但在Transitional下,body元素两种元素都允许嵌套

CSS的视觉格式化模型中也存在"block-level element"和"inline-level element"的区分,它跟CSS中的display属性相关,同时没有跟HTML的内容模型有任何关联

HTML5的内容模型不再使用"inline"和"block-level"的方式区分元素,为避免与CSS类似概念的混淆。然而,比起HTML4,它增加了更多类别,一个元素可以属于任意个数的类别。

HTML5中划分出来的类别如下:

Metadata,如linkscript

Flow,如spandiv、文本节点。它接近于HTML4层面的block-level和inline的混合

Sectioning,如asidesection

Heading,如h1

Phrasing,如spanimg、文本节点。它接近于HTML4的inline概念

Embedded,如imgiframesvg

Interactive,如abuttonlabel

与HTML4有很大不一样的一点是,HTML5中不再出现仅仅允许嵌套"block-level"的类别了(译注:因为HTML5已经不存在"block-level"类别的标签了)。
比如,body允许Flow类别的内容。这个规则比起HTML4 Strict,它更接近HTML4 Transitional。

更多变化包括:

address元素允许嵌套Flow类别的标签,但不允许嵌套Heading、Section类别的元素,不允许嵌套headerfooter、另一个address

HTML4允许object出现在head内部,但HTML5不允许

noscript元素由block-level类别转为Phrasing类别

table, thead, tbody, tfoot, tr, ol, uldl元素允许为空

表格元素需要遵从表格模型。比如两个单元格不允许交叠

table元素允许tfoot元素作为它的最后一个子元素

caption元素允许嵌套Flow类别的元素,但不允许嵌套table元素

th元素允许嵌套Flow类别的元素,但不允许嵌套header元素、footer元素、Sectioning类别或Heading类别的元素

a的内容模型为transparent,它与它的父级拥有同样的内容模型,这意味着在a的父级允许Flow类别的子元素的时候,a可以嵌套div元素。
此外,它不允许嵌套Interactive类别的元素

insdel元素的内容模型为transparent。
HTML4有类似的规则,但无法在DTD中表达出

object元素的param子元素以后,内容模型为transparent
(译注:这个规则应该是为了覆盖object内嵌套embed的场景)

map元素的内容模型为transparent
当有一个map作为祖先节点的时候,area元素被当作Phrasing类别的元素,同时area不再需要成为map的直接子节点

legend元素不再是fieldset必须的子节点了

5. API

HTML5引进、修改、扩展、废弃了很多API。

5.1 新增接口

HTML5为了帮助创建Web App,引入了一些新的接口:

媒体标签videoaudio的播放流程控制、同步多个媒体标签、字幕等接口

表单限制验证接口
(如setCustomValidity

引入应用缓存机制,允许Web App离线的API

允许Web App注册为对应协议或媒体类型的处理应用的APP的API。
(即registerProtocolHandlerregisterContentHandler

引入contenteditable属性,允许编辑任意元素的接口

暴露会话历史、允许使用脚本无刷新更新页面URL
History接口)

base64转换API
atob()btoa()

处理搜索服务提供方的接口
AddSearchProvider()IsSearchProviderInstalled()

External接口

打印文档的接口
print()

(译注:下列接口是很早就有,属于BOM中的共识部分,直到HTML5才加入标准)

暴露文档URL、允许使用脚本切换、刷新页面的接口
Location接口)

基于时间的回调接口
setTimeout()setInterval()

提供给用户的提示接口
alert()confirm()prompt()

Window接口

Navigator接口

5.2 修改的接口

如下DOM 2的接口已被改动:

document.title的返回值将会折叠多个空格符

document.domain允许赋值,因此可以改变文档的script origin

document.open()可以清空文档(如果调用时仅有两个或以下参数),或像是window.open()一样表现(如果调用时有三个或四个参数)。在前种调用方式下,抛出一个XML异常

document.close()document.write()document.writeln()抛出一个XML异常。后两者允许可变参数,他们可以在文档解析阶段往文档流中加入文本,并隐式调用document.open()。在一些情形下,他们都可能会被忽略

document.getElementsByName()将返回满足name符合参数的所有HTML元素

HTMLFormElementelements接口将返回HTMLFormControlsCollection,包括button, fieldset, input, keygen, object, output, selecttextarea

HTMLSelectElementadd()接口允许第二个参数为数字

HTMLSelectElementremove()接口在参数越界的时候,将删除集合中第一个元素

在所有的HTML元素中都可以调用click()focus()blur()接口了

aareastringify为它们的href属性
(译注:意味着HTMLAnchorElementHTMLAreaElement对应的toString方法返回它们的href属性)

5.3 Document扩展

DOM Level 2中有个HTMLDocument接口,继承自Document接口,并提供了文档内部的元素(仅局限于HTML范畴内)访问接口。
HTML5将这些成员移动到了Document接口中,并在特定方向上拓展了它。由于各类文档(译注:XML、HTML5、SVG等等文档)都使用了Document接口,而HTML5范畴内的元素在所有类别的文档中都可用,因此这些接口在SVG等文档中都可以很好的运作。

此外,Document接口还有一些新成员:

locationlastModifiedreadyState:用于帮助管理文档的元数据(metadata)

dirheadembedspluginsscripts:用于获取DOM树的不同部分

activeElementhasFocus接口,用于判断一个元素是否获得了焦点

文档编辑接口:designModeexecCommand()queryCommandEnabled()queryCommandIndeterm()queryCommandState()queryCommandSupported()queryCommandValue()

所有的IDL事件处理属性。此外,onreadystatechange是唯一一个在Document上才有效的接口

在脚本中修改了HTMLDocument原型的那部分还是可以正常运转的,由于window.HTMLDocument也将返回Document接口。

5.4 HTMLElement扩展

HTMLElement接口也在HTML5中得到了扩展:

用于得到data-*的属性的接口dataset

click()focus()blur()接口允许脚本模拟用户点击与切换焦点

accessKeyLabel给予UA赋予该元素的快捷键,开发可以通过accesskey属性来影响UA的该行为

isContentEditable返回元素是否可以编辑

全部的IDL事件处理属性

得到元素属性的接口如translatehiddentabIndexaccessKeycontentEditablespellcheckstyle
(译注:DOM Level 2仅建议采用Element接口上的setAttribute和getAttribute来获取或设置HTML Attribute,HTML5的这些定义扩展了HTML Attribute的范围,让它们可以像DOM Property一样set和get——UA早已广泛支持)

有些之前在HTMLElement上定义接口被移动到了Element接口中:idclassNameclassListgetElementsByClassName()
(译注:扩展了DOM Level 2上的Element接口定义,可以直接set/get id等属性值了——UA早已广泛支持)

5.5 其它接口扩展

DOM Level 2中的其它接口也得到了扩展。

接口 新增接口
HTMLOptionsCollection legacy caller、setter creator、add()remove()selectedIndex
HTMLFormElement 通过name或index索引的getter、checkValidity()
HTMLSelectElement getter、setter creator、item()namedItem()labelsselectedOptions及各种validate接口函数
HTMLOptionElement 构造器new Option()
HTMLInputElement filesheightindeterminatelistvalueAsDatevalueAsNumberwidthstepUp()stepDown()labels、文本选取区域API及各种validate接口函数
HTMLTextAreaElement textLengthlabels、文本选取区域API及各种validate接口函数
HTMLButtonElement labels及各种validate接口函数
HTMLLabelElement control
HTMLFieldSetElement typeelements及各种validate接口函数
HTMLAnchorElement relListtext
HTMLLinkElement relList
HTMLAreaElement relList
HTMLImageElement 构造器new Image()naturalWidthnaturalHeightcomplete
HTMLObjectElement contentWindow、legacy caller及各种validate接口函数
HTMLMapElement images
HTMLTableElement createTBody()
HTMLIFrameElement contentWindow

此外:

HTMLLinkElementHTMLStyleElement实现了CSSOM中的LinkStyle接口

HTMLAnchorElementHTMLLinkElementHTMLAreaElement实现了URLUtils接口

5.6 废弃接口

在HTML5中已被废弃的属性,其对应IDL属性接口也将被废弃。如bgColor已被废弃,那么HTMLBodyElement之上的IDL属性接口bgcolor也被废弃

在HTML5中已被废弃的元素,其对应接口也被废弃,包括HTMLAppletElement, HTMLFrameSetElement, HTMLFrameElement, HTMLDirectoryElementHTMLFontElementHTMLBaseFontElement

由于HTML解析器将isindex替代为其他元素了,HTMLIsIndexElement接口被废弃

一些成员属性从HTMLDocument接口移动到了Document接口,因此在原来的HTMLDocument下被废弃:anchorsapplets

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/49556.html

相关文章

  • HTML语义化标签探析

    摘要:具体的语义化标签探析本文主要是为了探析部分标签在语义化中的差别。同时也探索新加入的语义化标签。英文意思为,作用是定义列表中的项目。强调标签说明在上面的介绍中,已经介绍了和,个中差别,看英文既能分辨。 什么是HTML语义化 HTML语义化就是根据具体内容,选择合适的标签进行代码的编写。便于开发者阅读和写出更优雅的代码,同时让搜索引擎的爬虫能更好的识别。 为什么要语义化 有利于SEO:搜...

    DandJ 评论0 收藏0
  • 什么是 HTML 5?

    摘要:该区域代表可以被所控制的画布。那么现在第二个问题,识别该文档,这或许不是大部分用户的需求,但小部分用户并不意味着人数少。因此一个基于的请求于标准内提出。 前言 作为程序员,技术的落实与巩固是必要的,因此想到写个系列,名为 why what or how 每篇文章试图解释清楚一个问题。 这次的 why what or how 主题:现在几乎所有人都知道了 HTML5 ,那么 H5 到底相...

    zhaofeihao 评论0 收藏0

发表评论

0条评论

Null

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<