国际化域名

开启一个充满机遇的世界,获得新客户、新注册和扩展 Web 服务。

威瑞信国际化域名 (IDN) 可帮助企业以本地语言字符表示 .com 和 .net。这使得与客户的联系更加友好,更加有意义。

IDN 注册过程


注册者向支持 IDN 的注册商请求 IDN。注册商使用 ASCII 兼容编码 (ACE) 将本地语言字符转换为受支持字母的序列。注册商将 ACE 字串提交到 Verisign® 共享注册系统 (SRS),并在此核实字串。将 IDN 添加到 .com 和 .net TLD 区域文件,并在互联网上传播。


IDN 解析过程

用户使用本地化脚本将 IDN 输入 Web 浏览器或跟随链接时,启用 IDN 的应用程序将字符译成 DNS 可理解的 ACE 字串。DNS 处理请求并将信息返回应用程序。虽然处理听起来很简单,但是还需要对支持不同 语言和脚本 的启用 IDN 的应用程序和 DNS 进行重大研究和开发。

IETF 标准



互联网工程任务组 (IETF) 致力于制定在域名系统 (DNS) 中使用非 ASCII 字符的标准。

DNS 仅可识别 ASCII 字符 A 至 Z、0 至 9 和 "-"。这限制了可用于创建域名的字符数量,即使用统一码中可识别的 96,000 多个字符中的 37 个字符创建域名。若要从统一码字符范围内创建域名,必须使用和规范将统一码码位映射到 ASCII 代表的字符编码方案。

IETF 公布了与国际化域名 (IDN) 相关的标准:编码方案、框架、协议、Unicode 和右至左脚本。

编码方案

IDN 的编码方案使用 Punycode,这是一种兼容 ASCII 的编码 (ACE) 可将本地语言字符译成 ASCII 字符,从而使 DNS 能够准确地回答对地址记录的请求。IETF 考虑了压缩和实施间的平衡,决定选择 Punycode 作为 ACE 标准。Punycode 允许出现最大数目的字符(码位)且可轻易部署。

框架 [RFC 5890]

RFC 是共同描述“应用程序中的国际化域名”(IDNA) 的协议和使用文本的文集的其中之一,“应用程序中的国际化域名”的修订工作大致于 2008 年完成,在该系列内及其他系列中被称为 "IDNA2008"。该系列替代之前的 IDNA [RFC 3490] [RFC 3491] 版本。为方便起见,该版本的 IDNA 被称为 "IDNA2003"。新版本继续沿用之前版本中的 Punycode 算法 [RFC3492] 和 ACE(ASCII 兼容编码)前缀。

协议 [RFC 5891]

该 RFC 描述了核心 IDNA2008 协议及其操作情况。其与下述双向 (Bidi) 文件结合,明确更新和替代 [RFC 3490]。

Unicode [RFC 5892]

该 RFC 规定了决定(单独考虑或在上下文中考虑)某一码位是否将被纳入 IDN 的规则。它是 IDNA2008 规范的组成部分。

右至左脚本 [RFC 5893]

国际化域名 (IDN) 内右至左脚本的使用面临着一些挑战。该 RFC 根据在一些脚本上遇到的问题和 2003 IDNA 双向标准的缺点为应用程序的国际化域名 (IDNA) 标签提供了新的双向规则。

基本原理 [RFC 5894]

该 RFC 阐述了需要新 RFC 以解决之前版本的 IDNA 中所出现的问题的背景、解释和基本原理。该 RFC 还将对更新 IDN 内所支持 Unicode 版本的需求进行讨论。

发布的 RFC

这些标准已发布,现在可以使用:

威瑞信致力于遵从以下 IETF 标准并支持该新技术的快速发展。

脚本和语言



国际化域名 (IDN) 是通过任意字符集或在 Unicode 中定义的脚本注册的二级或三级域名或网址。

要想弄清威瑞信 IDN 如何通过单个共享注册系统 (SRS) 支持数百种本地语言的域名注册,您需要理解在书面语言中使用的字符和脚本是如何转换成计算机语言的。

脚本、字符和语言之间的关系

脚本 拉丁语 阿拉伯语 汉语 希腊语
字符 L س 漢字 Ω
语言 英语 波斯语 中文 希腊语

脚本

脚本是语言中用来表示文本信息的符号集。脚本的例子:拉丁语、阿拉伯语、汉语、希腊语。

字符

字符是任意脚本因而也是任意书面语言的基本构成单元。它具有最基本的意义,若进一步分割字符,其将不具有意义。

书面语言

书面语言使用一个或多个脚本中的字符以传达意义。语言的例子:英语、波斯语、汉语、希腊语。

将语言转化为计算机符号

不同的脚本使用不同的键盘或软键盘作为计算机输入设备。计算机操作系统的输入法编辑器 (IME) 有利于不同脚本的输入。IDN 是一种类似的转换方式,它使人们可以通过本地语言脚本导航 Web、发送和接收电子邮件、传输文件以及进行其他与域名相关的操作。

Unicode

计算机通过编码字符以理解它们。对字符集内的每个字符都分配唯一的数字。比如,在 ASCII 码字符集中,大写字母 "A" 分配的数字是 65。大多数域名是以 ASCII 字符注册的(从 A 到 Z、从 0 到 9 和连字符 "-")。但是,非英语单词需要附加符号,如西班牙语和法语,而且 ASCII 字符不提供使用非拉丁脚本的语言,如日本汉字和阿拉伯语。Unicode 是一种通用编码字符集,它涵盖多达 350 种不同的本地语言。因此,IDN 使用 Unicode。

语言表

需要进行 IDN 注册时,对照包含字符列入表或字符异体映射表的语言列表检查语言标记。这些表格适用于可建立注册并确定注册对特定语言是否有效的 Unicode 码。如果某种语言的注册失败,那么带有不同语言标记的字符集仍然可用。

字符异体


威瑞信致力于为利益相关者应对字符异体问题。注册者通常注册在他们自己的语言中有意义的域名,比如一个名称、单词或短语。然而,单个脚本或许可以在多种语言中使用。

因而,一个域名在另一种语言或文化背景下有可能会有不同的意义。异体现象主要分为四类:字符异体、正交异体、词位异体和上下文异体。威瑞信已确定处理字符异体是用户通过他们自己的语言浏览互联网所必须的。其他的异体要求较难的语言学上的判断,这并非提供一个稳健的 IDN 解决方案所必须的。

中文字符异体

很多语言可能会有引起最终用户困惑的字符异体。例如,中文有两种书写形式:主要用于中国大陆的简体中文和主要用于台湾、香港和其他东南亚国家的繁体中文。这两种书写形式共享许多字符;但简体中文中的简化字符可能与繁体中文中的复杂字符的意义相同。这些被称为字符异体的字符,具有相同的意义和发音,但是看起来却不一样。

字符异体解决方案

技术社群中不同观点的领导者建议用不同的方法解决字符异体问题。每种方法都有优点和缺点。但是,IDN 社区认为:由于语言一直在变化,字符异体问题可能从未被彻底解决。语言间新的字符异体将继续被引到语言中来。威瑞信已采用可参考语言表来解决字符异体问题的语言标记。

威瑞信已与感兴趣的利益相关者共同努力来解决字符异体问题,这些利益相关者包括中国网络信息中心 (CNNIC) (.cn)、台湾网络信息中心 (TWNIC) (.tw)、韩国国家网络发展局 (.kr)、日本注册服务 (JPRS) (.jp)、中文域名协调委员会 (CDNC) 和由 ICANN 成立的 IDN 执行委员会。

政策

威瑞信已制定了一套 IDN 注册政策,规定了允许和禁用的码位。

通过威瑞信共享注册系统 (SRS),可以创建包含 Unicode 支持的非 ASCII 脚本的国际化域名 (IDN)。

注册规则

了解贯彻该政策的五种验证规则。


查看规则

附加逻辑

验证 IDN 后,威瑞信根据注册的语言标记执行一些其他的逻辑。


查看附加逻辑