Elixir UTF-8和Unicode

一个字符串是一段UTF-8编码的二进制数。为了理解它们，我们首先需要明白字节与代码点的区别。

Unicode标准将代码点赋值给许多我们熟知的字符。例如，字母a拥有代码点97，字母ł拥有代码点322。当将字符串"hełło"写入磁盘时，我们需要将代码点转换为字节。如果我们遵守一个字节代表一个代码点的规则，那么我们就不能写入"hełło"，因为ł的代码点是322，而一个字节只能表示0到255的数字。但我们总有办法表示"hełło"，这就是编码在发挥作用。

当用字节来表示代码点时，我们需要对它们进行编码。Elixir选择UTF-8编码作为其主要和默认的编码。当我们说一个字符串是UTF-8编码的二进制数，那意味着它是一串通过UTF-8编码来代表特定代码点的字节。我们需要不止一个字节来代表例如ł的322这样的代码点。这就是byte_size/1与String.length/1返回值不同的原因："

iex> string = "hełło
"hełło"
iex> byte_size(string)
7
iex> String.length(string)
5

UTF-8要求以一个字节来表示h，e和o的代码点，以两个字节表示ł的。在Elixir中，你可以通过?来得到代码点的值：

iex> ?a
97
iex> ?ł
322

你也可以使用String模块中的函数来依照代码点分割一个字符串：

iex> String.codepoints("hełło")
["h", "e", "ł", "ł", "o"]

你会发现Elixir对于字符串操作有着良好的支持。事实上，Elixir将所有测试内容放到了文章“字符串类型崩溃了”中。

然而，字符串只是故事的一部分。我们通过is_binary/1得知字符串是二进制数，所以Elixir一定是以一种底层类型控制着字符串。让我们来讨论一下二进制数！

w3cschool 编程狮，随时随地学编程

Elixir UTF-8和Unicode

Elixir 基本类型

Elixir 基本操作符

Elixir 模式匹配

Elixir case，cond和if

Elixir 二进制，字符串和字符列表

Elixir 关键词和映射

Elixir 模块

Elixir 递归

Elixir 枚举接口与流

Elixir 进程

Elixir IO与文件系统

Elixir 别名,要求与进口

Elixir 模块属性

Elixir 结构体

Elixir 协议

Elixir 实现Any

Elixir 推导式

Elixir 印记

Elixir 字符串,字符列表和单词的印记

Elixir 尝试,抓取和解救

Elixir 类型规格与行为

Elixir 类型与规格

Elixir 行为

Elixir Erlang库

Elixir 下一步该去哪