ussd代码大全(华为手机mmi码大全)
UTF-8是Unicode的可变长度字符编码。它可以用来表示Unicode标准中的任何字符,其编码中的第一个字节仍然与ASCII兼容,这样处理ASCII字符的原始软件就可以继续使用,而无需或只需进行少量修改。
UTF-8(8位通用字符集/Unicode转换格式)是Unicode的可变长度字符编码。它可以用来表示Unicode标准中的任何字符,其编码中的第一个字节仍然与ASCII兼容,这样处理ASCII字符的原始软件就可以继续使用,而无需或只需进行少量修改。因此,它逐渐成为电子邮件、网页和其他存储或传输文本应用程序中的首选编码。
基本特征
UCS字符U+0000到U+007F(ASCII)编码为字节0×00到0x7F(ASCIIⅱⅱ兼容)。这意味着在ASCII和UTF-8编码方法下,只包含7个ASCII字符的文件是相同的。
所有大于0x007F的UCS字符都被编码为具有多个字节的字符串,每个字节都有一个标记位集。因此,ASCIl字节(0x00-0x7F)不能是任何其他字符的一部分。表示非ASCIl字符的多字节字符串的第一个字节总是在0xC0到0XFD的范围内,并指示该字符包含多少字节。多字节字符串的剩余字节在0x80到0xBF的范围内。这使得重新同步非常容易,使得编码无国界,并且很少受到丢失字节的影响。
理论上,UTF 8编码字符最多可达6字节,但16位BMP字符最多只能有3字节。双端UCS-4字节字符串的排列顺序是预先确定的,字节0xFE和OxFF在UTF-8编码中从不使用。
编码字节数
UTF-8使用1~4个字节来编码每个字符:
一个美制ASCIl字符只需要1字节编码(Unicode范围为U+0000~U+007F)。
拉丁文、希腊文、西里尔文、亚美尼亚文、希伯来文、阿拉伯文、叙利亚文和其他带有发音符号的字母需要2字节编码(Unicode范围从U+0080到U+07FF)。
其他语言文字(包括中日韩文字、东南亚文字、中东文字等。)包含最常用的单词,编码为3个字节。
其他很少使用的语言字符用4字节编码。
UTF-8编码规则:
如果只有一个字节,则其最高二进制位为0;如果是多字节,第一个字节从最高位开始,值为1的连续二进制位数决定编码字节数,所有其他字节从10开始。