好资源导航 » 文章资讯 » Python字符串：字节与Unicode

Python字符串：字节与Unicode

2024-04-12 06:53:04 23

示例

Python2.x2.7

在Python2中，字符串有两种变体：由类型为（str）的字节组成的字符串和由类型（）的文本组成的字符串unicode。

在Python2中，类型的对象str始终是字节序列，但通常用于文本和二进制数据。

字符串文字被解释为字节字符串。

s = 'Cafe'    #类型==str

有两个例外：您可以通过在Unicode（文本）文字上加上前缀来显式定义Unicode（文字）文字u：

s = u'Café'   #类型==Unicode
b = 'Lorem ipsum'  #类型(b)==str

或者，您可以指定整个模块的字符串文字应创建Unicode（文本）文字：

from __future__ import unicode_literals

s = 'Café'   #类型==Unicode
b = 'Lorem ipsum'  #类型(b)==Unicode

为了检查您的变量是否是字符串（Unicode或字节字符串），可以使用：

isinstance(s, basestring)

Python3.x3.0

在Python3中，该str类型是Unicode文本类型。

s = 'Cafe'           #类型==str
s = 'Café'           #类型==str (note the accented trailing e)

另外，Python3添加了一个bytes对象，该对象适合于二进制“blob”或写入与编码无关的文件。要创建一个字节对象，可以b在字符串文字前添加前缀或调用该字符串的encode方法：

#或者，如果您确实需要一个字节字符串：
s = b'Cafe'          #类型==字节
s = 'Café'.encode()  #类型==字节

要测试值是否为字符串，请使用：

isinstance(s, str)

Python3.x3.3

也可以在字符串文字前加上u前缀，以简化Python2和Python3代码库之间的兼容性。由于在Python3中，默认情况下所有字符串都是Unicode，因此在字符串文字前加上u无效：

u'Cafe' == 'Cafe'

ur不支持Python2的原始Unicode字符串前缀，但是：

>>> ur'Café'
  File "<stdin>", line 1
    ur'Café'
           ^
SyntaxError: invalid syntax

请注意，您必须encode使用Python3text（str）对象将其转换bytes为该文本的表示形式。此方法的默认编码为UTF-8。

您可以decode用来向bytes对象询问它代表什么Unicode文本：

>>> b.decode()
'Café'

Python2.x2.6

虽然该bytes类型同时存在于Python2和3中，但该unicode类型仅存在于Python2中。要在Python2中使用Python3的隐式Unicode字符串，请将以下内容添加到代码文件的顶部：

from __future__ import unicode_literals
print(repr("hi"))
#你好

Python3.x3.0

另一个重要的区别是在Python3中索引字节会产生如下int输出：

b"abc"[0] == 97

切片为1时，对象长度为1字节：

b"abc"[0:1] == b"a"

此外，Python3修复了Unicode的一些异常行为，例如，反转了Python2中的字节字符串。例如，解决了以下问题：

#-*-编码：utf8-*-
print("Hi, my name is Łukasz Langa.")
print(u"Hi, my name is Łukasz Langa."[::-1])
print("Hi, my name is Łukasz Langa."[::-1])

#Python2中的输出
#嗨，我叫ŁukaszLanga。
#.agnaLzsakuŁsiemanym，iH
#.agnaLzsakusiemanym，iH

#Python3中的输出
#嗨，我叫ŁukaszLanga。
#.agnaLzsakuŁsiemanym，iH
#.agnaLzsakuŁsiemanym，iH

返回顶部
514930285
czq8825@qq.com

Python字符串：字节与Unicode

示例

热门推荐

随机推荐