Python文本数据分析指南
Python文本分析涉及字符串的处理,字符串在Python中以不可变序列UNICODE或字符的形式表示。在Python 3中,所有字符串默认为UNICODE,而在Python 2中,str类限制为ASCII码,需要另一个专门处理UNICODE的类。UNICODE是一种编码语言,用于处理文本。例如,字母Z的UNICODE值是U+05A。Python社区从版本2到版本3的升级中,对UNICODE处理方式进行了转变,引发了不少讨论。目前,许多代码正在从Python 2迁移到Python 3,但关于UNICODE处理方式的争论仍在继续。字符串的底层操作以字节为单位进行,字节中存储的是数字,不同数字的组合表示不同的字符或符号。这也解释了为什么UNICODE和ASCII采用不同方式表示字符。在Python 2中,字符串存储为字节,在Python 3中,字符串存储为UNICODE。
下载地址
用户评论