博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python任意字符集转换
阅读量:7165 次
发布时间:2019-06-29

本文共 1014 字,大约阅读时间需要 3 分钟。

在python处理文本的过程中,经常会有文本字符集转换的情况,

而我们希望用一个方法,不用关心文本原本的字符集是什么样的,直接转换成想要的任何字符集就可以了。

方法一:

import chardet  def convert_encoding(data,new_coding='UTF-8'):  # 任意字符集转换  encoding = chardet.detect(data)['encoding']  if new_coding.upper() != encoding.upper():    data  = data.decode(encoding,data).encode(new_coding)  return data

方法二:

import icu  def convert_encoding2(data,new_coding='UTF-8'):  encoding = icu.CharsetDetector(data).detect().getName()    # encoding = chardet.detect(content)['encoding']  if new_coding.upper() != encoding.upper():    # data  = data.decode(encoding,data).encode(new_coding)    data = unicode(data,coding).encode(new_coding)  return data

方法三:

import cchardetdef convert_encoding3(data,new_coding='UTF-8'):  encoding = cchardet.detect(data)['encoding']  if new_coding.upper() != encoding.upper():    data  = data.decode(encoding,data).encode(new_coding)  return data

使用方法:

此处使用方法一

#转换成utf-8convert_encoding(data,'utf-8')#转抱成GBK  convert_encoding(data,'gbk')#转抱成GB2312convert_encoding(data,'gbk')

转载地址:http://wkmwm.baihongyu.com/

你可能感兴趣的文章