Версия 1 от 2010-05-31 19:37:25

Убрать это сообщение

Chardet - автоматического распознавания кодировок

Chardet - модуль предназначеный для автоматического распознавания кодировок символов в тексте.

Самый простой способ использовать модуль - применить функцию detect. Функция detect принимает один параметр, строку (не юникод). Она возвращает словарь, содержащий автоматически обнаруженную кодировку (строка) и уровень достоверности в диапазоне от 0 до 1 (число, float).

   1 # -*- coding: utf-8 -*-
   2 import chardet
   3 enc = chardet.detect('Привет, мир!')
   4 print enc['confidence']
   5 print enc['encoding']

Можно определить кодировку URL:

   1 # -*- coding: utf-8 -*-
   2 import urllib, chardet
   3 data = urllib.urlopen('http://script-coding.info/').read()
   4 print chardet.detect(data)