Chardet - автоматического распознавания кодировок

Chardet - модуль предназначеный для автоматического распознавания кодировок символов в тексте.

Самый простой способ использовать модуль - применить функцию detect. Функция detect принимает один параметр, строку (не юникод). Она возвращает словарь, содержащий автоматически обнаруженную кодировку (строка) и уровень достоверности в диапазоне от 0 до 1 (число, float).

   1 # -*- coding: utf-8 -*-
   2 import chardet
   3 enc = chardet.detect('Привет, мир!')
   4 print enc['confidence']
   5 print enc['encoding']

Можно определить кодировку URL:

   1 # -*- coding: utf-8 -*-
   2 import urllib, chardet
   3 data = urllib.urlopen('http://script-coding.info/').read()
   4 print chardet.detect(data) 

Пакеты/Python/Chardet (последним исправлял пользователь SOL-FTTB 2010-05-31 19:37:25)