Текстовый декодер онлайн: восстановление текста.

Исходная:
Целевая:
Исходная Целевая Текст Операции



Назначение

Программа помогает восстановить исходный текст, искаженный в результате применения неправильной кодировки и сделать его понятным для пользователя.
Применяется, если вместо осмысленной текстовой информации вы видите:
  • Нечитаемый (искаженный, хаотичный, бессмысленный) текст или набор иероглифов. По-простому: кракозябры.
  • Кракозябры при открытии текстового файла.

Примеры:

Вариант текста в неверной кодировке (cp1251): Это важная информация, наполненная глубоким смыслом
Восстановленный оригинал (utf8): Это важная информация, наполненная глубоким смыслом

Возможности и ограничения

  • Восстановление исходного текста простым копированием
  • Восстановление исходного текста из файла
  • Представление результатов анализа в виде таблицы
  • Работа со всеми известными кодировками текста
  • Анализ результатов: как с фильтрацией, так и с перебором всех возможных вариантов декодирования
  • Ограничения: Только одноступенчатый анализ и обрезание текста до 200 символов (для ускорения поиска)

Подробное описание

О природе "битого" текста

Кракозябры (жарг.) - бессмысленный, нечитаемый текст, полученный в результате неправильной интерпретации считывающей его программы.
С технической точки зрения кракозябры получаются при неверном выборе кодовой страницы текстовым редактором или иной программой, отображающей текстовое содержимое.
Все данные (текстовые, аудио, видео, игры) хранятся в виде двоичных чисел: нулей и единиц в памяти устройства(ПК, планшет, телефон и т.д.). Кодовая страница (кодировка) определяет набор символов и сопоставленных им двоичных числовых значений. Иными словами, кодировка определяет, как отобразить текст пользователю. Например, имеем мы в памяти устройства текстовые данные в виде: 01110100011001010111100001110100, при считывании их программой(например, блокнотом), применяем к ним кодировку ASCII(базовый набор английских символов) и получаем на экране: text.
Т.е., 01110100011001010111100001110100 + ASCII = text.
Это грубое описание принципа хранения и отображения текстовой информации.

Восстановление исходного текста

Первое: не любой текст можно восстановить. Когда текстовый редактор (браузер и т.д.) не может найти символ, соответствующий числовому представлению символа в памяти, то вместо него он подставляет любой другой, наиболее соответствующий по его мнению эквивалент. Обычно это вопросительный знак. Если вы видите кракозябры, вроде: ????????? ? ??????? или ���Ï�â�/�Å���Á��[�, то такой текст путем простого копирования скорее всего восстановить не получится. В этом случае может потребоваться участие пользователя в поиске реверсных ключей через реверсную базу, представляющую своеобразный кэш снимков битых вариантов исходного текста с фиксированными состояниями перехода значений пар кодировок и с ссылкой на текст оригинала. Однако, если у вас есть исходный файл с битым текстом и вы не редактировали / пересохраняли его в таком виде, то восстановление текста еще возможно.

Заключение

Текстовый декодер является полностью бесплатной программой. Как и любой другой программе ему присущи свои недостатки: автор будет вам благодарен, если вы их заметив, сообщите о них, для последующего устранения.
Хорошего вам настроения и пусть кракозябры обходят вас стороной!)

Copyright © 2016 Alexpad.com All Rights Reserved