Стиль декодирования содержание указатель « »
Стиль декодирования характеризуется следующими свойствами:
• | Название стиля - появляется в списке стилей на панели инструментов главного окна |
Некоторые из следующих опций взаимоисключаемые: |
|
• | Поиск фрагментов - при декодировании в тексте ищутся фрагменты в разной кодировке, если не выделено, то считается, что весь текст закодирован однородно. |
• | Турбо-режим - убыстряет проверку текстов, но может не дать никакого результата, если текст слишком подпорчен, в то время как выключение турбо-режима может выдать хоть сколько-нибудь читаемый результат. |
• | Ограничение длины - способ декодирования текста определяется по ограниченному количеству слов в начале текста, что убыстряет проверку текстов, но может привести к неправильному результату, если текст неоднороден. |
Схемы перекодирования, используемые при декодировании: |
|
• | Полные - перекодируются все одинаковые для двух кодовых страниц символы (например, русские буквы, псевдографика и еще некоторые символы для DOS и KOI). Остальные символы остаются как были. |
• | Частичные - перекодируются только русские буквы, остальные символы остаются, как были. |
• | Странные - схемы, взятые из некоторых программ (если они существуют, то тексты могут быть перекодированы именно таким образом). В этом случае перекодируются русские буквы, а остальные переходят на оставшиеся свободными позиции. Единственное достоинство таких схем - обратимость. |
При декодировании Штирлиц не использует эти схемы напрямую, а вычисляет, каким должен был быть текст, если к нему применили одну из этих схем, или несколько схем последовательно, и получился исследуемый результат. | |
Параметры, ограничивающие поиск пути декодирования: |
|
• | Строгость - регулирует, насколько читаемым должен быть текст, чтобы прервать поиски пути декодирования. |
• | Максимальная глубина - Устанавливает максимальное число вложений (иными словами, длина пути декодирования) смешанных кодировок, которые программа будет проверять. Для обычных текстов глубина около 3 вполне достаточна. В любом случае, найдя подходящее преобразование, программа прерывает процесс распознавания или можно его прервать принудительно. |
• | Максимальное время - количество секунд, в течение которых программа будет искать путь декодирования. По истечении этого времени процесс декодирования прерывается. Естественно, он также прерывается, если программа найдет подходящий путь декодирования раньше этого времени. |
Дополнительные возможности декодирования позволяют декодировать тексты, полученные с помощью преобразований, отличных от перевода из одной кодовой страницы в другую. Перед выполнением всех преобразований проверяется, могут ли они быть применены. |
|
• | HTML -> Txt, HTML -> Rtf - позволяют переводить файлы в формате HTML в обычный текст или в текст с форматированием. |
• | Lat -> Cyr - переводит транслитерированный текст в кириллический текст, используя схемы транслитерации. Эта операция производится над текстом только если в декодируемом тексте нет символов из второй половины таблицы ASCII (с кодами выше 127) |
• | Quoted Printable - преобразует текст из вида =E0, %E0 и т.д. в обычный текст. Эта опция включает также распознавание объектов HTML (entities) типа À или À. |
• | Utf-7 - Переводит тексты из формата UTF-7 в обычный текст. UTF-7 - формат передачи Unicode - текстов с помощью 7-битных печатных символов, например, «Штирлиц» кодируется как «+BCgEQgQ4BEAEOwQ4BEY» |
• | Utf-8 - Переводит тексты из формата UTF-8. в обычный текст. UTF-8. - формат передачи Unicode - текстов с помощью 8-битных печатных символов. Характеризуется тем, что нечетные символы в словах обычно бывают одними и теми же двумя символами, например, «Штирлиц» в UTF-8 выглядит как «РЁС‚РёСЂР»РёС†» Поскольку этот формат подвержен перекодированию из одной кодовой страницы в другую, очень часто встречается «испорченный UTF-8». В Штирлице предусмотрено декодирование испорченного UTF-8. |
• | Base64, XX encode, UU encode, BinHex, BtoA - 7-битные методы кодирования как текста, так и бинарных файлов, при котором файл представляется символами, которые можно передавать в теле письма по электронной почте. При установленных флажках в тексте ищутся фрагменты этих кодировок, не менее 40-байтного фрагмента. Если такие фрагменты обнаруживаются, они декодируются. Для всех методов заголовки необязательны, хотя и желательны для определения имени файла и целостности CRC, где это предусмотрено. Для BtoA необходимо наличие заключительной части. |
• | В текст - при установленном флажке результат всех вышеперечисленных 7-битных кодировок проверяется на присутствие в нем текста. Если проверка завершается успешно, полученный текст заменяет исходный. Иначе рядом с окном редактирования появляется кнопка, с помощью которой можно манипулировать полученными в результате декодирования данными (сохранить как файл, открыть в окне, открыть файл программой, ассоциированной с данным расширением файла и т.д.) |