Как преобразовать кириллическую строку из UTF-8 в cp1251

26.10.2014 | Категория: Образ мышления: Assembler | Автор: ManHunter

Как преобразовать кириллическую строку из UTF-8 в cp1251

При разработке одной программы мне понадобилось преобразовать строки на русском языке из формата UTF-8 в формат cp1251. Внезапно выяснилось, что никакие средства WinAPI не позволяются выполнить эту операцию "одной строкой". Пришлось рассматривать даже варианты с табличным преобразованием, но потом нашлось более простое решение задачи. Алгоритм преобразования получился необычный, но зато гарантированно рабочий. Может быть это поможет сохранить время и нервы кому-нибудь еще.

Для начала вспомогательная функция, которая проверяет, является ли строка кириллической строкой в формате UTF-8. В ней должны быть только однобайтовые символы из первой половины таблицы ASCII и двухбайтовые символы, соответствующие русским буквам. Нулевой символ - признак окончания строки, длина строки значения не имеет.

Code (Assembler) : Убрать нумерацию

;--------------------------------------------------------
; Проверка строки на соответствие формату
; кириллического UTF-8
;--------------------------------------------------------
; Символы [0x00-0x7F] или двухсимвольные конструкции
; вида 0xD0[0x81|0x90-0xBF] или 0xD1[0x91|0x80-0x8F]
;--------------------------------------------------------
; На выходе:
; EAX = 1 - строка соответствует UTF-8
; EAX = 0 - строка не соответствует формату
;--------------------------------------------------------
proc is_utf8 tstr:DWORD
push esi ebx
mov esi,[tstr]
; По умолчанию строка соответствует формату
mov ebx,1
.loc_scan:
lodsb
; Окончание строки?
or al,al
jz .loc_ret
; Проверка символов [0x00-0x7F]
cmp al,07Fh
jbe .loc_scan
; Проверка двухсимвольной конструкции
; 0xD0[0x81|0x90-0xBF]
cmp al,0D0h
jne @f
lodsb
cmp al,81h
je .loc_scan
cmp al,90h
jb .loc_fail
cmp al,0BFh
ja .loc_fail
jmp .loc_scan
@@:
; Проверка двухсимвольной конструкции
; 0xD1[0x91|0x80-0x8F]
cmp al,0D1h
jne .loc_fail
lodsb
cmp al,91h
je .loc_scan
cmp al,80h
jb .loc_fail
cmp al,8Fh
jbe .loc_scan
.loc_fail:
; Строка не соответствует формату
xor ebx,ebx
.loc_ret:
mov eax,ebx
pop ebx esi
ret
endp

И еще одна аналогичная функция для наиболее точной и глубокой проверки соответствия строки формату UTF-8. Корректно обрабатывает даже битые строки, которые теоретически может пропустить предыдущая функция.

Code (Assembler) : Убрать нумерацию

;--------------------------------------------------------
; Проверка строки на соответствие формату UTF-8
;--------------------------------------------------------
; На входе:
; lpStr - указатель на проверяемую строку
;--------------------------------------------------------
; На выходе:
; EAX = 1 - строка соответствует UTF-8
; EAX = 0 - строка не соответствует формату
;--------------------------------------------------------
proc is_valid_utf8 lpStr:DWORD
locals
cp dd ?
num dd ?
endl
push esi ebx ecx
mov esi,[lpStr]
; По умолчанию строка соответствует формату
mov ebx,1
.loc_scan:
lodsb
; Окончание строки?
or al,al
jz .loc_ret
; U+0000 to U+007F
mov ah,al
and ah,0x80
or ah,ah
jnz @f
and al,0x7F
movzx eax,al
mov [cp],eax
mov [num],1
jmp .loc_check
@@:
; U+0080 to U+07FF
mov ah,al
and ah,0xE0
cmp ah,0xC0
jne @f
and al,0x1F
movzx eax,al
mov [cp],eax
mov [num],2
jmp .loc_check
@@:
; U+0800 to U+FFFF
mov ah,al
and ah,0xF0
cmp ah,0xE0
jne @f
and al,0x0F
movzx eax,al
mov [cp],eax
mov [num],3
jmp .loc_check
@@:
; U+10000 to U+10FFFF
mov ah,al
and ah,0xF8
cmp ah,0xF0
jne @f
and al,0x07
movzx eax,al
mov [cp],eax
mov [num],4
jmp .loc_check
@@:
jmp .loc_fail
.loc_check:
mov ecx,[num]
@@:
dec ecx
or ecx,ecx
jz @f
lodsb
mov ah,al
and ah,0xC0
cmp ah,0x80
jne .loc_fail
shl [cp],6
and al,0x3F
movzx eax,al
or [cp],eax
jmp @b
@@:
; (cp > 0x10FFFF)
cmp [cp],0x10FFFF
ja .loc_fail
; (cp >= 0xD800) && (cp <= 0xDFFF)
cmp [cp],0xD800
jb @f
cmp [cp],0xDFFF
jbe .loc_fail
@@:
; (cp <= 0x007F) && (num != 1)
cmp [cp],0x007F
ja @f
cmp [num],1
jne .loc_fail
@@:
; (cp >= 0x0080) && (cp <= 0x07FF) && (num != 2)
cmp [cp],0x0080
jb @f
cmp [cp],0x07FF
ja @f
cmp [num],2
jne .loc_fail
@@:
; (cp >= 0x0800) && (cp <= 0xFFFF) && (num != 3)
cmp [cp],0x0800
jb @f
cmp [cp],0xFFFF
ja @f
cmp [num],3
jne .loc_fail
@@:
; (cp >= 0x10000) && (cp <= 0x1FFFFF) && (num != 4)
cmp [cp],0x10000
jb @f
cmp [cp],0x1FFFFF
ja @f
cmp [num],4
jne .loc_fail
@@:
jmp .loc_scan
.loc_fail:
; Строка не соответствует формату
xor ebx,ebx
.loc_ret:
mov eax,ebx
pop ecx ebx esi
ret
endp

Чтобы не плодить сущности, покажу еще маленький код для определения, что текст записан в кодировке Unicode. Для этого используется штатная функция IsTextUnicode. Про совместимость переживать не стоит, она доступна аж с Windows 2000.

Code (Assembler) : Убрать нумерацию

IS_TEXT_UNICODE_UNICODE_MASK = 0x000F
; Тестируемый формат строки
mov [tmp],IS_TEXT_UNICODE_UNICODE_MASK
invoke IsTextUnicode,test_string,string_len,tmp
; EAX = 1 - строка соответствует формату
; EAX = 0 - проверка не пройдена

Теперь пример кода для преобразования строки из UTF-8 в cp1251. Фишка заключается в том, что здесь используется промежуточный шаг с преобразованием UTF-8 в UTF-16 через функцию MultiByteToWideChar, и только после этого полученная промежуточная строка из UTF-16 преобразуется в cp1251 при помощи функции WideCharToMultiByte. Извратно, конечно, но зато работает.

Code (Assembler) : Убрать нумерацию

; Получить нужную длину строки для конвертирования
invoke MultiByteToWideChar,CP_UTF8,0,str8,-1,0,0
or eax,eax
; Конвертировать строку невозможно
jz can_not_convert
; Промежуточное конвертирование UTF-8 -> UTF-16
invoke MultiByteToWideChar,CP_UTF8,0,str8,-1,buff16,eax
; Получить нужную длину строки для конвертирования
invoke WideCharToMultiByte,1251,0,buff16,-1,0,0,0,0
or eax,eax
; Конвертировать строку невозможно
jz can_not_convert
; Финальное конвертирование UTF-16 -> cp1251
invoke WideCharToMultiByte,1251,0,buff16,-1,str1251,eax,0,0
successfully_converted:
; str1251 = отконвертированная строка
...
can_not_convert:
; Конвертировать строку невозможно
...

На каждом этапе конвертирования выполняется дополнительная проверка на возможность преобразования. Если расчетная длина строки получается нулевая, значит преобразовать строку по какой-то причине нельзя. Это не отменяет использование описанной выше функции проверки на соответствие строки формату UTF-8.

Корме описанных выше, в системе есть еще несколько функций для преобразования строк из одной кодировки в другую. Например, для преобразования из UTF-8 в UTF-16 можно воспользоваться следующим кодом. Тут используется недокументированная функция SHAnsiToUnicodeCP из библиотеки shlwapi.dll. По имени эта функция не экспортируется, надо получать ее адрес вручную по ординалу 216:

Code (Assembler) : Убрать нумерацию

; Загрузить библиотеку shlwapi.dll
invoke LoadLibrary,szLib
; Получить адрес функции SHAnsiToUnicodeCP
invoke GetProcAddress,eax,216
stdcall eax,CP_UTF8,str8,buff16,255

Для преобразования строки из UTF-16 в cp1251 также есть альтернативные функции, например, RtlUnicodeStringToAnsiString. Она используется следующим образом:

Code (Assembler) : Убрать нумерацию

struct ANSI_STRING
Length dw ?
MaximumLength dw ?
Buffer dd ?
ends
struct UNICODE_STRING
Length dw ?
MaximumLength dw ?
Buffer dd ?
ends
ansi ANSI_STRING
unic UNICODE_STRING
invoke RtlInitAnsiString,ansi,str1251
invoke RtlInitUnicodeString,unic,str16
mov [ansi.MaximumLength],255
invoke RtlUnicodeStringToAnsiString,ansi,unic,FALSE

Или функция SHUnicodeToAnsi, более короткая для записи и гораздо более удобная в использовании.

Code (Assembler) : Убрать нумерацию

invoke SHUnicodeToAnsi,str16,str1251,100h

Или недокументированная функция SHUnicodeToAnsiCP, которая загружается по ординалу 218 из библиотеки shlwapi.dll.

Code (Assembler) : Убрать нумерацию

; Загрузить библиотеку shlwapi.dll
invoke LoadLibrary,szLib
; Получить адрес функции SHUnicodeToAnsiCP
invoke GetProcAddress,eax,218
stdcall eax,1251,str16,str1251,255

В приложении пример программы с исходным текстом, которая конвертирует строки из кодировки UTF-8 в cp1251.

Пример программы с исходным текстом (FASM)

UTF8.cp1251.Demo.zip (2,256 bytes)

Просмотров: 9612 | Комментариев: 10

Метки: Assembler, полезные функции

Внимание! Статья опубликована больше года назад, информация могла устареть!

brute, какой это "32 разрядный mov"? На 64 битах этой команды нет, по вашему? Про функцию вообще промолчу, могу сказать только то, что ваш образ мышления уж явно не Ассемблер.

ManHunter, спасибо, пригодится.

ManHunter (28.10.2014 в 10:35):

Все равно в нормальном софте придется делать обратную совместимость как минимум до WinXP

brute (28.10.2014 в 06:34):

Круто! но я бы искал какую-нибудь сишную библиотеку, чтобы заинклудить нужную функцию. Она наверняка эффективнее, чем "старый" 32 разнрядный "mov". П.С. слышал, что в W7 и W8 появилось много новых api-функций, в том числе есть и новые строковые..

Добавить комментарий

Заполните форму для добавления комментария

Если программист в девять утра уже на работе, значит он там же и ночевал

Главная страница Web-мастеру и не только Образ мышления: Assembler Мои программы Software Темная сторона Силы Обзоры техники А еще я туда ем! Жизнь в оффлайне Всякая всячина

Карта сайта Ссылки Обратная связь Правила сайта Настройки сайта RSS-канал

Материалы, опубликованные на этом сайте, не рекомендуются к просмотру лицам в возрасте до 16 лет без присутствия взрослых.

Метки статей

Свернуть

Вам помог этот сайт?

Поблагодарили 34,326 раз

Национальный день донора крови

Всемирный день цирка

Нашли на сайте орфографическую ошибку? Выделите ее мышкой и нажмите

Ctrl

Enter

Буду очень благодарен, если размеcтите мою кнопочку:

<a href="https://www.manhunter.ru" target="_blank"><img src="https://www.manhunter.ru/images/button.gif" alt="Личный блог ManHunter'а" title="Личный блог ManHunter'а" width="88" height="31" /></a>

$Яндекс тИЦ: {YANDEX_TIC}$

Яндекс ИКС: 380

Сейчас я слушаю

---

- автообновление

Powered by PCL's Speckled Band Engine 0.2 RC3
© ManHunter / PCL, 2008-2024
При использовании материалов ссылка на сайт обязательна
Время генерации: 0.08 сек. / MySQL: 2 (0.0064 сек.) / Память: 4.5 Mb

	2024 - АПРЕЛЬ
Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Как преобразовать кириллическую строку из UTF-8 в cp1251

Комментарии

Добавить комментарий