Blog. Just Blog

Быстрый поиск

Введите фрагмент названия статьи для поиска

Функция транслитерации русского текста на PHP

26.11.2014 | Категория: Web-мастеру и не только | Автор: ManHunter
Слово "транслитерация" происходит от латинского "transliteratus" ("trans" - "изменение" и "littera" - "буква"). Это метод представления букв одной системы письма либо алфавита буквами другой системы. В быту транслитерация получила широкое распространение для написания SMS в эпоху нерусифицированных сотовых телефонов и для набора текстов на нерусифицированных компьютерах. В Web-строительстве транслитерация обычно используется для создания красивых ЧПУ из заголовков статей и для переименования файлов при их загрузке на сервер.

В интернете немало подобных функций на PHP, но они все имеют общий недостаток: преобразования выполняются посимвольно согласно таблице символов замены, при этом заглавные буквы преобразуются без учета их положения в тексте. Для одиночных заглавных букв это не имеет значения, но буквы, транслитерируемые в два и более символа, в этом случае преобразуются с ошибкой. Поясню на примере. Преобразуем в транслит с простой заменой слова "Япония" и "ЮАР", получится "Yaponiya" и "YuAR". Первое слово нормально, а вот аббревиатура исказилась, ведь должно быть "YUAR". Я написал свою функцию транслитерации, которая учитывает местоположение таких составных букв и, в зависимости от этого, преобразует их в последовательность заглавных или только одну заглавную и строчные буквы. Набор символов в таблице транслитерации у меня отличается от ГОСТ 7.79-2000 "Правила транслитерации кирилловского письма латинским алфавитом", если вам потребуется строгое соответствие, то можете доработать функцию самостоятельно.
  1. //----------------------------------------------------------------------
  2. // Перевод кириллической строки в транслит и исправление умляутов
  3. //----------------------------------------------------------------------
  4. function translit($str$fix_umlauts=false) {
  5.     // Установить опции и кодировку регулярных выражений
  6.     mb_regex_set_options('pd');
  7.     mb_internal_encoding('UTF-8');
  8.  
  9.     // Привести строку к UTF-8
  10.     if (strtolower(mb_detect_encoding($str,
  11.         'utf-8, windows-1251'))=='windows-1251') {
  12.         $str=mb_convert_encoding($str'utf-8''windows-1251');
  13.     }
  14.  
  15.     // Регулярки для удобства
  16.     $regexp1='(?=[A-Z0-9А-Я])';
  17.     $regexp2='(?<=[A-Z0-9А-Я])';
  18.  
  19.     // Массивы для замены заглавных букв, идущих последовательно
  20.     $rus=array(
  21.         '/(Ё'.$regexp1.')|('.$regexp2.'Ё)/u',
  22.         '/(Ж'.$regexp1.')|('.$regexp2.'Ж)/u',
  23.         '/(Ч'.$regexp1.')|('.$regexp2.'Ч)/u',
  24.         '/(Ш'.$regexp1.')|('.$regexp2.'Ш)/u',
  25.         '/(Щ'.$regexp1.')|('.$regexp2.'Щ)/u',
  26.         '/(Ю'.$regexp1.')|('.$regexp2.'Ю)/u',
  27.         '/(Я'.$regexp1.')|('.$regexp2.'Я)/u'
  28.     );
  29.  
  30.     $eng=array(
  31.         'YO','ZH','CH','SH','SCH','YU','YA'
  32.     );
  33.  
  34.     // Заменить заглавные буквы, идущие последовательно
  35.     $str=preg_replace($rus,$eng,$str);
  36.  
  37.     // Массивы для замены одиночных заглавных и строчных букв
  38.     $rus=array(
  39.         '/а/u','/б/u','/в/u','/г/u','/д/u','/е/u','/ё/u',
  40.         '/ж/u','/з/u','/и/u','/й/u','/к/u','/л/u','/м/u',
  41.         '/н/u','/о/u','/п/u','/р/u','/с/u','/т/u','/у/u',
  42.         '/ф/u','/х/u','/ц/u','/ч/u','/ш/u','/щ/u','/ъ/u',
  43.         '/ы/u','/ь/u','/э/u','/ю/u','/я/u',
  44.  
  45.         '/А/u','/Б/u','/В/u','/Г/u','/Д/u','/Е/u','/Ё/u',
  46.         '/Ж/u','/З/u','/И/u','/Й/u','/К/u','/Л/u','/М/u',
  47.         '/Н/u','/О/u','/П/u','/Р/u','/С/u','/Т/u','/У/u',
  48.         '/Ф/u','/Х/u','/Ц/u','/Ч/u','/Ш/u','/Щ/u','/Ъ/u',
  49.         '/Ы/u','/Ь/u','/Э/u','/Ю/u','/Я/u'
  50.     );
  51.  
  52.     $eng=array(
  53.         'a','b','v','g','d','e','yo',
  54.         'zh','z','i','y','k','l','m',
  55.         'n','o','p','r','s','t','u',
  56.         'f','h','c','ch','sh','sch','',
  57.         'i','','e','yu','ya',
  58.  
  59.         'A','B','V','G','D','E','Yo',
  60.         'Zh','Z','I','Y','K','L','M',
  61.         'N','O','P','R','S','T','U',
  62.         'F','H','C','Ch','Sh','Sch','',
  63.         'I','','E','Yu','Ya'
  64.     );
  65.  
  66.     // Заменить оставшиеся заглавные и строчные буквы
  67.     $str=preg_replace($rus,$eng,$str);
  68.  
  69.     // Исправление умляутов и других надсимвольных значков
  70.     if ($fix_umlauts) {
  71.         $str=preg_replace('/&(.)(tilde|uml);/',"$1",
  72.              mb_convert_encoding($str,'HTML-ENTITIES','utf-8'));
  73.     }
  74.  
  75.     return $str;
  76. }
Кроме транслитерации функция исправляет в строке тильды и умляуты, оставляя базовые латинские буквы. На входе первый параметр $str - кириллическая строка в кодировке UTF-8, которую надо транслитерировать. Второй параметр - флаг $fix_umlauts - требуется или нет исправлять умляуты и прочие надстрочные модификаторы символов, по умолчанию значение false. На выходе - преобразованная строка.

Читать статью целиком »
Просмотров: 7347 | Комментариев: 6

Обработка и эмуляция мультимедийных кнопок клавиатуры

22.11.2014 | Категория: Образ мышления: Assembler | Автор: ManHunter

Обработка и эмуляция мультимедийных кнопок клавиатуры

Практически все современные клавиатуры имеют несколько специальных, так называемых мультимедийных кнопок для управления громкостью звука, навигацией браузера, плеером, запуска почтовой программы или калькулятора и так далее. Их количество и функционал зависит от производителя и модели клавиатуры. Особенностью этих кнопок является то, что при нажатии они не генерируют скан-кодов, не порождают события типа WM_KEYDOWN, не отслеживаются в полях ввода типа msctls_hotkey32.

Читать статью целиком »
Просмотров: 8869 | Комментариев: 8

Исследование защиты программы EasyBoot

17.11.2014 | Категория: Темная сторона Силы | Автор: ManHunter

Скриншот программы EasyBoot

EZB Systems EasyBoot - очень мощная программа для создания мультизагрузочных CD/DVD дисков. Я с помощью Easyboot делал для себя "реанимационный" диск с Windows XP, на котором был дистрибутив системы, различные программы для сброса пароля, работающие при загрузке с дискеты, аварийная дискета с MS-DOS и другие полезные утилиты для восстановления системы. Неудивительно, что за такой мощный инструмент разработчики просят денег, в принципе, я даже готов их поддержать, но предпочитаю делать это морально.

Читать статью целиком »
Просмотров: 6451 | Комментариев: 9

Отпуск в Объединенных Арабских Эмиратах

16.11.2014 | Категория: Жизнь в оффлайне | Автор: ManHunter

Отпуск в Объединенных Арабских Эмиратах

В честь первого за год отдыха в составе семьи, мы с женой решили выбрать для себя какое-нибудь новое туристическое направление - Объединенные Арабские Эмираты. Мои неизменные благодарности сотрудникам компании "Горячие туры", как обычно взявшим на себя всю волокиту по оформлению виз и документов. Было прочитано множество отзывов туристов, изучены горы информации о самой стране, ее обычаях, законах и достопримечательностях. Что-то пригодилось, что-то нет, но обо всем по порядку.

Читать статью целиком »
Просмотров: 5966 | Комментариев: 12

Овсяное печенье с клюквой

07.11.2014 | Категория: А еще я туда ем! | Автор: ManHunter

Овсяное печенье с клюквой

В комментариях к кулинарному разделу меня неоднократно попрекали, что я выкладываю мало рецептов выпечки. Исправляя ситуацию, решил поэкспериментировать на тему моего любимого овсяного печенья. Вариантов этого рецепта множество, с разными пропорциями продуктов и разными ингредиентами, у меня будет овсяное печенье с клюквой.

Читать статью целиком »
Просмотров: 5860 | Комментариев: 4

01 ... 234 235 236 237 238 239 240 ... 401
Наверх
Powered by PCL's Speckled Band Engine 0.2 RC3
© ManHunter / PCL, 2008-2024
При использовании материалов ссылка на сайт обязательна
Время генерации: 0.13 сек. / MySQL: 2 (0.0391 сек.) / Память: 4.5 Mb
Наверх