Html escape что это

Обновлено: 05.07.2024

Устаревший метод escape() возвращает новую строку, в которой определённые символы заменены шестнадцатеричной управляющей последовательностью. Используйте методы encodeURI или encodeURIComponent вместо него.

Описание

Функция escape() является свойством глобального объекта, т.е. относится к глобальным функциям. Эта функция кодирует специальные символы , за исключением : @*_+-./

The hexadecimal form for characters, whose code unit value is 0xFF or less, is a two-digit escape sequence: %xx. For characters with a greater code unit, the four-digit format %uxxxx is used.

Escape-последовательности и числовые нотации в PHP


Многие современные языки программирования поддерживают различные способы использования различных символов, таких как обычные английские латинские буквы, числа, символы, эмодзи и различные специальные символы, такие как символ новой строки или символ табуляции.

Большинство символов можно просто набрать с клавиатуры и использовать в коде PHP в их исходном виде. Например, $string = "php.watch" - это полностью допустимая строка в PHP, а $num = 42 - допустимое число. Также можно использовать многобайтные символы (для хранения которых требуется более одного байта), например, этот совершенно допустимый эмодзи: $emoji = "?" .

PHP, наряду со многими другими языками программирования, поддерживает определенное количество escape-последовательностей для использования различных символов, которые не могут быть набраны с обычной клавиатуры, не могут быть представлены в текстовой форме (например, невидимые символы или различные управляющие символы) или иным образом не считываются. Эти символы используют escape-последовательности, которые распознает PHP.

Что касается чисел, PHP поддерживает стандартные десятичные числа, но также может использовать и другие нотиции, такие как двоичное, восьмеричное, шестнадцатеричное и даже научное (scientific) представление. Они могут сделать код более читаемым и понятным в зависимости от контекста.

Двойные кавычки и Heredoc

В PHP строка с двойными кавычками ( "string" ) или Heredoc (смотрите ниже) поддерживает escape-последовательности и интерполяцию переменных.

PHP будет пытаться интерполировать переменные, если строковый литерал находится внутри строки с двойными кавычками или Heredoc.

Альтернативно (и желательно) интерполируемые переменные могут быть выделены фигурными скобками, так они будут выглядеть более удобочитаемыми:

Строки в одинарных кавычках ( 'string' ) и синтаксис Nowdoc не интерполируют переменные:

Только строки в двойных кавычках и Heredoc поддерживают escape-символы.

Экранирование символов

Поскольку PHP интерпретирует и интерполирует специальные символы внутри строковых литералов в двойных кавычках и heredoc, знак обратной косой черты ( \ ) используется как «escape-символ».

Например, использование \$name вместо $name не даст PHP интерполировать переменную $name .

Использование второго символа обратной косой черты предотвращает преобразование первого символа обратной косой черты в escape-символ.

PHP поддерживает несколько специальных escape-последовательностей для специальных символов. В приведенном выше примере \$ считается escape-последовательностью, потому что он отменяет интерполяцию PHP, заставляя PHP буквально использовать символ $ .

Символы табуляции: \t и \v

Возможно, самые простой из управляющих символов - это символ табуляции. Символ табуляции (по нажатию клавиши tab) можно использовать внутри строкового литерала, но использование \t вместо визуального пропуска делает его наглядным. Использование \t вместо буквального символа табуляции также позволяет избежать автоматической замены символов табуляции на пробелы в различных IDE.

\v - это вертикальная табуляция. На поддерживаемых терминалах символ вертикальной табуляции переходит к следующему символу в следующей строке:

Новые строки: \r и \n

\r («возврат каретки») и \n («перевод строки») являются символами новой строки.

Исторически так сложилось, что различные системы начали использовать либо \r , либо \n , и даже Windows использует \r\n . Например, Linux и MacOS по умолчанию используют символ «перевода строки» ( \n ) в качестве символа новой строки, тогда как Windows использует комбинацию \r\n (возврат каретки, за которым следует перевод строки). Старые системы MacOS использовали в качестве символа новой строки \r .

PHP имеет константу PHP_EOL , которая всегда ссылается на системный символ новой строки.

Escape-символ: \e

Escape-символы часто используется для отправки управляющих последовательностей ANSI в терминал. Например, \e , за которым следует [32m , указывает терминалу изменить цвет на зеленый, а [33m - на желтый.

Если приведенный выше фрагмент выполняется в терминале, который поддерживает управляющие последовательности ANSI, он интерпретирует его и изменяет текст:


Символ новой страницы: \f

Символ новой страницы - это управляющий символ ASCII для обозначения конца страницы. С его помощью принтеры могут вывести текущую страницу и начать с верхней части следующей. Когда \f передается на дисплейный терминал, он может результировать в очистке экрана, хотя это очень редкое поведение для большинства программ эмуляции терминала.

Восьмеричные escape-последовательности символов ASCII

PHP поддерживает экранирование восьмеричного числа в его соответствующий ASCII символ.

Например, ASCII символ P равен 80 в десятичной системе (смотрите диаграмму). 80 из десятичной системы счисления в переводе в восьмеричную - 120 .

Для символа P можно использовать восьмеричную escape-последовательность:

Любой базовый символ ASCII можно представить с помощью такой записи:

Любое значение в диапазоне от \0 до \377 будет интерпретироваться как восьмеричная escape-последовательность ASCII символа.

Обратите внимание, что числа для расширенных символов ASCII (от 128 до 255) несовместимы с UTF-8. PHP считает значение 128 (восьмеричное: 200 ; шестнадцатеричное: 80 ) недопустимым, поскольку оно не является допустимым значением UTF-8.

Хотя PHP принимает такие значения, они считаются недопустимыми символами в контексте UTF-8.

Шестнадцатеричные escape-последовательности символов ASCII

Подобно восьмеричным escape-последовательностям символов, PHP также допускает использование шестнадцатеричных чисел в escape-последовательности символов с префиксом \x .

Допускается только один байт, что подразумевает допустимый диапазон от x0 до xFF . Однако ограничение UTF-8 по-прежнему присутствует, и только значения до x80 будут считаться допустимыми символами.

Кроме того, шестнадцатеричные символы не чувствительны к регистру (т.е. AF равно af и aF ).

ASCII P - 80, что равно x50 :

Тот же "PHP.Watch" пример можно переписать с помощью шестнадцатеричных escape-последовательностей:

Escape-последовательности символов Unicode

PHP поддерживает использование любого Unicode символа с префиксом \u и шестнадцатеричным значением code point внутри фигурных скобок.

PHP выдаст ошибку парсера, если символ Unicode превышает значение 10FFFF :

10FFFF является верхним пределом, потому что спецификация UTF-8 объявляет диапазон от U+0000 до U+10FFFF .

В предыдущей версии этой статьи верхний предел неверно упоминался как FFFFF , что было исправлено на 10FFFF . Спасибо Саре Големон за то, что она указала на это.

Форму записи Unicode \u<> можно использовать качестве escape-последовательности для любого символа. Вот несколько примеров:

My escape(html)

Изучаю Django по-маленьку, посредством создания движка для блога. Появилась проблема вывода пользовательского контента, т.е. его экранирования. Написал свою функцию. Имея кое-какой опыт в создании контента для разных сайтов с разной идеологий экранирования пользовательских данных (скорее отрицательный, в основном сайты просят делать лишнюю работу), у меня выработалась философия.

Замечание. В моём блоге в базе всегда хранится никак не обработанный оригинал пользовательского ввода. Задача функции — сделать из этого ввода html, пригодный для отображения. В простейшем случае функция может вызываться во время отображении контента (в шаблоне или view). Для улучшения производительности можно завести отдельное поле в базе, которое будет результатом работы функции экранирования, и будет обновляться во время обновления контента.

  • Это первооснова — любые пользовательские данные изначально считаются невалидными. Поэтому всё что не разрешено будет экранироваться.
  • Минимум работы для пользователя. Если я хочу написать конструкцию с угловыми скобками, я буду писать угловые скобки, а не буду думать о "& lt;" и т.д. Функция сама преобразует неправильные символы.
  • Тем не менее можно использовать некоторые тэги. Какие — задаётся параметром функции, или используется набор по-умолчанию. У каждого тэга есть набор валидных атрибутов. Функция будет оставлять валидные тэги и валидные атрибуты. Невалидные атрибуты будут просто удаляться из вывода, невалидные тэги будут экранироваться.
  • Следуя первооснове (и здравому смыслу) — незакрытые тэги будут автоматически закрываться. Закрывающие тэги без открывающих будут экранироваться.
  • Блог задумывается ориентированным на программерскую тематику, т.е. в блоге будут куски кода. Эти куски должны экранироваться целиком (это будет кусок кода, любого, хоть html). Для этого есть тэги <pre><code[ ]>. </code></pre>. Я ориентировался на библиотеку подсветки кода highlight.js, она использует именно такой формат обрамления кода. Всё что находится внутри этого блока будет экранировано целиком. И подсвечено.
  • Я люблю колобков :) Поэтому функция должна опционально заменять смайлы на изображения.
  • Что бы пользователям не учить эту новую разметку.
  • Что бы текст поста был максимально «стандартным» (html) и переносимым. Копи-пастим оригинальный текст поста, экранируем участки с кодом, вставляем в другой блог — он корректно отображается.

My escape(html)

Изучаю Django по-маленьку, посредством создания движка для блога. Появилась проблема вывода пользовательского контента, т.е. его экранирования. Написал свою функцию. Имея кое-какой опыт в создании контента для разных сайтов с разной идеологий экранирования пользовательских данных (скорее отрицательный, в основном сайты просят делать лишнюю работу), у меня выработалась философия.

Замечание. В моём блоге в базе всегда хранится никак не обработанный оригинал пользовательского ввода. Задача функции — сделать из этого ввода html, пригодный для отображения. В простейшем случае функция может вызываться во время отображении контента (в шаблоне или view). Для улучшения производительности можно завести отдельное поле в базе, которое будет результатом работы функции экранирования, и будет обновляться во время обновления контента.

  • Это первооснова — любые пользовательские данные изначально считаются невалидными. Поэтому всё что не разрешено будет экранироваться.
  • Минимум работы для пользователя. Если я хочу написать конструкцию с угловыми скобками, я буду писать угловые скобки, а не буду думать о "& lt;" и т.д. Функция сама преобразует неправильные символы.
  • Тем не менее можно использовать некоторые тэги. Какие — задаётся параметром функции, или используется набор по-умолчанию. У каждого тэга есть набор валидных атрибутов. Функция будет оставлять валидные тэги и валидные атрибуты. Невалидные атрибуты будут просто удаляться из вывода, невалидные тэги будут экранироваться.
  • Следуя первооснове (и здравому смыслу) — незакрытые тэги будут автоматически закрываться. Закрывающие тэги без открывающих будут экранироваться.
  • Блог задумывается ориентированным на программерскую тематику, т.е. в блоге будут куски кода. Эти куски должны экранироваться целиком (это будет кусок кода, любого, хоть html). Для этого есть тэги <pre><code[ ]>. </code></pre>. Я ориентировался на библиотеку подсветки кода highlight.js, она использует именно такой формат обрамления кода. Всё что находится внутри этого блока будет экранировано целиком. И подсвечено.
  • Я люблю колобков :) Поэтому функция должна опционально заменять смайлы на изображения.
  • Что бы пользователям не учить эту новую разметку.
  • Что бы текст поста был максимально «стандартным» (html) и переносимым. Копи-пастим оригинальный текст поста, экранируем участки с кодом, вставляем в другой блог — он корректно отображается.

Синтаксис

Параметры

Читайте также: