컴사랑의 이런 저런 이야기

알아두면 좋은 인코딩(유니코드, UTF-8/UTF-16, 퍼센트 인코딩(Percent encoding) 본문

유용한 프로그램/개발자

알아두면 좋은 인코딩(유니코드, UTF-8/UTF-16, 퍼센트 인코딩(Percent encoding)

comlover 2021. 4. 3. 15:59
반응형
SMALL

지난 번에 Base64 인코딩에 대해서 설명해드렸습니다.

Base64 인코딩(encoding)/디코딩(decoding)이란? (comlover.net)

 

Base64 인코딩(encoding)/디코딩(decoding)이란?

Base64 인코딩의 컨셉은 화면에 표시되지 않는 이진데이터(바이너리)를 출력 가능한 문자(ASCII)로 대체하는 것입니다. 64란 이름을 쓰는 이유는 이 변환에 사용되는 글자가 총 64개라서 그렇습니다.

comlover.net

 

그 외에도 웹 개발시 또는 디버깅시 알아두면 유용한 인코딩이 몇가지 있습니다.

보통 한글은 ASCII 만으로 표현이 안되어서 다양하게 처리하고 있습니다. 윈도우가 보통 채택하고 있는 EUC-KR 이란 방식도 있고, UTF란 방식도 있죠. UTF는 또 몇가지로 나뉘어서 UTF-8, UTF-16 등등으로 나뉩니다.

 

보통의 웹 브라우저들이 주소에 한글이 들어가면 UTF-8로 인코딩을 해서 처리합니다. 보통은 UTF로 처리를 하면 앞에 \u가 붙는 경우가 많은데, 웹 브라우저는 이런 경우를 퍼센트(%) 로 표시합니다. 이를 퍼센트 인코딩(Percent Encoding) 이라고 많이 부릅니다.

 

예를 들면 아래처럼요

 

"컴사랑입니다" 란 글자를 

UTF-16으로 처리하면 

\ucef4\uc0ac\ub791\uc785\ub2c8\ub2e4

 

UTF-8로 처리하면

\xec\xbb\xb4\xec\x82\xac\xeb\x9e\x91\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4

 

퍼센트 인코딩(Percent Encoding)으로 처리하면: 위 UTF-8과 같지만 \x 대신 %로 바뀐 것입니다.

%ec%bb%b4%ec%82%ac%eb%9e%91%ec%9e%85%eb%8b%88%eb%8b%a4

 

참고로 \x 는 해당 글자가 16진법이란 뜻입니다 \xec 는 16진법으로 "EC"란 뜻입니다.

 

이런 변환은 역시 코딩으로도 쉽게할 수 있지만 변환해 주는 사이트들도 역시 있습니다.

저는 아래 사이트를 자주 이용합니다.

 

www.branah.com/unicode-converter

 

Unicode Converter - Decimal, text, URL, and unicode converter

Convert Unicode characters in UTF-16, UTF-8, and UTF-32 formats to their Unicode and decimal representations and vice versa. In addition, percent encode/decode URL parameters. The converter happens automatically.

www.branah.com

 

혹시 변환이 필요할 때 참고하시면 좋겠네요.

반응형
LIST
Comments