문자 인코딩 요약
인코딩은 사용자가 입력한 문자나 기호를 컴퓨터에서 이해할 수 있는 바이너리 데이터로 변환하는 방법입니다.
Character Set
- 인코딩과 디코딩을 위해 미리 정해진 규칙
- 문자와 바이너리 데이터를 변환하는 코드표
주요 문자셋
- ASCII: 7비트, 128개 문자 (영어 중심)
- EBCDIC: IBM의 문자셋
- ANSI: 8비트, 256개 문자 (영어 외 언어 포함)
- Multibyte Encoding: 여러 바이트로 문자 표현
- UNICODE: 전 세계 문자를 하나의 표준 코드셋으로 표현
UNICODE
- 모든 문자를 하나의 문자셋으로 표현
- 인코딩 방식: UTF-8, UTF-16, UTF-32
문제점
- 다른 인코딩 방식의 프로그램 간에 호환성 문제 발생
EUC-KR
- 완성형 인코딩: 완성된 문자만 표현
- 2바이트 인코딩: 한글 1글자 = 2바이트