병원이 1차(동네의원) 2차 3차(대학병원급)로 나뉘고, 재판소(법원)가 지방-고등-대 3계층으로 나뉘고..
금융기관도 제1 제2 제3(사채)으로 급이 나뉘고..
냉전 시절에 세계 나라들이 제1(자유진영), 제2(공산권), 제3(나머지 신흥 독립/중립국)으로 나뉘었다.

그런 것처럼 좀 뜬금없지만 세계 문자들을 얼추 3개 그룹으로 나눌 수 있겠다.

1.
제1군은 형태가 제일 단순한 풀어쓰기 음소문자들이다. 서양의 라틴 알파벳, 러시아 키릴, 그리스 문자 따위.
기계화하기에 제일 유리하다. 기계식 수동 타자기는 말할 것도 없고, 컴퓨터 기준으로도 1980년대 8비트 PC의 메모리와 속도, 디스플레이 해상도로도 모두 거뜬히 구현 가능했다. 극악의 저해상도 8*8 픽셀 블록으로도 표현 가능할 정도니까.

한글 풀어쓰기라든가 반각 가타카나는 더 복잡한 자국 문자를 최소한으로 변형해서 제1군처럼 처리하려 노력했던 흔적이다.
세벌식 쌍초점 타자기(+ 직결식 폰트)는.. 한글을 외형상 모아쓰기를 유지하면서 제1군처럼 처리하는 굉장히 획기적인 방법론을 구현했다.

2.
다음으로 제2군은 동아시아 한중일의 소위 '2바이트 문자'에 속하는 한글, 가나, 한자 같은 문자들이다.
제1군 문자보다 훨씬 더 뚱뚱해서 전/반각 구분이 필요하고, 실용적인 수준의 문자 집합 크기도 수천 자에 달한다. 문자의 크기 대비 디스플레이 해상도, 컴의 메모리와 속도, 입출력 오버헤드 등을 감안했을 때 8비트 컴으로는 감당이 안 되고 최소 '16비트' 정도는 필요하다. 입력을 위해 IME라는 소프트웨어 계층이 필요하다.

내 한글 입력기는 이런 고민 과정에서 개발이 시작됐다.
우리나라 자국 문자는 1군이 아니라 2군에 속하는데? 대문자나 바리에이션 문자가 없는 대신에 모아쓰기가 특징인데?
그렇다면 이 특성을 그저 "부담, 오버헤드, 짐, 단점이 아니라 개성과 특징, 장점으로 살릴 수 없을까..?"

컴퓨터라는 기계가 존재하고 한글이라는 문자가 존재한다면 그 사이에서 생각할 수 있는 미친짓은 다 할 수 있는 소프트웨어 기반을 만들었다. 최소한, 아이디어가 있는데 그걸 구현할 수 있는 프로그램이 없어서 못 쓴다는 말은 안 나오게 말이다.

왜 일본에서 무슨 영상물이나 물건 만든 걸 보면.. 장인정신에 창의적인 걸 넘어서 혀를 내두를 정도로 '쓸데없이 고퀄리티'스러운 게 많다.
"걔네들이 자국 문자가 한글이었다면 그 정신머리 근성으로 이런 입력기 정도 만들었을 것이다~~" 난 이걸 염두에 두고 프로그램을 만들었다. 근데 그런 짓을 현실의 일본인이 하지는 않을 테니까 한국인이 해야지.

(내 프로그램에서 제공하는 한글 입력 예제 중에는 일본인이 고안한 것도 하나 수록돼 있다. ㄱ+ㅏ+ㅏ로 '까'를 만드는 특이한 방식...)

  • 그런 기술 기반 위에서 공평하게 오덕질을 하다 보면 “세벌식이 잉여질 오덕질할 게 더 많고 활용 범위도 더 넓다는 게 입증된다. 초성 종성 구분하고 동기화할 골머리 대신, 초성 종성 병렬화가 가능하다~
  • 타자기에서 컴퓨터에서 바뀌었다고 두벌 세벌 차이가 없는 게 아니다.. 이것도 입증된다.
  • 기왕 1군이 아니라 2군에서 판을 짤 거면 이렇게 놀아야 문자 차원의 경쟁력이 선다..

이게 20년 전이나 지금이나 변함없는 내 지론이다. ^^

3.
그리고 끝으로 제3군은 뭐.. 제1군은 물론이고 제2군보다도 더 복잡한 로직이 동반돼야 입출력 가능한 문자이다. 이른바 complex script.
아무래도 8비트, 16비트를 넘어 32비트 이후의 컴터 시대가 돼서야 제대로 표현 가능해졌다.

  • 문자의 정보량이랑, 화면에 보이는 글자 수· 길이 사이에 개연성이 전혀 없다던가. -_-;;
  • 같은 문자가 앞뒤 글자가 무엇이냐에 따라서 형태가 막 달라진다던가..
  • 글자를 하나 찍고 끝이 아니라 뭐가 덕지덕지 바리에이션이 많다던가..
  • 유니코드의 등장 이전엔 애초에 코드값이 부여조차 되지 않았던가..

아랍, 태국, 베트남 문자가 이런 3군까지 간다. 텍스트 에디터를 만들어서 블록이나 cursor 이동을 구현하는 것도 훨씬 더 어렵다.
아까 제2군은 각각의 글자가 복잡하고 무거워서 1군보다 처리하기 까다로웠을 뿐, 3군 같은 형태의 난해함· 복잡함은 없다는 걸 생각해 보자.

라틴 알파벳은 아주 특이하게 날려 쓴 필기체를 구현할 때에 폰트에 한해서나 이런 기술이 필요하다.
한글은 옛한글까지 생각하자면 일부 기술이 3군까지 내려간다.

한글 기계화 카테고리에 거의 5년 만에 새 글이구나.. ㅡ,.ㅡ;;
자고로 문자는 그림보다는 숫자에 더 가까운 형태로 만드는 게 처리하기 더 용이할 것이다. 암호학을 생각해 보시길.. 문자를 숫자처럼 취급하지 않으면 정보이론이라든가 암호학이란 게 존재할 수 없다.

Posted by 사무엘

2024/04/17 08:35 2024/04/17 08:35
,
Response
No Trackback , No Comment
RSS :
http://moogi.new21.org/tc/rss/response/2287


블로그 이미지

그런즉 이제 애호박, 단호박, 늙은호박 이 셋은 항상 있으나, 그 중에 제일은 늙은호박이니라.

- 사무엘

Archives

Authors

  1. 사무엘

Calendar

«   2024/04   »
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30        

Site Stats

Total hits:
2960828
Today:
688
Yesterday:
1336