김 용묵의 절대공간

Search Results for '한글'

55 POSTS

2026/06/11 월드컵체를 볼 수 있는 철도역 by 사무엘
2024/10/06 표준어· 맞춤법에 대한 생각 by 사무엘 (2)
2024/06/22 인공지능(AI) 기술이 펼치는 세상 by 사무엘
2024/04/17 세계 문자들의 기계화 난이도 by 사무엘
2023/10/10 여러 단어들의 형태와 의미 by 사무엘
2022/08/29 날개셋 한글 입력기 사용 경험담 by 사무엘
2021/02/14 한글 전용에 대한 개념 재정리 by 사무엘
2020/12/08 한국어 맞춤법, 영어 단어 등의 의문 by 사무엘 (2)
2020/11/09 Windows 95와 확장완성형의 추억 by 사무엘
2020/10/15 ㄱ+ㄱ으로 ㄲ/까, ㄱ+ㅅ으로 ㄳ/ㄱ사를 동시에 만들기 by 사무엘

월드컵체를 볼 수 있는 철도역

Posted at 2026/06/11 08:35
Filed under 언어 정보학/폰트

우리나라의 철도역들은 역명판의 서체가 다들 전속 서체인 코레일체로 통일돼 있다.

(울릉도체가 쓰이던 옛날 교외선 송추 역의 역명판 vs 코레일체가 적용된 현재의 역명판)

한때, 1990년 말까지는 HY울릉도체가 즐겨 쓰였다. 그러나 철도청에서는 코레일(철도공사)의 출범과 고속철도의 개통 직전이던 말년(2003년!!)에 전속 서체를 선보였다.
그렇잖아도 서울 지하철은 진작에 전용 서체를 도입해 있었다. 거기에다 21세기의 시작과 함께 인천 공항에서도 간판용 전속 서체를 도입했으니.. 철도 당국에서는 덩달아 경쟁 심리와 자극을 받았던가 싶다.
더구나 자기들도 저렇게 큰 변화를 앞두고 있기도 했고 말이다. 폰트를 통한 이미지 쇄신은 명분이 더욱 충분했을 것이다.

인천 공항 간판 서체는 대한민국의 다른 어느 공항에서도 볼 수 없는 유니크 아이템이며, 인천 공항의 첫 개항과 함께 곧장 적용된 작품이다.
그러고 보니 ‘한국 스카우트 연맹’ CI의 폰트와 꽤 비슷해 보이는데.. 이게 우연이 아니다. 둘 다 동일 디자이너의 작품이라고 한다. (네오폰트 김 주영 님;;;;)

저거 말고 연세대 전속 서체 ‘연세체’와 비슷하게 생긴 인천 공항 공사의 전속 서체도 있다.
어디서 본 것 같긴 하지만 그래도 간판 폰트보다는 존재감이 훨씬 덜한 것 같다.

얘기가 잠시 옆으로 샜는데, 다시 철도로 돌아오면..
코레일에서는 갓 개발된 코레일체를 새로 만들거나 리모델링하는 역의 내부에 적극 활용하기 시작했다.
코레일체를 쓰지 않은 예외는 일부러 고풍스러운 분위기를 내고 싶어서 궁서체나 그에 준하는 붓글씨체를 쓴 게 전부이다. 지붕은 기와로 얹고 말이다.

전주 역과 진주 역은 평범한 궁서체다. 구 경주 역은 궁서체가 아닌 다른 캘리 서체이고.. 영월 역은 한자가 쓰여 있다.
경춘선의 김유정 역은 저런 외부 역명판뿐만 아니라 내부 역명판과 행선지 안내판까지도 온통 궁서체를 썼다는 게 특이하다.

그랬는데, 생각해 보니 또 독특한 예외가 있다.
바로.. 북한과 접하고 있고 출입경 관리 사무소가 있는 도라산(경의선)과 제진(동해선) 역인데, 얘들은 특이하게도 외부 역명판이 바로.. 윤디자인의 2002체, 일명 월드컵체이다!

얘는 1990년대의 휴먼 엑스포체처럼 국가 행사를 기념해서 당시 기준으로 굉장히 참신한 컨셉으로 만들어진 폰트이다.
2002년에는 한일 월드컵뿐만 아니라 남북 간에 경의선 철길 연결이 합의되고 도라산 역이 개통했다. 그래서 당대에 만들어졌던 모던하고 세련된 폰트가 의도적으로 쓰인 것 같다. 더 나중에 만들어진 제진 역에도 저 폰트가 쓰였을 정도이니 말이다.

남북 협력이고 나발이고 전부 나가리 된 지금 시국에서 저 광경을 다시 보니... (애초에 북괴놈들은 그 화해무드조차도 제2 연평해전 선빵 공격으로 통수를 쳤었음)
철도와는 별 접점이 없어 보이는 2002체로 만들어진 역명판이 굉장히 므흣 특이한 느낌을 생성하는 것 같다.

엑스포체는 한때, 1990년대 말까지 TV 자막으로도 엄청 많이 쓰였다. 시사 TV 프로가 끝나면서 '제보 문의는 하이텔 GO xxxx로' 이런 자막도 엑스포체로 나왔었다!
하지만 2002체는 생각보다 금방 묻히고 보기 어려워진 듯하다. 그래서 더욱 희소함이 느껴진다.

* 저 한일 월드컵 시절에 국대 축구 선수로 뛰었던 아저씨 중 한 분이 지금은 중년 갑부 꽃미남이 돼서 용형에도 올씨즌 개근 게스트로 출연 중인 게로구나.. 그렇구나~!!! ㄷㄷㄷ
이상~ 정말 오랜만에 폰트 카테고리에 새 글을 추가했다.

Posted by 사무엘

Tag: 폰트, 한글
Response: No Trackback , No Comment
RSS :: http://moogi.new21.org/tc/rss/response/2441

표준어· 맞춤법에 대한 생각

Posted at 2024/10/06 19:35
Filed under 언어 정보학/우리말

곧 있으면 한글날이기도 하니 오랜만에 이 주제로.. ^^
나는 표준어와 맞춤법, 띄어쓰기 규정을 숙지하고, 어지간해서는 이것들을 최대한 준수하면서 글을 쓴다.
가령, 다르다/틀리다, 안/않, 되/돼 같은 거야 이견의 여지가 없으니 당연히 무조건 구분한다.
하지만 내가 꼭 지키지 않거나 예외를 두는 요소들은 다음과 같다.

-- 순우리말 또는 우리식 한자 발음으로 성 1, 이름 2자 형태가 아닌 성명들은 띄어 쓴다. '윤봉길, 안중근, 김 구, 박 마리아, 남궁 억' (단, 여기 내 개인 블로그에서는 1:2 형태까지도 다 띄어 쓰고 있음)
-- 외래어 명칭 다음에 일반명사가 결합할 때도 띄어 쓴다.
백두산, 한라산, 한강, 흑묘백묘론, 불교, 유교
에베레스트 산, 후지 산, 마지노 선, 모기지 론, 양쯔 강, 나일 강, 라인 강, 이슬람 교, 힌두 교, 조로아스터 교

이건 글자 단위 붙여쓰기를 좋아하는 한자 패러다임에다가 단어 단위 띄어쓰기를 좋아하는 라틴 패러다임이 나중에 섞이면서 벌어지는 어쩔 수 없는 혼란이다.
그렇다고 한글을 몽땅 다 풀어 써 버리면서 완전히 후자대로 할 수는 없으니 전자와 후자를 적당히 절충해야만 한다. 잘 정의된 띄어쓰기는 특히 한글 전용 주장하는 사람이 영원히 풀어야 할 숙제이다.

옛날 사람들은 한자 혼용만 한 게 아니다. 같은 한글도 고유명사나 외래어를 별도의 폰트로 일일이 구분해서 표기할 정도로 세밀했다.
내 개인적으로는.. 필요하다면 이 어절이 체언-조사인지 용언-어미인지 엄밀히 구분하는 표기도 도입돼야 한다고 본다. '삶은 계란'이 계란의 상태를 말하는 건지 인생의 본질을 말하는 건지 기계적인 구분이 필요할 때 말이다.

-- 주요 행적이 20세기 중화민국· 현대 중국/대만 배경인 중국인은 현지음으로 이름 표기. 청나라나 그 이전 중국인은 한국식 한자음으로 표기.
-- 접사인지 관형어인지 긴가민가한 단어는 일일이 띄어 쓰지 않는다. '전세계' the whole world는 원래 '전 세계'가 맞다고는 하지만 개인적으로 붙여 쓰는 게 더 편하게 느껴진다.
-- '맞다'는 동사뿐만 아니라 형용사적 용례도 허용해야 할 것 같다. 유사 단어인 '걸맞다', '알맞다'는 다 형용사이지만.
-- "강하고 담대하라" 역시 비문이 아니라 좀 허용해야 할 것 같다. 저게 잘못됐으면 "내가 거룩하니 너희도 거룩하라" 알아듣는 데 아무 지장 없는 이런 선언도 틀리게 된다. '거룩하다'도 동사가 절대 아니고 '거북하다'와 동급인 형용사인데?
우리말이 용언이 정말 애매하고 므흣한 품사통용 면모가 있다.

-- "잘 되길 바래".. 이것도 원래는 '바라'가 맞는데.. 아무도 그렇게 안 쓴다. 사실상 특례가 주어져야 하지 않을지? "바랬다"는 "바랐다"로 고쳐야겠지만, 저 종결어미는... 글쎄다.
-- 'S+모음' 외래어를 그냥 외래어로 쎄게 적는 편이다. 씬(scene), 쏘리(sorry), 싸인파(sine), 싸인(autograph). 이럴 때 신, 소리, 사인은 얼마나 뜬금없게 보이는가.
현대차에서도 소나타를 쏘나타로 괜히 바꾼 게 아니다. ㄲㄲㄲ

-- 개인적으로는 '처' 대신 '쳐'라고 쓰는 걸 아주 선호한다. "이거나 쳐먹어", "창고에 쳐박혀 있는 물건", "잠이나 쳐 자?", "저 사람 쳐 돌았구만" 등등 ㅋㅋㅋㅋㅋ
-- 몇몇 접사 내지 의존명사는 '깜, 꽈, 짜' 이렇게 된소리로 쓰고 싶다.

지난 1988년 한글 맞춤법 개정 때는 한자어의 음을 한글로 표기하는 방식이 단순화됐다.
실제 발음 때 들어가는 사이소리를 무시하고, 언제나 원래 한자음만 적는 걸로 바뀌었다.
숫자, 곳간, 셋방, 횟수 같은 6개 예외만 인정하고 나머지는 ㅅ을 뺀다. 촛점이 아니라 초점, 갯수도 아니고 개수..

저 쌍팔년도 시절에는 말에 된소리 거센소리가 늘어나면 사람 심성이 거칠어진다(!!!!!!) 이런 풍조가 강했다.
햇님이 아니고 해님.. 효과는 효꽈가 아니라 반드시 '효과' 그대로. 김밥도 김빱이 아니라 '김밥' 그대로..
그러니 사이소리는 말을 쓸데없이 쎄게 만드는(!!) 원흉이니, 표기에 더욱 반영되지 않고 무시됐다.

하지만 이 사이소리는 불필요하게 들어가는 게 아니라 동음이의어 구분이나 어원 구분, 형태소 경계 구분 같은 여러 역할도 한다.
여러 예가 있지만 하나만.. 내 개인적으로는 prime number를 뜻하는 '솟수'까지 '소수'라고 바꾼 건 잘못된 조치였다고 본다. '소수'는 안 그래도 뜻이 겹치는 동음이의어가 많은데 말이다.

개드립을 좀 치자면.. 표준어 제정한 사람들이 모두 문과 출신밖에 없어서 저렇게 된 게 아닐까? =_=;;;; 문송합니다 -_-;;
'솟수'라고 예외를 추가로 인정하거나, 아니면 씨수, 핵심수, 으뜸수 등.. 완전히 다른 말을 그때 새로 만들어서 학교에 보급했어야 했다. 그리고 대가도 뭐냐. 댓가라고 해 줘야지.

나는 뭐 인터넷이나 스마트폰 이런 말을 순화하느니 그럴 게 아니라, '장' page / chapter 같은 기본적인 말부터 순우리말 대체제를 만들어야 한다고 생각한다.
말로 들어서 변별이 안 되는 거를 한자로 표기해 봤자 근본적인 문제 해결이 되지 않는다.

그래도 그나마 다행인 건, 이 프라임 '소수'라는 건 정수론에서 다루는 개념이기 때문에 '소수점' 따위하고는 영역이 겹칠 일이 없다는 것이다. 그 소수하고는 혼동될 일이 없다.
하지만.. 소수의 반의어가 합성수도 될 수 있고, 다수도 될 수 있으니.. 꺼림칙하다는 사실 자체는 변하지 않는다.

이상이다.
말이 나왔으니 말인데..
그러고 보니 지난 1990년대 이래로 지금까지 국내에서 30년 가까이 한글 맞춤법 검사기 내지 형태소 분석기 외길을 파 온 연구실은 다음과 같다. 이분들 2020년대 기준으로는 은퇴가 거의 임박했거나 이미 은퇴했다.

부산대 권 혁철 교수: 아래아한글의 맞춤법 검사기
한국외대 유 재원 교수: 마소 Word 한글판의 맞춤법 검사기
항공대 이 긍해 교수: 두벌식 기반 한-영 자동 전환 오토마타를 개발했다.
국민대 강 승식 교수: 초창기 한국어 형태소 분석기의 원조가 아니었나 싶다.
울산대 옥 철영 교수: 형태소 분석기의 떠오르는 강자이다.

아래아한글의 맞춤법 검사기는 오랫동안 개발돼 왔고 퀄리티가 좋은 편이지만, 2000년대 이후부터는 단순히 학교 문법뿐만 아니라 민간 국어 운동 이념이 들어간 판정도 많이 하고 있어서 약간 논란거리이다.
가령, 그냥 맞춤법· 오타를 지적하라고 돌리는 검사기에서 "일제시대가 아니라 일제강점기라고 써야 맞습니다"...;; 이런 것까지 굳이 지적할 필요가 있을까..?? 이런 식이다.

꼭 맞춤법 검사가 아니더라도 개인적으로 한국어· 한글 정보 처리 분야에서 꼭 필요하다고 생각하는 기능은 다음과 같다.

-- 띄어쓰기를 재구성하기. 하나도 띄어 쓰지 않았거나, 임의로 줄이 바뀌면서 어절 경계 정보가 소실된--특히 pdf나 ocr에서 긁어 온-- 텍스트의 문장을 원래대로 재구성하기
(영문도 대소문자나 하이픈 관련해서 휴리스틱이 필요한 처리가 있긴 하다. 하지만 그건 한국어보다는 훨씬 더 간단하다.)
-- 텍스트를 쭉 읽으면서 한자어는 몽땅 한자로 바꿔 주기. 당연히 헷갈리기 쉬운 한자를 틀리지 말아야 한다.
-- 텍스트를 이대로 읽을 때, 쓰여 있는 대로 곧이곧대로 발음되지 않는 부분에 대해 토 달기 (긴소리, 사이소리, 말음 법칙, ㅢ의 발음 따위)

Posted by 사무엘

Tag: 맞춤법, 표준어, 한국어, 한글
Response: No Trackback , 2 Comments
RSS :: http://moogi.new21.org/tc/rss/response/2350

인공지능(AI) 기술이 펼치는 세상

Posted at 2024/06/22 08:35
Filed under 언어 정보학/한글 기계화

우리가 매체에서 접하는 옛날 풍경 모습이란 게 한때는 그냥 사람이 붓에다 물감 찍어서 그린 그림이 전부였다.
그러다가 그게 흑백 사진을 거쳐서 컬러 사진으로 바뀌었는데, 이제는 애초에 흑백 사진밖에 전해지는 게 없던 장면조차 컬러로 재구성된 게 늘고 있다.
컬러이더라도 화질이 안 좋았던 것을 리마스터링까지 한다. 이런 건 소실된 색/화소 정보를 AI의 힘으로 창작해서 복원한 것이다.

AI는 완전히 생판 무에서 유를 창조할 정도로 혁명적인 일은 절대 못 한다.
뭔가 패턴이 있고 생노가다 같긴 하지만, 진짜 노가다보다는 미묘하게 복잡하고 전문성과 창의성(?)이 필요해서 자동화가 안 되고 인력 수작업이 필요했던 일들.. 그러면서 법적 책임과 부담감이 크지는 않은 일.
AI는 딱 그런 업종을 0순위로 잠식할 것으로 보인다.

(1) 음악: 없는 곡을 AI가 작곡도 하는 세상인데, 기존 악보 멜로디를 읽고서 E G Fm 등 코드를 매긴다거나 반주를 넣는 건(편곡) 당연히 자동화될 것이다. 이것도 답이 한 가지만 있는 게 아니기 때문에 곡에 대한 해석과 창작이라는 범주에 든다!
코드를 만에 하나 좀 이상하게 넣었다고 해서 당장 인명· 재산 손실이 발생하는 것도 아니고.. AI화하기에 딱 좋아 보인다.

(2) 폰트: 한 폰트 패밀리로부터 다양한 굵기 내지 이탤릭 바리에이션을 자동 생성하기. 윤곽선을 단순히 기계적으로 산술적으로 부풀리기만 하는 게 아니라, 그로 인한 세밀한 공간 배치를 인간이 보기 좋게 알아서 하는 것 말이다. 힌팅을 더 똑똑하고 정교하게 생성하는 것도 포함이다.
그리고 한글· 한자의 경우, 샘플 몇 글자만 넣어 주면 그로부터 규칙성을 파악해서 나머지 수천 자의 글자 모양까지 알아서 유추해서 자형 생성하기.

AI는 한글· 한자에 대해서도 알파벳처럼 폰트들이 엄청 많이 넘치도록 개발되게 도와줄 것이다. 한글· 한자가 글자수가 수천 자나 된다고 해서 진짜로 문자로서 자형의 절대적인 정보량? 엔트로피가 알파벳의 수백 배 이상인 건 아니다. '가각간갇'이 무슨 알파벳의 ABCD 급으로 서로 완전히 다른 건 아니기 때문이다.

옛날엔.. 알파벳은 글자 수가 적어서 폰트도 크기가 작고 쉽게 만들 수 있는 반면.. 한글 한자는 너무 무겁고 뚱뚱하고 컴퓨터 자원도 많이 차지한다고.. 이러니 동양이 서양보다 국가 경쟁력이 떨어지고 열등하고 도태할 수밖에 없다는 식으로 극단적으로 생각하는 정서가 있었다. 100여 년 전, 공 병우니 최 현배니 하던 시절엔 기계식 타자기만 갖고도 문자의 우열이 비교될 지경이었으니 말이다.

지금은 그 정도로 강박관념을 가질 필요는 없다. 컴퓨터 자원이야 풍부해서 넘쳐나고, AI가 사람으로 하여금 진짜로 본질적으로 창의성이 필요한 작업만 하면 되게 나머지를 보조해 줄 것이기 때문이다.
다만.. 인간이 이런 AI를 만들기 위한 연구 개발은(코딩, 수학식, 논문 등)... 알파벳처럼 원초적으로 가볍고 취급하기 쉬운 tier 1급 문자로 행해졌음이 부정할 수 없는 사실이다.

(3) 코드 정적분석: 재래식 알고리즘만으로는 컴퓨터 프로그램을 정적분석만으로 실행 결과를 100% 정확하게 예측하고 논리 결함을 찾아내는 게 불가능하다. 그 이상부터는 그냥 휴리스틱/AI의 영역으로 갈 수밖에 없다.
그리고 코드뿐만 아니라 주석에 적힌 자연어 문구도 의미를 파악해서 "이거는 시스템 정보나 패스워드가 하드코딩된 거 아냐?" 같은 것도 정적분석이 찾아낼 수 있다. AI는 재래식 정적분석 툴의 쓸데없는 오탐들을 줄이는 데 기여할 수 있다.

(4) 그 밖에 이런 AI 기술로 내 생각엔 인쇄된 글자 모양을 보고 그냥 OCR을 하는 게 아니라 이게 무슨 폰트인지를 알아맞힌다거나, (산돌, 윤~~ ㅋㅋㅋ) 거대한 인파 사진을 보고 여기 사람 머리가 몇 개인지 카운트 하는 것.. 아 이건 딥러닝 AI까지는 아니라 그냥 컴퓨터 비전이려나.. 이런 기술이 개발되면 일상생활에 도움이 될 것 같다.

(5) 그리고 식당· 카페의 무인 키오스크가 아예 커맨드라인 콘솔이 도입될 게 아니라면 진짜 사람 말을 빨랑빨랑 알아들었으면 좋겠다. 지금 터치스크린 인터페이스는 너무 느리고 답답한 반면, 단순 주문 접수는 지금 정도의 NLP로도 그렇게 어렵지 않을 테니 말이다. 확실히 AI 덕분에 단순 안내 데스크나 전화 상담 직원은 많이 없어질 것 같다.

다만, AI는 저렇게 창의성이 필요한 분야, 참고· 보조용 도구로서 강세이다. 법적 책임까지 수반되는 분야에 진입하는 건 많이 더디지 싶다. 그래서 의료 법조 쪽은 그냥 자문· 상담부터 시작할 것으로 보이며, 자동차의 완전 자율주행은 아직 갈 길이 멀어 보인다.

* 철도는 통제가 너무 잘 된 환경이니 AI 없이 재래식(?) 로직만으로 이미 무인 자동운전이 가능할 지경이다. 차량 번호판 숫자나 QR코드를 인식하는 것과 비슷한 수준이다. (이 정도로 잘 통제된 이미지의 인식은 AI가 아니라 그냥 통상적인 컴퓨터 비전 분야..)
그러니 자동차와 철도의 중간 난이도인 비행기나 선박의 운항에 AI 기반의 자동 운항이 먼저 파고들지 않을까 싶다. 허나, 승객 수백 명이 타는 여객기에 무인까지는 아니어도 부기장이 없어지고 1인 조종이 가능해질지는 과연..?? 저비용 항공사에서 작은 기종부터 1인 조종을 시킬 수는 있겠다.

* 미용· 이발은 굳이 AI화 자동화하자면 못 할 건 없지만.. 굳이 그럴 필요가 없다고 여겨진다. 사람이 직접 가위 들고 사람 머리 깎는 건 가까운 미래에도 변함없을 것 같다. ㄲㄲㄲㄲㄲㄲ

* 빌 게이츠는 무려 25~30년 전부터 제품에다가 자연어를 알아듣는 AI 비서? 에이전트를 넣으려고 애썼던 사람이다.
마소 Bob이라든가 Office 길잡이..;;는 좀 무리한 흑역사였긴 하지만.. 반대로 저 아저씨가 시대를 앞서간 시도를 한 거라고 볼 수도 있다. 그런 귀요미를 겨우 램 16MB, 150MHz짜리 펜티엄 컴터에다 집어넣으려 했으니 욕 먹었던 거지..;; 현실의 기술이 아이디어를 뒷받침하지 못했다.

* 미국 말고 의외로.. 중국이 2010년대 이후부터 머신러닝, 언어모델 쪽 연구를 많이 하는 것 같다. 외국의 최신 논문을 찾아 보면 중국 사람 이름이 엄청 많이 보인다.
그런데 중국은 그런 첨단 AI 기술을 이용해서 인터넷의 불온 컨텐츠를 검열하고 인민들 행동패턴을 감시하는 데도 적극 활용한다는 게 함정....

지난 1990년대 중반까지 기계번역 프로그램이 잠깐 나오다가 유행이 식은 적이 있었다. 일한이라면 모를까 영한은 이거 뭐 도저히 실용적인 결과가 나오지 않았기 때문이다. 하물며 한영은.. 난 지구가 멸망할 때까지 절대 개발되지 못할 거라고 생각했었다.
그런데 인공신경망 기반 AI로 언어 장벽이 이 정도까지 무너지고 낮아진 건 참으로 놀라운 일이다.

물론 무슨 기업간 회의나 대통령 연설, UN 컨퍼런스를 기계번역으로 때워도 되는 건 아니지만, 일상적으로 뭔 말인지 내용 파악하는 용도로는 기계번역이 정말 쓸 만해졌다.
게다가 이게 텍스트를 읽는 것에만 국한되지 않는다. waveform 형태의 말소리를 받아 적은 transcript를 생성하고 그걸 번역까지 하다니.. 유튜브에서 자기 동영상의 음성에서 자막을 아주 정확하게 실시간 생성해 주는 것만 해도 신기하기 그지없다.

암호 해독을 위해 언어학자가 아니라 수학자가 필요한 시대는 이미 20세기 중후반에 찾아왔다. 이제는 기계번역이나 자연어 처리 영역도 언어학자가 아니라 수학자와 데이터 과학자의 차지가 됐다.
2020년대가 되니 인간이 달이나 화성이나 해저에 기지를 만드는 건 전혀 가망이 없고, 그 대신 쌍팔년도 SF에서 거의 상상하지 못했던 스마트폰과 유튜브가 대세가 됐다. 그래서 카폰이라는 게 완전히 사라졌고, 무전기는 군· 경· 소방 같은 특수 직종에서나 쓰이는 물건이 된 거다. 뭐, 언어 자동 통번역기는.. 그 시절에도 상상은 했었고 얼추 실현돼 간다.

머신러닝에서 모델이라는 건 코드와 데이터의 성격을 모두 지니고 경계가 참 애매한 것 같다. =_=;; 물론 순수하게 데이터에 속하는 건 훈련용으로 먹이는 텍스트나 그림들이겠지만 저런 신경망 자체도 머신러닝 라이브러리 코드의 관점에서는 데이터일 것이다.
그리고 훈련시키는 건 뭔가 압축하는 것과 비슷하고, 이를 바탕으로 현실의 문제를 풀이하는 건(추론) 압축을 푸는 것과 비슷해 보인다.

이런 AI는 참 엄청나고 대단하긴 하지만.. 공짜로 평범한 계산량으로 돌아가는 물건이 아니다. AI를 돌리기 위해 동원되는 컴퓨팅 자원을 보면 정말 억소리 난다.
chatGPT가 저렇게 답을 '즉시' 뱉어내기 위해서 지구 반대편에서는 상상을 초월하는 고성능 슈퍼컴이 전기를 있는 대로 잡아먹고 열을 펑펑 내뿜으며 돌아가야 한다. 살인적인 분량의 신경망 연산이 행해지기 때문이다. 저기 서버가 하루 유지 비용이 원화로 몇 억? 몇십 억이니 그런다. 이때 컴퓨터 내부의 신경망 상태는 상상을 초월하게 너무 복잡하기 때문에 훈련이나 추론 과정의 추적이 도저히 불가능할 지경이다.

인간은 오랫동안 절대 불가능하다고 여겨졌던 유인 달 착륙과 귀환을 몇 차례 성공하긴 했다. 그러나 그건 정말 위험하고 어렵고 힘들고 비싸게 가까스로 해낸 것이었다. 민간인의 대중적인 달 여행이라든가 달· 화성 기지로 이어지는 건 지금 관점에서도 가까운 미래엔 요원하다.

그리고 AI의 발달 추세에도 이런 우주 개발과 비슷한 면모가 있는 것 같다. 과거에 불가능하다고 생각했던 자연어 처리가 가능해지기는 했지만.. 그걸 가능케 하는 컴퓨팅 환경이 저 우주 로켓 같은 물건이라는 거다. 물론 컴퓨터 업계도 가만히 앉아서 손가락만 빠는 건 아니니.. 그 연산에 특화된 CPU를 만들어 간다.

30여 년 전, 486이니 펜티엄이니 하던 시절엔 멀티미디어 지원이 컴터 업계의 최대 관심사였던 것 기억하시는가?
크게 (1) 동영상 아니면 (2) 게임용 3D 그래픽 실시간 렌더링이라는 두 분야이다.
하긴 그 시절엔 MPEG 동영상을 감상하기 위해서 전용 카드를 꽂네 마네 했던 것 같다. 요즘은 재생이 아니라 컴터 화면을 실시간으로 녹화하고 인코딩할 때에나 전용 카드가 필요한 듯하다.

나중에는 엄청난 물량을 자랑하는 멀티미디어 연산에 특화된 명령이 CPU에 추가되고, GPU라는 건 그래픽 가속기라는 이름으로 도입되곤 했었다.
그랬는데 이제는 단순 그래픽 처리를 넘어 머신러닝 신경망 연산에 특화된 CPU가 대세이다. 당연히 서버에 접속해서 API를 호출해서 구현된 거라고 생각한 통· 번역이 핸드폰에서 비행기 모드까지 켰는데도 동작한다는 게 정말 신기하다.

저런 컴퓨터에 비해 인간의 두뇌는? 환경에 끼치는 부작용이 없고 당분 몇 스푼만 공급해 주면 한 나절을 거뜬히 돌아간다.
물론 두뇌와 컴퓨터가 서로 비교 가능한 존재는 아니지만 어떤 면에서는 생체라는 게 참 경이롭다. 두뇌와 컴퓨터는 다리와 바퀴가 다른 것만큼이나 다른 건지도 모른다.

그러고 보니 우리나라의 이스트소프트는 맨 처음 1990년대엔 21세기 워드라는 평범한(?) 업무용 프로그램을 만들었다가 알툴즈로 명성 내지 악명을 떨쳤고.. 그러다가 게임이 더 돈 된다고 생각했던지 '카발'이라는 온라인 게임을 만들었고 지금 와서는 AI 기업을 표방하고 있다. (게임과 AI 모두 GPU가 쓰인다는 공통점이..)
각각의 제품들이 어떤 평을 받는지에 대해서는 논란의 여지가 있지만, 어쨌든 시류를 따라 참 다양한 분야를 개척하면서 생존하려고 애쓴다는 것 하나는 확실해 보인다.

Posted by 사무엘

Tag: AI, 인공지능, 컴퓨터, 한글
Response: No Trackback , No Comment
RSS :: http://moogi.new21.org/tc/rss/response/2311

세계 문자들의 기계화 난이도

Posted at 2024/04/17 08:35
Filed under 언어 정보학/한글 기계화

병원이 1차(동네의원) 2차 3차(대학병원급)로 나뉘고, 재판소(법원)가 지방-고등-대 3계층으로 나뉘고..
금융기관도 제1 제2 제3(사채)으로 급이 나뉘고..
냉전 시절에 세계 나라들이 제1(자유진영), 제2(공산권), 제3(나머지 신흥 독립/중립국)으로 나뉘었다.

그런 것처럼 좀 뜬금없지만 세계 문자들을 얼추 3개 그룹으로 나눌 수 있겠다.

1.
제1군은 형태가 제일 단순한 풀어쓰기 음소문자들이다. 서양의 라틴 알파벳, 러시아 키릴, 그리스 문자 따위.
기계화하기에 제일 유리하다. 기계식 수동 타자기는 말할 것도 없고, 컴퓨터 기준으로도 1980년대 8비트 PC의 메모리와 속도, 디스플레이 해상도로도 모두 거뜬히 구현 가능했다. 극악의 저해상도 8*8 픽셀 블록으로도 표현 가능할 정도니까.

한글 풀어쓰기라든가 반각 가타카나는 더 복잡한 자국 문자를 최소한으로 변형해서 제1군처럼 처리하려 노력했던 흔적이다.
세벌식 쌍초점 타자기(+ 직결식 폰트)는.. 한글을 외형상 모아쓰기를 유지하면서 제1군처럼 처리하는 굉장히 획기적인 방법론을 구현했다.

2.
다음으로 제2군은 동아시아 한중일의 소위 '2바이트 문자'에 속하는 한글, 가나, 한자 같은 문자들이다.
제1군 문자보다 훨씬 더 뚱뚱해서 전/반각 구분이 필요하고, 실용적인 수준의 문자 집합 크기도 수천 자에 달한다. 문자의 크기 대비 디스플레이 해상도, 컴의 메모리와 속도, 입출력 오버헤드 등을 감안했을 때 8비트 컴으로는 감당이 안 되고 최소 '16비트' 정도는 필요하다. 입력을 위해 IME라는 소프트웨어 계층이 필요하다.

내 한글 입력기는 이런 고민 과정에서 개발이 시작됐다.
우리나라 자국 문자는 1군이 아니라 2군에 속하는데? 대문자나 바리에이션 문자가 없는 대신에 모아쓰기가 특징인데?
그렇다면 이 특성을 그저 "부담, 오버헤드, 짐, 단점이 아니라 개성과 특징, 장점으로 살릴 수 없을까..?"

컴퓨터라는 기계가 존재하고 한글이라는 문자가 존재한다면 그 사이에서 생각할 수 있는 미친짓은 다 할 수 있는 소프트웨어 기반을 만들었다. 최소한, 아이디어가 있는데 그걸 구현할 수 있는 프로그램이 없어서 못 쓴다는 말은 안 나오게 말이다.

왜 일본에서 무슨 영상물이나 물건 만든 걸 보면.. 장인정신에 창의적인 걸 넘어서 혀를 내두를 정도로 '쓸데없이 고퀄리티'스러운 게 많다.
"걔네들이 자국 문자가 한글이었다면 그 정신머리 근성으로 이런 입력기 정도 만들었을 것이다~~" 난 이걸 염두에 두고 프로그램을 만들었다. 근데 그런 짓을 현실의 일본인이 하지는 않을 테니까 한국인이 해야지.

(내 프로그램에서 제공하는 한글 입력 예제 중에는 일본인이 고안한 것도 하나 수록돼 있다. ㄱ+ㅏ+ㅏ로 '까'를 만드는 특이한 방식...)

그런 기술 기반 위에서 공평하게 오덕질을 하다 보면 “세벌식이 잉여질 오덕질할 게 더 많고 활용 범위도 더 넓다는 게 입증된다. 초성 종성 구분하고 동기화할 골머리 대신, 초성 종성 병렬화가 가능하다~
타자기에서 컴퓨터에서 바뀌었다고 두벌 세벌 차이가 없는 게 아니다.. 이것도 입증된다.
기왕 1군이 아니라 2군에서 판을 짤 거면 이렇게 놀아야 문자 차원의 경쟁력이 선다..

이게 20년 전이나 지금이나 변함없는 내 지론이다. ^^

3.
그리고 끝으로 제3군은 뭐.. 제1군은 물론이고 제2군보다도 더 복잡한 로직이 동반돼야 입출력 가능한 문자이다. 이른바 complex script.
아무래도 8비트, 16비트를 넘어 32비트 이후의 컴터 시대가 돼서야 제대로 표현 가능해졌다.

문자의 정보량이랑, 화면에 보이는 글자 수· 길이 사이에 개연성이 전혀 없다던가. -_-;;
같은 문자가 앞뒤 글자가 무엇이냐에 따라서 형태가 막 달라진다던가..
글자를 하나 찍고 끝이 아니라 뭐가 덕지덕지 바리에이션이 많다던가..
유니코드의 등장 이전엔 애초에 코드값이 부여조차 되지 않았던가..

아랍, 태국, 베트남 문자가 이런 3군까지 간다. 텍스트 에디터를 만들어서 블록이나 cursor 이동을 구현하는 것도 훨씬 더 어렵다.
아까 제2군은 각각의 글자가 복잡하고 무거워서 1군보다 처리하기 까다로웠을 뿐, 3군 같은 형태의 난해함· 복잡함은 없다는 걸 생각해 보자.

라틴 알파벳은 아주 특이하게 날려 쓴 필기체를 구현할 때에 폰트에 한해서나 이런 기술이 필요하다.
한글은 옛한글까지 생각하자면 일부 기술이 3군까지 내려간다.

한글 기계화 카테고리에 거의 5년 만에 새 글이구나.. ㅡ,.ㅡ;;
자고로 문자는 그림보다는 숫자에 더 가까운 형태로 만드는 게 처리하기 더 용이할 것이다. 암호학을 생각해 보시길.. 문자를 숫자처럼 취급하지 않으면 정보이론이라든가 암호학이란 게 존재할 수 없다.

Posted by 사무엘

Tag: 문자, 한글
Response: No Trackback , No Comment
RSS :: http://moogi.new21.org/tc/rss/response/2287

여러 단어들의 형태와 의미

Posted at 2023/10/10 08:35
Filed under 언어 정보학/우리말

1. 단어 의미의 차이

(1) '오타쿠'라고 그 이름도 유명한 일본어가 국내로 유입돼 들어왔는데.. 이게 표현과 의미가 분화됐다.
앞부분을 떼어낸 오덕은 말 그대로 일본 애니, 미소녀, 모에 하앍하앍, 피규어.. 이런 특정 분야와 관련된 원래 뜻이고,
뒷부분을 떼어낸 덕후는 매니아, 전문가, 기크, 너드..라는 뜻인 것 같다. 역덕 밀덕 철덕에서는 접사로도 쓰인다.

(2) 나룻배는 뭐고 거룻배는 뭐지..??
수하물 수화물도 그렇고. 마치 성경 용어 환난과 환란만큼이나 별 차이 없이 섞여 쓰이는 단어 같다.

(3) 외도: 한국어에서는 ‘배우자의 외도’라고 보통 불륜, 간통, 음행 쪽만 가리킨다. 그러나 일본어에서는 그냥 일반적인 부도덕 죄악 악행을 모두 가리킨다. 휴먼버그 대학교 고문 소믈리에의 대사를 통해서 알게 됐다. -_-
외모: 한국어에서는 일단은 성형수술과 관계 있을 정도인 겉모습에만 국한되어 쓰이는 편이다. 그러나 성경에서 “하나님은 외모를 취하지 않으시고”(person)는 가오뿐만 아니라 능력, 피지컬처럼 사람의 전반적인 스펙을 모두 일컫는 의미이다.
外자가 들어가는 흥미로운 단어 쌍이다.

(4) 저것 말고도 '비겁', '묵살' 같은 한자어도 한국어와 일본어가 뉘앙스가 미묘하게 다르다는 게 잘 알려져 있다.
우리말로는 둘 다 아주 부정적인 뉘앙스의 단어인 반면.. 일본어로는 전쟁에서 적을 기막히게 속이고 낚고 농락해서 싸그리 몰살시켜도 비겁(!!)하다고 그런다. 긍정적인 뉘앙스가 담긴 교활이나 악랄, 영악이라는 의미도 좀 포함한다는 뜻이다. 선전포고 없이 진짜 치졸 비열하게 진주만을 공격한 거 말고, 저런 것까지 말이다.
그리고 묵살은.. 한국어에 의미하는 ‘무시’의 강화 버전뿐만 아니라 신중한 보류..까지 의미한다. 과연 사무라이뿐만 아니라 에둘러 말하기의 달인인 일본 문화답다. 허나, 쟤들은 포츠담 선언까지 묵살한다고 모호하게 답변했다가 결국은 핵을 쳐맞았다. -_-

(5) 컴퓨터 프로그래밍에서 직렬화란.. 어떤 오브젝트의 내부 상태를 스트림 형태의 비휘발성 메모리에다가 쭉 덤프해서 나중에 다시 원래대로 읽어들이고 복원 가능하게 하는 기능을 말한다. 배열, 리스트가 아니라 트리 구조 같은 비선형 컨테이너는 직렬화를 위해서 코딩 기법이 좀 필요하다.
그런데 병렬화는? 같은 목적을 위해 수행되는 많은 작업들을 CPU 코어 여러 개에다 분산시키고 동시에 수행하도록 해서 전체 소요 시간을 줄이고 성능을 끌어올리는 걸 말한다. 그러니 직렬화-병렬화는 분야가 서로 완전히 다른 의미를 지닌다~!

(6) 우리말 내지 이쪽 문화권에서는 돼지가 무척 공격적인 동물이라고 생각했는가 보다. 그래서 ‘저돌적’이라는 단어가 있으며, 여기서 ‘저’는 돼지 猪이다. 심지어 '저돌희용'이라는 한자성어가 있다. '멧돼지 희'라니.. 참 희한한 한자인데.. 울나라 상용 한자가 아닌 듣보잡 글자이다.
그런데 영어권에서는 숫양이 사납고 성깔 더럽다고 생각했는지, ram에 저돌적이라는 뜻이 들어있다. 우격다짐으로 밀어붙이다, ‘공성 망치로 공격하다, 배끼리 서로 들이받다’ 같은 옛날 전쟁 전술과 관련된 살벌한 뜻이 들어있다.
옛날 영화 벤허에서도 갤리선에서 최고속을 가리키는 용어가 3등 battle speed, 2등 attack speed를 넘어 ramming speed였다..;;

(7) 영어에는 prosecute(기소)와 persecute(박해)가 형태가 비슷해서 이를 이용한 언어드립이 있는 걸 개인적으로 어디선가 봤었다. 악질 검사한테 박해 받는다..;; 뭔가 심상이 자연스럽기 때문이다.
translation(번역)과 treason(반역)도 비슷한 관계이다. 이건 굉장히 공교롭게도 영어와 한국어 모두 형태가 비슷한 단어쌍이다~!

(8) AV..
AV 단자라고 하면 오디오/비디오라는 뜻이다.
AV 1611이라고 하면 공인된 번역본이라는 뜻이다.
일본 AV라고 하면... 19금이라는 뜻이 된다. 의미와 용도가 완전히 제각각이다.. ㅋㅋㅋㅋㅋ

2. 욕처럼 들리는 단어

(1) 시발: 시발 자동차, 구로 역 시발..;;; 전설적인 예시이다.
채널A 카톡쇼에 출연했던 어떤 자동차 업계 원로의 회고에 따르면.. "시발 시발 우리의 시발~~~" 이러는 라디오 광고 CM쏭까지 있었다고 그런다.
그리고 필리핀에는 시발롬 Sibalom 이라는 지역이 있다.. ㅠㅠㅠㅠㅠㅠ.

(2) 옛날 일본의 히로히토 천황은 본명이라고 해야 하나 휘호가 迪宮였는데.. 발음이 '미치노미야'였다. 영어로도 Prince Michinomiya Hirohito 라고 썼다.
일제 식민지 조선인들한테 "미친놈이야"라고 당연히 놀림감 0순위였으며, 일본도 이 사실을 광속으로 인지하고 단속을 벌였다.

(3) rape: 어떻게 노란 유채 식물이 이런 끔찍한 범죄와 동음이의어인지 궁금하다. 그래서 영어로는 원래 명칭대로 안 부르고 카놀라 Canola라고 부른다.
하긴 유채는 순우리말 명칭도 굉장히 뜬금없다. '평지'라고 하네...;;;

(4) retard: 학창 시절에 접했을 음악 나타냄말에도 '리타르단도'(점점 느리게)가 있고, 또.. 항덕이라면 비행기 조종에서도 어떤 기종은 착륙 착지 때 GPWS에서 retard, retard~~ 라고 안내를 해 준다. '엔진 출력 낮춰, 속도 줄여~!' 이런 뜻..
근데 현실에서는 retard는 음악이나 비행기 출력이 아니라 지능 발달이 더딘 사람을 일컫기도 한다. '백치 아다다'에서 백치처럼 말이다.
비행기가 성공적으로 착륙하면 이탈리아 같은 일부 문화권에서는 승객들이 환호하고 박수도 치는데.. 정작 조종실 계기판에서는 병~~신 병~~신(약오르지ㄲㄲ) 이런 어감의 놀림(??)이 흘러나온다는 게 웃기게 느껴질 수 있다.

3. 언어유희

헌신만 하다가 헌신짝 취급 당한다.
다짐을 너무 많이 하면 다 짐이 된다
교사 지침서 때문에 교사가 지침..
지적이지만 지적질 하지는 않는 사람이 좋다~~ ㄲㄲㄲㄲㄲㄲ

그리고 파이널 Pinal air park(애리조나), 페인 Paine field(워싱턴 시애틀).. 둘 다 항공과 관련된 유서깊은 시설이 있는 지명이다.
전자는 노후 비행기 보관소이다. 그래서 최후 final과 비슷한가..?? -_-;; 그리고 후자는 위치에서 짐작이 가듯, 보잉 사 에버렛 공장에서 생산되고 출고된 비행기들이 첫 출발하는 곳이다. 비행기의 출산의 고통을 의도해서 pain 드립을 쳤는지 모를 일이다. -_-;;

Posted by 사무엘

Tag: 알파벳, 영어, 한국어, 한글
Response: No Trackback , No Comment
RSS :: http://moogi.new21.org/tc/rss/response/2217

날개셋 한글 입력기 사용 경험담

Posted at 2022/08/29 08:35
Filed under 날개셋 프로그램

1. 잉카 제국과 한글

작년 한글날 무렵엔 무려 페루에서 사시는 외국인이 내 프로그램으로 한글 로마자 입력 방식을 잘 사용하고 있다고 감사 겸 문의 연락을 주신 적이 있었다. 먼 옛날에 중남미에 사시는 교민에게서 연락이 온 적은 있었지만 중남미 현지인으로부터의 연락은 처음이었다.
게다가 이분은 말로만 듣던 마추 픽추 유적지 근처에 사신다고..;; 잉카 제국이 만들어지고 마추 픽추 도시가 건립된 시기가 한글이 창제된 시기와 얼추 비슷하다는 얘기를 해서 나도 놀라움에 입을 쩍 벌렸다. (다들 1440~1460년 부근.. 오옷~!)

하지만 잉카 제국은 고유 문자가 없었다. 자기네 생활 노하우와 문화, 기술이 후세에 제대로 전수되지 못하고 그대로 소실됐다.
조선은 정반대로 기록 덕후여서 온갖 것들을 미주알고주알 실록으로 남기긴 했다. 단지, 한글을 적극적으로 사용하지 않고 여전히 한문으로 기록했을 뿐..

이런 얘기를 들으면서 한글 로마자 입력 방식은 국제적으로 굉장히 인지도와 수요가 높다는 것을 실감할 수 있었다.
페루 현지에서는 마추 픽추도 그냥 흔한 학교 수학여행 코스일 뿐이랜다. 우리나라로 치면 경주처럼 말이다.
그러고 보니 페루는 나스카 지상화 불가사의가 있는 나라이기도 하네~ 신비롭다. 나는 언제 저런 곳에 가 볼 일이 있을지 모르겠다.;;

2. 유아의 한글 타자

하루는 SNS에서 육아를 하고 있는 지인의 근황을 접했다.
아들이 한글을 배워서 폰으로 카톡도 하는데.. 도깨비불 현상을 이해하지 못하고 심리적으로 부담스러워해서 각 글자들을 일일이 띄어서 친다는 얘기가 개인적으로 아주 인상적으로 다가왔다.

그렇다니까~~ 두벌식은 근본적으로 직관적이지 못하다. 이런 영· 유아에게나, 한국어를 처음 배우는 외국인에게나, 아니면 기계치 어르신들한테 말이다.

타자기이든 컴퓨터이든 불문하고 한글 입력은 세벌식을 원칙으로 하고 두벌식을 보조로 삼는 쪽으로 갔어야 했다. 아무리 기계의 성능이 향상된다고 하더라도 이런 본질적인 차이가 변하지는 않는다.

3. 위험한 곳에서 사는 동포에게서

이 얘기는 오랫동안 마음속으로만 간직하고 있다가 시간이 한~~참 지난 뒤에야 꺼내 본다. 당사자의 신변의 안전을 위해서다.
하루는 한글을 조선글이라고, (글쇠)배열을 배렬이라고, 프로그램을 프로그람이라고 부르는 사람에게서 너님이 개발한 한글 입력기를 오랫동안 잘 쓰고 있다는 연락이 메일로 왔었다. 개인적으로 굉장히 놀랐다.

(1) 그 사람은 폐쇄적인 본토에서 인터넷에 직통으로 접속한 건 물론 아니고, 외화벌이를 하러 대륙으로 파견 나가 있었다. 메일 계정은 대륙의 모 포털 사이트 기반.

(2) 유 관순이 누군지, 삼일절이 뭔지 잘 모르더라. 그냥 어디서 집단 봉기를 일으켰다가 진압된 날.
쉽게 비유하자면.. 삼일 운동의 인지도가 그로부터 10년쯤 뒤인 1929년 11월 3일 광주 학생의 날의 인지도와 비슷한 수준이다. 여러분 중에 혹시 '박 준채'라는 학생 기억하시는 분 있나요? 유 관순이 그 수준이라는 거다.

(3) 무심코 내가 툭 던졌던 "주말 잘 보냈냐/쉬었냐"라는 인사를 완전 어색해했다. 그렇게 말하는 사람이 너님이 처음이었다나.
일요일에 탱자탱자 놀거나 종교 활동 하는 건 상상도 할 수 없는 사치이고.. 이때 군인이나 공무원들이나 하는 각종 환경미화와 마을 인프라 보수에 주민들이 동원된다. 주말이란 게 없다.

그 사람이 나에 대해서 느낀 점이라며 털어놓은 말은..

국가관이 아주 투철하고 자기 나라를 사랑하는 분 같다. 나도 너님 앞에서 함부로 우리 공화국을 뒷담화 하지 않겠다. (ㅍㅎㅎㅎㅎㅎㅎ 내가 뭔 말을 했었길래..)
종교 쪽으로 독실한 게 영화에서 본 가톨릭 신부 같다. (개인적으로 복음도 전해 봤음..)

이었다. 믿거나 말거나~~~
난 그 전까지 "국가보안법"만 있지 "남북교류 협력에 관한 법률"이란 게 있는 줄 몰랐는데, 이 일을 계기로 찾아보게 됐다.
그리고 '주 성하'라는 탈북 언론인이 있다는 걸 그쪽에서 알려 줘서 알게 됐다.

내가 한글 입력기를 개발하지 않았으면 세계 사람들로부터 이런 경험 할 일이 도무지 있겠는가..;;
후원금도 여전히 용돈 수준이나마 찔끔찔끔 들어오고 있고.. 액수보다도 빈도가 더 고마운 노릇이다. 내 프로그램이 여전히 잊혀지지 않았다는 뜻이니까.

Posted by 사무엘

Tag: 날개셋, 세벌식, 한글
Response: No Trackback , No Comment
RSS :: http://moogi.new21.org/tc/rss/response/2060

한글 전용에 대한 개념 재정리

Posted at 2021/02/14 08:37
Filed under 언어 정보학/우리말

0. 들어가는 말

한글과 한자 문제는 정말 낡고 케케묵었고, 이미 대세를 거스를 수 없는 결론까지 도출된 주제이다. 본인 역시 나이 40이 임박한 지금까지 20여 년째 동일한 지론을 유지하고 있다. 오늘은 오랜만에 이에 대한 생각을 또 복습해 보고자 한다.

"한글로만 쓰니까 무슨 단어 뜻이 분간이 안 되고 어쩌구저쩌구" 하는 불평들은 나도 하라면 한 트럭을 끄집어낼 수 있다.
"역전의 용사"는 지고 있던 전투를 운동 경기마냥 역전(?)시킨 용사가 아니라는 것,
정부 조직을 가리킬 때의 部와, 삼권 분립을 가리킬 때의 府가 다르다는 것 뭐 등등..
온갖 병신같은 교인이나 목사나 교회 욕하면서 나는 이래서 예수 안 믿는다, 교회 안 다닌다.. 이러는 것과 완전히 똑같은 원리로 늘어놓을 수 있다.

그러나 그러나~~~~ 한글· 한자 문제에서는 다음과 같은 사항을 추가로 고려해야 한다.

1. 쓰기: 문자는 그림보다 아라비아 숫자에 더 가까워야

"한글로만 쓰니까 무슨 단어 뜻이 분간이 안 되고 어쩌구저쩌구" 하는 불평은..
그 자체조차도 나머지 90%에 달하는 이미 잘 분간되는 어휘들을 한글로 정말 편하고 빠르게 잘 읽고 쓰고 있기 때문에 나올 수 있는 불평이다! 알겠는가?

할배가 민주주의를 유린한(? 한 5%쯤?) 독재자라고..??
그 독재를 비판할 수 있는 90~95% 민주주의 토대를 닦아 놓은 사람도 할배다. 그와 같은 이치이다. 자, 이 비유를 들면 좀 이해가 빨리 되려나?

한글이나 알파벳 영단어는 최소한의 문자 체계만 떼고 나면, 최소한 모르는 단어를 사전에서 찾아 보는 거 하나는 아주 수월 간결하게 할 수 있다. 어떤 단어로부터 기본형을 유추하는 게 그리 어렵지 않으며, 유한한 요소만으로 무한의 개념을 표현한다는 체계가 있기 때문이다. 이게 문자와 그림의 본질적인 차이이기도 하다.

허나, 한자는 그림 티를 좀 못 벗은 무한집합-_- 문자이다. 모르는 글자를 옥편에서 찾는 데 시간이 얼마나 걸리며(부수, 획수..) 실패율도 얼마나 높을까?

게다가 읽을 줄 아는 것과 쓸 줄 아는 건.. 또 별개의 문제다. 컴퓨터조차 없던 시절에 "아 배고프다, 밥먹고 싶다" 이런 문장까지 백지 상태에서 한중일 어느 언어 방식이건 한자만으로 써야 한다면..?? 아 정말 끔찍하다.
설령 컴퓨터가 있다 해도 맨손에 펜만 있을 때보다야 쓰기가 편리해질 뿐이다. 다른 간편한 소리글자들도 동일하게 컴퓨터의 혜택을 받고 있다면, 한자는 이것들에 비해 입력하고 취급하기가 번거로우며 여전히 격차가 벌어진다.

2. 말하기/듣기: 글자가 아니라 알아들을 수 있는 말이 먼저

그리고 더 결정적으로, 언어라는 건 말이 먼저지 글이 먼저가 아니다. 한자의 음은 기본적으로 왕창 옛날 중국어 음의 낡은 껍데기일 뿐이다. 한글로만 써 놓으니 분간이 안 되는 문제에 앞서, 말이 글자 그림을 봐야만 이해되는 지경으로 배배 꼬이는 것이 더 문제라는 것이 나의 굳건한 지론이다.

정말 단순하고 상식적인 것에서부터 먼저 의문을 품고 제기해 보자.
수수(授受)와 매매(賣買).
세상에, 지구상의 어느 미친 언어가 '주다'와 '받다'라는 정반대 뜻을 같은 소리로 표현하냐?
'팔다'와 '사다'도 마찬가지.
'방화'는 너무 유명한 예일 테고, 그리고 명왕성의 명(冥)은 '어두울 명'이다. '밝을 명'(明)만 있는 줄 알았지? ㄲㄲㄲㄲㄲㄲ

이건 한자로 적지 않으면 뜻을 알 수 없네 타령을 하기에 앞서 말이 이상한 것이다.
형성자라는 건 알고 보면 굉장히 골때리는 제자 원리이다. 이건 글자를 생성하는 거지, 말을 생성하는 게 아니다.
(저 형성도 formation 形成이 아니라 形聲인 것쯤은 이과 출신인 나도 알고 있음)
이미 만들어지고 익숙해져 버린 명칭들은 어쩔 수 없지만, 최소한 더는 이런 식으로 조어를 하지 말고 청각 변별이 되고 잘 와닿는 쪽으로 말을 만들 생각, 시늉이라도 해야 한다.

중국어에는 성조라는 게 있어서 한국어보다는 한자 변별이 되는 편이다. 중세 땐 우리나라(조선??)조차 한자를 좀더 중국식으로 발음하려고 성조를 도입했던 것 같으나, 지금은 몽땅 사라졌다.
그런데 이 성조라는 게 노래를 부를 때는 전혀 표현될 수 없다. 한자의 발음들은 전부 문맥만으로 분별돼야 하며 의미가 잘못 전달될 수도 있다. 그렇기 때문에 내가 알기로 중국은 자기네 가요 뮤직비디오에 자막을 반드시 넣어 줘야 된다.

일본은..? 한자를 청각적으로 최대한 변별하려다 보니 읽는 방식이 너무 다양하고 복잡해져서 한자 위에 히라가나 토가 널리 쓰인다. 특히 이름 같은 생소한 고유명사의 한자는 이렇게 안 해 주면 거의 못 읽는다.
나는 이런 게 정상적인, 자연스러운 문자 생활이 "아니라고" 생각한다. 한 20년쯤 전부터 했던 생각이고 지금도 변함없다.

3. 결론: 국어 교육의 문제와 한글 전용의 문제를 서로 헷갈리지 말자

(1) 문자의 본질: 문자라는 건 말을 받아적는 도구 이상도 이하도 아니며, 그림보다는 추상적인 '숫자'에 더 가까운 면모를 지니는 게 바람직하다.
한자가 일단 익숙해지고 나면 함축적이고 시각성이 뛰어난 구석이 있는 것은 사실이다. 그러나 '읽기'의 장점을 위해서 치르는 '말하기/듣기'와 '쓰기'의 대가, 단점을 결코 만만하게 봐서는 안 된다!

(2) 한국어의 실정: 한국어는 중국어· 일본어와 달리 장단이고 성조고 훈독이고 뭐고 없다시피하며, 한자들을 정말 단순무식하게 한글 1음절로만 연결시켜 놓았다. 거기에다 한글이라는 문자도 자체적인 구조가 꽤 탄탄하며, 히라가나 카타카나 같은 한자 혼용을 전제로 한 보조용 문자가 아니다.
그러니 동음이의어 정리만 좀 해 주면 한글 전용을 하기에 매우 유리한 면모를 갖췄으며, 오늘날 실제로 그렇게 됐다.

(3) 문자 정책: 한글 전용을 전제로 하고, 마치 생소한 신조어를 드러내기 위해서 영어에서 하이픈이나 일부 음절 대문자화를 하듯이 가끔 괄호 안에 한자 병용만 하는 것으로 족하다.
개인적으로 일본식 한자어를 반대하는 소신은 아니다. 하지만 표기까지 몽땅 한자를 밝혀야 할 정도로 중구난방으로 쓰는 것은 반대다. 민족 감정 때문이 아니라 언어학적, 실용적인 측면에서만 접근한다.

(4) 교육: 뭐든지 도둑질만 아니면 많이 공부하고 배워서 나쁠 건 없고 그건 한자도 예외가 아니다. 그러나 겨우 말을 담는 껍데기 그릇을 공부하는 것 하나가 이렇게 어렵고 사용하기가 불편하고 시간이 많이 걸리는 것은 큰 문제이다. 한자는 한자어의 어원을 변별하고 의미를 정확하게 학습하는 용도로 쓰기가 아닌 '읽기' 위주로만 가르치면 된다.
국어 교육 문제를 한글 전용 문제로 돌릴 필요는 없다. 국어 교육을 똑바로 안 시키고 표기만 한자 병용을 하면? 한글 대신 헷갈려서 잘못 쓰인 한자들만 글에 가득해질 것이다.

그리고 덧붙이자면.. 한글 전용을 지지하는 사람일수록 한글 맞춤법과 띄어쓰기를 더욱 잘 지켜서 글을 써야 한다. 그게 한글의 표의성과 시각성을 살려 주는 규칙이기 때문이다.

4. 여담

(1) 성경조차 히브리건 그리스건 알파벳이건 소리만 받아적는 간결한 소리글자로 기록됐지, 뜻글자가 쓰이지 않았다.
또한, 세상에서 제일 높은 최고존엄에 대해 다루고 있는 텍스트이지만 한국어 같은 복잡한 높임법 따위 존재하지 않고 하나님도 you라고 바로 가리키는 언어로 기록됐다. 예수냐 예수님이냐 이런 게 본질적인 문제가 아니리는 것이다.

(2) 우리나라의 경우는 과거에 일제가 총칼로 한국어 한글을 말살하면서 일본어를 강요했으니 그건 극심한 저항과 반발에 부딪혔다.
그런데 그렇지 않고, 영국 미국 같은 나라가 한국을 식민지로 삼고,

한국어 대신 영어를 쓰면.. X나 골치아픈 호칭, 높임법 신경쓸 필요 없이 누구나 이름으로 부르고 you로 바로 가리킬 수 있어요~!!
어려운 한자로부터 해방될 수 있어요~!
세계의 석학들, 최신 지식 정보와 바로 소통할 수 있어요~!
미개한 붓이 아니라 타자기로 아주 빠르고 편하게 글을 쓸 수도 있어요~!

이렇게 당근만 흔들면서 접근했으면.. 당시 지식인들이 어떻게 반응했을지, 한국어와 한글의 운명이 어찌 됐을지 나는 장담을 못 하겠다. 이런 여건에서도 공 병우 같은 천재가 한글 타자기를 발명할 수 있었을까?
물론 저런 실용주의적인 사고방식 자체가 전후에 20세기 말이 돼서야 슬슬 등장했으니 이건 가정이 현실적이지 않은 뇌피셜일 뿐이다.

Posted by 사무엘

Tag: 한국어, 한글, 한글전용, 한자, 한자혼용
Response: No Trackback , No Comment
RSS :: http://moogi.new21.org/tc/rss/response/1854

한국어 맞춤법, 영어 단어 등의 의문

Posted at 2020/12/08 08:35
Filed under 언어 정보학/우리말

1. 왜 시발이었을까

이 블로그에서 몇 번 다룬 적도 있었던 우리나라 최초의 자국 생산 자동차 '시발'을 생각해 보자.
아무리 좋은 뜻을 담았다고 해도 그렇지, 자동차 이름을 왜 비속어가 연상되는 '시발'이라고 지었을까 지금 우리로서는 궁금증이 들 것이다. 마치 극악의 저출산 때문에 고민인 지금의 관점으로는 과거에 정반대로 "아들 딸 구분 말고 둘만 낳아 잘 키우자" 구호가 나오던 배경을 도무지 이해할 수 없는 것과도 비슷하다.

저 시절을 직접 겪은 옛날 분의 증언에 따르면.. 시발 자동차가 다니던 195, 60년대에도 한국어에 C-bal이라는 욕설 자체는 멀쩡히 존재했었다고 한다.
하지만 옛날의 언어 습관은 여러 정황상 말소리보다 한자 뜻을 훨씬 더 중요하게 따졌던 것 같다. 始發이라는.. 요즘으로 치면 '오리진, 제네시스'나 마찬가지인 좋은 뜻만 가졌으면 됐지, 굳이 "C-bal이 연상되는데?"라고 문제를 제기하는 것 자체가 마치 성에 대한 금기만큼이나 금기시됐던 것 같다. 천한 욕설은 공식적으로는 한국어에 존재하는 걸로 간주되지도 않는 어휘였다.

물론 공개 석상 말고 사석에서는 그런 고매하신 선비질 따위 없었다. 그러니 비단 시발 자동차 말고도, 한자로 뜻은 괜찮지만 소리가 이상해서 어린 시절에 흑역사급 별명을 달고 다녔던 사람이 많았다. 인명 외의 분야를 봐도 야동 초등학교도 있었고, 죽음(대나무 그늘) 마을도 있었다.

야동 초등학교의 경우, 인터넷으로 유명세를 타는 바람에 개명을 해 버린.... 줄 알았으나 그렇지 않고(단, 시골에 학생 수가 너무 적어져서 폐교 위기라고 함)... 후자의 경우 본인이 아주 어리던 시절에 TV를 통해서 봤는데, 노인들이 시골길에서 차에 치여 세상 하직하는 일이 잦아지자 불길하다면서 뒤늦게 개명했다.
(아 그러고 보니 야동 초등학교야.. 학교 이름을 짓던 시절에는 야동이라는 것 자체가 지금처럼 존재하지 않았을 테니 C-bal과는 상황이 좀 다르긴 하다.. ^^)

생각을 해 보라. '죽음'(竹陰)은 멀쩡하게 지명으로 썼으면서, 순우리말과 아무 관계 없는 한자 死(중국어)와 소리가 비슷하다는 이유로 다른 멀쩡한 숫자 4는 훨씬 더 적극적으로 기피했던 것이 한국의 언어 문화였다.
개인적으로 이게 바람직한 현상이라고 생각하지는 않는다. 말과 소리가 먼저이고 그 다음이 문자이지, 말이 문자에 끌려가서 꼭 뭘 봐야만 뜻이 통하는 것은 자연스러운 언어 현상이 아니다.

한글로만 쓰니까 뜻이 제대로 드러나지 않네 하는 면모가 분명 있을 것이다. 하지만 뒤집어 생각하자면 말이 그 따위로 돼 버린 게 문제가 있는 상태라는 것이다. 서유럽· 미국 같은 나라는 표음문자 알파벳만 갖고도 넘사벽 급의 학문이고 사상이고 철학이고 과학 기술을 이룩했지 않은가?

본인 역시 그런 맥락에서 20년 전이나 지금이나 변함없는 한글 전용 지지 소신이다.
물론 지금은 그렇게 옥편 뒤지면서 듣보잡 벽자를 찾아내서 이 소리는 이런 뜻이라고 갖다붙이는 짓 대신, 온통 영어 외래어를 갖다붙이는 게 유행이 돼 있다. 어느 게 절대적으로 더 바람직한 현상인지는 잘 모르겠지만, 후자가 차라리 전자보다는 더 나은 것 같다. 듣는 것만으로 뜻이 변별은 되니까 말이다..

2. and는 접속부사인가

그럼 다음으로 잠시 한국어와 영어를 좀 비교해 보겠다.
한국어에는 체언을 잇는 '과/와' 접속조사, 용언(=구, 절 모두)을 잇는 '며/고' 연결어미, 그리고 문장을 잇는 접속부사(그리고)가 전부 따로 논다. 그러나 영어는 전부 간단하게 접속사 and 하나로 끝이다.

그런데 전통적으로 and는 접속부사로 취급되지 않았는가 보다. but, then, however, moreover, meanwhile 등은 명백히 영어의 접속부사이지만 and는 X and Y로만 쓰는 것을 정석으로 쳤던 듯하다. 프로그래밍 언어로 치면 말 그대로 이항 연산자. ㄲㄲㄲ and는 or과 같은 급이지, but과 호응하지는 않는다는 것이다.

먼 옛날에 MS Word의 스펠링+문법 검사기도 문장을 And로 시작하면 틀렸다고 지적하던 게 내 10대 시절 기억으로 남아 있다. 그 대신 "콤마+소문자 and"로 문장을 길게 이어야 했다. 왜 반드시 저래야만 하는지를 본인은 그 당시 이해하지 못하고 넘어갔다. 성경만 해도 And로 시작하는 문장이 부지기수이고, 특히 옛날 고전 텍스트인 KJV는 훨씬 더 많이 쓰였다. And 금기가 왜 있는지는 잘 모르겠다.

글쎄, 이런 게 아닐까? 원래 '보다'는 조사이기 때문에 "A보다 B가 더 낫다" 형태로만 쓰는 게 맞는데.. 요즘은 그게 부사처럼 쓰여서 건방지게 앞에 나오는 경우가 많다. "보다 나은 미래를 위하여"

옛날에 우리말 바로 쓰기 운동하던 분들이 저건 잘못됐다고 번역투와 더불어서 왕창 지적했었다.
나도 굳이 '더'가 멀쩡히 있는데 '보다'를 일부러 바꿔서 쓸 필요는 느끼지 않기 때문에 자제하고 지낸다.
대문자 And가 한국어로 치면 저런 느낌이 들지 않을까 생각이 문득 든다.

한편, 뉴스 앵커 멘트에서 종종 쓰이듯이 "김 씨는 그러나 사실을 부인했습니다"처럼 접속부사가 문장 맨 앞이 아니라 주어와 도치(?)되는 것도 문법에 어긋난다고 얘기가 많다.
나 역시 어감상 어색해서 개인적으로는 저렇게 안 쓴다. 하지만 저걸 비문으로까지 간주하는 건.. 좀 문법 나치스러운 발상 같다. 영어로도 Mr Kim, however, denied the fact 처럼 콤마와 함께 접속부사를 중간에 잘만 집어넣는걸...

3. 동작상(動作相)

언어에는 제각기 동작상에 대한 관점의 차이가 있어서 한국어로는 ‘죽었다’ 하나뿐이지만 영어로는 you died와 you are dead가 더 세분화돼 있다. (그리고 보통 전자보다는 후자로 번역되는 일이 더 많음)

‘죽다/죽었다’뿐만 아니라 한국어의 용언 중에는 ‘맞다’처럼 동사인지 형용사인지 굉장히 헷갈리고 동사 과거 시제가 사실상 현재 시제의 형용사처럼 돼 버린 물건이 좀 있다.
‘미치다’, ‘틀리다’도 생각해 보자. You are crazy/wrong이 “너 미쳤다/틀렸다”이지 않은가? “미친다/틀린다”는 동작상이 꼬여서 용례가 겉돌고 있으며, 그 와중에 ‘틀리다’는 ‘다르다’의 영역을 야금야금 침범하는 중이다. 총체적인 무질서인 것 같다.

여담이지만 영어 have는 동명사 내지 현재진행형인 having이 존재한다. 하지만 단순히 ‘가지다, 소유하다, 내게 있다’라는 1차 의미일 때는 현재진행형 시제를 사용할 수 없다는 독특한 규칙을 초등학교 영어 수준에서 배우게 된다. have가 현재진행형인 것은 좋은 시간을 보낸다거나 경험하는 등, 2차 파생 의미일 때에만 가능하다.

이런 것도 동작상의 차이로 인해 발생하는 용례 차이라고 볼 수 있다. 그리고 원래 원칙은 저렇지만 관계대명사 앞에서는 "~를 가진"이라는 뜻으로도 is having에서 is가 생략된 꼴이 잘만 쓰인다.;;;.

4. 맞춤법과 띄어쓰기의 난해함

-ㄹ수록: 의존명사 '수'(할 수 있다)를 떠올려서 그런지 '그럴 수록'처럼 띄어 쓰는 경우가 주변에서 많이 보인다. '-수록'은 뭐 다른 형태로 활용되는 게 전무하며 그 자체로 연결어미로 분류된다. 그러므로 붙이는 게 맞다. '그럴수록'
-ㄹ지: 역시 어미인데.. 문제는 얘는 좀 명사화 접사처럼 쓰이는 경우가 많다는 것이다(할지 말지를 결정한다, 할지 말지가 문제이다). 그래서 사람들이 역시 '지'를 의존명사처럼 인지하고 띄어 쓰려는 경향이 있다. 진짜 의존명사인 '줄'도 같이 떠올리는 것 같다. (너 그럴 줄은 몰랐다)
-ㄹ까 봐: 얘는 '할까 보다'라고 분할이 가능하기 때문에 '봐' 앞을 띄운다. "네가 사고라도 당할까 봐 두려웠다" 그래도 다른 띄어쓰기에 비해서는 중요성이 상대적으로 덜한 띄어쓰기에 가깝다.
- 왜냐하면: 단독으로 부사이다. '왜냐 하면'이라고 띄울 필요가 없다.
- 못하다: "저는 그 일을 못 합니다" / "그렇게 되지는 못합니다"
'못'은 부사이고 '못하다'는 동사, 형용사, 보조용언이 다 되는 정신나간(?) 단어이다.

영어 정서법에 비해 우리말의 한글 맞춤법이 더럽게 복잡하고 띄어쓰기가 어려운 건 모든 사람들이 공감하는 현실이다. 왜 그럴까? 이를 원론적으로 따져보면 이렇다.

일단 (1-1) 한국어가 언어 구조적으로 어미 접사가 어간 뒤에 덕지덕지 복잡하게 붙는 걸 좋아하는 교착어이고 애매한 품사통용어가 많기 때문이다.
이 한 글자짜리 형태소를 접사나 어근이라고 보면 붙이고, 고유한 부사나 명사라고 보면 띄운다. 그런데 그 기준과 경계가 엿장수 마음대로가 되기 십상이다..;;.

가령, 본인은 내 개인 블로그 한정으로 성과 이름도 띄어 쓰고 어지간한 사람들보다 띄어쓰기를 더 하면 더 하지 결코 덜 하지는 않지만.. '전세계'에서 '전'과 '세계'를 띄어야 하는 건 개인적으로 좀 납득이 안 된다. 全 정도면 그냥 접두사로 보거나, 쟤만이라도 거의 한 단어로 굳은 것을 인정할 필요가 있지 않을까?

(1-2) 게다가 띄어쓰기 말고 사이시옷도 말이다. 왜 '물고기'는 '꼬기'이고 '불고기'는 '고기'인가,
'볶음밥'은 '밥'이고 '비빔밥'은 '빱'인가,
그럼 '김밥'은 밥인가 빱인가 이런 거는.. 정말 랜덤이고 개연성이 없다. 규칙을 찾을 수 없다. 한국어가 원래 그런 언어다.

그리고 (2-1) 문자 차원에서는 역설적으로 모아쓰기 때문이다.
글자가 단독으로도 적당히 음절 경계 변별이 뛰어나기 때문에 어느 정도는 띄어쓰기를 안 해도 알아보는 데 지장이 없다. 그런데 그렇다고 띄어쓰기를 전혀 안 할 수는 없다.
그러니 한 단어로 붙여 쓰는 예외를 정하는 게 난감하고 띄어쓰기 규칙이 복잡해지는 것이다.

(2-2) 사이시옷은 말부터가 제멋대로인데 그건 음절 단위로 딱딱 떨어지지 않는 초분별 요소에 속하며 한글이라는 체계 하에서 표현하기가 몹시 난감하다. 사이시옷 규정이 캐 더럽고 구린 이유가 이 때문이다. 한자어의 경우 "숫자 횟수 곳간" 등의 몇 개만 예외로 인정하고 나머지는 그냥 표기하지 않기로 정해 버렸다.

알파벳 같은 풀어쓰기형 문자를 썼으면 띄어쓰기는 약간이나마 더 쉬워졌을 수 있다. 체언과 조사도 띄우고 좀 헷갈린다 싶은 건 몽땅 띄우고, 좀 아쉬운 건 하이픈으로 연결하고.. 사이시옷이나 축약은 ' 점 하나 찍어서 해결해 버리면 된다.

다시 말해 모아쓴 한글의 덩어리 단위가 '초분절적 변별요소'까지 포함한 한국어의 형태소· 음운 단위보다 크기 때문에 이 모든 문제가 발생하는 것이다. 한글의 큰 장점인 동시에 그로 인해 얻는 부작용인 셈인데, 쉽지 않은 문제이다.

여담이지만, 영어권에서는 심지어 숫자와 단위 사이도 꼬박꼬박 띄운다. 100MB, 50kg라고 안 하고, 우리로서는 어색하게 느껴지겠지만 100 MB, 50 kg라고 쓴다는 것이다.
숫자와 알파벳 이렇게 문자의 종류가 달라지기 때문에 붙여도 전혀 모호하지 않을 것 같은데, 이는 단어와 띄어쓰기에 대한 인식이 서양 언어 문화권과 동양의 그것이 서로 다르기 때문이다.

Posted by 사무엘

Tag: 영어, 한국어, 한글
Response: No Trackback , 2 Comments
RSS :: http://moogi.new21.org/tc/rss/response/1828

Comments List

신세카이 2020/12/26 21:00 # M/D Reply Permalink

안녕하세요
맞춤법에 대하여 저의 의견은

룰 원칙 규칙이라는 게
그걸 대부분의 사람들이 지키지 못하는 것이라면
사람들에게 그럴 지키라고 할 것이 아니라
그 룰을 사람들이 지킬 수 있게끔 바꿔야 맞거든요

맞춤법은 예외 규정이 너무 많아서 문제가 있어요
띄어쓰기 같은 경우는 사람들 많이 헷갈리는 게
조사는 붙여쓰고 의존명사는 띄어쓰는데
똑같은 단어가 경우에 따라서 조사가 되고
다른 경우에는 의존명사가 되기도 해서
그렇게까지 따질 필요가 있나 싶네요
그걸 구별해서 좋은 게 얼마나 되고
그걸 구별 안 한다고 나쁜 게 얼마나 되는지
마치 조선시대 쓸데없는 명분에만 집착하는 선비들을 보는 거 같은
시간과 에너지를 허비하는 느낌이거든요

제가 느끼기에는 조사나 의존명사나 다 붙여쓰는 쪽으로
개정되고 예외규정을 대폭 축소해서
왠만하면 붙여쓰고 그냥 소리나는 대로 쓰는 식으로 하는 게 더 좋다고 봅니다

글자로 중의적인 표현이 된다고 해도 괄호로 부연설명을 하면 될 것이고
요즘이 종이와 잉크가 부족한 시대도 아니고
유투브로 대중과 직접 소통하기도 하는데
한글은 모아쓰기가 기본이기 때문에
이 모아쓰기 자체에 일부분 띄어쓰기 효과가 이미 들어가거든요
맞춤법은 가독성이 떨어지지 않는 선에서
모두가 지킬 수 있게 개정될 필요가 있다고 봅니다
1. 사무엘 2020/12/27 05:55 # M/D Permalink
  
  본문에서도 언급했듯이 띄어쓰기라는 건 품사의 종류에 따라 달라지는데, 우리말엔 이랬다 저랬다 애매한 품사통용어가 너무 많습니다.;;;
  개인적인 생각은 누구나 명백하게 띄어 쓰는 필수 띄어쓰기, 그 다음으로 애매하고 상대적으로 덜 중요하기 때문에 음절이 짧을 때는 붙이는 걸 허용하는 띄어쓰기.. 이것 기준도 명문화할 필요가 있어 보입니다.
  같은 정보를 표현하더라도 한국어 문법이 객관적으로 절대적으로 영어 문법보다 정보량이 더 많고(...) 더 복잡하긴 한 것 같네요.. ㅜㅜ

Windows 95와 확장완성형의 추억

Posted at 2020/11/09 08:35
Filed under 정보, 리뷰/컴퓨터, 소프트웨어

오늘날처럼 컴퓨터의 문자 인코딩이 유니코드로 천하통일이 되기 전엔 국내에서는 2바이트 완성형과 조합형 한글 코드 논란이 가라앉지 않고 있었다. 완성형은 94*94 격자 모양의 단순하고 국제 규격에 부합하는(?) 방식으로 인코딩돼 있었지만 한글의 구성 원리를 무시하고 한글을 난도질했다는 비판을 떠안고 있었다.

완성형은 “한글 vs 비한글”을 구분하고 처리하는 데 유리했다.
그에 비해 민간에서는 “한글 글자 vs 낱자”의 처리가 더 용이한 조합형이 훨씬 더 대중적으로 쓰였다. 그도 그럴 것이 640KB 기본 메모리를 1KB라도 더 확보하려고 목숨 걸던 시절, 메모리 모델이 어떻고 far 포인터가 어떻고 이러던 시절에.. 한글 처리를 위해서 2350자 테이블을 내장하고 다닌다는 건 성능과 효율로나 민족 정서(?)로나 도저히 용납할 수 없었기 때문이다.

허나, 명목상 국가 표준은 완성형이었기 때문에 마소 역시 도스와 Windows의 한글판을 전적으로 완성형 기반으로 만들었다. 완성형은 두벌식과 마찬가지로 그 시절에 소프트웨의 한글판을 필요 이상으로 더 무겁게 만든다는 비판을 피하기 어려웠다. 다만, 이건 애초에 우리나라에서 표준을 이상하게 만든 게 잘못이지 마소의 잘못은 아닐 것이다.

Windows 3.1이야 이런 배경에서 만들어졌기 때문에 한글 IME로 똠, 펲 같은 글자가 입력되지 않았으며, 또ㅁ, 페ㅍ이라고 글자가 풀어졌다. ‘썅’은 2350자에 속해 있는데 중간의 ‘쌰’는 그렇지 않기 때문에 ‘썅’까지 덩달아 입력할 수 없는 것은 유명한 사실이다.

그리고 처음부터 ‘쌰’를 입력하면 ‘ㅆㅑ’라고 잘 갈라지는데, 두벌식에서 ‘있’ 다음에 ㅑ를 입력하면 ‘이ㅆㅑ’가 되지 않고 뭔가 올바른 동작이 나오지 않았던 걸로 본인은 기억한다.
이런 것들이 한글 입력기, 특히 특정 문자 입력 제한이 걸린 두벌식 입력 방식을 구현할 때 고려해야 하는 복병이다. 날개셋이야 이 분야 전문이기 때문에 그런 것들도 다 정상적으로 처리해 준다.

그럼 차기 버전인 Windows 95는 상황이 어땠을까?
Windows 95는 오늘날 세계 표준 문자 집합 겸 인코딩인 유니코드, 특히 유니코드 중에서도 버전 2.0이 한창 제정되고 있던 와중에 개발되고 먼저 출시되었다. 이건 굉장히 중요한 사건이었다.

우리나라에서는 수 년 전 유니코드 1.x 시절에는 완성형 2350자만 그대로 제출하는 삽질을 저지른 적이 있었다. 그러다가 유니코드 2.0에서 문자 체계를 싹 재정비하는 인류 역사상 마지막 기회가 찾아왔을 때.. 한글을 11172자 모두 순서대로 등록하려는 과감한, 역사적인 계획을 세웠다. 그래야 글자 코드값으로 자모 정보를 쉽게 추출할 수 있기 때문이다.
이건 스타에다 비유하자면 종족 밸런스를 앞으로 다시는 바꾸지 않는 1.08 패치와 비슷한 타이밍이었다.

그런데 그렇게 하려면 세계를 설득해야 했다.
다른 나라들은(특히 일본과 중국도) BMP 영역의 1/5 가까이를.. 그것도 사용자가 1억도 채 안 되는 언어의 고유 문자로 싹 도배하려는 한국을 고깝게 보고 이의를 제기했다.
유니코드 회의에서 누가 발언권을 얻으려면 한화로 억대에 달하는 회원 등록비도 많이 내야 하는데, 이런 비용을 한컴 같은 기업에서 많이 후원해 줬다. 저 때는 삼성전자도 훈민정음 워드 같은 프로그램이나 간간이 만들었지, 지금 정도로 IT계에 세계구급 영향을 행사하는 기업이 아니었다는 걸 생각해 보자!

이런 우여곡절 끝에 한글 11172자는 1996년 7월, 유니코드 위원회의 승인을 받아서 성공적으로 등재되었다. 이거 내막을 아는 사람이라면 이것도 1981년 서울 올림픽 바덴바덴의 기적에 맞먹는 외교 승리라고 여기고 칭송한다. 올림픽은 52:27의 압승이라도 했지만 11172자 등재는 찬성이 반대를 한 표 차이로 정말 간신히 꺾은 거라고 한다.

그런데 문제는 Windows 95는 유니코드 2.0이 정식으로 발표되기 미묘하게 약간 전에 출시되었다는 것이다. 한글판도 1995년 11월 말에 출시됐으니..;;
그럼에도 불구하고 각종 글꼴과 코드 변환 테이블은 이미 유니코드 2.0을 기준으로 맞춰져 있다. 어떻게 이게 가능했을까?

유니코드 2.0에다가 한글을 2350자가 아니라 11172자를 몽땅 집어넣기 위해서는.. 근거가 필요했다. 유니코드가 아닌 기존 2바이트 인코딩 중에도 한글 11172자 표현이 가능한 놈이 있어야 했다.
그럼 Windows가 처음부터 조합형 코드로 개발됐으면 좋았겠지만 모종의 이유로 인해 그리 되지 못했고.. 결국은 기존 완성형에다가 지저분한 독자적인 편법을 동원해서 비완성형 한글을 끼워넣을 수밖에 없었다.

이게 그 이름도 유명한 확장완성형, 일명 CP949 인코딩이다.
KS X 1001은 한글 2350자, 한자 4888자 등을 포함하는 그 2바이트 완성형 문자 집합/코드이고, KS X 1003은 역슬래시를 원화로 대체한 그 한국 특유의 1바이트 영문/숫자 아스키 문자 집합이다. 이 둘을 합쳐서 EUC-KR이라고 부르고, 여기에다가 확장완성형까지 추가하면 CP949가 된다. 집합 관계를 정리하자면 (KS X 1001 ∪ KS X 1003) = EUC-KR ⊂ CP949이다.

(참고: KS X 1002는 완성형 형태로 현대 한글, 옛한글, 한자를 추가로 정의하는 규격이다. 하지만 KS X 1001과 병용하는 인코딩 규칙이 제정되지 않아서 컴퓨터에서 실제로 쓰인 적은 없는 캐잉여이다. 얘는 애초에 유니코드 1.1에다가 글자를 추가로 등록할 근거를 마련하려고 어거지로 만든 문자 집합에 지나지 않는데, 이제는 유니코드 1.1 자체도 오래 전에 흑역사가 됐으니 더욱 의미와 존재감이 없다.)

이렇듯, 확장완성형이라는 건.. 비록 처음에 첫단추를 잘못 끼우긴 했지만 뒤늦게 유니코드 2.0에라도 한글을 11172자를 순서대로 다 집어넣기 위해서 도입한 2바이트용 타협 절충안이었다. 마소에서는 한국 편을 들면서 도와 주면 도와 줬지, 최소한 상황을 더 나쁘게 만든 건 절대 없었다.

그럼에도 불구하고 1990년대 당시에는 마소에서 완성형에다가 그보다 더한 확장완성형까지 집어넣어서 한글을 난도질한다고 엄청난 논란이 일었다. 심지어 한컴에서도 아래아한글 도움말 및 제품 광고에서 이 괴담을 어느 정도 활용하고 부추겼다.

왜 한글을 난도질 하느냐 하면, 확장완성형은 이미 2350가 조밀하게 순서대로 배치된 건 그대로 유지하면서 나머지 틈새에다가 비완성형 8822자를 집어넣는 형태가 되기 때문이다. 그러면 겉보기로는 11172자가 모두 배당되지만 문자의 코드값 순서가 그 문자의 사전상의 배열 순서와 일치하지 않게 된다. 사전 순 정렬을 하려면 코드값을 별도로 보정을 해야 한다.

물론 코드값만으로 문자를 정렬할 수 있는 게 가능하지 않은 것보다는 더 직관적이고 깔끔하고 낫다. 하지만 오늘날 유니코드는 시간 차를 두고 뜬금없이 여기저기 지저분하게 추가된 문자들이 워낙 많기 때문에(특히 한자~!!), 거시적으로 봤을 때 코드값만으로 문자들을 정렬하는 건 어차피 불가능하고 무의미해져 있다.

뭐, 이것도 논란이 다 끝난 오늘날의 관점에서 보니까 별것 아닌 것처럼 보이지, 2바이트 한글 코드만 단독으로 생각하던 시절에 확장완성형이 답답하고 지저분하게 보이는 것도 부인할 수 없어 보인다.
그리고 마소는 훗날 IMF 때 경영난에 빠진 한컴에다가 돈줄을 대 주는 대신 아래아한글의 개발을 중단시키려 했던 바 있다. 그러니 확장완성형에 대한 불필요한 오해 실드를 감안하더라도 마소에 대한 국민 감정이 마냥 좋을 수만은 없었을 것이다.

아무튼, 그 시절 Windows 95는 유니코드 2.0의 정식 도입을 선도하면서 온전한 한글 11172자의 입출력이 가능해지려는 과도기에 연결 고리 역할을 했다.
참고로 95 말고 Windows NT는 도스 짬뽕이던 기존 Windows와 달리, 1993년 첫 버전부터 2바이트 wide char 유니코드 기반이었다. 얘도 유니코드 2.0이 정착할 무렵이 돼서야 본격적으로 정식 한글판이 나올 수 있었다. 3.51부터 말이다.

Windows NT 3.5 한글판의 ‘베타 버전’ 평가판. 이건 Windows NT의 역사상 최초로 만들어진 한글판으로, 정말 엄청난 희귀 레어템이다. 마치 Windows 2.x의 듣보잡 한글판처럼 말이다.

저 화면에서 한글 글꼴은 기존 Windows 3.1의 돋움체(큐닉스 제작) 8포인트이다. 하지만 영문은 정체를 모르겠다. W와 i의 폭이 다른 가변폭인 걸 보니 같은 돋움체의 영문은 아닌데, Arial은 물론이고 심지어 후대에 등장한 Tahoma나 Verdana까지 그 어떤 영문 글꼴도 저 크기에서 9나 5의 획이 저렇게 생기지 않았다.

그런데 저 영문 모양이 내가 보기에 전혀 낯설지는 않다.
마소에서 개발한 1990년대 옛날 프로그램의 스플래시 화면 내지 About 대화상자에서 Copyright 문구가 저런 스타일의 글꼴로 표시된 걸 본 것 같기도 한데.. 정확한 정체는 모르겠다.

내 기억이 맞다면 Windows NT 3.51의 정식 한글판은 3.51의 특성상 Windows 3.1과 같은 구형 UI 기반임에도 불구하고 한글 글꼴은 이미 Windows 95 한글판과 동일한 한양 시스템 글꼴로 갈아탔다.
Windows NT의 역사에서 유니코드 1.1 방식 한글이 존재했던 적은 내가 아는 한 없다. 만에 하나 있다면 그건 조합형 코드를 잠깐 썼었다고 전해지는 MS-DOS의 초창기 한글판만큼이나 완전 전설 속에나 존재하지 싶다.

이렇게 95건 NT건 온전한 11172자짜리 유니코드 2.0 기반임에도 불구하고.. 95의 한글 IME를 써 보면.. 구버전인 Windows 3.1과 마찬가지로 여전히 2350자밖에 입력할 수 없었다. 다만, “있+ㅑ”일 때는 ㅆ이 뒷글자로 넘어가지 않도록 로직이 약간 개선돼 있었다.;; ㅎㅎ

사실, Windows 95의 한글 IME는 확장완성형을 기반으로 11172자를 모두 입력하는 기능도 구현은 돼 있었다. 하지만 그걸 기본적으로는 봉인해 놓았으며, 사용 여부를 별도의 유틸리티를 통해 따로 지정할 수 있었다!
바로, C:\Windows 디렉터리에 있는 iso10646.exe라는 30KB짜리 자그마한 프로그램이다. 역시 괜히 과도기였던 게 아니다.

프로그램 UI에는 유니코드니 완성형이니 같은 말은 없고 그냥 "ISO 10646 사용 여부"가 전부였다. 유니코드의 문자 집합을 가리키는 표준 규격 명칭이 ISO 10646이기 때문이다.
전체 사용 아니면 특정 프로그램에서만 사용.. 이런 걸 지정해 주면 타 프로그램에서 똠쌰 등등의 글자를 입력할 수 있었다.

신기한 것은 Windows용 프로그램뿐만 아니라 도스용 mshbios의 한글 입력기까지 이 설정의 영향을 받았다는 것이다. 설정값을 레지스트리가 아니라 파일에다 저장했던가 보다. 아니면 도스에서도 레지스트리 파일에 저수준으로 접근을 했던지..

확장 한자의 사용 여부를 옵션으로 지정하는 것처럼 2350/11172자 입력 범위도 그냥 IME의 옵션으로 지정하면 됐을 것 같은데 굳이 별도로.. 제대로 문서화되지도 않은 프로그램에다 저렇게 꽁꽁 숨겨 놨다.
부작용을 어지간히도 의식했는지 각종 프로그램별로 입력 범위를 달리 지정할 수 있게 신경을 썼다. 즉, 여느 평범한 IME 옵션이 아니라.. 날개셋으로 치면 응용 프로그램별 동작 보정 옵션과 비슷한 걸로 취급한 것이다.

훗날 MS Office 97이 나왔고.. 그 중 Word는 단품으로 따로 팔기도 했다.
마소 역시 한컴 진영의 조합형 한글 마케팅을 많이 의식했는지, 신문 광고에서 조그맣게.. "우리 마소 제품에서도 똠방각하 펩시콜라 찦차를 입력할 수 있습니다." 문구와 함께, iso10646 프로그램 사용법을 소개해 놓기도 했었다.

본인은 학창 시절에 그 광고를 직접 본 기억이 있다.
지금도 구글에서 iso10646.exe 라고 검색해 보면 옛날 흔적을 찾아볼 수 있다.

마소의 전략은.. 요런 프로그램을 몰래 집어넣은 뒤, 확장완성형이 계속 부정적인 피드백을 받으면 Windows 95는 그딴 거 지원한 적 없다고 발뺌 하면서 2350자 기존 완성형에만 머무르면 될 것이고,
한글을 2350자밖에 입력 못 한다고 욕먹는 게 더 크면, 저 비장의 프로그램을 음지에서 양지로 끄집어내려는 속셈이었던 것 같다. 쉽게 말해 간보기 전략이다.

그러다가 Windows 98부터는 이런 간보기가 없어지고 그냥 모든 프로그램에서 확장완성형까지 활용한 11172자 한글 입력이 되기 시작한 것이다. 나중에 Office 2000과 함께 옛한글 입력기가 도입됐을 때는 이제 마소의 제품이 옛한글의 표현 능력도 아래아한글 97과 한컴 2바이트 코드를 추월하게 됐다.

이상이다. “라떼는 말이야” 같은 얘기가 좀 길어졌다.. ^^
25년 전, Windows 3.1에서 95로 넘어간 것은 정말 엄청난 격변이었다. 하지만 Windows 95와 98 사이에도 컴퓨터 환경은 굉장히 많이 바뀌었다.
가정용 PC의 평균 램 용량이 4~16MB대이던 것이 그 짧은 기간 동안 32~128MB로 순식간에 뻥튀기 됐다. PC 규격도 이것저것 많이 바뀌고.. 또 무엇보다도 이 사이에 유니코드 2.0이 제정되었다. 운영체제 차원에서 UTF-8 인코딩이 직접 지원되기 시작한 최초의 Windows가 바로 98이다.

Windows에서 완성형 2350자에 구애받지 않고 한글 입력이 가능해지기까지 이런 우여곡절이 있었다.
Windows 98은 현대 한글이 완전히 해금됐고, 지난 Windows 8 (2012)부터는 옛한글까지 해금됐으니 참 격세지감이다. 그 사이의 XP는 입력 프로토콜이 IME에서 TSF로 넘어간 과도기였고 말이다.

그런데 정작 옛한글 말뭉치를 엄청나게 많이 구축한 21세기 세종 계획은 이것보다 미묘하게 일찍 진행된 바람에 비표준 한양PUA 방식으로 결과물을 산출해 버렸으니 타이밍이 안습했던 구석이 있다.

Posted by 사무엘

Tag: 역사, 완성형, 윈도우, 유니코드, 한글, 확장완성형
Response: No Trackback , No Comment
RSS :: http://moogi.new21.org/tc/rss/response/1817

ㄱ+ㄱ으로 ㄲ/까, ㄱ+ㅅ으로 ㄳ/ㄱ사를 동시에 만들기

Posted at 2020/10/15 08:36
Filed under 날개셋 프로그램

한글을 입력할 때 ㄷ, ㅂ, ㅈ 같은 자음을 연타해서 각각 ㄸ, ㅃ, ㅉ을 만드는 건 명백하게 초성 문맥에서 행해지는 일이다. ㄸㅃㅉ은 종성에 쓰이지 않기 때문이다(현대 한글 기준). 그리고 ㄲ과 ㅆ은 비록 종성에서도 쓰이긴 하지만 얘도 가능한 한 초성 문맥에서 처리하는 게 동작의 일관성 차원에서 더 좋다.

이들과는 반대로 ㄱ+ㅅ으로 ㄳ, ㄹ+ㅁ으로 ㄻ 등을 입력하는 건 종성 문맥이다.
세벌식은 초성 글쇠와 종성 글쇠가 물리적으로 서로 다르기 때문에 초성의 결합이 가능한 상황과 종성의 결합이 가능한 상황이 아주 명확하게 구분된다. 하지만 두벌식은 어떻게 구현하느냐에 따라 초성과 종성을 뭉뚱그린 자음의 결합 가능 여부가 달라진다.

세벌식 구현하듯이 두벌식을 구현한 프로그램(아래아한글, macOS, 날개셋 기본 설정)이라면 초성 입력 문맥에서는 ㄸㅃㅉ의 결합만 가능하다. 그리고 두벌식 기반 옛한글 입력 환경이라면 역시 무조건 이런 식으로 동작하게 된다.

한편, 마소 한글 IME는 초성 쌍자음의 연타 결합을 지원하지 않고 ㄳㄶㄻ 같은 겹받침을 단독으로 입력할 수 있다. 초성까지도 언제나 종성 문맥에서만 동작하기 때문이다. 이 개념은 날개셋 한글 입력기도 오래 전 6.X 후반 버전에서 두벌식 종성이라는 개념으로 뒤늦게 수용한 바 있다.

그런데 문제는.. 초성의 결합과 종성의 결합을 모두 지원하는 프로그램도 있다는 것이다.
초성과 종성의 구분이 없는 두벌식에서 ㅂ+ㅂ는 ㅃ, ㅂ+ㅅ는 ㅄ가 되면서 그 상태로 ㅏ를 누르면 각각 ‘빠’와 ‘ㅂ사’(ㅄㅏ가 아님!)가 된다.
내가 아는 프로그램으로는 새나루, 그리고 먼 옛날(2003년..)에 남북 합작으로 개발됐던 Unicode CJK IME도 이 범주에 든다.

이 동작을 날개셋으로 구현하는 건 가능할까?
결론부터 말하자면 가능은 하다.
하지만 이건 날개셋 한글 입력기의 내부 구조라는 관점에서 보면 초성 문맥이 갑자기 종성으로 널뛰기 하듯이 바뀌는 굉장히 예외적이고 변칙적인 동작이다. 그래서 평소에 잘 쓰이지 않는 설정을 많이 바꿔 줘야 한다. 이 글에서는 날개셋에서 “ㅃ빠”와 “ㅄㅂ사”의 입력이 모두 가능한 두벌식 입력 설정을 만드는 걸 실습해 보겠다.

먼저, “기본 글자판 설정” 빠른설정을 이용해서 종성 지향이 아닌 일반적인 두벌식 입력 설정을 세팅한다. 자음 처리 방식을 “성분별로 따로”로 지정하고, 쌍자음의 연타 입력은 “모두 허용”을 지정하도록 한다.

그 다음으로 우리가 할 일은 (1) 초성 문맥에서 ㄴ 다음에 ㅈ, ㅂ 다음에 ㅅ 따위가 입력됐을 때 조합 중인 글자를 초성이 아닌 종성으로 한꺼번에 바꾸는 것이다. 이건 글쇠배열 수식이 담당해야 한다. ㅅ의 경우, 수식은..

T<=1 ? D==1 ? H2|_GS|0xFFFA : D==36 ? H2|_RS|0xFFFA : D==86 ? H2|_BS|0xFFFA : H2|S_ : H2|_S

으로 가장 복잡하다. 원래 ㅅ만 초성 또는 종성 형태로 곱게 입력하는 T<=1 ? H2|S_ : H2|_S 라는 수식에서 초성 문맥에 대해

T<=1 ? {블라블라블라 ? XXXXX :} H2|S_ : H2|_S

이라는 항이 길게 추가된 것이다. ㅅ을 입력하는 자리에서는 ㄳ, ㄽ, ㅄ을 담당해야 해서 수식이 가장 길다.
입력된 글쇠의 초중종성 값은 A~C에 들어있고 현재 조합 중인 글자의 초중종성 값은 D~F에 들어있다. D의 값 1은 ㄱ을 나타내고 36은 ㄹ, 86은 ㅂ을 의미한다.

그때의 리턴값은 H2|_GS|0xFFFA 이런 꼴인데.. H2는 이 글자가 다음에 중성이 이어졌을 때 도깨비불 현상을 일으키고 초성 문맥으로 넘어가는 두벌식 한글임을 뜻한다. 그리고 밑줄로 시작하는 GS, RS, BS 같은 명칭은 종성을 뜻한다.
0xFFFA는.. 해당 성분, 여기서는 초성을 무조건 0으로 바꿔서 없애는 특수 낱자이다. 그래서 초성 ㄱ 다음에 이런 부류의 수식이 입력되면 종성 ㄳ으로 바뀔 수 있다.

이런 식의 변형을 ㄱ(ㄺ), ㅎ(ㄶㅀ), ㅁ(ㄻ), ㅂ(ㄼ), ㅈ(ㄵ), ㅌㅍ(ㄾㄿ)에 모두 해 줘야 한다. 가령, ㅈ 자리는 다음과 같다.

T<=1 ? D==12 ? H2|_NJ|0xFFFA : H2|J_ : H2|_J

이렇게 해 주면 날개셋에서도 초성 ㄴ 다음에 ㅈ을 입력했을 때 글자가 갑자기 종성 ㄵ으로 바뀌는 걸 볼 수 있다.
하지만 이 상태로 중성을 입력해도 ‘ㄴ자’가 되지는 않으며 중성이 지금 조합 중인 글자에 접수된다.

이걸 보정하려면 먼저 (2) 오토마타를 수정해 줘야 한다.
초성을 없애는 0xFFFA도 오토마타의 관점에서는 nonzero, nontrivial인 초성이다. 그렇기 때문에 초성 첫 타가 입력된 뒤인 1번 상태의 수식 A ? 1 : B ? 2 : C ? 3 : 0을..
A&&A<=255 ? 1 : B ? 2 : C ? 3 : 0

정도로 수정해 줘야 한다. 그래야 초성 입력만으로 ㄳㄵㄻ 등이 입력됐을 때, 오토마타의 상태가 종성인 3번으로 바뀌며 다음 중성이 현재 글자가 아닌 다음 글자로 가게 된다.

그리고 마지막으로.. (3) 특수 도깨비불 규칙을 수정해야 한다. (제어판의 ‘낱자 처리’ 탭)
이렇게 초성에서 종성으로 인위적으로 강제로 바뀐 겹받침은 한글 입력기의 관점에서는 입력 과정에서의 개연성이 파악되어 있지 않다. 즉, ㄳ을 ㄱ+ㅅ으로 분할해야 한다는 것을 알지 못하기 때문에 도깨비불 현상이 발생하더라도 ㄳ을 통째로 뒷글자 초성으로 보내 버린다. 이는 올바른 결과가 아니다.

그렇기 때문에 현대 한글 겹받침에 대한 규칙이 등록되어 있어야 하는데.. 이건 내정값을 살펴보면 ‘현대 겹받침’이라고 ㄳ부터 ㅄ까지 11개가 이미 등록된 게 있다. 그걸 불러오면 된다. 겹받침을 원래대로 종성 문맥에서만 입력한다면 기재할 필요가 없는데 초성 문맥에서의 입력 때문에 필요해진 것일 뿐이다.

이런 작업을 해 주면 날개셋에서도 두벌식의 초기 상태에서 초성 ㄲ와 종성 ㄳ을 동시에 처리할 수 있다.
왠지 좀 비효율적이고 삽질스러워 보이지만.. 날개셋의 현 체계에서는 이보다 더 깔끔하게 동일 동작을 구현할 방법은 존재하지 않는다. 초성이 갑자기 그렇게 종성으로 널뛰기로 바뀌어야 할 논리적인 근거가 없기 때문이다.

한글 입력기 중에는 두벌식과 세벌식, 그리고 현대 한글과 옛한글의 입력 로직이 프로그램 코드 차원에서 완전히 분리되어 있는 편이다. 마소 IME는 그럴 거라고 추정되며, 오픈소스인 libhangul도 그러하다. 그래서 초성에서의 종성 겹받침 결합이 두벌식 현대 한글을 위한 별도의 로직으로 구현돼 있다.

하지만 날개셋의 경우 두벌식이건 세벌식이건 모두 범용적인 동일 로직으로 처리되고, 초중종 성분별로 낱자 결합 규칙이 존재할 뿐이다. 그렇기 때문에 초성을 종성으로 갑자기 바꾸는 건 선뜻 수용 가능한 동작이 아니다.
뭐, 굳이 넣자면 초성만을 위해 0xFFF? 같은 특수한 의미를 갖는 코드값을 추가할 수는 있다. 하지만 내 프로그램에 그런 걸 넣지는 않을 것이고 그냥 이렇게 우회해서 동일 동작을 구현 '가능'하다는 것만으로 놔둘 생각이다.

이런 두벌식에 비해 세벌식은 도깨비불 현상 없고 한글의 모아쓰기 구조와 직관적으로 대응하기 때문에 입력 방식으로서 처리하기가 얼마나 편한지를 알 수 있다.
물론 초성과 종성에 같은 자음을 사용한다는 점 때문에 두벌식 사고방식이 편한 것도 있다. 하지만 현실에서는 초중종성을 한데 모은다는 특성을 살리는 게 더 편리하다.

Posted by 사무엘

Tag: 날개셋, 오토마타, 입력기, 한글
Response: No Trackback , No Comment
RSS :: http://moogi.new21.org/tc/rss/response/1808

« Previous : 1 : 2 : 3 : 4 : 5 : ... 6 : Next »

그런즉 이제 애호박, 단호박, 늙은호박 이 셋은 항상 있으나, 그 중에 제일은 늙은호박이니라.

- 사무엘

Notices

Authors

사무엘

Recent Trackbacks

Calendar

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Bookmarks

Site Stats

Total hits:: 3940487
Today:: 1155
Yesterday:: 2118

Subscribe to RSS articles Subscribe to RSS responses Subscribe to ATOM articles Subscribe to ATOM responses

김 용묵의 절대공간 - 블로그

Search Results for '한글'

55 POSTS

월드컵체를 볼 수 있는 철도역

표준어· 맞춤법에 대한 생각

Comments List

인공지능(AI) 기술이 펼치는 세상

세계 문자들의 기계화 난이도

여러 단어들의 형태와 의미

날개셋 한글 입력기 사용 경험담

한글 전용에 대한 개념 재정리

한국어 맞춤법, 영어 단어 등의 의문

Comments List

Windows 95와 확장완성형의 추억

ㄱ+ㄱ으로 ㄲ/까, ㄱ+ㅅ으로 ㄳ/ㄱ사를 동시에 만들기

Tag Cloud

김 용묵의 절대공간 - 블로그 - 최근 공지

Notices

Archives

Categories

Authors

Recent Posts

김 용묵의 절대공간 - 블로그 - 최근 글

Recent Comments

김 용묵의 절대공간 - 블로그 - 최근 댓글

Recent Trackbacks

Calendar

Bookmarks

Site Stats