언어 잡설

오랜만에 전공 관련 잡설을 끄적인다.

1. 요즘 나오는 옥편이라면 각 한자들마다 글자의 유니코드 번호는 꼭 수록해 줘야 하지 않을까 싶다. 컴퓨터 시대에 저 정보는 하다못해 필순보다도 훨씬 더 필요하고 유용할 것이다.

2. 한자는 입력하고 다루는 데는 굉장히 불편하지만, 뜻글자라는 특성상 한자가 적당히만 쓰이면 형태소 분석과 의미 파악에는 굉장히 유리하다. 한-일 번역과 일-한 번역의 난이도의 차이를 생각해 보면 명백하다. 일본어는 처음에 입력하기가 느리고 불편하지만, 나중에 자연어 처리에는 다소 편할 수 있다는 뜻.
그와 반대로 한국어는 한글로 입력은 전광석화처럼 할 수 있지만 그만큼 소리만으로 기계가 힘들게 유추해야 하는 정보가 많으며, 언어 자체도 구조가 미치도록 판타지 다이나믹 귀걸이 코걸이 식이다 보니 자연어 처리 입장에서는 여간 까다로운 게 아니다.

3. 카이스트에서는 100% '재수강'이라는 용어만 쓰이지만, '재이수'라는 말도 있다는 건 연세대에 가서 처음 알았다.
카이스트에서는 봄학기, 가을학기라고 학기를 구분하지만 연세대는 그냥 고등학교 이전처럼 1학기, 2학기를 쓴다.
인문계 대학원에서는 교수가 다른 교수를 일컬을 때나 강의실에서 학생이 교수를 부를 때 '선생님'이라는 말을 쓴다. 심지어는 나이 많은 학생끼리도 친해지기 전에는 서로 선생이라고도 한다.
그러나 이공계 대학원에서는 여전히 '교수님'이 주도적인 것 같다.
이런 일련의 차이를 혹자는 '학교 방언'이라고 풀이하더라.

4. 이기다, 지다, 틀리다, 맞다, 모르다 같은 용언은 영어와 비교했을 때 용도에 따라 시제가 조금씩 일치하지 않는 면모가 있다.
격투 게임 같은 데서 흘러나오는 You win 같은 멘트를 '네가 이긴다'라고 번역하지는 않으며,
You are wrong도 '네가 틀리다'라고는 절대로 번역되지 않는다. wrong, incorrect를 언제나 과거 시제로 번역하다 보니 정작 현재 시제인 '틀리다'는 자꾸 '다르다'라는 뜻으로 이상하게 꼬이고 있는 것 같다.

5. 학교에서 구수한 옛한글들이 잔뜩 찍혀 있는 어느 옛날 한글 성경을 봤는데... '밥팀례'라는 희한한 단어가 있더이다. 밥티슴(baptism)과 침례의 합성어인지? 우리 선조들의 작명 겸 번역 센스에 감탄했다.
아울러, 개역성경도 '사단'이라고 적어 놓은 Satan을, 훨씬 더 옛날 성경이 '사탄'이라고 더 정확하게 표기하고 있었다.

6. 폐사: 가축이 폐사하는 것 말고 弊社 또는 ?社는 자기 회사를 겸손하게 낮춰 일컫는 말이다.
그러니 비즈니스 메일이나 광고에서 자주 볼 법도 한 단어 같은데.. 본인은 태어나서 지금까지 폐사라는 단어를 본 곳은 자동차 취급 설명서가 전부이다. -_-;;; 그 업계만의 방언이기라도 한 걸까? '폐사가 보증하는 순정 부품을 사용하시기 바랍니다. / 주행 중 이 경고등이 갑자기 켜진다면 폐사 서비스 센터에서 정비를 받으시기 바랍니다.'
IT 업계에서도 쓰지 말라는 법이 없을 텐데. '모 제품에 이런 버그 내지 보안 취약점이 발견되었으므로 사용자께서는 폐사가 제공하는 업데이트를 반드시 받으시기 바랍니다.'
아무리 겸손한 비하라지만 졸(졸고, 졸저)도 아니고 '폐'가 들어가니까 부정적인 느낌이 더 강하게 느껴지는 것 같다.

7. 또 자동차 취급 설명서 이야기.
요즘 차 취급 설명서에 '핸들'이 '스티어링 휠'이라고 적혀 있는 걸 보고 놀랐다. 호치키스가 스태플러로 바뀌듯, 국민들의 평균적인 영어 실력이 증가하면서 콩글리시도 점차 바로잡혀 가는 것 같다. ^^;;;
하지만 백미러는 그냥 실외 미러라고 표기했고, 진짜배기 영어인 리어뷰 미러라고 하지는 않은 듯하다.

8. 세월이 흐르면서 아래아한글 97이 이제 완전히 역사 속으로 사라졌기 때문에, <날개셋> 한글 입력기도 구닥다리 한컴 2바이트 코드에 대한 지원을 차츰 줄여서 지금은 이게 변환기 유틸에서나 볼 수 있는 존재가 돼 있다.
그런데 맨날 옛한글 말뭉치 자료를 다루는 이 바닥 사정을 들여다 보니까, 한컴 2바이트 코드가 그렇게까지 죽은 포맷은 아닌 것 같다. 한컴 2바이트 코드를 기준으로 만들어진 형태소 분석기 같은 툴들이 아직까지 쓰이고 있어서 말이다. 현실이 그만큼 낙후해 있다는 뜻 되겠다.

본인이 다니는 이 대학원에 있으면서 좋은 점을 꼽자면 이러하다. 국어학 쪽의 진짜 전공자, 현업 종사자들의 언어학적 소견과 역사 증언을 접할 수 있다는 것이다.
말글 쪽으로는 '운동꾼'이기만 할 뿐 비전문가의 편협한 주장만을 접한 것과는 다르다. 비록 자기 전공 분야에서는 공학 박사이고 뭐 별별 업적을 남긴 분이라 하더라도 국어학 계열로는 이상한 지론에 빠져 이상한 주장을 밀어붙이는 분이 안타깝지만 꽤 있다. 나는 그렇게 되지 않으려 한다.

Posted by 사무엘

2011/05/13 08:39 2011/05/13 08:39
, ,
Response
No Trackback , 6 Comments
RSS :
http://moogi.new21.org/tc/rss/response/510

Trackback URL : http://moogi.new21.org/tc/trackback/510

Comments List

  1. 주의사신 2011/05/13 09:31 # M/D Reply Permalink

    1. 이거 아시나요?

    女와 女는 다르다는 것?

    지금 보시면서 같은 글자인데 왜 달라? 하실텐데요.

    하나는 여에서 한자 키를 누르고, 하나는 녀에서 한자키를 누른 것입니다. 이 둘이 다른 유니코드가 할당되어 있다고 합니다.

    그러다 보니 樂같은 경우에는 무려 유니코드가 4개나 할당되어 있다고 하더군요. (樂, 樂, 樂, 樂, 왼쪽부터 낙, 락, 악, 요)

    게임 회사에서 한자가 들어간 아이디를 허용해 줬더니 눈으로 보기에는 정확히 동일한 아이디들이 있어서 알게 된 정보라고 하더군요.

    여 자를 조사해 보니 여일 경우는 \uf981이고, 녀일 경우는 \u5973입니다.

    2. 제가 아는 한 교수님도 다른 교수님이나 자기 자신을 칭하실 때 '선생님'이라는 표현을 쓰시는 것을 본 적이 있는데, 조금은 어색했던 기억이 나네요. 수학과 교수님이셨습니다.

    1. 아라크넹 2011/05/13 12:39 # M/D Permalink

      발음별로 같은 한자를 별도로 할당해 놓은 것은 유니코드보다는 그 문자 집합의 원천이 되는 KS X 1001에서 내려 온 것으로 봐야 합니다. 아마 정렬이나 그런 면에서 이득이 많아서 그렇게 한 게 아닐까 싶어요. (독음 분석을 해야 하는 일본어와는 달리 한국어는 한자가 섞여 있어도 단순한 collation 알고리즘으로 발음 순 정렬을 할 수 있습니다.) 물론 유니코드 입장에서는 듣도 보도 못 한 발상이니 대표 발음을 뺀 모든 문자가 호환성 영역으로 갔습니다만.

    2. 사무엘 2011/05/13 17:16 # M/D Permalink

      사실, 유니코드 이전의 상용 한자 4888자 자체도 당연히.. 서로 완전히 다른 4888자의 한자로 구성된 집합이 아니었지요.
      BMP 이후로 유니코드에 등록되는 한자들은 어차피 과거의 2바이트 문자 체계에는 없던 레어템들일 테니 호환용 영역 신경 쓸 필요가 없을 겁니다. (하지만 실수로 중복 등록되는 한자는 있다고 하죠. -_-)

      윈도우 운영체제에 대해서 무척 이상한 건, 왜 金에서 '금'이 호환용 한자에다 배당되고, '김'이 원래의 CJK에다 들어갔냐는 것입니다. 테이블의 오류인데 윈도우 95부터 7까지 그냥 이대로 수정 없이 밀어붙이는가 봅니다. 오히려 아래아한글은 똑바로 돼 있다고 하죠.

    3. ???????????? 2011/05/13 23:57 # M/D Permalink

      ???????????? U+5973???? ????????????????... ????? ????? ?????????? ???? ?????????? ?? ???????? ?????? ??????? ????? ????? ???????? ???????????.

  2. 박상대 2011/05/14 11:16 # M/D Reply Permalink

    똑같은 글자가 여러개 있어야 하는 이유는 가나다순 정렬 때문입니다.
    가나다순 정렬을 시키면 한자는 한자음의 가나다순대로 가나다순 정렬이 되는데

    "똑같은 글자를 쓸데없이 왜 여러개 넣어?" 이런 생각을 가지고
    李(이), 李(리) 이 두 한자를 李(리)로 통일시켰다고 해 봅시다.

    그러면 사람 이름을 가나다순 정렬할 때, 컴퓨터가 李를 "리"로 보고
    가나다순 정렬을 하게 됩니다. (북한도 아니고 ㅎㅎㅎ)

    그렇다고 해서 李(이)로 통일시킬 수도 없습니다. 李가 성씨에만 쓰이는 건 아니니까요.


    樂山樂水(요산요수), 樂器(악기), 어부
    이 세 개를 가나다순 정렬한다고 생각해봅시다.

    올바르게 정렬하면 "樂器", "어부", "樂山樂水" 순으로 정렬돼야 합니다.
    그런데 여기서 "樂"을 어떤 하나로 통일시켜버리면

    "樂器", "樂山樂水", "어부" 이렇게 정렬되거나
    "어부", "樂器", "樂山樂水" 이렇게 정렬되어 버립니다.

    1. ???????????? 2011/05/15 16:15 # M/D Permalink

      ????????? ????????????????, KS X 1001???? ????? ?????? ?????????? ????? ?????? ????????????????, Unicode??????? KS X 1001???? ????? ????????? ????????? ???? ???? ??? ?? ????? ??????? ???????????? ???????? ?????? ?????????????. ?????????? ????????? ????? ?????????? ??? ????????????? ???????? ??????? ?????? ??? ??????????? ?????????? ?????? ??????.

      //??????? ??????????????? ????????????? ??????? ?????? ????????. ??????? ??????? ???????? ???????? ???? ???????. (??????? ????????? KS X 1001?? ?????? ???????????????!)

Leave a comment
« Previous : 1 : ... 1702 : 1703 : 1704 : 1705 : 1706 : 1707 : 1708 : 1709 : 1710 : ... 2141 : Next »

블로그 이미지

그런즉 이제 애호박, 단호박, 늙은호박 이 셋은 항상 있으나, 그 중에 제일은 늙은호박이니라.

- 사무엘

Archives

Authors

  1. 사무엘

Calendar

«   2024/04   »
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30        

Site Stats

Total hits:
2675469
Today:
37
Yesterday:
2124