김 용묵의 절대공간 - 블로그 :: 제30회 한글 및 한국어 정보처리 학술대회

본인은 재작년(2016)에 이어 올해 열린 한글 및 한국어 정보처리 학술대회(제30회)에 논문을 투고하고 발표했다.
재작년에는 현재 날개셋 한글 입력기에 '복합 낱자 입력 로직 생성기'라고 깔끔하게 구현된(8.8~9.0) 기능의 개념과 필요성에 대해서 썼다.

그 뒤 이번에는 본격적으로 세벌식 글쇠배열에서 구현 가능한 모아치기, 동시치기 등의 개념을 정립했으며 이와 관련된 연구, 날개셋 9.5에서 새로 구현된 기능의 핵심 아이디어, 그리고 간단한 관련 실험 결과를 짧은 분량에 최대한 요약해서 소개했다. 이번 학술대회는 날개셋 한글 입력기의 파이널 버전에서 최종 테크 명목으로 연구된 (1) 세벌식 응용 기능을 발표한 자리이니 본인으로서는 뜻깊을 수밖에 없었다.

그리고 또 특이한 점은 장소이다.
재작년에는 학술대회가 부산 동아 대학교에서 열렸다. 서울과 굉장히 먼 대도시라는 특성상, 차를 가져가지 않고 커다란 캐리어만 끌고 다니며 여행을 다녀왔다.
그런데 이번에는 장소가 서울 고려 대학교이고, (2) 차나 숙박이 전혀 필요 없이 집에서 간편하게 다녀올 수 있는 아주 가까운 곳이었다. 학회를 다녀 오는 분위기가 완전 극과 극으로 달라졌다.

적당히 경기도 외곽이나 강원도 지방에 자가용을 몰고 내려가고 주변에 좀 놀러도 다니고, 밤에는 차에서 자면서 추억을 만드는 학회를 생각했는데.. 이건 결국 본인의 대학원 재학 중에는 이뤄지지 않게 됐다.
그래도 해수욕을 하고 여관방과 카페에서 잔 학회와, 교통과 숙박 걱정이 전무한 인서울 학회도 서로 다른 방향으로 의미가 있었다. 극단적으로 먼 곳과 극단적으로 가까운 곳의 차이이다.

그리고 (3) 다른 학교가 아니라 고려대라니.. 여기는 본인이 대학 학부 시절에 최초로 논문을 투고하고 참가했던 먼 옛날 2003년 제15회 대회 때와도 동일한 장소였다. 거기를 15년 만에 다시 찾아가다니.. 참 좁은 세상이다. (그땐 본인이 아직 대전에서 학교를 다니고 서울에 거주지가 없던 시절인 관계로, 숙박은 서울 친척 집에서 함)

올해는 딱 30회 기념에다 인서울 버프까지 받아서 그런지, 재작년은 물론이고 예년 평균의 2배를 상회하는 많은 논문이 투고되었다.
재작년엔 4개의 세션에서 토요일 오후 12시 반쯤에 모든 논문 발표가 마무리 되었던 반면, 올해는 5개의 세션에서 무려 오후 5시까지 끊임없이 논문 발표 스케줄이 배당되어 있었다.

재작년에는 학회에서 아는 사람이 거의 없다시피했던 반면, 올해에는 우리 학교의 김 한샘 교수님이 발표 세션 중 한 곳에서 좌장을 맡으시고 우리 학교 언어 정보 연구원에서도 논문을 투고했다. Universal Dependency라고.. 언어들의 구문 분석 태그 세트도 전세계 공통 통합 체계를 만들려는 연구가 진행 중이라는 걸 난생 처음 들었는데, 저 세션은 바로 그 UD 관련 발표 세션이었다.

또한 (4) 본인처럼 한글 코드와 글자판 같은 기초/마이너 분야의 연구를 하는 분을 몇몇 뵐 수도 있었다.
변 정용 교수님은 재작년에는 특강만 하시더니 올해는 논문도 투고하셨고, 내 논문까지 포함해서 아예 이 분야만을 위한 별도의 발표 세션도 배당되었다. 이것도 좋았다. 재작년에 냈던 내 논문은 인지과학 세션으로 분류됐었다.

그러니 이번 학술대회는 개인적으로 느낀 분위기가 재작년 대회보다 훨씬 더 좋았다.
그런 데다가 정말 고맙게도 본인은 2년 전에 이어 올해에도 우수 논문상을 받았다. 재작년과는 달리 아예 대회 시작 전에 미리 알려 주더라.
뭐, NLP처럼 많은 연구자들이 몰리는 주류 연구 주제에서 두각을 보였다기보다는, 워낙 독특하고 마이너한 분야를 파고 있고 그게 학술적으로 무가치한 건 아니니, 그 연구 성과를 인정받은 것에 대한 비중이 더 컸을 것이다.

본인이 여기에 논문을 하나 더 낸 이유는 다른 동기도 있지만 가장 중요한 학교 졸업 이수요건 충족을 위해서이다. 그런데 학계에서 논문이라는 건 크게 학위논문(대학원 졸업용), 학술지(저널) 논문, 그리고 학술대회 발표 논문(프로시딩)으로 크게 나뉜다.
본인은 발표 논문만으로 이수요건이 충족되는 줄 알고 있었으나 그렇지는 않더라. 사실 프로시딩은 투고하고 게재되는 절차가 제일 신속 간편하고 격도 제일 낮다. 학계 이 바닥의 최신 동향을 모니터링하고 자기 연구 성과를 정말 짤막하게 신속하게 광고하는 수단에 가깝다.

결국 학술지 논문 두 편 이상인데, 하나는 KCI 등재 또는 등재후보 등급 이상의 학술지에 실어야 한다. 그건 본인이 이미 작년에 하나 해냈다. 나머지 하나 더는 이론적으로는 정말 아무 학술지에나 실어도 되고 더 부담 없이 해도 된다.
하지만 논문이란 건 한번 투고하면 영원히 기록이 남고 특히 박사들에게는 취업 스펙이나 마찬가지인 아이템인데, 너무 대충 아무렇게나 할 수는 없는 노릇이다. 지금 발표 논문도 학술지 논문으로 발전시켜서 실으려면 내용을 추가 보완하는 두벌일을 하게 됐다.

그래도 이런 학술대회에서 우수 논문 추천을 받으면 관련 학술지에다가 발표 논문의 파생 논문을 싣는 것도 한결 더 수월해진다. 본인의 이전 학술지 논문도 이런 절차를 거쳐서 실을 수 있었다.
한글 및 한국어 정보처리 학술대회는 본인과 이런 관계가 있는 자리였다. 올해 대회에 참가하여 추억을 만들고 온 기록을 내 블로그에다가도 남기고자 한다.

※ 장소와 분위기

고려대는 고풍스러운 석조 건물이 많은 게 인상적이었다.
교내로 들어온 차량은 지하로 쏙 보내 버리고 지상에는 보행자와 이륜차 정도만 지나가는 넓은 광장을 두는 게 요즘 대학교 캠퍼스들의 디자인 트렌드인 것 같다. 라이벌인 연세대만 해도 2010년대 초중반에 '백양로 재창조' 리모델링을 하면서 캠퍼스를 그렇게 뜯어고쳤으니 말이다.

요런 학회는 첫째 날엔 참가자들이 몽땅 한 자리에 모이니 커다란 강당이 필요하고, 다음날 실제 학회가 진행될 때는 발표 세션들이 있을 강의실 네댓 개와 포스터가 전시될 광장이 필요하다.
두 공간이 성격이 좀 다르다 보니 이번에는 첫째 날 모이는 장소(인촌 기념관)와 둘째 날 모이는 장소(현대자동차 경영관)가 학교 정문의 서쪽과 동쪽으로 서로 완전히 달라졌다. 동일하거나 인접한 건물에서 층만 달라지는 정도가 아니었다.

올해 학술대회는 논문이 많이 투고된 것에 비해 첫째 날의 프로그램이 의외로 어느 때보다도 적었다. 특강 딱 세 개 이후에 경과 보고와 시상식만 하고 끝이었다.
보통 저녁 7시가 넘어서야 간신히 저녁 먹으러 나갔던 것 같은데 이번에는 5시 반에 칼같이 첫째 날 일정이 종료됐다. 새내기 박사 졸업자들의 자기 학위 논문 발표라든가 후원사 홍보 세션 같은 것도 없고..

그리고 만찬도 예전에는 뷔페라든가, 앉아서 먹는 한식 정도가 나왔던 것 같은데, 이번에는 그냥 교내 학생 식당에서 각자 알아서 배식 받아 먹는 것으로 끝이었다. 이번 학회가 참가자가 이례적으로 굉장히 많아서 이렇게 결정한 것 같긴 하나.. 이렇게 하니 모르는 사람과 안면을 틀 기회가 없어서 일면 아쉬웠다.

※ 특강(초청 강연): 검색엔진

특강 세 편 중에서 (1) 네이버에서 근무 중인 어느 언어공학 박사가 한 강의가 제일 유익했고 머리에 제일 많이 남았다.

오늘날 전세계에 유의미하게 남아 있는 검색엔진은 구글, 마소 Bing, ..., 러시아 XXX, 중국 바이두, 한국 네이버 등 딱 7개 남짓밖에 없다. 정치적으로 폐쇄적이거나, 기술 배경이 특이하게 고립된(갈라파고스화..) 곳 말고는 그나마 구글이 사실상 전부 다 먹었다. 우리(네이버)는 이런 상황에서 뒤쳐지고 도태하지 않게 위기의식을 갖고 피말리는 노력을 하고 있다.
웹사이트 검색과 블로그/뉴스 검색은 성격이 매우 다르다.
검색엔진들이 웹 문서들을 평가하고 노출 순위를 매기는 세부 기준들은 전적으로 개발사들의 권한· 재량인 동시에 중대한 영업기밀이다. 교사들의 시험 문제 출제와도 같다. 그게 유출되면 당연히 오· 남용 악용되고(시험지 유출처럼..!!) 그걸 막으려고 피차 또 왕창 피곤해진다. 아무리 오픈소스네 개방이네 해도 개방되는 건 중립적인 기술과 알고리즘일 뿐, 그런 주관적인 잣대는 국회의원 같은 높으신 분이 요청한다 하더라도 넘겨줄 수 없다.
뭔가 얼토당토않은 사이트가 상위로 랭크된 듯한 게 있으면 그건 기술적인 문제나 한계, 버그 때문일 뿐이다. 노출 우선순위는 전적으로 데이터와 알고리즘에 의해(상상을 초월하게 방대하고 복잡한!) 결정될 뿐, 그게 내부인의 농간에 의해 호락호락 조작 가능한 게 아니다. 관련 괴담이나 음모론들은 절대로 사실이 아니다.
굳이 AI나 기계 학습 관련 알고리즘을 다 이해하고 있고 직접 코딩 구현까지 했다고 해서 엔지니어 채용 시에 크게 가산점을 주지는 않는다. 그런 기술을 이용해서 실제 언어 데이터를 상대로 얼마나 많은 고민을 하고 창의적인 실험을 해 봤는지를 더 중요하게 본다.
그럼에도 불구하고 이 모든 강연 내용들은 본인의 개인적인 견해일 뿐, 내 직장의 공식적인 입장을 대변하지는 않는다.

옛날에, 1990년대 25년쯤 전에 검색엔진이라는 건 수많은 웹사이트들을 사람이 손으로 도서 분류하듯이 카테고리화해서 안내하는 길잡이, 아니면 msdn의 검색(search) 기능처럼 그냥 기계적으로 특정 주제어가 존재하는 웹페이지들을 정확도와 빈도 순으로 보여주는 메타사이트일 뿐이었다.

그런데 언제부턴가 검색엔진은 웹메일, 뉴스 기사 등 온갖 서비스들을 같이 제공하는 포털 사이트를 겸하게 되어 덩치가 커졌으며, 검색 기능에도 온갖 자연어 처리 기술이 접목되었다.
2002년쯤에 네이버에 지식인이라는 게 도입되면서 이변이 일어났다. 검색엔진은 그냥 기계적인 검색만 하는 게 아니라, 사람의 말귀를 알아듣고 그 사람이 원하는 정보를 즉각 대령하는 경지에 다다르게 됐다.

그리고 나라 밖에서는 구글이라는 신흥 강자가 세계의 웹을 정복했다. 야후, 심마니, 엠파스 등.. 1세대 검색엔진들은 싹 도태해 버리고 물갈이 됐다. 과거에 워드 프로세서를 두고 마소 vs 한컴이던 게 지금은 검색엔진을 갖고 구글 vs 네이버 구도가 아닌가 싶을 정도이다. 아무튼..

(2) 그 다음, 젊어 보이는 어느 고려대 '영문과' 교수님은 맥북 Keynote를 써서 발표하면서(예능· 디자인?), null space가 어떻고 야코비안 행렬이니 벡터 편미분이니 나열하며 반쯤 선형대수학 강의를 하시는 게 아주 인상적이었다. 요즘은 정말 학문에 경계란 게 없는가 보다.
하긴 언어 응용 중에 음성 처리 쪽은 기술 집약적이고 굉장히 이과스러운 분야이기도 하니까..

※ 특강: 한글 코드

(3) 그리고 마지막으로 변 정용 교수님은 예나 지금이나 자음· 모음을 이중 삼중으로 임의로 집어넣은 한글을 구현하려고 애쓰고 계셨다.
지금 유니코드에서는 한글을 글자 단위로 완성형으로 쓰지는 않는다. 단지, 낱자 레벨에서는 완성형인 게 사실이다. 초성의 자음 집합과 종성의 자음 집합이 일치하지 않는다. ㅄ이라는 낱자 번호로부터 ㅂ과 ㅅ을 자연스럽게 추출할 수 없으며, 초성 ㅂ으로부터 종성 ㅂ의 코드값을 얻을 수 없다. 다 테이블을 갖고 있어야 한다.

변 교수님의 주장은 그게 잘못됐다는 것이다. 지금의 160여 만 자 옛한글조차도 한글을 컴퓨터에서 제대로 구현한 게 아니라고 한다. 원래 훈민정음의 원리대로 한글 자모를 뭉쳐 넣고 조합하면 399억 종류, 32비트 정수 범위를 초과하는 가짓수의 글자를 만들어 낼 수 있다고..
그냥 영어의 strike, school라든가, 중국의 xian, yao 등등.. 세계 모든 언어에서 1음절로 표현되는 음운은 몽땅 한글 한 글자로 묶어서 표현하겠다는 포부이다.;;

프로그래밍 언어 분야에도 극단적인 순수주의자(purist)가 있듯이, 한글의 표현 방식에 대해서 이런 최고 수준의 추상화와 순수주의 이념을 추구하는 분이 계시는 것도 나름 의미가 있다. 24자인지 28자인지 최소한의 낱자만 문자 코드에 배당해 놓고, 얘를 쭈루룩~~ 늘어놓는 것만으로 모아쓰기 글자가 생성된다면 얼마나 좋겠는가?

단지 그렇기 하기에는 제반 글꼴 기술이라든가 음절 경계 구분 쪽의 부담이 대책 없이 너무 커지기 때문에 현실에서는 낱자는 그냥 코드 차원에서 완성형으로 퉁친 것이다. 심지어 현대 한글은 글자마디 11172자를 다 집어넣기도 했다.
뭐, 유니코드 5.2가 등장하기 전에는 심지어 마소에서도 1.1 자모를 최대 3개까지 한데 묶어서 최대 9개의 코드 포인트를 차지하는 옛한글을 편법으로 구현한 적이 있다. 그러니 변 교수님의 지론도 기술적으로 전혀 불가능한 건 아니긴 하지만.. 그래도 조합 가짓수가 비현실적으로 너무 많긴 하다.

변 교수님이야 무려 1980년대부터 한글 코드 역사의 산 증인이라 해도 과언이 아닌 분이니, 학회에서도 이분에 대한 courtesy 차원에서 특강에 논문 발표 기회까지 잔뜩 마련해 줬다. 하지만 "한글을 굳이 저렇게 이상한 형태로 활용할 필요가 있나, 그게 무슨 돈이 되고 실용적인 의미가 있나? 멀쩡한 IPA 부호를 냅두고 굳이 저런 한글 변형을 쓸 사람이 있겠나" 같은 이의 제기도 물론 있다. 이건 요즘처럼 AI네 빅데이터네 머신러닝이네 떠들어대는 시절에 신세대 연구자들의 주목을 받을 만한 인기 분야라고는 할 수 없다. =_=;;

발표 자료 중에는 북한에서 유니코드 위원회에다 '한글' 대신 '조선글'이라는 명칭을 써 달라 뭐 이렇게 영어로 이의 제기 메일을 보냈던 것의 캡처 화면이 잠시 지나갔다. 북한은 국가· 민족 정체성과 관련하여 한(韓)이라는 글자를 아주 싫어하니까..
물론 북괴는 그래 봤자 회비도 잔뜩 체납된 상태에서 발언권이고 영향력이고 아무것도 없었다. "한글 배열 순서를 북한 식으로 해 달라, 최고존엄(김 일성 김 정일) 전용 문자 코드를 배당해 달라" 이런 요청 따위도 몽땅 씹혔으며, 유니코드에서 한글은 오로지 100% 남한의 관행대로만 배당되었다.

북한이 작성한 이메일을 쭉 훑어보니 byte를 bite로 잘못 써 놓은 게 보였다. ㅡ,.ㅡ;;
하긴, '자전거'도 bycicle이라고 쓰기 쉬운 와중에 I와 Y를 헷갈리는 거 이해는 된다.
게다가 4비트 nibble도 '야금야금 물어뜯어 갉아먹다'라는 뜻이 있으니, 그 다음 byte 역시 bite와 전혀 무관한 명칭은 아니어 보인다.

Posted by 사무엘

김 용묵의 절대공간 - 블로그

제30회 한글 및 한국어 정보처리 학술대회

Tag Cloud

김 용묵의 절대공간 - 블로그 - 최근 공지

Notices

Archives

Categories

Authors

Recent Posts

김 용묵의 절대공간 - 블로그 - 최근 글

Recent Comments

김 용묵의 절대공간 - 블로그 - 최근 댓글

Recent Trackbacks

Calendar

Bookmarks

Site Stats

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31