그동안 폐쇄적인 파일 포맷 정책 때문에 욕 많이 얻어먹고 있던 한컴에서 최근에, 한 지난달 말부터 꽤 놀라운 결정을 내렸다. 아래아한글의 파일 포맷(.hwp)을 드디어 정식 공개한 것이다. (뭐, 그렇다고 해서 한컴도 먹고 살아야지, 그런 회사에게서 MS나 구글 정도의 대인배 기질을 바라는 것도 세상 물정 모르는 개념 없는 소리이긴 하다.)
워디안 시절부터 지금까지 쭉 사용되어 오고 있는 소위 5.0 포맷과, 지금은 이미 완전 역사 속의 유물이 되어 버린 과거의 97 방식(3.0 포맷) 이렇게 둘을 공개했다.

본인이 아래아한글에 대해서 무척 대단하게 생각하고 있는 면모는, 지금의 파일 포맷이 미래 확장성을 대비해서 정말 대인배스럽게 잘 설계돼 있다는 점이다. 아래아한글 2010 정도면  MS 따라 hwpx-_- 같은 새로운 파일 포맷을 도입해도 이상할 게 없을 거라고 생각했는데 여전히 10년 전 포맷 그대로이다. 이 정도면 과거 MS 워드가 97부터 2003버전까지 사용한 구식 doc/xls/ppt 포맷의 짬밥을 훨씬 능가한다.

그 10년 동안 아래아한글엔 세로쓰기를 비롯해 문서의 기본 골격을 완전히 바꾸는 새로운 기능들이 상당수 추가되고, 무엇보다도 문자 인코딩이 마구 바뀌어 왔다. 유니코드 surrogate가 지원되기 시작한 게 2004부터이고, 아랍/히브리 complex script가 지원되기 시작한 게 2005부터이다. surrogate 지원 전에는 Yi 문자 같은 영역에다가 아래아한글 특수문자를 제멋대로 집어넣기도 했다.

특히 문제는 한자. 아래아한글이 과거의 한컴 2바이트 코드에서 자체 제공하던 제 2수준 한자 중에는 유니코드 BMP 영역의 한중일 통합 한자에 존재하지 않는 녀석이 극소수 있었다. 그건 처음엔 사용자 정의 영역으로 가 있었는데 일부는 나중에 surrogate에 있는 유니코드 “한중일 통합 한자 확장 B/C”에서 정식 추가되기도 했다. 흠좀무..;; 끝으로, 2010 버전부터는 옛한글도 과거 10년간 이용해 비표준 한양 PUA를 버리고 드디어 유니코드 5.2 표준으로 돌아갔다!

이 정도면 문자 인코딩도 버전 관리를 해야 할 지경이지 않은지? 또한 이제 워디안 시절의 10년 전 파일 포맷은 효율이 상당히 떨어졌으며, 굳이 하위 호환성을 지키려 애쓰는 것도 무의미해지지 않았나 하는 생각이 든다.
뭐, 비록 워디안은 너무 불안정해서 사용자들로부터 완전히 발렸지만, 2002는 아직도 관공서 같은 곳에서 쓰는 사람이 있지 싶다-_-. 특히 2002 SE는 윈도우 운영체제로 치면 마치 98 SE 같은 안정화 버전이었기 때문이다.

그나저나, 아래아한글은 같은 문서를 저장해도 파일 크기가 은근히 굉장히 커져 왔다. 가령, 과거 아래아한글 2002에서 작성한 hwp 파일을 2007에서 열어서 아무 수정 없이 그냥 다시 저장만 해도, 파일 크기가 꽤 커진다. 특히 더 옛날의 97 방식 hwp와 비교해 보면, 지금 hwp 파일은 진짜 비교도 안 될 정도로 크기가 더 커졌으며, MS 워드의 doc나 docx와 비교해도 마찬가지이다.
아무 서식이나 고급 기능을 안 쓰고 글만 빽빽한 문서를 작성했는데도 파일 크기가 너무 커졌다는 느낌을 지울 수 없다. 압축을 물론 했는데도 그 정도.

사실 이건 MS 오피스 제품도 마찬가지여서 똑같은 doc/xls/ppt도 2003에서 작업한 파일을 2007에서 불러와서(물론 호환성 모드) 다시 저장하면 크기가 꽤 커진다. 2003에서는 인식되거나 사용되지 않는 여러 메타 정보가 추가되어서 그런 것 같다.
그나저나 참고로, 2007 방식이라고 해도 암호가 걸린 문서 파일은 xml+zip 압축 포맷이 아니며, 과거 2003 같은 복합 바이너리 포맷으로 저장된다.

본인은 아래아한글을 버릴 수 없는 처지에 있는 사람이다. 도저히 적응이 안 되는 MS 워드의 기괴한 동작 방식, 그리고 손에 너무 익어 버린 단축키, 그리고 과거의 수많은 hwp 문서와 절대로 버릴 수 없는 hft 글꼴들 때문에 아래아한글은 탄탄한 기득권을 갖추고 있다. 또한 한컴도 이윤을 창출해야 하는 기업이라는 것 역시 모르는 바 아니다. 앞으로도 너무 심한 병크만 터뜨리지 말고 아래아한글을 잘 유지 보수해 줬으면 좋겠다.

Posted by 사무엘

2010/07/19 09:03 2010/07/19 09:03
,
Response
No Trackback , 16 Comments
RSS :
http://moogi.new21.org/tc/rss/response/324

Trackback URL : http://moogi.new21.org/tc/trackback/324

Comments List

  1. 삼각형 2010/07/19 14:17 # M/D Reply Permalink

    전 egg 포맷 공개(를 가장한 컨테이너와 공개와 unegg.dll 비상업 공개) 때 처럼 hwp뷰어가 금방 나올 줄 알았는데 의외로 아무 소식이 없더군요. 사전 허가 관련 문구도 지웠고 한데 말이지요.

    특히 리눅스 진형에서는 hwp에 원수진 집단이라 아주 허접한(텍스트만 뽑아주는 한이 있더라도) 뷰어/변환기라도 나올 줄 알았는데 말입니다.

    요즘 오피스로 작업한 문서를 보면 이제 FDD로는 오피스 문서 하나 못옮기는구나 하는 생각이 듭니다.(물론 txt라면 충분하겠지만요.)

    pptx나 docx는 확장자를 zip으로 바꾸면 풀리는데 hwp는 그렇지는 않더군요. 문서 내부만 zlib로 압축하는 것 같습니다.

    1. clue 2010/07/19 14:23 # M/D Permalink

      이제 3주일밖에 안 됐는데 뷰어가 뚝딱 나올리가 없지요. 1년 넘게 만들어야 완성도가 있을만한 수준이 나올 겁니다. 게다가 사전허가 문구는 없어졌지만 여전히 이상한 조건은 남아 있어서 리눅스에서 많이 쓰는 GPL이나 LGPL 라이선스로 프로그램을 만들 수가 없어요.

    2. 사무엘 2010/07/19 20:41 # M/D Permalink

      네. 오피스 2007의 *.???x 문서(암호가 걸리지 않은)는 zip 압축 파일의 일종이기 때문에 일반 압축 유틸리티로 그 내용을 볼 수 있습니다. 이는 OpenDocument 파일도 마찬가지입니다. 그러나 그 파일의 압축을 풀었다가 그 내용을 일반 압축 유틸리티로 다시 그대로 압축해서 만든 파일은 해당 오피스 프로그램에서 인식이 안 됩니다. 일반 압축 유틸리티에서는 넣어 주지 않는 자신만의 고유 식별자나 다른 정보가 들어가는 것 같아요.
      아래아한글은 말씀하신 대로 내부의 일부 데이터만 쟝 루프 게일리가 만든 zlib로 압축할 뿐, hwp 파일 자체는 zip 파일과 전혀 호환되지 않습니다. 나름 압축을 하는데도 파일 크기가 너무 큽니다. 압축을 안 하는 MS 오피스 97-2003 방식 문서 파일과도 비교가 됩니다.

  2. 김 민규 2010/07/21 21:44 # M/D Reply Permalink

    너무 심한 병크 ㅋㅋ 읽다가 웃음이 터졌네요.
    용묵 님 홈페이지에 계속 새로운 글이 올라와도, 느낌만은 그대로이군요.

    워드가 절대 한·글을 따라올 수 없는 부분들이 몇 개 있죠. 한·글에는 착착 붙는 맛이 있다고나 할까요.
    저도 그래서 메모장이나 날개셋 편집기를 넘어가야 되는 문서를 만들 때는 한·글을 사용합니다.
    하지만 다른 사람한테 제출하거나 그래야 되는 문서를 만들 때는 어쩔 수 없이 워드로 만듭니다.

    1. 사무엘 2010/07/22 00:21 # M/D Permalink

      민규 님, 오랜만에 뵙습니다. ^^ 요즘 어떻게 지내세요?
      ‘착착 붙는 맛’에 100% 적극 공감합니다.

  3. 김 민규 2010/07/25 22:15 # M/D Reply Permalink

    아이구;; 블로그 덧글인데 이런 걸 쓰려고 하니까 조금 이상하기도 합니다.
    저는 방학한 지 대략 한 달이 지났는데, .... ㅠㅠ 게임하고 만화 본 것 정도밖에 기억이 없습니다.
    이럴 때 여행도 다니고 책도 많이 읽고 그러라고 많은 사람들이 일관되게 말했는데,
    (말이 너무 웃긴가요? ㅋㅋ 하지만 저는 일관된다는 말을 좋아합니다. 우리말로는 아마 없는 것 같은데요, consistent)
    그렇게 못 해서 아주 후회하고 있습니다. 나머지 방학은 그러지 말아야겠죠.

    오늘 처음 봤는데, 블로그 들어오기 전에 반가운 이름이 있더라고요! 이거 진짜인가요?
    다음 학기엔 건물 안에서, 아니면 캠퍼스 안에서 용묵 님과 마주칠 수도 있는 건가요? ㅋㅋ

    1. 사무엘 2010/07/26 06:55 # M/D Permalink

      큭;; 그걸 이제 보셨다니.. ㅋㅋ 대문에다가는 써 놓은 지 한 달도 더 됐지요. 합격 확인하자마자 바로 고쳤으니까요. ㅋ
      블로그에도 진학을 암시하는 멘트를 한두 번 남기긴 했는데, 여긴 워낙 글이 많이 올라와서 곧 묻혀서 못 보신 듯.
      과가 너무 잘 맞아서 그 학교 말고는 선택의 여지가 없더군요.
      9월 입학이랍니다. 마곡 역에 이어 신촌에서 또 만나요. ^^
      (그 문맥에서 '일관되게'에 대응하는 순우리말로는 '줄곧'이 괜찮을 듯합니다.)

  4. 김 민규 2010/07/26 16:55 # M/D Reply Permalink

    변명이지만, 저는 한 달 전에 잠을 못 자고 교양과목 시험 들어가서 잠을 자는 정말 못된 짓을 저질렀습니다. 학부인데도 학생들을 못살게 구는 바람에 말 그대로 3학년이 아닌 '사망년' 생활을 했습니다. 그땐 책도 못 읽고, 게임도 못 하고, 해서 글도 제대로 읽지 못했습니다.
    요즘 올리신 글들은 거진 다 읽었지만, 어쨌든 오늘 RSS 추가라는 걸 했으니 이제 더 잘 읽을 수 있을 것 같습니다. 그런데 RSS는 받아서 읽는 것만 가능하고, 덧글을 쓸 수는 없군요. 이거 웹 계정에 괜한 트래픽만 소모하게 하는 것 같아서 걱정이 되네요.

    1. 사무엘 2010/07/26 20:18 # M/D Permalink

      저런..;; 방학 때 내일로 티켓 철도 여행이라도 가 보세요. ㅎㅎ
      그나저나 RSS가 되긴 되는가 보군요. 저는 그런 쪽은 전혀 몰라서..
      이 블로그 세팅을 도와 준 모 후배 녀석의 말에 따르면, 이 홈페이지 계정이 개떡 같아서 그렇다고 합니다. -_- 지금은 이런 서비스가 신규로 존재하지도 않으며, 기존 이용자의 서비스 기간 연장만 가능하지요.
      저 역시 저렴한 요금에 성능이 좋아서 꽤 오래 사용 중인데, 그 후배 말에 따르면 이렇게 소프트웨어 환경이 후진 걸 감안하면 그리 실속 있게 저렴한 것도 아니라고 하네요.

  5. shin 2013/02/16 19:44 # M/D Reply Permalink

    한컴2바이트 코드에 대해 궁금한 점이 있어 질문을 올립니다.
    한컴 2바이트 코드에서 다른 나라의 2바이트 문자, 예를 들어 한자나 특수기호 등은 2바이트로 그대로 출력되야되는데
    한글은 초성,중성,종성 5비트씩 결합되는데 그걸 구별하는법을 알고싶습니다.
    또 문자셋 등 코드를 저장해 놓을때 다른건 2바이트로 저장되있는데
    한글만 5비트씩 저장할수 있는지도 궁금합니다.

    1. 사무엘 2013/02/17 05:40 # M/D Permalink

      안녕하세요?
      한컴 2바이트 코드는 말 그대로 모든 문자가 내부적으로 2바이트입니다. 한글도 마찬가지죠. 한글의 경우, 초중종성은 5비트로 총 15비트를 차지하지만, 추가적으로 이 문자가 한글임을 나타내는 최상위 1비트가 추가되어 딱 16비트, 즉 2바이트를 이룹니다. 일부 완성형 옛한글도 존재하지만, 최상위 비트만은 공통으로 1이구요.
      이 때문에 최상위 비트가 1인 0x8000부터 0xFFFF는 한글 영역이고, 그 아래의 문자들은 비한글입니다. 특히 0x4000부터 0x7FFF는 한자 영역이죠.
      다만, 한컴 2바이트 코드는 오늘날 공식적으로 전혀 쓰이지 않는 죽은 문자 코드이기 때문에 살펴보시는 게 의미는 거의 없습니다.

  6. shin 2013/02/21 21:43 # M/D Reply Permalink

    아, 의외로 간단했었네요...
    정말 감사합니다.
    그런데, 그것외에도 2바이트 조합형의
    문자셋에서 다른것은 다 결합된 채로 2바이트씩 저장되어있는데,
    유독 한글만 초성,중성,종성이 5바이트씩 할당되게 할 수 있나요?
    (그리고 죽은 문자 코드이지만 단순히 호기심으로 찾아보는 것입니다. 그냥 궁금해서요ㅎㅎㅎ)

    1. 사무엘 2013/02/22 14:54 # M/D Permalink

      앞서 설명드렸듯, 한컴 2바이트 코드가 이미 그런 구조입니다. 또 무슨 가능/불가능 여부가 궁금하다는 것인지 질문 내용이 이해되지 않네요. (5비트를 5바이트라고 잘못 적은 거라 생각합니다.)

  7. cwryu 2013/10/27 00:50 # M/D Reply Permalink

    진짜 hwpx 포맷이 나왔습니다. 성지...

  8. ChickenHead 2013/10/27 02:27 # M/D Reply Permalink

    소문듣고 왔습니다.

    아래아한글 2010 정도면 MS 따라 hwpx-_- 같은 새로운 파일 포맷을 도입해도 이상할 게 없을 거라고 생각했는데 여전히 10년 전 포맷 그대로이다.

    .. 대박 ..

    > 표준 파일 형식 지원
    - HWP 문서의 콘텐츠 표현에 대한 *****KS 표준*****인 HWPX 형식을 지원하며 ... ( 2013.10.27 http://shop.hancom.com/goods/content.go )

  9. 사무엘 2013/10/27 14:29 # M/D Reply Permalink

    cwryu, ChickenHead:
    오.. 3년도 더 된 옛날 글을 기억하고 찾아 주셔서 감사합니다. 반갑습니다.
    어디 다른 커뮤니티에서 hwpx가 거론됐나 보네요. ^^;;

Leave a comment
« Previous : 1 : ... 1928 : 1929 : 1930 : 1931 : 1932 : 1933 : 1934 : 1935 : 1936 : ... 2204 : Next »

블로그 이미지

그런즉 이제 애호박, 단호박, 늙은호박 이 셋은 항상 있으나, 그 중에 제일은 늙은호박이니라.

- 사무엘

Archives

Authors

  1. 사무엘

Calendar

«   2024/11   »
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30

Site Stats

Total hits:
2992718
Today:
1729
Yesterday:
2549