기글 하드웨어 질문 게시판

각종 질문을 올릴 수 있는 곳입니다. 먼저 검색해 보고 질문을 올리는 것이 더 효율적입니다. 충분한 정보와 예의를 갖춰 글을 작성해 주시고 문제가 해결되면 꼭 댓글을 달아 주세요.

유니코드에서 한글 구현방식 질문드립니다.

칠등사리

http://gigglehd.com/zbxe/14083910

2016.04.18 02:26:42

1231

영어나 일본어는 abcd 이렇게 그냥 순선대로 쓰면되고 다른 언어도 마찬가지입니다.

그런데 한글은..

ㄷ

ㅏ=다

ㄹ=달

ㄱ=닭

타자를 치면 이렇게 글자들이 이렇게 구성되는데

ㄷ과 ㅏ를 치면 다 가 되는데 이것을 구현하려면 다른 언어들과는 달리

ㄷ+ㅏ=다

다+ㄹ=달

달+ㄱ+닭

위의 정보를 가지고 있어야 하는데 유니코드에서 어떻게 처리하는지 궁금합니다.

위의 방식대로 할려면 한글폰트용량의 몇배나 되는 정보를 문자처리기?가 가지고 있어야 할텐데 설마 그렇게 비효율적일 것 같지는 않고 따로 무슨 알고리듬이 존재하나요?

ㄷ누르면 ㄷ공간으로 가고 ㅏ 누르면 ㄷ의 ㅏ열을 찾아가고, 받침도 ㄹ행 ㄺ 뭐 이렇게 찾아가는 방식일까요?

@가갸거겨고교구규그기

ㄱ

ㄴ

ㄷ

ㄹ

ㅁ

ㅂ

이 게시물을...

목록 쓰기

2016.04.18 03:01:06

쮸쀼쮸쀼

현행 한글 처리기법의 주류인 완성형은 11,172자에 달하는 현대 한글 전부를 미리 조합해두고, 그 조합해둔 한글을 불러오는 식으로 처리합니다. 진짜입니다. 유니코드 체계에서도 첫가끝 코드라고 해서 조합형으로 한글을 처리할 수도 있지만, 현행 유니코드 체계 하에서는 조합형 처리가 용량이 더 듭니다.

말씀하신 것은 [한글 오토마타]라고 하는 것으로, 이거는 유니코드에 있는 것이 아니라 개발자가 직접 구현을 해야 하는 것입니다. 직접 검색해보시면 많은 정보가 있을 것입니다. 혹시 한글 낱자를 초·중·종성으로 분해하거나 결합하는 부분이 궁금하시다면, 제가 얼마 전에 썼던 http://gigglehd.com/zbxe/14052329 이 코드를 잘 들여다보시면 힌트가 될 수 있을 겁니다.

2016.04.18 14:28:07

칠등사리

링크에 있는 것은 첫가끝인가 하는 건가보네요. 생각보다 구현이 복잡하지는 않나보네요. 하지만 자판을 치다보면 어떻게 내가 누를때마다 바로바로 글자를 그 많은 글자중에서 찾아서 딜레이를 느끼지도 못하게끔 바꾸는지 참 신기합니다. 답변 감사합니다.

2016.04.18 16:37:28

쮸쀼쮸쀼

제가 올린 것은 첫가끝과는 관계없는 코드입니다. 그걸 보고 부녀자님께서 첫가끝 관련 코드를 올리시기는 했지만요.

2016.04.18 04:09:51

부녀자

BL보다 GL을 더 사랑하는 수상하지 않은 부녀자에요. 해치지 않아요~♥ // 드보락 자판 사용중

쮸쀼쮸쀼님 말씀데로 한글을 조합에서 입력하는 기능은 유니코드가 아닌 IME(입력기)가 당담하는 부분입니다. 그리고 조합 수가 11,172개 밖에 되지 않기 때문에 지금의 컴퓨터에서는 쉽게 구현할 수 있지요.

2016.04.18 14:31:09

칠등사리

뷁 같은 글자를 누를때도 내가 누르는 키마다 순식간에 해당 글자를 찾아 출력하는데 따로 원리를 알 수 있을까요? 아니면 그냥 무식하게 11,172개 밖에 안되기 때문에 대충 ㅂ영역을 전부 검색해서 출력하는 걸까요? 유니코드 테이블을 보면 그냥 자음모음 순으로 일렬로 늘어놓은 것에 불과한데 그 많은 것들 중에서 순식간에 찾아네내요. 그냥 컴퓨터가 빨라서 그런가 봅니다. 답변 감사합니다.

2016.04.18 16:36:22

쮸쀼쮸쀼

제가 올린 코드를 잘 보시면, 초성/중성/종성을 알면 거기에 해당하는 한글 코드 번호를 알아낼 수 있는 공식이 들어가 있습니다. 그 반대로, 해당 공식을 역이용하여 한글 코드 번호를 통해 초성/중성/종성을 분해할 수도 있고요. 일단 코드 번호가 나오면, 거기에 해당하는 한글 글자꼴을 불러오는 것만 남는 것이죠. 이 과정이 매 키보드 입력마다 계속되는 것입니다.

2016.04.19 01:26:53

칠등사리

잘은 모르겠지만 첫가끝도 아니고 순서대로 나열해 놓은 완성형 코드의 글자들을 저렇게 쉽게 분해하는게 신기하네요. 해당 글자값을 보면 초중종성을 구별할 수 있는 규칙 같은 것이 있나요?

2016.04.19 06:26:32

쮸쀼쮸쀼

http://d2.naver.com/helloworld/76650
여기서 인용하겠습니다.

“한글 음절의 코드 포인트 값은 시작 값인 U+AC00에 ((초성 값 x 21) + 중성 값) x 28 + 종성 값을 더하면 된다. 예를 들어, '한'이라는 글자는 'ㅎ', 'ㅏ', 'ㄴ'으로 구성되어 있으며, 각각 18, 0, 4 값을 가지고 있으므로, '한'의 코드 포인트 값은 U+AC00 + ((18 x 21) + 0) x 28 + 4 = U+AC00 + U+295C = U+D55C가 된다. 이를 역으로 생각해 보면, 한글 음절에 대해 초성, 중성, 종성의 분리가 가능하다. 즉 한글 음절의 코드 포인트 값에서 U+AC00을 뺀 값을 ①이라 한다면, 다음과 같이 정리할 수 있다.
* ①의 값을 (21 x 28)로 나눈 몫은 초성
* ①의 값을 (21 x 28)로 나눈 나머지를, 28로 나눈 몫은 중성
* ①의 값을 28로 나눈 나머지는 종성”

제가 올렸던 코드 또한 이걸 보고 작성한 것입니다.

2016.04.19 14:55:52

칠등사리

그냥 순서대로 나열한 건줄로만 알았는데 설명을 해주셔서 쉽게 이해할 수 있었습니다. 링크해주신 글도 잘 읽었습니다. 답변 감사합니다^^

작성된지 2주일이 지난 글에는 새 코멘트를 달 수 없습니다.

다음글: TLC SSD에 대해 질문드려요. [3] -Renix
이전글: 3D 랜더링 용 하이엔드피씨 견적 좀 도와주세요. [2] -goonseob

목록 쓰기