요즘 나무위키 덤프 파일을 Mdict 사전 파일로 변환하는 작업을 하고 있습니다. sql형식을 지원하던 프로그램을 json 형식을 지원하기 위해 뜯어 고치면서 최적화를 했는데 최적화를 할 수록 버그가 늘어면서 변환 시간이 2배로 늘어나는 괴현상을 보았기에 최적화는 그만두고 롤백한 다음 json 지원에만 신경썼더니 잘 되어가고 있네요.
정말이지 처음부터 다시 만들지 않으면 더이상 손을 대지 못할 것 같네요.
초당 100문서 정도를 처리할 수 있었으나, 개조의 여파로 초당 70문서 정도로 줄었습니다. \uXXXX 형식으로 저장되어 있는 것을 유니코드 문자로 바꾸도록 하니 느려졌어요.
초당 70문서라...
# 추가 : 항상 기글하드웨어는 주소창에 gigglehd.com 에서 g만 치고 들어왔지만 구글을 들락거리기 시작하니 gi 까지 쳐야 기글로 가게 되었습니다. 그런데 github를 들어가니 이제는 gig 까지 쳐야 기글에 들어와지네요. ㅎ