네, 제목 그대로입니다.
대충 살펴본 것으로는 동일한 프롬프트에 대해서 LLAMA-2와 GPT-3.5가 각각 답변을 생성하고 이를 비교할 수 있도록 제시하는 단순한 구조입니다.
다만, 답변을 생성할 때 GPT-3.5에 사용된 프롬프트는 상용으로 돌아가는 GPT-3.5와는 다르기 때문에, 실제 ChatGPT가 생성하는 것과는 차이가 있습니다.
이 부분은 GPT API를 공개하긴 했지만, 프롬프트 엔지니어링 자체도 기술인 만큼 OpenAI에서도 공개할 생각이 없으니 어쩔 수 없는 것 같네요.
그래서, 후기를 보면, GPT-3.5가 답변이 너무 짧다는 이야기가 많습니다.
LLM Boxing • Choose your Champion
그래도, 기존에 LLAMA-1 기반은 확실히 떨어진다는 느낌이 강했는데, 이번 LLAMA-2는 최소한 튜닝 되지 않은 순정도 상당하게 답변을 한다는 느낌을 주네요.
최소한 영어에 한해서는 GPT-3.5 수준이라 말한 Meta의 말이 맞다는 느낌이 들더군요.
GPT-4가 더 높은 수준이라서 산 넘어 산 수준이란 이야기가 나오긴 하지만, 최근엔 GPT-4가 랭체인 사용해서 중앙 LLM이 문제를 파악하고 각각에 특화된 LLM에 배정하여 답변을 받는 것이 GPT-4의 구조가 아니냐는 말이 나오는 만큼, 이 격차가 지금처럼 유지될 것이란 보장도 낮아지는 것 같고요.
(그러니까, 기존에는 GPT-3.5가 혼자 생각하고 답하는 구조였다면, GPT-4는 각 분야에 특화된 모델들과 문제 판단 모델이 별개로 존재하고, 문제 판단 모델이 문제를 파악한 이후에 그 문제에 맞는 모델에 문제를 넘겨주는 분업 구조란 이야기)
그 이유는 최근에는 OpenSource도 렝체인으로 모델 갈아끼기 방식으로 이 방식을 구현하려 한다는 이야기가 나오고 있으니까요.
LangChain도 도입해봐야 하는데 시간도 안 나고 참 어렵네요.