인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2023.08.01 03:47

대규모 언어 모델은 영어가 저렴하고 유리하다

조회 수 1941 댓글 10

Extra Form
참고/링크	https://arxiv.org/abs/2305.15425

옥스포드 대학의 연구팀은 대규모 언어 모델에서 쓰는 언어에 따라 처리 비용과 시간에 차이가 있다는 논문을 발표했습니다.

대규모 언어 모델에 입력된 문장을 분할하는 토큰화 단계에서 언어마다 필요한 토큰의 수에 차이가 생기는데요. 최대 15배까지 토큰이 차이나기도 했습니다.

대규모 언어 모델 처리에선 토큰이나 문자의 수로 요금을 처리하기에 AI 사용 비용도 차이가 납니다. 또 토큰이 늘어날수록 처리 시간도 늘어나고요.

단순히 영어를 써서 연구가 많이 이루어져서 영어가 유리한 게 아니라, 영어가 토큰화 처리에서 효율적인 언어라고 합니다. 그래서 가격은 4배, 처리 시간은 2배 가량 차이가 나기도 한다네요.

한글이 과학적이고 효율적이며 많은 발음을 표기할 수 있다는 주장도 있었는데, AI 시대에선 그게 옛말이 될 수도 있겠군요..

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '10'

?
하아암 2023.08.01 03:58

한글=문자,
영어=언어
둘은 서로 다른 비교 대상입니다.
AI시대에서 영어 대비 불리한건 한국어의 문법상 구조탓이지
한글 표기 문자와는 전혀 다른 문제입니다.
int20h 메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2023.08.01 05:25

영어는 고립어라서 단어의 변화가 적다보니 토크나이징이 쉽고, 단어 순서만으로도 문맥을 알수 있어 확실한 성능이 보이는것 같습니다.
군필여고생쟝- 2023.08.01 07:24

네이버,카카오 풀매도
?
SunA 2023.08.01 07:58

사실 한국어는 문법이 문제죠 ... 한글 자체는 효율적인게 맞긴한것같아요
벨드록 2023.08.01 10:21

한글은 그냥 낱글자로 치환해 놓으면 알파벳이랑 비슷한 수준이라...... 한글 자체가 문제되지는 않구요.
오히려 모아서 쓰는 것 자체로도 토큰이기도 하고 낱글자 연속으로도 토큰이기도 해서
낱글자로도 토큰화 해야하고 모아쓰기 상태로도 토큰화해야 해서 어려운 면이 없는건 아닌데........
오히려 라벨링 할 부분이 하나 더 있기도 해서 좋은 것도 있습니다.

그리고 영어가 토큰화 처리에 유리하다는 것도 그만큼 연구가 많이 되어 있어서 그런 면도 있긴 하죠.
한국어의 토큰화 처리 연구하는 곳이 많을까요? 영어 토큰화 연구하는 곳이 많을까요?
오히려 한국어에 맞는 별도의 자연어 모델 연구가 필요한데 보통은 그런 게 없이 다른 언어에 적용된 것을 적용하려다 보니까 잘 안맞는 부분도 많습니다.
?
푸른바다왕거북이 2023.08.01 10:36

잠깐 한국어 처리 해본적 있는데, 한국어 어미 활용과 한글의 다양한 표현력 (종성이 다음글자 초성으로 가고, 비슷한 음차로 대체해서 쓰기도 하고) 과 결합해서 대환장.. 지금은 탈주해서 다른 회사에서 꿀빠는중..
?
고자되기 2023.08.01 11:44

언어모델 입장에서는 한국어와 한글,영어와 알파벳을 때놓을수가 없는데 한글이 문제인지 한국어가 문제인지 구분하는게 그렇게 의미가 있을까요
벨드록 2023.08.01 15:21

알파벳을 쓰는 언어는 영어 말고도 많죠. 물론 각 나라마다 다른 알파벳을 쓰긴 합니다만....
하지만 알파벳을 쓰는 언어들 중에서도 영어만 대규모 언어처리에서 유리하다?
그건 알파벳 때문이 아니라 다른데 원인이 있는 거겠죠.
360Ghz case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2023.08.01 16:29

단순히 문자가 유리하다고 한다면 한글 말고 문자만 바꿔서 처리하고 다시 돌리면 되니까요. 근데 문법이 문제죠.
?
고슴도치 2023.08.03 12:28

이게 한국어의 문제인지 한글의 문제인지 애매하긴 한데
"알파벳을 쓰는 언어" -> 이걸 토큰화 하는 방법이 엄청 다양합니다. 대표적인게 3가지인데

1안. 알파벳을 + 쓰는 + 언어 -> 띄어쓰기 기준
2안. 알파벳 + 을 + 쓰다 + 은/는 + 언어 -> 의미 기준
3안. 알 + 파 + 벳 + 을 + 쓰 + 는 + 언+ 어 -> 글자 기준

2안으로 해야지 영어만큼 효율이 나오는데, 문제는 한국어 문법은 명확하지도 않고 직관적이지도 않아서 실제 학습 데이터에는 문법을 벗어나는 데이터가 많은데 2안과 같이 이상적으로 토크나이징이 힘들다는거죠...

결국 1안 혹은 3안으로 가야하는데 1안은 토큰의 종류가 너무 많아져서 현실적이지 못하고 3안은 여기서 말한것처럼 효율적이지가 못하죠. 반면 영어를 포함한 로마자에 영향을 받은 언어들은 그냥 무지성으로 1안으로 가도 괜찮아서 좋고욤

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

[연합뉴스]머스크, 'X(트위터)에 월 사용료 부과 방침…현 이용자 5억 5천만명'

▶ 'X(엑스 - 구 트위터)' CEO 일론 머스크, 이용자에게 월 사용료 부과 계획을 발표 - 엑스 사용자 : 약 5억 5천만명 - 사용료 부과 이유 : 거대한 봇(자동 정보검색 프로그램) 집단"(Vast Armies of Bots)에 맞서기 위한 소액 지불 방식...

Date2023.09.19 소식 By블레이더영혼 Reply24 Views1456

Read More
주니퍼 SRX 방화벽의 79%가 위험

그러니까 엔터프라이즈용 하드웨어 방화벽인 SRX의 OS인 Junos OS 문제입니다. 8월 17일날 사이클을 벗어난 걸로 공지하고, 9월 7일날 컨셉 익스플로잇 + 실제 익스플로잇 사례를 체킹하여 업데이트 했습니다. 그러니까 PHP 외부 변...

Date2023.09.19 소식 By책읽는달팽 Reply0 Views603

Read More
No Image

스타링크 맞선 ‘K-위성통신’ 만든다

[언론 보도] 금일 위성통신 관련 과기정통부 보도자료가 나왔는데, 이 기사가 제목을 정말 잘 뽑아서 가져왔습니다. "(선략) 정부는 2030년 선진국 대비 90% 수준의 기술력을 확보하는 걸 목표로 4800억원 규모의 연구·개발(R&D) ...

Date2023.09.18 소식 By임시닉네임 Reply11 Views819

Read More
No Image

야놀자 희망퇴직 단행…보상은 '4개월치 월급 또는 휴가 3개월'

업계에선 야놀자가 영업적자 등 경영 실적 부진에 따라 구조조정에 나선 것으로 풀이하고 있다. 올해 상반기 야놀자의 매출은 3220억원으로 전년대비 27.7% 늘어났으나 영업손실 285억원으로 전년 103억원 대비 적자전환했다. 평균 근속연...

Date2023.09.18 소식 By낄낄 Reply7 Views1139

Read More
No Image

SKT-SKB-넷플릭스, 고객의 엔터테인먼트 경험 향상 위해 전략적 협력 관계 맺는다

[보도자료] 관련 글 - "[단독] SK브로드밴드·넷플릭스 상호 소송취하" https://gigglehd.com/gg/soft/14882716 "세계적인 엔터테인먼트 스트리밍 서비스 넷플릭스(공동 CEO 테드 서랜도스·그렉 피터스, www.netflix.com)와 SK텔레콤(대...

Date2023.09.18 소식 By임시닉네임 Reply9 Views590

Read More
엣지 스크롤바 어떻게 바꾸나요?

언제부턴가 저렇게 엣지가 공백이 생겨있더라구요. 마우스 맨 오른쪽으로 보내서 스크롤을 옮기는데, 저렇게 돼 있으니 계쏙 마우스를 미세조정해야 스크롤 바를 클릭할 수 있습니다. 이거 너무 스트레스받아서 죽능른ㅇ미ㅏ루니ㅏㅇ...

Date2023.09.18 질문 By방황하는물고기 Reply3 Views530

Read More
No Image

[단독] 스타링크, SKT-텔링크와 손잡았다…한국상륙 임박

전세계 1위 위성통신 사업자인 ‘스타링크’가 한국 진출을 위한 첫 파트너로 국내 1위 이동통신 사업자 ‘SK텔레콤’을 선택했다. 17일 업계에 따르면 테슬라 창업주 일론 머스크가 이끄는 미국 항공우주 기업 스페이스X의 위성통신 사업체...

Date2023.09.18 소식 By카토메구미 Reply5 Views657

Read More
Sandisk RescuePro 설치기 - 부제 : 너, 너이자식-

당장쓰진 않더라도 일단 Sandisk Rescue Pro를 설치해봤습니다. https://lc-tech.com/ko/RESCUEPRO/ 에서 다운로드 받아, 설치를 하는데, 언어설정이 절 반깁니다. 오 한국어도 지원하는구나 했죠. 그리고 완료후에 뜬 창의 아...

Date2023.09.17 일반 ByAKG-3 Reply4 Views777

Read More
No Image

TrueNAS는 부팅디스크, 시스템디스크가 분리되어 있는게 매우 아쉽네요

요새 트루나스에 관심이 가서 이것저것 찾아보는데 전혀 예상치 못한 것이 하나 있는데 그것은 윈도우와 달리 부팅디스크가 따로 필요하다는 점입니다. TrueNAS 하드웨어 구성하기 - Bongtae's Lab 윈도우는 1개의 디스크 내에서 부팅...

Date2023.09.17 일반 Byhjk9860 Reply19 Views884

Read More
No Image

[언론 보도] [단독] SK브로드밴드·넷플릭스 상호 소송취하

관련 글 - "넷플릭스, SK브로드밴드에 소송" https://gigglehd.com/gg/soft/7070032 "SK브로드밴드와 넷플릭스가 망 이용대가를 둘러싸고 벌인 소송전을 취하한다. 2020년 4월 넷플릭스의 소송으로 시작된 양사간 분쟁은 3년만에 막을 ...

Date2023.09.17 소식 By임시닉네임 Reply0 Views611

Read More
No Image

시놀로지를 개별볼륨일때 백업후 레이드 묶은 나스에 복원하면 어떻게 되나요.

안녕하세요. 시놀로지 나스 하이퍼백업본 복원 관련 궁금하여 질문글을 올립니다. 사용중인 환경은 ds916+ 에 디스크 4개를 각각 개별 볼륨으로 쓰고 있습니다. 데이터 총 량은 9테라 정도여서 USB 외장하드에 하이퍼 백업으로 폴더 구...

Date2023.09.17 질문 By아라 Reply2 Views416

Read More
연례행사 완료 with Sonoma

변함없는 연례행사의 시간입니다! RC 나온 김에 바로 업데이트 진행했습니다. macOS 14 Sonoma 입니다. 사실상 마지막 인텔맥 지원 버전이 아닐까 싶습니다. 차세대 버전부터는 Only ARM이 될 것으로 보네요. 그 동안 잘 ...

Date2023.09.17 일반 ByMr.10% Reply2 Views529

Read More
No Image

웹피(WebP) 이미지를 렌더링 라이브러리에서 심각한 취약점이 발견

웹피는 많은 인터넷 사이트뿐만 아니라 웹 뷰를 사용하는 앱, 기타 소프트웨어에서도 널리 쓰이는 이미지 형식이다. 구글 크롬과 모질라 파이어폭스 등의 브라우저는 효율적인 이미지 압축 기능을 위해 웹피를 사용한다. 해당 취약점은 무...

Date2023.09.17 소식 By낄낄 Reply4 Views584

Read More
모바일 크롬에서 문장을 길게 누르면 Bing 검색이 뜨는 문제

모바일 크롬에서 문장을 길게 누르면 해당 부분이 선택되면서 그걸로 뭘 할지를 선택하는 창이 뜨는데요. 여기에 Bing 검색이 뜨더라고요. 저는 Bing 같은 건 쓰지도 않고 설치도 안 했습니다. 그런데 쓰지도 않는 게 왜 나오는지 짜증이...

Date2023.09.17 일반 By낄낄 Reply2 Views403

Read More
윈도우 스니핑 툴에 텍스트를 추출하는 기능 추가

윈도우에서 스크린샷을 찍는 스니핑 툴에 텍스트를 추출하는 기능이 추가됐습니다. 촬영된 스크린샷의 텍스트를 인식해서 복사할 수 있고, 기밀 정보를 지우는 것도 가능합니다.

Date2023.09.17 소식 By낄낄 Reply1 Views366

Read More