커뮤니티 게시판 : 아주 기본적인 네티켓만 지킨다면 자유롭게 쓸 수 있는 커뮤니티 게시판입니다. 포럼에서 다루는 주제는 각각의 포럼 게시판을 우선 이용해 주시고, 민감한 소재는 비공개 게시판이나 수상한 게시판에, 홍보는 홍보/외부 사용기 게시판에 써 주세요. 질문은 포럼 게시판의 질문/토론 카테고리를 사용해 주세요.

잡담

2023.05.16 18:31

LaMA가 사실상 Meta가 인위적으로 유출한 것 아니냐는 말도 나오네요.

Marigold https://gigglehd.com/gg/14268638

조회 수 723 댓글 10

Google 내부 보고서 유출 보면, OpenAI나 Google이 AI 학습에 들어가는 자원의 소모량이 현재 Community에서 자발적으로 개발하는 것 대비해서 비용 소모가 크다고 하더군요.

특히 기업으로서는 추가적으로 정부와 같은 여러 이해 기관들의 규제에만족하기 위해서 처음부터 학습 데이터를 만들거나 이미 학습된 모델을각 규제에 맞춰서 테스트 하는 등의 여러 추가적인 비용 요소가 크다고 하네요.

반면에, 대중들이 만들 때는 자료를 학습할 때 이미 공개된 기업의 논문을 참고해서 넣기 때문에 처음 학습부터 자료를 확보하기 위한 노력이 들어가지 않았고, 이후 추가적인 자료 수집이나 학습에서 굳이 각 정부 기관의 입맞에 맞을 기업처럼검열된 정보를 걸러낸다거나 아니면 개발자들에 인건비를 지출한다거나 등의 필요가 없으니 생각 이상으로 빠르게 발전하고 있다고요.

즉, 자발적으로 참여하는 인력에 대해서 지출이 없고, 순수하게 자신만의 LLM을 소유하고자 하는 욕망에 Cloud Service를 자발적으로 이용해 서로 공유하는 상황이 일어나고 있다 보니까 기업이 지금은 우위에 있지만 이들의 발전 속도를 보면 오래 가지 않을 것이란 의견을 내놓았어요.

한편으로 Meta의 유출된 LLM을 기준으로 새로 학습을 하거나 만드는 과정을 거치기 때문에 여기서 얻은 자료들이 Meta의 LLM에도 반영될 수도 있어서 Meta가 유출이라는 이름 아래에 일부러 자신들의 LLM을 공개한 것 아닌가란 의견도 있네요.

실제로, Meta의 LLM과 논문을 분석하여 동일한 데이터로 학습한 Apache License 기반 LLM도 공개가 되었으니까요.

실제 Local 환경에서 구동되는 LLM 전부가 Meta 기반이거나 Meta LLM의 Reverse engineering 기반이라서 프롬프트나 설정값들이 Meta LLM에도 공유가 되다보니 사실상 OpenAI가 GPT API 제공하면서 얻은 젙보 기반으로 다시 GPT 학습에 이용하였건 것처럼 Meta도 그러지 않으리란 보장이 없다는 말도 나오고요...

그러서 최근에 OpenAI가 130조 투자를 받아서 연내 AGI를 도달 하겠다는 말을 하는 것이 아닌가란 생각도 들어요.

물론 모든 것은 개인적인 생각입니다.

삭제 요청

목록 스크랩

위로 아래로 댓글로 가기

Comments '10'

ForGoTTen 결제중.... 2023.05.16 18:50

저희도 요즘 시도라도 해보고 있는데.... LLM학습이 그리 녹록하지 않습니다. 국내에서는 민간에서 시도라도 해 보고 있는 곳이 네이버랑 스타트업 몇 곳 정도 있더군요.

클라우드로 충당하기에는 너무 비싸고 그렇다고 초기 투자를 늘려서 자체 클러스터를 구비하자니 너무 일이 커지니까요. 대표적인 LLM인 GPT3 175B 크기 모델을 학습할 수 있는 H/W에 접근 가능한 연구 그룹은 다들 뒷배경이 하나씩은 있....
Marigold 2023.05.16 19:11

개인 혼자 하기는 버겁고, 정말 의견이 맞는 Cummunity 단위로 돈 모아서 만들거나, 아니면 어디 투자를 받던가 하는 것 외에는 힘들긴 하죠…

RunPod으로 A100 80GB 8대 임대해서 24시간 돌리는 비용이 약 30만원 정도이니, 본격적으로 학습을 한다고 하면 몇 백은 우습죠…
ForGoTTen 결제중.... 2023.05.16 21:36

저희랑 연 있는 스타트업이 요즘 200B정도 되는 모델을 돌리고 있는데...
그 쪽은 자체 클러스터를 가지고 있지만 거기서 나오는 H/W failure가 장난이 아니라더군요...ㄷㄷ
Marigold 2023.05.16 21:41

그래도 솔직히 Meta에서 LLM 유출이 없었다면, 일반 기업 입장에서는 시도 조차도 힘들었을 텐데, 논문으로 방법만 아는 것이 아니라 직접 뜯어 볼 수 있는 LLM까지 놓여 있으니 스타트업 단위에서도 돌아 가게 된 것이 아닐까 합니다.
ForGoTTen 결제중.... 2023.05.17 03:05

아... 사실 그쪽은 자체 기술력이 좀 있는 회사입니다.
AMD ROCm 공식 지원 전에 PyTorch 백엔드를 OpenCL로 모두 포팅할 정도로....
Marigold 2023.05.17 08:03

오…
대단하네요
BEE3E3 idolm@ster.email 2023.05.16 19:25

원문 https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
번역 https://arca.live/b/live/75673342
유출문건 읽어보고 싶으신분들은 참고해보시면 좋을 것 같네요
Marigold 2023.05.16 19:27

번역문으로도 나왔군요.
파란화면 2023.05.17 00:10

오픈소스로 공개를 하면 됐을 것을 굳이 유출이라는 형태를 취한 이유가 있을까요?
Marigold 2023.05.17 00:29

사실 그 부분은 소수 의견이긴 합니다.
처음 공개하였을 순간에도 오픈소스이지만, 인증된 연구자 자격만 접근 가능이었으니까, 인증된 연구원 중 하나라 유추가 되고는 있는데, 그렇다면 그들 중 하나라면 누가 유출했는지 왜 못 잡았는가란 말도 나오니까요.(...)

결국, 유출 이후의 판도가 결국은 Meta LLM을 기준으로 개발이 진행이 되는 만큼 다른 빅테크 견제할 겸으로 일부러 저런 것 아니냐는 소수 의견이 나오는 것이 아닌가 싶어요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

List of Articles
번호	분류	제목	글쓴이	날짜	조회 수
75023	잡담	삼성이 일본에 테스트 연구소 설립 이유... 4	고재홍	2023.06.12	964
75022	핫딜	알리에서 13만원짜리 뽑기를 해봅시다. 15	360Ghz	2023.06.12	1073
75021	잡담	찡찡은 과학입니다 25	포도맛계란	2023.06.12	496
75020	잡담	서피스 베사 마운트 생각보다 많이 애매하군요 3	노예MS호	2023.06.12	361
75019	장터	미개봉 오피스 홈&스튜던트 2021 라이선스 키... 4	T.Volt_45	2023.06.12	549
75018	잡담	100일 됐습니다. 7	Retribute	2023.06.12	342
75017	잡담	월요병이 없어졌습니다. 4	아라	2023.06.12	281
75016	잡담	커다란 눈나방 왔네요 11	AZUSA	2023.06.12	505
75015	퍼온글	수상하게 무언가를 닮은 새 캐릭터 7	360Ghz	2023.06.12	591
75014	잡담	닷씨는 가변출력 멀티포트 어댑터같은건 사지 않... 9	니즛	2023.06.12	507
75013	퍼온글	야외에서 XX 빨래집게로 집어놓고 XX 5	Marigold	2023.06.12	765
75012	잡담	GS25 혜자로운 제육 샌드위치 후기 5	유니	2023.06.12	2322
75011	잡담	재고 떨이 성능 확실하네요 22	까마귀	2023.06.12	1080
75010	잡담	이번 알리 할인으로 서브폰 하나 샀어요 20	Argenté	2023.06.12	969
75009	잡담	팡팡!에 당첨되어 99포인트를 보너스로 받으셨습... 29	TundraMC	2023.06.12	363
75008	잡담	갑자기 레벨이 올랐네요 7	HAYAN	2023.06.12	280
75007	잡담	키보드 매트 샀어요 5	유입입니다	2023.06.12	414
75006	잡담	일반 메모리/ssd보다 gddr이랑 기업용 메모리 낙... 9	고자되기	2023.06.12	508
75005	잡담	사타선을... 몇개 사야...되네요 ㅎㅎ... 7	360Ghz	2023.06.12	434
75004	공지사항	노벨피아는 스팸 차단합니다 30	낄낄	2023.06.12	7297
75003	잡담	하드렌즈 질렀습니다. 2	뚜찌`zXie	2023.06.12	410
75002	잡담	현대 의학 만세 15	낄낄	2023.06.12	851
75001	잡담	레이싱 DNA를 가진 팀은 오랜만에 르망24시에서 ... 7	NureKarasu	2023.06.12	531
75000	잡담	요즘 m.2 NVMe ssd 가격을 보면서 하는 생각. 11	milsa	2023.06.12	8599
74999	퍼온글	중국 자본으로 삼성전자 반도체 공장 통째로 복제... 27	카토메구미	2023.06.12	1184
74998	퍼온글	건담 감독 토미노 요시유키 인터뷰 근황 10	유니	2023.06.12	7327
74997	퍼온글	의외로 다녀올만한 나라 인도 14	고자되기	2023.06.12	747
74996	잡담	갤럭시 S20 마이크로SD 속도 7	까마귀	2023.06.12	682
74995	퍼온글	컴퓨터 단축키를 시각화 해보기 2	뚜찌`zXie	2023.06.12	548
74994	핫딜	삼성 MicroSD 512GB+삼성 리더기 (47490) 8	까마귀	2023.06.12	590

2016년 7월 이전글 링크: 커뮤니티 게시판 / 공지사항 게시판

로그인

LaMA가 사실상 Meta가 인위적으로 유출한 것 아니냐는 말도 나오네요.

나눔글꼴 설치 안내

이 PC에는 나눔글꼴이 설치되어 있지 않습니다.