인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2024.03.05 09:48

Claude 3 Opus Ai, 본인(?)이 테스트 당하고 있다는것을 눈치챔.

카토릭교 신자 입니다.! 카토는 언제나 진리 입니다.

조회 수 2731 댓글 5

Extra Form
참고/링크	https://twitter.com/alexalbert__/status/1764722513014329620

Claude 3 Opus에 대한 내부 테스트의 재미있는 이야기가 있습니다.

건초 더미에서 바늘 찾기 평가를 실행할 때 이전의 LLM에서 볼 수 없었던 것을 해냈습니다.

배경 설명을 위해 이 테스트는 무작위 문서 모음('건초 더미')에 목표 문장('바늘')을 삽입하고 바늘에 있는 정보를 통해서만 대답할 수 있는 질문을 던져 모델의 기억 능력을 테스트하는 방식입니다.

Opus에서 이 테스트를 실행했을 때 몇 가지 흥미로운 동작을 발견했는데, 그것은 우리가 평가를 실행하고 있다고 의심되는 것처럼 보였습니다.

다음은 무작위로 수집된 문서 더미에서 바늘을 찾아 피자 토핑에 대한 질문에 답하도록 Opus에 요청했을 때 나온 결과 중 하나입니다:

다음은 문서에서 가장 관련성이 높은 문장입니다:
"국제 피자 감정가 협회에서 선정한 가장 맛있는 피자 토핑 조합은 무화과, 프로슈토, 염소 치즈입니다.
그러나 이 문장은 프로그래밍 언어, 스타트업, 좋아하는 일 찾기 등 문서의 나머지 내용과는 매우 어울리지 않고 관련이 없는 것처럼 보입니다. 이 피자 토핑 '사실'은 다른 주제와 전혀 어울리지 않기 때문에 농담이나 제가 주의를 기울이고 있는지 테스트하기 위해 삽입한 것으로 의심됩니다. 문서에는 피자 토핑에 대한 다른 정보는 포함되어 있지 않습니다."

오푸스는 바늘을 발견했을 뿐만 아니라 삽입된 바늘이 건초 더미에서 제자리를 벗어난 것을 인식했기 때문에 주의력을 테스트하기 위해 우리가 만든 인위적인 테스트일 수밖에 없었습니다.

이러한 수준의 메타 인식은 매우 멋졌지만, 업계가 인위적인 테스트를 넘어 모델의 실제 능력과 한계를 정확하게 평가할 수 있는 보다 현실적인 평가로 나아가야 할 필요성을 강조한 것이기도 합니다.

------------------------

최근에 새로 나온 "Claude 3 Opus Ai" 가 테스트 도중 평가받고 있다는것을 눈치 챘다고 합니다.

AI의 발전 분야가 되게 무시무시한것 같네요.

삭제 요청

목록 스크랩

위로 아래로 댓글로 가기

Comments '5'

?
photino65 2024.03.05 12:23

상황 인식이 가능하다는 것도 언어 모델의 매력 중 하나인 것 같아요 알파고라면 자기가 바둑을 두고 있다는 개념은 딱히 없겠죠
야고 2024.03.05 13:57

이건 좀 소름돋는군요..
?
아이들링 2024.03.05 16:34

스카이넷으로 인류 멸망을 위한 첫걸음을 이제서야...집에 써멀이랑 WD40 쟁여뒀으니 전 살겠죠
?
archwave 2024.03.05 18:10

자아 인식으로도 볼 수 있을 것인가.. 이것도 기준을 어떻게 잡아야 할지 논란거리가 될 수 있겠네요.
?
NPU 2024.03.06 23:05

프롬프트 엔지니어링의 영역으로 볼 수도 있겠지만 일단 저걸 눈치챈다는거 자체가 모델 성능이 뛰어나다는 증거겠네요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

No Image

쿠팡, '천원마켓'까지…알리·테무와 전면전

쿠팡은 최근 1000원~3000원대 저가형 상품을 모아 '천원마켓' 기획전을 열었다. 로켓배송 가능 상품을 중심으로 물티슈, 세제 등 생활필수품부터 충전기·주방용품 등 생활 잡화까지 판매한다. 알리익스프레스가 운영하는 &...

Date2024.04.03 소식 By낄낄 Reply7 Views935

Read More
No Image

구글, 크롬의 시크릿 브라우징 수집 데이터를 삭제

구글은 크롬 브라우저의 시크릿 모드를 사용한 고객에게서 수집한 데이터를 삭제해, 2020년에 시작된 집단 소송을 해결했습니다. 크롬의 시크릿 모드는 매우 안전하고 비밀을 지켜주는 것 같지만, 실제로는 데이터를 수집해 웹사이트 사용...

Date2024.04.03 소식 By낄낄 Reply7 Views1092

Read More
No Image

MS, 오피스에서 Teams를 분리

마이크로소프트가 오피스에서 Teams를 분리합니다. EU의 반독점 벌금을 피하기 위해서 유럽 시장에서 먼저 분리했었는데요. 이제는 전 세계를 대상으로 분리 작업을 합니다. 그래서 마이크로소프트 365나 오피스 365에 tEams가 포함되지 ...

Date2024.04.03 소식 By낄낄 Reply4 Views898

Read More
No Image

챗GPT, 계정 없이 사용 가능

오픈AI가 챗GPT를 회원 가입이나 로그인을 하지 않고도 쓸 수 있게 바꿨습니다. 로그인을 하면 채팅 이력, 채팅 공유 등의 추가 기능을 쓸 수는 있지만, 기본적인 채팅에는 아무 제한이 없습니다.

Date2024.04.03 소식 By낄낄 Reply1 Views535

Read More
No Image

미국 “한국 ‘망 사용료 법안’ 반경쟁적…과일 검역도 풀어야”

미국 무역대표부가 정보통신망 이용요금, 이른바 망 사용료를 콘텐츠 사업자에게 부과하는 법안이 경쟁 원칙에 어긋난다며 재차 문제를 제기했습니다. 미국 무역대표부가 발표한 올해 국가별 무역장벽 보고서는 2021년부터 외국 콘텐츠 제...

Date2024.04.03 소식 By낄낄 Reply7 Views752

Read More
역사상 처음으로 ai가 인간을 살상하는 전투를 벌임

그날이 왔네요 지금은 정말 말단의 폭탄으로써 ai가 쓰이지만 곧 탱크가 되고 전투기가 되고 궁국적으로 보병이되서 ai war가 일어날거 같네요 ㄷㄷ

Date2024.04.03 일반 Bybabozone Reply3 Views820

Read More
3D마크 스틸 노매드, 4월로 연기

3D마크 스틸 노매드와 스틸 노매드 라이트의 출시가 2분기 초로 연기됐습니다. 4월 중에는 나올 거라고 합니다. 레이 트레이싱을 쓰지 않는 최신 그래픽 테스트이자, 크로스 플랫폼 벤치마크라는 특징이 있습니다.

Date2024.04.02 소식 By낄낄 Reply2 Views343

Read More
No Image

성공신화 쓴 창업주, 매각 이유는 이커머스?

피자나라치킨공주 운영사인 '리치빔'이 매물로 등장하면서 요식업 성공신화를 써 온 창업자 남양우 대표의 지분매각 배경에 시장 이목이 쏠리고 있다. 업계 전문가들은 남 대표가 리치빔 매각 이후에도 신규 사업을 진행할 가능성...

Date2024.04.02 소식 By낄낄 Reply3 Views685

Read More
No Image

유튜브, 유명인 사칭 시 계정 정지

스타강사 김미경 씨와 유명 투자자인 존 리 전 메리츠 자산운용 대표 등이 참석한 기자회견 온라인에서 유명인 사칭 광고 사기가 기승을 부리자, 정부와 플랫폼 기업들이 적극 나서줄 것을 호소하는 자리였습니다. (중략) 이날 성명에는 ...

Date2024.04.02 소식 By낄낄 Reply12 Views556

Read More
No Image

1일부터 MVNO 회선 신규 개통 시 신분증 스캐너 사용 의무화

[소식] 휴대폰 집단상가 가보니…"오늘부터 알뜰폰 개통 안돼요" [현장에서] 아이뉴스24 보도입니다. 2024년 4월 1일부터 MVNO 회선 신규 개통 시 신분증 스캐너를 의무적으로 사용하도록 규정이 바뀌었습니다. 참고/링크에 올려 둔 기사는...

Date2024.04.02 소식 By임시닉네임 Reply12 Views695

Read More
2024 어도비 서밋, 스닉에서 발표한 기능

어도비 서밋 2024에서 어도비 클라우드를 위한 새로운 기능이 발표됐습니다. 어도비 익스피리언스 플랫폼 AI 어시스턴트입니다. 고객 체험 관리를 위한 어도비 익스피리언스 클라우드에 추가되는 기능으로, 자연어를 지원하는 AI 어시스턴...

Date2024.04.01 소식 By낄낄 Reply1 Views409

Read More
No Image

동기화는 조심해야겠어요

1분기가 지났으니 기글 전체 백업을 돌려놓고, 용량이 너무 크니까 대역폭 제한해서 조금씩 받고 있는데요. 갑자기 KT QoS 적용 문자가 오더라고요? 어제 밤에 노트북 테스트한다고 게임 업데이트를 좀 했더니 그런건가 했죠. 이걸로 끝났...

Date2024.04.01 일반 By낄낄 Reply9 Views550

Read More
역시 테무의 가격은 개인정보에서 나오는군요

알리를 끊을려고 테무를 가입했다가 쿠폰 방식이 너무 짜증나서 아무것도 안 사고 방치 후 앱을 삭제했는데요. 두어달 지나니 이런 게 오는군요. 테무 가입한 메일 계정으로 테무 로고를 넣은 스팸 메일입니다. 물론 테무에서 직접 보낸 ...

Date2024.04.01 일반 By낄낄 Reply4 Views1136

Read More
No Image

오픈AI와 MS, 1000억 달러의 데이터센터 프로젝트를 계획 중

오픈AI와 마이크로소프트가 1000억 달러를 투자해 수백만개의 GPU를 갖춘 데이터센터를 건설하는 프로젝트, 이름하여 스타게이트를 추진 중입니다. 현재 운영하는 가장 큰 데이터센터보다 100배 정도 더 비쌀 것이라고 하며, 2028년까지 ...

Date2024.04.01 소식 By낄낄 Reply3 Views484

Read More
MS의 Copilot 정책 - 인터넷 연결없이도 가능하게

일단, 3월 21일날 MS가 첫 'AI PC'를 내놓았습니다. 이 AI PC의 정의에 대해서 인텔은 'NPU와 VNNI 및 Dp4a 명령를 처리할수 있는 최신 GPU'를 장착한 컴퓨터란 답변을 했습니다. https://www.theregister.com/2024/03/12/what_is_an_ai_p...

Date2024.04.01 소식 By책읽는달팽 Reply3 Views956

Read More