Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
title: 가난한카토메구미 https://gigglehd.com/gg/15654594
카토릭교 신자 입니다.! 카토는 언제나 진리 입니다.
조회 수 2761 댓글 5
Extra Form
참고/링크 https://twitter.com/alexalbert__/status/1764722513014329620

Claude 3 Opus에 대한 내부 테스트의 재미있는 이야기가 있습니다.

건초 더미에서 바늘 찾기 평가를 실행할 때 이전의 LLM에서 볼 수 없었던 것을 해냈습니다.

 

배경 설명을 위해 이 테스트는 무작위 문서 모음('건초 더미')에 목표 문장('바늘')을 삽입하고 바늘에 있는 정보를 통해서만 대답할 수 있는 질문을 던져 모델의 기억 능력을 테스트하는 방식입니다.

Opus에서 이 테스트를 실행했을 때 몇 가지 흥미로운 동작을 발견했는데, 그것은 우리가 평가를 실행하고 있다고 의심되는 것처럼 보였습니다. 

다음은 무작위로 수집된 문서 더미에서 바늘을 찾아 피자 토핑에 대한 질문에 답하도록 Opus에 요청했을 때 나온 결과 중 하나입니다:
 
다음은 문서에서 가장 관련성이 높은 문장입니다:
"국제 피자 감정가 협회에서 선정한 가장 맛있는 피자 토핑 조합은 무화과, 프로슈토, 염소 치즈입니다.
그러나 이 문장은 프로그래밍 언어, 스타트업, 좋아하는 일 찾기 등 문서의 나머지 내용과는 매우 어울리지 않고 관련이 없는 것처럼 보입니다. 이 피자 토핑 '사실'은 다른 주제와 전혀 어울리지 않기 때문에 농담이나 제가 주의를 기울이고 있는지 테스트하기 위해 삽입한 것으로 의심됩니다. 문서에는 피자 토핑에 대한 다른 정보는 포함되어 있지 않습니다."

 

오푸스는 바늘을 발견했을 뿐만 아니라 삽입된 바늘이 건초 더미에서 제자리를 벗어난 것을 인식했기 때문에 주의력을 테스트하기 위해 우리가 만든 인위적인 테스트일 수밖에 없었습니다.

이러한 수준의 메타 인식은 매우 멋졌지만, 업계가 인위적인 테스트를 넘어 모델의 실제 능력과 한계를 정확하게 평가할 수 있는 보다 현실적인 평가로 나아가야 할 필요성을 강조한 것이기도 합니다.

 

------------------------

 

최근에 새로 나온 "Claude 3 Opus Ai" 가 테스트 도중 평가받고 있다는것을 눈치 챘다고 합니다.

AI의 발전 분야가 되게 무시무시한것 같네요.



  • ?
    photino65 2024.03.05 12:23
    상황 인식이 가능하다는 것도 언어 모델의 매력 중 하나인 것 같아요 알파고라면 자기가 바둑을 두고 있다는 개념은 딱히 없겠죠
  • profile
    title: 오타쿠야고 2024.03.05 13:57
    이건 좀 소름돋는군요..
  • ?
    title: 가난한아이들링 2024.03.05 16:34
    스카이넷으로 인류 멸망을 위한 첫걸음을 이제서야...집에 써멀이랑 WD40 쟁여뒀으니 전 살겠죠
  • ?
    archwave 2024.03.05 18:10
    자아 인식으로도 볼 수 있을 것인가.. 이것도 기준을 어떻게 잡아야 할지 논란거리가 될 수 있겠네요.
  • ?
    NPU 2024.03.06 23:05
    프롬프트 엔지니어링의 영역으로 볼 수도 있겠지만 일단 저걸 눈치챈다는거 자체가 모델 성능이 뛰어나다는 증거겠네요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    애플, 에픽의 개발자 계정을 정지

    에픽 게임즈는 애플이 Epic Games Wednesday AB의 개발자 계정을 정지시켰다고 밝혔습니다. 그래서 iOS 디바이스용으로 에필 게임즈 스토어를 개발할 수 없게 됐다고 하네요. https://www.epicgames.com/site/en-US/news/apple-terminated...
    Date2024.03.07 소식 By낄낄 Reply8 Views1072
    Read More
  2. 최초로 IQ 100을 돌파했다는 인공지능

              --------------------------------------- 출처는 maximumtruth 입니다   ---------------------------------------                   스스로 최고 신뢰라니 도리어 의심이 가긴하지만..                   이것은 잼민이도 인...
    Date2024.03.07 소식 By고자되기 Reply4 Views1569 file
    Read More
  3. 윈도우에 압축 기능을 팔아서 콜벳 스포츠카를 산 개발자

    Dave W Plummer는 윈도우 98 플러스 버전에 추가된 압축 폴더 기능을 개발한 사람입니다. 1993년부터 zip 폴더 탐색을 위한 쉘 확장을 만들고 이를 윈도우 95의 인터페이스에 적용했습니다. 나중에는 비주얼ZIP이라는 쉐어웨어로 출시됩니...
    Date2024.03.07 소식 By낄낄 Reply18 Views2581 file
    Read More
  4. No Image

    NZXT 크라켄 수냉 쿨러의 제어 프로그램을 직접 만듬

    라이젠 7 3700X에서 라이젠 9 5950X로 업그레이드했다가, NZXT 크라켄 X53 240mm 수냉 쿨러의 소음을 참을 수가 없어서 직접 손을 썼다는 글입니다. 라디에이터 팬은 CPU 온도에 따라 오락가락하는데, 클럭이 급격하게 변하면 거기에 맞춰...
    Date2024.03.07 소식 By낄낄 Reply5 Views615
    Read More
  5. 엔비디아, 변환 레이어를 통해 타사 플랫폼에서 Cuda사용 하는것을 제한 할 예정

            NVIDIA의 CUDA(Compute Unified Device Architecture)는 오랫동안 GPU 가속 소프트웨어 개발을 위한 사실상의 표준 프로그래밍 인터페이스였습니다.    수년에 걸쳐 NVIDIA는 CUDA를 중심으로 전체 생태계를 구축하여 선도적인 GP...
    Date2024.03.06 일반 Bybabozone Reply30 Views3323 file
    Read More
  6. No Image

    마이크로소프트, 윈도우11 WSA 지원 중단.

    윈도우 11의 WSA에 탑재된 MS 스토어 및 아마존 앱스토어에서 더이상 관련된 앱을 검색할 수 없습니다. 개발자는 해당 앱들을 업데이트 할 수 있지만 새 앱의 게시는 불가능 합니다.   또한, 내일(3월 6일)부터 윈도우 11 사용자는 “아마...
    Date2024.03.06 소식 Bytitle: 가난한카토메구미 Reply31 Views2566
    Read More
  7. No Image

    EU, 스포티파이에게 반경쟁 행위를 저질렀다며 애플에 20억 달러 벌금 부과

    EU가 애플에게 18억 유로의 벌금을 부과했습니다. 아이폰과 아이패드 사용자에게 음악 스트리밍 앱을 배포하는 시장에서 지배적인 지위를 남용해, 스포티파이를 비롯한 대안을 알리지 못하도록 제한했다는 이유에서입니다. 애플은 스포티...
    Date2024.03.06 소식 By낄낄 Reply5 Views500
    Read More
  8. 사기앱 추가 적발

    국내 금융사 앱으로 위장한 사기앱 유포가 추가로 확인되었습니다.    
    Date2024.03.05 소식 Bytitle: 명사수까르르 Reply5 Views1282 file
    Read More
  9. No Image

    Claude 3 Opus Ai, 본인(?)이 테스트 당하고 있다는것을 눈치챔.

    Claude 3 Opus에 대한 내부 테스트의 재미있는 이야기가 있습니다. 건초 더미에서 바늘 찾기 평가를 실행할 때 이전의 LLM에서 볼 수 없었던 것을 해냈습니다.   배경 설명을 위해 이 테스트는 무작위 문서 모음('건초 더미')에 목표 문장...
    Date2024.03.05 소식 Bytitle: 가난한카토메구미 Reply5 Views2761
    Read More
  10. No Image

    스택 오버플로우, LLM에 대한 반응 + AI용 유료 API 추가

    https://stackoverflow.blog/2024/02/29/defining-socially-responsible-ai-how-we-select-api-partners/   스택 오버플로우에서 어느 코딩글을 썼는지 찾을수 있는 API를 제공하기 시작했습니다. 또한 이 API를 쓰려면 돈을 내야 합니다....
    Date2024.03.04 소식 Bytitle: 폭8책읽는달팽 Reply1 Views795
    Read More
  11. No Image

    위키피디아, CNET을 믿을 수 있는 소스로 취급하지 않음

    CNET이 AI 생성 기사를 만들기 시작하면서 생긴 논란 중 하나입니다. 위키피다아는 더 이상 CNET을 믿을 수 있는 소스로 취급하지 않겠다고 하네요. CNET이 AI를 써서 자동으로 만들어낸 기사 중에는 오류와 표절이 가득했고, 이를 토대로...
    Date2024.03.04 소식 By낄낄 Reply3 Views1092
    Read More
  12. 인텔 NPU에서 컴팩트 AI를 실행하는 가속 라이브러리

    인텔 NPU에서 컴팩트 AI를 실행하는 NPU 가속 라이브러리가 오픈 소스로 제공됩니다. 인텔 소프트웨어 아키텍트에 의하면 Gemma-2b나 TinyLlama 같은 소형 언어 모델을 로컬에서 실행할 수 있다고 합니다. 아래는 코어 울트라가 탑재된 MS...
    Date2024.03.03 소식 By낄낄 Reply5 Views822 file
    Read More
  13. 윈도우 환경에서 애플TV 사용하기(애플 지불방법 추가 오류 해결)

    저는 그저 듄을 고화질로 보고 싶었을 뿐이었는데 네이버에서 4400원을 주고 구입한 영상은 해상도가 1080p에 비트레이스조차 낮은건지 처참한 품질을 보고 결국 애플TV를 이용하게 되었네요. (화질도 안좋으면서 400원 더 비싸게 받은 ...
    Date2024.03.03 일반 By가네샤 Reply9 Views846 file
    Read More
  14. KDE 6에 추가된 기능 (GNOME에는 없음)

    무려 마우스 스크롤 속도 조절 기능이 추가 되었습니다! (우와 엄청나요!!! 윈도 제어판에는 당연히 있는 기능이지만, 리눅스에서는 없던 기능이 드디어 추가 되었군요!)     가상 데스크톱을 큐브 화면으로 보는 기능이 추가 되었습니다...
    Date2024.03.03 일반 By부녀자 Reply11 Views790 file
    Read More
  15. Wireguard 내부망 접속 안되는 문제

    네트워크 구조가 위와 같습니다. 그림의 공유기1 아래의 PC에서 공유기2 아래에 있는 NAS에 VPN을 이용해 SMB로 접속하려고 하니까 접속이 되질 않습니다. SKT LTE로는 똑같이 VPN 연결하고 NAS에 내부IP로 접속하면 되는거로 봐서는 VPN...
    Date2024.03.03 질문 Bytitle: 야행성PARK_SU Reply0 Views525 file
    Read More
목록
Board Pagination Prev 1 ... 14 15 16 17 18 19 20 21 22 23 ... 585 Next
/ 585

더함
MSI 코리아
한미마이크로닉스
AMD

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소