아래 링크된 WebUI 버전이 자꾸 CPU만 갈구길래,
찾아보니 Whisper 기본 버전이 윈도우용은 엔비디아만 동작하네요.
(리눅스에서는 정상 동작한다는거 같습니다.)
그래서 찾아보다 AMD 지원되는 버전이 있어 올려봅니다.
장점은,
python, git 설치 불필요.(FFMPEG는 제가 안지워서 설치필요여부 모릅니다)
윈도우에서 라데온을 이용한 연산가능.
가속에 사용할 직접 선택 가능
WebUI 버전 대비 메모리 사용량이 적음.
단점.
C/C++용으로 porting된 학습모델을 사용해야함. ( https://huggingface.co/ggerganov/whisper.cpp/tree/main )
자동 언어인식 안됨.(지정해줘야함)
일본어를 기준으로 써보니까, 무조건 Large 입니다.
단어 인식 정확도, 싱크 차이가 확나요.
그리고, 이거의 장점이 단순히 유튜브같은 것 뿐 아니라, 실시간음성인식후 자막화 하는 퀄리티가 팀즈나 다른 툴보다 훨씬 낫다 싶네요.번역까지 되면 더 좋았겠지만요.
그저 amd라 당했다....
large v2 구글링해서 찾아서 넣으면 좀 더 나은거 같네요