RT @FeitengLi: 벽을 마주 보고 사용하는 #VoxCPM 1.5B TTS 모델은 상업용 수준의 음질로 44.1kHz 오디오 출력을 지원하여 매우 훌륭합니다. 전체 모델 아키텍처는 ByteDance의 DiTAR를 참조하며, 연속 코덱 표현을 사용하여 6GB까지 압축하는 표준 GPT + FlowMatching/DiT 변형입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.