최근 오픈소스 음성 에이전트 프레임워크인 TEN 프레임워크(https:github.com/TEN-framework/…고 있습니다. TEN 프레임워크는 일종의 "실시간 음성/멀티모달 에이전트 운영 체제"라고 할 수 있습니다. 통합 실시간 스트리밍 프레임워크 내에서 STT, LLM, TTS, VAD, Avatar와 같은 모듈이 필요에 따라 결합 및 교체 가능한 플러그형 "빌딩 블록"으로 구성됩니다. 핵심은 AI 실시간 대화와 관련된 저지연성, 멀티모달성, 크로스 플랫폼 배포와 관련된 엔지니어링 문제를 패키징하고 해결하는 것입니다. 다른 어떤 것도 교체하지 않고 로컬로 배포하고 실행하는 데 10분밖에 걸리지 않았습니다. 실제 사용 시 실시간 음성 Q&A는 매우 원활하게 작동합니다. 중단이 가능하고, 응답 속도가 빠르며, 지연 시간은 약 1초입니다. 메모리 및 RAG와 같은 일반적인 기능이 이미 통합되어 있어 AI 감정 동반자 관계, AI 음성 언어 연습, AI 전화 고객 서비스, 스마트 음성 하드웨어 등으로 확장할 수 있습니다. 공식 예제를 사용하여 테스트해 본 결과, 결과는 매우 좋았습니다. 진정한 실시간 음성 에이전트에 관심이 있다면 이 오픈소스 프레임워크를 확인해 보세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.