X (Twitter)

[오픈소스 추천] TEN 프레임워크: 산업용 수준의 오픈소스 실시간 멀티모달 AI 에이전트 구축 프레임워크 LangChain이 LLM 텍스트 로직의 오케스트레이션을 해결하도록 설계되었다면, @TenFramework는 "실시간 오디오/비디오 스트림 + AI"의 복잡한 오케스트레이션을 해결하도록 설계되었습니다. 이는 "단순 챗봇"과 "인간처럼 듣고 보고 말할 수 있는 실시간 어시스턴트" 사이의 거대한 기술적 격차를 해소합니다. TEN은 어떤 문제를 해결하나요? TEN 이전에는 "듣기(ASR), 생각하기(LLM), 말하기(TTS)"는 물론 "보기(Vision)"까지 가능한 실시간 음성 비서를 개발하려면 개발자들이 매우 힘들고 파편화된 통합 작업을 감수해야 했습니다. • "접착 코드" 지옥: Deepgram(듣기), OpenAI(생각하기), ElevenLabs(말하기)를 연결하기 위해 WebSocket 연결 끊김, 오디오 형식 변환 및 버퍼링을 처리하는 코드를 직접 작성해야 합니다. • 제어할 수 없는 지연: 각 단계에서 누적되는 지연으로 인해 대화가 끊기고 실시간으로 중단하거나 응답하는 것이 불가능해질 수 있습니다. • 다국어 통합의 어려움: 저수준 오디오 및 비디오 처리는 종종 C++의 고성능을 요구하는 반면, AI 로직은 Python 생태계에 의존하므로 언어 간 디버깅이 매우 어렵습니다. TEN Framework의 솔루션: 이는 표준화된 "버스"를 제공하여 레고 블록으로 조립하듯 다양한 AI 모델과 기능 모듈을 확장하고 연결할 수 있도록 하며, 프레임워크가 기본 데이터 흐름과 동시성을 자동으로 처리합니다. 기술 아키텍처에 대한 심층 분석 TEN의 설계 철학은 모듈식이며 그래프 기반입니다. 1. TEN 그래프(시각적 오케스트레이션): • TEN의 핵심 기능은 드래그 앤 드롭 방식으로 데이터 흐름을 정의할 수 있는 시각적 편집기(TEN Designer)를 제공한다는 점입니다. 예를 들어, 마이크 오디오 -> 노이즈 감소 모듈 -> ASR 모듈 -> LLM 모듈 -> TTS 모듈 -> 스피커와 같은 경로로 전달됩니다. 인터페이스에서 "OpenAI"를 "Gemini"로 직접 바꾸거나 "실시간 번역" 노드를 삽입할 수 있으며, 기본 코드는 수정할 필요가 없습니다. 2. 다국어 런타임(Polyglot Runtime): 이 기능을 통해 서로 다른 언어로 작성된 확장 프로그램들이 동일한 애플리케이션 내에서 함께 작동할 수 있습니다. • C++: 고성능 오디오 및 비디오 인코딩 및 디코딩, RTC 전송(예: Agora SD-RTN)에 사용됩니다. • Python: LLM 로직 처리, 도구 호출 및 기타 AI 관련 작업에 사용됩니다. • Go: 높은 동시 접속률을 요구하는 네트워크 서비스에 사용됩니다. 3. 엣지-클라우드 통합: 이 기술은 웨이크 워드 감지 및 VAD와 같은 일부 경량 모델을 엣지 디바이스(또는 ESP32와 같은 마이크로컨트롤러)에서 실행하는 것을 지원하는 동시에 복잡한 추론은 클라우드에 배치하여 비용 및 지연 시간 측면에서 최적의 솔루션을 제공합니다. 오픈 소스 프로젝트

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용