일반 STT 모델은 의료 용어에 취약합니다. Persly Voice는 헬스케어 전용 어휘로 학습되어 탁월한 정확도를 제공합니다.
10만 개 이상의 의료 용어, 약품명, 질병명
의료 문맥에서 동음이의어를 정확히 구분
다국어 의료 용어 교차 인식
WebSocket 기반 실시간 전사
의사/환자 대화 자동 구분
문장별 시간 정보 제공
결과별 신뢰도 점수 제공
의료 정보 전달에 최적화된 톤
약품명, 질병명 정확한 발음
안내/경고/일반 톤 선택
다양한 화자 스타일 지원
| 지원 언어 | 70개 이상의 언어 |
| 샘플레이트 | 16kHz / 48kHz |
| 인코딩 | PCM, WebM, MP3 |
| 지연 시간 | < 200ms (스트리밍) |
| 최대 오디오 길이 | 4시간 (배치) / 무제한 (스트리밍) |
| 지원 언어 | 70개 이상의 언어 |
| 샘플레이트 | 22.05kHz / 48kHz |
| 출력 포맷 | PCM, MP3, OGG |
| 첫 바이트 지연 | < 150ms |
| 최대 텍스트 길이 | 10,000자 / 요청 |
import asyncio
from persly import Voice
client = Voice(api_key="YOUR_API_KEY")
async def transcribe_stream():
async for result in client.transcribe_stream(
audio_stream=microphone_stream(),
language="ko",
enable_medical_mode=True,
speaker_diarization=True
):
print(f"[{result.speaker}] {result.text}")
print(f" Confidence: {result.confidence}")
print(f" Medical terms: {result.medical_terms}")
asyncio.run(transcribe_stream())의료 음성 데이터셋 기반 단어 오류율(WER) 비교. 낮을수록 좋습니다.
약물명 정확도 %
일반 의료 대화의 단어 오류율
의료 용어의 단어 오류율
약품명 정확한 인식률
실시간 전사 지연 시간
| 지표 | Persly Voice | 경쟁사 평균 |
|---|---|---|
| 첫 결과 지연 | 180ms | 350ms |
| 스트리밍 지연 | < 200ms | 400-800ms |
| TTS 첫 바이트 | 120ms | 300ms |
* WER = Word Error Rate (낮을수록 좋음) * 4개 언어 1,000건의 의료 상담 녹음으로 벤치마크
의사-환자 대화 실시간 전사, 화자 분리, EMR 연동
병원 예약 봇, 복약 안내 전화, 건강 상담 음성 어시스턴트
처방전 음성 작성, 소견서 딕테이션, 검사 결과 기록
복약 지도 음성 안내, 수술 전 안내, 다국어 환자 안내
스트리밍은 WebSocket으로 실시간 결과를 받고, 배치는 전체 오디오 파일을 한 번에 처리합니다. 진료 중 실시간 기록에는 스트리밍, 녹음 파일 전사에는 배치를 권장합니다.
월간 업데이트로 최신 약품명과 의료 용어를 반영합니다. Enterprise 플랜에서는 커스텀 어휘 추가도 지원합니다.
네. 모든 음성 데이터는 전송 중 암호화되며, 처리 후 즉시 삭제됩니다. HIPAA, GDPR, 국내 개인정보보호법을 준수합니다.
Voice API는 Embed → Finder → Rerank → LLM 파이프라인의 입출력 레이어로 작동합니다. 하나의 API 키로 모든 서비스를 이용할 수 있습니다.
헬스케어 API가 어떻게 도움이 될 수 있는지 함께 이야기해요