Voice

헬스케어 음성 API

의료 특화 음성 인식 및 합성. 임상 현장에서 검증된 정확도와 실시간 스트리밍.

팀과 상담하기 코드 예시 보기

왜 의료 특화 음성인가?

일반 STT 모델은 의료 용어에 취약합니다. Persly Voice는 헬스케어 전용 어휘로 학습되어 탁월한 정확도를 제공합니다.

약품명정확한 약품명 인식

"메트포르민 500mg 하루 2회"

✗Generic"맷 포민 오백 밀리그램..."

✓Persly"메트포르민 500mg 하루 2회"

의학 용어복잡한 의학 용어 인식

"아세트아미노펜 과량복용"

✗Generic"아세트 아미노 펜 과량..."

✓Persly"아세트아미노펜 과량복용"

임상 약어문맥 내 약어 처리

"좌측 ACL 파열 의심"

✗Generic"좌측 에이씨엘 파열..."

✓Persly"좌측 ACL 파열 의심"

의료 어휘

10만 개 이상의 의료 용어, 약품명, 질병명

문맥 이해

의료 문맥에서 동음이의어를 정확히 구분

다국어 의료

다국어 의료 용어 교차 인식

종합적인 음성 기능

음성 인식 (STT)

실시간 스트리밍

WebSocket 기반 실시간 전사

화자 분리

의사/환자 대화 자동 구분

타임스탬프

문장별 시간 정보 제공

신뢰도 점수

결과별 신뢰도 점수 제공

음성 합성 (TTS)

자연스러운 발화

의료 정보 전달에 최적화된 톤

의료 용어 발음

약품명, 질병명 정확한 발음

톤 조절

안내/경고/일반 톤 선택

다중 음성

다양한 화자 스타일 지원

기술 사양

STT 사양

지원 언어	70개 이상의 언어
샘플레이트	16kHz / 48kHz
인코딩	PCM, WebM, MP3
지연 시간	< 200ms (스트리밍)
최대 오디오 길이	4시간 (배치) / 무제한 (스트리밍)

TTS 사양

지원 언어	70개 이상의 언어
샘플레이트	22.05kHz / 48kHz
출력 포맷	PCM, MP3, OGG
첫 바이트 지연	< 150ms
최대 텍스트 길이	10,000자 / 요청

코드 예시

import asyncio
from persly import Voice

client = Voice(api_key="YOUR_API_KEY")

async def transcribe_stream():
    async for result in client.transcribe_stream(
        audio_stream=microphone_stream(),
        language="ko",
        enable_medical_mode=True,
        speaker_diarization=True
    ):
        print(f"[{result.speaker}] {result.text}")
        print(f"  Confidence: {result.confidence}")
        print(f"  Medical terms: {result.medical_terms}")

asyncio.run(transcribe_stream())

의료 음성 인식 정확도

의료 음성 데이터셋 기반 단어 오류율(WER) 비교. 낮을수록 좋습니다.

의료 STT 정확도 비교

Persly Voice94.3

Google Medical78.2

AWS Transcribe Medical76.5

Whisper Large v362.1

약물명 정확도 %

4.2%

일반 텍스트 WER

일반 의료 대화의 단어 오류율

6.8%

의료 용어 WER

의료 용어의 단어 오류율

94.3%

약품명 정확도

약품명 정확한 인식률

<200ms

스트리밍 지연

실시간 전사 지연 시간

실시간 성능

지표	Persly Voice	경쟁사 평균
첫 결과 지연	180ms	350ms
스트리밍 지연	< 200ms	400-800ms
TTS 첫 바이트	120ms	300ms

* WER = Word Error Rate (낮을수록 좋음) * 4개 언어 1,000건의 의료 상담 녹음으로 벤치마크

사용 사례

실시간 진료 기록

의사-환자 대화 실시간 전사, 화자 분리, EMR 연동

음성 AI 에이전트

병원 예약 봇, 복약 안내 전화, 건강 상담 음성 어시스턴트

의료 받아쓰기

처방전 음성 작성, 소견서 딕테이션, 검사 결과 기록

환자 교육 TTS

복약 지도 음성 안내, 수술 전 안내, 다국어 환자 안내

FAQ

스트리밍과 배치 처리의 차이는 무엇인가요?

스트리밍은 WebSocket으로 실시간 결과를 받고, 배치는 전체 오디오 파일을 한 번에 처리합니다. 진료 중 실시간 기록에는 스트리밍, 녹음 파일 전사에는 배치를 권장합니다.

의료 어휘는 어떻게 업데이트되나요?

월간 업데이트로 최신 약품명과 의료 용어를 반영합니다. Enterprise 플랜에서는 커스텀 어휘 추가도 지원합니다.

HIPAA/GDPR을 준수하나요?

네. 모든 음성 데이터는 전송 중 암호화되며, 처리 후 즉시 삭제됩니다. HIPAA, GDPR, 국내 개인정보보호법을 준수합니다.

기존 RAG API와 어떻게 연동하나요?

Voice API는 Embed → Finder → Rerank → LLM 파이프라인의 입출력 레이어로 작동합니다. 하나의 API 키로 모든 서비스를 이용할 수 있습니다.

Persly와 함께 시작할 준비가 되셨나요?

헬스케어 API가 어떻게 도움이 될 수 있는지 함께 이야기해요