通用STT模型在医学术语上表现不佳。Persly Voice专门针对医疗词汇训练,提供卓越准确度。
10万+医学术语、药品名、疾病名
在医疗语境中准确区分同音词
多语言医学术语跨语言识别
基于WebSocket的实时转录
自动区分医生/患者对话
句子级时间信息
每个结果的置信度评分
针对医疗信息传递优化的语调
药品名、疾病名准确发音
提示/警告/普通语调选择
多种说话人风格可选
| 支持语言 | 70+语言 |
| 采样率 | 16kHz / 48kHz |
| 编码 | PCM, WebM, MP3 |
| 延迟 | < 200ms(流式) |
| 最大音频长度 | 4小时(批处理)/ 无限(流式) |
| 支持语言 | 70+语言 |
| 采样率 | 22.05kHz / 48kHz |
| 输出格式 | PCM, MP3, OGG |
| 首字节延迟 | < 150ms |
| 最大文本长度 | 10,000字符/请求 |
import asyncio
from persly import Voice
client = Voice(api_key="YOUR_API_KEY")
async def transcribe_stream():
async for result in client.transcribe_stream(
audio_stream=microphone_stream(),
language="zh",
enable_medical_mode=True,
speaker_diarization=True
):
print(f"[{result.speaker}] {result.text}")
print(f" Confidence: {result.confidence}")
print(f" Medical terms: {result.medical_terms}")
asyncio.run(transcribe_stream())医疗语音数据集上的词错误率(WER)比较。越低越好。
药品名称准确率 %
普通医疗对话的词错误率
医学术语的词错误率
药品名称正确识别率
实时转录延迟
| 指标 | Persly Voice | 竞品平均 |
|---|---|---|
| 首次结果延迟 | 180ms | 350ms |
| 流式延迟 | < 200ms | 400-800ms |
| TTS首字节 | 120ms | 300ms |
* WER = Word Error Rate(越低越好) * 基于4种语言1,000条医疗咨询录音进行基准测试
医生-患者对话实时转录,说话人分离,EMR集成
医院预约机器人,用药提醒电话,健康咨询语音助手
处方语音录入,病历口述,检查结果记录
用药指导语音播报,术前说明,多语言患者指南
流式通过WebSocket获取实时结果,批处理一次性处理整个音频文件。诊疗中实时记录推荐流式,录音文件转录推荐批处理。
每月更新最新药品名和医学术语。企业版支持自定义词汇添加。
是的。所有语音数据在传输中加密,处理后立即删除。符合HIPAA、GDPR和当地隐私法规。
Voice API作为Embed → Finder → Rerank → LLM管道的输入/输出层。使用一个API密钥即可访问所有服务。
让我们探讨我们的API如何助力您的医疗产品