Voice

医疗语音API

医疗专业语音识别与合成。临床环境验证的准确度，实时流式传输。

联系我们团队查看代码示例

为什么需要医疗专业语音？

通用STT模型在医学术语上表现不佳。Persly Voice专门针对医疗词汇训练，提供卓越准确度。

药品名准确识别药品名称

"二甲双胍500mg 每日两次"

✗Generic"二甲双胍五百..."

✓Persly"二甲双胍500mg 每日两次"

医学术语复杂医学术语识别

"对乙酰氨基酚过量"

✗Generic"对乙酰氨基酚..."

✓Persly"对乙酰氨基酚过量"

临床缩写上下文中的缩写处理

"左侧ACL撕裂疑似"

✗Generic"左侧 A C L 撕裂..."

✓Persly"左侧ACL撕裂疑似"

医疗词汇

10万+医学术语、药品名、疾病名

上下文理解

在医疗语境中准确区分同音词

多语言医疗

多语言医学术语跨语言识别

全面的语音功能

语音识别 (STT)

实时流式传输

基于WebSocket的实时转录

说话人分离

自动区分医生/患者对话

时间戳

句子级时间信息

置信度分数

每个结果的置信度评分

语音合成 (TTS)

自然语音

针对医疗信息传递优化的语调

医学发音

药品名、疾病名准确发音

语调控制

提示/警告/普通语调选择

多种声音

多种说话人风格可选

技术规格

STT规格

支持语言	70+语言
采样率	16kHz / 48kHz
编码	PCM, WebM, MP3
延迟	< 200ms（流式）
最大音频长度	4小时（批处理）/ 无限（流式）

TTS规格

支持语言	70+语言
采样率	22.05kHz / 48kHz
输出格式	PCM, MP3, OGG
首字节延迟	< 150ms
最大文本长度	10,000字符/请求

代码示例

import asyncio
from persly import Voice

client = Voice(api_key="YOUR_API_KEY")

async def transcribe_stream():
    async for result in client.transcribe_stream(
        audio_stream=microphone_stream(),
        language="zh",
        enable_medical_mode=True,
        speaker_diarization=True
    ):
        print(f"[{result.speaker}] {result.text}")
        print(f"  Confidence: {result.confidence}")
        print(f"  Medical terms: {result.medical_terms}")

asyncio.run(transcribe_stream())

医疗语音识别准确度

医疗语音数据集上的词错误率（WER）比较。越低越好。

医疗STT准确度比较

Persly Voice94.3

Google Medical78.2

AWS Transcribe Medical76.5

Whisper Large v362.1

药品名称准确率 %

4.2%

普通文本WER

普通医疗对话的词错误率

6.8%

医学术语WER

医学术语的词错误率

94.3%

药品名准确率

药品名称正确识别率

<200ms

流式延迟

实时转录延迟

实时性能

指标	Persly Voice	竞品平均
首次结果延迟	180ms	350ms
流式延迟	< 200ms	400-800ms
TTS首字节	120ms	300ms

* WER = Word Error Rate（越低越好） * 基于4种语言1,000条医疗咨询录音进行基准测试

使用场景

实时临床记录

医生-患者对话实时转录，说话人分离，EMR集成

语音AI助手

医院预约机器人，用药提醒电话，健康咨询语音助手

医疗听写

处方语音录入，病历口述，检查结果记录

患者教育TTS

用药指导语音播报，术前说明，多语言患者指南

FAQ

流式和批处理有什么区别？

流式通过WebSocket获取实时结果，批处理一次性处理整个音频文件。诊疗中实时记录推荐流式，录音文件转录推荐批处理。

医疗词汇如何更新？

每月更新最新药品名和医学术语。企业版支持自定义词汇添加。

符合HIPAA/GDPR吗？

是的。所有语音数据在传输中加密，处理后立即删除。符合HIPAA、GDPR和当地隐私法规。

如何与现有RAG API集成？

Voice API作为Embed → Finder → Rerank → LLM管道的输入/输出层。使用一个API密钥即可访问所有服务。

准备好使用Persly构建了吗？

让我们探讨我们的API如何助力您的医疗产品