← APIに戻る

Voice

ヘルスケア音声API

医療特化音声認識・合成。臨床現場で実証された精度とリアルタイムストリーミング。

なぜ医療特化音声なのか?

一般的なSTTモデルは医学用語に弱い。Persly Voiceはヘルスケア専用の語彙で学習し、優れた精度を提供。

薬品名正確な薬品名認識
"メトホルミン500mg 1日2回"
Generic"メト ホ ルミン ゴヒャク..."
Persly"メトホルミン500mg 1日2回"
医学用語複雑な医学用語認識
"アセトアミノフェン過量摂取"
Generic"アセト アミノ フェン 過量..."
Persly"アセトアミノフェン過量摂取"
臨床略語文脈内の略語処理
"左側ACL断裂の疑い"
Generic"左側 エーシーエル 断裂..."
Persly"左側ACL断裂の疑い"

医療語彙

10万以上の医学用語、薬品名、疾患名

文脈理解

医療文脈で同音異義語を正確に識別

多言語医療

多言語医学用語クロス認識

包括的な音声機能

音声認識 (STT)

リアルタイムストリーミング

WebSocketベースのライブ文字起こし

話者分離

医師/患者の会話を自動分離

タイムスタンプ

文単位の時間情報

信頼度スコア

結果ごとの信頼度スコア

音声合成 (TTS)

自然な発話

医療情報伝達に最適化されたトーン

医学用語発音

薬品名、疾患名の正確な発音

トーン調整

案内/警告/通常トーンの選択

多様な音声

様々な話者スタイル対応

技術仕様

STT仕様

対応言語70以上の言語
サンプルレート16kHz / 48kHz
エンコーディングPCM, WebM, MP3
レイテンシ< 200ms(ストリーミング)
最大音声長4時間(バッチ)/ 無制限(ストリーミング)

TTS仕様

対応言語70以上の言語
サンプルレート22.05kHz / 48kHz
出力形式PCM, MP3, OGG
ファーストバイトレイテンシ< 150ms
最大テキスト長10,000文字/リクエスト

コード例

import asyncio
from persly import Voice

client = Voice(api_key="YOUR_API_KEY")

async def transcribe_stream():
    async for result in client.transcribe_stream(
        audio_stream=microphone_stream(),
        language="ja",
        enable_medical_mode=True,
        speaker_diarization=True
    ):
        print(f"[{result.speaker}] {result.text}")
        print(f"  Confidence: {result.confidence}")
        print(f"  Medical terms: {result.medical_terms}")

asyncio.run(transcribe_stream())

医療音声認識精度

医療音声データセットでの単語エラー率(WER)比較。低いほど良い。

医療STT精度比較

Persly Voice94.3
Google Medical78.2
AWS Transcribe Medical76.5
Whisper Large v362.1

薬品名精度 %

4.2%
一般テキストWER

一般的な医療会話の単語エラー率

6.8%
医学用語WER

医学用語の単語エラー率

94.3%
薬品名精度

薬品名の正確な認識率

<200ms
ストリーミング遅延

リアルタイム文字起こし遅延

リアルタイム性能

指標Persly Voice競合平均
初回結果遅延180ms350ms
ストリーミング遅延< 200ms400-800ms
TTSファーストバイト120ms300ms

* WER = Word Error Rate(低いほど良い) * 4言語1,000件の医療相談録音でベンチマーク

ユースケース

リアルタイム診療記録

医師-患者会話のリアルタイム文字起こし、話者分離、EMR連携

音声AIエージェント

病院予約ボット、服薬案内電話、健康相談音声アシスタント

医療ディクテーション

処方箋の音声作成、診断書口述、検査結果記録

患者教育TTS

服薬指導音声案内、術前説明、多言語患者案内

FAQ

ストリーミングとバッチ処理の違いは?

ストリーミングはWebSocketでリアルタイム結果を受信、バッチは音声ファイル全体を一括処理します。診療中のリアルタイム記録にはストリーミング、録音ファイルの文字起こしにはバッチを推奨。

医療語彙はどのように更新されますか?

月次更新で最新の薬品名と医学用語を反映。Enterpriseプランではカスタム語彙追加もサポート。

HIPAA/GDPRに準拠していますか?

はい。すべての音声データは転送中に暗号化され、処理後即座に削除。HIPAA、GDPR、各国のプライバシー規制に準拠。

既存のRAG APIとどう統合しますか?

Voice APIはEmbed → Finder → Rerank → LLMパイプラインの入出力レイヤーとして機能。1つのAPIキーですべてのサービスを利用可能。

Perslyで構築を始める準備はできましたか?

ヘルスケアAPIがどのようにお役に立てるかご相談ください