WhisperWriter 是一款功能强大的工具,专为本地、私密的语音控制笔记而设计。它利用语音活动检测 (VAD) 和语音转文本 (STT) 功能,可直接在您的机器上运行,确保隐私和效率。当 WhisperWriter 处于活动状态时,它会持续实时聆听和转录口语,提供无缝的用户体验。
WhisperWriter 的架构设计为独立于操作系统或硬件运行,利用开源网络技术。这种设计使其可以通过任何网络浏览器访问,利用标准 API 确保跨各种平台的兼容性。
音频输入通过麦克风通过网络浏览器捕获,并与 ASR(自动语音识别)应用程序交互。此设置确保用户可以轻松与系统交互,而无需额外的硬件。
为了处理音频,我们使用了 MediaDevices API。该getUserMedia方法捕获音频输入,以 16 kHz 的频率采样,每个样本 16 位。这种高质量的采样率对于准确的转录至关重要。
Web Audio API 在管理 Web 音频方面发挥着重要作用。它允许开发人员创建由音频节点组成的处理图,从而方便处理音频样本。音频分割过程发生在 中AudioContext,它代表音频处理节点的过滤图。此方法将音频处理卸载到客户端,从而减少了服务器端的计算需求。
对于音频分配器和 ASR 集群之间的通信,我们使用了 WebSockets。该技术可以实现双向通信,允许从音频分配器发送原始音频样本,同时接收转录文本。与 RTP 或 WebRTC 等其他协议不同,WebSockets 非常适合此应用程序,因为它们不需要额外的元数据,从而简化了传输过程。
WhisperWriter 通过在性能和安全性之间保持平衡来优先考虑用户体验。默认配置设计得有些限制,具有自动屏蔽和仅 Wi-Fi 上传功能,以防止对用户体验产生任何负面影响。用户可以调整这些设置以满足他们的特定需求,从而确保应用程序操作的灵活性。
对于有兴趣进一步探索 Whisper API 的开发人员,WhisperWriter GitHub 存储库提供了全面的资源和文档,包括代码片段和实施指南。对于那些希望将音频到文本转换器集成到其应用程序中的人来说,这是一个绝佳的选择。