VowKy - 让声音落地成文字

让声音落地成文字。

说一句、录一段、转一批——VowKy 在本地把声音变成可用的 Markdown，不联网、不上传、不订阅。

100% 本地 · MIT 开源 · 中日英三语 · macOS 13+

声音落地的三种姿势

触发不同，输出统一——都是干净的 Markdown。

01 即时

说一句·现在就要打字

⌘+\ 按住说话，松手文字直接进光标。

触发：菜单栏 / 全局快捷键
场景：写邮件 · 回 Slack · 写 commit
→ 输出：直接到光标位置

02 正在

录一段·会议正在开，灵感正在来

一键开录音窗口，结束直出 Markdown。

触发：菜单栏 → 「录音」
场景：会议 · 采访 · 思考漫游
→ 输出：~/Documents/VowKy Recordings/

03 已经

转一批·旧录音躺在硬盘里

拖入 mp3 / mp4，本地批量出稿。

触发：菜单栏 → 「转录文件...」
场景：课程 · 播客 · 历史采访
→ 输出：与源文件同目录的 .md

所有场景，三步收工。

触发方式不同，但都遵循同一个流程。

触发

按下快捷键、点菜单、或把文件拖进窗口

说话或等待

本地模型转写，中 / 日 / 英自动识别

拿到 Markdown

文字到光标、保存到 Recordings、或源文件同目录

声波可视化演示

为什么是本地？

本地的两个回报：快，与私。

快 · 零延迟

说话 160 字/分（vs 打字 40 字/分）
本地推理，说完即出，没有云端往返的等待
即时输入场景，效率提升 4×

私 · 零上传

零网络请求，零云端处理
飞行模式、断网都正常工作
你的声音从未离开这台 Mac

无论哪种用法，都靠谱

三种场景背后的共同能力——完全本地、三语识别、结构化输出、自由开源。

完全离线

说一句、录一段、转一批——三种用法都在你的 Mac 上本地处理。零网络请求、零云端处理、零数据上传，飞行模式也能正常工作。隐私从架构层面就已经保证。

中 · 日 · 英三语

内置三语模型，自动识别当前说的是哪一种，无需手动切换。中英混说也能正确转写。

统一 Markdown 输出

三种用法的输出格式统一：.md + YAML frontmatter（文件名、时长、模型、时间戳），可直接放进 Obsidian、Notion 或丢给 AI 继续加工。

MIT 开源 · 完全免费

源代码完全公开，可自由审查、二次开发。永远免费，无订阅、无内购、无广告。Apple Silicon 原生适配。

常见问题

支持中文、日语、英语三种语言识别，自动判断当前说的是哪一种，无需手动切换。基于 Sherpa-ONNX 本地模型。

完全不需要。所有语音识别在本地完成，即使在飞行模式下也能正常使用。

macOS 自带听写需要联网（增强版除外），且使用剪贴板粘贴文字。VowKy 完全离线，通过键盘模拟直接输入，不占用剪贴板。

完全支持。VowKy 原生适配 Apple Silicon (M1/M2/M3/M4) 和 Intel Mac。

可以。在菜单栏设置中自定义触发快捷键，支持各种修饰键组合。

可以。把音频或视频文件拖进 VowKy 主窗口即可开始离线转写，长文件会自动分块处理。同样不联网、不上传。

输出为 .md（Markdown）文件，带 YAML frontmatter（原文件名、时长、模型、时间戳等元数据），可以直接放进 Obsidian、Notion 等笔记工具。