让声音落地成文字。

说一句、录一段、转一批——VowKy 在本地把声音变成可用的 Markdown,不联网、不上传、不订阅。

100% 本地 · MIT 开源 · 中日英三语 · macOS 13+

VowKy
正在录音...
再次按下 \ 结束录音

一件事,三种姿势

声音 一句话 · 一段录音 · 一批文件
Markdown 不联网、不上传、不订阅
三种用法

声音落地的三种姿势

触发不同,输出统一——都是干净的 Markdown。

即时语音输入悬浮指示器
01 即时

说一句·现在就要打字

⌘+\ 按住说话,松手文字直接进光标。

  • 触发:菜单栏 / 全局快捷键
  • 场景:写邮件 · 回 Slack · 写 commit
  • → 输出:直接到光标位置
VowKy 录音窗口,实时转写预览
02 正在

录一段·会议正在开,灵感正在来

一键开录音窗口,结束直出 Markdown。

  • 触发:菜单栏 → 「录音」
  • 场景:会议 · 采访 · 思考漫游
  • → 输出:~/Documents/VowKy Recordings/
VowKy 文件转录窗口,拖入音视频文件
03 已经

转一批·旧录音躺在硬盘里

拖入 mp3 / mp4,本地批量出稿。

  • 触发:菜单栏 → 「转录文件...」
  • 场景:课程 · 播客 · 历史采访
  • → 输出:与源文件同目录的 .md
使用方式

所有场景,三步收工。

触发方式不同,但都遵循同一个流程。

01

触发

按下快捷键、点菜单、或把文件拖进窗口

02

说话或等待

本地模型转写,中 / 日 / 英自动识别

03

拿到 Markdown

文字到光标、保存到 Recordings、或源文件同目录

声波可视化演示

为什么是本地?

本地的两个回报:快,与私。

快 · 零延迟

  • 说话 160 字/分(vs 打字 40 字/分)
  • 本地推理,说完即出,没有云端往返的等待
  • 即时输入场景,效率提升 4×

私 · 零上传

  • 零网络请求,零云端处理
  • 飞行模式、断网都正常工作
  • 你的声音从未离开这台 Mac
核心特性

无论哪种用法,都靠谱

三种场景背后的共同能力——完全本地、三语识别、结构化输出、AI 增强、自由开源。

完全离线

说一句、录一段、转一批——三种用法都在你的 Mac 上本地处理。零网络请求、零云端处理、零数据上传,飞行模式也能正常工作。隐私从架构层面就已经保证。

中 · 日 · 英 三语

内置三语模型,自动识别当前说的是哪一种,无需手动切换。中英混说也能正确转写。

统一 Markdown 输出

三种用法的输出格式统一:.md + YAML frontmatter(文件名、时长、模型、时间戳),可直接放进 Obsidian、Notion 或丢给 AI 继续加工。

AI 后处理(可选)

复用你机器上已经安装的 Codex CLI 或 Claude Code CLI,一键生成标题、摘要、分段。无需单独申请 API key,本机 CLI 直接调用。

MIT 开源 · 完全免费

源代码完全公开,可自由审查、二次开发。永远免费,无订阅、无内购、无广告。Apple Silicon 原生适配。

FAQ

常见问题

支持中文、日语、英语三种语言识别,自动判断当前说的是哪一种,无需手动切换。基于 Sherpa-ONNX 本地模型。

完全不需要。所有语音识别在本地完成,即使在飞行模式下也能正常使用。

macOS 自带听写需要联网(增强版除外),且使用剪贴板粘贴文字。VowKy 完全离线,通过键盘模拟直接输入,不占用剪贴板。

完全支持。VowKy 原生适配 Apple Silicon (M1/M2/M3/M4) 和 Intel Mac。

可以。在菜单栏设置中自定义触发快捷键,支持各种修饰键组合。

可以。把音频或视频文件拖进 VowKy 主窗口即可开始离线转写,长文件会自动分块处理。同样不联网、不上传。

输出为 .md(Markdown)文件,带 YAML frontmatter(原文件名、时长、模型、时间戳等元数据),可以直接放进 Obsidian、Notion 等笔记工具。

这是可选功能。复用你机器上已经安装的 Codex CLI 或 Claude Code CLI,由本机 CLI 完成总结/分段,不需要单独申请 API Key。两个 CLI 都没装时,此选项不会出现。

少打一个字,就是多赚一秒钟。

免费下载 VowKy 查看源码

100% 本地 · MIT 开源 · 中日英三语 · macOS 13+