惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V
Visual Studio Blog
MongoDB | Blog
MongoDB | Blog
Engineering at Meta
Engineering at Meta
云风的 BLOG
云风的 BLOG
Microsoft Azure Blog
Microsoft Azure Blog
B
Blog RSS Feed
T
The Exploit Database - CXSecurity.com
P
Privacy & Cybersecurity Law Blog
Know Your Adversary
Know Your Adversary
月光博客
月光博客
I
InfoQ
阮一峰的网络日志
阮一峰的网络日志
NISL@THU
NISL@THU
爱范儿
爱范儿
S
Securelist
博客园 - 叶小钗
C
CERT Recently Published Vulnerability Notes
Recorded Future
Recorded Future
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
aimingoo的专栏
aimingoo的专栏
D
DataBreaches.Net
G
GRAHAM CLULEY
P
Proofpoint News Feed
A
About on SuperTechFans
Google DeepMind News
Google DeepMind News
C
Cyber Attacks, Cyber Crime and Cyber Security
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
T
Tor Project blog
Stack Overflow Blog
Stack Overflow Blog
T
Threat Research - Cisco Blogs
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
Hugging Face - Blog
Hugging Face - Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Recent Announcements
Recent Announcements
P
Proofpoint News Feed
The GitHub Blog
The GitHub Blog
The Cloudflare Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
Jina AI
Jina AI
大猫的无限游戏
大猫的无限游戏
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
罗磊的独立博客
博客园 - 【当耐特】
H
Help Net Security
F
Fortinet All Blogs
T
The Blog of Author Tim Ferriss

博客园_首页

Plist 二进制格式 Milvus 和 PGVector,哪个更好? OpenClaw 已过时?在 VS Code 中运行 Hermes Agent! 第30篇文章:一个大三计科生的自白 Manim如何在数学公式中完美显示中文? Docker 部署 RocketMQ 5 并发编程核心概念辨析 C#事务处理最佳实践:别再让“主表存了、明细丢了”的破事发生 CLI 是什么?为什么大厂突然集体卷命令行? 【从0到1构建一个ClaudeAgent】协作-自主Agent UIImageView 设置图片不生效的原因排查 最小二乘问题详解20:无先验约束下的增量式SFM自由网平差 痞子衡嵌入式:大话双核i.MXRT1180之XIP应用里借助MU实现可靠Flash IAP的方法 AI Chat 封装, SemanticKerne.AiProvider.Unified 已发布 Windows下右键编辑js文件无法打开记事本——在注册表中使用环境变量 在后台服务中使用 Scoped 服务,为什么总是报错? H200 安装驱动并使用sglang启动模型 wireshark 抓包Trap上报告警内容 我用 AI 辅助开发了一系列小工具(2):图片压缩工具 [A Primer On MC and CC] 2.1 Memory Consistency 1 - 指令重排序和 SC 模型 Oracle数据库SCN推进技术详解与实践指南 玩转控件:封装个带图片的Label控件 Claude Code 4.7 真正该升级的不是模型,而是你的工作流 前端小白一句话,AI 帮我做了个颜值拉满的桌面媒体播放器。当代码不再是门槛,一句话编程就是现实。 5. WorkBuddy: 小龙虾的灵魂三件套,让你的小龙虾不只是工具 SQLite 分片方案实战:三种分片策略的深度对比 告别简陋 UI!一款基于 Fluent Design 和基于 WinUI 的开源免费、现代化的 Avalonia UI 控件库 关于二进制排列组合枚举的总结 AI开发-python-LangGraph框架(3-27-LangGraph从零实现大模型智能决策工作流) ElasticSearch主分片和副本分片概念详解 【002】HTTPS 粗解:证书、TLS 握手与对后端配置的影响 Hermes Agent 一周暴涨五万 Star,但我劝你别急着追 明明连接的是Redis的DB0,为什么能查到DB3的数据? 【从0到1构建一个ClaudeAgent】协作-Agent团队 熟悉电子元器件之后,电子小白下一步该怎么走? MAF快速入门(23)通过C#类定义Skills .NET 高级开发 | 手写一个对象映射框架 FastAPI数据库ORM怎么选?我肝了三个Demo后,终于不再纠结了 mysqldump 参数拾遗:在遗忘与铭记之间 C# .NET 周刊|2026年3月5期 Claude code入门 - 陈彦斌 一文学习入门 ThingsBoard 开源物联网平台 GitHub 热门项目 | 2026年04月16日 如何为GIT设置全局勾子,为每次提交追加信息 Number.isFinite和isFinite与isNaN()和Number.isNaN的区别 PortSwigger SQL注入LAB2 推荐一个测试人必备的Skills,从功能到性能全搞定(附详细实操和安装下载方式) 筑基期:掌握Odoo基础核心知识点02(Odoo XML 开发方式详解) GLM模型这么火,咱们用vllm也咧一个呗! 深入理解 AbortController:从底层原理到跨语言设计哲学 字符串学习笔记 多租户系统框架的基础模块设计和分析设计 Apache SeaTunnel Zeta 为什么能做到“又快又稳”? AI开发-python-LangGraph框架(3-26-LangGraph基本概念及第一个简单样例) Vue 3 组件通信,别只会用 Props 和 Emits 了,这几个狠活儿你得看看 ElasticSearch7.X版本配置密码 用Manim实现动态交点计算--从一个动点问题说起 团结引擎+Addressable+Instant Game打包抖音小游戏 function call 实战:让 LLM 自动判断 pod 异常、调用日志工具并完成故障分析 bubseek —— 让 Agent 的足迹,变成团队的洞察 通过 C# 读取并导出 PDF 书签 如何用 GitHub Actions 实现 Steam 自动化发布 【从0到1构建一个ClaudeAgent】并发-后台任务 .NET 高级开发 | 定制 ASP.NET Core 框架 电子小白:什么是运算放大器(运放) zero2Agent:面向大厂面试的 Agent 工程教程,从概念到生产的完整学习路线 堆上的ORW HC32F460 USB CDC通信异常:非对齐访问异常排查 20260413-Hyperbridge 攻击事件:发生在默克尔山上的验证绕过 那些喊着AI 要淘汰你的人,正在靠你的焦虑赚大钱! 深度学习进阶(八)Swin Transformer 最小二乘问题详解19:带先验约束的增量式SFM优化与实现 SnapTranslate 3.0 正式发布:全局划词翻译 + 完整英语学习闭环,一站式搞定查词、记词、复习 工作的意义、工作的困难认知再思考 .NET + AI 进阶实战:基于类的技能开发 - 打造可治理的 Agent 能力模块 【从0到1构建一个ClaudeAgent】规划与协调-技能 上周热点回顾(4.6-4.12) 电子小白的工具三件套:面包板、杜邦线、万能板 单表五亿数据的查询优化 | Mysql、StarRocks 2. WorkBuddy:从“我是谁”到“帮我干活” C# 如何减少代码运行时间:7 个实战技巧 基于HelixToolkit.SharpDX 渲染3D模型 - 笺上知微 从零开始的双臂具身VLA起源及现阶段发展综述 - SkyXZ 记对 xonsh shell 的使用, 脚本编写, 迁移及调优 - pluvium27 受够了Vibe Coding的失控?换个起点,让AI事半功倍 从开始配置漏洞环境到漏洞复现流程 - 難しい 关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法 - 虚无境 Any metadata 的内存布局 C# .NET 周刊|2026年3月2期 - InCerry 我帮你测过了,测试圈排名第二的 Skill 依然很牛逼 Skill Discovery | 无监督技能发现的经典工作总结 - MoonOut 上下文工程是什么?过时了么?一文讲明白! - 一枫说码 开了 TUN 模式还是直连?90% 的人都踩过这个坑 AScript扩展多种脚本语言 - rockey627 AI 学习笔记:Agent 的记忆机制 你能被装进一个文件里吗?——7 万人把同事"蒸馏"成了 AI - 我没有三颗心脏 Claude Code 通关手册(七):给 AI 装上技能包——Skills 完全指南 - 暮色之狐 在浏览器中快速编辑代码:VSCode Web 集成实践 - Newbe36524 蒸馏自己 skill?基于 Deepseek 的蒸馏器,丐版蒸馏方式,简单便捷 - To_Carpe_Diem Spring AI Aliababa和AgentScope,哪个更好? - 苏三说技术
张高兴的 Hailo-10 开发指南:(一)实现离线语音识别
张高兴 · 2026-06-01 · via 博客园_首页

现在很多智能中控、车载语音或是各类物联网终端,语音识别大多全靠云端转写,不仅有断网就无法使用的问题,很多涉及隐私的敏感音频也不适合上云。当然做边缘端离线语音识别不是什么新鲜事,Whisper 开源之后很多开发者都在板子上跑过。但痛点在于它太吃算力,普通的嵌入式主板纯靠 CPU 去硬算,动辄就是几倍实时的延迟,发热和功耗也扛不住,根本没法落地。所以当我看到华硕出了个 UGen300,只需插个 USB 就能扩展算力的 AI 加速模块,我的第一反应是:把它插在低功耗的开发板上,能不能流畅跑起本地 Whisper?

UGen300 是什么

ASUS UGen300 外观上和移动硬盘差不多,USB-C 接口,接上去系统就多了一个 Hailo-10H 的设备。Hailo 是以色列的芯片公司,做边缘 AI 推理起家。继 Hailo-8 之后,推出了第二代的 Hailo-10 芯片,算力是 40 TOPS,功耗极低,满载不超过 5W。

1

和 GPU 跑 Whisper 不同,Hailo 上跑的是预编译的 .hef 文件,模型已经被量化、图优化、编译进去了,运行时直接推送数据进去,不需要框架做任何动态计算(可以参考之前博客的介绍“将自定义模型编译为 Hailo NPU 的 .hef 模型”)。这就决定了它的延迟和功耗都非常稳定,但代价是得用官方提供的模型,或者自己走编译流程。

Hailo 官方 hailo_model_zoo_genai 仓库里已经准备好了 Whisper-Tiny、Whisper-Base、Whisper-Small 三个版本的 .hef 文件,直接下载就能用,这省了很多麻烦。

环境配置

这里使用的是安装了 Raspberry Pi OS 的 Raspberry Pi 5 实现的。

安装 HailoRT

首先要安装 HailoRT,这是 Hailo 的运行时库,包含设备驱动、Python 绑定、命令行工具。可以去 Hailo Developer Zone 注册账号下载,也可以在 ASUS 的官网下载。

2

建议下载 UGen Utility for UGen300 USB AI Accelerator,里面有一个一键安装脚本,避免单独安装时出现漏装。解压后有一 ugen-utility-install.sh 脚本,执行即可安装。

3

cd ~/ugen-utility_2.4.0-9_arm64_usb
bash ugen-utility-install.sh

装完用这个命令验证设备是否识别:

hailortcli fw-control identify

例如:

pi@raspberrypi:~$ hailortcli fw-control identify
Executing on device: usb/002:002
Identifying board
Control Protocol Version: 2
Firmware Version: 5.3.2 (release,app)
Logger Version: 0
Device Architecture: HAILO10H

Python 环境

如果你使用系统自带的 Python,则需要的包已经随 HailoRT 一起装好。如果你使用的是虚拟环境,则还需要在虚拟环境内安装 hailort 包。

cd ~/ugen-utility_2.4.0-9_arm64_usb
pip install hailort-5.3.0-cp312-cp312-linux_aarch64.whl

音频支持

如果你想实现麦克风实时采集,还需要安装音频相关的工具。工具很多,任选一种即可。

sudo apt install alsa-utils pulseaudio-utils pavucontrol

语音转文字

模型下载

所有 Whisper 模型均以 .hef 格式预编译,音频采样率固定为 16 kHz,每次处理窗口为 10 秒,使用混合精度量化。

模型 参数量 文件大小 WER 最低 HailoRT
Whisper-Tiny 39M 78 MB 48.14% ≥ 5.2.0
Whisper-Base 74M 155 MB 25.32% ≥ 5.2.0
Whisper-Small 244M 388 MB 10.61% ≥ 5.2.0

模型 .hef 文件下载地址见官方 MODELS 页面。将下载的 .hef 文件放入 models/ 目录。例如:

models/
└── Whisper-Tiny.hef

代码实现

核心流程很简单:麦克风 → PCM 数据 → Hailo 推理 → 文字。下面新建 minimal_demo.py 文件。

0. 引用相关包

import subprocess
import numpy as np
from hailo_platform import VDevice
from hailo_platform.genai import Speech2Text, Speech2TextTask

1. 录音

parec 直接输出 float32 的 PCM 流,16kHz 单声道,录 3 秒。--format=float32le 让 parec 直接输出 Hailo 需要的格式,省去中间转换。

proc = subprocess.run(
    ["timeout", str(RECORD_SEC),
     "parec", "--channels=1", "--rate=16000", "--format=float32le", "--raw"],
    stdout=subprocess.PIPE,
    stderr=subprocess.DEVNULL,
)

2. 数据处理

parec 输出的字节流直接解析成 numpy 数组:

audio = np.frombuffer(proc.stdout, dtype="<f4").copy()

3. 加载设备和模型

VDevice 代表 UGen300 这个硬件,Speech2Text 是 Hailo 封装好的推理接口,加载模型大概需要几秒钟(首次编译缓存)。

vdevice = VDevice()
s2t = Speech2Text(vdevice, "./models/Whisper-Tiny.hef")

4. 推理

text = s2t.generate_all_text(
    audio,
    task=Speech2TextTask.TRANSCRIBE,
    language="zh",   # 指定中文,也可以 None 自动检测
)
print(f"识别结果:{text}")

generate_all_text 返回整段文字,如果你需要知道每句话的时间位置(比如做字幕),换成 generate_all_segments

segments = s2t.generate_all_segments(
    audio,
    task=Speech2TextTask.TRANSCRIBE,
    language="zh",
)
for seg in segments:
    print(f"[{seg.start:.2f}s → {seg.end:.2f}s]  {seg.text}")

总结

整个折腾过程下来,UGen300 确实完成了我最初设想的事情:低功耗、本地、够快。就目前的表现来看,它作为嵌入式语音方案的潜力非常可观,比如做机密会议室的离线转写盒子。它彻底避开了云端方案的网络波动,也从物理层面上掐断了隐私泄露的可能。

但我觉得,这套硬件更大的想象空间,绝不仅仅停留在“语音转文字”的单点应用上。想象一下这个工作流:把整套 AI Pipeline 塞进同一个硬件设备里。前端由 Whisper 负责监听并识别语音,提取出的文本立刻在内存里传给同在加速棒上运行的轻量级本地大模型进行意图理解和逻辑生成,最后再接一个端侧 TTS 模块,把大模型的回答实时合成语音播报出来。这意味着在本地搭建了一个完全不需要联网、对隐私绝对保密的“离线 AI 语音管家”。到了这一步,边缘计算在语音交互领域的真正价值,才是被彻底释放出来了。