我用 5 分钟，读完了 80 分钟的视频 - 少数派

少数派

派早报：Google 发布 Fitbit Air 等 - 少数派「新人报到」確認需求，再開始 - 少数派从 SOLO 独立开发者社区，我看到了越来越多开发者开始做自己的产品 - 少数派我怎么管理那些"不常做，但总会忘"的生活事项 - 少数派人形机器人量产元年，数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台：开发历程与思考 - 少数派五年陪伴依然不舍，DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派新玩意 240｜少数派的编辑们最近买了啥？ - 少数派一日一技｜为什么你应该关闭 iOS 的键盘声音 - 少数派我做了个插件和 Skills，一键提取任何网站的设计规范 Design.md - 少数派住在三四线城市的你，该开始录播客了 - 少数派甘南秘境，大白高国 - 少数派 AI的审美：谁让把我变成川内倫子 - 少数派返工怎能不烦恼，打工人片单总有一部是你的「嘴替」 - 少数派为了让「上厕所」更健康，我做了一个小工具 - 少数派 AI + Skill，能够让生成的文章去除 AI 味吗？ - 少数派新玩意｜韶音OpenDots ONE 耳夹式耳机 - 少数派《美满》| 在每一个春天的晚上相爱（362） - 少数派新玩意｜优篮子 PS01 MagSnap 磁吸支架 - 少数派自我整合手记 | 我开始早睡了：用稳定规则，为自由托底 - 少数派用龙虾（OpenClaw）两个多月，我最深的12个体会 - 少数派听歌时间到，12 张你可能错过的 2025 华语乐坛好专辑 - 少数派承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派《四海为家的人》| INTJ对话INTJ（361） - 少数派你发过的那些黑历史，是时候一次清干净了 - 少数派新玩意：安安静静玩，越玩越专注：计客密码机 - 少数派 iPad 用户首次体验 Android 平板：vivo Pad6 Pro - 少数派数据逻辑强 - 少数派极北行+ | 一路向北，探访日本至北之地 | 001 - 少数派万字剖析：千问App深度体验报告（2026） - 少数派在2026年，如何真正防止别人抄袭你的作品 - 少数派怎么用 50 块搭个 AI 语音助手？我踩了 3 天坑 - 少数派 YeeroAI：让 AI 对话真正成为知识管理的一部分 - 少数派爬泰山 - 少数派「旅图显影」 App 更新：这次，我们补上了一点「手感」 - 少数派假期出门太折磨？我的 23 条经验帮你规划惬意旅行 - 少数派工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱？我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派用户侧出发——什么是AI，我要不要学习？ - 少数派找片、转存、整理、播放一条龙！让你的付费网盘值回票价 - 少数派欢迎试用！日课一问2.0插件 - 少数派自己做的MDeditor，原本想购买 Typora 试了两次支付不成功，干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具，让 ~/Downloads 彻底告别混乱 - 少数派因为受不了 Mac 的风扇策略，我做了一个风扇控制工具 - 少数派别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用？我测了一周的体验 - 少数派 AI 写代码老是出 bug？这 5 个配置我后悔没早知道 - 少数派「新玩意」苹果出相机可能就这样：Sigma BF + 45mm F2.8 DG Contemporary - 少数派一个面向2030年的AI操作系统是什么样子的：浅谈cola这款有灵魂的Agent - 少数派别只看写代码 - 少数派每天解决10个问题，还是一口气攻坚解决400个？ - 少数派 AI 交易机器人怎么搭？我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online：把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用？我测了 3 个模型发现差距真大 - 少数派 Legend Talk：我做了个 AI 圆桌，让 160 位思想家围着你的问题转 - 少数派如何找到自己的蓝方？在小县城寻找压力测试 - 少数派语音输入与软件接口｜2026年聊AI时，我们都聊些什么（上） - 少数派混动已经卖爆，纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派本月玩什么｜朋友收藏、识质存在、沙罗周期 - 少数派为什么要每天坚持输出？ - 少数派 Claude API 挂了好几个小时，你的项目有备用方案吗？ - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派登录系统立即播放视频或者图片音乐的软件 - 少数派我为什么创建 FlipHTML5 下载工具 - 少数派残局没电？多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派前往通义路的路 - 少数派太好看了，媲美Sun的个人导航页，NAS部署星云门户 - 少数派乌黑嘴唇“一键检测”上线了 - 少数派派早报：Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派记了上千条流水，还是看不懂财务？我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派新玩意 | 一棵柠檬树（仿真版） - 少数派 Momenta的“物理AI”野望，需迈过“含摩量”这道关 - 少数派网页直接投屏控制手机！NAS一键部署PandaScrcpy，流畅丝滑可远程。 - 少数派众测｜邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会：分享时间是真诚参会记 - 少数派 iPad 赋能电影创作：国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美：我用 8 个大模型给 100 张旅行照片打分 - 少数派普通人如何破圈？去参加一个本地协会 - 少数派把极空间的图标全换了，主题DIY全攻略打造你的专属NAS桌面 - 少数派电子便签墙，帮你实现便签自由 - 少数派我如何用三个 CLI 工具取代文档创建需求 - 少数派原来真的有人可以玩一辈子 - 少数派社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW｜索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9，我看重的不是堆料，而是不凑合 - 少数派鼠须管 Squirrel 皮肤配置指北 - 少数派从watch ultra2换到redmi watch6 - 少数派派早报：阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派别迷信1M - 少数派家人们天塌了！网盘“大封杀”，多个渠道多条路，NAS部署PanHub - 少数派 AI与人勾心斗角！NAS一键部署AI狼人杀，假日休闲必备。 - 少数派电商必备！Comfyui工作流批量生图插件，一次生成12张！支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程，0.03/张 - 少数派 OpenClaw第三方APi怎么配置？可使用Gpt-image-2模型 - 少数派会员社区话题精选 Ep. 103 - 少数派

2023-08-28 · via 少数派

媒介即讯息

不同的信息载体适合用来展示不同的内容。

文字的是人类抽象出来的信息的载体

文字具有高效和长效的特点，我们今天之所以能够感受到百千年前的佳作，李白的诗句，孔夫子的论语，司马迁的史记，都要得益于文字。而相比起来，那些古代的舞蹈、音乐、就没那么幸运了，大多都随着继承者的落寞，寂静在历史长河中。

所以阅读文字也是人类获取信息最好的方式。

可惜的是文字出现的时间非常短暂，阅读文字的能力还没能够写入到人类的 DNA 中，人类还是需要通过后天学习来掌握阅读能力，经过良好地培训，好的阅读者也可以达到一目十行的阅读速度。

但即便是今天，在中国的义务教育这么普及的情况下，阅读文字对大部分人来说依旧是困难的。通过阅读文字来获取信息，是高效的，但却不是最符合人类出厂设定的方式。反而，通过观看画面信息，听取声音信息的方式，才是最符合人类出厂设定的方式。

视频作为信息载体

缺点是效率太低。用来展示简单的信息时，视频很方便。但当展示的内容变相复杂，视频这一形式的缺点就暴露得愈加明显。同样是 10000 字的信息量，观看一个视频，需要花费 1 个小时的时间。但如果通过图文的方式来阅读，可能只需要 15 分钟。这就是效率上的差距。

当然视频也有优点，受益于图像信息和声音信息，视频展现出来的内容更加丰富，更加多维，感染能力更强，更符合观众的视听，接受起来更加自然。

音频作为信息载体

播客（音频内容）也是一样的道理。缺少了图像信息，音频内容通过耳朵进入大脑的带宽更低，效率也更低。但声音也有很多优点，例如声音让人觉得更加亲近，更加适合用来讲故事等。

在之前的《聊聊播客的兴起及播客推荐》中，我也有过描述：

音频这种内容形式非常有自己的特点。
人类接受音频信息的带宽是非常小的
我们的大脑在处理音频信息时，需要投入更多的注意力。举个例子，很多人看过某个日本的综艺节目，节目里在人打电话时，无论递给他什么东西，他都会接住。
人类接受音频的效率非常低。
接受同样的文字，阅读的速度是听音频的速度的3-4倍。况且在图文和视频信息中，经常可以通过图表来简化内容，这在音频里是无法实现的。
音频非常亲切，且有辨识度
古话说：未见其人而先听其声。我们与朋友相处久后，常常通过他的声音就可以辨识他。反过来说。当你长期接触一个声音时，也会觉得你和他更加亲密。
而播客的内容形式，多是几个播主之间的闲聊，与嘉宾的闲聊，或是纯粹地讲故事。这几种内容形式都不会太过硬核，刚好是听众可以接受的程度。而播主们的声音，又可以发挥音频亲密的特点，大大提高播客的用户留存率。

视频/播客处理流程

今天的短视频平台、长视频平台、博客平台里，都有很多不错的视频和音频。其中就有不少我感兴趣的。但作为一个效率爱好者，一个忙碌的打工人，我实在不愿意舍弃 1 小时的时间，去获取 15 分钟的信息。

所以我就想了个办法

将视频和音频转化成成文字，通过阅读文字，来处理视频。
借助最新的 AI 技术，可以对文字进行进一步的处理，提高处理的速度。

信息的流程且听我细细道来

01 直接下载视频字母/逐字稿

视频我们以常见的长视频平台，Bilibili 和 Youtube 为例。

在发布视频时，视频创作者可以上传字幕。视频平台为了让用户有更好的观看体验，可能也会给视频生成 CC 字幕，Youtube 的 CC 字幕覆盖率比较高， Bilibili 则还比较少。

如果有字幕文件，我们的处理流程就会简单很多，直接下载字幕文件即可。

在 Youtube 中，我是通过一个叫“Transcript & Summary”的浏览器插件来获取字幕。它会在 Youtube 视频的网页右侧展示视频的字幕，直接点击复制全文即可。

在 Bilibili 中，则是通过油猴插件来获取字幕。

在 Greasy Fork 网站搜索 CC 字幕即可使用。开启插件后，就可以在 B 站的字幕文件处点击下载按钮下载字幕。

同样的，如果播客有提供逐字稿，我们可以直接下载播客的逐字稿。

例如疯投圈的这期播客逐字稿，我们就可以复制文章中的文字，保存到本地。

下载完逐字稿后，就可以直接跳转到第三步了。

但毕竟提供逐字稿的播客比较少，所以我们需要将音频/视频转化成文字。

02 将视频/音频转成文字

如果视频没有字幕，播客没有提供逐字稿，则我们需要用大模型来讲视频/音频转化成文字。

第一步，下载视频/音频的源文件。

我是使用 Downie 这款工具，来下载源文件。复制视频/音频的链接，粘贴到应用中即可。Youtube/bilibili/抖音的视频，小宇宙的播客，都可以下载。

第二步，将源文件转化成文字

这里推荐使用的是飞书妙计或者通义听唔，来转换，他们的好处是可以区分不同的说话人。

这一步骤通常需要消耗比较10-20 分钟的时间，但好在可以在后台进行。

处理完成后，我们就可以得到：

再将逐字稿发给 AI ，让 AI 来帮忙处理内容

03 AI 处理内容

今年来，大模型的发展速度飞快。ChatGPT、Claude、llama 等大模型发展迅速，基于了我们很多新的能力。

在《Chatgpt 有啥用?》这篇文章中，我们介绍过大语言模型的几个能力：聊天、总结、扩展、推理。转化，都可以用来帮助处理信息。

3-1 将口头语转换为书面语

大部分视频/音频，使用的都是口头语句表达，不是适合阅读的书面语。所以直接阅读字幕/视频稿并不合适。如果想要直接阅读文字，可以使用 AI 将字幕或逐字稿转化为书面语句。

promot 是

 请使用简洁明了的语言编辑以下段落，以改善其逻辑流程，消除任何印刷错误并用中文回复。请务必保持文本的原始含义。请首先编辑以下文本：

3-2 AI 总结、挖掘内容

用AI 来总结内容，帮助我们更快地了解视频或博客的内容，节省阅读的时间。

这里我推荐使用的是 Claude 来总结。

例如这个胖东来老板的这个视频，上了 B 站热门，146 万的播放量，我想了解下他讲的内容，但又不愿意花 28 分钟时间来观看。于是我就把他交给 AI。

于是我下载字幕后，上传到 Claude 上，写上这句 Prompt

 让我们一步一步思考，阅读这份视频字母，并总结出视频的主要观点和论据

如果对于视频/音频中有任何的内容不清楚，还可以让 AI 进行更加详细的解答。

例如这一期播客，总时长是 85 分钟，听起来花费的时间太长了。

但是借助 Claude，3 分钟我就能知道内容主要讲了什么，并可以对其中不理解的地方，进行更加深入的提问。

每次看到 AI 总结的内容，总有一种爽感，我又用 5 分钟时间，听完了一期 85 分钟的博客。

Ps. 关于大模型的选择

我推荐大家可以使用 Claude。

首先，Claude 支持更大的上下文数量（160k/200k），要比 ChatGPT 的 16k 或 32k 要大得多。而且 Claude 的使用很方便，不像 llama 那样需要代码接入。最后，Claude 目前还是完全免费的，不过可以预见的是未来一定会收费的。能免费就先用着呗。

其他产品推荐

Bilibili - Ai 课代表

上面这套流程，也有一些现成的产品可以直接使用

比如 bilibili 的【AI 课代表】，安装好插件后，插件就会展示视频的总结内容，字幕列表，针对视频中的内容，和可以进行提问。使用体验非常棒。

下图中可以看到，即便是没有 CC 字母的视频，AI 课代表也可以处理。

Monica

再比如之前在 newsletter 里推荐过得【Monica】，也可以直接总结 Youtube 的视频。不过因为我的会员已经过期了，就不不展示 Monica 的功能了，想了解的读者朋友可以查看我的这条动态。

Memo

最近有一个创业团队做的产品 Memo，也可以实现这一步骤。Memo 可以讲播客的文字化、并进行 AI 总结。不过其使用的模型并不支持识别不同的说话人，目前也仅在内测中，还不够稳定。例如我转化的文字，就全部都变成了繁体中文。所以可以保持关注下后续的更新迭代。

结语

要注意的是，并不是所有的视频都要用这种方式来处理。很多制作精良的视频，经过文字化和 AI 的处理后，失去了如图像、氛围、音色等等信息，丰富的内容将变得非常平淡、平实。

用文章中的这套流程来处理视频，是从「效率」出发的方法论。

很多视频，比如电影、动画、up主的创作等等，是可以坐下来好好欣赏的。

在我的日常生活里，我只会用这样的方法来处理那些我想了解，但并不想花时间观看的视频。

在《效率与体验》这篇文章中，详细地讨论过「效率」和「体验」往往是不可兼得的。

而有了这个方法后，在观看视频时，你就可以决定使用效率的方法来快速解决，还是在茶余饭后，坐下来，好好欣赏这个视频。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

少数派

媒介即讯息

文字的是人类抽象出来的信息的载体

视频作为信息载体

音频作为信息载体

视频/播客处理流程

01 直接下载视频字母/逐字稿

02 将视频/音频转成文字

第一步，下载视频/音频的源文件。

第二步，将源文件转化成文字

03 AI 处理内容

3-1 将口头语转换为书面语

3-2 AI 总结、挖掘内容

Ps. 关于大模型的选择

其他产品推荐

Bilibili - Ai 课代表

Monica

Memo

结语