慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

Google DeepMind News
Google DeepMind News
人人都是产品经理
人人都是产品经理
M
MIT News - Artificial intelligence
博客园 - 叶小钗
MyScale Blog
MyScale Blog
V
Visual Studio Blog
月光博客
月光博客
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
I
InfoQ
有赞技术团队
有赞技术团队
阮一峰的网络日志
阮一峰的网络日志
Jina AI
Jina AI
V
V2EX
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
雷峰网
雷峰网
Stack Overflow Blog
Stack Overflow Blog
博客园 - Franky

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как Фалькон Тех меняет пространство к лучшему
探微机器学习无滥:自基础至Attention。第五篇:质量之度
ysrgsyn · 2026-05-25 · via Все публикации подряд на Хабре

難易程度簡單

閱讀時間7分鐘

覆蓋面與讀者478

第四部分,吾輩始習分類之術,並解kNN之法.

今已達境,可構建一竄劣之分類器。然若人問曰:“其效何如?
然吾辈所能应者,不过云:“噫……于试炼之选,此模正确应之,得百分之p焉。”

一则,古语有云:宁有五百卢布,无有二百。然高p%者,果能保模之质乎?

今当辨此诸问,察机器学习之质度,知其所以需,并明其宜解之理.

Accuracy


于引言中,吾等已论及此度。其显模型正答之率.

吾当先言,虽Accuracy常译为“正”,然于机器学习,易致混淆。故非译其名,或称之曰答对之率,或直曰Accuracy.

此何利耶?Accuracy示模型优劣之简明:其示凡百事中,模型得正类者几何。此乃良基之指,尤宜于题设之类均衡(即各类元素数相仿)且诸般谬误皆等重之时。

然此指标有重大局限——其于事无补。此模型何所失哉?.

观奇异之创业,千中得一见其成。若模型恒应"终无成",则其准确率当为九十九点九。
礼之成也,善矣,然其实用之效,未可知也...

惟此等事,精微之度,已非所恃矣——其隐要失之甚巨,尤当类之不均或失之之价殊异时。

精核

精核(或阳性之精核)显之,凡模型归为正类之诸物,其果为正类者几何。

返观初创企业之例,precision示之,模型预为成功者之初创企业,其果为成功者,十中几何。

精微之要,在于不欲模型频发虚警。譬如银行之务,岂悦模型每废二交易,以为诈欺乎?

试观小例:

设吾有百创企之议,其实仅五得成。

模型所呈之果如下:

  • из пяти успешных стартапов, она верно нашла три, а оставшиеся два сочла неудачными;

  • из девяноста пяти провальных стартапов модель правильно определила девяносто как провальные, но еще пять ошибочно приняла за успешные;

Тогда:

  • всего модель дала девяносто три правильных ответа из ста, то есть точность равна девяносто трем процентам.

  • 計有八創業,然實成者三。故精確率為三分之八(三成七五)。

蓋準確雖高,然信其陽斷,猶為難也。

Recall

Recall(或全備)者,示機器於眾陽中,能得幾何。

吾侪之例也,乃成事之新创企业之比,模型所能辨识为成事者(例中得三于五,故召回率六成也)。

忆尤重于事,其要在于此。勿失善境譬如,于寻疾之时,recall之数低,则模型多漏真患之人。

F分数

吾辈遇一难题:precision与recall几若相争。

譬如,模型鲜少能预言"成功之创业"。是故其precision甚高——盖其误判甚微。然recall则低,盖模型多漏却实属成功之项目。

反之:若模型几将所有皆标为成功,recall自增,然precision则骤降。

故实践中常取F-score——此度,欲兼顾precision与recall。尤以F1-score为谐均之,取Precision (P) 与 Recall (R) 之

F_1 = \frac{2PR}{P+R}

。然F1-score惟当precision与recall俱足时,方得为大。

除F1外,尚有Fβ之泛化版本。F1之于precision与recall,其敏感度无别,(公式对P与R具对称性),则Fβ可令吾人自主调衡二者之重。其计算之法若此:

F_\beta = (1+\beta)^2 \frac{2PR}{\beta^2 P + R}

若吾辈欲更重precision,则取\beta < 1。若recall更为紧要,则择\beta > 1
若二者俱重,则用之。\beta = 1,此与标准F1分数相合。

是故,Fβ之法,可权变于精准与召回之间。

混淆矩阵

行前,且以"四骑士末日"之喻,论及此理。诚然,此度之解,吾心不甚悦——易惑,然常言道,须得 Федя,须得...

设此模为系统,判万物:善耶?恶耶?

凡此等判词,必归四途之一.

TP — 真正之阳(True Positive)

此乃模型断曰:“是也,为阳”,而果得其实.
模型决曰:“此创举为成”,而其果为成.

FP — 假阳之误(False Positive)

模型断曰:“是阳”,然谬矣:
模型以为创业公司成矣,然实则败也.

FN — 假阴性(误否之谓也)

模型言:“此乃阴性之物”,然谬矣.
模型以为创业公司败矣,虽实则成也.

TN — 真阴性(确否之谓也)

模型确识阴性之属。
此创业公司实属失败,其果真失败也.

小引,记如何忆之.
  • 诚然(T)——模型所断,果如其然.

  • 谬误(F)——模型所断,实非其然.

  • 阳(P)——模型归物于阳类(类一).

  • 阴(N)——模型归物于阴类(类零).

譬如:

TP: T - 模式之权,盖因 P - 归类物于正类也
FN: F - 模式之误,盖因 N - 归类物于负类也

乃知吾辈前所论之诸度,实乃观此四数之异途耳

Accuracy = \frac{TP+TN}{TP+TN+FP+FN}Precision = \frac{TP}{TP+FP}Recall = \frac{TP}{TP+FN}

复可展 F1 之式

F_1 = \frac{2TP}{2TP +FP + FN}

奇哉,TN不参F1分之计,故此度非关正确分类之负例多寡。
由是观之,F1尤适于类不平衡之务,盖因正类稀现,而其判识之质尤关紧要也。

处此之务,非惟重其能辨万物,实乃贵其能察稀而要——如疾疫之患,诈欺之交易是也。

精确-召回(PR)之曲线

世俗所用之模,多非直判类别,而乃示其属正类之几率。 属于正类之概率

吾辈择阈也阈限若概率逾乎半,则谓之正;不尔,则谓之负。

于此显要之理:若易此阈,则 precision 与 recall 亦随之易。

  • 阈限甚高,则模型几无所标为正。然其精度颇高,而召回则甚微。

  • 减少阈值,则模型将更多对象标为正例,故而召回率增,精确率降

若对每阈值计算精确率与召回率,继而互相对置之,则得 精确率-召回率曲线(PR-曲线)

пример PR кривой

PR曲线之例

曲线愈近右上隅,愈善其模(精审与回召俱高)。曲线骤坠,则谬误失衡;其位甚卑,则判别之力微。

ROC曲

虽显明,然PR曲非尽善之评器。
其主弊在于未言模型辨析负类之良否。专注正类,于失衡之务尤效,然时犹不足尽察模型之行止。

ROC曲线,则审视任务更“均衡”之态——兼顾模型于二类之表现。示模型于误报增时,探其辨正之能如何变迁。

欲明ROC曲线,当立二量:TPRFPR。(真阳性率与假阳性率):

真阳性率显模型寻得真阳性之比.
此实即吾辈所谓名义检出率:

TPR = \frac{TP}{TP+FN}

假阳性率示模型误将阴性认作阳性之比:

FPR = \frac{FP}{FP+TN}

若如PR曲线,吾更阈限,于每值计TPR与FPR。继而,若绘图,以X轴为FPR,Y轴为TPR,可得ROC曲线.

пример ROC кривой

ROC曲线之例

如何运用之:

  • 曲线愈近左上角(点(0,1)),则模型愈优。此谓模型能得正例(TPR高)而少生误报(FPR低)。

  • 若曲线骤右而降,则示模型于负例处谬误甚巨,盖求正例愈多也。

  • 对角线(自 (0,0) 至 (1,1) 之线)合于随机之模,此模不辨类属,实乃“盲猜”。

ROC-AUC

ROC之曲线,显模型于异阈之际,TPR与FPR之权衡。

然此图不便较诸模型——盖非一数,乃全曲也。

为简明比较,故用ROC-AUC(曲线下面积)——ROC曲线下面积.
所获之数,示模型于诸可能阈限间,区分正负对象之平均优劣也。

可如此解之。

  • AUC等于一 → 理想之模(类分尽别)

  • AUC = 0.5 → 任意之模(若掷铜钱)

  • AUC< 0.5 → 模型劣于任意(妙法:但反其预测,即可得佳模)

结语

今若问曰:“汝之分类器工乎?” — 吾等已非止于准确率之一数.
吾等悟矣,模型之质,乃多面之物,可自不同之方观之:

  • 由混淆矩阵及基本之误(真阳性、假阳性、假阴性、真阴性);

  • 由精确率与召回率,二者显不同之误。

  • 依 F-score 平衡之;

  • 依 PR-曲线显精准与召回之折衷;

  • 依 ROC-曲线察模型于二类之表现;

  • 亦依 ROC-AUC 汇诸端为单数。

至要者,当记之:无正確之質量標準。唯有多種測量不同錯誤之法。然必選合乎任務者。

既知評估之法,則於後節可坦然論及邏輯斯梯克之回歸,觀模型如何不僅僅被評估,更於資料中學習。