tf-idf 算法 - 浮华生

浮华生

Elasticsearch 检索性能优化 - 浮华生舆情监控系统综述 - 浮华生 2024 半年度总结 - 浮华生 2023 年终总结 - 浮华生异地机器组网方案 - 浮华生 Kubernetes 部署 Elasticsearch 和 Kibana - 浮华生 2022 年终总结 - 浮华生 RabbitMQ connection channel 的关系 - 浮华生 Kafka Java 客户端 Producer 原理分析 - 浮华生 RabbitMQ 和 Kafka 应用原理简单对比 - 浮华生阿里云 OpenSearch 介绍 - 浮华生 Golang Array 和 Slice 区别 - 浮华生 Mac OS 下打造 golang nvim 编程环境之基础配置 - 浮华生电商搜索技术总结 - 浮华生电商搜索业务总结 - 浮华生 2021 年终总结 - 浮华生 Cypress 实践总结 - 浮华生年终总结 - 浮华生关于我 - 浮华生使用 cucumber 进行行为驱动开发（BDD） - 浮华生微服务应用集成 SpringCloud 步骤 - 浮华生电商搜索数据同步方案 - 浮华生通过一道数值转换题重温计算机补码 - 浮华生 macOS 系统推荐的一些软件 - 浮华生 DevOps 实施规划（持续更新） - 浮华生 rabbitmq 如何提高可靠性并保证消费端幂等 - 浮华生 AMQ Model总结 - 浮华生结对编程 - 浮华生 RSocket 介绍 - 浮华生面向对象的理解 - 浮华生企业平台技术框架 - 浮华生对创业的思考 - 浮华生知难行易 - 浮华生一年工作经验总结 - 浮华生我与领域驱动之缘 - 浮华生 TDD 中使用的工具 - 浮华生 gitlab 添加代码规范检测 - 浮华生 query 改写 - 浮华生阶段性总结 - 浮华生操作系统作用 - 浮华生 - 浮华生 hamming-distance - 浮华生 ElasticSearch API 基本操作 - 浮华生 elasticsearch 集群容错 - 浮华生 ElasticSearch 基础概念 - 浮华生技术选型怎么做 - 浮华生条件概率、全概率与贝叶斯公式 - 浮华生年终总结 - 浮华生迁移到 ubuntu18 的问题及配置 - 浮华生总结 - 浮华生使用 psi-probe 监控 Tomcat - 浮华生 Tomcat 远程 Debug - 浮华生 jstack 死循环和死锁定位 - 浮华生 jmap & mat 内存溢出 - 浮华生 JVM 常用参数查看 - 浮华生周总结(8.13-8.19) - 浮华生周总结（7.30-8.4） - 浮华生使用移位运算符 - 浮华生 master 公式 - 浮华生 VMware 12 NAT网络下配置 ubuntu 16.04 LTS 系统静态 IP - 浮华生关于进制的计算 - 浮华生项目总结第三篇 - 浮华生项目总结第二篇 - 浮华生 editor.md 富文本编辑器的使用 - 浮华生项目总结第一篇 - 浮华生 2017至今总结 - 浮华生谈谈微服务 - 浮华生单例模式 - 浮华生 tor 使用 - 浮华生归档 - 浮华生搜索 - 浮华生搜索 && 推荐 - 浮华生

tf-idf 算法 - 浮华生

浮华生 · 2019-07-03 · via 浮华生

tf-idf (term frequence-inverse document frequence) 词频-逆文档频率，是搜索常用的一个权重相关算法，其作用是评估一个 document 在一整个 document list 中的重要程度，下面分开来讲。

tf 的意思就是一个词语在一个文件中出现的次数，对于一篇文章， tf 算法会将这篇文章进行分词并统计出现次数。这个词在这篇文章中出现的次数越多则说明越不重要，权重则越低。

public class TfIdf {

    /**
     * 词频
     * 此数值越大则代表这个 term 在当前文档中越重要
     * @param doc
     * @param term
     * @return
     */
    private double tf(List<String> doc, String term) {
        double termFrequency = 0;
        for (String str : doc) {
            if (str.equalsIgnoreCase(term)) {
                termFrequency++;
            }
        }
        return termFrequency / doc.size();
    }


    /**
     * 文档频率
     * 此值会越高越说明不重要
     * @param docs
     * @param term
     * @return 存在 term 的文档数目
     */
    private int df(List<List<String>> docs, String term) {
        int n = 0;
        if (term != null && !"".equals(term)) {
            for (List<String> doc : docs) {
                for (String word : doc) {
                    if (term.equalsIgnoreCase(word)) {
                        n++;
                        break;
                    }
                }
            }
        } else {
            System.out.println("term 不能为 null 或者空字符串");
        }
        return n;
    }


    /**
     * 逆文档频率
     * 此值越小则说明当前 term 越不重要
     * @param docs
     * @param term
     * @return
     */
    private double idf(List<List<String>> docs, String term) {
        return Math.log(docs.size() / df(docs, term) + 1);
    }


    private double tfIdf(List<String> doc, List<List<String>> docs, String term) {
        return tf(doc, term) * idf(docs, term);
    }


    public static void main(String[] args) {
        List<String> doc1 = Arrays.asList("北京", "上海", "杭州");
        List<String> doc2 = Arrays.asList("北京", "深圳", "南京");
        List<String> doc3 = Arrays.asList("南京", "北京", "深圳");
        List<String> doc4 = Arrays.asList("上海", "广州", "云南");

        List<List<String>> documents = Arrays.asList(doc1, doc2, doc3, doc4);

        TfIdf tfIdf = new TfIdf();
        System.out.println("【北京】在 doc1 中的词频：" + tfIdf.tf(doc1, "北京"));
        System.out.println("【北京】在 doc4 中的词频：" + tfIdf.tf(doc4, "北京"));
        System.out.println("【北京】在 文档集 中的词频：" + tfIdf.df(documents, "北京"));
        System.out.println("【北京】的 if-idf 算法：" + tfIdf.tfIdf(doc2, documents, "北京"));
        System.out.println("【深圳】的 if-idf 算法：" + tfIdf.tfIdf(doc2, documents, "深圳"));
        /**
         * 【北京】在 doc1 中的词频：0.3333333333333333
         * 【北京】在 doc4 中的词频：0.0
         * 【北京】在 文档集 中的词频：3
         * 【北京】的 if-idf 算法：0.23104906018664842
         * 【深圳】的 if-idf 算法：0.3662040962227032
         */
    }
}

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

浮华生