惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

罗磊的独立博客
SecWiki News
SecWiki News
酷 壳 – CoolShell
酷 壳 – CoolShell
爱范儿
爱范儿
量子位
M
MIT News - Artificial intelligence
GbyAI
GbyAI
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
TaoSecurity Blog
TaoSecurity Blog
博客园 - 【当耐特】
H
Heimdal Security Blog
腾讯CDC
The Last Watchdog
The Last Watchdog
Security Archives - TechRepublic
Security Archives - TechRepublic
Hacker News: Ask HN
Hacker News: Ask HN
S
Schneier on Security
Microsoft Security Blog
Microsoft Security Blog
WordPress大学
WordPress大学
博客园 - 司徒正美
Recent Commits to openclaw:main
Recent Commits to openclaw:main
C
Cybersecurity and Infrastructure Security Agency CISA
S
SegmentFault 最新的问题
大猫的无限游戏
大猫的无限游戏
Application and Cybersecurity Blog
Application and Cybersecurity Blog
F
Full Disclosure
有赞技术团队
有赞技术团队
T
Tailwind CSS Blog
Engineering at Meta
Engineering at Meta
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
T
Threatpost
月光博客
月光博客
A
Arctic Wolf
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
雷峰网
雷峰网
T
Troy Hunt's Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The Cloudflare Blog
D
DataBreaches.Net
O
OpenAI News
L
LINUX DO - 最新话题
宝玉的分享
宝玉的分享
小众软件
小众软件
V
Vulnerabilities – Threatpost
A
About on SuperTechFans
人人都是产品经理
人人都是产品经理
T
The Exploit Database - CXSecurity.com
Martin Fowler
Martin Fowler
美团技术团队
P
Privacy International News Feed

Spark

求助广大网友 - V2EX 真的深入了解开源项目是动手实现--《Spark Core 精简版》 - V2EX 求助几个 Spark 问题 - V2EX 有没有不错的 SparkStreaming+Kafka 的开源项目可以用来入门和进阶? - V2EX Spark 解析复杂 xml,数据如何映射到多表中 - V2EX spark 大数据离线分析 爬虫存到 csv 有的列是长度不固定的 list 请问应该怎么存到 hive?直接存 list 吗?该怎么分析呢? - V2EX PayPal 招 资深大数据工程师 啦 - 技术栈: Spark, Scala, Java , Python 等 - V2EX 关于 Spark Task 的疑问 - V2EX 有没有在滴滴或者其他网约车公司的同学,请教一个数据量的问题 - V2EX spark 作业求助,剔除空值大于三的行 - V2EX spark 有用 kotlin 写代码的吗? - V2EX 现在写 spark 程序,都是用 scala 吗 - V2EX spark 核心构件之 Dependency 宽窄依赖 - V2EX spark 内存管理的实现 spark 源码研究 - V2EX spark straming。submit Python 脚本报错。 - V2EX CPython, PyPy 和 Scala 在 Spark 平台上的性能对比 - V2EX Spark/Scala 的细节讨论:在 map task 里的 map 会得到如何的处理? - V2EX SPARK 文档查询好费劲 - V2EX Apache Spark 之间的共享项目配置文件问题 疑问:spark对于迭代运算场景很有优势,那对于迭代不严重的计算场景呢? - V2EX First Steps with Spark – Screencast #1 - V2EX
spark 做内容推荐,希望大佬给一些思路上的指导 - V2EX
laobaozi · 2022-03-02 · via Spark

公司准备做一个推荐功能,从文章库中根据用户阅读记录推荐相关的文章。这个文章库保存了所有子公司的文章,更新频率比较高,所以没有使用计算两两相似度的方式。

目前使用 spark 做 demo 实现如下:

1. submit 应用时传递用户 id

2. 将该用户的最后阅读的 5 篇文章合并为一条长内容

3. 获取最新的 500 篇文章

4. 用长内容与最新的 500 条生成一个 DateFrame 做余弦相似度计算,得到最相似的 topN

5. 定时或者实时触发 submit

虽然能跑,但是总感觉哪里不对。同时对如何实现批量为户计算推荐内容也没有好思路,难道传用户 id 数组然后是循环跑上述流程吗