惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google DeepMind News
Google DeepMind News
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Security Latest
Security Latest
P
Palo Alto Networks Blog
AWS News Blog
AWS News Blog
NISL@THU
NISL@THU
T
Threatpost
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Latest news
Latest news
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
WordPress大学
WordPress大学
J
Java Code Geeks
P
Privacy International News Feed
阮一峰的网络日志
阮一峰的网络日志
S
Schneier on Security
博客园 - 聂微东
Project Zero
Project Zero
美团技术团队
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Scott Helme
Scott Helme
I
Intezer
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
H
Hacker News: Front Page
S
Security @ Cisco Blogs
博客园 - 司徒正美
O
OpenAI News
Last Week in AI
Last Week in AI
L
LINUX DO - 热门话题
酷 壳 – CoolShell
酷 壳 – CoolShell
SecWiki News
SecWiki News
月光博客
月光博客
S
Security Affairs
The GitHub Blog
The GitHub Blog
P
Privacy & Cybersecurity Law Blog
S
Secure Thoughts
V
V2EX
S
Securelist
F
Fortinet All Blogs
W
WeLiveSecurity
D
Docker
博客园 - 三生石上(FineUI控件)
Simon Willison's Weblog
Simon Willison's Weblog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
C
Cyber Attacks, Cyber Crime and Cyber Security
V
Visual Studio Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Webroot Blog
Webroot Blog
Engineering at Meta
Engineering at Meta

夜行人

回家路上 第一期的直播演示项目 震动检测器 正能量 在线参观CodeLab Neverland 发布 CodeLab Adapter 3.3.1 DynamicTable 之 纸糊方向盘 CodeLab DynamicTable: 一个可实施的技术方案 CodeLab Insight 发布 Alpha 版 情人节 Home Assistant 周报 && IoT 周报 (02) Joplin: 关注隐私的 Evernote 开源替代软件 浏览器的未来与 Web 传感器 Home Assistant 周报 && IoT 周报 (01) 百宝箱(01) 论自由 介绍 WebThings Home Assistant 周报 && iot 周报 (00) 百宝箱(00) 毛姆读书心得 传世之作 周末徒步 CodeLab Adapter ❤️ Jupyter/Python 航班 躲雨 夏令营途中 [译]思想--作为一种技术 The future of coding 美国之行 三门问题的程序模拟 从Python转向Pharo https://blog.just4fun.site/post/iot/iot-open-source-projects/ Python异步编程笔记 https://blog.just4fun.site/post/iot/iot-open-source-hardware-community/ 万物积木化开发者社区 CodeLab ❤️ Blender Scratch3技术分析之云变量 API(第7篇) [译]对管道(Pipes)的偏爱 [译]提出正确的问题比得到正确答案更重要 蓝牙设备与Scratch3.0 创建你的第一个Scratch3.0 Extension Scratch3技术分析之项目内部数据(第6篇) Scratch3技术分析之社区 API(第5篇) Scratch3技术分析之User API(第4篇) Scratch3技术分析之项目主页API(第3篇) Scratch3技术分析之静态资源API(第2篇) Scratch3.0、micro:bit与Windows7 https://blog.just4fun.site/post/iot/zerynth-vs-micropython/ 核聚变、方所与半宅空间 可视化编程为何是个糟糕的主意 codelab.club周末聚会 关于codelab.club '下一件大事'是一个房间 Hungry Robot - Eat everything 编程作为一种思考方式 今日简史 史蒂夫·乔布斯传 罗素自选文集 https://blog.just4fun.site/post/edx/tianjin-scratch-ai/ https://blog.just4fun.site/post/edx/richie-cms-openedx/ 徒步武功山 WebUSB与micro:bit 积木化编程与3D场景 夜宿武功山顶 scratch3-adapter接入优必选Alpha系列机器人 https://blog.just4fun.site/post/edx/video-migration-note/ scratch3-adapter重构笔记 https://blog.just4fun.site/post/edx/edx-community-members/ 两种硬件编程风格的比较 使用micro:bit自制PPT翻页笔 柏拉图对话集 scratch3.0 + micro:bit 七月电影放映计划 非营利组织的管理 Screenly--用树莓派让任何屏幕变为可编程的数字标牌 以最佳实践开始你的Django项目 micro:bit与事件驱动 为Scratch3.0设计的插件系统(上篇) OCR应用一例 近两年读过的一些好书 blockly开发之使用python驱动浏览器中的turtle(2) 牛顿新传 文学理论入门 逻辑的引擎 人生的意义 blockly开发之生成并运行js代码(1) blockly开发之hello world(0) micro:bit使用笔记 神器之Termux https://blog.just4fun.site/post/iot/micropython-notes/ Cozmo what is this Scratch的前世今生 下段旅程 我行在远方 爆裂 途中杂记 https://blog.just4fun.site/post/edx/open-edx-startup/ cozmo系列之入门 - 有性格且可编程的机器人 PaperWeekly开发笔记 创业二三事
易上手的数据挖掘、可视化与机器学习工具:Orange介绍
2016-12-19 · via 夜行人

文章目录

之前陆续写过几篇介绍数据挖掘/可视化项目Caravel的文章:

如今直接去github搜索caravel已经搜不到它了。它最近换了新马甲,改叫superset,至于为何频繁改名(分别叫过Panoramix,Caravel,Superset),我猜核心作者早年混迹论坛,与人吵架,常换马甲:)

对数据可视化的兴趣一直未减,近期发现两个有趣的项目,其一就是这篇文章的主角:Orange,另一个是google发布的Embedding Projector(基于Tensorflow)

现在,你可以直接在这里下载到最新的Orange软件,Orange发布了各个平台的安装包,选择你当前平台的安装包,双击安装即可,安装过程十分友好。

和许多数据分析的项目不同,其他项目多数面向数据分析从业人员、软件开发者。而Orange让各行各业对数据挖掘和可视化感兴趣的人都能参与其中,而不必有编程基础

安装完毕打开软件,跟着以下教程即可对它做大致了解

简介

官方首页对这个项目的介绍是:

Open source machine learning and data visualization for novice and expert. Interactive data analysis workflows with a large toolbox.

该项目源码开放,对新手友好,同时也胜任专业的数据分析工作。

Orange是一个基于组件的数据挖掘软件,它包含了一组数据可视化、探索、预处理和建模的技术。

它不但带有一个新手友好的用户界面,老司机们也可以把它用作Python的一个模块。

标签

如果要用一些简单的词描述它,我想到以下标签:

  • 开源
  • python
  • 数据可视化
  • 数据模式探索
  • 机器学习
  • 拖曳式
  • 积木化

特点

  • 交互式的数据可视化探索:你可以用它做简单的分析,诸如统计分布、箱形图(Box plot)、散点图。也可以做深入挖掘,诸如使用决策树、聚类、热图等。通过智能的属性选择,你可以在2维平面上探索多维数据

  • 可视化编程:图形化界面允许你专注于探索数据,而不是编码。你要做的事只是在画布上拖曳小部件、连接它们、加载数据集,如此便可获得数据洞察力!

  • 适合用于教学(jupyter出自生物学家之手,Orange似乎也和生物学领域有关,他们都让数据分析工作的协作交流变得简单有趣)

  • 附加扩展功能:通过使用各种插件,我们可以做各种各样的事:

     *  对外部数据源进行数据挖掘(数据库/网络)
     *  自然语言处理以及文本挖掘
     *  网络分析
     *  关联规则分析
    

优势

我折腾过的数据可视化工具多而杂, 以下是我偏好Orange的几个原因

  • 安装极其建议(二进制安装包)
  • 对新手友好,易于上手,许多操作凭直觉即可甚至不需要文档
  • 让普通用户能使用机器学习去发现数据模式,这项工作之前往往需要技术背景
  • 支持excel文件直接导入
  • 对中文支持良好(目前尚未遇到乱码)
  • 可视化的编程方式,用户无需编码,数据在各个组件里流动,通过拖曳组件即可开始探索数据
  • 交互式的探索过程,每一个组件叠加都能及时得到反馈。如同REPL(读取﹣求值﹣输出循环)般敏捷顺滑

不足

同时也简单列出我认为不足的地方

  • 对数据源的支持不够丰富,目前Orange3只支持PostgreSQL数据库,当然这是站在开发者的角度的挑刺,普通用户对此没有需求
  • 无法像tableau一样把探索结果作为网页发布。不过浏览了一遍官方源码库,他们似乎有这个计划。把它和superset整合在一起,指不定能折腾出一个商业应用

关于对数据库的支持,估计随着项目的推进,会慢慢完备起来,这块基本只是时间的问题

后续

接下来有空我们分析下,这个项目在技术层面有哪些有趣的东西

此外我还有兴趣对它做些本地化改进,包括但不限于汉化,有兴趣的小伙伴可以一起来折腾,我已经fork了一份源码:orange3

参考

文章作者 种瓜

上次更新 2016-12-19