何谓三九兆举重之记录,可道竞技之策——以 Python 为之 EDA
吾初为 Data Science 硕士于 Evolve,作此 EDA 之业,择 Open Powerlifting 之数据集,盖非惟为健身之人,亦素好奇于举重竞技之策.
此数据集
公开举重乃开源之项目,追踪全球举重竞赛之成果。其完整数据集有三百九十万余行,四十二列,涵括运动员之信息、每一举之尝试,及表现之指标。
分析之前,吾已滤其竞赛,唯取药物检测之正规者,且仅存吾实需之列。其主难:负值即举之失败。,非恶数据也。须先建布尔列以察成否,而后化负为NaN,
。 此程
,尽为模块,以Python行之,用pandas、numpy、seaborn、matplotlib及pingouin。管路自main.py始,终无间断。
raw CSV → filter → clean → features → assert → analyze
推算之法,持重而谨;年岁取自年阶级,体重依体重级,未尝用合成之值。且NaN之值,亦随题而动,滤之去也。
成果
巅峰之年:运动员之盛,在二十二三至二十四岁间,其后渐衰。若以体重为衡,男女无大异。
运动员之败,其弊何在?卧推有五十四分之失败三试而就。蹲踞举与硬拉之重,约在六四之数。此隙之差,男女无别,器械亦然——唯卧推之性殊耳。
第四次尝试运动员若第四次尝试,则得成功~七十七分之時 之中,平地举重居首,达八三之率。此乃全案最可施之见——但取第四次之试.
所学所悟
论举重之术
运动员盛年当在二二至二四之间,必取第四次之试,且务使第三次不至败绩,此可易全局之胜负.
论析数据之理
若数据充裕,或毋须以人造之值填补空缺。且某些特征须先构建,否则将耗时一晌与人工智能对谈,究其布尔值皆为NaN之故。
全文代码:GitHub.com/rubengil-dev/力量举分析
项目乃于数据科学之硕士课程中成之化生.
















