何谓三九兆举重之纪录，可道竞技之策——以 Python 为之探索也

何谓三九兆举重之记录，可道竞技之策——以 Python 为之 EDA

吾初为 Data Science 硕士于 Evolve，作此 EDA 之业，择 Open Powerlifting 之数据集，盖非惟为健身之人，亦素好奇于举重竞技之策.

此数据集

公开举重乃开源之项目，追踪全球举重竞赛之成果。其完整数据集有三百九十万余行，四十二列，涵括运动员之信息、每一举之尝试，及表现之指标。

分析之前，吾已滤其竞赛，唯取药物检测之正规者，且仅存吾实需之列。其主难：负值即举之失败。，非恶数据也。须先建布尔列以察成否，而后化负为NaN，

，尽为模块，以Python行之，用pandas、numpy、seaborn、matplotlib及pingouin。管路自main.py始，终无间断。

raw CSV → filter → clean → features → assert → analyze

推算之法，持重而谨；年岁取自年阶级，体重依体重级，未尝用合成之值。且NaN之值，亦随题而动，滤之去也。

巅峰之年：运动员之盛，在二十二三至二十四岁间，其后渐衰。若以体重为衡，男女无大异。

运动员之败，其弊何在？卧推有五十四分之失败三试而就。蹲踞举与硬拉之重，约在六四之数。此隙之差，男女无别，器械亦然——唯卧推之性殊耳。

第四次尝试运动员若第四次尝试，则得成功~七十七分之時 之中，平地举重居首，达八三之率。此乃全案最可施之见——但取第四次之试.

论举重之术
运动员盛年当在二二至二四之间，必取第四次之试，且务使第三次不至败绩，此可易全局之胜负.

论析数据之理
若数据充裕，或毋须以人造之值填补空缺。且某些特征须先构建，否则将耗时一晌与人工智能对谈，究其布尔值皆为NaN之故。

项目乃于数据科学之硕士课程中成之化生.