ad

打开《Python入门与实战》_一步步学会Python_8.3.2 项目简介

admin 75 2023-10-25

【摘要】 本书摘自《Python入门与实战》一书中第8章,第3节,由王跃进主编。

8.3.2 项目简介

打开《Python入门与实战》_一步步学会Python_8.3.2 项目简介

这个项目是用机器学习的方法判断泰坦尼克号邮轮(见图8.2)上哪些乘客会存活, 哪些乘客会遇难。我们想通过这个项目学习,消除你对人工智能技术的恐惧感,为此, 我们今天要一起写一个真正的人工智能程序。

这里不是用假设性数据闹着玩,我们要用真实的数据和真实的算法,做一个真实 的人工智能项目,预测泰坦尼克号邮轮上每一位乘客的生死。也就是说,我们使用的 是泰坦尼克号邮轮上每一位乘客的真实数据,我们根据其中部分乘客数据,用机器学 习的方法生成一个预测模型,然后就这个学习得到的模型,预测另一部分旅客中每个 人是否活了下来,并与真实情况进行对比,看看准确度。

8.3.3 理论准备

像很多电影里真人一样的人工智能,叫作“广义人工智能”,这种技术在可以预见 的未来都不存在。现在大家用的都是“狭义人工智能”,而狭义人工智能的本质就是人 们常说的“机器学习”。

所谓“机器学习”,并不是说机器有思想,它学会了一项技能。机器学习就是用一 组数据建立一个统计模型,这个统计模型能对新的数据做出预言。输入数据越多越精 确,模型能做的预言就越准确,就好像是它在不断地“学习"一样。数学家管这叫“统 计模型”,计算机科学家给起了个名字叫“机器学习 (Machine Learning,ML)”,媒体 有时候管这叫“大数据",而其实这就是现在科技圈说的“人工智能”。

8.3.4 数据分析

(该项目的所有数据、实现脚本代码下载地址为: http://i.tryz.net/html/2018/python/ pythonjc.rar)

我们将获得的数据集中整理,共有891 人,但是其中只有714人的年龄记录,没 有年龄记录的我们已经用年龄的平均值代替。我们把标注数据集(891人)按照随机划 分80%的记录作为训练集,20%作为验证集。其中 train.csv 为训练集(730人),用来 训练一个统计模型; test.csv为验证集(161人),用来检验这个模型的有效性。以下所 有操作都是针对训练集进行的。

训练集中的每一行数据代表1位乘客的信息,每一行都有12项数据,分别对应每 位乘客的以下属性:

编号、是否存活、舱位(头等舱、二等舱、三等舱)、乘客姓名、性别、年龄、在泰 坦尼克号上有没有兄弟姐妹或者配偶、在泰坦尼克号上有没有父母或者子女、船票号 码、买的船票价格、在船上住的房间编号、在英国哪个口岸上的船。

使用 Python,我们只要用一些简单的命令就可以对数据做各种操作。如我们想知 道各个舱位都有多少乘客,可以用如下代码实现:

01 import pandas as pd #导入pandas库

02 import seaborn as sns #导入 seaborn库

03 train data = pd.read csv('D:/titanicdata/train.csv')

#装载训练集,路径根据实际情况修改

04 sns.set style('whitegrid') #设置 sns的显示风格为“白色网格”

05 train data.head( #查询数据的前5行

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 [email protected] 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:打开《Python入门与实战》_一步步学会Python_5.2.2.1 二分查找法
下一篇:打开《Python入门与实战》_一步步学会Python_5.3 元组 (tuple)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×