首页计算机书籍计算机语言《Python机器学习实践:测试驱动的开发方法》马修·柯克
zouzhang

文档

256

关注

0

好评

0
PDF

《Python机器学习实践:测试驱动的开发方法》马修·柯克

阅读 888 下载 0 大小 14.41M 总页数 75 页 2022-11-22 分享
价格:¥ 10.00
下载文档
/ 75
全屏查看
《Python机器学习实践:测试驱动的开发方法》马修·柯克
还有 75 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 75 页,下载后文档不带www.pdfdz.com水印,支持完整阅读内容。
2、古籍基本都为PDF扫描版,所以文档不支持编辑功能,即不支持文档内文字的复制粘贴。
3、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
4、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
5、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
但是你怎么去买房子呢?你怎么评价一栋房子呢?像Zillowi这样的公司如何得出他们的Zestites??本章主要回答与这个基本概念相关的问题:基于距离的调近。首先,我们将讨论如何估计房价。然后我们将讨论如何将房子划分为各个类别,例如“买”“持有”和“卖”。就这一点,我们将谈论一个通用算法,K最近邻,以及如何使用它解决这样的问题。我们要将问题分解成几个部分:什么使得距离较近,以及什么是一个真正的邻居(即,什么是事物的最优的K值)。如何确定是否想购买一栋房子这个问题长期困扰着许多人。如果你要买一栋房子,或判断它是否更适合租赁,你很可能就在试图隐式地回答这个问题。房屋估价是一个棘手的问题,而目众所周知它容易出现计算偏差。例如Zillow的网站上说他们著名的Zestite,是有缺陷的(//bit.ly/Zestite-whatis)。他们说,根据你看的地段,房价可能有一个地域化的偏差量。对房子来说,位置是真正的关键。西雅图的需求曲线和旧金山不同,如果你了解房地产你就明白!是否购买一栋房子,取决于你需要在未来若干年里为它按揭付款的价格。但是这个价格怎么计算出来呢?房子的价格究竟几何常言道:东西的价格要看人们愿意为它付多少钱。小给房子估价是件困难的事。即使我们能够想出一个具有许多内在变量的模型,这种模型能发挥巨大作用,但它也不能改变这样一个事实:买房子是很主观的,有时还会有价格战。这些几乎是不可能预测的。你当然可以使用这个模型来给房子估价,但仍然会产生错误,需要多年的经验来纠错。一栋房子卖得多贵都有可能。一栋房屋的价格是多少,这个答案的核心是很简单的,但很难预测。由于供应量受限,或因为每栋房屋都是独一无二的,房屋售价很不稳定。有时你只是因为很喜欢一栋房子,就会为它多付费。但是,让我们假设,这栋房子的价格是买家愿意支付的价钱。这是一个函数,与房屋本身的一些属性有关。我们可以写出一个不错的估计房屋价格的公式:公式3-1:房屋价格这个模型出现在回归(我们将在第章讨论)或其他温近算法中,但它缺失了房地产的主要影响因素:“位置!”我们将使用愉悦回归来克服这个问题。K先生最近的邻居我们都知道邻域是什么意思。无论你住在树林里还是一排棕色的石头中间,你都住在某些邻域中。如果没有更好的定义,邻域可以看作一些房子的群集(我们将在后面讨论群集)。在这一点上的群集可以被视为维空间中的房屋或物品的紧密分组。但是如何表示“紧密分组”?因为你很可能在生活中的某个机会中使用了一个几何类,你阿能想到了毕达哥拉斯定理或类似的东西,但事情不是那么简单。距离是一类可能更复杂的函数。维度灾难任何使用距离的事物,都有一个严重的问题,就是维度灾难。对越高维度的空间进行建模,距离近似就变得越不准确。在实践中必须要意识到,挖掘数据集的特征对于创健弹性模型是至关重要的。我们将在第10章讨论特征工程,现在也需要认识到这个问题。图3-8表示了一个可视化的认识维度灾难的方式。如图3-8所示,当我们将随机点放在单位球体上并测量它与原点(0,0,0)之间的距离,我们发现这个距离总是1。但是如果我们将它投影到二维空间上,距离将小于或等于1。这个原理在扩展维镀的时候也成立。例如,如果我们将这个例子从三维扩展到四维,这个距离将大于或等于1。不能保持相对于一点的距离不变,会影响所有基于距离的模型,因为所有的数据点变得混乱且彼此远离。图3-8:维度灾难如何选择K在建模时选择适当的房子数量是一个困难的问题一容易验证,但很难提前计算。在这一点上,我们知道如何将事物分组,但只是不知道把多少个事物放入邻域。有几种方法可以用来确定最优的K值,但每种方法都有其优缺点:·猜测K
返回顶部