热门文档
- 2022-09-18 20:22:00 中国人为什么看不起中国人 张鸣
- 2023-04-19 15:04:26 《千家妙方 上册 1982年》(李文亮等编)
- 2022-09-18 20:22:00 中国兵法之起源 编委会
- 2023-10-13 17:09:40 楚辞 中华传统诗词经典 可复制-李山-9787101097528
- 2022-11-24 16:17:09 《性体验与性爱心理》尤里-谢尔巴特赫
- 2022-11-24 16:17:09 《性爱健康指南》石四维编著
- 2023-10-13 17:09:40 超速学习:我这样做,一个月学会素描,一年学会四种语言,完成MIT四年课程-斯科特·扬著,林慈敏译-9789861755533
- 2022-09-18 19:48:57 心理催眠术 迈克尔.赫普,温迪.德雷顿著
- 2023-10-13 17:09:40 初中诗词格律读本 可复制-周建忠 徐乃为 王业强编著-9787101121704
- 2023-10-13 17:09:40 曾国藩家书 中华经典藏书(升级版)可复制-檀作文译注-9787101115482
- 2022-09-18 19:48:57 成功创业72绝招 艾凡著
- 2023-01-11 15:23:39 孔子学院传播研究_刘程 安然著_9787516112922
1、本文档共计 75 页,下载后文档不带www.pdfdz.com水印,支持完整阅读内容。
2、古籍基本都为PDF扫描版,所以文档不支持编辑功能,即不支持文档内文字的复制粘贴。
3、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
4、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
5、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
2、古籍基本都为PDF扫描版,所以文档不支持编辑功能,即不支持文档内文字的复制粘贴。
3、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
4、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
5、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
但是你怎么去买房子呢?你怎么评价一栋房子呢?像Zillowi这样的公司如何得出他们的Zestites??本章主要回答与这个基本概念相关的问题:基于距离的调近。首先,我们将讨论如何估计房价。然后我们将讨论如何将房子划分为各个类别,例如“买”“持有”和“卖”。就这一点,我们将谈论一个通用算法,K最近邻,以及如何使用它解决这样的问题。我们要将问题分解成几个部分:什么使得距离较近,以及什么是一个真正的邻居(即,什么是事物的最优的K值)。如何确定是否想购买一栋房子这个问题长期困扰着许多人。如果你要买一栋房子,或判断它是否更适合租赁,你很可能就在试图隐式地回答这个问题。房屋估价是一个棘手的问题,而目众所周知它容易出现计算偏差。例如Zillow的网站上说他们著名的Zestite,是有缺陷的(//bit.ly/Zestite-whatis)。他们说,根据你看的地段,房价可能有一个地域化的偏差量。对房子来说,位置是真正的关键。西雅图的需求曲线和旧金山不同,如果你了解房地产你就明白!是否购买一栋房子,取决于你需要在未来若干年里为它按揭付款的价格。但是这个价格怎么计算出来呢?房子的价格究竟几何常言道:东西的价格要看人们愿意为它付多少钱。小给房子估价是件困难的事。即使我们能够想出一个具有许多内在变量的模型,这种模型能发挥巨大作用,但它也不能改变这样一个事实:买房子是很主观的,有时还会有价格战。这些几乎是不可能预测的。你当然可以使用这个模型来给房子估价,但仍然会产生错误,需要多年的经验来纠错。一栋房子卖得多贵都有可能。一栋房屋的价格是多少,这个答案的核心是很简单的,但很难预测。由于供应量受限,或因为每栋房屋都是独一无二的,房屋售价很不稳定。有时你只是因为很喜欢一栋房子,就会为它多付费。但是,让我们假设,这栋房子的价格是买家愿意支付的价钱。这是一个函数,与房屋本身的一些属性有关。我们可以写出一个不错的估计房屋价格的公式:公式3-1:房屋价格这个模型出现在回归(我们将在第章讨论)或其他温近算法中,但它缺失了房地产的主要影响因素:“位置!”我们将使用愉悦回归来克服这个问题。K先生最近的邻居我们都知道邻域是什么意思。无论你住在树林里还是一排棕色的石头中间,你都住在某些邻域中。如果没有更好的定义,邻域可以看作一些房子的群集(我们将在后面讨论群集)。在这一点上的群集可以被视为维空间中的房屋或物品的紧密分组。但是如何表示“紧密分组”?因为你很可能在生活中的某个机会中使用了一个几何类,你阿能想到了毕达哥拉斯定理或类似的东西,但事情不是那么简单。距离是一类可能更复杂的函数。维度灾难任何使用距离的事物,都有一个严重的问题,就是维度灾难。对越高维度的空间进行建模,距离近似就变得越不准确。在实践中必须要意识到,挖掘数据集的特征对于创健弹性模型是至关重要的。我们将在第10章讨论特征工程,现在也需要认识到这个问题。图3-8表示了一个可视化的认识维度灾难的方式。如图3-8所示,当我们将随机点放在单位球体上并测量它与原点(0,0,0)之间的距离,我们发现这个距离总是1。但是如果我们将它投影到二维空间上,距离将小于或等于1。这个原理在扩展维镀的时候也成立。例如,如果我们将这个例子从三维扩展到四维,这个距离将大于或等于1。不能保持相对于一点的距离不变,会影响所有基于距离的模型,因为所有的数据点变得混乱且彼此远离。图3-8:维度灾难如何选择K在建模时选择适当的房子数量是一个困难的问题一容易验证,但很难提前计算。在这一点上,我们知道如何将事物分组,但只是不知道把多少个事物放入邻域。有几种方法可以用来确定最优的K值,但每种方法都有其优缺点:·猜测K