当前位置:蜗牛素材网>综合资讯>科技>正文

数据科学入门攻略:如何辨别真伪数据科学家

人气:310 ℃/2023-09-28 06:47:56

现在,数据科学家是21世纪最性感的职业,每个人都希望分一杯羹。作为一只数据"狮",数据分析能力是必备技能。小编收集了不少关于数据分析的问题及答案,纯干货,喂饱你!

1.解释什么是正则化,以及它为什么有用。

答:正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。

约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。

同时正则化,解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少。

2.如何验证一个用多元回归生成的对定量结果变量的预测模型?

答:

A.拟合优度检验

主要有R^2,t检验,f检验等等,这三种检验为常规验证,只要在95%的置信度内满足即可说明拟合效果良好。

B.预测值和真实值比较

主要是差值和比值,一般差值和比值都不超过5%。

C.另外的办法——GEH方法最为常用

GEH是Geoffrey E. Havers于1970年左右提出的一种模型验证方法,其巧妙的运用一个拟定的公式和标准界定模型的拟合优劣。

GEH=(2(M-C)^2/(M C))^(1/2),其中M是预测值,C是实际观测值。

如果GEH小于5,认为模型拟合效果良好,如果GEH在5-10之间,必须对数据不可靠需要进行检查,如果GEH大于10,说明数据存在问题的几率很高。

3.解释准确率和召回率。它们和ROC曲线有什么关系?

▶答:准确率和召回率是广泛用于信息检索统计学分类领域的两个度量值,用来评价结果的质量。

其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;

召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。

一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。召回率(Recall) = 系统检索到的相关文件 / 系统所有相关的文件总数准确率(Precision) = 系统检索到的相关文件 / 系统所有检索到的文件总数这两者和ROC曲线都可以说明我们清楚的了解二元分类器的性能表现,还能方便比较不同分类器的性能。

4.什么是根本原因分析?

▶答:根本原因分析(RCA)是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。根本原因分析是一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。

下期题目预告:

  1. 什么是统计检验力?
  2. 解释什么是重抽样方法和它们的作用。并说明它们的局限。
  3. 有太多假阳性或太多假阴性哪个相比之下更好?说明原因。
  4. 什么是选择偏倚,为什么它很重要以及如何避免它。

答案将在下期文章中公布,请继续关注我们!

搜索更多有关“数据科学入门攻略:如何辨别真伪数据科学家”的信息 [百度搜索] [SoGou搜索] [头条搜索] [360搜索]
本网站部分内容、图文来自于网络,如有侵犯您的合法权益,请及时与我们联系,我们将第一时间安排核实及删除!
CopyRight © 2008-2024 蜗牛素材网 All Rights Reserved. 手机版