机读格式显示(MARC)

000 02488nam 2200325 450

001 0000500188

005 20181107122900.0

010 __ |a 978-7-111-60034-3 |d CNY59.00

100 __ |a 20180702d2018 em y0chiy50 ea

101 1_ |a chi |c eng

102 __ |a CN |b 110000

105 __ |a ak z 000yy

106 __ |a r

200 1_ |a 数据科学与大数据技术导论 |A shu ju ke xue yu da shu ju ji shu dao lun |f (美) 奥弗·曼德勒维奇, 凯西·斯特拉, 道格拉斯·伊德里恩著 |d = Practical data science with hadoop and spark designing and building effective analytics at scale |f Ofer Mendelevitch, Casey Stella, Douglas Eadline |g 唐金川译 |z eng

210 __ |a 北京 |c 机械工业出版社 |d 2018

215 __ |a xiv, 178页 |c 图 |d 26cm

225 2_ |a 数据科学与工程技术丛书 |A shu ju ke xue yu gong cheng ji shu cong shu

306 __ |a 本书中文简体字版由Pearson Education (培生教育出版集团) 授权机械工业出版社在中华人民共和国境内独家出版发行

314 __ |a 奥弗·曼德勒维奇, 是Lendup公司的数据科学副总裁。凯西·斯特拉, 是Hortonworks的首席数据科学家。道格拉斯·伊德里恩, 是以Linux集群高性能计算解决方案的实践者和高性能计算发展编年史撰写者开始职业生涯的。唐金川, 《美国机器学习实践》联合作者。

330 __ |a 本书概要介绍了如何使用Hadoop和Spark处理数据科学涉及的一系列主题: 数据提取、数据再加工 (data munging, 通常包含数据清洗和整合)、特征提取、机器学习、预测建模、异常检测和自然语言处理。整书侧重于具体的例子, 并通过不同方式来提供对商业价值的洞察, 全书共分三部分, 第一部分包括第1、2、3章, 概述了数据科学及其历史演变, Hadoop及其演进史, 以及Hadoop生态系统中的各种工具; 第二部分包括第4、5、6章, 讨论了将数据集从外部源导入Hadoop的各种工具和技术、使用Hadoop进行数据再加工, 以及大数据的可视化; 第三部分包括第7、8、9、10、11、12章, 介绍了对机器学习的高层次理解, 预测建模的基本算法和各种Hadoop工具, 各种聚类分析, 异常检测的各种方法和算法, 将数据科学应用于自然语言处理, 以及Hadoop环境下数据科学的未来, 最后在附录中提供了本书参考材料。

410 _0 |1 2001 |a 数据科学与工程技术丛书

500 10 |a Practical data science with hadoop and spark designing and building effective analytics at scale |A Practical Data Science With Hadoop And Spark Designing And Building Effective Analytics At Scale |m Chinese

606 0_ |a 数据处理 |A shu ju chu li

690 __ |a TP274 |v 5

701 _1 |a 曼德勒维奇 |A man de le wei qi |g (Mendelevitch, Ofer) |4 著

701 _1 |a 斯特拉 |A si te la |g (Stella, Casey) |4 著

701 _1 |a 伊德里恩 |A yi de li en |g (Eadline, Douglas) |4 著

702 _0 |a 唐金川 |A tang jin chuan |4 译

801 _0 |a CN |b 湖北三新 |c 20180702

905 __ |a WXCSXY |d TP274/380