git://www.github.com/jadianes/data-science-your-way.git
git clone http://www.github.com/jadianes/data-science-your-way
$ svn co --depth empty http://www.github.com/jadianes/data-science-your-way
Checked out revision 1.
$ cd repo
$ svn up trunk
数据科学工程中的这些教程将试图比较如何在两个主要的生态系统中实现不同的概念: R 和 python 。
我们将从中立的角度来做这个。 我们的观点是,每个环境都有良好的和坏的东西,任何数据科学家都应该用posible作为。
为了了解关于这个热门话题的感觉,我们将读者称为科学战争的数据。 their infographic explores 英镑 R的优势,反之亦然,旨在从数据科学和统计学角度为这两种编程语言提供基本的比较。
我们系列教程的重点是如何实际执行不同的数据科学 taks,如使用数据框架。
我们将使用真实的世界数据集,我们将建立一些真实的数据产品。 这将帮助我们快速转移我们在这里学习到的数据来分析实际的数据分析情况。
如果你对大型数据产品感兴趣,那么你可能会发现我们关于使用 Apache Spark 和 python 或者的一系列关于使用 Apache Spark ( SparkR )的教程感兴趣。
这是关于 python 和 R 中的概念和应用程序的教程的不断增加的列表。
浅谈 python/Pandas 和 R 中的基本数据结构及其使用。
关于任何数据科学工程项目中的这项重要任务。
关于使用主成分分析和k 均值聚类更好地表示和理解我们的数据。
如何运用文本挖掘技术对文本文档的正面或者非正面性进行分析,是一种基于文本的方法。
这些是我们使用教程中解释的概念构建的一些应用程序。
如何构建一个网页应用,我们可以上传文本文件的情绪分析使用基于r的框架闪亮的 。
Using的主题是 ,Pandas,scikit,,digs,digs,digs,digs,digs,digs,digs,digs,digs,digs 。
使用 R 和 ggplot2,我们对该引用数据集执行了关于 wine 质量的探索性数据分析。
在这里展示了我们自己的一对信息检索算法的实现: 向量空间模型和 tf 。
我对这个Kaggle竞争的解决方案。 它是 edX MOOC 的一部分,即Analitics边缘。 我强烈推荐在线路课程上。 这是我曾经采用过的数据分析和机器学习中使用的R的一个最。
欢迎捐赠对于 Bug 报告或者请求请提交问题。
请随时与我联系,讨论任何问题,问题或者评论。
这个库包含了很多内容;一些由Jose开发的。 Dianes,以及第三方中的一些。 第三方内容在由这些参与方提供的许可证下分发。
A 开发的内容。 Dianes按以下许可证分发:
Copyright 2016 Jose A Dianes
Licensed under the Apache License, Version 2.0 (the"License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an"AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.