"来源:|区域经济ID: Quyujingji "
转载:数据研讨会
来源:综合整理,学习Python甚至分享自蔡j。
第一部分数据查询网站
1企业产生的用户数据
指数:file/tupian/20220729/error.html Focus、Osiris、Orbis、Zephyr等数据库。:https://www.data.gov/.这是美国政府公共数据的位置,该站点包含超过190,000个数据点。这些数据集不同于气候、教育、能源、金融和许多其他领域的数据集。印度政府开放数据:https://data.gov.in/是印度政府开放数据的所在地。从各个行业、气候、医疗等方面寻找数据,可以在这里找到一些启发。根据你居住的国家,你也可以从其他网站浏览类似的网站。世界银行:世界银行在http://data.worldbank.org/.的开放数据该平台提供多种工具,如开放数据目录、世界发展指数和教育指数。印度储备银行提供的https://rbi.org.in/scripts/statistics.aspx数据。这包括货币市场运行、国际收支、银行使用和一些产品的几个指标。第二部分大型数据集
Amazon Web Service-Datasets:https://aws.amazon.com/cn/datasets/Amazon提供了一些大型数据集,可以在他们的平台或本地计算机上使用。还可以通过EMR使用EC2和Hadoop来分析云中的数据。亚马逊上流行的数据集包括完整的安然电子邮件数据集、谷歌图书n-gram、NASA NEX数据集、百万首歌曲数据集等。谷歌数据集:https://cloud.google.com/bigquery/public-data/Google提供了一些数据集作为其大型查询工具的一部分。包括GitHub公共数据库的数据,黑客新闻的所有故事和评论YouTube-labered-video-dataset:https://research.google.com/youtube8m/Part3预测建模和机器学习数据集。
UC-机器学习库:https://archive.ics.uci.edu/ml/datasets.htmlUCI机器学习库显然是最著名的数据库。如果你正在寻找与机器学习知识库相关的数据集,它通常是第一个去的地方。这些数据集包括各种数据集,从Iris和Titanic这样的流行数据集到最近的贡献,如空空气质量和GPS轨迹。该存储库包含350多个类似域名的数据集。您可以使用这些过滤器来确定您需要的数据集。ka ggle:https://www.kaggle.com/datasetsKaggle提出了一个平台,人们可以贡献数据集,其他社区成员可以投票并运行内核/脚本。他们总共有超过350个数据集-有超过200个特征数据集。虽然有些初始数据集通常出现在其他地方,但我在平台上看到了一些有趣的数据集,而不是出现在其他地方。除了新的数据集,该界面的另一个好处是您可以在同一个界面上看到来自社区成员的脚本和问题。https://datahack.analyticsvidhya.com/contest/all/:你可以参与并下载我们的练习题和黑客马拉松问题的数据集。问题数据集基于真实的行业问题,并且相对较小,因为它们意味着2-7天的黑客马拉松。quandl:https://www.quandl.com/Quandl通过直接整合网站、API或一些工具,提供来自不同来源的金融、经济和替代数据。他们的数据集分为开放和付费。所有开放数据集都是免费的,但高级数据集需要付费。你仍然可以通过搜索找到平台上的高质量数据集。例如,印度的股票交易数据是免费的。http://www.kdd.org/kdd-cupKDD杯是由ACM特别兴趣小组组织的一年一度的数据挖掘和知识发现比赛。第四部分图像分类数据集
mnist数据库:http://yann.lecun.com/exdb/mnist/,最流行的图像识别数据集,使用手写数字。它包括60,000个示例和10,000个示例的测试集。这通常是图像识别的第一个数据集。chars 74k:http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/,这里是进化的下一个阶段,如果你已经通过了手写数字。这个数据集包括自然图像中的字符识别。数据集包含74,000幅图像,因此数据集的名称。正面人脸图像:http://vasc.ri.cmu.edu//idb/html/face/frontal _ Images/index . html如果你已经完成了前两个项目,能够识别数字和字符,这就是图像识别中的下一个挑战关卡——正面人脸图像。这些图片是由CMU 麻省理工学院收集的,并排列在四个文件夹中。ImageNet:现在是时候让http://image-net.org/建立一些共同的东西了。根据WordNet层次结构组织的图像数据库。层次结构中的每个节点都由数百幅图像描述。目前,在这个集合中平均每个节点有超过500个图像。第五部分文本分类数据集
垃圾短信——非垃圾短信:在http://www.esp.uem.es/jmgomez/smsspamcorpus/.,区分短信是否是垃圾短信是一个有趣的问题,你需要建立一个分类器来对短信进行分类。Twitter情绪分析:http://thinknook . com/Twitter-sentient-Analysis-training-corpus-dataset-2012-09-22/该数据集包含1578627条分类推文,每行标记为1条积极情绪和0条消极情绪。数据依次基于Kaggle竞争和Nick Sanders的分析。影评数据:http://www.cs.cornell.edu/People/pabo/movie-review-data/的这个网站提供了一系列的影评文档,这些文档标注了他们整体的情感极性或主观评价,并标注了他们的主观状态或极性。