咨询热线

400-007-6266

010-86223221

70多个网站让你免费获取大数据存储库

   导读:70多个网站让你免费获取大数据存储库,ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。

 中国数据市场分析与发展前景预测报告(2014-2019)

  你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。

  Wikipedia:Database:向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

  Commoncrawl建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。

  Commoncrawl:建立并维护一个开放的网络,向所有人开放。

  EDRMFileFormatsDataSet:由381个文件夹200种文件格式组成。

  ApacheMahoutTLP项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。

  EDRMEnronEmailDataSetv2由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。

  ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。

  DMOZ–最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。

  theinfo.org–这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。

  ProjectGutenberg提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle,Android,iOSor或其他便携式设备。

  Millionsongdataset:与tracks和艺术家有关的数据

  AWS(AmazonWebServices)PublicDataSets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。

  BigMLbiglistofpublicdatasources.

  Bioassaydata:研究文章“生物测定数据的虚拟筛选”,由AmandaSchierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。

  Bitly1.usa.govdata:匿名点击政府链接

  CanadaOpenData:有许多政府和地理空间的数据集的试点项目

  CanadaOpenData:许多政府和地理空间数据集的试点项目。

  CausalityWorkbench:数据存储库

  CorralBigDatarepository:在德克萨斯高级计算中心,提供以数据为中心的技术。

  DataSourceHandbook:公开数据指南

  Datacatalogs.org:来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据

  Data.gov.uk:英国的公共可用数据(Londondatastore也是)

  Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。

  DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。

  Datamob:可以很好利用的公开数据

  DataSF.org:可向City&CountyofSanFrancisco,CA.购买的数据集信息交流中心

  DataFerrett:一个用来访问和使用TheDataWeb的数据挖掘工具,许多网上美国政务数据集的集合。

  EconData:大量经济学的时间序列,由许多美国政府机构编制。

  EnronEmailDataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员

  EuropeanaData:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。

  EuropeanaData:

  FEDSTATS:一个美国统计资料的综合资源以及更多

  FIMIrepositoryforfrequentitemsetmining:工具和数据集

  FinancialDataFinderatOSU:大型财务数据集目录

  GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”

  GEO(GEOGeneExpressionOmnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,一个精心策划的网上资源,用于基因表达数据的浏览,查询和检索。

  GeoDaCenter:地理和空间数据

  Googlengramsdatasets:来自数Google扫描的百万书籍文本

  GrainMarketResearch:财务数据,包括股票、期货等

  HilaryMasonresearch-qualityBigDatasets收集许多文本和图片数据集

  HitCompaniesDatasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

  ICWSM-2009dataset:包含2008年8月1日到10月1日之间的4400万个博文

  Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。

  InvestorLinks:包含财物数据

  KDDCupcenter:数据、工作表和结果

  KevinChailistofdatasets:文本、SNA和其他领域

  KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。

  LinkingOpenData工程,免费向所有人提供数据

  MITCancerGenomicsgeneexpressiondatasetsandpublications:来自麻省理工WhiteheadCenter用于基因组研究

  MLData:欧盟Pascal2网络数据储存库

  NASDAQDataStore:提供市场数据

  NationalGovernmentStatisticalWebSites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。

  NationalSpaceScienceDataCenter(NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。

  OpenDataCensus:评估世界各地的开放数据的状态。

  OpenDatafromSocrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐

  OpenSourceSports:大量运动数据库,包括棒球、足球、篮球和曲棍球

  PeterSkomorochdatasetBookmarksPubGene(TM)GeneDatabaseandTools:基因组有关的出版物数据库

  Quandl,acollaborativelycuratedportaltomillionsoffinancialandeconomictime-seriesdatasets.

  qunb:一个用来发现和可视化的数据资料的平台

  RobertSchillerdata:住房建筑、股票市场和更多的来自于他的书IrrationalExuberance的数据

  SMD:StanfordMicroarrayDatabase,存储来自微阵列实验的原始的和标准的数据

  JerrySmithdatasetcollection:财经、政府、机器学习、科学和其他数据

  SourceForge.netResearchData:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。

  StatLib,卡内基梅隆大学数据档案

  STATOODatasetspart1和STATOODatasetspart2

  TimeSeriesDataLibrary

  VisualAnalyticsBenchmarkRepository.

  UCIKDDDatabaseRepository:适用于机器学习和知识发现研究的大数据集

  UCIMachineLearningRepository.

  UCRTimeSeriesDataArchive:提供数据集、论文、链接和代码

  UnitedStatesCensusBureau.

  Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据

  WolframAlphadiseaseandpatientleveldat.

  YahooSandboxdatasets:语言、图表、评级、广告与营销、竞赛

  YelpAcademicDataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究

更多好文每日分享,欢迎关注公众号

【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。

国家四部门联合发文:数据流通交易迎重磅利好 到2029年全社会数据利用水平将明显提升

国家四部门联合发文:数据流通交易迎重磅利好 到2029年全社会数据利用水平将明显提升

2月7日,国家数据局会同工业和信息化部、公安部、证监会,于日前联合印发了《关于培育数据流通服务机构 加快推进数据要素市场化价值化的意见》,为数据要素市场发展注入强劲动力。该意见旨在通过系统性培育专业化的数据流通服务机构,破除数据流通壁垒,充分释放数据价值,为数字中国建设和经济高质量发展提供坚实支撑。

2026年02月10日
3D打印产业实现新年“开门红” 龙头企业业绩倍增引领规模化浪潮

3D打印产业实现新年“开门红” 龙头企业业绩倍增引领规模化浪潮

2026年开年以来,我国3D打印产业表现亮眼,呈现强劲的发展态势。随着多家上市公司近期密集披露2025年度业绩预告,3D打印业务成为推动业绩增长的关键力量。龙头企业业绩实现倍数增长,民用市场取得重要突破,展现出该技术正从高端制造领域加速向规模化、产业化方向迈进。

2026年02月05日
我国数字产业实现跨越式发展 成为新质生产力重要引擎

我国数字产业实现跨越式发展 成为新质生产力重要引擎

1月21日,国务院新闻办公室举行新闻发布会,工业和信息化部副部长张云明系统介绍了“十四五”以来我国数字产业发展取得的显著成就。数据显示,数字产业在规模体量、创新能力及赋能应用方面均取得长足进步,已成为促进实体经济和数字经济深度融合的关键支撑,以及发展新质生产力的重要载体。

2026年01月22日
马斯克旗下AI初创公司xAI成功融资200亿美元 开启人工智能竞赛新篇章

马斯克旗下AI初创公司xAI成功融资200亿美元 开启人工智能竞赛新篇章

1月6日,埃隆·马斯克旗下人工智能初创企业xAI正式宣布完成E轮融资,共筹得资金200亿美元,远超原定150亿美元目标。本轮融资使其估值飙升至约2300亿美元,巩固了xAI在全球人工智能领域的领先地位。

2026年01月12日
国产AI框架迎战“超节点时代” 技术创新加速大模型产业落地

国产AI框架迎战“超节点时代” 技术创新加速大模型产业落地

12月26日,随着人工智能大模型朝着十万亿级参数规模、全模态融合和异构化训推方向快速发展,算力基础设施迎来重要演进。在近日举办的昇思人工智能框架峰会上,业界宣布AI基础设施已正式迈入“超节点时代”。国产AI框架通过持续技术创新和产学研用协同生态构建,正在加速推动人工智能技术在各行各业落地应用。

2025年12月30日
数实融合提速——前11月全国数字经济核心产业销售收入同比增长10%

数实融合提速——前11月全国数字经济核心产业销售收入同比增长10%

12月25日,国家税务总局发布的最新增值税发票数据显示,2025年1月至11月,我国数字技术与实体经济(数实融合)呈现快速发展态势,数字产业化水平显著提升,产业数字化转型投入持续加大,数据要素驱动的新业态蓬勃发展,为经济高质量发展注入了强劲动力。

2025年12月26日
人工智能需求爆发 存储器产业迎来“超级周期”与国产化双重机遇

人工智能需求爆发 存储器产业迎来“超级周期”与国产化双重机遇

12月10日,在数字经济高速发展背景下,存储能力(存力)与计算能力(算力)已成为驱动数据价值释放的“双引擎”。当前,我国存力基础设施建设成效显著,产业链自主创新能力持续增强,存储产业生态正迈向更高水平发展。

2025年12月11日
中国正式启动卫星物联网业务商用试验 助推商业航天与低空经济发展

中国正式启动卫星物联网业务商用试验 助推商业航天与低空经济发展

11月22日,在武汉举行的“2025中国5G+工业互联网大会”上,中国工业和信息化部正式宣布启动卫星物联网业务的商用试验。此举旨在进一步丰富卫星通信市场供给,支撑商业航天、低空经济等新兴产业的安全与健康发展,标志着中国卫星通信应用进入新的发展阶段。

2025年11月25日
微信客服
微信客服二维码
微信扫码咨询客服
QQ客服
电话客服

咨询热线

400-007-6266
010-86223221
返回顶部