﻿<!DOCTYPE html>
<!--[if IE 8]>          <html class="ie ie8"> <![endif]-->
<!--[if IE 9]>          <html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!-->  <html> <!--<![endif]-->
    <head>
        <meta charset="utf-8" />
        <title>大数据中的技术概念 - 行业动态 - 新闻中心 - 数据,数据库,计算,仓库,分布式,系统,存储,中的,提供</title>
        <meta name="keywords" content="数据,数据库,计算,仓库,分布式,系统,存储,中的,提供" />
        <meta name="description" content="在大数据处理产品中经常会碰到一些技术名词，在这里汇总整理。一、数据源类型1.宽表VS窄表宽表：指字段比较多的数据库表。通常是指业务主体相关的指标、纬度、属性关联在一起的一张数据库表。广泛应用于数据挖掘" />
        <meta name="Author" content="人人都是产品经理" />
        <meta name="viewport" content="width=device-width, maximum-scale=1, initial-scale=1, user-scalable=0" />
        <link rel="canonical" href="/col_spzx/202203/E38D219AA12B50CD1838DA289ACC15C5.htm"/>
        <!--[if IE]><meta http-equiv='X-UA-Compatible' content='IE=edge,chrome=1'><![endif]-->
        <link href="../../hdui/app/css/bootstrap.min.css" rel="stylesheet" type="text/css" />
        <link href="../../hdui/app/css/hdcore.min.css" rel="stylesheet" type="text/css" />
        <link href="../../hdimg/bas/css/hdcss.css" rel="stylesheet" type="text/css" />
        <style>
        .coltitle{
        font-size: 28px;
        line-height: 2.2em;
        }
        .colimage img{
            width: 100%;
        }
        #dtl_detail, #dtl_detail p{margin:0;padding:0;}
        </style>
        <script>
            checkBrowser("/hdmbi/bas/col_detail.php?id=1058");
            function checkBrowser(url) {
                var ua = navigator.userAgent;
                if (ua.match(/(iphone|Android|midp-2|opera mini|ucweb|windows ce|symbianos|blackberry|nokia|palm|cellphone)/i)) {
                    window.location.href = url;
                    }
            }
        </script>
    </head>
    <body class="smoothscroll enable-animation">
        <a href="https://xyt.xcc.cn/getpcInfo?sn=1770772864060866560&language=CN&certType=8&url=*.wanqiao.cn" target="_blank" style="position: relative;display: inline-block;height: 38px;">
    <div style="width:100%;height:100%;position: absolute;top: 0;left: 0;"></div><embed src="https://program.xinchacha.com/web/1770772864060866560=*.wanqiao.cn.svg" width="103" height="38" type="image/svg+xml" pluginspage="//www.adobe.com/svg/viewer/install/" />
</a>


<!--logo、导航-->
<div class="header">
    <div class="header_logo">
                        <a href="/"><img src="../../hdupf/gimg/201906/20190621135441_214999.png" alt="LOGO" /></a>
            </div>
    <div class="header_sign">
        <div class="ewm">
            <a href="#" title=""><img src="../../hdimg/bas/images/erwei.png" alt="icon" /></a>
            <div class="ewm_img">
                                        <a href="/"><img src="../../hdupf/gimg/202107/20210728090413_772665.png" alt="../../hdupf/gimg/202107/20210728090413_772665.png" /></a>
                            </div>
        </div>
        <div class="srch"><a href="../../s/all/index.php" title=""><img src="../../hdimg/bas/images/sr.png" alt="icon" /></a></div>
    </div>
    <div class="header_nav">
        <ul>
            <li><a href="/" title="首页">首页</a></li>
                            <li><a href="../../hdapp/bas/col_index_intro.php" title="走进万桥">走进万桥</a></li>
                            <li><a href="/col_gsxw/index/" title="新闻中心">新闻中心</a></li>
                            <li><a href="/col_cpfw1/index/" title="产品服务">产品服务</a></li>
                            <li><a href="/col_zhcs/index/" title="解决方案">解决方案</a></li>
                            <li><a href="/col_zhgc1/index/" title="典型案例">典型案例</a></li>
                            <li><a href="/col_zhjz2/index/" title="技术研究">技术研究</a></li>
                            <li><a href="../../hdapp/bas/col_index_culture.php" title="企业文化">企业文化</a></li>
                            <li><a href="/col_cpyc/index/" title="招贤纳士">招贤纳士</a></li>
                    </ul>
    </div>
</div>         <div class="bnr" style="background-image:url(../../hdupf/gimg/201907/20190715083903_213571.jpg);">
            <div class="bnr_center">
                <div class="tils">
                    <p class="en">NEWS</p> 新闻中心                </div>
            </div>
         </div>
        <div class="erji_nav">
            <ul>
                                      <li style="display:" >
                            <a href="/col_gsxw/index/">万桥新闻</a>
                        </li>
                                            <li style="display:" >
                            <a href="/col_hydt/index/">通知公告</a>
                        </li>
                                            <li style="display:"  class="on">
                            <a href="/col_spzx/index/">行业动态</a>
                        </li>
                                </ul>
        </div>
                                         <div class="container">
            <div class="container_center">
                <div class="xinxi_main">
                    <div class="wz_top">
                        <h2><span style="color:#666">大数据中的技术概念</span></h2>
                        <p class="yd">作者：<span>人人都是产品经理</span> 来源： <span>人人都是产品经理</span> 更新于：<span id="addtime" title="2022年01月12日 03时">2022年01月12日 03时</span>   阅读：<span id="visitcount">0</span></p>
                    </div>
                    <div class="wz_cnr">
                                                <!-- 正文内容 -->
                        <div id="dtl_detail">
                        <p style="text-indent: 2em; text-align: left;">在大数据处理产品中经常会碰到一些技术名词，在这里汇总整理。</p><p style="text-indent: 2em; text-align: left;">一、数据源类型</p><p style="text-indent: 2em; text-align: left;">1. 宽表 VS 窄表</p><p style="text-indent: 2em; text-align: left;">宽表：指字段比较多的数据库表。通常是指业务主体相关的指标、纬度、属性关联在一起的一张数据库表。</p><p style="text-indent: 2em; text-align: left;">广泛应用于数据挖掘模型训练前的数据准备，通过把相关字段放在同一张表中，可以大大提供数据挖掘模型训练过程中迭代计算的消息问题。</p><p style="text-indent: 2em; text-align: left;">虽然提高了数据查询效率，但存在大量冗余。</p><p style="text-indent: 2em; text-align: left;">窄表：严格按照数据库设计三范式。减少了数据冗余，但修改一个数据可能需要修改多张表。</p><p style="text-indent: 2em; text-align: left;">数据库设计三范式：</p><p style="text-indent: 2em; text-align: left;">确保每列保持原子性；确保表中的每列都和主键相关；确保每列都和主键列直接相关，而不是间接相关。</p><p style="text-indent: 2em; text-align: left;">2. MySQL</p><p style="text-indent: 2em; text-align: left;">MySQL是一种关系型数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。是目前最流行的关系型数据库管理系统之一。</p><p style="text-indent: 2em; text-align: left;">3. Oracle</p><p style="text-indent: 2em; text-align: left;">Oracle是一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品，系统可移植性好、使用方便、功能强，适用于各类大、中、小微机环境。</p><p style="text-indent: 2em; text-align: left;">它是一种高效率的、可靠性好的、适应高吞吐量的数据库方案。</p><p style="text-indent: 2em; text-align: left;">4. GBase</p><p style="text-indent: 2em; text-align: left;">GBase 是南大通用数据技术有限公司推出的自主品牌的数据库产品，在国内数据库市场具有较高的品牌知名度。</p><p style="text-indent: 2em; text-align: left;">5. HBase</p><p style="text-indent: 2em; text-align: left;">HBase是一个分布式的、面向列的开源数据库。</p><p style="text-indent: 2em; text-align: left;">不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。</p><p style="text-indent: 2em; text-align: left;">6. FTP</p><p style="text-indent: 2em; text-align: left;">FTP（File Transfer Protocol）是一套网络文件传输标准协议，访问远程资源， 实现用户往返传输文件、目录管理以及访问电子邮件等等， 即使双方计算机可能配有不同的操作系统和文件存储方式。</p><p style="text-indent: 2em; text-align: left;">7. HDFS</p><p style="text-indent: 2em; text-align: left;">HDFS是一个Hadoop分布式文件系统，HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上。</p><p style="text-indent: 2em; text-align: left;">而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。</p><p style="text-indent: 2em; text-align: left;">二、数据计算</p><p style="text-indent: 2em; text-align: left;">1. MaxCompute</p><p style="text-indent: 2em; text-align: left;">MaxCompute是一项大数据计算服务，它能提供快速、完全托管的PB级数据仓库解决方案，可以经济并高效的分析处理海量数据。</p><p style="text-indent: 2em; text-align: left;">2. Flink</p><p style="text-indent: 2em; text-align: left;">Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。</p><p style="text-indent: 2em; text-align: left;">Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。</p><p style="text-indent: 2em; text-align: left;">3. Kafka</p><p style="text-indent: 2em; text-align: left;">Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。</p><p style="text-indent: 2em; text-align: left;">4. 离线计算 VS 实时计算</p><p style="text-indent: 2em; text-align: left;">离线计算：通常也称为“批处理”，表示那些离线批量、延时较高的静态数据处理过程。</p><p style="text-indent: 2em; text-align: left;">离线计算适用于实时性要求不高的场景，比如离线报表、数据分析等。常见计算框架：MapReduce，Spark SQL</p><p style="text-indent: 2em; text-align: left;">实时计算：通常也称为“实时流计算”、“流式计算”，表示那些实时或者低延时的流数据处理过程。</p><p style="text-indent: 2em; text-align: left;">实时计算通常应用在实时性要求高的场景，比如实时ETL、实时监控等。常见计算框架：Spark Streaming，Flink</p><p style="text-indent: 2em; text-align: left;">5. OLTP VS OLAP</p><p style="text-indent: 2em; text-align: left;">OLTP（On-Line Transaction Processing）：可称为在线事务处理，一般应用于在线业务交易系统，比如银行交易、订单交易等。</p><p style="text-indent: 2em; text-align: left;">OLTP的主要特点是能够支持频繁的在线操作（增删改），以及快速的访问查询。</p><p style="text-indent: 2em; text-align: left;">OLAP（On-Line Analytical Processing）：可称为在线分析处理，较多的应用在数据仓库领域，支持复杂查询的数据分析，侧重于为业务提供决策支持。</p><p style="text-indent: 2em; text-align: left;">目前常见是的实时OLAP场景，比如Druid（Apache Druid，不同于阿里Druid）、ClickHouse等存储组件能够较好的满足需求。</p><p style="text-indent: 2em; text-align: left;">三、分布式相关</p><p style="text-indent: 2em; text-align: left;">1. Hadoop</p><p style="text-indent: 2em; text-align: left;">Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。</p><p style="text-indent: 2em; text-align: left;">2. HDFS</p><p style="text-indent: 2em; text-align: left;">HDFS是一个Hadoop分布式文件系统。详情在上一小节中已介绍。</p><p style="text-indent: 2em; text-align: left;">3. Hive</p><p style="text-indent: 2em; text-align: left;">Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载。</p><p style="text-indent: 2em; text-align: left;">这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。</p><p style="text-indent: 2em; text-align: left;">hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。</p><p style="text-indent: 2em; text-align: left;">4. MapReduce</p><p style="text-indent: 2em; text-align: left;">MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。</p><p style="text-indent: 2em; text-align: left;">概念”Map（映射）”和”Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。</p><p style="text-indent: 2em; text-align: left;">它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。</p><p style="text-indent: 2em; text-align: left;">5. Spark</p><p style="text-indent: 2em; text-align: left;">Spark是专为大规模数据处理而设计的快速通用的计算引擎，类似于Hadoop MapReduce的通用并行框架，拥有Hadoop MapReduce所具有的优点；</p><p style="text-indent: 2em; text-align: left;">但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。</p><p style="text-indent: 2em; text-align: left;">四、数据仓库</p><p style="text-indent: 2em; text-align: left;">1. 简介</p><p style="text-indent: 2em; text-align: left;">数据仓库（全称：Data Warehouse；简称：DW/DWH），是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的。</p><p style="text-indent: 2em; text-align: left;">它是一整套包括了ETL（extract-transform-load）、调度、建模在内的完整的理论体系。</p><p style="text-indent: 2em; text-align: left;">2. 与数据库的差异</p><p style="text-indent: 2em; text-align: left;">数据仓库是专门为数据分析设计的，涉及读取大量数据以了解数据之间的关系和趋势。而数据库是用于捕获和存储数据。</p><p style="text-indent: 2em; text-align: left;">3. 分层</p><p style="text-indent: 2em; text-align: left;">ODS（Operation Data Store）： 数据源头层，数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层（可理解为原始库），是后续数据仓库加工数据的来源。数据来源：业务库、埋点日志、消息队列。DWD（Data Warehouse Details ）：数据细节层，是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的操作。数据清洗：去除空值、脏数据、超过极限范围的。DWB（Data Warehouse Base）：数据基础层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层，可理解为知识库字典、常用标准库。DWS（Data Warehouse Service）： 数据服务层，基于DWB上的基础数据，整合汇总成分析某一个主题域的服务数据层，一般是宽表。用于提供后续的业务查询，OLAP分析，数据分发等。ADS（ApplicationData Service）：应用数据服务，该层主要是提供数据产品和数据分析使用的数据，一般会存储在ES、mysql等系统中供线上系统使用。</p><p style="text-indent: 2em; text-align: left;">4. 数据地图</p><p style="text-indent: 2em; text-align: left;">以数据搜索为基础，提供表使用说明、数据类目、数据血缘、字段血缘等工具，帮助数据表的使用者和拥有者更好地管理数据、协作开发。</p><p style="text-indent: 2em; text-align: left;">5. 数据血缘</p><p style="text-indent: 2em; text-align: left;">即数据的来龙去脉，主要包含数据的来源、数据的加工方式、映射关系以及数据出口。</p><p style="text-indent: 2em; text-align: left;">数据血缘属于元数据的一部分，清晰的数据血缘是数据平台维持稳定的基础，更有利于数据变更影响分析以及数据问题排查。</p>                        </div>
                         <ul class="pager" id="prevnext"></ul>
                    </div>
                </div>
            </div>
        </div>
        <!--footer 底部-->
    <div class="footer">
        <div class="footer_center">
            <div class="footer_left">
                <p>地址：甘肃省兰州市城关区高新街道雁南路299号兰州报业大厦十楼(整层)</p>
                <p>电话：0931-8279110</p>
                <p>传真：0931-8273221</p>
                <p>邮箱：wanqiao@wanqiao.cn</p>
            </div>
            <div class="footer_right">
                <div class="list_ft">
                    <ul>
                                                <li><a href="https://cloud.wanqiao.cn/dashboard/statis" title="运维管理平台" target="_blank">运维管理平台</a></li>
                                                <li><a href="http://192.168.105.161:8080/jsaas/login.jsp" title="企业管理平台EM3.1 EM2.0" target="_blank">企业管理平台EM3.1 EM2.0</a></li>
                                                <li><a href="https://exmail.qq.com/login" title="企业邮箱" target="_blank">企业邮箱</a></li>
                                            </ul>
                    <div class="erweima">
                                                    <img src="../../hdupf/gimg/202107/20210728090413_772665.png" alt="页脚二维码" />
                                            </div>
                </div>
            </div>
        </div>
        <p class="copy">Copyrights &copy; 2025  万桥信息技术有限公司  <a href="https://beian.miit.gov.cn/" target="_blank">陇ICP备19002260号-1</a>  <a target="_blank" href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=62010202004429" style="display:inline-block;text-decoration:none;height:20px;line-height:20px;"><img src="/hdmag/bas/gabn.png" style="float:left;"/>甘公网安备 62010202004429号</a></p>
    </div>
<a href="#" id="toTop"></a>
<div id="preloader">
    <div class="inner">
        <span class="loader"></span>
    </div>
</div>
<div class="mload modal fade" id="modal" role="basic" aria-hidden="true"><div class="modal-dialog"><div class="modal-content"><div class="text-center padding-30 margin-top-20"><img src="/hdui/app/images/loaders/10.gif" alt="icon" /><p class="margin-top-20">正在加载，请稍后...</p></div></div></div></div><div class="mload modal fade" id="modal-sm" role="basic" aria-hidden="true"><div class="modal-dialog modal-sm"><div class="modal-content"><div class="text-center padding-30 margin-top-20"><img src="/hdui/app/images/loaders/10.gif" alt="icon" /><p class="margin-top-20">正在加载，请稍后...</p></div></div></div></div><div class="mload modal fade" id="modal-lg" role="basic" aria-hidden="true"><div class="modal-dialog modal-lg"><div class="modal-content"><div class="text-center padding-30 margin-top-20"><img src="/hdui/app/images/loaders/10.gif" alt="icon" /><p class="margin-top-20">正在加载，请稍后...</p></div></div></div></div><div class="mload modal fade" id="modal-full" role="basic" aria-hidden="true"><div class="modal-dialog modal-full"><div class="modal-content"><div class="text-center padding-30 margin-top-20"><img src="/hdui/app/images/loaders/10.gif" alt="icon" /><p class="margin-top-20">正在加载，请稍后...</p></div></div></div></div>
<script type="text/javascript">var plugin_path = '../../hdui/app/plugins/';</script>
<script type="text/javascript" src="../../hdui/app/js/j.min.js"></script>
<script src="../../hdui/app/js/b.min.js"></script>
<script type="text/javascript" src="../../hdui/app/js/hdjs.min.js"></script>
<script type="text/javascript" src="../../hdimg/bas/js/surperslide.js" ></script>
<script type="text/javascript" src="../../hdimg/bas/js/swiper.js" ></script>

<script>
$(document).ready(function() {
    $.get('/hdapp/bas/d.php?ac=all',function(all){
        var reobj = eval('(' + all + ')');
        var ttip = reobj.sysvisit.ttip;
        var ttvp = reobj.sysvisit.ttvp
        $("#umenu").html(reobj.umenu);
        $("#sys_count_ttip").html('UV/'+ttip);
        $("#sys_count_ttvp").html('PV/'+ttvp);
    })
    $('.ewm').hover(function(){
        $('.ewm_img').show();
    },function(){
        $('.ewm_img').hide();
    });
    jQuery(".slideBox").slide({mainCell:".bd ul",autoPlay:true,titCell:'.hd ul',autoPage:'<li><a></a></li>'});
});
window.addEventListener('wheel',function(){return;},{passive: false});
</script>
        <script src="../../hdui/app/plugins/validate/jquery.validate.min.js"></script>
        <script src="../../hdui/app/plugins/validate/jquery.validate.add.js"></script>
        <script src="../../hdui/app/plugins/validate/jquery.validate.cn.min.js"></script>
                <script type="text/javascript" charset="utf-8" src="../../hdudt/ueditor.parse.min.js"> </script>
        <script>
        uParse('#dtl_detail', {
            rootPath: '../../hdudt/'
        })
        </script>
                <script>
        $(document).ready(function() {
            // 将编辑器里的图片改为响应式
            $('#dtl_detail img').each(function() {
                $(this).addClass("img-responsive");
            });
            $.get("/hdapp/bas/d.php?ac=col_detail&id=1058",function(col){
                var reobj = eval('('+col+')');
                $('#prevnext').html(reobj.prevnext);
                $('#visitcount').html(reobj.colvisit);
            });
            $.get('../../hdapp/bas/col_fdb.php?id=1058&burl=aHR0cHM6Ly93d3cud2FucWlhby5jbi9oZGFwcC9iYXMvY29sX2RldGFpbC5waHA/aWQ9MTA1OA==',function(fdb){
                 $('#comments').html(fdb);
            });
            $('#col_sch_bt').click(function(){
                sch(1);
            })
        })
            function sch_col(page=1){
                sch(page);
            }
            function sch(page){
                $(document).scrollTop(0);
                $('#col_list').html('<div class="text-center padding-30 margin-top-20"><img src="/hdui/app/images/loaders/10.gif" alt="icon" /><p class="margin-top-20">正在加载，请稍后...</p></div>')
                var q = $('#col_q').val();
                var sn = "spzx";
                $.get(encodeURI('/s/col/?q='+q+'&sn='+sn+'&page='+page),function(data){
                    var schtitle = '<div class="heading-title heading-line-single margin-bottom-0"><h3>在 行业动态 下 搜索 <span>'+q+'</span> 的结果</h3></div>'
                    $('#col_list').html(schtitle+data);
                });
            }
            function sch_hkw(k){
                $('#col_q').val(k);
                sch_col();
            }
            function getscol(ssn,sname){
            $('#col_ssn').attr('data-sign',ssn);
            $('#col_ssn').attr('data-name',sname);
            scol();
            }
            function scol(page){
                $(document).scrollTop(0);
                $('#col_list').html('<div class="text-center padding-30 margin-top-20"><img src="/hdui/app/images/loaders/10.gif" alt="icon" /><p class="margin-top-20">正在加载，请稍后...</p></div>');
                let ssn = $('#col_ssn').attr('data-sign');
                let sname = $('#col_ssn').attr('data-name');
                $.get(encodeURI('/hdapp/bas/col_sub.php?&ssn='+ssn+'&page='+page),function(data){
                    var schtitle = '<div class="heading-title heading-line-single margin-bottom-0"><h3>子类 <span>'+sname+'</span> 下的内容</h3></div>'
                    $('#col_list').html(schtitle+data);
                });
            }
      </script>
    </body>
</html>