大会介绍

中国大数据技术大会(BDTC)作为大数据领域极具影响力的行业盛会,已成功举办十一届,见证了大数据技术生态在中国的建立、发展和成熟。从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,已经成为国内外大数据技术精英最期待的深度分享会,是极具行业实践的专业大数据交流平台。

 

2017年中国大数据技术大会有近百位技术专家为现场数千名大数据行业精英、技术专家与意见领袖带来多场技术演讲,分享最新技术与实践的洞察与经验,探寻大数据发展的未来,领略数据与智能之美!

 

2018中国大数据技术大会将12月6日-8日在北京举办。大会聚焦于大数据技术如何更好的服务于实体经济,关注热门技术在行业中的实践和应用。除Keynote外,主办方精心策划了多场专题技术和行业论坛,包括“大数据分析与生态系统论坛”、“深度学习论坛”、“推荐系统论坛”、“大数据安全与政策论坛”、“大数据可视分析论坛”、“精准医疗大数据论坛”、“数据科学与大数据技术教育论坛”、“数据库论坛”、“金融大数据论坛”、“知识图谱论坛”、“工业大数据论坛” 、“区块链论坛”、“交通与旅游大数据论坛”等,让现场观众与大数据行业精英、技术专家与意见领袖一起分享最新技术与实践的洞察与经验,一起共商大数据时代的发展大计!

 

2018年12月在北京邀您共享盛会,共见未来!

视频直播
图文直播
  • 16:40

    【区块链论坛】最后一位上场的嘉宾是来自滴滴的资深研发工程师薛康,他为了我们带来了《实时计算在网约车领域的应用实践》的主题分享,从技术细节详细阐释了流计算等技术在滴滴实时计算条件下的应用情况及案例分享。

    他谈到:“为网约车公司有大量的实时轨迹数据、车辆的轨迹和乘客的轨迹,这些轨迹需要我们实时清洗、采集、梳理等等。滴滴整个业务是实时交易系统,用户的订单在整个流转的过程中也会产生大量的实时监控数据,包括付费也是实时到账。所以滴滴对实时计算来说有广阔的发展空间的。”

    最后,薛康对滴滴接下来技术与业务方面的规划进行了展望:技术方面,一是Stream SQL 成为主流开发语言,包括有更丰富的算子与 connector,支持 CEP 的 SQL 表达;二是流计算单元标准化业务规划;业务方面,一是实时机器学习,包括有用户特征实时更新和训练模型实时更新;二是IoT & 边缘计算,例如流计算嵌入车载设备将是很好的应用方向。

  • 16:25

    【区块链论坛】腾讯区块链应用技术负责人、区块链电子发票总架构师张建俊的演讲主题为《区块链技术的应用场景实践与挑战》,百花齐放的区块链应用场景分为三类:数字资产类:信息共享,约定执行。首先张建俊介绍了区块链技术在应用场景中所发挥的作用,区块链可以把多个功能环横向拉通,传统的信息系统建设,构建了一个一个的数据孤岛;区块链让各个孤岛仅需保留业务功能,不需保留业务数据。

    现有的电子发票,各个环节无关联,没有有效打通,各自保存一份数据,相互校验困难,税局监管困难。张建俊围绕区块链电子发票的应用案例,介绍了区块链技术发展中的矛盾和方向选择,及技术应用中的实际问题和面临的挑战。

  • 16:25

    【区块链论坛】秘猿首席架构师宁志伟围绕可扩展的底层区块链架构进行了分享,他表示不能否认比特币是很成功的区块链应用,但是区块链应该推广到更多的商业领域去,有更多的跟现实结合落地的场景,而不只是仅限于数字加密货币。扩展性是区块链领域急需解决的一个根本难题——“扩展性-去中心化-安全”不可能三角,基于此,宁志伟介绍了区块链行业解决扩展性的技术方案;区块链面对大数据量时的问题,以及解决技术方案;最后分享了CITA在扩展性和大数据量采用的方案、过程、经验及未来计划。

  • 16:00

    【交通与旅游大数据论坛】浪潮软件集团大数据产品部业务总监李占述从旅游的角度为大家分享了《以大数据技术创新打造国内领先的旅游目的地——浪潮智慧旅游大数据应用》的主题演讲。

    他首先谈到了旅游大数据的发展背景和浪潮智慧旅游产品的定制及组成。在他看来,智慧旅游是以云计算、物联网、大数据等技术在旅游管理、旅游体验、产业发展等方面的应用,使旅游物理资源和信息资源得到高度系统化整合和深度开发激活的全新的旅游形态。

    在物联网+大数据的背景下,浪潮依托智慧城市建设,面向游客、管理机构和旅游业态提供了四大体系:一是全域营销大数据体系,即精准营销;二是风控服务体系和行业管理的公共服务大数据体系,即智慧服务;三是行业管理大数据体系;四是业态服务大数据体系。

    以行业管理大数据体系为例,以旅游局、旅游企业和相关委办局旅游业务为业务范围,通过各类信息系统有效集成与协作,完成行业管理的职责,使行业管理更加全面、高效、顺畅。主要业务系统包含旅游产业运行监测系统、旅游舆情管理、旅游团队管理、旅游营销管理、旅游行业统计系统、旅游应急管理系统和涉旅数据共享开放等。

    最后,李占述还介绍了浪潮为智慧城市系统的大数据服务“1+7+N”的基本架构。“1”即城市大数据中心;“7”即先行开展交通、健康、视频、政务、网格化、 金融以及爱城市网建设;“N”即逐步扩展民政、教育、旅游等覆盖智慧城市全领域。

  • 15:45

    【数据库论坛】 华为高斯数据库团队首席产品规划师李思昊围绕主题《华为企业级融合数据仓库GaussDB 200》展开分享,依次介绍了华为高斯数据库团队,以及企业级数据仓库GaussDB 200数据库产品的现状、关键技术和成功案例。李思昊表示,海量数据分析场景下,企业级数据仓库系统需要解决四大挑战:实时性、可用性、扩展性和易用性。此外,他还特别分析了数据管理的趋势,首先是大家都知道的云,同时还包括Multi-model/Graph、HTAP/In-memory,以及Non-relational。

  • 15:45

    【数据库论坛】 涛思数据创始人陶建辉带来了《TDengine — 高效的时序空间大数据引擎》主题分享。他表示,大数据时代,万事万物都要联网,并留下数据的痕迹,数据采集后被源源不断的发往云端,数据量非常大。在这样的背景下,大多通用解决方案都是开源的,将开源的Kafka、Redis、Hbase、MongoDB、Cassandra、ES、Hadoop、Spark、Zookeeper等大数据软件拼装起来,利用集群来处理海量数据。但这套工作有很多不完美的地方,例如开发效率低、运行效率差、运维复杂、应用推向市场慢等。

    论及现今这套方法不合适的原因,陶建辉分析了物联网、工业4.0数据,即时序空间数据的十大特征,包括:所有采集的数据都是时序的;数据都是结构化的;一个采集点的数据一定是它产生的;数据很少有更新或删除操作;数据一般是按到期日期来删除的;数据以写操作为主,读操作为辅;数据流量平稳,可以较为准确的计算;数据都有统计、聚合等实时计算操作;数据一定是指定时间段和指定区域查找的;数据量巨大,一天的数据量就超过100亿条。面对这些特性,大家讲目光投向了时序数据库。分享最后,陶建辉特别介绍了TDengine的特性,包括采取完全无中心化设计;每个数据采集点单独建表;采取列式存储,便于压缩……

  • 15:40

    【金融大数据论坛】 大数据对银行的转型起到一个什么样的角色?北京东方国信科技股份有限公司金融事业部副总经理卞沛认为,大数据是银行转型的“翅膀”,这体现在三个方面:使信息进一步对称、使服务在线化、实现智能识别。

    在他看来,做大数据的银行已经很多,下一步更需要关注一些能力开放,包括算力资源、存储资源和数据资源。让数据成为自己的数据资产,他认为有三个阶段,第一个阶段是多路数据不断汇聚,这涉及到数据采集、传输、存储的问题。第二个阶段是融合,最关键的技术点是如何认识实体之间的对接,做实体之间的关联。第三阶段是数据经营,当数据管控起来才能做到经营,这要考虑如何将数据输出,以何种模式进行变现,这样才能一步一步进行很好的发展。

  • 15:30

    【交通旅游大数据论坛】途牛数据事业部研发总监王君发表了《途牛大数据探索和实践》的主题演讲,并从四个方面进行了介绍,包括途牛大数据的发展历程、建设现状、实践案例,以及目前面临的问题、挑战以及对未来的展望和规划。

    途牛大数据的发展主要经历了三个阶段:第一阶段从2010年到2013年,基于微软的SQL-Server建设数据仓库和基于Cube进行数据透视表服务;第二阶段是从2013年到2016年,第三个阶段主要是从2016年开始搭建基于Hadoop的平台。

    截止目前根据业务特点,途牛建设了大约十几个主题的数据仓库,其中有订单、流量、产品、会员、财务、供应链、促销、服务等。关于整个大数据平台的构建,从顶层的各个数据源、数据应用进行抽取到数仓,经过实时和离线计算,再经过数据开发提供给上层应用去服务、使用。

  • 15:05

    【数据库论坛】 链极智能科技董事长、总裁、创始人庞引明带来《构建区块链专用的数据库管理系统》主题分享。首先介绍区块链的概念,从数据管理角度看,区块链的本质是一个构建在对等网络上、提供了可信数据管理功能的数据库系统。下面从几个方面介绍链极科技在这些方面的研究和进展。主要是数据管理包含的数据储存和数据查询。存储可信性解决区块的容错一致问题,其本质是分布式共识问题。现在解决存储可信性的主流机制包括工作量证明机制(POW)、实用拜占庭容错机制(PBFT)、基于Raft的拜占庭容错机制,以及Proof-of-Luck(POL),庞引明博士分别介绍了这四种共识机制的优缺点。

    接着主要讲解数据的处理(智能合约),数据溯源,可认证数据查询与处理和区块链环境下数据管理中的监管。最后,在链极科技不断关注当前最新技术的同时,我们发现,BigchainDB系统-大链数据库系统-结合了本地数据库和Tendermint机制,其希望解决的所有现有的问题,并保留数据库和区块链的特性,并且解决拜占庭容错问题。这些特性包括,去中心化,不可篡改,高事务处理效率,低延迟,基于索引的结构化数据查询。另一种其他数据管理技术为Blockstack,Blockstack使用一种skip-list技术管理区块,它能极大地减少计算资源的消耗。

    分享中,庞引明博士坦言,大数据是区块链绕不过的话题,如今区块链尚未达到大规模使用的程度。事实上,在大家意识到它对整个实体经济的推动作用之前,链技术确乎沉寂了一段时间。而随着它的逐步发展,国内的研发在底层数据管理方面需要有很大的进步。最后,总结性发问,“如果区块链这种应用不可避免,我们能否用传统的技术来给我们点一个路灯往前走?”

  • 15:05

    【区块链论坛】华为维纳实验室主任、区块链首席架构师曹朝的分享主题为《区块链与大数据技术的结合点》,区块链作为一种分布式账本技术,从区块链使用传统数据管理系统技术的角度来看,区块链已经使用了如数据库(比如Hyperledger Fabric就是用key-value数据库作为底层数据存储)、分区等技术,区块链技术当前处于蓬勃发展期,如何进一步利用传统数据管理系统技术提升区块链系统能力是一个待解决的重要问题。曹朝表示,区块链的并发性能有限、吞吐率低;受制于共识算法性能,单条链的性能,如网络、存储。 通过结合数据库&大数据技术能提升区块链性能:利用关系型数据库提升易用性;通过分区技术能提升区块链的并发能力,类似于数据库的分库分表,通过多链可进一步提升区块链系统的并发能力;使用图模型账本解决吞吐率、并发、扩展性等问题。区块链与数据库融合一体,降低部署运维成本,支持链上链下事务,严格保证数据一致性,提升联合分析效率。区块链能够助力大数据交易、协同,促进大数据流转,实现多维度数据的有机结合从而实现全面AI。

  • 15:00

    【交通与旅游大数据论坛】中移信息技术有限公司大数据应用部高级工程师江勇为大家带了《大数据与人工智能在旅游行业的应用实践分享》的主题演讲。

    在多数人眼里,大家可能认为中国移动是一家只做个人市场的移动运营商,但实际上,中国移动早在2016年就确立了大连接的战略,助力“万物互联”,即基于移动市场向家庭、集团客户市场、新业务市场进行拓展。大连接成就了大数据,来自中国移动7亿多的4G用户就有5亿多的物联网的连接,累计下来每天多达1个多PB。基于海量数据优势,中国移动自主实现了数据采集、数据建模、数据计算处理及能力的开放,来支持企业内部的经营管理、外部的行业拓展。

    目前中国移动面向政府、金融、旅游等多个行业开发出了五大类18个产品,并提供了多种解决方案。为了满足政府、企业、公众的需求,中国移动打造了逍遥旅游大数据产品,支撑全国2500多个重点景区和场馆的全域全程分析,展现适游指数、热门路线和出行分布,实现各区域国内游、出境游、入境游客客流的预测、预警和预控,通过云服务、API接口等形式提供服务。

  • 14:40

    【区块链论坛】中科院计算所研究员、区块链联合实验室主任孙毅分享的主题为《用学科交叉思维推动新一代高通量区块链研发》,截至2018年2月,全球已有1286个知名区块链项目,通量低是区块链大规模应用的重要障碍,链上扩容是针对区块链高通量的解决方案。孙毅总结了关于构建高通量区块链的三点思考:1)从区块链底层架构进行优化,研究软硬件交叉融合、一体化解决方案;2)在区块链系统中引入“智能”是提升区块链通量的潜在突破方向;3)需研究与高通量区块链相适应的新型应用模式和法律政策。

  • 14:30

    【区块链论坛】12月8日下午,BDTC 2018中国大数据技术大会区块链分论坛开始,现场座无虚席。中国信息通信研究院云计算与大数据研究所主任、可信区块链推进计划秘书长魏凯作为论坛主席和主持人进行了开场致辞,他表示,大数据和区块链有很大的结合空间,所以在大数据技术大会上开区块链的论坛非常契合大会主题,本次区块链论坛主要探讨区块链和大数据技术结合的空间和方向。

  • 14:25

    【交通与旅游大数据论坛】华为公司FusionMind研发总监周明耀分享了《华为在交通领域的AI实践》的演讲主题。

    华为很早就开始做AI方面基础设施如芯片等方面的研究,但直到2018年10月才正式对外公布华为的全栈AI战略。首先他介绍了华为全栈AI解决方案的构建过程,以及自己负责的FusionMind人工智能平台,该平台的技术特点是:一站式机器学习平台,打通AI业务全流程。

    然后,他主要介绍了交通行业现在面临的现状以及华为在交通行业的最佳实践案例。具体来看,智慧交通可以围绕交警日常交通管理的四大领域展开。在交通执法领域主要是如何实现全天候、无死角、全类型、自动、高效的非现场执法;在指挥和勤务领域主要实现可视、可控、可量化的精准快速调度;在信号灯控制领域主要解决交通数据的智能感知、交通问题的自动诊断、交通信号的智能配时、交通规律的主动预测;在交管服务领域主要是如何实现交通数据的一站式服务。

    最后,他再次强调:AI是一个普世化的技术,过几年之后AI会渗透到所有领域。所有人应该学习一些AI的算法。

  • 14:25

    【数据库论坛】 小米大数据负责人司马云瑞围绕《小米大数据的架构逻辑》展开分享,重点阐述了小米大数据平台从无到有,从小到大,从粗略到精致的过程和逻辑,并穿插阐述了在各业务上的具体应用案例。

    伴随着各业务的高速发展,对大数据的依赖也越发增多。小米基于全生态,多维度的数据资产构建了自己的整体大数据体系,在业务运营、广告、互联网金融、新零售等各个领域发挥了重要的作用。小米大数据从2012年成立至今,全面惠及小米互联网业务。司马云瑞认为,大数据的职责可概括为“数据驱动、AI赋能”,数据驱动可分为辅助层、智能层、创新层和颠覆层四个层次。在对各层进行讲解的过程中,司马云瑞指出商业竞争的本质为效率竞争,小米的目标是转变现在人做决策机器执行的模式,消除70%的人工决策,通过机器、算法、大数据进行决策,从辅助变为决策,颠倒人机关系。第二层包含大量数据,尤其是业务内的数据,异构数据可以综合起来辅助提升智能层。创新层相对复杂,第一种是创新业务,第二种是用数据整合驱动重构业务结构。小米的虚拟大脑、虚拟处理器小爱等,都是交互层次的创新和颠覆,所以属于颠覆层。所有大数据架构都是围绕这四个层次来打造的。此外,司马云瑞还强调要用“钉钉子”精神打造数据平台——重点突破、全局优化、协同发展、螺旋上升。

  • 14:25

    【区块链论坛】中国信息通信研究院区块链主管、可信区块链推进计划办公室主任卿苏德带来主题为《可信区块链十大观察》的分享,可信区块链的十大观察包含:底层架构、共识算法、记账模型、账本数据库、隐私保护策略、密码算法、智能合约、监控管理、多底层支持、性能测试。

    评测结果显示:

    1、对于单链的性能,在使用高配置机器和万兆网络的前提下,最高峰值TPS达到50487(4个节点)、50030(8个节点)和48774(16个节点)。平均峰值是11051(4个节点)、10343(8个节点)和9745(16个节点)。

    2、平台的性能与共识算法的选择强相关。网络规模越大,实用拜占庭容错类算法的性能会越低,但是,权益证明类算法的性能会越来越高。

    3、提供的万兆网络能够让平台的性能得到充分展示,对应的CPU和网络IO都有显著消耗,但是与实际网络有较大差距。

    区块链要与实体经济深度融合,目前整个区块链已经有一些商业应用,希望能够通过标准更好地推动技术发展。未来希望能够结合不同行业推动整个垂直行业的应用落地,构建一个可信区块链生态。

  • 13:45

    【交通与旅游大数据论坛】北京航空航天大学计算机学院副教授 王静远 带来了《基于数据智能的城市计算》的演讲主题。

    基于数据智能的城市计算是一个非常新兴的领域。“说起城市我们都希望城市让生活更美好,但城市真得让我们的生活变得更好了吗?”王静远提出了这样的疑问。在北京差不多有2000万人口,自然会存在人口、交通、医疗、公共安全、视频安全等一系列问题。这也是全世界城市所面临的一些问题。那么现代城市面临的问题有哪些好的解决方案?大数据和人工智能技术就发挥了很好的作用。

    在他看来,每个人、每辆车、每个物体都是城市的传感器。在这种情况下,城市的治理和管理都需要新的信息化。人在物理空间做的事情要变到信息空间中去,所谓“凡走过必留下痕迹。”第一阶段是城市管理数字化、信息化;第二阶段是城市治理智慧化,理解城市信息化。什么叫智慧城市?在他看来,城市大数据数据和新一代智慧信息技术构成了智慧城市。

    他分别举到了两个案例,分别是城市危险品运输和城市流行病。例如,在讲到城市危险品运输安全分析的时候,他提到在数据融合的解决方案中最大的挑战是数据尺度比较大。此外,还运用到了模式挖掘技术。

    最后,他提出了对于未来的思考:可解释性在未来智能城市中的重要性,主要路径有两种:一种是符号主义方法引入连接主义模型;二是将连接主义方法嵌入符号主义模型。

  • 13:45

    【数据库论坛】 下午场干货井喷继续,蚂蚁金服OceanBase团队资深技术专家陈萌萌首位带来《揭秘OceanBase 2.0——首款同时兼容Oracle和MySQL的金融级分布式数据库》主题演讲,重点介绍OceanBase 2.0的发展状况及其团队在其上的新工作。作为蚂蚁金服和阿里巴巴开发的一款用来支撑内部业务需求的数据库,OceanBase在今年9月的云栖大会上发布了2.0版本,也是相对比较重要的一个版本,在很多方面做了增强之余,更是第一个支持Oracle兼容性的版本。

    陈萌萌表示,业界不乏因业务迁移导致故障的案例。数据库迁移是一项系统性工作,涉及技术风险、实施成本、稳定三方面的风险。OceanBase 2.0则在兼容MySQL的基础上,首次发布租户级的Oracle兼容模式——这使得OceanBase 2.0成为市场上首款同时兼容MySQL和Oracle的金融级分布式数据库。Oracle数据库功能极为丰富、强大,将依赖Oracle的传统用户迁移到其他数据库上是极为困难的。OceanBase的Oracle兼容模式允许Oracle用户在极少修改的情况下平滑迁移到OceanBase,极大降低了迁移的成本和风险。在一个OceanBase集群中同时支持MySQL和Oracle两种租户的能力也将用户的使用成本降至最低。

  • 11:45

    【工业大数据论坛】偶数科技创始人兼CEO 常雷的分享主题为《人工智能在工业等应用领域的挑战和解决方案》。常雷介绍了他们的人工智能产品LittleBoy,该产品是通过自动化的机器学习帮助用户降低门槛。LittleBoy包含了自动化的特征工程,自动化的模型训练,并可以以服务的方式发布模型,管理模型。

  • 11:40

    【数据库论坛】 作为此次数据库论坛上半场的最后一位分享嘉宾,阿里云高级技术专家熊亮春带来了主题为《PostgreSQL 并行查询》的分享,主要分三部分内容展开:1) 并行查询是什么?为什么会有并行查询的需求?2) PostgreSQL的并行查询特征是怎么做的?主要讲解了“怎么做”而不是“怎么用”的问题,包括其间可能牵扯到的数据合规问题,并列举一些互联网数据库研发团队在做此类并行大的数据库内核项目时可能会选择的途径。解析在快速迭代的需求下,如何切分并行项目庞大、牵涉面较广的项目;3) 云数据库也是其团队正在研究的范畴,因此本次分享还包括云数据库向一些复杂性特征并行提出来新的需求。

    所谓数据库并行查询,即通过建立多个查询处理子进程来并行执行查询所需要处理的数据,达到查询执行速度提升的效果,主要应对用户数据越来越大,以及机器计算资源越来约多的问题。当前并行数据库并行架构有几个主流的模型,其一是SMP的单机,也是现在PostgreSQL支持的架构,其二是跨机并行MPP。PostgreSQL能够通过为查询构造并行查询计划,来使用多个CPU资源为查询执行服务。分享最后,熊亮春谈到了云数据库并行新需求,包括弹性的服务能力提供、突破IO能力的需求,以及突破网络带宽的限制。

  • 11:05

    【工业大数据论坛】山大地纬软件股份有限公司副总裁史玉良的分享主题为《电力大数据的应用与实践》。史玉良表示,在整个用电环节当中,工业是电力用电的最大户,山东甚至超过82%。从用电量来看,今年整个用电量超过以往,仍然处在高峰。史玉良介绍有序电的工作:在用电高峰期合理安排用电,保证民生的用电不受影响。为了实现全网的有序电控制,最重要是预测整个电网的负荷,让参与用户进行调控,这样供电才能跟用电匹配起来。需要用到的数据包括电力现场的运行数据、天气数据以及用电档案等行业数据。最后,史玉良谈到了数据融合。大数据要从应用着手,数据质量的好坏是大数据成功的关键,算法只是助力。我们要强调大数据的思维,思维是模型+算法+大数据的广度,这才是大数据应用的真正着眼点。

  • 11:00

    【数据库论坛】 蚂蚁区块链技术总监闫莺带来《区块链赋能实体的实践与技术发展》主题演讲。回顾2017年,她表示去年整个区块链呈脑暴状态,几乎所有人畅想的场景都是区块链,但问题在于区块链是否具有长期价值?是否有信任?谁又愿意为信任买单?信任是否持久?是否解决了痛点?闫莺博士在此次分享中侧重解决的问题包括:有什么样的场景是非要区块链而数据库不能解决的?学术上近两年的论文没有区块链方面的,数据库从业人员想做区块链的研究从哪下手?哪些是痛点?哪些是新的场景带来的技术挑战?

    随后,闫莺博士重点分享了蚂蚁区块链在过去两年中聚焦的三个方向:打造自主可控、金融级区块链平台;探索区块链应用、服务实体经济;开放服务与生态,和对区块链价值的深入理解和思考。期待和同行携手,通过先进的技术,构建新型信任机制,创造真实价值。闫莺博士强调表示,区块链的核心价值在于信任。如今,点对点的信任机制已经不够了,我们需要的是网状的信用机制,区块链基础就提供了这种可能。从2017年至今,蚂蚁金服已有17个场景的落地,方向包括包括公益保险、商品的溯源、城市生活(医疗电子发票,电子处方等)、跨境支付等。

  • 10:30

    【知识图谱论坛】海知智能联合创始人、CTO 丁力老师从 cnSchema 出发,介绍了知识图谱的生命周期,包括建模、生产、融合、质量校验与应用落地;同时也结合金融业务场景,探讨知识图谱与大数据计算结合的实战经验。

    在领域知识建模时,结构和关系是知识图谱中最常用的,此外还需要考虑数据。这么多数据,金融领域有数据,政府领域有数据,这些数据独立维护,如何把这些数据联系起来呢?通过本体的继承,让数据有对齐和融合的可能性,有了可能性之后我们还可以干什么事呢?就是做全局的图融合。当我们在任何一个领域构建图谱时,只能做自己能够控制的部分,通过共享实体进行实体链接,可以让知识得到极大的扩展,这个是知识图谱给我们带来潜在的价值。总结成三个比较核心的价值:第一,知识图谱本身并不需要把所有的东西都转成知识图谱,我们把这些知识建立索引,就可以把大量的知识和数据关联起来;第二,知识图谱本身还是需要结构化;第三,跨领域的知识图谱的互联,以前只能做自己领域的图谱,或者采购外部数据的话还需要再进一步处理,如果大家都有共享的体系并标准化,实际上可以用整个社会的知识作为外部知识来采用。

  • 10:25

    【工业大数据论坛】山东大学能动学院教授、交通运输研究所所长闫伟《大数据引领企业智能制造转型——理论与实践》。闫伟表示,互联和物联产生了大数据,我们精细的管理依赖于大数据,而制造实际上是大数据具体的应用,包括客户分群、趋势预测、智能设计、精细排产等等。关于企业里大数据具体的流程,首先由供应商提供原材料,在智能工厂里进行生产,然后给客户提供相应的产品。反过来客户提供需求,对排产以及供应商也有相应的要求。纵向来看,供应商的数据、生产过程的数据、客户的数据,都可以通过互联网传上去,以云计算作为存储,以大数据作为分析得到相应的结果。因此,工业生产过程中大规模的个性化定制是关键特征,数据自动流动是工业4.0的精髓。此外,闫伟还介绍了大数据分析的整体规划 :项目规划,数据采集,整合存储,数据分析,展现应用。而数据分析工具则包括数据仓库、数据挖掘工具、智能算法以及专家系统等。

  • 10:20

    【金融大数据论坛】在基于大量调研和行业访谈的基础上,爱分析的首席分析师李喆介绍了大数据的细分领域的趋势判断。他指出,大数据领域或者整个数据科技平台领域最终看重的是应用市场的价值,整个数据科学平台现在来看存量市场并不大,未来在行业应用会有特别大的增量,同时技术能力提升,技术本身的门槛在下降,竞争的核心是厂商本身产品能力以及对对行业应用的理解能力,从客群来看,金融领域还会是一个最有价值的客群。

  • 10:20

    【数据库论坛】 东南大学计算机学院副教授崇志宏从数据库和深度学习的关系、多模态数据的语义关系、数据驱动的索引和查询策略优化三方面着手,带来《数据库遇到深度学习》主题分享。崇志宏表示,对数据库而言,我们用的是关系,数据库通过关系模型表示对象以及关系,依赖索引技术取得计算效率,支撑数据库系统的广泛应用。

    但深度学习强调的结构是流形结构,以云计算和大数据为技术和资源为基础,深度学习通过简单函数迭代的计算模型和高维复杂函数近似表示方法抽取数据中隐藏的层次结构,在视觉和语言处理等领域取得显著成功。关系、结构是两者关注的共同点,很自然地深度学习技术在数据库系统中的应用可以在多个层次和维度上拓展数据系统的模型表示能力、复杂算子表示及其效率方法,能够导致:1)扩展数据库系统的复杂相似关系和相似算子的表示,构建统一的多模态数据库系统模型;2)提高隐藏复杂关系的发现和深度神经网络模型的表示;3)通过深度神经网络表示的数据结构分布设计自适应的索引结构,形成数据驱动的索引和查询策略优化。

  • 9:45

    【知识图谱论坛】阿里巴巴知识图谱产品经理 葛灿辉老师从应用与产品的角度为大家分享了主题为《从知识图谱到人工智能:产品演进路径上的思考》的报告。围绕如何把知识图谱和现有的人工智能、和现有的产品发展进行结合分享了4个方面的主要内容:首先从对人工智能的一些基本的理解出发和大家探讨一些未来趋势性的思考;第二个是从人类智能发展的角度来看语义的产生对知识图谱的构建、人工智能发展有哪些借鉴;第三个讲述了知识图谱与语义之间的关系;最后,结合个人的经验分享产品的演进路线。

  • 09:40

    【数据库论坛】 PingCAP工程副总裁、TiDB Tech Lead申砾围绕《TiDB架构解析与实践》这一主题展开。谈到“为什么要做新的数据库”这一初期每每被问及的问题,申砾表示,虽然市面上已有很多老牌数据库,且早期的单机关系数据库也都做得很不多,很多优秀产品很大程度上支撑了传统IT产业以及互联网的发展,但随着发展推进,数据库作为核心组件开始面临扩展问题。在数据量不断膨胀,业务量持续激增,吞吐需求不断增长的情况下,如何扩展数据库就成了个焏待解决的问题,因为业务扩展易,数据库扩展难。为了解决这一问题,大家提出了颇多解决方案,但都不甚完美。恰在困惑时受到谷歌Spanner和F1论文的启发,开始TiDB的研发,希望打造分布式的强一致、可扩展的SQL数据库,并将这一套解决方案带给世界。PingCAP在设计之初提出了四点目标,分别是水平扩展、高可用、分布式事务、SQL,并自第一天起就走上了开源路线,而且还将坚持一直走下去。申砾表示,开源对产品的成熟会起到极大的促进作用。此外,他还着重分享了TiDB的架构设计、演进路线以及在业界的实战经验等内容。

  • 09:45

    【工业大数据】北京东方国信科技股份有限公司、工业事业部副总经理刘邦新的分享主题为《两化充分融合:工业互联网平台关键功能点》。在刘邦新看来,工业互联网其实就是三块东西:云应用、物联网、大数据。虽然工业大数据可以给我们很多的价值洞察能力、优化能力等等,但是我们需要一个全新的数据处理模式,这个处理模式就是IT+OT。最后刘邦新表示,乔布斯用iPod改变了我们享受音乐的方式,用iPad改变了我们的阅读方式,用iPhone改变的我们的生活,而工业互联网可以改变我们工业生产的方式。现在才刚开始,我们的路还很长。

  • 09:40

    【金融大数据论坛】 来自中信银行软件开发中心研发高级项目经理周巍从应用、技术、架构三大方面讲述了开源大数据平台在银行的进化之路,并在最后进行展望。

    展望开源大数据的未来,他认为最大的前提就是商业银行的核心下移。中信银行的AS400平台全部下移到基于JAVA+分布式架构X86平台上,2016年他们攻克了两个最主要的障碍,第一个是自主研发400上RPG程序自动转化成JAVA代码工具,完成一次性全量5000多个模块的迁移,执行正确率达到95%。第二个是自主研发了分布式数据库,作为核心下移以后核心的核心,在性能测试里,20个数据结点达到的查询类交易TPS40000比账务类交易PTS3300多,这能满足他们未来十年的发展,大数据技术未来必然在银行系统会得到一个非常广泛的应用。这其实也对银行IT技术了更高的挑战,首先对内必须加强自主掌控和自主研发,对所有系统架构设置和关键核心技术掌握能力必须增强,对外要吸收来自于互联网开源开放的技术服务。

  • 09:05

    【工业大数据】北京工业大数据创新中心、首席数据科学家田春华的分享主题为《工业大数据分析:挑战、机遇与方法》。田春华首先介绍了工业大数据在产品、研发制造以及生态链等方面能解决哪些问题,并通过多个案例全面阐述了工业大数据的落地与实战。对于最新的人工智能技术在工业大数据领域的应用,田春华表示,他们已经开始用深度学习模型,做完之后再用绝对数、相对回归。对行业专家来说,模型的可解释性非常重要的,可以在看到结果之后手工加工一些特征。

  • 9:05

    【数据库论坛】阿里巴巴副总裁李飞飞首位登场,带来《X-DB: A globally distributed database for large-scale cross region deployment》主题演讲,重点解析阿里巴巴集团自研的下一代一体化分布式数据库系——X-DB,目标直指全局全域分布式数据库。

    纵观阿里巴巴数据库发展史,在淘宝成立初期,属于单机房、单应用、单机的MySQL;后来随着业务的快速发展,问题越来越多,2005—2010年开启同城多机房垂直拆分,用的是商业的IOE;再往下发展就来到了异地双活单元化处理,这时就是从商业化的数据库回到了开源,对开源数据库做了一些修改,把MySQL改成AliSQL,加入了中间件分表。现在在阿里云上也有提供服务,基本上是中间件形态,利用分库分表的手段达成分布式。2016年开始至今,则是在做异地多活的云化、高性能分布式数据库X-DB。阿里集团内部现阶段的所有业务用的数据库都是X-DB,其中就包括支撑阿里顺利通过了双11这样的洪峰挑战。每年“双十一”的千亿成交额对数据库而言都是巨量事务请求的压力,而受到硬件限制,任何单节点数据库都不可能负荷。

    X-DB通过sharding下的shared-nothing架构来实现分布式部署, 达到水平拓展scale-out的目的。同时,X-DB通过使用自研的X-Engine和底层分布式存储盘古系统来实现单节点的弹性缩扩容和整个系统的存储计算分离。X-DB在不断优化和推进分布式查询以及分布式事务的处理,同时通过X-Paxos来实现三副本架构下的高可用和跨域部署。X-DB同时也在探索智能化引擎和数据安全性上的不断推进。此外,他还介绍了现阶段阿里在做的一些其他工作,包括智能数据库和安全数据库等。

    最后,李飞飞总结道,分布式数据库很难做到一蹴而就,必然需要一个相对长期的过程,在集团内部大规模部署之余,其团队也希望能够在明年把X—DB推上云,从而能够在云上提供服务。

  • 9:00

    【知识图谱论坛】浙江大学计算机科学与技术学院教授、博士生导师 陈华钧老师为大家带来了《管窥知识图谱内涵与发展前沿》为题的演讲。首先从信息系统工程的观点总结知识图谱的技术内涵,知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模 型,已经被广泛应用于搜索引擎、智能问答、语言理解、视觉场景理解、决策分析等领域。陈华钧老师特别讲到知识图谱并不等于专家系统。接下来,特别为大家讲到在知识图谱中那些被大家忽略的视角:Semantic IoT、设备抽象与语义互操作、Decentralization and Block Chain 等。最后,陈老师与大家分享了近期如 Knowledge-based XAI、Knowledge for Transfer Learning Explanation、Interpretable Link Prediction for Knowledge Graphs、Interpretable Link Prediction for Knowledge Graphs等一些研究的新进展,并谈到了未来发展的一些新趋势。

  • 9:00

    【数据库论坛】大会第三天精彩继续!数据库论坛作为本次大会囊括报告数目最多的一个专题,吸引了大量参会者的关注。论坛主席华东师范大学数据科学与工程学院院长、教授、博士生导师钱卫宁在主持人开场词中表示,数据库是大数据的基础设施,中国大数据技术大会每年也都会设有相关论坛。今年的论坛嘉宾横跨学界和企业领域,研究方向从核心数据研发到数据库应用研发,同时还包括与深度学习、区块链等热门新技术相结合的研究、应用、开发人员,与大家一同探讨“数据库遇到互联网”后在数据库理论、方法与技术、应用模式创新方面所展现广阔的前景。随后,钱卫宁教授邀请到来自蚂蚁金服的李飞飞为大家带来首场分享,他的报告主题是《X-DB: A globally distributed database for large-scale cross region deployment》。

  • 09:00

    【工业大数据】山东大学教授、博士生导师刘士军作为论坛主席登台致辞。刘士军表示,工业大数据是最有价值的,因为它真正能为企业创造价值。接下来,刘士军介绍了本次工业大数据论坛的演讲嘉宾:北京工业大数据创新中心、首席数据科学家田春华,北京东方国信科技股份有限公司、工业事业部副总经理刘邦新 ,山东大学能动学院教授、交通运输研究所所长闫伟,山大地纬软件股份有限公司副总裁史玉良,偶数科技创始人兼CEO 常雷,并宣布论坛正式开始。

  • 08:59

    【BDTC 2018】2018 中国大数据技术大会第三天~今天的日程包含:数据库论坛、金融大数据论坛、知识图谱论坛、工业大数据论坛、区块链论坛以及交通与旅游大数据论坛

  • 17:50

    【深度学习论坛】论坛尾声,中科大数据院长陈宏教授高度肯定了深度学习的远大前景,并对论坛的成功举办表达了祝贺。“深度学习在如今的大数据时代以及人工智能时代发挥了巨大的作用,尽管成就突出但还有尚需我们进一步攻克的难题。今天一天的报告,有幸看到在座的受邀嘉宾,都从各自的角度展示这几年的深度学习的研究成果以及对未来发展方向的思考,我想所有参会的老师、同学以及来自企业界多位技术人员,会有很多的收获。一定要回去好好消化吸收,推进自己的工作,共同为深度学习的发展做出应有的贡献!”至此,2018 BDTC中国大数据技术大会深度学习分论坛圆满落幕!

  • 17:35

    【深度学习论坛】作为深度学习分论坛下午场最后一位登场分享的嘉宾,北京交通大学计算机科学系教授桑基韬由浅入深,在主题为深度学习解释性:从“能”到“不能”的分享中由自己的学习经历出发讲到多媒体内容理解的相关内容并提及深度学习依然有很多事情“不能做到”,例如深度学习一个标准的黑盒问题,就是辨识度很差,在第一层对于CNN卷积盒来说可以捕捉模式是什么,这样的事情在后面做遇到了层级之间的复合,再加上其他的结构,再把这样卷积盒残疾读出来没有任何意义了,它是隐含特征的组合等,另外度学习还存在感知问题,其本身的局限在于它仍然面向这样一个直观的感知,不同的版本以及很难的图像问题,但仍然是输入到输出的映射,例如聪明的乌鸦以及愚笨的鹦鹉。  

    谈及对于解释性的理解,他解释了几个框架的情况,“一个就是去年tutorial,它更多的是从解释的不同阶段上,也就是是在建模之前对数据做解释,还是直接构建一个可解释的模型,比如层数不多的决策数,或者对广义的特征模型,反映了特征的重要性,或者是实际的KN方法,本身有很好的解释性;另外一个就是模型不好解释,建模之后怎么提高你的解释性。第二就是在GCPR的解释,第一要解释对象本身,第二要解决决策做出的过程,第三要解释整个模型。”针对未来提出希望,期望解释之后可以定位到重要的特征,让人和模型之间双向看懂,还能积累深入渠道的信息,引用到未来的诸多任务中。

  • 16:50

    【深度学习论坛】干货分享仍在继续,接下来南京大学助理教授霍静带来了“多模态深度学习及其视觉应用”的主题演讲。  

    何为多模态数据?“其实我们每天都在处理和分析一些多模态的数据。例如面对面交流的时候,我们既会看到视觉图象数据,也会听到一些声音数据,像这样的视觉和声音就是多模态数据;此外每天浏览网站的时候,这些网站会按某一些特定的主题建立起来,例如介绍莎士比亚的网站,这个网站在介绍莎士比亚的时候,既会通过一些文字描述莎士比亚,也可以通过视频、音频、图像介绍莎士比亚,像这样的文字、视频、图像、音频都是多模态的数据。”霍静说。

        

    了解这样的多模态数据有什么好处呢?首先当人们在浏览网站时候有这样的多模态数据,在了解一个主题的时候,直观的感觉是可以对这个物体有更加全面的认识,对于机器学习同样如此。

     

    “当我机器学习掌握更多的对同个物体的表述之后,有了更多的信息,那可能在处理某些任务的时候处理更好。但反之当我们想去建立一些跨模态的数据关联的时候,也会给我们带来一些技术上的挑战,因为像文字数据是一些字符表示,图像数据可能是像素表示,它们之间建立关联会碰到一些技术挑战。”这在公关破案以及行人识别作用巨大。

     

    目前在多模态的数据表示方面,其实主要的研究分为两部分,这个取决于具体的多模态应用想解决什么问题。如果我们是想融合这样的多模态数据协同帮助去做一个工作,会更关注于找到多模态数据里面相互互补的,可以帮助协同去办一件事情的特征,这叫做多模态数据里面一个联合表示;另一方面是跨模态数据的关联任务。

     

    此外在多模态数据转化中,当有了一个模态下的数据之后,再生成在另外一个模态上是什么样子。举个例子,拿到一个人的人脸图像以后生成一些素描,可以把这个做好关联和匹配,可以帮助辅助做一些跨模态检索任务。当然也有研究者在研究,例如拿到了图像之会去生成这张图像的文字描述,或者拿文字描述之后去生成背后的图像,这也是多模态数据转换等尝试,目前主要还是围绕跨模态的相似性计算对齐和跨模态计算度量学习这两个方面展开深入研究。

  • 16:25

    【数据科学与大数据技术教育】CSDN首席架构师郝钰围绕《大数据在CSDN的应用实践》这一主题展进行了演讲。他在分享中表示,数据让我们更了解用户,为用户提供更好的服务。CSDN的数据团队充分理解用户和业务的需求,利用大数据工具,为CSDN网站提供相关推荐和个性化服务,帮助网站访问量和活跃用户数量有了成倍的增长。

  • 16:25

    【精准医疗大数据论坛】志诺维思技术总监郝伶童分享了《人工智能技术在基因组学和病理学两大领域助力肿瘤免疫治疗》的主题演讲。他介绍到,肿瘤是一种由基因突变导致的疾病。肿瘤免疫疗法在国外逐步获批,未来五年以免疫为中心的治疗将快速增长;病例结果是肿瘤诊断的“金标准”。简单来讲,医疗大数据是指“个人从出生到死亡的全生命周期过程中,因免疫、体检、门诊、住院等健康活动所产生的大数据。”病理大数据则指的是“与病理诊断相关的数据,包括样本、病理图像、病理报告、分子病理数据等。”

    提起人工智能,在医学领域发展需要三大条件,分别是医疗大数据、智能算法及算力。目前以TMB(肿瘤基因组去除胚系突变后的体细胞突变数量)作为免疫治疗的生物标记物。

  • 16:10

    【深度学习论坛】西安交通大学教授沈超在演讲“深度学习系统与应用的安全初探”中表明,深度学习和安全怎么结合,可以看到现在有一些比较成功的点。例如深度学习可以帮助完成安全策略等,可以帮助我们告别对专家知识的依赖,可以帮助出门时候高效利用网络空间的海量数据,这里海量数据不只是物联网,一般说在网络空间内只要是网络化系统产生的数据都算是网络空间的数据……这个过程中深度学习能够很快给我们一个迅速的响应,不需要做大量匹配。  

    谈及深度学习在安全应用上的突出表现,例如传统的软件分析方法上,引入深度学习手段,能够减少软件分析占用的人力资源,提高软件自动化分析能力;MIT设计了端到端的攻击检测平台——AI2,通过对大量日志数据的学习,可以做到对潜在攻击的防御。此外通过数据挖掘方法,结合海量的用户数据,可以帮助安全从业人员分析用户的安全行为特征,以此为安全机制的设计和改进提供辅助支持。

     

    由于如今在社交媒体中,充斥着大量由机器人生成的(social bots)广告甚至虚假信息,通过深度学习方法可以对机器人进行检测,还可以过滤垃圾信息。随着深度学习技术的发展,尤其是在GAN(生成对抗网络)的提出,使得音频、视频的伪造效率和质量不断得到提高,这也可能会带来越来越多的欺诈威胁。过程中,对原始数据构造人类难以分辨的扰动,将会引起深度学习算法决策输出的改变,造成人类与深度学习模型认知的差异。

  • 15:45

    【精准医疗大数据论坛】北京化工大学生命科学与技术学院院长、教授、博士生导师童贻刚分享了《高通量测序与生物信息学在传染病疫情中的应用》的主题演讲。他认为,只有精准的诊断才有精准的治疗,对于病原体的分析也是非常重要的。如果没有很好的诊断和分析的结果,在疾病的预防、控制、治疗中都会遇到一些问题。

    目前,童贻刚团队的主要研究方向是传染病,尤其是重大传染病。与通常所讲的精准医疗在日常各类慢性病、日常疾病中的运用不同,他们的工作更多是通过大数据、生物信息学等技术对某些重大疫情进行应用。

    “要知道,这个工作其实也很重要,因为大家想一想当年的SARS这种重大的传染病疫情对于我国造乃至全世界都带来了非常大的影响。包括前两年西非的埃博拉病毒也同样产生了巨大影响。中国有很多的企业都在那里,而且现在的传染病是没有国界的。那么传染病一旦发生的话,它的影响很严重,我们很有必要把传染病防控尽可能提前减少它造成的损失。”

  • 15:45

    【数据科学与大数据技术教育】东软集团数据科学家、大数据平台产品总监邹存璐带来《数据科学与大数据人才培养建设实践》主题演讲,从数据科学人才培养需求问题分析、数据科学人才培养方案规划思考、数据科学人才培养实践三方面切入,站在企业方面人才需求的角度剖析数据科学人才的需求问题,以及其相应的解决方式。

    首先,邹存璐指出企业大数据研发部门面临的人才需求问题包括,人才短缺、招聘困难;理论基础技能强,缺乏应用实践技术结合能力;人才技能培养周期长;市场人才竞争激烈,内部人才流失风险高。如今,大数据专业建设趋势势头正劲,增长速度之快可谓有目共睹。在新工科的建设背景下,整体内容正在从知识传授转向能力培养,从学科导向专享产业需求导向,通过反馈实现不断改进。当然,我们在专业建设方面也面临着一些问题与挑战,其中包括教学缺乏优质权威的教材;师资力量无法满足教学要求;实训课程缺少工业级真实行业案例;产学研成果转化途径少、过程难;实验环境、实验教具缺乏针对性。

    针对这些问题,邹存璐强调了科学人才培养的方案,企业在这一方面和学校处于互补状态,因此多和学校老师进行合作,由学校的老师编写基础理论,企业方则侧重工程应用能力的培养。科学的人才培养方案要求我们清楚企业大数据岗位差异化的能力要求,注重实训实练等。

    最后,邹存璐结合企业内部人才培养提升经验,提出数据科学与大数据人才建设的整体方案,基于东软自身业务数据案例优势,提供一系列工具支撑高校的专业建设,如数据科学实训教学平台环境、真实企业项目案例、师资培训服务等,同时针对目前已有的校企合作案例,分享数据科学实训实践经验。

  • 15:30

    【深度学习论坛】天津大学智能与计算学部副教授郝建业在“多智能体深度强化学习”的分享中说:“目前比较火的深度学习和强化深度学习之间的区别在于深度学习是在做一次性的决策问题,例如经典的图片分类。如果从数据体量来讲,深度学习需要标注好的样本,强化学习是不需要的,只需要从环境中获得奖项就可以了,这个与pong没有辩证联系,而且这个Breakout,需要经历很多事情之后才会有,所以会面临一些挑战问题。”

    通常来讲强化学习算法分为三大类,第一类算法是Value  Wbased,第二类是Policy Based,第三类是Actor-Critic。 在场景的实践中,郝建业列举了一个广告优化的案例。具体是,很多人都用淘宝,淘宝会展示很多商品,这个商品其实有一部分是真实商品、推荐的商品,还有一部分是广告商品,但通常会进行混排,混排之后再呈现给用户,通常看到的是推荐和广告两方混排之后的结果。

    从广告的角度怎么去调整这个不同广告商品的权重,从而影响它们的排序,进而最终影响哪些广告会出现在哪些用户显示的界面上,最优化广告的成绩收益,这是要解决的一个问题。

    “这个问题也同样建构成了一个强化学习的问题,这里提出了两层的强化学习的架构,在优化的同时也要满足一定条件。对每一个用户展示的广告比例不能超过40%,对一天之内整个阿里平台展示的广告数也不能超过一定比例。满足系统本身的一个业务上的约束之后,要如何完成一个持续优化的问题呢?第一层我们目标是最优化的长期累计收益,同时学习的目标子任务就是学习每一个子轨迹的约束,动作出来之后再传给下层;下层是在原始的空间上学习,也就是学习每个广告的约束以及同时要满足前面提到的对每个用户所展示的广告比例不能超过一个阈值的数。”他补充道

  • 15:05

    【数据科学与大数据技术教育】中国科学院大学教授刘莹围绕主题《面向研究生的数据挖掘教学实践》开启报告,重点分享了其在数据挖掘领域的教学经验。作为近10年最重要、最热门、最流行的技术之一,数据挖掘亦是人工智能的核心技术之一,以及大数据分析的核心技术之一。因此,从2006年起,中国科学院大学(原中国科学院研究所研究生院)开始面向计算机专业的研究生开设数据挖掘相关课程。课程多次获得校级“优秀课程”、获中国科学院“电子精品课程”,是北京市重点学科建设课程。

    刘莹教授在分享中谈到了其在教学准备过程中遇到的困难和挑战,其中就包括课程内容设计。首先,考虑到大家背景、心中期望的差异,再加之数据挖掘学科的快速发展,课程内容的设计就成了一大问题。对此,中国科学院大学采用了全英文教学的模式;在选择一本教科书以外,还要加上若干相关的科研文献;书面作业与工程性大作业相结合,要求学生在习题和上机实验之外,利用所学知识动手实践,解决实际问题;课堂汇报成果。在课程内容设计当中,如何设计课程的大作业,以及如何激发学生自我钻研的积极性等也很关键,面对诸多挑战,刘莹教授特别介绍了其在教学实践中总结的经验,其中包括:理论知识讲授与工程实践相结合;以竞赛激发学生的自我学习的积极性;以面向全体计算机专业研究生的《数据挖掘》课程为基础与核心,根据学生不同层次、不同方向的学习需求,建立相关系列课程体系,全方位地为学生提供立足于大数据时代所需要的理论知识、技术、应用与实践。

  • 15:05

    【精准医疗大数据论坛】北京锐软科技股份有限公司咨询总监李红中分享了《健康医疗大数据赋能互联网精准诊疗体系建设》的主题演讲。他从互联网医疗行业现状、基于大数据的互联网医疗体系设计、解决方案和典型案例四方面进行了介绍。李红中表示,在基于大数据的互联网医疗体系建设过程有几点需要注意:首先是健康医疗大数据标准化的建设;二是共享文档的标准化;三是数据标准化及互联互通;四是居民主索引建设;五是数据的应用如用药提醒、临床辅助决策支持;此外还有互联网诊疗医生端及患者端的建设、互联网诊疗监管建设等。

    “面向政府监管部门构建互联网诊疗综合监管平台,我们需要面向四类对象,分别是医院、医生、患者、政府监管部门。就医疗行业本身来讲,在中国是监管性非常强的行业,因此在诊疗规定中十分强调对在线诊疗行为的规定。此前就有很多医院有意向开展在线诊疗,自2018年(国家)开放之后,要求全程留痕、在线留痕,包括对医师资质的统一管理、对在线处方的管理、对事中、事后的监管等等。所以我们也要在互联网诊疗体系里面向政府部门提供综合的监管功能。”

  • 14:50

    【深度学习论坛】在“深度强化学习与视觉内容理解”的主题分享中清华大学自动化系副教授鲁继文形象生动地提出,目前视觉内容理解已经有了很成熟的代表性的应用,例如物体检测。过去几年来尤其是随着深度学习的快速发展,计算机视觉中以物体检测为代表的任务有了突破性进展。  

    第二就是物体跟踪,这个在很多场景下有很多应用,例如交通视频中怎么对车、人、物实现实时跟踪;第三个就是视频分析,目前的视频分析很多还在专注于视频监控,怎么样从监控视频中得到异常行为找到逃犯;怎么在视频里面找到嫌疑人的身份、性别、年龄、身高,有没有戴帽子。如果一个视频没有标注,将来能不能快速从中凝练出感兴趣的东西呢?

    提及挑战,类内、光照、尺度都是需要被讨论的问题;此外就是小样本学习,现在的深度学习做计算机视觉叫视觉大数据+深度模型+强大的计算资源,基本上应该把问题解决了;实际上很多任务不能得到大量数据,有时候少量数据都有些困难。

    第三,当前看的东西或者历史上的东西怎么预测未来的东西、行为的预测,例如某些层面正在做的是行驶轨迹的预测。第四个挑战就是视觉交互,服务机器人的导航;第五个挑战是多模态分析,不同的传感器采集,采集出来的数据差距非常之大,怎么对不同的数据进行分析和理解是比较难的事情。

    未来,鲁教授希望通过深度强化学习的表示能力、强化学习的决策能力对不同的计算机视觉任务建模,建模之后才能更好对模型进行求解,更精细,更有效。目前来讲做了一些探索,希望可以将这种强化深度学习的方法与认知计算结合,这个比较难,可以涉及一些非神经网络的东西。

  • 14:25

    【数据科学与大数据技术教育】复旦大学、上海市数据科学重点实验室教授熊贇带来主题为《数据科学:探索数据界》的分享,从数据界、数据科学、数据科学家三方面着手,深入探讨数据科学的若干前沿科学问题,介绍数据科学的研究内容、学科体系,以及数据科学家培养的基础条件。

    现在我们谈到数据,指的往往是计算机后产生的数据,事实上,从最早的大脑记忆,到后来的石刻图记,再到近现代的计算机发展,随着新型存储设备的诞生,我们的数据也在不断增长。如今的我们正处在充满设备的空间当中,这个空间即被称作“数据界”,这个概念是2009年提出的,起初叫数据自然界。而我们在生产生活中的大多信息也都被记录在了数据空间中,所以每一个真实世界的人,每一个已经在数据界里形成了数据的人,我们称之为数据身。

    我们开始通过信息化技术把现实数据存储到计算机中,随着越来越多数据自然界东西的引入,数据界又开始产生一些新的东西,例如计算机病毒,同时我们发现创造性精神上的内容无法映射到数据界。此外,数据的真实性及正确性越来越难于判别和保证,数据一致性和数据共享也越来越困难。在这样的背景下,我们可以看到,很多新问题在数据界中产生,其中包括:1) 数据界有多大、有多少数据?数据以什么方式增长?数据增长对人类影响?2) 数据界的真实性;3) 数据对象测度与数据代数。

    新的科学问题、新的研究对象需要新的科学——数据科学应运而生。数据科学在科学数据处理领域、计算机科学领域、统计学领域等都已经提出了相应的概念和观点。数据科学研究内容包括数据科学基础理论、科学研究数据方法、数据界探索、数据技术及其应用。了解了数据科学,就应该更清楚数据科学家应该做的事情。熊贇表示,“数据科学家是当前最性感的职业,而不是数据工程师也不是数据分析师”。

    随后,熊贇剖析了当前数据科学家的培养现状——学科体系还没建立;知识结构还没有形成统一框架。同时她还指出,数据人才短缺是全球性的,越来越多的大学启动了数据人才培养计划。最后,她列出了数据科学家培养的三大条件,分别是师资条件、数据条件,以及计算条件。

  • 14:25

    【智慧医疗论坛】清华大学信息技术研究院和互联网产业研究副院长邢春晓发表了《大数据智能时代的智能医疗健康研发》 的主题演讲,从人工智能的角度对医疗健康大数据的发展趋势、最新进展、关键技术、主要工作等四个方面进行了分享。

    邢晓春表示,我国去年公布的新一代人工智能的发展规划中,可以看到智能医疗是其中非常重要的一部分。关于人工智能的首要一点就是大数据智能,回到智慧医疗领域,其主要目标是围绕健康中国进行建设,利用当前的人工智能技术,将相关成果应用于医疗健康领域。目前大数据进入了医疗信息化的新阶段,并走到前台为各种医疗健康提供服务。在我国为大数据智能已经制定了在2020年、2025年、2030年相关的不同目标。

  • 14:25

    【大数据分析与生态系统论坛】英国埃克塞特大学计算机学科首席教授闵革勇分享了网络大数据方面的工作,核心思想是希望能够提升未来网络的智能。他们想通过分析从网络不同领域当中收集起来的数据。包括网源数据,因为它能够反应网络当前的工作状况;包括用户的行为和特征数据,它能很好的去反应用户的需求;还有网络的传感器当中收集起来的数据,它可以反应当前网络工作的环境状况。

    如果是能够将这些数据融合在一起进行有效分析,那就能找到用户的需求、网络的工作状况,这样做好实时的网络资源管理和调度来提升网络的性能、提升用户的体验。可是要做到这件事情是非常困难的,这些数据是从网络不同的领域当中收集起来,就会有着不同的特征描述,怎么样将这些数据能够融合起来分析?挖掘出蕴含在数据当中的智能和关键信息。他则三方面进行了阐述:网络构架为什么能提升未来网络的智能,为什么5G网络非常重要?其次,他提出综合的框架来有效的表示处理和分析网络大数据;最后,他展示开发的分布式、开放的大数据处理平台,一加展现系统在实际网络运维管理、网络的故障定位和检测方面起到的作用。

  • 14:00

    【深度学习论坛】电子科技大学教授郑凯在主题为“深度学习在时空数据管理中的应用”中提到,时空数据的来源一般来说分为三大类,第一大类是移动的主体本身携带有位置的跟踪设备,例如人、手机有GPS,开车导航的GPS以及动物学家会在动物身上打低功耗的GPS来研究迁徙规律,这种就是本来携带的位置,主动记录的位置。第二个来源就是它本身没有携带位置的跟踪设备,但是通过第三方的传感器可以记录到它的位置的变化。最典型的就是气象卫星拍到的云图,可以预测台风,超强台风在几个小时之后要登陆哪个地方,台风本身没有携带位置设备,我们通过气象卫星拍它的位置,这是第三方传感器记录到的移动物体的变化。第三个就是在网络空间当中留下的记录,前面两个是物体空间,第三类是网络空间。例如说在社交网络中签到的数据,微信的朋友圈,甚至信用卡的刷卡记录也是一种时空数据等。  

    谈及挑战,郑凯表示,由于时空数据种类繁多、结构各异,而且每一种设备采集的时空数据,不论在格式、质量、精度等均不同,如果做到一个结构索引结构下面同时索引几种不同的类型,即把时空数据和文本数据一起索引进去,同时可以在时间和文字上同时做索引,这样得到的结果就是最终结果,而不需要在临时结果级上再做连接的操作,这就是多模态索引和搜索的优势。第二个挑战就是这种数据冗余高,时空数据的冗余非常高,也就表示它的价值密度很低。针对这样一个特点,数据压缩就非常必要,也就是希望把这种高冗余的数据压缩。例如只利用其中压缩后的,压缩后是占原来的10%、1%……但是仍然能够保留原来数据的一些特性,这个就是压缩的关键。第三个挑战,时空数据往往不会单独存在,一般来说不会只涉及数据中仅仅存在的时间和空间维度,往往它们和其他的属性是共生的,最典型的和文本数据的结合,需要用这种深度神经网络的方法去做融合,例如深度神经网络对时空数据的融合有很好的效果,可以同时捕获时间和空间上的数据,还可以做到捕捉多种时空数据和上下文之间的关联性,都可以通过深度神经网络隐层捕获。

    总结来看,时空数据量大、来源广、应用多,非常容易与其他的数据结合,但它在时间和空间上面具有动态性、关联性还有不确定性的特点,所以它对于传统的数据管理会带来一些挑战;另一方面深度学习本身的一些特点,强大的隐特征的提取和表达能力,网络模型丰富而且非常容易扩展等,但也有一个最大的问题,需要大量的训练数据才能得到比较好的效果,这也正是时空数据可以提供的解决方案。

  • 13:45

    【数据科学与大数据技术教育】午后精彩继续,参会者热情未有稍减。BDTC 2018数据科学与大数据技术教育论坛在中国科学院计算机网络信息中心主任助理、大数据部主任周园春的主持下正式开始。作为论坛主席,他首先向与会各方表达了诚挚的感谢。在论坛介绍的过程中,周园春指出,如今,大数据在社会经济、政治治理等方方面面都发挥着极为重要的作用。而人才培养则是大数据教育的关键,很多基础理论问题有待探索,本论坛邀请到学界和产业界的大数据专家共同分享交流,深入探讨数据科学与大数据技术教育的相关问题。

  • 13:45

    【精准医疗大数据论坛】BDTC 2018精准医疗大数据论坛在澳大利亚维多利亚教授级应用信息科学研究中心主任张彦春的主持下正式开始。参与本次论坛分享的嘉宾有澳大利亚维多利亚教授级应用信息科学研究中心主任张彦春,清华大学信息技术研究院和互联网产业研究院副院长邢春晓,北京锐软科技股份有限公司咨询总监李红中,北京化工大学生命科学与技术学院院长、教授、博士生导师童贻刚,志诺维思技术总监郝伶童。

    作为此次论坛的主席,澳大利亚维多利亚教授级应用信息科学研究中心主任张彦春为带来了主题为《医学大数据挖掘及AI在病人监测预警及健康管理的创新应用》的分享。

    他首先回顾了大数据、医疗大数据、医疗健康大数据的价值,并对医疗领域的典型应用案例:心电监测预警与脑电分析、监测、预警,医学图像/癌症监测进行了详细讲述。他最后总结了五点要素:一是医疗健康大数据包括临床数据和健康数据,例如老年健康的管理、个人行为数据;二是基于数据驱动的深度挖掘、预测预警、决策支持;三是和医学健康领域的学者紧密合作,这是非常重要的;四是全方位的健康医疗管理系统;五是个性化的健康管理。

  • 13:45

    【数据科学与大数据技术教育】中国科学院计算技术研究所研究员王元卓首先带来《大数据专业建设与人才培养》主题演讲。谈及大数据人才需求现状,王元卓指出当前大数据人才的需求特点在于“需求量大、薪资水平高、呈上升趋势”。同时,大数据人才培养面临着三方面问题:第一,目前教育教学体系和内容还不是特别完善;第二,师资力量和教学实验资源相对匮乏;第三,全社会在大数据教育教学方面生态还不完善。因此我们提出了一系列相对应的工作目标:建立系统性、规范性的大数据教学体系和标准化教材;建设教学、真实数据和应用场景相统一的大数据教育教学一体化平台;完善大数据教育教学生态系统。

    在这样的时代背景下,为积极响应教育部和工信部的号召,2017年11月,中国软件行业协会联合国内部分高校、科研院所、行业企业联合组建了信息技术新工科产学研联盟。2018年1月14日,大数据与智能计算工作委员会正式成立,是新工科联盟成立的首批工作委员会,其主要职责在于推动数据技术与产业应用结合的多学科、多行业交叉融合的新工科发展,培养兼具数据知识和应用视野的大数据工程人才,建设新兴交叉学科的“大数据专业”。王元卓在报告中着重介绍了大数据与智能计算工作委员会在大数据教材体系建设、专业体系建设、创新型学院建设、创新型基地建设和评价与竞赛等方面开展的一系列工作。

    报告最后,王元卓介绍了推动大数据专业建设与人才培养的9个方面的系统化方案,分别是课程建设、师资培养、教学环境建设、企业实训实习、实验室建设、科研项目、人才评估中心、人才输出,以及专家团队。

  • 13:45

    【大数据可视化论坛】(360企业安全集团 天眼事业部总经理)张卓以《安全与可视化结合创造新的活力》为题进行了分享,介绍了 360 企业安全如何将信息可视化。首先,安全领域上经常会遇到很多数据,不同的场景中数据分析的方法不同,对实体分析的技术和应用场景等做了详细的分享。接下来以GIS、VR、AR等体系为例,针对与可视化技术结合的安全领域问题中核心与关键技术问题进行深入的探讨。

  • 13:45

    【深度学习论坛】BDTC 2018中国大数据技术大会深度学习分论坛精彩下午场开始。会上,来自北京邮电大学计算机学院教授、计算机学院院学术委员会主席杜军平作为接棒主持人,详尽介绍了下午与会分享嘉宾的基本情况,其中包括电子科技大学、清华大学、西安交通大学、南京大学内的一系列活跃在一线的年轻学者,同时肯定了青年学者针对深度学习研究做出的重要贡献,并详细介绍了第一位分享嘉宾电子科技大学教授郑凯的基本情况,诚挚邀请其进行主题为“深度学习在时空数据管理中的应用”的演讲。

  • 12:30

    【深度学习论坛】截止目前,深度学习论坛上午的主题分享环节就暂时告一段落了,请继续关注下午的精彩分享,涉及主题会更加多样化,包括深度强化学习、深度学习的可解释性等领域,同时还会在应用以及网络安全数据方面做进一步探讨,期待中~

  • 12:10

    【深度学习论坛】作为上午最后一位分享的嘉宾,星环信息科技AI产品部 Chief Product Officer杨一帆为与会开发者们带来了主题为“大数据时代的反欺诈曲率引擎”的分享。他总结道,现在反欺诈的趋势其实可以概括为四点,第一点场景非常复杂,而且彼此相关;第二点手法非常多样,隐蔽性非常强;还有一点就是现在的黑规产规模非常大,深入到各个不同的环节,这个时候就需要系统性的方案;最后一点就是数据量,不仅数据量大而且识别维度非常复杂。所面临的反欺诈的一些主要问题,例如人工的打标不足,机器缺失,或者传统检测失效,另外维度灾难以及业务价格的问题也造成了长期困扰。整个流程对反欺诈的识别是个非常巨大的挑战,不可能说每个问题都去解决,解决核心问题,核心问题要用核心方法,那就是用图计算。     

    图计算是什么呢?简要说明有三种方式,第一种方式是同构网络,人和人的交易,形成了同步的关系;当然也可能是人和物的关系那就是异构网络,它是不同类型的,还有更复杂的实体网络抽取。总体对交易和反欺诈而言,本身就是复杂的信息网络,这个时候利用这些信息,同构、异构、实体关系抽取形成的关系,来做风险预测和风险推断,才是完整的体系,对图计算而言,第一个方向是对图进行一个Query,当然还有指标计算。

     

    星环要做的图计算,大致上可以分为三个方向。第一个就是图的Query查询,这时候会出现复杂的查询,对于反欺诈而言,现在的数据量千万级仅仅是刚刚开始,复杂查询和大规模查询是非常困难的,与此同时还有指标计算,忠信笃等以及PageRank也是一种,Bias-PageRank,如果说要发现两个节点之间的查询,说的是数据库的方向。

  • 11:50

    【大数据安全与政策论坛 】 精硕科技集团高级技术副总裁兼CTO卢亿雷最后一个压轴登场,他讲解了《企业大数据安全体系架构实践》。卢亿雷表示,数据安全包括数据本身的安全和数据保护的安全,数据安全的发展正在借助人工智能、增强学习、区块链技术等向前发展。卢亿雷还介绍了数据安全相关的法规、并表示,用户和商业数据是数据保护的两大重点,并简单的介绍了数据安全的措施以及数据安全的技术架构。最后,卢亿雷介绍了数据加密的几种技术以及数据脱敏的方法,并以几个企业大数据安全的案例和行业动态结束了此次演讲。

  • 11:40

    【大数据分析与生态系统论坛】中国科学院计算技术研究所高级工程师王磊以《BigDataBench: 大数据和AI基准测试程序集》做了演讲。系统合体结构正在迎来黄金的时代,为什么是这样?晶体管的设计工艺可以不断的提升系统的性能,但是由于晶体管的尺寸最终会有极限。同时,在体系结构方面,早期的体系结构完全是通过提供指令级并行性能的提升来提高性能。但2004年这种方式基本走到了顶峰,计算机的主频不可能再更快,同时会产生很多的多核系统。多核系统遵循的是阿米达定律,可以通过并行加速使程序运行的更快,很多核之间如何协同工作也是很大的因素。同时系统也从传统的服务器PC转向了做IOT或者云这些设备,现在处在技术变革的时期。

    如何应对技术变革?首先可以以软件为中心来进行系统的开发。它最大的好处是方便编程,对于编程人员学习代价很小。另一种方式是以硬件为中心,硬件定制的体系结构还有融合的方式是大家都在提的领域定制语言和体系结构融合,其实就是软硬件的协同设置。做软硬件协同设置需要先理解负载,到底为谁做软硬件协同设置?通俗点就是为哪些应用做协同设置,随后才能做软硬件协同设置。最后是开源的系统,不论是软硬件都是开源的。

  • 11:40

    【数据可视化论坛】(ECharts Apache 孵化项目管理委员会成员)羡辙带来了《ECharts 的大数据可视化实践》的演讲。大数据时代,为了便于普通人更快速掌握信息内涵,可视化成为必不可少的手段。大量数据的渲染对计算机性能和算法都提出了很高的要求,在这次分享中,着重介绍 ECharts 作为强大的大数据可视化工具在大数据可视化方面的一些经验。还将从多个角度介绍具体的优化方案。羡辙也是一个非常活跃的开源社区贡献者,大家可以在她的平台中看到一些很有趣的可视化作品。

  • 11:30

    【深度学习论坛】厦门大学信息科学与技术学院教授纪荣嵘的学生刘弘在“紧致化计算机视觉分析系统”主题分享中总结道,在视觉紧凑性方面视觉大数据是主体,主题还是图像和视频。如果不把图像和视频的数据找到,它的价值也很难发现,所以其中面临的问题就是如何在成百上千的数据中找到想要的,方法是近似近邻搜索方案,在其中找到的数据并不是精确数据。在以往的方案中有过类似的做法,早期做特征就包括CNN特征、VLAD特征,这些特征有一个问题就是维度过高,并不利于大数据视觉搜索的问题。此外可以在基础上对这些特征做一些倒排索引,但还有很多传统特征并不适用于实验室的场景。  

    据于此,实践中更多关注特征二值化,思路很简单,希望在汉明距离保持距离的相似性,相似的图片的Binary coding会比较接近;二值化学习过程有两步策略,一个是维度约减,一个是二值量化。具体来说,构建好了一个哈希编码机制后,可以直接构建一个哈希索引,它的优势非常明显。一般编码速度比较快且检索时间复杂度比较小,在内存中占比比较小,其中数据独立哈希和无监督哈希,包括现在深度学习的哈希,前期的工作更多关注在无监督哈希方面。

     

    但是存在比较大的问题,它的grapg构建比较难,2011年通过构建毛图的方式推进大的graph以达到更好的学习,这其实是经典的工作之一被称为迭代量化,在低维的二值空间上进行旋转。需要首先要求解一个旋转矩阵A和B,这个方法在无监督哈希中仍然是比较强的解决方案,也很容易的扩展到有监督的形式,直接把前面的PCA变成CCA的过程。

     

    关于深度网络紧凑性的工作,主要涉及到深度网络的压缩以及加速,更多推动的是大数据的出现,再就是EPU出现。

        

    其实神经网络在各种领域,包括ELP都有很多应用。总结来说,例如小样本学习的问题、数据是否有偏差的样本分、包括网络如何在线学习以及神经网络的无监督学习等,因为本身CNN又是黑盒子问题,如何去做CNN香豌解释性的问题以及网络中的复杂度等都值得探究。

     

    刘弘提出,现在做的事情更多考虑CNN复杂度的问题,就是把模型里面参数减少以及如何把模型压小。

     

    关于模型压缩的方法,总结说,现在的神经网络压缩方法中可以分为四类:第一类是用哈希的方法;第二个是用剪枝策略;第三个是矩阵分解的方式;第四个是最近已经开始采用网络结构方式进行搜索,让机器自动学到一些比较紧凑的网络模型,是最早发的用哈希来做网络的压缩,它其实相当于构建了一个哈希,用索引的形式减少参数量。因为哈希本身也是量化误差比较大,所以用一个参数共享的机制减少内部参数的容易性。

     

    此外,刘弘还分享了三类神经网络加速方法,分别是二值化网络、结构化的剪枝以及把参数当做矩阵的形式做一个张量的分解。他强调,关于神经网络加速方面的工作主要开展的动机在于,神经网络的开销仍然是无法在嵌入端里实现,因为在加速过程中,网络的计算更多的是在卷积层,而不是后续的,这样做可以充分考虑到视觉输入的冗余性,无缝组合通道冗余和空间冗余以及引入方法的简单性等。

  • 11:20

    【大数据分析与生态系统论坛】联想研究院高级研究员谭崇康介绍了联想在企业级Kubernetes智能计算平台方面的内容。包括HCP计算方案,整体架构,Kubernetes增量功能实现,以及未来关注四大部分。HCP是基于Kubernetes智能容器的计算平台,下一代的计算平台将是基于容器来管理应用。它是提供应用全生命周期管理功能的计算平台,主要是方便应用开发者能够快速的将自己的注意力集中到应用上,而不是负责应用底层部署、调度、扩展、监控、升级、销毁。遵循的原则是一个具有高度的可扩展性,可以快速的跟行业应用相结合,打造面向行业的垂直化解决方案。

    随后,他讲述了容器平台计算方案,它的设计架构分为:数据中心、服务器、边缘计算。而增强功能方面的实践包括应用商店、乐券部署、超融合架构等方面。关于未来的工作,谭崇康表示会做多AZ的支持,然后AWS。一个AZ里面有多个数据中心,每个数据中心间隔30公里以上。在数据中心里K8S架构如何对Pod做多AZ的支持?现有的方案是加一个Jon label,label告诉调动系统到AZ。这里面会出现的问题是Pod怎么解决?更复杂的pv是StorageClass,它很有可能是外部存储性的供应,这种时候做AZ怎么样让数据进行同步。

  • 11:10

    【大数据安全与政策论坛 】UCloud副总裁陈晓建第四个登场,他为到场的观众讲解了《大数据安全流通机制的研究和应用》。陈晓建首先介绍了数据流通的困境,接着介绍了单数据源对外开放模式、组织内的多部门间数据共享模式、不同组织间共享数据的模式三种数据流通的常见场景。陈晓建还介绍了UCloud数据安全平台——安全屋是如何对数据流通进行安全保护的,并介绍了其五大核心技术数据安全融合、加密机机制、数据沙箱 、区块链审计、多租户隔离。

  • 11:00

    【大数据可视化论坛】(北京工商大学教授,食品安全大数据技术北京市重点实验室主任)陈谊分享了关于食品安全大数据方面的工作,报告题目为《食品安全大数据可视分析方法研究》。陈谊老师首先和大家探讨了食品安全的问题,接着为大家介绍了食品安全国家农药残留数据智能分析平台相关的工作,整个平台首先在前端主要实现了对农药残留的检测以及使用高分辨率质谱检测水果蔬菜残留的农药含量。接下来对食品安全数据来源和特征进行了总结,并对食品安全数据的可视化分析方法进行了详细的报告。

  • 10:50

    【深度学习论坛】深度学习的精彩技术探讨仍在继续,随后浙江大学计算机学院教授潘纲进行了有关“脉冲神经网络:模型与应用”的主题分享。他表示,做脉冲计算,其神经系统与外部的系统如何能够比较通畅联系在一起?  

    关于这个问题,如果从融合角度来看,最好其中具备一个神经系统,外部最好也是一个神经系统,这两者之间比较接近,能够方便融合在一起,所以这里就会提出一个需求。我们有没有可能在外部找到这种性能比较好,能够实现人工智能的一些能力的神经网络系统来融合,这是一个初衷,这个方面的计算被称为脉冲的计算,它的计算方式就是与我们生命体更加接近的形式。

     

    进一步来说人工神经网络与我们通常的生物神经网络,其中的最大差别在于哪些方面?如今生物神经网络的传递,包括信息学习在内,更多的是通过脉冲,这个会带来什么好处业界都还在探索。最大的差别就是现在神经原节点包括其中的计算,本质上是数字计算,也还在结构中,计算机进行加加减减乘乘除除,做出来的都是数字计算;现在的神经网络至少目前更多程度上是通过脉冲去指导,而不是通过纯数字的集成,这也是目前认为生物的系统跟我们的神经网络最大的不同点。

     

    谈及单个神经原模型,通过非常精细的微方程去操作,计算量特别大,求解的复杂度特别高,同时也做了很多简化的模型,例如LIF模型,会更加高效,但是它的神经反应曲线与之前的模型基本上很接近。潘纲强调,这个简化的过程也有很多不同的方法,但通常来说如果计算特别复杂的话,它的生物程度就特别好。

     

    归纳起来就是说,如果从脉冲出发的话,至少存在两个或者三个方面,潜在可以突破局限或者问题。第一个就是低功耗,通过脉冲的方式取得计算,最主要的可以通过异步的方式,不像现在大部分的深度学习芯片,都是同步的,通过同一个时钟同步所有操作的,在低功耗方面会有一些优势。另外,生物的逼真性会带来两个方面有可能潜在的优势,至少在生物上更加接近人的大脑,特别是学习能力,从更加逼真的角度出发,在学习能力上有可能会有更的突破;还有就是讲到的融合问题。未来还会针对监督性学习与非监督化怎么融在一起,去解决脉冲神经网络中的问题进行探究。

  • 10:30

    【大数据安全与政策论坛】腾讯法务数据及隐私中心负责人黄晓林第三个登场,他的演讲题目是《大数据企业的数据安全合规问题 》。黄晓林表示,数据风险和隐私保护是产品上线需要重点关注的方面,并介绍了几种常见的风险点。

    对于如何防范这些安全风险,黄晓林首先建议应从数据收集的合规入手,其次,要合规放置隐私政策,另外,还要采用最小化收集信息的原则合规收集信息,存储和传输信息。而要规避这些风险,黄晓林建议采用PBD、全生命周期以及类似腾讯建立的三沟通三反馈机制的方法。

  • 10:20

    【大数据可视化论坛】(中国科学院计算机网络信息中心先进交互式技术与应用实验室主任)单桂华带来了主题为《科学可视化加速科学探索与发现》的演讲。海量的科学数据从超级计算机、科学装置和卫星等设备源源不断产生,科学可视化以其直观交互的特点,为科学家看数据提供了高效的辅助工具。

    今天的演讲主要介绍了大数据在科学大数据中有的应用。从微观世界的病毒数据可视化,大气海洋模拟数据、卫星探测数据可视化,再到浩瀚的宇宙模拟数据可视化,探讨可视化如何促进科学家的科学探索与发现。接下来通过几个案例与跟大家共同探讨,在科学大数据的道路上,可视化如何构建的最后一公里,怎样帮助用户对数据进行互动对话,从而帮助科学家进行科学的探索。

  • 10:10

    【深度学习论坛】在“深度学习的高效计算”的分享中,中国科学院自动化研究所研究员程健提出,如今的计算越来越复杂,庞大的数据、复杂的深度学习模型这样的条件下,如何才能用现有很多场景实现一个高效的预算。当然最直接的一个办法就是,处理器性能越来越高,服务器CPU越来越多等,但从另外的角度来看,模型是不是也有必要被反思:是不是需要这么复杂呢?总结来说就是如何在这样一些受限的场景下,还要保证提供更好的人工智能计算以及深度学习计算,对神经网络提出了严峻挑战。   通常在不同的场景里,例如移动设备的场景里,基本可以做到深度学习,但效果不是很好、有点卡顿,反观一些穿戴设备中却基本不能完成;在一些高性能的数据中心、云端是虽然可以实现,但计算功耗非常大,因此这样的领域也会对深度学习的计算提出了更高要求,所以场景的拓展性是深度学习的挑战之一。   此外,关于来自摩尔定律的挑战也很明显。过去几十年计算机处理器的发展其实就是遵循一个摩尔定理的预言发展,每十八个月我们的处理性能会提高一倍,实际上摩尔定理发展背后一个很重要的支撑,就是它的工艺是在不停发展,但我们在享受这样的计算处理器给我们带来红利同时,往往只关心算法的性能,而比较少的关注它的复杂度,在后摩尔定理时代,最重要的一点还是要烦反思看看算法本身有什么问题,也就是如何对深度神经网络进行优化,要让它更简单,当然简单的前提是性能不能有太大损失,甚至说没有损失,目前来看,主要通过低秩分解、剪枝、基于量化等手段。

  • 9:50

    【大数据安全与政策论坛】公安部信息安全等级保护评估中心技术部主任任卫红第二个登场,带来了题为《大数据安全等级保护的挑战与应对》的主题演讲。任卫红首先介绍了大数据相关的等级保护对象和定级,然后介绍了大数据安全面临的问题和挑战,即数据处理的时效性要求高、隐私泄露防范难度高、传统威胁依旧,新技术带来新威胁。最后,任卫红介绍了等级保护对此的应对,她建议,数据最高级的保护强度应与系统等级一致。

  • 9:45

    【大数据可视化论坛】刘梦尘(SENIOR RESEARCH SDE, Microsoft)带来了主题为《深度学习的可视分析》的演讲。深度学习取得的显著成功催生了众多人工智能应用。在这些应用中,深度学习模型常常被当作一个黑盒子。由于不能理解这些模型的工作机理,高效模型的开发常常依赖一个冗长又昂贵的反复实验过程。

    为了解决这个问题,我们需要一个可解释的机制帮助专家更好的去理解和分析深度学习模型现有的机制。可解释深度学习模型有两个主要方向,一个是可解释模型,第二个是深度学习模型,在机器学习领域主要关注的是可解释模型,解释模型输出的结果。第二个深度学习模型,利用可视分析方法将模型机理有效展现给用户,今天主要介绍是深度学习模型可视分析。而深度学习可视化分析也带来了一些挑战,首先需要更高效数据挖掘方法,从越来越复杂的模型中挖掘有效信息;另外需要解决在展示复杂网络时产生的视觉混淆现象。最后,刘梦尘还谈到了未来的研究方向。

  • 9:40

    【推荐系统论坛】汇量科技副总裁朱亚东的分享主题是《数字营销领域的千人千面智能投放研究及应用》。朱亚东表示,人工智能不仅仅是单纯的算法,而是包含三个因素,数据、平台和算法。此外,朱亚东介绍了汇量科技一站式全链路机器学习平台MindAlpha。汇量科技每天有9亿的DAU,而MindAlpha是一个可以支持大规模的平台体系,同时具备完备的流程一体化,包括数据接入、预处理、特征处理、模型训练以及线上服务。MindAlpha首先是一个高效的数据流平台,然后是机器学习平台,其实就是大规模的分布式训练平台,最后是高效的在线预估平台。

  • 9:40

    【大数据分析与生态系统论坛】中科院信工所研究员虎嵩林发表了以《企业大数据:工业互联网时代的转型利器》为题的演讲。他主要讲述了大规模数据时代,企业大数据处理面临的两难困境,第一个问题如果沿着原来的大规模工业数据库往下走,复杂业务逻辑的支持能力是非常好的,而且原来的预测更好,唯一的问题是数据跟不上。第二个问题是如果现在直接去采用hadoop,采用大数据的系统,会发现支撑不了原来的业务逻辑。一个传统企业的业务是非常复杂的,如果不自主研发就会面临很多的问题。

    虎嵩林表示,互联网的计算主要解决人类新生活的问题,比如现在的抖音、快手、新零售、无人驾驶、家庭机器人主要是改善生活质量。另一方面全社会的生产效率也需要提高,如果要提升全社会生产效率,必须要工业互联网企业的发展。工业不能实现,接下来的路就很难走。在他看来,农业互联网、智能制造或者智能化工程也会成为下一波“互联网+”或者“+互联网”发展的方向。不过前景很美好,道路很艰难。

  • 9:30

    【深度学习论坛】复旦大学教授黄萱菁在主题为《基于深度学习的自然语言处理》的分享中表示,自然语言处理中的深度学习,如果不考虑具体的任务来说可以分成两大类:第一类就是产生句词的篇章,立体的分布式的语言表示,这一点可以分为两个层面,第一层面就是我们希望能够得到更好的语言学解释,另一个层面就是希望真正提高下游任务的性能。  

    在做法上主要采用各种形式的网络,例如像循环神经网络,卷积神经网络、递归神经网络等;另外一块工作就是序列到序列的模型,这个模型和注意力机制和外部的单元合作,能够解决长句子依赖非常好的方法,处理各种各样的任务,包括很复杂的机器翻译、文本摘要这样的任务。

     

    深度学习给自然语言处理带来哪些变化?最主要的一个变化,就是因为语意有了低维连续的向量,语意可计算,这就是自然语言处理取得很好的性能。我们从大规模的未标注的数据上可以有效的通过字、词、句子、篇章的表示,这些可以无限的接触到后续任务来提高性能。随着深度学习方法我们不断学习了很多新的玩法,例如看图说话、作词、作诗等,这些都是传统不敢玩的游戏,现在已经可以做不错的工作了。关于衡量计算机自然语言的水平,主要还是用类似于图灵测试的方法,即给计算机输入一段的自然语言文本,例如像人机对话。

     

    此外,黄萱菁教授强调,不同的语言学的单位都在进行表示学习,但目的不同,对于词语跟短语我们主要用来生成预训练的词袋、预训练、句子是文本分类匹配和句子的分析等,其中基于词语的表示学习,这是所有表示学习的基础。另外对循环神经网络的改进,虽然可以建立长的序列,但是一个句子发现在早期,怎么样把它传递到末期还要耗费很大的时间,通过这个方法就大大加快了循环神经网络的处理效率。总体来说,深度学习给人工智能和自然语言都带来了新的生命力,已经取得了很多成果,但还是任重道远。

  • 9:10

    【大数据分析与生态系统论坛】58同城AI Lab负责人詹坤林以《58同城人工智能平台架构实践》为题做了演讲。他介绍了 58 人工智能平台的底层基石,还介绍了平台的机器学习和深度学习的功能并讲述了如何构建。机器学习基于传统流行的开源框架进行改造,提供传统的算法。深度学习是支撑TensoFlow开源的框架。

    他最后总结称,58人工智能平台可以理解为它是基于各种开源组件做了改造,然后去构建Web管理平台提供给各个业务方使用。整个平台每天离线模型训练一将近有400多个,线上预测模型数将近有100多个。同时,在线预测的服务日均请求量是40亿,包括了58所有的广告、推荐或者搜索以及图文识别、智能客服等等。所有深度学习或者机器学习模型的在线请求都会请求到平台上。最终的目的是给58各个业务部门提供AI算法研发的能力,并提高开发效果。

  • 9:10

    【大数据安全与政策论坛】公安部第三研究所网络安全法律研究中心主任黄道丽首先登场,她的演讲题目是《大数据安全国际立法态势与中国应对》。黄道丽首先为到场的观众理清了个人数据保护的概念,并介绍了全球数据保护立法和政策的现状和差异。黄道丽重点讲解了中国数据安全保护的现状,介绍了中国的《网络安全法》,并建议在大数据安全保护方面,应在个人信息保护法、完善跨境数据流动制度、着力加强内容监管力度方面着力推进。

  • 9:05

    【推荐系统论坛】百分点技术副总裁刘译璟的分享主题为《应用驱动的推荐系统架构和技术选型》。刘译璟表示,个性化推荐不是向用户推荐他最需要的内容,而是推荐你想让他看见的内容,推荐的本质是引导、影响消费者的一种手段,要想象自己是一个销售员,这是推荐要做的事情。刘译璟提出了个性化推荐建模思路,首先将业务数据化,然后对关键业务要素建模,包括客户、产品、营销等。 最后,刘译璟分享了自己两点感想。首先,推荐是通用技术,任何一个行业、任何一个场景都能用,但是想做好这件事情,需要大量的定制服务,不是一个算法就能解决问题的。第二,推荐确实是个大应用,但它不是一个大生意,而是一个小生意,即使大家想创业,去提供这样的应用,你会发现只能给中小客户去服务,大用户不会用,因为这是他们的核心命脉。

  • 9:00

    【大数据分析与生态系统论坛】欢迎大家来到今天BDTC大会的大数据分析与生态系统论坛。中国科学院计算技术研究所研究员詹剑锋和中国科学院软件研究所研究员程虎一起主持这个论坛。詹剑锋对该论坛加了一个副标题“建立基准测试为基础的大数据分析开放研究生态”,希望不仅仅是简单的开会,更希望能在学术界和工业界之间建立起一个桥梁,所谓的桥梁也就是基准测试。

  • 9:00

    【深度学习论坛】BDTC 2018中国大数据技术大会第二天分享依旧精彩,在深度学习论坛上,来自南京大学的高阳老师作为论坛主席以及主持人,详尽介绍了与会分享嘉宾的基本情况,包括清华大学、复旦大学、南京大学,西安交大在内的一系列活跃在一线的学者以及技术人员,将会在机器学习、自然语言处理以及神经网络芯片设计等多方面带来全方位、全系统的深度学习最新进展介绍,并同时诚挚邀请了复旦大学的黄萱菁教授作为第一位分享嘉宾,黄教授的分享主题为《基于深度学习的自然语言处理》。

  • 9:00

    【大数据安全与政策论坛】大数据安全与政策论坛正式开始,公安部第三研究所所长助理、首席科学家金波作为主持人宣布论坛正式开始。

  • 9:00

    【推荐系统论坛】中国科学技术大学大数据学院常务副院长,计算机科学与技术学院副院长陈恩红作为论坛主席登台致辞,并介绍了论坛的具体内容,包括应用驱动的推荐系统架构和技术选型,数字营销领域的千人千面智能投放研究及应用,可解释推荐系统,深度学习在视频推荐中的应用和研究,新零售与场景推荐系统等。接下来是百分点技术副总裁刘译璟、汇量科技副总裁朱亚东、微软研究院研究员王希廷、红椒科技CEO 陈秀义、阿里饿了么高级科学家蒋凡等几位大咖的精彩分享。

  • 9:00

    BDTC 2018 中国大数据技术大会第二天的精彩议程正式开启,今天进行的有大数据分析与生态系统论坛(全天)、深度学习论坛(全天)、大数据可视分析论坛(全天)、推荐系统论坛(上午)、大数据安全与政策论坛(上午)、精准医疗大数据论坛(下午)、数据科学与大数据技术教育论坛(下午)。多位海内外技术专家及知名企业、高校、科研院所代表组成的实力讲师团,将聚焦大数据学习发展中的痛点及瓶颈,深入解析热门技术在行业中的实践和落地。虽然北京寒风凛冽,但是现场气氛火爆。

  • 17:45

    易观CTO郭炜发表《IOTA —— 基于边缘计算的适用于大数据和人工智能新一代计算架构》主题演讲。郭炜表示,“今天,我们依然面对着大数据‘大而不强’、人工智能‘人工’而不‘智能’的现状,随着数据积累越来越多,我们发现数据湖已经变成了数据的沼泽,需要花费大量的时间清洗出来。同时,CTO/CIO 在大数据方面面临着人才缺失、存储不够、业务分析多变难以满足、各端繁杂不统一、数据量级庞大等挑战。”而 IOTA 数据架构就是基于边缘计算的适用于大数据和人工智能新一代的计算架构,郭炜在现场详细讲解了 IOTA 数据架构的特性,比如去ETL化架构、非结构化实时结构化为SQL数据存储、支持IOT设备与现有移动端数据融合、支持边缘AI实时反馈等。

  • 16:50

    接下来登台的是中移软件大数据部总经理助理王宝晗,他的分享主题是 《中国移动大数据集中化建设实践》。王宝晗介绍,目前中国移动有9.16亿移动端用户+1.47亿家庭宽带用户+300万基站,带来每天超过60PB的网络数据和运营管理数据。数字化时代,基于云、管、端基础设施实现人和物的“普遍连接”成为最重要的特征,中国移动基于此背景在16年确定“大连接” 战略,正式启动了全网统一的大数据平台建设,总体目标是搭平台、聚数据、强管控、建生态。

    搭平台是依托资源池建立集中化分布式集群;聚数据把中国移动各省的数据做融合,另外也融合外部行业的优质数据;强管控就是数据不出系统,系统不出移动;建生态是面向社会各界提供开放平台服务,共同建设面向大连接的大数据开放生态。

    未来,中国移动将以数据能力开放为核心,通过多租户、安全隔离的方式提供数据资源、基础平台、数据处理和应用开发能力,驱动数据价值挖掘和对外应用合作创新。

  • 16:40

    京东云生态业务部高级总监朱冰在“数字化时代大数据如何驱动业务创新”的主题分享中提出,如今人们生活中的每一个小的变化,背后可能都是大数据在潜移默化推动,目标就是让生活更便捷、更无界。  

    他总结道,京东从过去的12年以来,通过拓展物流以及消费金融、供应链金融等具体环节成功将其打造成为业内不可忽视的电商公司,重塑了行业服务标准,革新了用户消费体验,具体从电商赋能、无界零售、智慧供应链、产业赋能等方面出发,例如京东智慧供应链的场景主要涵盖了从前端、订单一直到履约的整个流程。

     

    朱冰强调,早在2017年,京东就着手科技转型,通过强大的人工智能技术赋能广泛的场景来提升客户体验和营销能力,将线上的大数据能力导入到线下,实现精准营销并充分发挥数据和智能的价值,不断为盈利能力“加分”。

     

    秉承着“数据是资产、AI 是能力、云是业务”的理念,在京东云140多款产品体系中突出表现了京东的数据能力以及技术能力都会通过云载体输出,无论是基础的IAAS层,还是多变的PAAS产品线,最核心的就是大数据与AI。“在大数据的方面,京东云涵盖了主流的数据工具链,包括DI部分、数据大屏在内;在AI方向上,我们把京东多年在图像识别、语音识别、人脸识别以及视频自然语言的能力全面通过京东云平台来输出。”

     

    京东云大数据选择赋能政府与产业、将智慧城市作为业务方面的重要着眼点,甚至在农业、零售等传统行业展开了广泛的创新尝试,例如与15家政府都签订了智慧城市的项目,项目首先会从基础设施方面的基础数据采集出发,同时会为政府提供24类涵盖不同纬度的服务,助力发展。此外在数据安全被广泛关注的今天,面对诸如业务数据、隐私泄露、存储风险以及APT攻击等风险隐患,京东云在政府监管与行业自律的指导下,包括公安部ISO、可信云、PCI以及CAS这样一些安全规范指导下,构建了完整高效的数据安全架构。

     

    关于未来,朱冰认为,在现实世界中的任何一个实体,在虚拟世界都有一个对应的虚拟实体, 通过云计算、大数据、AI等技术,人们能够通过在虚拟世界模拟计算,而大大加速现实世界中的技术革新和产业变革,不断成熟的技术与应用让我们还有很多畅想的空间。

  • 15:30

    北京信息科学技术研究院副院长陈性元从大数据安全目前面临的主要挑战、大数据安全技术框架、技术方面的研究进展和难点,以及其个人的思考这四个方面着手,深入探讨了大数据安全所面临的主要挑战与对策思考。

    大数据安全目前面临的主要挑战包括:防护水平与担负的时代使命不相适应;监管能力与所处的重要地位不相适应,大多利用传统方法,监管不甚到位;共享程度与应发挥的重要作用不相适应,面对大数据共享,每每陷入不愿、不敢、不能的尴尬境地。要想解决大数据在上述三个方面的安全问题,首先就要有一个技术框架,大数据的技术框架有很多,主要包含两类,一类面向业务流程,一类是面向系统架构。但现有的技术框架存在着两大问题,一是过于复杂,二是难于操作。谈及大数据安全技术框架,陈性元重点介绍了大数据的平台安全,同时他指出存储安全或者说存储平台的安全是整个平台安全的重中之重。目前关于存储安全主要涉及数据的加密,以及数据的完整性证明。大数据存储安全当下迫切需要研究解决的问题与挑战包括:网络数据存储加密;数据库加密;区块链在分布式数据存储安全中的应用成为新的热点。

    在分析大数据安全监管现状时,陈性元列出了其所面临的主要问题和挑战,其中包括:隐私泄露监控和风险评估;基于数据世系的数据监管信息采集、存储与融合、分析、防护;基于数据世系的数据安全威胁发现与风险评估;大数据安全整体态势的智能分析。演讲最后,陈性元还围绕大数据安全技术发分享了一些个人看法。他首先指出根本出路在于用密码技术解决大数据安全;而利用区块链这一新途径也不失为一种有效的方法,但切忌人云亦云,要展开创新研究;用数据世系技术解决问题;用大数据技术解决大数据安全态势感知问题。

  • 15:27

    下午的精彩分享仍在继续!科大讯飞股份有限公司大数据研究院执行院长、2018中国大数据技术大会程序主席谭昶作为下午场第二环节的主持人登台发出诚挚邀请,接下来将迎来北京信息科学技术研究院副院长陈性元、京东云生态业务部高级总监朱冰、中移软件大数据部总经理助理王宝晗以及易观CTO郭炜等几位大咖的精彩演讲。

  • 15:00

    普元软件产品部总经理王葱权从数字经济时代为什么需要新一代大数据应用平台、如何实现面向治理的大数据应用平台、面向治理大数据应用平台核心架构包含什么三方面入手全方位诠释了数字化时代大数据应用平台架构。面对数字化浪潮,王葱权率先表示传统的实体经济是根据物理的生产资料,数量是有限的,而数字经济是数字和信息,未来的规模会远远超过实体经济。“让企业从独立走向生态是数字化时代的必然结果,未来没有一个企业是独立的。什么样的企业会成为生态?数据即是企业走向生态的基础,但现代企业面临着搞不清楚究竟有多少核心数据资产、数据质量不高、业务开发难协作、数据应用无体系等数据问题。” 同时,针对面向治理的大数据应用平台架构建设有 5 大重点,分别为闭环数据应用、端到端服务开发、全链路共享数据服务、安全统一数据网关和服务接口标准化。在数字经济时代,我们需要一个面向治理大数据应用平台,且需围绕“盘-规-整-用”,建立起“采集、开发、管理与服务”一体化平台。

  • 14:10

    阿里巴巴集团副总裁周靖人带来了主题为《数据智能在阿里巴巴的应用和实践》的精彩分享。周靖人表示,阿里已经远远超出电商平台的范畴,广泛涉及支付、广告、娱乐等诸多业务,而所有这些业务都离不开数据分析和数据智能的支持。除了这些业务背后的流计算、图计算、机器学习等技术分享,周靖人还介绍了这些技术在阿里的具体应用,比如淘宝的个性化体验,系统可以根据用户的历史行为,实时地为每个人提供个性化的搜索结果,而且淘宝已经可以做到基于场景的推荐。此外,阿里城市大脑则利用机器学习的技术,实现了交通路口视频信息的实时监测。最后周靖人表示,阿里的这些技术不只是服务自身的业务,也希望把这些能力通过阿里云以及社区的方式进行输出。

  • 13:40

    下午的分享正式开始,美国罗格斯-新泽西州立大学正教授、百度商业智能实验室主任熊辉作为下午场第一环节的主持人登台致辞,接下来我们将迎来Alluxio公司创始人&首席执行官李浩源、阿里巴巴集团副总裁周靖人、普元软件产品部总经理王葱权三位大咖的精彩分享。

  • 13:30

    Alluxio公司创始人、CEO李浩源带来了《Alluxio——统一化分布式虚拟文件系统》主题演讲,为大家详细介绍了虚拟的整合文件系统Alluxio。他表示我们正在进入一个数据的时代,全球数据量到2025年将由今年的32ZB增至175ZB;中国数据年增长30%,2025年中国的数据量将达到全球首位。数据时代最重要的资产其实是数据本身,但作为程序员从技术的角度来看,什么样的架构、什么样的技术最重要呢?从企业或机构的角度来看,最重要的任务就在于如何最大化、最有效地从数据中提取价值。

    数据生态初期,架构1.0面临着三大痛点,分别是复杂、低性能,以及高成本。而大数据时代的2.0架构则提出了整合数据、Memory-first、Native APIs、Multi-hybrid cloud这四点需求。曾经,整个存储行业都在重复同一个故事,每3至8年就会有新一代存储的软硬件诞生,随着上一代的不断革新,自然数据的环境也日益复杂。面对挑战,我们提出了虚拟整合文件系统(A Virtual Unified File System)这一观点。

  • 12:20

    赠书活动正式开始,北京理工大学常务副校长、CCF大数据专家委员会主任梅宏院士和华中科技大学金海教授亲临现场进行签名赠书。前五十名参与赠书活动的观众将会获得由梅宏院士和金海教授亲笔签名的《大数据导论》或者《大数据处理》书籍一本。由于名额有限,现场气氛火爆,很多人早早就来排队,现场的队伍排成了长龙!

  • 12:05

    在主题为“大数据与数字经济发展趋势”的圆桌讨论中,联通大数据有限公司总经理赵越表示,经过几年的大数据实践,最大的挑战主要还是关于数据价值,怎样从庞大的数据量中发掘价值十分关键,当然还需明确如今大数据发展的产业规模、增长速度以及政策红利等。

    如何把数据变成价值被视为长期的过程,需要有耐心并学会高效与产学研结合,更需要真正的大数据人去挖掘,真正的数据价值如何跟产业跟应用去融合跟前端的场景融合需要持续被探讨,尤其是在医疗领域,数字化转型的空间较大。在安全角度,联通大数据无论配合国家相应机构以及法规制定等方面,都有一整套体系以及想法。

    谈及给予大数据人的建议,她进一步强调,越早进入该领域越好,但非常需要在实践的平台上,通过行业专业知识以及行业场景的综合作用下持续性发展。

  • 12:03

    谈及大数据经济落地,美国俄亥俄州立大学Robert M. Critchfield讲席教授张晓东站在独立学者的角度进行了探讨。在他眼中,经济是核心,数字化即是对原有生态环境的升级。供求关系与经济密切相关,供求失衡必然会导致诸多问题。如今,整个供应链正在借由数字化打通,从而达成供求关系的实时平衡,这是一大进步。张晓东教授还强调,于经济而言,数字并不能起到决定性作用,仅仅是提供支持而已。

    同时,张晓东教授还从经济学角度分析了实际落地中的困难与挑战。他认为,从早前的“劳动创造价值”发展到今天的全要素生产率,在土地、人力和投资三者之外,还包括制度、人员培训、信息流通等因素。而过去20年间,尤其是过去5至10年间,我国在全要素的生产力提高方面还有所欠缺。这也是中美生态在言论自由和隐私保护程度外的另一大差异。

    最后,张晓东教授也为在座的年轻技术人们提出了“多读书”的建议。现在大家习惯性地用浏览微信的方式取代以往的读书习惯,但微信中所获得的知识往往是零散的,而大数据需要结合多方面的知识储备,需要系统的知识体系。他认为,“微信就像是乌合之众,别人说一句就跟随着失去了独立思考的能力”,这是个值得大家重视的问题。

  • 12:00

    阿里巴巴集团副总裁李飞飞在圆桌论坛中表示,“我在阿里体会最深的就是大数据和数字经济的结合,这是当前切切实实正在发生的趋势,阿里提出的五新,如新零售、新制造等背后最核心的都是利用大数据和 AI 的技术与传统线下的零售业、制造业结合来改变我们做事情的方式及经济发展规律。”比如零售方面盒马生鲜就是利用大数据技术来分析用户需求到下单匹配送货,而阿里与大润发合作的实现三分钟极速派单其中就有着很强的大数据与人工智能技术需求,从下单到派单一定要做到极致才能满足 30 分钟送货到家。

    而对于在实际落地中遭遇过哪些困难与挑战,李飞飞也分享道:“大数据与实体经济的结合已经不是一个纯技术领域的问题,这其中牵扯到对传统行业的改造,比如数据源的打通、行业系统升级改造等等,我们需要考虑以最少侵入式的改动使得传统行业受到数字经济的理念并享受到相应好处。”

    最后,李飞飞也与所有与会听众分享了自己对于从事技术的经验,那就是“技术浪潮是一波又一波的,技术的热点会不断转变,而且技术发展迭代非常迅猛,我们需要以兴趣来驱动而非目标,需要找到最感兴趣的技术并投入其中,将其做深、做透。”

  • 12:00

    美国罗格斯-新泽西州立大学正教授、百度商业智能实验室主任熊辉:数据驱动的人工智能时代,一定要考虑到技术、数据、应用场景之间的三角形循环。在中国,当前落地最大的问题是缺乏跨界型人才,人才要有非常丰富的专业支持,且技术要强。不强的话,你根本不知道哪些应用问题是可以被解决的。我们这行人一定要能“顶天立地”,即深下去做一个应用的了解,同时技术达到一个应用的高度。

  • 11:40

    主题为“大数据与数字经济发展趋势”的圆桌论坛在 CSDN 创始人&董事长、极客帮创投创始合伙人蒋涛的主持下正式举行。美国罗格斯-新泽西州立大学正教授、百度商业智能实验室主任熊辉,美国俄亥俄州立大学 Robert M. Critchfield 讲席教授张晓东,联通大数据有限公司总经理赵越,阿里巴巴集团副总裁李飞飞共同围绕大数据经济的现状及未来发展的制约因素、开发者的新机会及新技术、新应用方向等问题深入探讨。

  • 11:20

    大咖们的精彩分享仍在继续,会上美国俄亥俄州立大学教授张晓东带来了主题为“后摩尔定律时代大数据处理的挑战和机遇”的干货分享。

    他总结道过去八十年计算机发展的历史,在1930s到1990s时间里,最初计算机是为 “计算 (computing)” 而研制的;随着时间的推移,从1980s到2010s,计算机是为 “网络 (connectivity)” 而创造的,互联网与无线上网被称为一个全新的数据世界的基础;但从21世纪开始,计算机纯粹是为 “数据中心 (data)” 而物尽其用。

    就在业内预测的物理极限将在2020年降临的时候,张晓东表示过去在操作系统领域营造了非常强大的生态系统,哪怕不了解具体的内部硬件结构也能让计算机“服从”。但不容忽视的一点,在摩尔定律的支配下,我们熟知的整体操作系统是由Kernel作为核心,CPU的中断会导致系统压力超负荷,功耗以及效率持续降低甚至出现器件不包容的情况,此现象可以简单概括为“公平与效率产生了冲突”。

    在过去的30-40年中,业内观察到AI在一些传统的SIMD中使用效率非常高,但相比之下只有少数人知道FPGA是如何“练成”的!形象来说研发一枚芯片会带来很高效的作用,但只有少数人才能用到。所以在摩尔时代过渡到后摩尔时代后,究竟遇到了怎样的挑战?张晓东认为,本质上明确未来系统的特性十分重要。

    “未来所有的计算放到Memory当中,就是MemorINMemory,将会有NVM和BDTC,也就是CPU变成了newMemory,这个问题一定要去解决。所以年轻软件工程师们必须要做出一个新的生态环境,让用户简单一句英文对计算机描述要做什么,系统会自动调用适合的GPU来接手工作!”

  • 10:20

    源码资本投资合伙人、国际著名的多媒体领域专家张宏江博士发表《大数据和人工智能:机会和挑战》主题演讲,从新的 AI 潮流的推动力(算法+计算力+大数据)、机器学习的驱动燃料(大数据),AI 的发展前景及机会、陷阱四个方面深度分享了他对于第三次人工智能浪潮的观察、人工智能对产业及社会的影响,及其在投资创业方面的机会和陷阱。张宏江表示,今天 AI 第三次浪潮来得如此之快与猛,背后的驱动力在于大数据、强计算、新算法的改良与突破,并且缺一不可,比如即使有再好的算法,但如果计算量上不去依然是无法实现的。今天,AI 能获取的精度已经远远超过人类能获取的数据,这背后的核心是计算力的提高,更重要的是数据量与质的提升,一个算法的精度和数据的量是正向相关的,“今天,我们看到了一系列图像搜索引擎开始出现,与其说是算法的进步,不如说是图像数量和质量的进步”,张宏江如此说道。

    同时,张宏江警示道:“AI 再火再风光,背后的核心依然是数据。今天乃至未来 AI 到底到什么地步?我们可以用三句话来概括:辅助人、代替人、超越人。对于最后一点也许心理上还有些难以接受,但仔细想一想,人类能像 AlphaGo 一样每天下一百万局象棋吗?人类能像 Tesla 一样每天从上百万车辆的行驶中吸收和积累经验和数据吗?人类能瞬时比较世界所有机场的摄像头的数据找出所有罪犯的人脸?我们都做不到。未来比较极端的说法是将只有两种人,即神人与闲人。”

精彩花絮

论坛尾声

数据科学与大数据技术教育

深度学习论坛

数据科学与大数据技术教育

智慧医疗论坛

精准医疗大数据论坛

深度学习论坛

大数据可视分析论坛

推荐系统论坛

大数据安全与政策论坛

论坛开始

大会第二天 依旧火爆

京东云朱冰

普元软件产品部总经理王葱权

阿里巴巴集团副总裁 周靖人

百度商业智能实验室主任 熊辉

金海教授赠书

梅宏院士亲笔签名

赠书现场火爆

赠书活动正式开始

CCF大数据专家委员会主任梅宏

CSDN 创始人蒋涛

圆桌论坛

美国俄亥俄州立大学教授张晓东

会议现场

观众会议现场拍照

美女编辑带你看大会

源码资本投资合伙人张宏江

座无虚席

中国科学院院士管晓宏

现场观众认真倾听

阿里巴巴副总裁李飞飞

大会主席抵达现场

会前交流

亲切问候

认真学习

会前交流

现场还有圣诞气氛

大会即将开始

网友互动
我说

    扫一扫获取

    现场图片

    ×