研究方向
随着信息技术应用的日益深入,海量数据逐渐成为信息化社会重要的生产要素。人们对“大数据”的运用必将掀起新一轮的技术浪潮。大数据是一个具有国家战略意义的新兴产业,正受到政府的高度关注。“大数据”带给广东的是挑战更是机遇,广东省作为改革开放的前沿阵地,正处于在结构调整和产业升级转型的关键时期,在这场新一轮信息化浪潮中抢占先机,组建广东省大数据分析与处理重点实验室显得尤为必要。实验室设三个主要研究方向,分别为:大数据的存储与管理,大数据的分析与挖掘,多模态大数据智能。主要研究内容如下:
1)大数据的存储与管理
大数据的存储和管理是本实验室研究的一个重要内容。数据存储和管理为大数据分析和处理提供系统支撑。由于大数据在数据规模、多样性等方面的特性,使得传统的数据库系统不能满足大数据存储和管理需求。近年来以分布式文件系统为底层基础的对象存储及NoSQL技术已经成为大数据存储和管理的重要手段。但是,由于各类数据的急剧增长,各类应用的不断涌现,大数据处理对存储技术和系统的要求也水涨船高。特别是在高容量、高可用、高可靠及安全性等方面提出了严峻挑战。
本方向的研究工作结合数据存储和数据管理,进行综合性、系统性优化设计。采取分块多点存储、压缩的方式来保证数据的高效存储;采取分布式副本放置和低开销的一致性维护实现高可靠高可用;采取信息编码、匿名化、加密查询等方式实现海量数据的安全和隐私保障。更为重要的是,我们将结合分布式并行处理技术,研究有效的分布式数据缓存和内存数据库技术,实现低延迟、大吞吐量的海量数据实时处理,为流式数据存储和处理提供支撑。
2)大数据分析与挖掘
对于大数据应用而言,如电子政务、电子商务、智能交通以及智能教育等,大数据融合的一个重要方面是从信息的分类、预测、聚类和关联上体现出来的,文本分类、聚类和关联分析将传统数据挖掘的思想和方法应用于大数据上,从中抽取感兴趣的、潜在的、有用的模式和隐藏信息,是对数据信息进行整理并从中获取知识的过程,是大数据融合和知识服务的重要组成部分。如何进行有效的非结构化信息的分析和挖掘是一个具有挑战的问题。大数据很多是高维的,数据降维是一个重要的预处理过程,有助于提高大数据分析和挖掘的效果。另外,随着互联网的发展,在大数据应用中产生和演化了大量的社区网络,可以为用户提供有价值的、可靠的、及时的、具有个人特点的信息,并且代表着网络中的社会活动。这些社区网络是由用户、资源等复杂链接所组成的巨大信息源,而且以很快的速度在不断的扩大。针对这样一个不断变化的信息源,如何利用和发现社区网络中的有用信息,并基于发现的网络信息进行有效推荐变得越来越具有挑战性。
3)多模态大数据智能
多模态大数据智能作为人工智能领域的重要研究方向,聚焦于视觉、语言、听觉等多种数据类型的融合与智能分析。随着大数据技术的迅猛发展,来自不同感官渠道的大规模数据如图像、视频、文本和语音等,正日益成为智能系统处理和分析的核心资源。如何有效地融合这些异构数据并提取有价值的信息,已成为提升智能分析能力、实现更精确决策的关键。多模态大数据的融合不仅能够提升系统在复杂任务中的表现,还是智能系统跨越单一模态限制的有效途径。例如,在自动驾驶中,结合视觉、雷达、语音等数据,可以显著增强系统对环境的感知能力,提高驾驶安全性。在医学领域,结合影像数据和临床数据,能帮助医生更准确地诊断疾病,提供个性化的治疗方案。具身智能的研究进一步丰富了多模态智能分析的内涵,强调通过与环境的互动来增强智能体的感知与推理能力。具身智能系统能够通过多感官协同作用,在动态环境中做出更加灵活和适应性的决策。这一研究方向对推动自然语言处理、计算机视觉、语音识别等领域的深度融合,具有重要意义。因此,强化对新兴多模态技术和具身智能的研究,正是大数据分析与处理实验室应对多样化、大规模数据挑战的关键所在。通过该方向的深入探索,我们不仅能够推动人工智能技术在各个领域的应用,还将进一步推动智能系统的自我学习、适应能力及创新能力的提升,为未来智慧社会的构建提供强有力的技术支持。