gydtep 发表于 2021-9-25 15:33:00

另一类是非结构化的数据,包括了如今无处不在的产生日志、文本、图片、语音、视频和文件等,这些都是非结构化数据的代表。图片怎么结构化计算,视频、语音等如何转化为向量的多维数据来帮助分析或机器学习,都需要进行结构化的数据处理。

gydtep 发表于 2021-9-26 09:25:41

2006年到2014年是大数据的探索期,一些NoSQL数据库比如HBase、Cassandra的早期版本在这个时期出现。此外,SQL的接口模型也逐渐成熟,之前大家认为MapReduce比较通用,但是经过实战之后发现SQL的接口更加友好。

gydtep 发表于 2021-9-26 15:11:45

最后总结一下,如今我们正在迎接新的数据时代,因此需要做好准备。虽然今天我们的系统更多的跑在关系型数据库和数据仓库等,但是随着物联网、工业互联网这些领域的爆发,如何去迎接新的数据时代是一个非常有意思的话题。

gydtep 发表于 2021-9-26 19:56:54

第三步:实时数据按实际业务需求使用Flink中进行实时ETL(可选),结果入库MaxCompute交互式分析(Hologres)构建实时数据仓库、应用集市,并提供海量数据的实时交互查询和分析。Hologres提供实时离线联邦查询。

gydtep 发表于 2021-9-27 16:45:34

Hologres在全链路实时数仓建设场景,与Flink做了深度的融合,同时支持Flink的sink表、source表、维表。业务上可以基于Flink进行实时ETL清洗、转换,将明细数据、轻度汇总数据以及业务汇总数据存储在Hologres,再通过Hologres实时查询并输出数据至第三方分析工具进行实时分析。

gydtep 发表于 2021-9-28 10:23:47

但是随着监控指标越来越多,直播质量实时性保障困难。为保障客户使用体验,好未来还需要对一个大池子中的数据进行细粒度的数据权限分析,并且应对教育行业寒暑假高流量,强波动的情况。

gydtep 发表于 2021-9-28 16:34:42

在新零售行业,为了保障企业供应链数据实时采集、加速处理数据,为实时决策提供保障(快速检测问题,减少经济损失)。使用Databricks构建实时数仓后,数据延迟从2小时降低到15秒,并且由于数据链路精简,业务代码量也相应减少:Python代码从565行减少到317行,YML配置从252行减少到23行。

gydtep 发表于 2021-9-29 11:38:46

一种策略在于创建一种在模型和数据的大小与数据传输成本之间取得平衡的体系结构。对于大型模型,留在云中更有意义。有多种方法可以减小模型大小以帮助解决问题,但是,如果要处理非常大的模型,则可能需要在云中运行它。

gydtep 发表于 2021-9-30 09:04:00

2020年,我国网络基础设施建设已经位居世界前列,信息技术应用持续发展。计算能力、数据资源和核心算法的进步推动人工智能的快速商业化应用。

gydtep 发表于 2021-9-30 13:13:10

以公安行业的应用为例,公安行业用户的迫切需求是在海量的视频信息中,发现犯罪嫌疑人的线索。而这个需求的实现,需要智能的前端摄像机,通过实时分析视频内容,检测运动对象,识别人、车等属性信息;然后需要汇总海量的城市级信息到后端人工智能的中心数据库进行存储,再利用强大的计算能力及智能分析能力,对嫌疑人的信息进行实时分析,最终给出最可能的线索建议。
页: 81 82 83 84 85 86 87 88 89 90 [91] 92 93 94 95 96 97 98
查看完整版本: 阿里云服务器1核2G低至76元/年