数据挖掘在跨境电商客户特征分析中的应用

时间:2021-11-08 10:56:15 浏览量:

孙海波

摘要:近些年来,经济全球化程度逐步加深,互联网信息技术迅速发展,跨境电子商务已然变成了中外贸易的新增长点。同时,在跨境电商平台上,销售的商品日益丰富。对于消费者来说,要在这么海量的商品里面,选择符合他需求的商品是一个普遍存在的问题困境。通过统计分析和挖掘跨境电商客户自身的一些属性特征和其购买的商品的一些属性特征,为跨境电商企业的营销策略和物流布局提供参考,帮助消费者快速挑选到满意的商品。

关键词:数据挖掘; 跨境电子商务; 特征分析; Hadoop; FP-Growth算法

中图分类号:F272.3      文献标识码:A

文章编号:1009-3044(2021)15-0239-03

Abstract:In recent years, with the deepening of economic globalization and the rapid development of Internet information technology, cross-border e-commerce has become a new growth point of Sino foreign trade. At the same time, on the cross-border e-commerce platform, more and more goods are sold. It is a common problem for consumers to choose the products that meet their needs in such a large number of commodities. Through statistical analysis and mining some attribute characteristics of cross-border e-commerce customers and their purchased goods, this paper provides reference for marketing strategy and logistics layout of cross-border e-commerce enterprises, and helps consumers quickly select satisfactory goods.。

Key words:data mining; cross border e-commerce; feature analysis; hadoop;  fp-growth algorithm

1 引言

11月4日晚,第三屆中国国际进口博览会开幕式在上海举行,尽管受到疫情影响,今年中国扩大开放的步伐仍在加快。对企业来说,跨境电子商务构建的开放、多维、立体的多边经贸合作模式,极大地拓宽了进入国际市场的路径,大大促进了多边资源的优化配置与企业间的互利共赢[1];对于消费者来说,跨境电子商务使他们非常容易地获取其他国家的信息并买到物美价廉的商品。通过数据分析和数据挖掘的方法分析以往的跨境电商业务数据来分析跨境电商客户的特征,给出对于企业的一个更好的营销策略和消费者更好的一个消费体验。

2 算法及数据预处理

2.1 算法

在本研究中,我们采用FP-Growth算法挖掘频繁项集,FP-Growth算法的主要思想是:将代表频繁项集的数据库压缩存储在频繁模式树中,每条事务数据中的项之间的关系被保留在频发模式树中。然后,将频繁模式树按照条件模式基拆分成一组条件FP树,并分别挖掘这些条件FP树[2]。

FP-Growth算法的步骤:

1) 第一次扫描数据库,寻找频繁1-项集,并按照由大到小的顺序排序;

2) 创建FP模式树的根结点,记为“null”;

3) 根据频繁1-项集的顺序对数据库中的每条事务数据进行排序,并存储在FP模式树中,并建立项头表;

4) 为每一个频繁1-项集寻找前缀路径,组成条件模式基,并建立条件FP树;

5) 递归挖掘条件FP树,获得频繁项集。

2.2 数据预处理

由于跨境电商业务的多年开展,其中的数据库中存储着大量的数据包括商品的物流信息、商品信息、订单信息、报关信息等[3]。这些信息中很大程度上可以代表了消费者的消费习惯,但这些数据中同时也包含了大量对本次实验无用的数据和噪音,因此要再分析数据的构成和意义,筛选其中有用的数据,并预处理后作为本次实验的分析对象[4],本文从存储在SqlServer数据库中的物流信息表、商品信息明细表等四张表中获取实验所需的数据进行数据的预处理。以下是对于各表的介绍。

在物流信息表(Tbl_ImportLogisticsInfo)中包含了很多消费者购买物品后的物流相关信息,但是本次实验所需字段仅两个即省份ConsigneeProvince和城市ConsingeeCity字段。省份字段可以根据省份代码对照表找出消费者所在省份,根据城市字段和城市等级划分表得出消费者所在城市的等级 。

在商品信息明细表(Tbl_IDX_CUSTOM_IE_DETAILS)中,选取CreateTime(下单时间)、ORIGIN_COUNTRY(原产国)、DECL_PRICE(商品单价)、DECL_TOTAL(商品总价)、CODE_TS(商品编码) 作为实验的数据。根据下单时间划分出下单时间范围区间,根据商品原产国代码和国家代码对照表找出商品的原产国家,根据商品的单价和商品的总价分别处理,得到消费者的消费金额区间。报关信息表(Tbl_IDX_CUSTOM_IE_HEADER)中包含的是通关过程中所需的一些信息,其中本文只获取公司代码CompanyID这一字段,根据公司代码字段判断出消费者所在的消费平台。(订单信息表)Tbl_ImportOrder中选取ConsigneeCard身份证号字段,根据身份证的编码规则判断出订单消费的性别信息,以及年龄段信息

据上述的数据进行处理得出表1客户及其购买商品属性维度及维度值,该图表从多个维度出发用于描述出跨境电商客户所可能具有的一些特征。

3 实验

由于本次实验的数据仓库采用的Hadoop集群,程序采用的是Maven框架所以需要搭建Hadoop的集群环境和Maven框架的搭建及编码。

3.1 Hadoop集群环境搭建

由于本次实验所采用的Hadoop集群采用的是主从结构,slave1、slave2做两条从机,master服务器作为主机。三台服务器的IP地址如图1所示。在实验中各服务器所需要安装的软件如图2所示。

在图3中是将SqlServer数据经过处理后存储在Hive中的部分数据。

3.2 Maven框架项目搭建

实验的相关业务是在Maven框架下采用Java语言进行实现的,故首先需要搭建一个Maven项目然后进行实际的业务处理。相关业务模块包括,源数据处理模块、源数据分析模块和Hadoop数据挖掘分析模块。

项目框架搭建之后进行各模块的编码工作,在源数据处理模块中首先需要进行SqlServer数据库的连接,程序采用JDBC的连接方式获取到程序所需的源数据,在获取到源数据之后进行源数据的一个数据预处理的工作,数据的预处理包括根据物流信息表中的城市字段判断出用户所在的城市等级和所在区域,根据商品信息中的商品编码判断出商品的类别,根据订单表中的身份证信息判断出客户的年龄信息和性别信息。在源数据分析模块中将上一步获取的源数据根据客户的年龄、客户所在区域和客户购物的时间统计分析各个节点的单量,从而判断出客户购买跨境电商商品的一些特征。在Hadoop数据挖掘分析模块中利用Maven中的相关依赖将预处理过后的数据导入到Hive中,并采用FP-Growth算法对数据进行挖掘分析,找出频繁项集。序采用的是Maven框架所以需要搭建Hadoop的集群环境和Maven框架的搭建及编码。

3.3 实验结果

1)在挖掘出的频繁项集中可以发现,little、f、SZBH出现多次,其中little代表是购买少量商品,f代表的女性客户,SZBH代表的是一家跨境电商公司。从频繁项集中可以分析得出,大部分人还是购买跨境电商的货物都是少量并且女性购买者居多,这也符合跨境电子商务小包裹数量少的特点,同时结合日常生活经验,相比男性可能女性更热衷于网上购物。通过程序运行后的实际情况如图4所示。

2)在根据下单时间进行单量的统计是发现跨境电商消费者在购买时间上的特征比如在凌晨5点的时候订单量是最少的而上午10点的时候是订单最多的时候,分析原因也合乎逻辑,上午5点的时候大部分人还在休息自然下单量最少,而上午10点单量最多,说明大家更加倾向于在这个时间段进行消费。根据下单时间统计的实际单量统计如图5所示。

3)在根据年龄段的分析中发现,90后是购买的主力,而00后或更小60后或更大的年龄群体购买力下降明显。分析原因可能是00后或更小的經济实力较差,而60后或更大的年龄层消费者对于跨境电商业务可能不是太感兴趣,而90后消费者从经济方面和新业务的了解和接受方面分析都优于其他年龄层次消费者。根据年龄段统计的实际单量统计如图6所示。

4)在购买区域上统计分析中发现发达城市是购买主力,比如深圳、上海,而在宁夏是最少的,这也符合人们合理的预期。在发达城市消费的经济能力较好,而且发达城市的物流也比较有优势,更适合业务的开展。而在发展较为落后地区则有消费者购买力不足,物流成本高等问题。

根据购买区域统计的实际单量统计如图7所示。

4 结论

本文实验采用Maven框架,运用Java语言进行编码实现了FP-Growth算法并将该算法运用于处理后的数据进行了分析。在搭建好的hadoop集群平台上以及预处理过的数据和跨境电商客户特征分析系统的设计的基础,上针对实际的情况进行了测试。分析了实验所产生的频繁项集以及数据本身的一些特性并得出符合逻辑的结论。根据实验结果可以得出,一些跨境电商客户的消费特征,从而满足企业的营销效果,将相应的跨境电商商品推荐给满足该特征的跨境电商客户,另一方面也给跨境电商客户购买跨境电商商品带来了方便,使得他们可以快速地购买到自己想要的商品。

参考文献:

[1] 李延光.基于Hadoop的海量工程数据处理技术研究[D].北京:北京交通大学,2013.

[2] 周诗慧.基于Hadoop的改进的并行Fp-Growth算法[D].济南:山东大学,2013.

[3] 马盈.基于MapReduce构造多维数据及关联规则挖掘算法的研究与应用[D].长春:东北师范大学,2013.

[4] 李明江,卢玉.基于数据挖掘的电商中贵州茶叶产品分类分析[J].黔南民族师范学院学报,2015,35(4):78-82.

[5] 王海青,吕晓安.数据挖掘在网购商品特征分析中的应用[J].廊坊师范学院学报(自然科学版),2015,15(2):35-37.

[6] 黄雅萍,马可辛,周余洪,等.面向中小企业的电商平台挖掘系统设计[J].计算机时代,2015(4):18-20.

[7] 雷玄.服装篇:发货延迟退货率高[J].中国质量万里行,2014(12):12-13.

[8] 杨欣,吕本富,彭赓,等.基于网络搜索数据的突发事件对股票市场影响分析[J].数学的实践与认识,2013,43(23):17-28.

[9] 罗红梅.电商企业基于数据进行精准营销的探讨[J].武汉商业服务学院学报,2013,27(3):46-48.

【通联编辑:李雅琪】

猜你喜欢 特征分析跨境电子商务数据挖掘 2015年新疆皮山6—5级地震前岩石圈磁场局部异常特征分析地震研究(2017年3期)2017-11-062016年熊本MW7—1地震前GPS形变特征分析地震研究(2017年3期)2017-11-06小江断裂带及邻区岩石圈磁场变化特征分析地震研究(2017年3期)2017-11-06数据挖掘综述速读·下旬(2016年8期)2017-05-09软件工程领域中的异常数据挖掘算法电子技术与软件工程(2016年24期)2017-02-23传统国际贸易与新兴互联网+下课程体系融合探究商场现代化(2016年27期)2017-02-14跨境电子商务与贸易增长的互动关系研究中国经贸(2016年20期)2016-12-20国际贸易新方式:跨境电子商务的最新研究现代经济信息(2016年22期)2016-10-26基于R的医学大数据挖掘系统研究哈尔滨理工大学学报(2016年2期)2016-09-12广东省跨境电子商务发展策略研究商(2016年21期)2016-07-06

推荐访问:数据挖掘 特征 跨境

《数据挖掘在跨境电商客户特征分析中的应用.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:

文档为doc格式

一键复制全文 下载 投诉