[NLP] 酒店名归类

佚名 7年前 (2019-04-11) 随笔 2024人围观抢沙发百度已收录

我们内部系统里记录的酒店名字是由很多人输入的，每个人输入的可能不完全一样，比如，‘成都凯宾斯基大酒店’， ‘凯宾斯基酒店’， ‘凯宾斯基’，我们的初步想法是能不能把大量的记录归类，把很多相似的名字归成一类，然后交给人工决定是否合成一个精确的名字

现在还处于学习阶段，不知道怎么做，先探索一下

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

向量化和建模：

大概的想法是，先找出一个相似性算法，然后在调用一种分类算法。相似性算法很多是基于vector的，怎么把中文转化成vector? 这个文章介绍了怎么处理中文 (sklearn: TfidfVectorizer 中文处理及一些使用参数)

聚类：

聚类的时候我并不想像 K-means那样指定一个K值，我需要的是自动根据输入数据的集中程度来决定分多少类, 这个文章（机器学习总结（十）：常用聚类算法（Kmeans、密度聚类、层次聚类）及常见问题）里介绍可以用 DBSCAN 算法

Ref:

Quick review on Text Clustering and Text Similarity Approaches, http://www.lumenai.fr/blog/quick-review-on-text-clustering-and-text-similarity-approaches

通俗理解word2vec, https://www.jianshu.com/p/471d9bfbd72f

sklearn: TfidfVectorizer 中文处理及一些使用参数，https://blog.csdn.net/blmoistawinde/article/details/80816179

扫码关注我们

微信号：SRE实战

拒绝背锅运筹帷幄

赞 0 赏分享

转载请注明 : 文章转载自小翔博客 [NLP] 酒店名归类

本文标题：[NLP] 酒店名归类

本文链接：https://www.liuyixiang.com/post/32315.html

上一篇 : 剑指offer-数字在排序数组中出现的次数

下一篇 : XSS学习（一）

评论列表暂无评论

发表评论

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

[NLP] 酒店名归类

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

[NLP] 酒店名归类

选择打赏方式：

选择分享方式：

Petter

101481

12

121484300

User Login

帐号或密码错误,请重试.