Kaggle - Home Depot Product Search Relevance关键词搜索

2023-12-20 12:50

本文主要是介绍Kaggle - Home Depot Product Search Relevance关键词搜索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景介绍

Home Depot 产品相关性预测 kaggle竞赛:https://www.kaggle.com/c/home-depot-product-search-relevance HomeDepot是美国一家家具建材商品网站,用户通过在搜索框中输入关键词,得到相关商品和服务,如输入floor,得到不同材料的地板商品、地板清洗商品、地板安装服务等。kaggle竞赛目的是通过设计一种模型,能够更好的匹配用户搜索关键词,得到相关性更高的产品和服务。

导入数据

import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestRegressor,BaggingRegressor
from nltk.stem.snowball import SnowballStemmer
#导入train,test,product_descriptions数据集
df_train=pd.read_csv(r'E:\python\kaggle-product-search-relevance-master\train.csv',encoding='ISO-8859-1')
df_test=pd.read_csv(r'E:\python\kaggle-product-search-relevance-master\test.csv',encoding='ISO-8859-1')df_desc=pd.read_csv(r'E:\python\kaggle-product-search-relevance-master\product_descriptions.csv')

数据简介:

训练数据:
product_uid:产品的编号
product_title:产品标题描述
search_term:用户搜索的关键词
relevance: 用户搜索结果的评分。test数据集里没有这列,这个是要预测的Label。
在这里插入图片描述
产品信息:
product_uid:产品编号
product_description:产品详细描述
这个数据也挺重要的,可以并到训练数据里构建特征。
在这里插入图片描述
合并数据:

#合并训练数据及测试数据
df_all=pd.concat([df_train.assign(is_train=1),df_test.assign(is_train=0)],axis=0,ignore_index=True)
#把产品描述加进来
df_all=pd.merge(df_all,df_desc,how='left',on='product_uid')

文本预处理

stemmer=SnowballStemmer('english')
def str_stemmer(s):return ' '.join([stemmer.stem(word) for word in s.lower().split()])#为了计算关键词的有效性,可以直接看出现了多少次
def str_common_word(str1,str2):return sum(int(str2.find(word)>0) for word in str1.split())#数据处理
df_all['search_term']=df_all['search_term'].map(lambda x:str_stemmer(x))
df_all['product_title']=df_all['product_title'].map(lambda x:str_stemmer(x))
df_all['product_description']=df_all['product_description'].map(lambda x:str_stemmer(x))

文本特征

#关键词的长度
df_all['len_of_query']=df_all['search_term'].map(lambda x:len(x.split())).astype(np.int64)#标题中有多少关键词重合
df_all['commons_in_title']=df_all.apply(lambda x:str_common_word(x['search_term'],x['product_title']),axis=1)#描述中有多少关键词重合
df_all['commons_in_desc']=df_all.apply(lambda x:str_common_word(x['search_term'],x['product_description']),axis=1)#Levenshtein文本相似度
import Levenshtein
df_all['dist_in_title']=df_all.apply(lambda x:Levenshtein.ratio(x['search_term'],x['product_title']),axis=1)
df_all['dist_in_desc']=df_all.apply(lambda x:Levenshtein.ratio(x['search_term'],x['product_description']),axis=1)#TF-IDF
'''
我们首先搞一个新的column,叫all_texts, 里面是所有的texts。
(我并没有算上search term, 因为他们不是一个结构完整的句子,
可能会影响tfidf的学习)。为了防止句子格式不完整,我们也强制给他们
加上句号。注意:这里我们最严谨的做法是把train/test先分开,
然后只在train上做tfidf的学习,并在test上直接转化。
但由于kaggle提前拿到test,这里姑且把文本内容汇总一起,
实际项目中,往往是没法提前拿到test的。
'''
df_all['all_texts']=df_all['product_title']+'.'+df_all['product_description']+'.'
#然后,我们取出所有的单字,做成一个我们的单词字典
from gensim.utils import tokenize
from gensim.corpora.dictionary import Dictionary
dictionary=Dictionary(list(tokenize(x,errors='ignore')) for x in df_all['all_texts'].values)
#print(dictionary)#下面写一个类,扫便我们所有的语料,并且转化成简单的单词的个数计算(Bag-of-Words)
class MyCorpus(object):def __iter__(self):for x in df_all['all_texts'].values:yield dictionary.doc2bow(list(tokenize(x,errors='ignore')))corpus=MyCorpus()#有了标准形式的语料库,就可以把已经变成BoW向量的数组,做一次TFIDF计算
from gensim.models.tfidfmodel import TfidfModel
tfidf=TfidfModel(corpus)#判断两个句子的相似度:把其中一个作为index,扩展开全部的matrixsize,另一个带入,就可以计算
from gensim.similarities import MatrixSimilaritydef to_tfidf(text):res=tfidf[dictionary.doc2bow(list(tokenize(text,errors='ignore')))]return res
#然后,创造一个cosine similarity的比较方法
def cos_sim(text1,text2):tfidf1=to_tfidf(text1)tfidf2=to_tfidf(text2)index=MatrixSimilarity([tfidf1],num_features=len(dictionary))sim=index[tfidf2]#sim输出的是一个array,我们只需要数值return float(sim[0])#计算TFIDF相似度
df_all['tfidf_cos_sim_in_title']=df_all.apply(lambda x:cos_sim(x['search_term'],x['product_title']),axis=1)
df_all['tfidf_cos_sim_in_desc']=df_all.apply(lambda x:cos_sim(x['search_term'],x['product_description']),axis=1)#Word2Vec
#w2v和tfidf不同,对tfidf而言,只需要知道一整段text中包含了哪些word元素就行了。
#而w2v要考虑到句子层级的split,以及语境前后的考虑.
import nltk
#句子分割,把长文本分割成list of 句子,再把句子变成list of 单词
tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')
sentences=[tokenizer.tokenize(x) for x in df_all['all_texts'].values]
#其实这些sentences不需要层级关系,我们把list of lists给flatten了
sentences=[y for x in sentences for y in x]#把单词分好
from nltk.tokenize import word_tokenize
w2v_corpus=[word_tokenize(x) for x in sentences]#训练model
from gensim.models.word2vec import Word2Vec
model=Word2Vec(w2v_corpus,size=128,window=5,min_count=5,workers=4)#TFIDF是针对每个句子都可以有的,而w2v是针对每个单词的
#这里我们平均化一个句子的w2v向量,算作整个text的平均vector#先拿到全部的vocabulary
vocab=model.wv.vocab#得到任意text的vector
def get_vector(text):res=np.zeros([128])count=0for word in word_tokenize(text):if word in vocab:res+=model[word]count+=1return res/count#计算两个text的平均w2v的cosine similarity
from scipy import spatialdef w2v_cos_sim(text1,text2):w2v1=get_vector(text1)w2v2=get_vector(text2)sim=1-spatial.distance.cosine(w2v1,w2v2)if str(sim)=='nan':sim=1else:passreturn float(sim)#构建w2v相似度特征
df_all['w2v_cos_sim_in_title']=df_all.apply(lambda x:w2v_cos_sim(x['search_term'],x['product_title']),axis=1)
df_all['w2v_cos_sim_in_desc']=df_all.apply(lambda x:w2v_cos_sim(x['search_term'],x['product_description']),axis=1)

重塑训练/测试数据集

#删除相关特征
df_all=df_all.drop(['search_term','product_title','product_description','all_texts'],axis=1)
#重塑训练/测试集
df_train=df_all.loc[df_all['is_train']==1]
df_test=df_all.loc[df_all['is_train']==0]#记录下测试集的id
test_ids=df_test['id']
#分离出y_train
y_train=df_train['relevance'].values
#把原集中的label删去
X_train=df_train.drop(['id','relevance','is_train'],axis=1).values
X_test=df_test.drop(['id','relevance','is_train'],axis=1).values

建立模型

这里用个简单的随机森林模型,参数也没有细调。可以再拿其它模型试试,并更细致的调整参数。

#建立模型
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_scoreparams=[1,3,5,6,7,8,9,10]
test_scores=[]
for param in params:clf=RandomForestRegressor(n_estimators=30,max_depth=param)test_score=np.sqrt(-cross_val_score(clf,X_train,y_train,cv=5,scoring='neg_mean_squared_error'))test_scores.append(np.mean(test_score))import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(params,test_scores)
plt.title('Param vs CV Error')

在这里插入图片描述

上传结果

rf=RandomForestRegressor(n_estimators=30,max_depth=9)
rf.fit(X_train,y_train)
y_pred=rf.predict(X_test)
pd.DataFrame({'id':test_ids,'relevance':y_pred}).to_csv('submission.csv',index=False)

这篇关于Kaggle - Home Depot Product Search Relevance关键词搜索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/516121

相关文章

C# ComboBox下拉框实现搜索方式

《C#ComboBox下拉框实现搜索方式》文章介绍了如何在加载窗口时实现一个功能,并在ComboBox下拉框中添加键盘事件以实现搜索功能,由于数据不方便公开,作者表示理解并希望得到大家的指教... 目录C# ComboBox下拉框实现搜索步骤一步骤二步骤三总结C# ComboBox下拉框实现搜索步骤一这

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

hdu1240、hdu1253(三维搜索题)

1、从后往前输入,(x,y,z); 2、从下往上输入,(y , z, x); 3、从左往右输入,(z,x,y); hdu1240代码如下: #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#inc

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

hdu 4517 floyd+记忆化搜索

题意: 有n(100)个景点,m(1000)条路,时间限制为t(300),起点s,终点e。 访问每个景点需要时间cost_i,每个景点的访问价值为value_i。 点与点之间行走需要花费的时间为g[ i ] [ j ] 。注意点间可能有多条边。 走到一个点时可以选择访问或者不访问,并且当前点的访问价值应该严格大于前一个访问的点。 现在求,从起点出发,到达终点,在时间限制内,能得到的最大

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close

hdu4277搜索

给你n个有长度的线段,问如果用上所有的线段来拼1个三角形,最多能拼出多少种不同的? import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;

ural 1014. Product of Digits贪心

1014. Product of Digits Time limit: 1.0 second Memory limit: 64 MB Your task is to find the minimal positive integer number  Q so that the product of digits of  Q is exactly equal to  N. Inpu

log4j2相关配置说明以及${sys:catalina.home}应用

${sys:catalina.home} 等价于 System.getProperty("catalina.home") 就是Tomcat的根目录:  C:\apache-tomcat-7.0.77 <PatternLayout pattern="%d{yyyy-MM-dd HH:mm:ss} [%t] %-5p %c{1}:%L - %msg%n" /> 2017-08-10

浙大数据结构:04-树7 二叉搜索树的操作集

这道题答案都在PPT上,所以先学会再写的话并不难。 1、BinTree Insert( BinTree BST, ElementType X ) 递归实现,小就进左子树,大就进右子树。 为空就新建结点插入。 BinTree Insert( BinTree BST, ElementType X ){if(!BST){BST=(BinTree)malloc(sizeof(struct TNo