2017 开放学术精准画像大赛

本文主要是介绍2017 开放学术精准画像大赛 - task2 解决方案，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第一次和同学组队做比赛。参加了 2017 开放学术精准画像大赛，三个人各自完成一个task。
队伍最终排名第二名，三个任务的python代码已经开源，见 https://github.com/geekinglcq/aca

ps: 三个人能一起做完比赛，很开心。其次，比赛赛制虽然出现了一些小插曲，但总体来说主办方还是挺nice的。

我负责task2部分的任务，算法在初赛时表现不佳，排名17名。决赛时，测试集的数据分布和训练集、验证集的数据分布差异较大。我的模型泛化性能尚可，最终单项排名第2。下面简要介绍一下task2的解决方法。

颁奖时和前几名的队伍交流了一下做法，大抵可以分为两种方向：

文本多标签分类
兴趣推荐

我是把任务当成一个推荐问题做的，即根据已知的一些兴趣给待预测学者推荐兴趣。

程序利用学者发表的论文标题信息、论文的引用和学者投稿期刊信息来预测学者的兴趣标签。程序先利用四个简单模型分别计算学者的兴趣得分，然后按照权重求出学者兴趣的加权平均得分，最后选择得分最高的5个兴趣作为最终预测结果。

模型中出现的符号如下： $A$ 代表学者， $A^T$ 表示训练集中的学者， $A^U$ 表示待预测的学者，
$I$ 表示兴趣标签， $T$ 表示论文标题， $Id$ 表示论文的序号， $P$ 表示论文的发表刊物， $S^P_{A_i}$ 代表第 $i$ 学者投稿刊物集合， $S^I_{A_i}$ 代表第 $i$ 位学者的兴趣集合。

模型一

模型一的基本思想是：发表论文标题内容相似的学者，他们的研究兴趣相似。

程序首先从论文集合中找出每位学者 $A_i$ 发表的文章，即 $S^T_{A_i}=\{T^i_1,T^i_2,...,T^i_k\}$ ，集合 $S^T_{A_i}$ 可以描述学者的研究内容。为了找出训练集中和待预测学者 $A^U_i$ 研究内容相似的学者，模型利用待预测的学者 $A^U_i$ 发表论文的集合 $S^T_{A^U_i}$ 和训练集中学者 $A^T_j$ 发表的论文集合 $S^T_{A^T_j}$ 进行标题文本相似度计算。论文标题集合 $S^T_{A^U_i}$ 与 $S^T_{A^T_j}$ 的相似度越大，表示学者 $A^U_i$ 与 $A^T_j$ 的研究内容越相近，学者 $A^U_i$ 和学者 $A^T_j$ 的兴趣越相似。因此学者 $A^U_i$ 与 $A^T_j$ 的相似度 $Sims(A^U_i,A^T_j)$ 可以定义为如下形式：

S i m s (A U i, A T j) = S i m i l a r i t y (S T A U i, S T A T j)

$\begin{equation} Sims(A^U_i,A^T_j)=Similarity(S^T_{A^U_i},S^T_{A^T_j}) \end{equation}$

Sims(AUi,ATj) $Sims(A^U_i,A^T_j)$ 可以作为学者

AUi $A^U_i$ 和

ATj $A^T_j$ 兴趣相似度的表示。
最终，学者

AUi $A^U_i$ 对兴趣

Ij $I_j$ 的得分可以表示为:

S c o r e (I j | A U i) = \sum k = 0 P S i m s (A U i, A T k) \cdot I d e n t i f y (I j, S I A T k)

$\begin{equation}Score(I_j|A^U_i)=\sum^{P}_{k=0}Sims(A^U_i,A^T_k) \cdot Identify(I_j,S^I_{A^T_k}) \end{equation}$

I d e n t i f y (I j, S I A T k) = ⎧ ⎩ ⎨ 10, I j \in S I A T k, I j \notin S I A T k

$\begin{equation}Identify(I_j,S^I_{A^T_k})=\begin{cases}1&\ ,\ {I_j \in {S^I_{A^T_k}}} \\0&\ ,\ {I_j \notin {S^I_{A^T_k}}}\end{cases} \end{equation}$
根据上式，模型选取得分最高的5个兴趣作为学者的兴趣标签。

模型二

模型一先给待预测学者 $A^U_i$ 在训练集中寻找研究内容相似的学者，再将学者的兴趣赋给待预测学者 $A^U_i$ 。这个模型有两个问题：

学者 $A^T_j$ 对自己的三个兴趣 $\{I^j_1,I^j_2,I^j_3\}$ 的感兴趣程度不同；
待预测学者 $A^U_i$ 和找出的相似学者 $A^T_j$ ，他们可能只有部分研究内容相似；

模型一使用同样的权重 $Sims(A^U_i,A^T_j)$ 将兴趣 $\{I^j_1,I^j_2,I^j_3\}$ 赋给待预测学者 $A^U_i$ ，不能真实地表示学者 $A^U_i$ 研究兴趣。
为了解决上述问题，模型二直接计算待预测学者 $A^U_i$ 和兴趣 $I_j$ 之间的相似度。

模型二的基本思想是，学者发表的论文标题描述了学者的研究兴趣。

程序将训练集中学者发表的论文集合，按照学者的兴趣进行分类。
假设学者

ATi $A^T_i$ 发表的论文集合

STATi $S^T_{A^T_i}$ ，兴趣集合

SIATi{Ii1,Ii2,Ii3} $S^I_{A^T_i}\{I^i_1,I^i_2,I^i_3\}$ ，则将集合

STATi $S^T_{A^T_i}$ 加入到集合

STIj1 $S^T_{I^j_1}$ 、

STIj2 $S^T_{I^j_2}$ 和

STIj3 $S^T_{I^j_3}$ 中，其中

STIj1 $S^T_{I^j_1}$ 表示属于兴趣

Ij1 $I^j_1$ 的论文标题集合。
每个兴趣

Ii $I_i$ 都有相应的论文集合

STIi={Ti1,...Tip} $S^T_{I_i}=\{T^i_1,...T^i_p\}$ ，集合

STIi $S^T_{I_i}$ 可以用来描述兴趣

Ii $I_i$ 。
预测时，程序计算出集合

STAUi $S^T_{A^U_i}$ 和集合

STIj $S^T_{I_j}$ 的相似度，将其作为学者

AUi $A^U_i$ 对兴趣

Ij $I_j$ 的得分，即：

S c o r e (I j | A U j) = S i m i l a r i t y (S T A U i, S T I j)

$\begin{equation}Score(I_j|A^U_j)=Similarity(S^T_{A^U_i},S^T_{I_j}) \end{equation}$
根据上式，模型选取得分最高的5个兴趣作为学者的兴趣标签。

模型三

此模型的基本思想是：学者发表的文章，引用的文章和引用学者的文章可以反映出学者的研究兴趣。研究兴趣相似的学者在上述三种情况下重合度较高。

学者 $A_i$ 上述特征可以表示为集合 $S^{Id}_{A_i}=\{Id^i_1,...,Id^i_k\}$ ，模型利用集合 $S^{Id}_{A_i}$ 计算学者之间的相似度。
模型使用 Jaccard 相似系数作为相似性度量函数：

S i m s (A U i, A T j) = | S I d A U i \cap S I d A T j | | S I d A U i \cup S I d A T j |

$\begin{equation}Sims(A^U_i,A^T_j)=\frac{|S^{Id}_{A^U_i}\cap S^{Id}_{A^T_j}|}{|S^{Id}_{A^U_i}\cup S^{Id}_{A^T_j}|} \end{equation}$
和模型一类似，算法将相似函数

Sims(AUi,ATj) $Sims(A^U_i,A^T_j)$ 作为学者

AUi $A^U_i$ 兴趣的得分。

AUi $A^U_i$ 对兴趣

Ij $I_j$ 的感兴趣程度可以表示为:

S c o r e (I j | A U i) = \sum k = 0 P S i m s (A U i, A T k) \cdot I d e n t i f y (I j, S I A T k)

$\begin{equation}Score(I_j|A^U_i)=\sum^{P}_{k=0}Sims(A^U_i,A^T_k) \cdot Identify(I_j,S^I_{A^T_k}) \end{equation}$

I d e n t i f y (I j, S I A T k) = ⎧ ⎩ ⎨ 10, I j \in S I A T k, I j \notin S I A T k

$\begin{equation}Identify(I_j,S^I_{A^T_k})=\begin{cases}1&\ ,\ {I_j \in {S^I_{A^T_k}}} \\0&\ ,\ {I_j \notin {S^I_{A^T_k}}}\end{cases} \end{equation}$

模型四

此模型的基本思想是：期刊通常收录某一领域的论文，具有一定的兴趣集合。学者将论文投到与自己研究兴趣相近的期刊。模型先计算期刊的兴趣分布，然后根据待预测学者投稿期刊的信息，预测学者的兴趣。

模型将训练集中学者的兴趣指派为其投稿期刊的兴趣，由此可以得到期刊的兴趣集合 $S^I_{P_i}=\{I^i_1,...,I^i_k\}$ ，则

S c o r e (I k | P i) = C ( I k , S I P i ) \sum l j = 0 | ( S I P i ) |

$\begin{equation}Score(I_k|P_i)=\frac{C(I_k,S^I_{P_i})}{\sum^{l}_{j=0}|(S^I_{P_i})|} \end{equation}$
在计算待预测学者兴趣时，先统计待预测学者

AUi $A^U_i$ 的发表的期刊信息

SPAUi={Pi1,...,Pik} $S_{A^U_i}^P=\{P^i_1,...,P^i_k\}$ 。根据集合

SPAUi $S_{A^U_i}^P$ 可以计算出学者对于期刊

Pi $P_i$ 的偏好：

w i = C ( P i , S P A U i ) | ( S P A U i ) |

$\begin{equation}w_i=\frac{C(P_i,S_{A^U_i}^P)}{|(S_{A^U_i}^P)|} \end{equation}$
其中

C(Pi,SAUi) $C(P_i,S_{A^U_i})$ 表示集合

SAUi $S_{A^U_i}$ 中

Pi $P_i$ 的个数。
由此可以计算出待预测学者对兴趣

Ii $I_i$ 的得分：

S c o r e (I j | A U i) = \sum k = 0 P w k \cdot I d e n t i f y (I j, S I A T k)

$\begin{equation}Score(I_j|A^U_i)=\sum^{P}_{k=0} w_k \cdot Identify(I_j,S^I_{A^T_k}) \end{equation}$

I d e n t i f y (I j, S I A T k) = ⎧ ⎩ ⎨ 10, I j \in S I A T k, I j \notin S I A T k

$\begin{equation}Identify(I_j,S^I_{A^T_k})=\begin{cases}1&\ ,\ {I_j \in {S^I_{A^T_k}}} \\0&\ ,\ {I_j \notin {S^I_{A^T_k}}}\end{cases} \end{equation}$

预处理

模型一和模型二涉及计算文本相似度的计算。文本处理过程包括：

去停用词
将文本转化为词袋模型
文本转成TF-IDF表示
LSI模型降维LSI
计算文本相似度

模型融合

上述四个模型利用不同特征预测学者的兴趣。为了使预测更加客观、合理，程序对四个模型进行了融合。待预测学者 $A^U_i$ 对兴趣 $I_j$ 的最终得分
如下：

S c o r e (I j | A U i) = \sum k = 0 4 α k S c o r e k (I j | A U i)

$\begin{equation}Score(I_j|A^U_i)=\sum ^4_{k=0}\alpha_k Score_k (I_j|A^U_i) \end{equation}$

总结

比赛中没有用到高大上的模型和算法，难度属于文本处理入门级别。

其他队伍的模型比较优雅一些。有使用Graph Embedding、SGD、RandomForest等，期待他们的算法和代码。

这篇关于2017 开放学术精准画像大赛 - task2 解决方案的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

2017 开放学术精准画像大赛 - task2 解决方案

模型一

模型二

模型三

模型四

预处理

模型融合

总结

相关文章

Linux samba共享慢的原因及解决方案

找不到Anaconda prompt终端的原因分析及解决方案

Spring定时任务只执行一次的原因分析与解决方案

MySQL新增字段后Java实体未更新的潜在问题与解决方案

java常见报错及解决方案总结

使用DrissionPage控制360浏览器的完美解决方案

Jackson库进行JSON 序列化时遇到了无限递归(Infinite Recursion)的问题及解决方案

Seata之分布式事务问题及解决方案

关于Nginx跨域问题及解决方案(CORS)

Nginx启动失败：端口80被占用问题的解决方案