Home » 国际竞赛 » Details

kaggle竞赛题目解析！

Category: 国际竞赛, 热门资讯, 翰林严选 Date: 2022年3月24日上午10:15

Kaggle 上的比赛有很多种，比如奖金很高的“Featured”、相对平民化的“Research”等等。但它们的整体项目模式是相同的，即通过模型作者给出的训练集，然后利用测试集计算结果进行评比。今天对 kaggle学术活动题目进行解析！

比赛名称：美国专利短语匹配

您能否从源自发明的基于文本的大型数据集中提取意义？这是您这样做的机会。

比赛链接：https://www.kaggle.com/c/us-patent-phrase-to-phrase-matching

比赛类型：文本匹配

比赛背景您能否从源自发明的基于文本的大型数据集中提取意义？这是您这样做的机会。
在本次比赛中，您将在一个新颖的语义相似性数据集上训练您的模型，以通过匹配专利文档中的关键短语来提取相关信息。在专利检索和审查过程中，确定短语之间的语义相似性对于确定之前是否已经描述过一项发明至关重要。

例如，如果一项发明声称是“电视机”，而先前的出版物描述了“电视机”，那么理想情况下，模型会识别出它们是相同的，并帮助专利代理人或审查员检索相关文件。这超出了释义识别；如果一项发明声称是“坚固的材料”而另一项发明使用“钢”，那也可能是匹配的。比赛任务您能否建立一个模型来匹配短语以提取上下文信息，从而帮助专利界将数百万个专利文件之间的点联系起来？

评价指标根据预测和实际相似度s之间的Pearson 相关系数评估提交的内容。

对于测试集中的每个id（代表一对短语），您必须预测相似度score。

id,score
4112d61851461f60,0
09e418c93a776564,0.25
36baf228038e314b,1
etc.

数据描述在这个数据集中，你会看到成对的短语（一个anchor和一个target短语），并要求你在从 0（完全不相似）到 1（含义相同）的范围内评估它们的相似程度。

这是一场代码学术活动，您将在其中提交将针对看不见的测试集运行的代码。未见过的测试集包含大约 12k 对短语。

分数在 0-1 范围内，含义如下：

1.0 - 非常接近的匹配。这通常是完全匹配的，除了可能在共轭、数量（例如单数与复数）以及添加或删除停用词（例如“the”、“and”、“or”）方面的差异。0.75 - 近义词，例如“手机”与“手机”。这也包括缩写，例如“TCP”->“传输控制协议”。0.5 - 含义不同的同义词（相同的功能，相同的属性）。这包括宽窄（下位词）和宽窄（下位词）匹配。0.25 - 有些相关，例如这两个短语在同一个高级域中但不是同义词。这也包括反义词。0.0 - 不相关。

文本说明：train.csv - 训练集，包含短语、上下文及其相似度分数test.csv - 测试集，结构与训练集相同，但没有分数sample_submission.csv - 格式正确的示例提交文件

比赛赛程

2022年6月13日：报名截止日期。您必须在此日期之前接受比赛规则才能参加比赛。

2022年6月13日：团队合并截止日期。这是参与者加入或合并团队的最后一天。

2022年6月20日：最终提交截止日期。

赛题奖金1st Place - $12,000

2nd Place - $8,0003rd Place - $ 5,000解题思路赛题是一个典型的NLP文本相似度赛题，因此考虑使用Word2vec 或 BERT模型来完成。可以考虑使用外部数据集，爬取美国专利文本数据，构建外部知识图谱。

每天Kaggle算法学术活动、干货资讯汇总

可以扫描下方二维码咨询，了解详细备赛计划！