摘要:前言的分词给出第一个词和第二个词,考虑在某些文本中可能以形式出现的情况,其中紧随出现,紧随出现。对于每种这样的情况,将第三个词添加到答案中,并返回答案。
前言
Weekly Contest 140的 Bigram 分词:
解题思路给出第一个词 first 和第二个词 second,考虑在某些文本 text 中可能以 "first second third" 形式出现的情况,其中 second 紧随 first 出现,third 紧随 second 出现。
对于每种这样的情况,将第三个词 "third" 添加到答案中,并返回答案。
示例1:
输入:text = "alice is a good girl she is a good student", first = "a", second = "good" 输出:["girl","student"]示例2:
输入:text = "we will we will rock you", first = "we", second = "will" 输出:["we","rock"]提示:
1 <= text.length <= 1000
text 由一些用空格分隔的单词组成,每个单词都由小写英文字母组成
1 <= first.length, second.length <= 10
first 和 second 由小写英文字母组成
本题需要注意以下两点:
first second third三个单词是要连续出现的,例如
输入:text = "alice is a good girl she is a really good student", first = "a", second = "good" 输出:["girl"]
first second third三个单词中的third可能是下一次循环的first,例如示例2
实现代码/** * 5083. Bigram 分词 * @param text * @param first * @param second * @return */ public String[] findOcurrences(String text, String first, String second) { // 按空格分割单词 String[] words = text.split(" "); Listlist = new ArrayList<>(); // 匹配第一个单词的索引 int firstIndex = -1; // 匹配第二个单词的索引 int secondIndex = -1; for (int i = 0; i < words.length; i++) { String word = words[i]; if (firstIndex >= 0 && secondIndex > 0) { // 判断前两个单词是否已经匹配 firstIndex = -1; // 重置索引 secondIndex = -1; // 重置索引 list.add(word); } // 判断是否为第二个单词,判断条件为 // 1. 当前单词与第二个单词相同 // 2. 第一个单词已经匹配 // 3. 第二个单词紧跟着第一个单词之后出现(secondIndex = firstIndex+1) // 此处先判断第二个单词是为了处理第三个单词为第一个单词的情况 if (word.equals(second) && firstIndex >= 0 && firstIndex == i - 1) { secondIndex = i; continue; // 匹配则中断当前循环 } else { // 第一个单词已经匹配,但是第二个单词不匹配,重置第一个单词的匹配结果 if (firstIndex >= 0) { firstIndex = -1; } } // 判断是否为第一个单词 // 1. 第一个单词未匹配 // 2. 当前单词与第一个单词相同 if (firstIndex < 0 && word.equals(first)) { firstIndex = i; continue; // 匹配则中断当前循环 } } String[] result = new String[list.size()]; return list.toArray(result); }
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/74893.html
摘要:最初,它是以开源项目为应用主体的,结合词典分词和文法分析算法的中文分词组件。填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。中文分词追求分词的高效率和用户良好体验。 1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取...
摘要:分词的算法中文分词有难度,不过也有成熟的解决方案。例如通过人民日报训练的分词系统,在网络玄幻小说上,分词的效果就不会好。三的优点是开源的,号称是中,最好的中文分词组件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 题图:by Lucas Davies 一、前言 分词,我想是大多数...
阅读 2314·2021-11-24 10:33
阅读 1385·2019-08-30 15:43
阅读 3275·2019-08-29 17:24
阅读 3480·2019-08-29 14:21
阅读 2219·2019-08-29 13:59
阅读 1735·2019-08-29 11:12
阅读 2811·2019-08-28 18:00
阅读 1847·2019-08-26 12:17