中文重复统计器

在这里插入图片描述
文字重复统计是一个使用文本处理工具，输入文本内容并指定最小词长度后，就能自动高亮显示重复的词。本教程将会借助AI实现这个应用的开发

页面脚本编写

该工具的基础流程较为清晰：用户输入一段文字后，调用提取算法处理重复词汇，据此可提出以下问题

提问（Round 1）

 export default {name: 'HighlightText',state: {originalText: '', // 需要处理的文本textMinLenth: 2, // 最小词长度duplicated: [], // 重复的单词},actions: {extractText () { // 提取重复文本}}
}

上述脚本实现extractText方法对state.originalText 提取出重复的文本，根据textMinLenth
最小词长度（最小为2）将结果写入duplicated, 每项包含结果词及高亮颜色（要求不同）。
同时统计文本换行、符号、和字符数也写入state

extractText() {// 重置状态this.state.duplicated = [];// 统计换行符数量const lineCount = (this.state.originalText.match(/\n/g) || []).length;// 统计符号数量（非字母、数字、空格和换行符）const symbolCount = (this.state.originalText.match(/[^a-zA-Z0-9\s\n]/g) || []).length;// 统计字符总数（包括空格和换行符）const charCount = this.state.originalText.length;// 更新统计信息this.state.lineCount = lineCount;this.state.symbolCount = symbolCount;this.state.charCount = charCount;// 提取单词并统计词频const words = this.state.originalText.toLowerCase().match(/[a-z0-9]+/g) || [];const wordCount = {};words.forEach(word => {if (word.length >= this.state.textMinLenth) {wordCount[word] = (wordCount[word] || 0) + 1;}});// 找出重复的单词const duplicatedWords = Object.entries(wordCount).filter(([word, count]) => count > 1).map(([word, count]) => word);// 为每个重复的单词分配不同的高亮颜色const colors = ['rgba(255, 99, 132, 0.5)', // 红色'rgba(54, 162, 235, 0.5)', // 蓝色'rgba(255, 206, 86, 0.5)', // 黄色'rgba(75, 192, 192, 0.5)', // 绿色'rgba(153, 102, 255, 0.5)', // 紫色'rgba(255, 159, 64, 0.5)', // 橙色'rgba(231, 233, 237, 0.5)'  // 灰色];// 为每个重复的单词创建对象，包含单词和颜色this.state.duplicated = duplicatedWords.map((word, index) => ({word,color: colors[index % colors.length]}));
}

AI迅速理解了需求并在短时间内给出了算法结果。遗憾的是，该算法无法有效提取中文内容。
在这里插入图片描述
通过分析结果可以看出，该工具在处理重复内容时采用了与英文相同的逻辑，将空格或标点作为单词分隔的依据。然而，这种处理方式并不适用于中文（事实上，使用国外的重复检测工具也会得出相同结论）。

提问（Round 2）

就这个问题再次提问后，AI回答

你指出的问题很关键，中文文本的分词确实需要特殊处理。之前的实现依赖空格来分割单词，这对中文无效。我将修改代码，使用更适合中文的分词方式。

同时它还说

这个实现应该能满足中文文本的重复词统计需求。如果你需要更复杂的中文分词（例如按词语而不是单字），可能需要集成专门的中文分词库，如 jieba 或 segmentit。

中文分词确实是一个专门的领域。尽管如此，我还是尝试用改进后的算法，但早已预料到效果可能不佳。果然，算法未能正确统计中文内容。通过观察发现，AI在处理时出现了顾此失彼的问题：将每个中文字符都视为独立单词，再加上最小长度的限制条件，最终导致统计失败。

提问（Round 3）
我继续提问：

上述算法，中文也是要求大于最小长度才纳入统计的，不能把每个字作为一个词

然后AI回答

你是对的，我之前的实现错误地将每个中文字符单独作为一个词统计了。现在我将修改代码，让中文和英文都遵循 textMinLenth 的限制，按连续字符作为词进行统计。

返回的代码仍存在准确性不足的问题。我发现它先进行了分词操作再进行统计，而该算法在实际应用中难以奏效。至此，我确实感到有些失望，但仍需进一步给出提示。

提问（Round 4）
提问：

我想要的是先统计重复，例如你好会匹配所有你好。而不是先分词出你好

这一次终于有了转机，因为他提到了一个我之前从未听说的算法——滑动窗口。光是这个名字，就让我觉得很有希望。于是我试着输入了一段中文来测试效果。
在这里插入图片描述
观察发现，统计结果并非完全准确。例如，4%的球员与4%与%的球员存在重复统计的情况。尽管如此，总体而言，该结果仍具有相当的准确度。

提问（Round 5）

为了安慰它，这次我说

基本正确了。但是还有2个问题： 1、中文的逗号、句号等符号不能作为重复统计。 2、还存在一个长字符串会匹配到2个不同短的字符串的情况。这看起来无法避免，能否将算法调整为统计作为重复后，内容就不参加其他的重复统计了

很幸运的是AI也完全理解了问题

我理解了你的需求，现在需要解决两个关键问题：排除中文标点符号的干扰，以及避免重复统计重叠的文本片段。这需要更复杂的匹配策略和后处理逻辑。

虽然理解，但AI给出的算法仍然无法满足要求。

提问（Round 6）

还是计算不出结果。还不如最早的几个版本。是否可以这样，首先将中文标点替换为空格，然后对中文字符使用滑动窗口算法，并且空格就默认为分词标志

这回终于，它给出了一个还不错的算法

extractText() {// 重置状态this.state.duplicated = []// 统计换行符数量const lineCount = (this.state.originalText.match(/\n/g) || []).length// 统计符号数量（非字母、数字、中文、空格和换行符）const symbolCount = (this.state.originalText.match(/[^a-zA-Z0-9\u4e00-\u9fa5\s\n]/g) || []).length// 统计字符总数（包括空格和换行符）const charCount = this.state.originalText.length// 更新统计信息this.state.lineCount = lineCountthis.state.symbolCount = symbolCountthis.state.charCount = charCount// 预处理：将中文标点替换为空格const punctuationRegex = /[\u3000-\u303F\uFF00-\uFF60\uff0c\uff1a\uff1b\uff01\uff1f\uff0e]/gconst processedText = this.state.originalText.replace(punctuationRegex, ' ')// 提取所有可能的子串并统计频率const substrCount = {}const minLength = Math.max(2, this.state.textMinLenth) // 确保最小长度至少为2// 按空格分割文本为单词数组const words = processedText.split(/\s+/)// 对每个单词使用滑动窗口提取所有可能的子串words.forEach(word => {if (!word) return // 跳过空单词// 提取所有长度 >= minLength 的子串for (let i = 0; i < word.length; i++) {for (let j = i + minLength; j <= word.length; j++) {const substr = word.substring(i, j)substrCount[substr] = (substrCount[substr] || 0) + 1}}})// 找出重复的子串（出现次数 > 1），按长度降序排列const duplicatedSubstrs = Object.entries(substrCount).filter(([substr, count]) => count > 1).sort((a, b) => b[0].length - a[0].length)// 筛选最终结果，避免重叠const filteredSubstrs = []duplicatedSubstrs.forEach(([substr, count]) => {// 检查是否已被更长的子串包含if (!filteredSubstrs.some(s => s.includes(substr) && s !== substr)) {filteredSubstrs.push(substr)}})// 为每个重复的子串分配不同的高亮颜色const colorVariations = ['#F53F3F', // semi-red-6'#EB2F96', // semi-pink-6'#722ED1', // semi-purple-6'#5B32C9', // semi-violet-6'#2F54EB', // semi-indigo-6'#1890FF', // semi-blue-6'#0FC6C2', // semi-light-blue-6'#00B42A', // semi-green-6'#7CB305', // semi-lime-6'#FACC14', // semi-yellow-6'#FF7D00' // semi-orange-6]    // 为每个重复的子串创建对象，包含text和style属性this.state.duplicated = filteredSubstrs.map((substr, index) => ({text: substr,style: {backgroundColor: colorVariations[index % colorVariations.length],color: '#fff',padding: 4}}))}

页面制作

我将Bootstrap的多行输入和高亮组件整合到页面中，并设置按钮点击时触发提取算法功能。每次算法给出结果后，都可以快速验证。

具体配置如下：
多行输入：取值连接到”需要处理的文本“
高亮组件：内容连接到”需要处理的问题“，高亮文本连接到”重复的单词“

为了显示哪些词汇重复了，需要放入一个列表组件，数据就连接到”重复的单词“，在里面放入弹性容器/文本，
为页面脚本库增加计算2个字段如下，

...computed: {itemWordText: scope => scope.item.text, // 重复单项文本itemBackgroundColor: scope => scope.item.style.backgroundColor // 单项背景颜色}
...
}

将列表内的文本的内容和背景颜色分别连接到这2个字段。这样提取后右侧会显示重复词列表

在这里插入图片描述
最后，增加一个watch字段，使得用户修改文本时，直接进行统计无需再点击按钮。将之前按钮删除

  watch: {originalText () {this.extractText()}},

最后，调整和美化整个页面布局这个工具就算制作好了

小结

相比之前的密码生成器，这款统计重复算法的AI经过多次交互优化，最终呈现出令人满意的效果。
从功能设计的角度来看，这个需求对人类程序员而言通常无需多次解释。人类开发者完成编写后，能够自行验证结果是否符合需求。但人工智能在这方面的能力明显欠缺，需要反复澄清和细化具体要求。
当AI输出结果不符合预期时，有些问题可以直接通过结果反馈发现，但有些需要深入代码层面才能识别。这就要求使用者具备一定的代码阅读和理解能力，才能有效引导AI进行调整。从这个角度来看，AI更像是辅助工具而非开发的主导者。
保持耐心尤为关键
当算法多次输出错误结果时，我的做法是明确指出初始版本更合适，并引导它仅针对特定方面进行调整。这很关键，因为虽然条条大路通罗马，但人类通常更擅长找到更合理且复杂度更低的解决方案路径。

最后的最后，从效率上来说，虽然多次提示并花时间去阅读生成代码给出解决建议，但AI整体输出速度还是比我要快，并且更加省心。

大家可以通过这个地址访问应用，
https://ridgeui.com/npm/ridge-duplicate/
或者通过设计器打开自己更改和验证
https://ridgeui.com/npm/ridge-editor/?import=ridge-duplicate