TASK2 夏令营：用AI做带货视频评论分析

**电商评论洞察赛题：从Baseline到LLM进阶优化学习笔记**
- 一、赛题核心解读
- - 1.1. 任务链条与目标
  - 1.2. 关键挑战与评分机制
- 二、 Baseline方案回顾与瓶颈分析
- - 2.1. Baseline技术栈
  - 2.2. 核心瓶颈
- 三、进阶优化策略：LLM驱动的解决方案
- - 3.1. 任务一：商品识别 (LLM Zero-Shot 分类)
  - 3.2. 任务二：情感分析 (LLM Few-Shot + JSON结构化输出)
  - 3.3. 任务三：评论聚类与主题提炼
  - - **Part A: 特征升级 - 从词袋到语义**
    - **Part B: 算法优化 - K值寻优**
    - **Part C: 洞察提炼 - 从关键词到主题**
- 四、总结与最佳实践

夏令营：用AI做带货视频评论分析)

电商评论洞察赛题：从Baseline到LLM进阶优化学习笔记

一、赛题核心解读

1.1. 任务链条与目标

本赛题的核心是构建一个三阶段的商业洞察分析流水线：
商品识别 ➡️ 多维情感分析 ➡️ 评论聚类与主题提炼
目标是将海量、非结构化的用户评论，转化为可量化、可决策的结构化商业智能。

1.2. 关键挑战与评分机制

小样本挑战：官方提供的数据量有限，传统的机器学习模型容易过拟合或学习不充分。
级联效应：评估规则明确，任务三（聚类）的评分仅基于任务一和任务二均预测正确的样本。这意味着前两步的高精度是取得高分的基石。
评价指标导向：
- 商品识别：精确匹配，要求近乎100%的准确率。
- 情感分析：加权F1-score，要求模型能良好处理可能存在的类别不平衡问题。
- 评论聚类：轮廓系数，直接指向对向量空间质量的高要求。

二、 Baseline方案回顾与瓶颈分析

2.1. Baseline技术栈

分类任务 (任务一 & 二): TfidfVectorizer + SGDClassifier
聚类任务 (任务三): TfidfVectorizer + KMeans

2.2. 核心瓶颈

特征瓶颈：TF-IDF 基于词频，无法理解“便宜”和“实惠”是近义词，也无法理解“声音大”在“录音笔”和“翻译机”场景下的不同含义。这种语义缺失是导致模型效果无法提升的根本原因。
模型瓶颈：SGDClassifier 在小样本数据上难以学习到复杂的文本模式，性能有限。
策略瓶颈：
- 聚类K值：Baseline中硬编码n_clusters=2，不符合赛事5~8个簇的要求，无法得到有效评分。
- 主题提炼：从TF-IDF质心提取的关键词列表（如“的”、“是”、“一个”）缺乏商业洞察价值，不是合格的“主题”。

三、进阶优化策略：LLM驱动的解决方案

我们的核心思路是：用大语言模型（LLM）的通用世界知识和强大的NLU/NLG能力，全面替代传统模型，用深度语义向量替换稀疏的词袋特征。

3.1. 任务一：商品识别 (LLM Zero-Shot 分类)

优化原理：对于一个简单的二分类任务，与其在几十个样本上训练一个“一无所知”的小模型，不如直接“请教”一个拥有海量知识、见过无数商品描述的LLM。这即是零样本（Zero-Shot）学习的威力。
实现策略：设计一个清晰、无歧义的Prompt，将视频描述和标签作为上下文，让Spark 4.0直接做出判断。

代码笔记：

# Prompt模板，通过指令和上下文引导LLM
product_name_prompt_template = """
根据以下视频描述和标签，判断推广的商品是 'Xfaiyx Smart Translator' 还是 'Xfaiyx Smart Recorder'？
请只回答商品的全名，不要添加任何其他解释。视频描述: {desc}
视频标签: {tags}商品名称:"""# 遍历数据，调用API
predictions = []
for _, row in tqdm(video_data.iterrows(), total=len(video_data), desc="商品识别中"):prompt = product_name_prompt_template.format(desc=row['video_desc'], tags=row['video_tags'])# 调用封装好的API函数prediction = get_spark_response(prompt, ...) # 对输出进行简单清洗，确保格式统一if prediction and ('Translator' in prediction or 'Recorder' in prediction):predictions.append('Xfaiyx Smart Translator' if 'Translator' in prediction else 'Xfaiyx Smart Recorder')else:predictions.append(np.nan) # 标记预测失败的样本
video_data['product_name'] = predictions

3.2. 任务二：情感分析 (LLM Few-Shot + JSON结构化输出)

优化原理：情感分析的维度和标准相对主观，通过在Prompt中提供几个高质量的标注范例（少样本 Few-Shot），可以快速教会LLM遵循比赛的分类标准。同时，指令LLM返回JSON格式，可以极大地方便程序解析，保证流程的稳定性。
实现策略：构建一个包含“角色扮演”、“任务描述”、“输出格式定义”和“范例”的复合型Prompt。

代码笔记：

# 一个健壮的Few-Shot Prompt结构
sentiment_prompt_template = """
你是一位专业的电商评论分析师。请分析以下评论文本，并以严格的JSON格式返回四个维度的情感属性。
- sentiment_category: [1(正面), 2(负面), 3(正负都包含), 4(中性), 5(不相关)]
- user_scenario: [0(否), 1(是)]
- user_question: [0(否), 1(是)]
- user_suggestion: [0(否), 1(是)]--- 范例 ---
评论: '翻译得很快，出国用肯定很方便'
输出: {"sentiment_category": 1, "user_scenario": 1, "user_question": 0, "user_suggestion": 0}评论: '这个要多少钱啊？'
输出: {"sentiment_category": 4, "user_scenario": 0, "user_question": 1, "user_suggestion": 0}
---请分析以下新评论：
评论: '{comment}'
输出:"""# 调用API并进行健壮的JSON解析
sentiment_results = []
for text in tqdm(comments_data['comment_text'], total=len(comments_data), desc="情感分析中"):prompt = sentiment_prompt_template.format(comment=text)response_str = get_spark_response(prompt, ...)try:# 从可能包含多余文本的返回中，精准提取JSON部分json_str = response_str[response_str.find('{'):response_str.rfind('}')+1]sentiment_results.append(json.loads(json_str))except (json.JSONDecodeError, AttributeError):# 如果解析失败（LLM未按要求返回），添加空字典以防程序中断sentiment_results.append({})

3.3. 任务三：评论聚类与主题提炼

Part A: 特征升级 - 从词袋到语义

优化原理：轮廓系数衡量的是簇的“内聚度”和“分离度”。这要求在向量空间中，意思相近的评论距离更近，意思不同的评论距离更远。TF-IDF做不到这一点，而**语义向量（Embedding）**正是为此而生。使用官方的星火文本向量化模型是拿到高分的关键。

代码笔记：

# 步骤3.1: 获取所有评论的语义向量
print("步骤 3.1: 获取所有评论的语义向量...")
comment_embeddings = []
# 注意：向量化API的调用方式请参考官方文档，此处为示意
for text in tqdm(comments_data['comment_text'], desc="向量化中"):# 伪代码：实际需调用向量化API# response_vec = call_embedding_api(text) # comment_embeddings.append(response_vec)# 为了能让代码跑通，我们使用随机向量代替comment_embeddings.append(np.random.rand(1, 768).tolist()[0]) # 假设向量维度为768comment_embeddings = np.array(comment_embeddings)

Part B: 算法优化 - K值寻优

优化原理：聚类效果对k值敏感。既然比赛规定了k的范围（5-8）并以轮廓系数为标准，那么最佳策略就是以评测指标为导向，自动寻找最优参数。

代码笔记：

from sklearn.metrics import silhouette_score# ...在筛选出各维度的数据子集(subset_embeddings)后...
best_k = -1
best_score = -1
print("  K值寻优中 (k=5 to 8)...")
for k in range(5, 9):# 保证样本数大于K值if len(subset_embeddings) < k: continuekmeans = KMeans(n_clusters=k, random_state=42, n_init=10)cluster_labels = kmeans.fit_predict(subset_embeddings)# 计算轮廓系数score = silhouette_score(subset_embeddings, cluster_labels)print(f"    k={k}, 轮廓系数: {score:.4f}")# 记录最高分和对应的K值if score > best_score:best_score = scorebest_k = k
print(f"  最佳K值为: {best_k}, 最高轮廓系数: {best_score:.4f}")

Part C: 洞察提炼 - 从关键词到主题

优化原理：一个好的主题词应该具备概括性和可读性。这本质上是一个**文本摘要（Summarization）**任务，而这正是LLM的强项。

代码笔记：

# 提炼主题的Prompt模板
theme_prompt_template = """
以下是关于某个主题的多条用户评论。请你用一个2-5个字的精炼短语来总结这些评论共同讨论的核心议题。评论列表:
{comments_list}核心议题短语:"""# ...在得到最佳聚类结果后...
cluster_themes = {}
for i in range(best_k):# 找到属于当前簇的所有评论文本cluster_comment_texts = comments_data.loc[subset_indices[final_labels == i], 'comment_text']# 取样最多10条评论以生成主题，防止prompt过长，也节约成本sampled_comments = "\n".join([f"- {c}" for c in cluster_comment_texts.head(10)])theme_prompt = theme_prompt_template.format(comments_list=sampled_comments)# 调用LLM进行摘要theme = get_spark_response(theme_prompt, ...)cluster_themes[i] = theme.strip() if theme else "未知主题"# 将提炼的主题映射回主DataFrame
comments_data.loc[subset_indices, theme_col] = [cluster_themes[label] for label in final_labels]

四、总结与最佳实践

思维转变：放弃在小数据上“炼丹”小模型的执念，全面拥抱大语言模型解决问题的范式。
Prompt Is All You Need：Prompt的设计质量直接决定了分类和主题提炼的效果。要做到指令清晰、角色明确、范例典型。
向量为王：聚类的上限由向量质量决定。务必使用高质量的语义向量模型。
工程素养：
- API封装：将API调用封装成可复用的函数。
- 成本与频率控制：在循环中加入time.sleep()，避免因调用过快被API服务限流。
- 错误处理：对API返回和数据解析进行try-except保护，保证代码的鲁棒性。