文本分类(Text Classification):将计算机对文本按照一定分类标准进行自动分类标记。
应用场景:
1. 情感分析(Sentiment Analyse):积极,消极,中立
2. 主题分类(Topic Labeling):金融,体育,军事,社会
3. 问答任务(Question Answering):是,否
4. 意图识别(Dialog Act Classification):天气查询,歌曲搜索,随机闲聊
5. 自然语音推理(Natural Language Inference):导出,矛盾,中立???
遇到的问题:
1. 数据问题
- 分类标签之间边界模糊,影响最终评估效果
- 数据标注问题
2. 模型与数据结构与样本分配问题
- 数据不均衡
- 数据少的问题
- 类目混淆
分析与观测方法:
- 观测指标:precision, recall, F1, 多分类不看auc
- 细分:
- 加权或非加权
- 总体和分类目
文本分类模型:
主流模型:FastText, TextCNN, TextRNN(Bi-GRU/LSTM)
最先进的模型:VDCNN, DPCNN, Region Embedding, AttentiveConvNet, DRNN, Transformer等。
主流机制:Attention, Pre-trained embedding等。
数据输入:多线程加速读取,变长和定长输入,词和字符级输入,自定义输入等。
优化方法:Adagrad, Adam, FTRL, Momentum, RMSProp, SGD等
损失函数:Softmax, NCE Loss, Focal Loss
分类任务:二分类,多分类,层次分类等
最后编辑:admin 更新时间:2024-07-01 18:04