文本分类(Text Classification):将计算机对文本按照一定分类标准进行自动分类标记。

应用场景:

1. 情感分析(Sentiment Analyse):积极,消极,中立

2. 主题分类(Topic Labeling):金融,体育,军事,社会

3. 问答任务(Question Answering):是,否

4. 意图识别(Dialog Act Classification):天气查询,歌曲搜索,随机闲聊

5. 自然语音推理(Natural Language Inference):导出,矛盾,中立???

遇到的问题:

1. 数据问题

    - 分类标签之间边界模糊,影响最终评估效果

    - 数据标注问题

2. 模型与数据结构与样本分配问题

    - 数据不均衡

    - 数据少的问题

    - 类目混淆

分析与观测方法:

    - 观测指标:precision, recall, F1, 多分类不看auc

    - 细分:

        - 加权或非加权

        - 总体和分类目

文本分类模型:

主流模型:FastText, TextCNN, TextRNN(Bi-GRU/LSTM)

最先进的模型:VDCNN, DPCNN, Region Embedding, AttentiveConvNet, DRNN, Transformer等。

主流机制:Attention, Pre-trained embedding等。

数据输入:多线程加速读取,变长和定长输入,词和字符级输入,自定义输入等。

优化方法:Adagrad, Adam, FTRL, Momentum, RMSProp, SGD等

损失函数:Softmax, NCE Loss, Focal Loss

分类任务:二分类,多分类,层次分类等


作者:admin  创建时间:2023-11-24 00:17
最后编辑:admin  更新时间:2024-07-01 18:04