Docs 菜单
Docs 主页
/
Atlas 图表
/ /

词云

在此页面上

  • 词云编码渠道
  • 用例
  • 示例
  • 限制

词云直观地表示文本数据,突出显示流行的关键字和短语。 每个单词出现的频率由单词的大小反映。

词云提供以下编码通道:

编码通道
渠道类型
说明
Text
category

要添加到词云的文本值。 Charts 将应用于此渠道的字段中的每个唯一值添加到词云中。

词云最多可以显示 100 个值。 如果应用于此渠道的字段包含超过 100 个唯一值,则图表将显示 100 个值的随机样本。为确保图表仅显示最常用的单词,您应应用限制并按 Value排序。

size
聚合(Aggregation)

指示要聚合的字段以及要执行的聚合类型。 聚合结果定义了每个Text值的大小,聚合值越大,文本大小越大。

示例,如果您设立TextSize通道设置为Sample Data: Movies集合中的 genres字段, Charts将创建一个词云,其中最常出现的类型是最大的。

如果将Text渠道设置为genres字段,并将Size渠道设置为runtime字段,则 Charts 会创建词云,其中聚合运行时间最长的类型的词云也最多。

颜色
category

可选)为每个文本值着色以指示应用字段中的相应数据值。

示例,如果您设立TextSizeColor通道设置为Sample Data: Movies集合中的genres字段, Charts会创建一个词云,其中最常出现的类型 最大,每种类型 为不同的颜色。

如果您将TextSize渠道设置为genres字段,并将Color渠道设置为rated字段,则 Charts 会创建一个词云,其中最常出现的类型和评分组合最大。每种类型和评分组合都有不同的颜色,因此 R 级电视剧的绿色文本值显示大于 G 级电视剧的蓝色文本值。

使用词云显示文本字段中特定词语或短语的频率。 词云提供了一系列文本数据中常见词语和主题的高级视图。 它们还可以突出显示一组已知字符串中最常用的短语,例如产品类别或标签。

考虑使用词云:

  • 显示产品评论中使用的常用单词和短语。

  • 识别现有内容中的常用术语,以改进搜索引擎优化 ( SEO )。

  • 从汇总的用户调查中突出显示特定的客户痛点。

词云通常用于显示词语在长文本字段中出现的频率。默认,词云不会将文本字段分割为单词,而是尝试将整个文本字段可视化为单个值。您可以使用聚合管道将文本字段分割为单个单词。

注意

本教程中使用的数据集包含在Atlas 提供sample_airbnb.listingsAndReviews 数据集中。

以下示例根据包含 AirBnB 出租属性信息的数据集创建词云。每个属性列表都包含一个description字段;描述属性的文本字段。

首先,我们运行聚合管道来预处理description字段。以下聚合管道:

  1. Splitsdescription字段放入数组中,其中每个单独的单词都是一个数组元素。

  2. Unwinds该数组,为每个description字段中的每个单词创建一个新文档。

  3. Adds a new fieldwords 调用到集合中,其中 中的每个展开的单词都会成为description words的值。

  4. 执行$match查询,以便仅将重要的单词添加到词云中。

  1. 将以下聚合管道粘贴到图表生成器顶部的Query栏中:

    [
    {
    $addFields: {
    words: {
    $map: {
    input: { $split: ['$description', ' '] },
    as: 'str',
    in: {
    $trim: {
    input: { $toLower: ['$$str'] },
    chars: " ,|(){}-<>.;"
    }
    }
    }
    }
    }
    },
    { $unwind: '$words' },
    {
    $match: {
    words: {
    $nin: ["", "also", "i", "me", "my", "myself", "we", "us",
    "our", "ours", "ourselves", "you", "your", "yours",
    "yourself", "yourselves", "he", "him", "his",
    "himself", "she", "her", "hers", "herself", "it",
    "its", "itself", "they", "them", "their", "theirs",
    "themselves", "what", "which", "who", "whom", "whose",
    "this", "that", "these", "those", "am", "is", "are",
    "was", "were", "be", "been", "being", "have", "has",
    "had", "having", "do", "does", "did", "doing", "will",
    "would", "should", "can", "could", "ought", "i'm",
    "you're", "he's", "she's", "it's", "we're", "they're",
    "i've", "you've", "we've", "they've", "i'd", "you'd",
    "he'd", "she'd", "we'd", "they'd", "i'll", "you'll",
    "he'll", "she'll", "we'll", "they'll", "isn't",
    "aren't", "wasn't", "weren't", "hasn't", "haven't",
    "hadn't", "doesn't", "don't", "didn't", "won't",
    "wouldn't", "shan't", "shouldn't", "can't", "cannot",
    "couldn't", "mustn't", "let's", "that's", "who's",
    "what's", "here's", "there's", "when's", "where's",
    "why's", "how's", "a", "an", "the", "and", "but",
    "if", "or", "because", "as", "until", "while", "of",
    "at", "by", "for", "with", "about", "against",
    "between", "into", "through", "during", "before",
    "after", "above", "below", "to", "from", "up", "upon",
    "down", "in", "out", "on", "off", "over", "under",
    "again", "further", "then", "once", "here", "there", "when",
    "where", "why", "how", "all", "any", "both", "each",
    "few", "more", "most", "other", "some", "such", "no",
    "nor", "not", "only", "own", "same", "so", "than",
    "too", "very", "say", "says", "said", "shall"]
    }
    }
    }
    ]
  2. 单击Apply以执行管道。

    现在我们有一个包含每条评论中的各个单词的字段,我们可以在词云中可视化这些单词。

  3. 将新创建的words字段应用于Text渠道,将每个单词添加到词云中。

  4. 应用限制为 80 以仅显示评论中最常见的 80 个单词。

  5. words字段应用于Size渠道,并根据每个单词的计数进行聚合。

您的文字云应如下所示:

Word 云示例
点击放大

云中词语的大小代表了它们的相对频率。

词云的最大查询响应大小为 5000 个文档。

后退

数字图