Scala Spark WordCount 例子

pom文件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.smj</groupId>
    <artifactId>test</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.2.2</version>
        </dependency>

    </dependencies>
</project>

源码1

package wordcount

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ScalaSparkWordCount {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.INFO)
    Logger.getLogger("org.apache.hadoop").setLevel(Level.INFO)
    Logger.getLogger("org.spark_project").setLevel(Level.INFO)

    // 1 创建编程入口
    val conf = new SparkConf()
      .setMaster("local[*]")
      .setAppName("SparkWordCount")

    val sc = new SparkContext(conf)

    // 2 加载本地文件数据
    val linesRDD:RDD[String] = sc.textFile("file:\\D:\\Workspace\\test\\src\\main\\resources\\hello.txt")

    // 3 用算子对数据进行处理
    val ret = linesRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_ + _)

    // 打印输出
    ret.foreach(t => println(t._1 + "-" + t._2))

    sc.stop()
  }
}

源码2

package wordcount

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ScalaSparkWordCount {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.INFO)
    Logger.getLogger("org.apache.hadoop").setLevel(Level.INFO)
    Logger.getLogger("org.spark_project").setLevel(Level.INFO)

    // 1 创建编程入口
    val conf = new SparkConf()
      .setMaster("local[*]")
      .setAppName("SparkWordCount")

    val sc = new SparkContext(conf)

    // 2 加载本地文件数据
    val linesRDD:RDD[String] = sc.textFile("file:\\D:\\Workspace\\test\\src\\main\\resources\\hello.txt")

    // 3 用算子进行运算
    val wordsRDD:RDD[String] = linesRDD.flatMap(line => line.split(","))

    val pairsRDD:RDD[(String, Int)] = wordsRDD.map(word => (word, 1))

    val ret:RDD[(String, Int)] = pairsRDD.reduceByKey((v1, v2) => v1 + v2)

    // 打印输出
    ret.foreach{case (word, count) => println(word + "-" + count)}

    sc.stop()
  }
}

飞天使-k8sv1.14二进制安装

文章目录

java media player_如何在Java中执行Windows Media Player之类的外部程序？

使用运行时类 Java提供了一个名为java.lang.Runtime的类，使用该类可以与当前环境进行接口。 getRunTime()这个类的(静态)方法返回与当前应用程序相关联的运行时对象。 exec()方法接受表示在当前环境(系统)中

GO语言int、float32转对应16进制字符串

通常用于数据规约解析，例如我们需要将整数和浮点型小数转成16进制字符串后，再转成字节数组数据传递TCP，详细看下面的工具类， package main import ( "encoding/binary" "encoding/he

计算机毕业设计之微信小程序美容理发店预约系统app

爱美是女人的天性，所以我的关注点自然在于美容上。经过调查，包括询问家中的长辈以及附近美容院的人，发现现在的美容院已经不再仅仅只有保养脸了。他们更多的加入了身体的护理以及养生的概念。这样一来，美容院本身的项目逐渐增多，产品逐渐增多。因此员工的工作量也加大了许多。为美容院设计一个系统

Java常见帮助类（9）日期帮助类（一）

public class DateUtils { /** * 获取时间 * * @param num +今天后某天 -今天前某几天 * @return */

TensorFlow 未使用高级 CPU 指令，CPU存在警告：I tensorflow/core/platform/cpu_feature_guard.cc:193] I tensorflow/.

1、项目场景：在测试tensorflow安装是否成功时，出现以下问题，虽然不影响程序的运行，还是好奇的查了下解决办法。 “I tensorflow/core/platform/cpu_feature_guard

游戏服务器维护重启,游戏服务器需要定期重启吗

游戏服务器需要定期重启吗内容精选换一换

2019.10.23【NOIP提高组】模拟 A 组

这次比赛炸了。 T1：首先我们枚举i、j两种试剂，然后我们发现这两种试剂对所有k影响呈一个梯形（即一段递增、一段相同、再一段递减），这个自己推一推就知道了。那么有了这个性质以后，我们可以用差分套差分来维护答案。这样这道题就做完了。总结：考试时我

《zw版·Halcon-delphi系列原创教程》 3d汽车模型自动区域分割

《zw版·Halcon-delphi系列原创教程》 3d汽车模型自动区域分割目前，图像分析，在3D设计，机器视觉方面拥有很广。这个Halcon脚本是3d汽车模型自动

Echarts dataZoom x轴横坐标缩放

https://echarts.apache.org/zh/option.html#dat