PeterCorless · March 11, 2019 21:57
diff --git a/01-val-connector.scala b/01-val-connector.scala
 val connector = 
  new CassandraConnector(CassandraConnectorConf(sparkContext.getConf))
diff --git a/02-TableDef.scala b/02-TableDef.scala
 import com.datastax.spark.connector.cql.TableDef
 
 case class TableDef(
  keyspaceName: String,
  tableName: String,
  partitionKey: Seq[ColumnDef],
  clusteringColumns: Seq[ColumnDef],
  regularColumns: Seq[ColumnDef],
  indexes: Seq[IndexDef] = Seq.empty,
  isView: Boolean = false
 )
diff --git a/03-Schema.scala b/03-Schema.scala
 import com.datastax.spark.connector.cql.Schema
 
 val tableDef: TableDef = Schema.tableFromCassandra(connector, "keyspace", "table")
diff --git a/04-StructType.scala b/04-StructType.scala
 case class StructType(fields: Array[StructField])
 case class StructField(
    name: String,
    dataType: DataType,
    nullable: Boolean = true,
    metadata: Metadata = Metadata.empty)
diff --git a/05-toStructField.scala b/05-toStructField.scala
 def toStructField(column: ColumnDef): StructField =
  StructField(column.columnName, catalystDataType(column.columnType, nullable = true))
diff --git a/06-val-schema.scala b/06-val-schema.scala
 val schema = StructType(tableDef.columns.map(DataTypeConverter.toStructField))
diff --git a/07-def-select.scala b/07-def-select.scala
 def select(columns: ColumnRef*): Self
diff --git a/08-val-refs.scala b/08-val-refs.scala
 val refs: Seq[ColumnRef] = tableDef.allColumns.map(_.ref)
diff --git a/09-import-WriteTime.scala b/09-import-WriteTime.scala
 import com.datastax.spark.connector.{TTL, WriteTime}
 
 val projection: Seq[ColumnRef] = 
  tableDef.allColumns.flatMap { columnDef =>
    val colName = columnDef.columnName
 
    List(
      columnDef,
      TTL(colName).as(s"${colName}_ttl"),
      WriteTime(colName).as(s"${colName}_writetime")
    )
  }
diff --git a/10-val-projection.scala b/10-val-projection.scala
 val projection: Seq[ColumnRef] = 
  tableDef.partitionKey.map(_.ref) ++
  tableDef.clusteringColumns.map(_.ref) ++
  tableDef.regularColumns.flatMap { columnDef =>
    val colName = columnDef.columnName
 
    List(
      columnDef,
      TTL(colName).as(s"${colName}_ttl"),
      WriteTime(colName).as(s"${colName}_writetime")
    )
diff --git a/11-val-rdd.scala b/11-val-rdd.scala
 val rdd: CassandraRDD[CassandraSQLRow]
  spark.sparkContext
    .cassandraTable[CassandraSQLRow](source.keyspace, source.table)
    .select(projection: _*)
diff --git a/12-val-modifiedSchema.scala b/12-val-modifiedSchema.scala
 val modifiedSchema = 
  StructType(
    for {
      origField <- schema.fields
      isRegular = tableDef.regularColumns.exists(_.ref.columnName == origField.name)
      field <- if (isRegular)
                List(
                  origField,
                  StructField(s"${origField.name}_ttl", LongType, true),
                  StructField(s"${origField.name}_writetime", LongType, true))
              else List(origField)
    } yield field
  )
diff --git a/13-val-dataframe.scala b/13-val-dataframe.scala
 val dataframe = 
  spark.createDataset(rdd)(RowEncoder(modifiedSchema))
diff --git a/14-insert-into-table.cql b/14-insert-into-table.cql
 INSERT INTO table (key1, key2, regular1, regular2)
 VALUES ("a", 1, "reg1", "reg2")
 USING TTL 86400;
diff --git a/15-row.sh b/15-row.sh
 - key1: "a"
 - key2: "b"
 - regular1: "reg1", TTL: 10, WRITETIME: 1000
 - regular2: "reg2", TTL: 10, WRITETIME: 2000
 - regular3: "reg3", TTL: 20, WRITETIME: 3000
 - regular4: "reg4", TTL: 20, WRITETIME: 3000
diff --git a/16-insert-into-table.cql b/16-insert-into-table.cql
 INSERT INTO table (key1, key2, regular1)
 VALUES ("a", 1, "reg1")
 USING TTL 10 AND TIMESTAMP 1000;
 
 INSERT INTO table (key1, key2, regular2)
 VALUES ("a", 1, "reg2")
 USING TTL 10 AND TIMESTAMP 2000;
 
 INSERT INTO table (key1, key2, regular3, regular4)
 VALUES ("a", 1, "reg3", "reg4")
 USING TTL 20 AND TIMESTAMP 3000;
diff --git a/17-CassandraOption.scala b/17-CassandraOption.scala
 sealed trait CassandraOption[+A] extends Product with Serializable
 object CassandraOption {
  case class Value[+A](value: A) extends CassandraOption[A]
  case object Unset extends CassandraOption[Nothing]
  case object Null extends CassandraOption[Nothing]
 }
diff --git a/18-def-flatmap.scala b/18-def-flatmap.scala
 def flatMap[U : Encoder](func: T => TraversableOnce[U]): Dataset[U]
diff --git a/19-def-indexFields.scala b/19-def-indexFields.scala
 def indexFields(fieldNames: List[String],
                tableDef: TableDef) = {
  val fieldIndices = fieldNames.zipWithIndex.toMap
  val primaryKeyIndices: Map[String, Int] =
    (for {
      fieldName <- fieldNames
      if tableDef.primaryKey.exists(_.ref.columnName == fieldName)
      index <- fieldIndices.get(fieldName)
    } yield origFieldName -> index).toMap
 
  val regularKeyIndices: Map[String, (Int, Int, Int)] =
    (for {
      fieldName <- fieldNames
      if tableDef.regularColumns.exists(_.ref.columnName == fieldName)
      fieldIndex     <- fieldIndices.get(fieldName)
      ttlIndex       <- fieldIndices.get(s"${fieldName}_ttl")
      writetimeIndex <- fieldIndices.get(s"${fieldName}_writetime")
    } yield fieldName -> (fieldIndex, ttlIndex, writetimeIndex)).toMap
 
  (primaryKeyIndices, regularKeyIndices)
 } 
diff --git a/20-def-exolodeRow.scala b/20-def-exolodeRow.scala
 def explodeRow(row: Row,
               schema: StructType,
               primaryKeyIndices: Map[String, Int],
               regularKeyIndices: Map[String, (Int, Int, Int)]) =
  if (regularKeyIndices.isEmpty) List(row)
  else
    regularKeyIndices
      .map {
        case (fieldName, (ordinal, ttlOrdinal, writetimeOrdinal)) =>
          (fieldName,
           if (row.isNullAt(ordinal)) CassandraOption.Null
           else CassandraOption.Value(row.get(ordinal)),
           if (row.isNullAt(ttlOrdinal)) None
           else Some(row.getLong(ttlOrdinal)),
           row.getLong(writetimeOrdinal))
      }
      .groupBy {
        case (_, _, ttl, writetime) => (ttl, writetime)
      }
      .mapValues { fieldGroups =>
        fieldGroups
          .map {
            case (fieldName, value, _, _) => fieldName -> value
          }
          .toMap
      }
      .map {
        case ((ttl, writetime), fields) =>
          val newValues = schema.fields.map { field =>
            primaryKeyIndices
              .get(field.name)
              .flatMap { ord =>
                if (row.isNullAt(ord)) None
                else Some(row.get(ord))
              }
              .getOrElse(fields.getOrElse(field.name, CassandraOption.Unset))
          } ++ Seq(ttl.getOrElse(0L), writetime)
 
          Row(newValues: _*)
      }
diff --git a/21-val-indexFields.scala b/21-val-indexFields.scala
 val (primaryKeyOrdinals, regularKeyOrdinals) = indexFields(
  df.schema.fields.map(_.name).toList,
  tableDef)
 
 val broadcastPrimaryKeyOrdinals = spark.sparkContext.broadcast(primaryKeyOrdinals)
 val broadcastRegularKeyOrdinals = spark.sparkContext.broadcast(regularKeyOrdinals)
 val broadcastSchema = spark.sparkContext.broadcast(origSchema)
diff --git a/22-df-flatmap.scala b/22-df-flatmap.scala
 df.flatMap {
  explodeRow(
    _,
    broadcastSchema.value,
    broadcastPrimaryKeyOrdinals.value,
    broadcastRegularKeyOrdinals.value)
 }
diff --git a/23-val-coSelector.scala b/23-val-coSelector.scala
 val colSelector: ColumnSelector = 
  SomeColumns(origSchema.fields.map(x => x.name: ColumnRef))
diff --git a/24-val-writeConf.scala b/24-val-writeConf.scala
 val writeConf = 
  WriteConf.fromSparkConf(spark.sparkContext.getConf)
    .copy(
      ttl       = TTLOption.perRow("ttl"),
      timestamp = TimestampOption.perRow("writetime")
    )
diff --git a/25-df-rdd-saveToCassandra.scala b/25-df-rdd-saveToCassandra.scala
 df.rdd.saveToCassandra(
  keyspaceName,
  tableName,
  colSelector,
  writeConf
 )
diff --git a/26-abstract-class-AccumulatorV2.scala b/26-abstract-class-AccumulatorV2.scala
 abstract class AccumulatorV2[IN, OUT] {
  def isZero: Boolean
  def copy(): AccumulatorV2[IN, OUT]
  def reset(): Unit
  def add(v: IN): Unit
  def merge(other: AccumulatorV2[IN, OUT]): Unit
  def value: OUT
 }
diff --git a/27-import-AtomicReference.scala b/27-import-AtomicReference.scala
 import java.util.concurrent.atomic.AtomicReference
 import java.util.function.UnaryOperator
 import com.datastax.spark.connector.rdd.partitioner.CqlTokenRange
 import org.apache.spark.util.AccumulatorV2
 
 class TokenRangeAccumulator(acc: AtomicReference[Set[CqlTokenRange[_, _]]])
  extends AccumulatorV2[Set[CqlTokenRange[_, _]], Set[CqlTokenRange[_, _]]] {
  override def add(v: Set[CqlTokenRange[_, _]]): Unit =
    acc.getAndUpdate(
      new UnaryOperator[Set[CqlTokenRange[_, _]]] {
        override def apply(t: Set[CqlTokenRange[_, _]]): Set[CqlTokenRange[_, _]] = 
          t ++ v
      }
    )
 
  override def value: AtomicReference[Set[CqlTokenRange[_, _]]] = acc.get()
 }
diff --git a/28-def-extractTokenRange.scala b/28-def-extractTokenRange.scala
 def extractTokenRange(partitionId: Int): Iterable[CqlTokenRange[_, _]] =
  partitions.lift(partitionId) match {
    case Some(CassandraPartition(_, _, ranges, _)) => ranges
    case _ => List()
  }
diff --git a/29-tokenRangeAcc.scala b/29-tokenRangeAcc.scala
 tokenRangeAcc.foreach(_.add(tokenRanges.toSet))
diff --git a/30-def-startSavepointSchedule.scala b/30-def-startSavepointSchedule.scala
 def startSavepointSchedule(svc: ScheduledThreadPoolExecutor,
                           config: MigratorConfig,
                           acc: TokenRangeAccumulator): Unit = {
  val runnable = new Runnable {
    override def run(): Unit =
      try dumpAccumulatorState(config, acc, "schedule")
      catch {
        case e: Throwable =>
          log.error("Could not create the savepoint. This will be retried.", e)
      }
  }
 
  log.info(
    s"Starting savepoint schedule; will write a savepoint every ${config.savepoints.intervalSeconds} seconds")
 
  svc.scheduleAtFixedRate(runnable, 0, config.savepoints.intervalSeconds, TimeUnit.SECONDS)
 }
diff --git a/31-val-tokenRanges.scala b/31-val-tokenRanges.scala
 val tokenRanges = 
  partition.tokenRanges.filter { cqlRange =>
    val (start, end) = (cqlRange.range.start.value, cqlRange.range.end.value) match {
      case (s: Long, e: Long) => (s, e)
      case _ =>
        throw new Exception("Encountered TokenRanges that use tokens of a type that isn't Long." +
          "This probably means that the server is using a Random partitioner which is currently" +
          s"unsupported. Range: ${cqlRange.range}")
    }
 
    tokenRangeFilter(start, end)
  }
	val connector =
	new CassandraConnector(CassandraConnectorConf(sparkContext.getConf))
	import com.datastax.spark.connector.cql.TableDef

	case class TableDef(
	keyspaceName: String,
	tableName: String,
	partitionKey: Seq[ColumnDef],
	clusteringColumns: Seq[ColumnDef],
	regularColumns: Seq[ColumnDef],
	indexes: Seq[IndexDef] = Seq.empty,
	isView: Boolean = false
	)
	import com.datastax.spark.connector.cql.Schema

	val tableDef: TableDef = Schema.tableFromCassandra(connector, "keyspace", "table")
	case class StructType(fields: Array[StructField])
	case class StructField(
	name: String,
	dataType: DataType,
	nullable: Boolean = true,
	metadata: Metadata = Metadata.empty)
	def toStructField(column: ColumnDef): StructField =
	StructField(column.columnName, catalystDataType(column.columnType, nullable = true))
	import com.datastax.spark.connector.{TTL, WriteTime}

	val projection: Seq[ColumnRef] =
	tableDef.allColumns.flatMap { columnDef =>
	val colName = columnDef.columnName

	List(
	columnDef,
	TTL(colName).as(s"${colName}_ttl"),
	WriteTime(colName).as(s"${colName}_writetime")
	)
	}
	val projection: Seq[ColumnRef] =
	tableDef.partitionKey.map(_.ref) ++
	tableDef.clusteringColumns.map(_.ref) ++
	tableDef.regularColumns.flatMap { columnDef =>
	val colName = columnDef.columnName

	List(
	columnDef,
	TTL(colName).as(s"${colName}_ttl"),
	WriteTime(colName).as(s"${colName}_writetime")
	)
	val rdd: CassandraRDD[CassandraSQLRow]
	spark.sparkContext
	.cassandraTable[CassandraSQLRow](source.keyspace, source.table)
	.select(projection: _*)
	val modifiedSchema =
	StructType(
	for {
	origField <- schema.fields
	isRegular = tableDef.regularColumns.exists(_.ref.columnName == origField.name)
	field <- if (isRegular)
	List(
	origField,
	StructField(s"${origField.name}_ttl", LongType, true),
	StructField(s"${origField.name}_writetime", LongType, true))
	else List(origField)
	} yield field
	)
	val dataframe =
	spark.createDataset(rdd)(RowEncoder(modifiedSchema))