1Ô²ŸÕÊͳö1.6°æµÄ´óÊý¾Ý¼¼ÊõSpark£¬ÏÂÒ»¸ö2.0°æ±¾Ô¤¼Æ4¡¢5ÔÂÊͳö£¬½«Ìṩ¿ÉÔËÐÐÔÚSQL/DataframeÉϵĽṹ»¯´®Á÷¼´Ê±ÒýÇæ£¬²¢Í³Ò»»¯Dataset¼°DataFrame
´óÊý¾Ý¼¼ÊõSpark½ñÄê1Ô²ŸÕÊͳö1.6°æ£¬ÏÂÒ»¸ö2.0°æ±¾¾ÍÒѾÐîÊÆ´ý·¢£¬Ô¤¼Æ½ñÄê4¡¢5ÔÂÊͳö£¬½üÈÕSpark´´°ìÈË¡¢Í¬Ê±Ò²ÊÇ Databricks¼¼Êõ³¤µÄMatei Zaharia£¬¸üÔÚ2016 Spark SummitÉÏ£¬ÇÀÏȽÒ¶ÁËSpark 2.0¼´½«´øÀ´µÄ3´óÖ÷ÒªÌØÉ«£º°üÀ¨ÄÜ´ó·ùÌáÉýSparkƽ̨ЧÄܵÄProject Tungsten¼´½«½øÈëµÚ¶þ½×¶Î£¬Ìṩº¸ÇÍêÕû½×¶ÎµÄ³ÌʽÂë²úÉúÆ÷£¬Spark 2.0Ò²½«Ìṩ¿ÉÔËÐÐÔÚSQL/DataframeÉϵĽṹ»¯´®Á÷¼´Ê±ÒýÇæ£¬²¢Í³Ò»»¯Dataset¼°DataFrame¡£
ÆäÖУ¬³ÖÐø¸ÄÉÆSparkÓ¦ÓóÌʽµÄ¼ÇÒäÌå¼°CPUЧÄܵÄProject Tungsten£¬ÊÇÒ»Ïî°ïÖúSpark´ó·ùÌáÉýºËÐÄÒýÇæÐ§Äܵij¤ÆÚר°¸£¬Ä¿µÄÊÇÒªÈÃSparkÖ´ÐÐЧÄÜ´ïµ½Ó²ÌåÉ豸µÄ¼«ÏÞ£¬½åÓÉÄÚ½¨ÔÉú¼ÇÒäÌå¹ÜÀí»úÖÆ ÒÔ¼°Runtime²ã¼¶µÄ³ÌʽÂë²úÉúÆ÷£¬À´´ïµ½½Ó½üÂã»úµÄЧÄÜ¡£
Spark´Ó1.4µ½1.6°æ±¾Ê±£¬±ã¿ªÊ¼¿¿ TungstenÀ´ÓÅ»¯SparkµÄ×ÊÁÏ´¦ÀíЧÄÜ£¬³ýÁ˼ÓÈë¶þ½øÎ»µÄ´¢´æ·½Ê½£¬ÒÔ¼°»ù´¡µÄ³ÌʽÂë²úÉúÆ÷£¬Ò²Ôö¼ÓÁËÓÃÀ´ÃèÊöRDD½á¹¹µÄDataFrame ¸ñʽ£¬ÒÔ¼°ÐµÄ×ÊÁϼ¯API£¨Dataset API£©£¬ÈÃTungsten¿É±»ÔËÐÐÔÚʹÓÃÕßר°¸ÖÐÀ´ÌáÉýЧÄܱíÏÖ£¬Ò²¿ÉÓÃÓÚSpark SQL¼°²¿·ÖµÄMLlibÉÏ¡£Spark 1.6ÐÂÔöÁË»ùÓÚDataFrameµÄÀ©³äÔª¼þDataset API£¬Ïà½ÏÓÚ¹ýÈ¥µÄRDD API£¬DatasetÌṩ¸üºÃµÄ¼ÇÒäÌå¹ÜÀíЧÄÜ£¬¼°½Ï¼ÑµÄ³¤Ê±¼äÖ´ÐÐЧÄÜ¡£
¶øSpark2.0°æ±¾Ôò½«½øÒ»²½Ìṩº¸ÇÍêÕû½×¶ÎµÄ³ÌʽÂë²úÉúÆ÷£¬²»½öÄÜÒÆ³ýµÝ?ʽºô½Ð£¬¼õÉÙЧÄÜËðºÄ£¬»¹ÄܽøÐпçÔËËã×ÓÖ®¼äµÄÕûºÏ£¬²¢½åÓÉParquet¼°ÄÚ½¨¿ìÈ¡£¨Built-in Cache£©À´ÓÅ»¯I/OЧÄÜ¡£
Ô¤¼ÆSpark2.0µÄЧÄܽ«·9±¶£¬´Ó1.6°æÊ±Ã¿Ãë¿É´¦ÀíµÄ1,400Íò¸öÀ¸Î»£¬±©Ôöµ½1ÒÚ2,500Íò£¬ÆäÖеÄParquetЧÄÜ£¬Ò²½«´Óÿ Ãë1,100ÍòÌáÉýµ½Ã¿Ãë9,000Íò±Ê¡£Databricks±íʾ£¬Spark¼¼ÊõÔÚ2015ÄêÓзdz£ÏÔÖøµÄ³É³¤£¬Æä¹±Ï×ÕßÔÚ2015ÄêÒѾ³¬¹ý 1000ÈË£¬ÊÇ2014ÄêµÄ2±¶£¬²ÎÓë¸÷µØÇø¶¨ÆÚ¾Û»áµÄ»áÔ±ÊýÁ¿Ò²´Ó1Íò¶àÈ˱©ÔöÖÁ6Íò¶àÈË¡£¶øSpark 2.0½«ÊÇÏÂÒ»¸öÖØ´ó¸üа汾£¬Ô¤¼Æ½ñÄê4¡¢5ÔÂÊͳö¡£
ÏÂÔØµØÖ·£ºhttp://spark.apache.org/downloads.html
À´×Ô:¿ªÔ´ÖйúÉçÇø

