Кластеризация и визуализация текстовой информации. Способы визуализации текстовой информации Форма проведения урока

Конспект урока Визуализация информации в текстовых документах (8 класс, урок 25, учебник Босова Л.Л.). На уроке происходит обобщение представлений о способах создания списков, таблиц, графических объектов и возможностях их использования в текстовых документах.

Планируемые образовательные результаты:
— предметные – умения использования средств структурирования и визуализации текстовой информации;
— метапредметные – широкий спектр умений и навыков использования средств информационных и коммуникационных технологий для создания текстовых документов; навыки рационального использования имеющихся инструментов;
— личностные – понимание социальной, общекультурной роли в жизни современного человека навыков создания текстовых документов.

Решаемые учебные задачи:
1) обобщение представлений о способах создания списков и возможностях их использования в текстовых документах;
2) обобщение представлений о способах создания таблиц и возможностях их использования в текстовых документах;
3) обобщение представлений о возможностях использования графических объектов в текстовых документах.

Основные понятия, изучаемые на уроке:
— нумерованные списки;
— маркированные списки;
— многоуровневые списки;
— таблица;
— графические изображения.

Используемые на уроке средства ИКТ:
— персональный компьютер (ПК) учителя, мультимедийный проектор, экран;
— ПК учащихся.

Электронные образовательные ресурсы
— презентация «Визуализация информации в текстовых документах».

Особенности изложения содержания темы урока

1. Организационный момент (1 минута)
Приветствие учащихся, сообщение темы и целей урока.

2. Повторение (5 минут)
1) проверка изученного материала по вопросам (4-9) к §4.3;
2) визуальная проверка выполнения домашнего задания в РТ: 188-189;
3) рассмотрение заданий, вызвавших затруднения при выполнении домашнего задания.

3. Изучение нового материала (20 минут)
Новый материал излагается в сопровождении презентации «Визуализация информации в текстовых документах».

1 слайд - название презентации;

2 слайд - ключевые слова;
— нумерованные списки
— маркированные списки
— многоуровневые списки
— таблица
— графические изображения

3 слайд - визуализация (схема с примерами) ;
Визуализация – представление информации в наглядном виде. Текстовую информацию представляют в виде списков, таблиц, диаграмм, снабжают иллюстрациями (фотографиями, схемами, рисунками).

4 слайд - списки (схема) ;
Всевозможные перечни в документах оформляются с помощью списков .
Пункты перечня рассматриваются как абзацы, оформленные по единому образцу.
Элементы (пункты) нумерованного списка обозначаются с помощью последовательных чисел, для записи которых могут использоваться арабские и римские цифры. Элементы списка могут быть пронумерованы и буквами - русскими или латинскими.
Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов. Особенно часто такие списки используют для описания последовательности действий.
Нумерованные списки вы регулярно создаёте, заполняя в дневнике расписание уроков на каждый учебный день.
Элементы маркированного списка обозначаются с помощью значков-маркеров . Пользователь может выбрать в качестве маркера любой символ компьютерного алфавита, и даже небольшое графическое изображение. С помощью маркированного списка оформлены ключевые слова в начале каждого параграфа вашего учебника.
Маркированный список используют в тех случаях, когда порядок следования элементов в нём не важен. Например, в виде маркированного списка можно оформить перечень предметов, изучаемых вами в 8 классе.
По структуре различают одноуровневые и многоуровневые списки.
Список, элемент которого сам является списком, называется многоуровневым. Так, оглавление вашего учебника информатики является многоуровневым (трёхуровневым) списком.
Списки создаются в текстовом процессоре с помощью команды строки меню или кнопок панели форматирования

5 слайд - таблицы (схемы) ;
Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов (граф) и строк. Вам хорошо известно табличное представление расписания уроков, в табличной форме представляются расписания движения автобусов, самолётов, поездов и многое другое.
Представленная в таблице информация наглядна, компактна и легкообозрима.
Необходимо соблюдать следующие правила оформления таблиц:
1. Заголовок таблицы должен давать представление о содержащейся в ней информации.
2. Заголовки столбцов и строк должны быть краткими, не содержать лишних слов и, по возможности, сокращений.
3. В таблице должны быть указаны единицы измерения. Если они общие для всей таблицы, то указываются в заголовке таблицы (либо в скобках, либо через запятую после названия). Если единицы измерения различаются, то они указываются в заголовке соответствующей строки или столбца.
4. Желательно, чтобы все ячейки таблицы были заполнены. При необходимости в них заносят следующие условные обозначения:
? -данные неизвестны;
х - данные невозможны;
↓ - данные должны быть взяты из вышележащей ячейки.
В ячейках таблиц могут быть размещены тексты, числа, изображения.
Создать таблицу можно с помощью соответствующего пункта меню или кнопки на панели инструментов, указав необходимое число столбцов и строк; в некоторых текстовых процессорах таблицу можно «нарисовать».

Просмотр и обсуждение анимации «Работа с таблицами».

6 слайд - графические изображения (схемы) ;
Современные текстовые процессоры позволяют включать в документы различные графические изображения.
Готовые графические изображения можно редактировать, изменяя их размеры, основные цвета, яркость и контрастность, поворачивая, накладывая друг на друга и т. д.
Визуализировать числовую информацию, содержащуюся в таблице, можно с помощью диаграмм, средства создания которых также включены в текстовые процессоры.
Наиболее мощные текстовые процессоры позволяют строить разные виды графических схем, обеспечивающих визуализацию текстовой информации.

7 слайд - самое главное.
Текстовая информация визуализирована , если она организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами).
Все возможные перечни в документах оформляются с помощью списков. По способу оформления различают нумерованные и маркированные списки. Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов; маркированный — когда порядок следования пунктов в нём не важен.
По структуре различают одноуровневые и многоуровневые списки.
Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы , состоящие из столбцов и строк.
В современных текстовых процессорах предусмотрены возможности включения, обработки и создания графических объектов .

Вопросы и задания
8 слайд – вопросы и задания.
Вопросы 1-8 к параграфу 4.4.

4. Практическая часть (15 минут)
В практической части урока учащиеся выполняют задания 4.18-4.21 из заданий для практических работ к главе 4.
Если позволяет время, можно выполнить задание 4.17.

5. Подведение итогов урока. Сообщение домашнего задания. Выставление оценок (4 минуты)
9 слайд - опорный конспект;
10 слайд - Д/з.

Домашнее задание.
§4.4, вопросы и задания 1-8 к параграфу.
Дополнительное задание: подготовить сообщение об инфографике и нескольких инструментах создания инфографики.

Весь материал к уроку находится в архиве.

Архив включает в себя:
— конспект,
— презентация «Визуализация информации в текстовых документах»,
— анимация «Работа с таблицами»,
— анимация «Работа с графикой»,
— заготовка для практической работы «Мышь.jpg».

Скачать (2.35 МБ, rar): Конспект урока

В русскоязычном секторе интернета очень мало учебных практических примеров (а с примером кода ещё меньше) анализа текстовых сообщений на русском языке. Поэтому я решил собрать данные воедино и рассмотреть пример кластеризации, так как не требуется подготовка данных для обучения.

Большинство используемых библиотек уже есть в дистрибутиве Anaconda 3 , поэтому советую использовать его. Недостающие модули/библиотеки можно установить стандартно через pip install «название пакета».
Подключаем следующие библиотеки:

Import numpy as np import pandas as pd import nltk import re import os import codecs from sklearn import feature_extraction import mpld3 import matplotlib.pyplot as plt import matplotlib as mpl
Для анализа можно взять любые данные. Мне на глаза тогда попала данная задача: Статистика поисковых запросов проекта Госзатраты . Им нужно было разбить данные на три группы: частные, государственные и коммерческие организации. Придумывать экстраординарное ничего не хотелось, поэтому решил проверить, как поведет кластеризация в данном случае (забегая наперед - не очень). Но можно выкачать данные из VK какого-нибудь паблика:

Import vk #передаешь id сессии session = vk.Session(access_token="") # URL для получения access_token, вместо tvoi_id вставляете id созданного приложения Вк: # https://oauth.vk.com/authorize?client_id=tvoi_id&scope=friends,pages,groups,offline&redirect_uri=https://oauth.vk.com/blank.html&display=page&v=5.21&response_type=token api = vk.API(session) poss= id_pab=-59229916 #id пабликов начинаются с минуса, id стены пользователя без минуса info=api.wall.get(owner_id=id_pab, offset=0, count=1) kolvo = (info//100)+1 shag=100 sdvig=0 h=0 import time while h70): print(h) #не обязательное условие, просто для контроля примерного окончания процесса pubpost=api.wall.get(owner_id=id_pab, offset=sdvig, count=100) i=1 while i < len(pubpost): b=pubpost[i]["text"] poss.append(b) i=i+1 h=h+1 sdvig=sdvig+shag time.sleep(1) len(poss) import io with io.open("public.txt", "w", encoding="utf-8", errors="ignore") as file: for line in poss: file.write("%s\n" % line) file.close() titles = open("public.txt", encoding="utf-8", errors="ignore").read().split("\n") print(str(len(titles)) + " постов считано") import re posti= #удалим все знаки препинания и цифры for line in titles: chis = re.sub(r"(\<(/?[^>]+)>)", " ", line) #chis = re.sub() chis = re.sub("[^а-яА-Я ]", "", chis) posti.append(chis)
Я буду использовать данные поисковых запросов чтобы показать, как плохо кластеризуются короткие текстовые данные. Я заранее очистил от спецсимволов и знаков препинания текст плюс провел замену сокращений (например, ИП – индивидуальный предприниматель). Получился текст, где в каждой строке находился один поисковый запрос.

Считываем данные в массив и приступаем к нормализации – приведению слова к начальной форме. Это можно сделать несколькими способами, используя стеммер Портера, стеммер MyStem и PyMorphy2. Хочу предупредить – MyStem работает через wrapper, поэтому скорость выполнения операций очень медленная. Остановимся на стеммере Портера, хотя никто не мешает использовать другие и комбинировать их с друг другом (например, пройтись PyMorphy2, а после стеммером Портера).

Titles = open("material4.csv", "r", encoding="utf-8", errors="ignore").read().split("\n") print(str(len(titles)) + " запросов считано") from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") def token_and_stem(text): tokens = filtered_tokens = for token in tokens: if re.search("[а-яА-Я]", token): filtered_tokens.append(token) stems = return stems def token_only(text): tokens = filtered_tokens = for token in tokens: if re.search("[а-яА-Я]", token): filtered_tokens.append(token) return filtered_tokens #Создаем словари (массивы) из полученных основ totalvocab_stem = totalvocab_token = for i in titles: allwords_stemmed = token_and_stem(i) #print(allwords_stemmed) totalvocab_stem.extend(allwords_stemmed) allwords_tokenized = token_only(i) totalvocab_token.extend(allwords_tokenized)

Pymorphy2

import pymorphy2 morph = pymorphy2.MorphAnalyzer() G= for i in titles: h=i.split(" ") #print(h) s="" for k in h: #print(k) p = morph.parse(k).normal_form #print(p) s+=" " s += p #print(s) #G.append(p) #print(s) G.append(s) pymof = open("pymof_pod.txt", "w", encoding="utf-8", errors="ignore") pymofcsv = open("pymofcsv_pod.csv", "w", encoding="utf-8", errors="ignore") for item in G: pymof.write("%s\n" % item) pymofcsv.write("%s\n" % item) pymof.close() pymofcsv.close()

pymystem3

Исполняемые файлы анализатора для текущей операционной системы будут автоматически загружены и установлены при первом использовании библиотеки.

From pymystem3 import Mystem m = Mystem() A = for i in titles: #print(i) lemmas = m.lemmatize(i) A.append(lemmas) #Этот массив можно сохранить в файл либо "забэкапить" import pickle with open("mystem.pkl", "wb") as handle: pickle.dump(A, handle)

Создадим матрицу весов TF-IDF. Будем считать каждый поисковой запрос за документ (так делают при анализе постов в Twitter, где каждый твит – это документ). tfidf_vectorizer мы возьмем из пакета sklearn, а стоп-слова мы возьмем из корпуса ntlk (изначально придется скачать через nltk.download()). Параметры можно подстроить как вы считаете нужным – от верхней и нижней границы до количества n-gram (в данном случае возьмем 3).

Stopwords = nltk.corpus.stopwords.words("russian") #можно расширить список стоп-слов stopwords.extend(["что", "это", "так", "вот", "быть", "как", "в", "к", "на"]) from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer n_featur=200000 tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=10000, min_df=0.01, stop_words=stopwords, use_idf=True, tokenizer=token_and_stem, ngram_range=(1,3)) get_ipython().magic("time tfidf_matrix = tfidf_vectorizer.fit_transform(titles)") print(tfidf_matrix.shape)
Над полученной матрицей начинаем применять различные методы кластеризации:

Num_clusters = 5 # Метод к-средних - KMeans from sklearn.cluster import KMeans km = KMeans(n_clusters=num_clusters) get_ipython().magic("time km.fit(tfidf_matrix)") idx = km.fit(tfidf_matrix) clusters = km.labels_.tolist() print(clusters) print (km.labels_) # MiniBatchKMeans from sklearn.cluster import MiniBatchKMeans mbk = MiniBatchKMeans(init="random", n_clusters=num_clusters) #(init="k-means++", ‘random’ or an ndarray) mbk.fit_transform(tfidf_matrix) %time mbk.fit(tfidf_matrix) miniclusters = mbk.labels_.tolist() print (mbk.labels_) # DBSCAN from sklearn.cluster import DBSCAN get_ipython().magic("time db = DBSCAN(eps=0.3, min_samples=10).fit(tfidf_matrix)") labels = db.labels_ labels.shape print(labels) # Аггломеративная класстеризация from sklearn.cluster import AgglomerativeClustering agglo1 = AgglomerativeClustering(n_clusters=num_clusters, affinity="euclidean") #affinity можно выбрать любое или попробовать все по очереди: cosine, l1, l2, manhattan get_ipython().magic("time answer = agglo1.fit_predict(tfidf_matrix.toarray())") answer.shape
Полученные данные можно сгруппировать в dataframe и посчитать количество запросов, попавших в каждый кластер.

#k-means clusterkm = km.labels_.tolist() #minikmeans clustermbk = mbk.labels_.tolist() #dbscan clusters3 = labels #agglo #clusters4 = answer.tolist() frame = pd.DataFrame(titles, index = ) #k-means out = { "title": titles, "cluster": clusterkm } frame1 = pd.DataFrame(out, index = , columns = ["title", "cluster"]) #mini out = { "title": titles, "cluster": clustermbk } frame_minik = pd.DataFrame(out, index = , columns = ["title", "cluster"]) frame1["cluster"].value_counts() frame_minik["cluster"].value_counts()
Из-за большого количества запросов не совсем удобно смотреть таблицы и хотелось бы больше интерактивности для понимания. Поэтому сделаем графики взаимного расположения запросов относительного друг друга.

Сначала необходимо вычислить расстояние между векторами. Для этого будет применяться косинусовое расстояние. В статьях предлагают использовать вычитание из единицы, чтобы не было отрицательных значений и находилось в пределах от 0 до 1, поэтому сделаем так же:

From sklearn.metrics.pairwise import cosine_similarity dist = 1 - cosine_similarity(tfidf_matrix) dist.shape
Так как графики будут двух-, трехмерные, а исходная матрица расстояний n-мерная, то придется применять алгоритмы снижения размерности. На выбор есть много алгоритмов (MDS, PCA, t-SNE), но остановим выбор на Incremental PCA. Этот выбор сделан в следствии практического применения – я пробовал MDS и PCA, но оперативной памяти мне не хватало (8 гигабайт) и когда начинал использоваться файл подкачки, то можно было сразу уводить компьютер на перезагрузку.

Алгоритм Incremental PCA используется в качестве замены метода главных компонентов (PCA), когда набор данных, подлежащий разложению, слишком велик, чтобы разместиться в оперативной памяти. IPCA создает низкоуровневое приближение для входных данных, используя объем памяти, который не зависит от количества входных выборок данных.

# Метод главных компонент - PCA from sklearn.decomposition import IncrementalPCA icpa = IncrementalPCA(n_components=2, batch_size=16) get_ipython().magic("time icpa.fit(dist) #demo =") get_ipython().magic("time demo2 = icpa.transform(dist)") xs, ys = demo2[:, 0], demo2[:, 1] # PCA 3D from sklearn.decomposition import IncrementalPCA icpa = IncrementalPCA(n_components=3, batch_size=16) get_ipython().magic("time icpa.fit(dist) #demo =") get_ipython().magic("time ddd = icpa.transform(dist)") xs, ys, zs = ddd[:, 0], ddd[:, 1], ddd[:, 2] #Можно сразу примерно посмотреть, что получится в итоге #from mpl_toolkits.mplot3d import Axes3D #fig = plt.figure() #ax = fig.add_subplot(111, projection="3d") #ax.scatter(xs, ys, zs) #ax.set_xlabel("X") #ax.set_ylabel("Y") #ax.set_zlabel("Z") #plt.show()
Перейдем непосредственно к самой визуализации:

From matplotlib import rc #включаем русские символы на графике font = {"family" : "Verdana"}#, "weigth": "normal"} rc("font", **font) #можно сгенерировать цвета для кластеров import random def generate_colors(n): color_list = for c in range(0,n): r = lambda: random.randint(0,255) color_list.append("#%02X%02X%02X" % (r(),r(),r())) return color_list #устанавливаем цвета cluster_colors = {0: "#ff0000", 1: "#ff0066", 2: "#ff0099", 3: "#ff00cc", 4: "#ff00ff",} #даем имена кластерам, но из-за рандома пусть будут просто 01234 cluster_names = {0: "0", 1: "1", 2: "2", 3: "3", 4: "4",} #matplotlib inline #создаем data frame, который содержит координаты (из PCA) + номера кластеров и сами запросы df = pd.DataFrame(dict(x=xs, y=ys, label=clusterkm, title=titles)) #группируем по кластерам groups = df.groupby("label") fig, ax = plt.subplots(figsize=(72, 36)) #figsize подбирается под ваш вкус for name, group in groups: ax.plot(group.x, group.y, marker="o", linestyle="", ms=12, label=cluster_names, color=cluster_colors, mec="none") ax.set_aspect("auto") ax.tick_params(axis= "x", which="both", bottom="off", top="off", labelbottom="off") ax.tick_params(axis= "y", which="both", left="off", top="off", labelleft="off") ax.legend(numpoints=1) #показать легенду только 1 точки #добавляем метки/названия в х,у позиции с поисковым запросом #for i in range(len(df)): # ax.text(df.ix[i]["x"], df.ix[i]["y"], df.ix[i]["title"], size=6) #показать график plt.show() plt.close()
Если раскомментировать строку с добавлением названий, то выглядеть это будет примерно так:

Пример с 10 кластерами

Не совсем то, что хотелось бы ожидать. Воспользуемся mpld3 для перевода рисунка в интерактивный график.

# Plot fig, ax = plt.subplots(figsize=(25,27)) ax.margins(0.03) for name, group in groups_mbk: points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=12, #ms=18 label=cluster_names, mec="none", color=cluster_colors) ax.set_aspect("auto") labels = tooltip = mpld3.plugins.PointHTMLTooltip(points, labels, voffset=10, hoffset=10, #css=css) mpld3.plugins.connect(fig, tooltip) # , TopToolbar() ax.axes.get_xaxis().set_ticks() ax.axes.get_yaxis().set_ticks() #ax.axes.get_xaxis().set_visible(False) #ax.axes.get_yaxis().set_visible(False) ax.set_title("Mini K-Means", size=20) #groups_mbk ax.legend(numpoints=1) mpld3.disable_notebook() #mpld3.display() mpld3.save_html(fig, "mbk.html") mpld3.show() #mpld3.save_json(fig, "vivod.json") #mpld3.fig_to_html(fig) fig, ax = plt.subplots(figsize=(51,25)) scatter = ax.scatter(np.random.normal(size=N), np.random.normal(size=N), c=np.random.random(size=N), s=1000 * np.random.random(size=N), alpha=0.3, cmap=plt.cm.jet) ax.grid(color="white", linestyle="solid") ax.set_title("Кластеры", size=20) fig, ax = plt.subplots(figsize=(51,25)) labels = ["point {0}".format(i + 1) for i in range(N)] tooltip = mpld3.plugins.PointLabelTooltip(scatter, labels=labels) mpld3.plugins.connect(fig, tooltip) mpld3.show()fig, ax = plt.subplots(figsize=(72,36)) for name, group in groups: points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=18, label=cluster_names, mec="none", color=cluster_colors) ax.set_aspect("auto") labels = tooltip = mpld3.plugins.PointLabelTooltip(points, labels=labels) mpld3.plugins.connect(fig, tooltip) ax.set_title("K-means", size=20) mpld3.display()
Теперь при наведении на любую точку графика всплывает текст с соотвествующим поисковым запросом. Пример готового html файла можно посмотреть здесь: Mini K-Means

Если хочется в 3D и с изменяемым масштабом, то существует сервис Plotly , который имеет плагин для Python.

Plotly 3D

#для примера просто 3D график из полученных значений import plotly plotly.__version__ import plotly.plotly as py import plotly.graph_objs as go trace1 = go.Scatter3d(x=xs, y=ys, z=zs, mode="markers", marker=dict(size=12, line=dict(color="rgba(217, 217, 217, 0.14)", width=0.5), opacity=0.8)) data = layout = go.Layout(margin=dict(l=0, r=0, b=0, t=0)) fig = go.Figure(data=data, layout=layout) py.iplot(fig, filename="cluster-3d-plot")

Результаты можно увидеть здесь: Пример

И заключительным пунктом выполним иерархическую (аггломеративную) кластеризацию по методу Уорда для создания дендограммы.

In : from scipy.cluster.hierarchy import ward, dendrogram linkage_matrix = ward(dist) fig, ax = plt.subplots(figsize=(15, 20)) ax = dendrogram(linkage_matrix, orientation="right", labels=titles); plt.tick_params(\ axis= "x", which="both", bottom="off", top="off", labelbottom="off") plt.tight_layout() #сохраним рисунок plt.savefig("ward_clusters2.png", dpi=200)
Выводы

К сожалению, в области исследования естественного языка очень много нерешённых вопросов и не все данные легко и просто сгруппировать в конкретные группы. Но надеюсь, что данное руководство усилит интерес к данной теме и даст базис для дальнейших экспериментов.

Конспект урока по информатике в условиях реализации ФГОС

«Визуализация информации в текстовых документах»

Класс: 7.

Тип урока: изучение нового материала, первичное закрепление.

Форма урока: фронтальная работа с классом, компьютерный практикум.

Метод: объяснительно-иллюстративный.

Цель урока: научиться использовать операции форматирования при создании текстового документа.

Задачи урока :

Предметные:

- сформировать представление о визуализации информации в текстовых документах;

- познакомить учащихся со списками, с их видами;

- научить составлять маркированные и нумерованные списки;

Познакомить учащихся с таблицами;

Научить применять таблицы в текстовых документах.

Метапредметные :

- формирование приемом логического мышления ;

- развитие навыков и умений работать со списками и таблицами;

- развитие интереса к предмету, информационной культуры;

- формирование УУД (личностных, регулятивных, познавательных);

- развивать способность анализировать и обобщать, делать выводы, расширение кругозора.

Личностные :

Воспитание усидчивости, самостоятельности, интереса к предмету;

Привить навык индивидуальной работы;

Развитие коммуникативных УУД.

Оборудование: проектор, презентация «Визуализация информации в текстовых документах», ПК, карточки с практической работой, тетрадь, учебник.

Структура урока:

Организационный этап.

Актуализация знаний.

Изложение нового материала.

Первичное закрепление (практическая работа).

Итог урока, рефлексия.

Этапы урока

Задачи этапа

Деятельность учителя

Деятельность учащихся

Формируемые УУД

1.Организационный этап.

Создание благоприятного климата на уроке.

Приветствую учащихся, проверяю готовность к учебному занятию, организую внимание детей.

Приветствуют учителя, проверяют наличие учебного материала на столах, организует свое рабочее место.

Коммуникативные: планирование учебного сотрудничества со сверстниками.

Личностные: психологическая готовность учащихся к уроку, самоопределение.

2. Актуализация знаний.

Актуализация опорных знаний и способов действий. Формулирование темы и цели урока.

На прошлых уроках мы с вами познакомились с двумя видами форматирования: стилевое и прямое. На дом я вам задавала учить все то, что касается форматирования. Начнем с того, что вообще такое форматирование? Ответ детей: процесс его оформления. Какие два способа форматирования существуют? Ответ детей: прямое и стилевое. К чему применяют прямое форматирование, его особенность? Ответ детей: применяют к произвольным символьным фрагментам (символы, слова, строки, предложения) и абзацы. К чему применяют стилевое форматирование, его особенность? Ответ детей: применяют к большим текстам. В чем состоит преимущество стилевого форматирования от прямого? Ответ детей: экономит время, обеспечивает единообразие в оформлении и так далее. Какая существует ориентация листа бумаги? Ответ детей: книжная, альбомная. Какие вы молодцы! Видно, что учили.

Сегодня на уроке мы начинаем новую тему, а вот какую вы мне скажите сами, и в этом вам помогут некоторые изображения, которые вы видите на слайде. И вот каков будет мой наводящий вопрос, какую информацию человек воспринимает лучше? То есть какую информацию нам воспринимать легче? Которая будет что содержать? Ответ: которая содержит списки, диаграммы, картинки. А как называется такая информация, которая содержит списки, картинки, диаграммы, таблицы? Название такой информации получили от слова «глаза». Ответ детей: визуализированная информация. Значит, тема урока какова? Ответ детей: «Визуализация информации в текстовых документах».

Совершенно верно, открываем свои тетради, записываем сегодняшнее число, классная работа и тему урока «Визуализация информации в текстовых документах» (Т, Д).

Отвечают на вопросы по домашнему заданию.

Формулируют тему урока.

Принцип деятельности. УУД: регулятивные (проблемная подача учебного материала).

3. Изложение нового материала.

Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована – организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами). Современные текстовые процессоры предоставляют пользователям широкие возможности визуализации информации в создаваемых документах. Рассмотрим с вами сначала списки . Запишите себе подзаголовок – «Списки» (Т, Д).

Всевозможные перечни в документах оформляются с помощью списков. При этом все пункты перечня рассматриваются как абзацы, оформленные по единому образцу. По способу оформления различают нумерованные и маркированные списки.

Элементы нумерованного списка обозначаются с помощью последовательных чисел, для записи которых могут использоваться арабские и римские цифры. Элементы списка могут быть пронумерованы и буквами – русскими или латинскими. Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов. Особенно часто такие списки используют для описания последовательности действий. Нумерованные списки вы регулярно создаете, заполняя в дневнике расписание уроков на каждый день.

При создании новых, удалении или перемещении существующих элементов нумерованного списка в текстовом процессоре вся нумерация списка меняется автоматически.

Рис.1. Пример нумерованного списка

Элементы маркированного списка обозначаются с помощью знаков-маркеров. Пользователь может выбрать в качестве маркера любой символ компьютерного алфавита, и даже небольшое графическое изображение. С помощью маркированного списка оформлены ключевые слова в начале каждого параграфа вашего учебника.

Рис.2. Пример маркированного списка

Маркированный список используют в тех случаях, когда порядок следования элементов в нем не важен. Например, в виде маркированного списка можно оформить перечень предметов, изучаемых вами в 7 классе.

По структуре различают одноуровневые и многоуровневые списки. Списки в рассмотренных выше примерах имеют одноуровневую структуру. Список, элемент которого сам является списком, называется многоуровневым. Так оглавление вашего учебника информатики является многоуровневым списком. Списки создаются в текстовом процессоре с помощью команды строки меню или кнопок панели форматирования.

Записываем следующий подзаголовок – «Таблицы» (Т, Д).

Для описания ряда объектов, обладающими одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов (граф) и строк. Вам хорошо известно табличное представление расписания уроков, в табличной форме представляются расписание движения автобусов, самолетов, поездов и так далее.

Представленная в таблице информация наглядна, компактна и легко обозрима. Таблица может содержать не только символы и текст, но и какие-то графические изображения. Пример на доске.

Создать таблицу можно с помощью соответствующего пункта меню или кнопки на панели инструментов, указав необходимое число столбцов и строк; в некоторых текстовых процессорах таблицу можно «нарисовать». Созданную таблицу можно редактировать, изменяя ширину столбцов и высоту строк, добавляя и удаляя столбцы и строки, объединяя и разбивая ячейки. Вводить информацию в таблицу можно так: с помощью клавиатуры, копировать и вставлять заранее подготовленные фрагменты.

Внешний вид таблицы можно оформить самостоятельно, подобрав тип, ширину и цвет границ ячеек, цвет фона ячеек, отформатировав содержимое ячеек.

Как я уже говорила, таблица может содержать не только текст, но и графическое изображение. Готовые графические изображения можно редактировать, изменяя их размеры, основные цвета, яркость и контрастность, поворачивая и так далее.

Во многих текстовых процессорах имеется возможность непосредственного создания графических изображений из наборов автофигур. Так же есть возможность создания красочных надписей с использованием встроенных текстовых эффектов. Визуализировать числовую информацию, содержащуюся в таблице, можно с помощью диаграмм, средства, создания которых также включены в текстовые процессоры.

Эта вся теория, которая необходима вам для визуализации информации. Ваши вопросы, что вам непонятно? Может что-то еще нужно повторить? Учитель отвечает на вопросы детей.

Теперь я предлагаю вам выполнить практическую работу, цель которой – научиться строить таблицы, применять к тексту нумерованные и маркированные списки.

Слушают внимательно учителя и конспектируют важные моменты.

Обсуждают таблицу.

Познавательные:

извлечение необходимой информации из сказанного учителем.

Регулятивные:

планирование своей деятельности для решения поставленной задачи, контроль полученного результата, коррекция полученного результата

Личностные:

развитие внимания, зрительной и слуховой памяти, возможность самостоятельно осуществлять деятельность обучения.

4. Первичное закрепление (практическая работа).

Закрепить полученный материал практической работой.

Рассаживаемся за компьютеры, и я вам сейчас раздам листочки с практической работой. Если возникнут вопросы, спрашивайте.

Приложение 1 (практическая работа).

Выполняют практическую работу на компьютерах.

Познавательные:

выбор наиболее эффективных способов выполнения практической работы

Личностные:

формирование умений внедрять таблицы, списки в текст.

5. Итог урока,

Подведение итогов урока,

Ребята, давайте с вами подведем итог нашего урока. Что для вас было новым на уроке? Возникали ли у вас трудности при выполнении практической работы? Достаточно ли теоретического материала вы услышали на уроке? Каким было вашего настроение до урока и каким стало после окончания урока?

Открываем дневники и записываем домашнее задание – стр.168-172 учить параграф 4.4. Все, все свободны! До свидания!

Подводят итог урока, отвечают на вопросы.

Записывают домашнее задание.

Познавательные:

контроль и оценка процесса и результатов деятельности.

Личностные:

умение подвести итог, оценить свою работу.

информация о домашнем задании.

	ФИО	Шевяхова Марина Анатольевна
	Место работы	МОУ «Лицей №7»
	Должность	Учитель информатики
	Предмет	технология
	Класс	7Л класс
	Тема и номер урока в теме	Обработка текстовой информации 7 урок
	Базовый учебник	Информатика. Л.Л. Босова, А.Ю.Босова

8. Цель урока: познакомить с понятием визуализации информации в текстовых документах.

9. Результаты обучения:

Предметные – умения использования средств структурирования и визуализации текстовой информации;

Метапредметные – широкий спектр умений и навыков использования средств информационных и коммуникационных технологий для создания текстовых документов;

Навыки рационального использования имеющихся инструментов;

- формирование УУД (личностных, регулятивных, познавательных);

- развитие способности анализировать и обобщать, делать выводы; расширение кругозора.

Личностные – понимание социальной, общекультурной роли в жизни современного человека навыков создания текстовых документов;

Воспитание усидчивости, самостоятельности, интереса к предмету;

Развитие коммуникативных УУД.

10.Тип урока: урок ознакомления с новым материалом

11.Формы работы учащихся: фронтальная, работа в парах, самостоятельная работа

12. Необходимое оборудование: проектор, экран, компьютеры учеников

13. Основные понятия: информация, визуализация, списки маркированные и нумерованные, одноуровневые, многоуровневые, таблица, облако тегов.

14. Структура урока:

Организационный этап – 1 мин;
Актуализация знаний. Постановка учебных задач – 7 мин;
Совместное исследование проблемы (Открытие новых знаний) – 8 мин;
Моделирование (Работа в группах) – 5 мин;
Конструирование нового способа действия (Практическая работа)

Часть 1 – 5 мин
Часть 2 – 8 мин
Часть 3 – 7 мин;

Подведение итогов , рефлексия – 3 мин;
Информация о домашнем задании – 1 мин.

15. Ход урока

Этап	Задачи этапа	Деятельность учителя	Деятельность учащегося	Универсальные учебные действия
Организационный этап	Психологически подготовить уч-ся к работе на учебном занятии .	Приветствую ребят. Обеспечиваю нормальную внешнюю обстановку для работы на учебном занятии;	Готовятся к работе на уроке	Регулятивные УУД: Умение готовить рабочее место для выполнения разных видов работ
Актуализация знаний Постановка учебных задач	Создать проблемную ситуацию для определения границу знаний учащихся и постановки новой учебной задачи	Организую погружение в проблему, создает ситуацию для определения школьниками границы собственного знания	Слушают учителя, вступают в диалог с учителем, высказывают предположения Определяют учебные задачи, которые необходимо будет решить на уроке	Коммуникативные: умение формулировать собственное мнение, умение организовывать и планировать учебное сотрудничество с учителем Познавательные: умение давать определение понятиям; Регулятивные : умение преобразовывать практическую задачу в познавательную
Совместное исследование проблемы	Организовать поиск решения учебной задачи.	Просмотр видеоролика Фиксирую выдвинутые учениками гипотезы, организует их обсуждение.	Анализируют увиденное, вносят предложения	Коммуникативные : - устанавливать рабочие отношения, эффективно сотрудничать Регулятивные : умение исследовать условия учебной задачи, определять порядок действий при решении проблемы; осознанно строить речевые высказывания, обсуждать способы решения учебной задачи; анализировать, доказывать, аргументировать свою точку зрения
Моделирование	Зафиксировать в модели существенные отношения изучаемого объекта Презентация 1	Обращаю внимание школьников на те способы действия с учебным материалом, которые помогли найти нужную информацию и систематизировать ее. Предлагаю на основе полученной информации дать научное определение понятия «Визуализация информации» Введение понятий: списки маркированные, нумерованные. В каких случаях будем пользоваться нумерованным списком? А маркированным? По структуре различают одноуровневые и многоуровневые списки. Рассмотрим оглавление нашего учебника и художественной книги… Работа в парах: Решить задачу Что будем использовать для визуализации информации? (Приложение 1)	Сравнивают, определяют общие признаки, систематизируют полученную информацию и фиксируют ее Высказывают предположения об использованных ими способах действия с учебным материалом Дают научное определение визуализации информации Делают выводы, отвечают Рассматривают, дают определение Таблицу. Решают задачу	Познавательные УУД: умение на основе анализа объектов и текстового материала делать выводы; Коммуникативные УУД: Умение строить речевое высказывание в соответствии с поставленными задачами; Регулятивные УУД: Умение высказывать своё предположение на основе работы с материалом; Познавательные УУД: умение находить ответы на вопросы, используя разные источники информации; Коммуникативные УУД: Умение оформлять свои мысли в устной форме
Конструирование нового способа действия	Создать условия для использования новых способов действия с учебным материалом в практической работе	Объяснение практической работы Часть 1 – совместно (Приложение 2) Часть 2 – самостоятельно, с проверкой (Приложение 3) Введение понятие «Облако тегов» Часть 3 – по алгоритму создать свое облако ключевых слов по теме урока (Приложение 4)	Выполняют практическую работу, применяя полученные знания. Участвуют в коллективном обсуждении результатов своей работы Рассуждают, дают определение «Облако тегов»	Регулятивные УУД: умение высказывать своё предположение на основе работы с материалом; организовывать свою деятельность для проведения наблюдений; Личностные УУД: развитие интереса к учебно-исследовательской деятельности; Познавательные УУД: умение находить ответы на вопросы, используя разные источники информации
Подведение итогов. Рефлексия	Установить соответствия между поставленными задачами урока и результатом работы школьников, внести коррективы.	Организую рефлексию учебной деятельности учащихся	Проводят самоанализ учебной деятельности	Регулятивные УУД: умение осуществлять познавательную и личностную рефлексию;
Информация о домашнем задании		Предлагаю домашнее задание и комментирует его выполнение	Задают вопросы по домашнему заданию	Регулятивные УУД: умение задавать вопросы, необходимые для организации собственной деятельности

Приложение 1.

Задача 1.

Боря, Витя, Гриша и Егор встретились на Всероссийской олимпиаде по информатике. Ребята приехали из разных городов: Москвы, Омска, Саранска и Кирова. Известно, что Боря жил в одной комнате с мальчиком из Кирова и ни один из этих двух мальчиков никогда не был ни в Москве, ни в Саранске. Гриша играл в одной команде с мальчиком из Москвы, а вечерами к ним заходил приятель из Кирова. Егор и мальчик из Москвы увлекались игрой в шахматы. Кто из ребят откуда приехал?

Решение

	Москва	Омск	Саранск	Киров
Боря
Витя
Гриша
Егор

Приложение 2.

Часть I

Открыть файл Часть I в папке 7 класс. Определить название списка. Сделать информацию визуальной

Процессор

Память

Оперативная память

Долговременная память

Жесткий магнитный диск

Дискета

Флэш-память

Оптические диски

Устройства ввода

Клавиатура

Мышь

Сканер

Графический планшет

Цифровая камера

Микрофон

Джойстик

Устройства вывода

Монитор

Жидкокристаллический монитор

Монитор на электронно-лучевой трубке

Принтер

Матричный принтер

Струйный принтер

Лазерный принтер

Приложение 3.

Часть II

Создайте текстовый документ, используя маркированные и нумерованные списки.

Способы выравнивания строк абзаца

Влево
По центру
Вправо
По ширине

Информация в таблице

Наглядна
Компактна
Легко обозрима

Заголовок

Глава 1

Параграф 1
Параграф 2

Глава 2
Глава 3

Параграф 1
Параграф 2
Параграф 3

Глава 4

Приложение 4 .

Часть III

Создание Облако тегов

Алгоритм выполнения

10. Нажать Save (сохранить) в формате Image под именем «Мое облако» в личной папке (Сохраняется последняя форма)

Для справки

Any – произвольный, all – любой, Respins (крутиться, вертеть), Theme – тема

Font – шрифт, layout – расположение, макет

Accept –согласиться, zoom – масштаб, skip – пропуск, advanсed – улучшенный

Webpage – страница

shape

submit – представлять, представить

browse – обзор, просмотр

Существует два понимания понятия “визуализация текстов” . В первом понимании, визуализация текстов – это генерация изображений по входному тексту. В приводится такой пример: по тексту, представленному на Рис. 1 требуется построить изображение. При этом, система, генерирующая изображение, должна понимать, что компьютер может стоять только на столе и автоматически добавлять стол на изображение. Среди русскоязычных работ этого направления отметим работу .

Другое понимание понятие “визуализация текстов” предполагает изображение либо элементов текста, либо структур, извлеченных из текста, для образовательных или аналитических нужд. В этом понимании можно выделить несколько различных подходов.

Исторически первый – так называемое облако тегов (tag cloud) . Облако тегов представляет собой множество ключевых слов или словосочетаний – тегов, извлеченных из текста, изображенных на плоскости. Размер каждого тега зависит от частоты или любой другой частотной характеристики тега. Облако тегов может иметь любую форму: действительно облака или, например, звездочки.

Рис. 2, источник: https://uniqons.wordpress.com

Иногда цветом на облаке тегов отмечают какие-нибудь важные характеристики, например, авторство. На Рис. 3 голубым отображены слова из предвыборной программы Обамы, коричневым – Маккейна. Облака тегов позволяют получить общее представление о содержании текста или коллекции текстов. Например, в облака тегов используются для визуализации частых слов в позитивных или негативных твитах, посвященных предвыборной кампании 2012 г. в США. Одно из развитий идеи облака тегов представлено в : облака Вена , которые используются для демонстрации контраста между двумя коллекциями текстов.

Рис. 3, источник: http://www.planetizen.com/

Рис. 4, Три примера облаков Вена. В левой части частые слова из твитов, содержащих слово “Orioles” (бейсбольная команда), в правой – “Nationals”. По середине расположены общие для обеих коллекций слова.

Второй подход к визуализации текстов – это визуализация элементов текстов и теоретико-множественных, алгебраических или статистических отношений между ними. Как правило, в рамках этого подхода текст или коллекция текстов представляется графом, в котором вершины – ключевые слова или словосочетания или понятия, выделенные из текстов, соединенные ребрами по каким-то принципам. Например, в составляется панорама тем – графом из трех соединенных компонент (см. Рис. 5), каждая доля соответствует одному источнику, узлы подписаны ключевыми словами или словосочетаниям. В графе есть два типа ребер: внутри одной компоненты, соответствующей одному источнику, узлы соединены в соответствии с взаимной встречаемостью. Второй тип ребер соединяет похожие узлы из разных источников. В строится карта метро (Рис. 6) – визуализация динамических кластеров ключевых слов и словосочетаний.

Рис. 5	Рис. 6

Третий подход к визуализации текстов – это визуализация моделей скрытых тем (latent topics) . Система Serendip выделяет скрытые темы в тексте и подсвечивает слова во входном тексте цветом (Рис. 7). У каждой скрытой темы свой цвет, интенсивность цвета зависит от степени вхождения слова в тему. В скрытые темы представлены в виде облаков тегов (Рис. 8).

Рис. 7	Рис. 8

Наша работа по построению графа референций принадлежит ко второму подходу. В графе референций узлы – это ключевые слова или словосочетания, а направленные ребра вида A->B задают отношение вида “если встречается A, то встречается B”, то есть, “B встречается в контексте A”.

Chang, Angel X., Manolis Savva, and Christopher D. Manning. "Semantic parsing for text to 3d scene generation." ACL 2014 (2014): 17.
Усталов, Дмитрий, и Александр Кудрявцев. "Применение онтологии при синтезе изображения по тексту." Доклады всероссийской научно–практической конференции Анализ Изображений, Сетей и Текстов. М.: Национальный Открытый Университет ИНТУИТ. 2012
Coupland D. (1996), Microserfs, Flamingo
Wang, H., Can, D., Kazemzadeh, A., Bar, F., & Narayanan, S. (2012, July). A system for real-time twitter sentiment analysis of 2012 us presidential election cycle. In Proceedings of the ACL 2012 System Demonstrations (pp. 115-120). Association for Computational Linguistics.
Coppersmith, G., & Kelly, E. (2014). Dynamic Wordclouds and Vennclouds for Exploratory Data Analysis. Sponsor: Idibon, 22.
Liu, S., Wang, X., Chen, J., Zhu, J., & Guo, B. (2014, October). TopicPanorama: A full picture of relevant topics. In Visual Analytics Science and Technology (VAST), 2014 IEEE Conference on (pp. 183-192). IEEE.
Shahaf, D., Yang, J., Suen, C., Jacobs, J., Wang, H., & Leskovec, J. (2013, August). Information cartography: creating zoomable, large-scale maps of information. In Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1097-1105). ACM.
Alexander, E., Kohlmann, J., Valenza, R., Witmore, M., & Gleicher, M. (2014, October). Serendip: Topic model-driven visual exploration of text corpora. In Visual Analytics Science and Technology (VAST), 2014 IEEE Conference on (pp. 173-182). IEEE.
Smith, A., Chuang, J., Hu, Y., Boyd-Graber, J., & Findlater, L. (2014). Concurrent Visualization of Relationships between Words and Topics in Topic Models. Sponsor: Idibon, 79.